O Core i7 marca a introdução do Nehalem, baseado em uma arquitetura com muitas modificações em relação ao Penryn e aos processadores anteriores, incluindo um controlador de memória integrado e a tão esperada migração do FSB para um barramento serial ponto-a-ponto, uma nova arquitetura servirá de base para os processadores Intel dos próximos anos.
O Core i7 marca a introdução do Nehalem, baseado em uma arquitetura com muitas modificações em relação ao Penryn e aos processadores anteriores, incluindo um controlador de memória integrado e a tão esperada migração do FSB para um barramento serial ponto-a-ponto, duas melhorias que foram introduzidas anos antes pela AMD, às quais a Intel vinha resistindo até então. Embora o Core i7 seja um processador de nicho, destinado ao mercado high-end, a nova arquitetura servirá de base para os processadores Intel dos próximos anos.

Começando com um pouco de contexto histórico, no início de 2006 a Intel estava em uma situação complicada. O Pentium D, baseado na ineficiente arquitetura NetBurst perdia para o Athlon X2 tanto em termos de desempenho quanto em termos de eficiência, gastando muita energia e rendendo pouco.
Na época, os processadores AMD eram superiores tanto nos desktops quanto nos servidores e a Intel perdia terreno rapidamente em ambas as frentes. Quando tudo parecia perdido, a Intel apresentou a arquitetura Core, que deu origem ao Core 2 Duo e aos demais processadores da linha atual, com os quais conseguiram virar a mesa.
Para não repetir o erro que cometeu com a plataforma NetBurst, a Intel passou a investir massivamente em pesquisa e desenvolvimento, passando a desenvolver diversas novas arquiteturas em paralelo e a investir pesado no desenvolvimento de novas técnicas de fabricação e na modernização de suas fábricas.
O departamento de marketing se apressou em criar um termo que simboliza a nova fase, o "tick-tock" que passou a ser exaustivamente usado dentro do material publicitário da Intel. A ideia é simples: apresentar novas arquiteturas e novas técnicas de fabricação em anos alternados, onde um "tick" corresponde ao lançamento de uma nova arquitetura (como o Penryn e o Nehalem) enquanto o "tock" corresponde ao lançamento de uma nova técnica de fabricação (45 nanômetros ou 32 nanômetros, por exemplo), fechando o ciclo.
O plano é manter o público interessado, anunciando uma nova arquitetura, ou a migração para um novo processo de fabricação uma vez a cada ano e manter um ritmo rápido de evolução, que a AMD tenha dificuldades para acompanhar.
Dentro da ideia, a migração para a técnica de 65 nm em 2005 foi um "tick", o lançamento da plataforma Core, em 2006 foi um "tock" e o lançamento do Penryn em 2007, baseado na nova arquitetura de 45 nm, foi um novo "tick", que foi seguido pelo anúncio do Nahalem (pronuncia-se "nerreilem"), que representa uma nova arquitetura, ainda produzida usando a técnica de 45 nm, mas com diversas mudanças arquiteturais em relação ao Penryn.
Assim como em todos os demais processadores da Intel, o "Nehalem" é apenas o nome-código da arquitetura. Ao chegar efetivamente às prateleiras, ele ganhou o nome de Intel Core i7.
Diferente do Yorkfield, usado nos processadores Core 2 Quad da série Q9000 (obtido através da combinação de dois processadores dual-core, ligados através do FSB), o Nehalem é um processador quad-core nativo, onde os 4 núcleos compartilham a mesma pastilha de silício:

Os 4 núcleos são compostos por nada menos que 731 milhões de transístores, que, mesmo com a técnica de produção de 45 nanômetros, ocupam uma área de 263 mm². Para ter uma ideia, isso corresponde a mais de 10 vezes o tamanho de um Atom 230, que possui apenas 25.9 mm².

Para acomodar os 4 núcleos, a Intel fez várias mudanças na arquitetura dos caches. Em vez de um grande cache L2 compartilhado, optaram por utilizar uma arquitetura similar à utilizada pela AMD no Phenom, com um pequeno cache L2 (de 256 KB) para cada núcleo e generosos 8 MB de cache L3 compartilhados entre todos os núcleos. Dentro da arquitetura, o cache L3 assume a posição que no Core 2 Duo era executada pelo cache L2, servindo como um reservatório comum de dados.
A grande diferença entre o cache do Nahalem e do Phenom reside na forma como os dados são armazenados nos caches. Nos processadores AMD é usado um cache "exclusivo", onde o cache L2 armazena dados diferentes do cache L1 e o L3 armazena dados diferentes dos do L2, maximizando o espaço de armazenamento. A Intel, por outro lado, utiliza um sistema "inclusivo" onde os cache L1 e L2 armazenam cópias de dados também armazenados no cache L3.
Embora reduza o volume total de dados que pode ser armazenado nos caches, o sistema da Intel oferece um pequeno ganho de desempenho, já que cada núcleo não precisa checar o conteúdo dos caches dos demais em busca de dados; basta verificar seu próprio cache L1 e L2 e, em seguida, o cache L3 compartilhado.
Outro motivo para o uso do cache inclusivo são os novos estágios de baixo consumo (C3 e C6) suportados pelo processador, onde alguns (ou mesmo todos os núcleos) são completamente desligados, reduzindo o consumo a um patamar bastante baixo, mas em troca causando a perda dos dados armazenados nos cache L1 e L2. Como o cache L3 é independente dos 4 núcleos, ele permanece ativo, permitindo que os núcleos recarreguem os caches a partir do L3 ao acordarem, sem que o processador precise executar operações de checagem, nem que precise buscar os dados novamente na memória RAM.
É nesse ponto que os investimentos da Intel em novas técnicas de produção se pagam, já que com transístores menores, eles podem se dar ao luxo de fabricar processadores maiores e com mais cache, compensando a perda de espaço causada pelo uso do sistema exclusivo com um volume maior de cache.
O cache L1 continua sendo dividido em dois blocos (32 KB para dados e 32 KB para instruções), assim como em todos os processadores anteriores, mas houve um aumento na latência de acesso, que subiu de 3 para 4 ciclos em relação ao Penryn. A perda de desempenho é compensada pela redução na latência do cache L2, que caiu consideravelmente, de 15 para 11 ciclos.
Essa redução no tempo de acesso é uma das justificativas da Intel para o uso de um cache L2 tão pequeno. Com apenas 11 ciclos de acesso, ele funciona mais como um cache nível "um e meio", que serve como um intermediário entre o cache L1 e o grande bloco de cache L3 compartilhado.
O cache L3 trabalha com uma latência de 36 ciclos (nos Core i7 da série XE) a 41 ciclos (nos demais modelos), o que pode parecer bastante se comparado com a latência dos caches L1 e L2, mas é um pouco mais rápido do que o cache L3 usado no Phenom, que além de menor, trabalha com uma latência de 43 ciclos. Ao fazer overclock, é possível aumentar a frequência de operação do cache L3 (vinculado à frequência do "uncore"), o que permite obter tempos de latência ligeiramente mais baixos.
utra mudança dramática é a inclusão de um controlador de memória integrado, assim como temos nos processadores AMD. O controlador de memória integrado reduz substancialmente o tempo de latência da memória, resultando em um ganho de desempenho considerável. Um dos grandes motivos o Athlon X2 ter se mantido competitivo em relação ao Core 2 Duo, apesar de possuir bem menos cache, era justamente devido ao fato de utilizar o controlador dedicado, enquanto o Core 2 Duo dependia do trabalho do chipset.
A grosso modo, podemos dizer que o Athlon X2 precisa acessar a memória com mais frequência (devido ao cache menor) mas que em compensação perde menos tempo a cada acesso devido ao controlador de memória integrado. A Intel bem que resistiu, mas acabou tendo que ceder à ideia.
Em vez de utilizar um controlador single-channel, ou dual-channel, a Intel optou por utilizar um controlador triple-channel, com suporte a memórias DDR3, operando a até 1.33 GHz. Isso significa uma banda total de até 32 GB/s (ao utilizar 3 módulos). Para ter uma ideia, isso é 40 vezes mais do que tínhamos há 10 anos, quando utilizávamos módulos de memória SDR PC-100 em conjunto com o Pentium III.
Os três canais operam de forma independente, de forma que o processador pode iniciar uma nova leitura em um dos módulos enquanto ainda espera os dados referentes a uma leitura anterior, realizada em outro módulo. Isso contribui para reduzir o tempo de latência do acesso à memória, que é, proporcionalmente, muito mais alto nos módulos DDR3.
Naturalmente, para tirar o melhor benefício do triple-channel, é necessário usar os módulos em trios. Ao usar um único módulo, apenas um dos canais será ativado e, ao usar quatro, o último módulo compartilhará o mesmo canal com o primeiro.

O problema com o controlador integrado é que ele aumenta substancialmente o número de contatos do processador, o que quebra completamente a compatibilidade com as placas soquete 775.
O Core i7 utiliza um soquete LGA com nada menos do que 1366 contatos. Até mesmo o formato do processador mudou, passando a ser retangular, assim como no antigo Pentium Pro:


Acompanhando as mudanças no processador, foi lançado também um novo chipset, o X58, que faz par com o ICH10, que concentra as interfaces de I/O.
Como o controlador de memória foi movido para dentro do processador, o X58 é um chipset relativamente simples, que serve basicamente como uma interface entre o barramento QPI do processador, os periféricos PCI Express e o chip ICH10 (acessado através de um barramento DMI), que concentra as outras interfaces. Os transístores referentes às linhas PCI Express ocupam a maior parte do die do chipset e é por isso que ele continua ocupando uma área relativamente grande.
Outra novidade é que o X58 é certificado pela nVidia para uso de SLI (ou seja, o primeiro pelo qual a Intel aceitou pagar a licença), o que permite o desenvolvimento de placas que sejam simultaneamente compatíveis com o SLI e com o CrossFire X. Como estamos falando do topo do mercado high-end aqui, onde se paga US$ 999 pelo processador e mais US$ 400 pela placa-mãe, o suporte a SLI acaba sendo um recurso importante.
Uma observação é que as placas precisam passar por um processo de certificação para poderem oferecer o suporte a SLI, processo que inclui o pagamento de cerca de US$ 5 por placa produzida a título de royalties para a nVidia. Com isso, nem todas as placas baseadas no X58 oferecem suporte ao SLI, muito embora ele esteja disponível no chipset.

A principal observação é que triple-channel está disponível apenas nos processadores da família i7, que são destinados a servidores e estações de trabalho de alto desempenho. Os processadores destinados a desktop (os Core i5, baseados no core Lynnfield) possuem apenas dois canais ativos. A mudança se reflete no soquete, que possui um número menor de contatos.
Um dos fatores que permitem que o Core 2 Duo supere a maioria dos processadores AMD atuais clock por clock é o fato de os processadores serem capazes de processar 4 instruções por ciclo (4 issue), contra 3 dos processadores AMD. Naturalmente, existem muitos outros fatores a se considerar (a eficiência dos circuitos de branch prediction, o tamanho e velocidade dos caches e assim por diante), mas as 4 instruções por ciclo oferecem uma vantagem considerável.
O Nehalem mantém o processamento de 4 instruções, mas adiciona uma série de refinamentos arquiteturais, que permitem que as unidades de execução sejam alimentadas com um volume maior de dados, reduzindo o tempo em que elas ficam ociosas esperando por dados armazenados nos caches ou pelo resultado de uma operação de branch prediction, por exemplo. Isso resulta em um ganho de eficiência considerável em relação ao Penryn.
Além das mudanças nos caches e a adição do controlador de memória, outra mudança é a substituição do antigo FSB por um barramento aprimorado, batizado de QuickPath Interconnect, ou QPI.
O FSB (front-side bus, ou barramento frontal), tem sido utilizado desde os primeiros processadores Intel. Ele consiste um um barramento compartilhado, que liga o processador ao chipset, como você pode ver nesse diagrama da Intel:

Como ele é usado não apenas para a comunicação entre os núcleos do processador e a memória, mas também para a comunicação entre os 2 ou 4 núcleos do processador, ele acaba estrangulando o acesso à memória, prejudicando o desempenho do sistema. O problema se agrava ao usar vários processadores em SMP, como no caso das placas para servidores, ou na plataforma Skultrail
Até o Penryn a Intel remediou o problema na base da força-bruta, simplesmente adicionando mais cache L2 aos processadores. Com o QuickPath, resolveram atacar a raiz do problema, substituindo o FSB por um barramento modernizado, composto por links independentes que operam a 4.8 ou 6.4 GT/s (a siga "GT/s" indica o volume de transações por segundo, diferente de "GHz", que indica o clock), com a transmissão de 16 bits de dados em cada direção por ciclo, resultando em um barramento de 9.6 ou 12.8 GB/s em cada direção (25.6 GB/s no total) por linha de dados.
Como a memória é agora acessada diretamente pelo controlador de memória, este link fica inteiramente disponível para o tráfego de I/O. Ao utilizar dois processadores, cada processador passa a se comunicar com o chipset através de uma linha independente e uma terceira linha de dados é implantada para coordenar a comunicação entre os dois:

Ao usar 4 processadores (possibilidade que deverá ser bem explorada no caso dos servidores de alto desempenho) são incluídos barramentos adicionais, que fazem com que cada processador tenha acesso direto a todos os demais:

Se você acompanhou a evolução dos processadores da AMD nos últimos anos, vai notar uma grande semelhança entre o QuickPath e o HyperTransport, usado nos processadores AMD. Obviamente, não se trata de mera coincidência. A Intel estudou os pontos fortes da solução da AMD e acabou chegando a uma solução adaptada à sua arquitetura. Como dizem, a cópia é a forma mais sincera de elogio.
Com relação ao processamento das instruções, uma novidade importante é o Loop Stream Detector (LSD), um controlador adicional que vasculha as instruções decodificadas antes que elas cheguem ao processador, localizando instruções referentes a loops de processamento.
Em vez de reprocessar as instruções do loop repetidamente, o processar armazena as instruções em um pequeno cache interno e as executa a partir daí. Além de permitir ganhar tempo, isso reduz sutilmente o consumo elétrico, pois permite desativar o circuito de branch prediction, juntamente com as unidades fetch e decode durante o processamento do loop:

No Conroe (usado na geração inicial do Core 2 Duo), a Intel inaugurou o uso do "macro-ops fusion", que permite que algumas instruções específicas sejam fundidas durante a fase de decodificação e processadas como uma única instrução, resultando em um pequeno ganho de desempenho. No Conroe o macro-ops fusion funcionava apenas com instruções de 32 bits, mas o Nehalem ganhou suporte à fusão de instruções de 64 bits, o que é uma boa notícia para quem já fez ou pretende fazer a migração para um sistema de 64 bits.
O Nehalem marca também a volta do Hyper Threading, chamado agora de SMT (Simultaneous Multi-Threading) o que faz com que o processador se apresente ao sistema operacional como tendo 8 núcleos em vez de 4. Naturalmente, o SMT não dobra o desempenho do processador, servindo apenas como um recurso extra que permite que ele aproveite melhor os recursos de processamento, processando dois threads simultaneamente sempre que possível.
Se você acompanhou a era do Pentium 4, talvez não tenha boas lembranças do Hyper Threading, já que ele reduzia o desempenho do processador em algumas operações e aumentava consideravelmente o consumo elétrico. No caso do Nehalem, entretanto, a função passou por uma série de melhorias, tornando-se mais eficiente. Além das otimizações, alguns outros fatores importantes são:
a) O Nahalem possui um controlador de memória integrado e caches muito maiores, o que garante um fluxo de dados muito maior. Isso é um pré-requisito para uma boa eficiência ao usar o SMT, já que ao processar dois threads simultaneamente, cada núcleo precisa ser alimentado com dados referentes a ambos.
b) Hoje em dia temos um volume muito maior de softwares otimizados para o processamento simultâneo de vários threads, diferente do que tínhamos na época do Pentium 4.
O ganho ao utilizar o SMT no Nehalem fica abaixo dos 10% na maioria das tarefas (em algumas situações, pode haver até mesmo uma pequena perda), mas existem alguns casos específicos onde ele representa ganhos expressivos, como no caso do 3DMark, onde o ganho chega aos 35%, o que não é nada ruim, considerando que ele consiste em aproveitar ciclos de processamento que de outra forma seriam desperdiçados.
Além da questão do desempenho, existe também um pequeno ganho do ponto de vista do consumo elétrico, já que ao executar as tarefas mais rápido, o processador passa mais tempo em modo de baixo consumo. É de se observar que a Intel tem utilizado o SMT também no Atom, pelo mesmo motivo.
Ao contrário do deselegante Kentsfield (usado na primeira geração do Core 2 Quad), onde todos os núcleos operam sempre à mesma frequência e usando a mesma tensão, o Nehalem oferece um sistema de gerenciamento um pouco mais elegante, onde os núcleos continuam operando à mesma frequência, mas podem ser configurados com tensões diferentes, de acordo com o nível de utilização. Os núcleos ociosos são colocados em um estágio de baixo consumo, onde são quase inteiramente desligados, o que permite que o processador fique com apenas um dos núcleos ativos ao executar tarefas leves, ativando e desativando os outros núcleos conforme necessário.
O gerenciamento é feito com a ajuda do PCU (Power Control Unit), um controlador dedicado, que possui seu próprio firmware e seus próprios circuitos de processamento e é dedicado unicamente à tarefa de monitorar as requisições do sistema e os níveis de utilização dos núcleos, tomando as decisões com relação aos clocks e tensões usadas por cada um.
O PCU ocupa uma área moderadamente grande do processador, com nada menos do que um milhão de transístores. É como se o Nehalem tivesse um 486 integrado, dedicado unicamente ao gerenciamento de energia.
Outra mudança importante é o Turbo Boost, no qual o processador pode aumentar a frequência de operação quando apenas um ou dois dos núcleos estiverem ativos, em uma espécie de overclock automático.
Tradicionalmente, processadores single-core ou dual-core operam a frequências ligeiramente superiores aos processadores quad-core, o que permite que eles deem combate ou até mesmo superem os sucessores em aplicativos com um baixo nível de paralelismo, como no caso da maioria dos jogos. Sem dúvidas, a Intel não gosta muito de ver um simples Pentium E overclocado superar um caro Core 2 Quad em alguns testes.
Com o Turbo Boost, o Nehalem pode ser "convertido" em um processador single-core, dual-core ou triple-core em situações em que o pequeno aumento no clock compense a desativação dos núcleos adicionais, tapando esta última lacuna. Outro ponto de vista seria ter o Turbo Boost como um sistema de overclock "suportado", que permite que mesmo quem não pensa em fazer overclock possa se beneficiar de uma parte do potencial oculto do processador.
O aumento da frequência é controlado pelo PCU, que monitora o nível de utilização, decidindo em que situações ele pode ser aplicado. A regra básica é que o aumento é feito apenas em situações em que resulta em um ganho tangível de desempenho (já que aumenta o consumo elétrico) e apenas quando o processador está operando confortavelmente abaixo do TDP e da temperatura máxima.
Nas versões iniciais, o Turbo Boost é capaz de aumentar o clock em duas unidades (266 MHz) caso apenas um dos núcleos esteja ativo e em apenas 133 MHz caso dois ou mais estejam em atividade, mudança que é feita através do aumento do multiplicador (sem afetar a frequência dos demais componentes).
Estes pequenos aumentos equivalem apenas a um overclock leve, mas versões posteriores devem trazer aumentos mais significativos. É possível também desativar o Turbo Boost através do Setup, o que é importante ao fazer overclock, já que com o processador operando mais perto do limite, qualquer aumento adicional pode ser suficiente para desestabilizar o sistema.
Uma perspectiva sombria é que versões mais agressivas do Turbo Boost podem marcar o início do fim para os overclocks, já que com o processador passando a ajustar a frequência de operação dinamicamente entre, digamos, 2.66 e 4.0 GHz, não fará muito sentido arcar com o maior consumo e a necessidade de usar um cooler superdimensionado para manter o processador trabalhando a 4.0 GHz o tempo todo.
Um dos motivos por trás das mudanças arquiteturais do Nehalem é o mercado de servidores. A arquitetura do Core 2 Duo e derivados é derivada do Banias, que foi desenvolvido como um chip de baixo consumo para portáteis. Eles oferecem uma relação desempenho/consumo muito boa e são competitivos em relação aos processadores da AMD, mas o legado mobile pesa em algumas situações, sobretudo com relação à virtualização e desempenho em banco de dados, dois nichos importantes dentro da área dos servidores, nos quais a AMD ainda permanecia forte em relação ao Penryn.
Com o Nehalem, a Intel trabalhou em eliminar estes gargalos de desempenho, criando uma arquitetura que pode ser beneficiada por aumentos nos caches e outras melhorias que serão introduzidas com a migração para a arquitetura de 32 nanômetros em 2010.

Os primeiros processadores baseados no Nehalem receberam o codenome Bloomfield. Inicialmente, ele deu origem a apenas três processadores, o i7-920, i7-940 e o i7-965 XE, que foram seguidos pelo i7-950 e o i7-975 XE:
Core i7-975 XE: 3.33 GHz, 8 MB, DDR3-1333, TDP de 130W, multiplicador destravado
Core i7-965 XE: 3.20GHz, 8MB, DDR3-1333, TDP de 130W, multiplicador destravado
Core i7-950: 3.06 GHz, 8 MB, DDR3-1066, TDP de 130W
Core i7-940: 2.93GHz, 8MB, DDR3-1066, TDP de 130W
Corei 7-920: 2.66GHz, 8MB, DDR3-1066, TDP de 130W
Como pode ver, os três processadores oferecem basicamente as mesmas características, mudando apenas o clock, que por sinal continua estacionado na casa dos 3 GHz, marca que foi atingida na época do Pentium 4. Isso acontece devido à simples questão da dissipação térmica. Seria possível fabricar processadores com clock muito maior com tecnologia atual, mas o consumo e a dissipação térmica seriam inviáveis, como ficou bem claro no final da era Pentium 4.
Um bom exemplo disso é a decisão da Intel em utilizar transístores CMOS estáticos no Nehalem, em vez de empregar circuitos domino logic, como em todos os processadores anteriores (até o Penryn). Em resumo, o domino logic permite obter circuitos capazes de operar a frequências muito mais altas, mas que em troca consomem mais energia, enquanto o CMOS resulta em circuitos de baixo consumo.
Esta mudança não trás nenhum benefício do ponto de vista do desempenho (pelo contrário, ela limita um pouco as frequências suportadas, atrapalhando quem pretende fazer overclocks mais agressivos) mas ela é positiva do ponto de vista da eficiência, permitindo que o processador opere dentro da marca dos 130 watts de TDP mesmo quando em full-load.
Em outras palavras, a Intel optou por se concentrar em otimizar a arquitetura e em reduzir o consumo dos processadores, em vez de simplesmente tentar ganhar na base da força bruta, aumentando o clock.
Como em outros processadores da Intel, o TDP das especificações indica apenas o consumo máximo dos processadores, servindo como uma referência para os fabricantes de coolers, fontes e placas-mãe, por isso acaba não sendo muito significativo. Em situações normais de uso, os recursos de gerenciamento de energia entram em ação, mantendo o consumo em níveis bem mais baixos.
Outra observação importante é com relação à frequência da memória. A Intel foi bastante conservadora ao adotar o DDR3-1066 como padrão nos modelos fora da série XE, muito embora a maioria dos módulos no mercado suportem frequências muito maiores.
Isso tem um motivo: a preocupação em popularizar rapidamente os módulos DDR3, abrindo assim o caminho para o crescimento da plataforma. A popularização de qualquer nova tecnologia passa pelo crescimento da produção e a queda do custo e módulos DDR3-1066 são muito mais simples e baratos de se produzir do que módulos mais rápidos.
Outro motivo por trás da decisão tem a ver com as tensões. Quase todos os módulos capazes de operar a 2 GHz ou mais utilizam tensões acima de 2 volts, muito acima da tensão nominal dos módulos DDR3 que é de apenas 1.5V. Assim como no caso dos processadores, aumentar a tensão da memória permite que os módulos sejam capazes de operar a frequências um pouco mais altas, mas trás como desvantagens o aumento no consumo elétrico e uma redução substancial na vida útil dos módulos.
A corrida em torno de módulos DDR3 mais rápidos, destinados ao público entusiasta fez com que os fabricantes passassem a vender módulos overclocados, privilegiando a frequência e o desempenho em benchmarks, em detrimento da vida útil dos módulos.
Com o i7, a Intel resolveu "começar de novo", incentivando os fabricantes a produzirem módulos mais lentos, porém capazes de trabalharem dentro das tensões nominais. Naturalmente, é possível usar módulos mais rápidos ou mesmo fazer overclock da memória; entretanto, a Intel passou a advertir que o uso de tensões acima de 1.65V nos processadores da plataforma Core i7 pode danificar o controlador de memória depois de algum tempo de uso, inutilizando o processador.
Muitos dos recursos introduzidos pelo Nehalem, incluindo a possibilidade de usar 4 processadores (nada menos do que 16 núcleos) são destinados ao mercado de servidores, onde cresce a demanda por máquinas capazes de rodar centenas de máquinas virtuais simultaneamente e de processar bancos de dados com vários gigabytes em tempo hábil.
Em um desktop, o uso de múltiplos processadores não faz tanto sentido (afinal, poucos aplicativos são capazes se utilizar todo o potencial de 4 núcleos, o que dizer de 16), o que faz com que a discussão recaia mais sobre os ganhos de desempenho dos Core i7 em relação aos processadores anteriores. As mudanças introduzidas pelo Nehalem são positivas mas, para a maioria, o mais importante acaba sendo o custo.
Com isso, chegamos ao Lynnfield, uma versão desktop do Nehalem, que deu origem ao Core i5 e aos Core i7 da série 8xx, versões quad-core mais baratas, que complementam os modelos da série 9xx e 9xx XE baseados no Bloomfield. Eles utilizam um controlador de memória dual-channel, abandonam o suporte a múltiplos processadores e são vendido sob frequências ligeiramente mais baixas.


Embora a arquitetura do processador continue sendo basicamente a mesma, o lançamento do Lynnfield é potencialmente mais importante que o lançamento das versões iniciais, simplesmente por que ele será a versão mais barata e por isso mais comum.
À primeira vista, parece que o Lynnfield é apenas uma versão castrada do Core i7, obtido através da desativação de alguns componentes, mas na verdade trata-se de um chip consideravelmente diferente, que é produzido em uma linha separada.
Uma das modificações mais evidentes é o uso de um controlador de memória DDR3 dual-channel em vez do controlador triple-channel do Core Bloomfield, uma mudança introduzida para diferenciar as duas plataformas e ao tempo reduzir o custo dos PCs baseados no Lynnfield, eliminando a tentação de usar 3 módulos de memória em vez de dois.
À primeira vista, parece uma redução significativa (afinal o terceiro canal corresponde a 1/3 da banda total com a memória), mas na prática a diferença é muito pequena, já que o grande cache L3 e a boa taxa de transferência dos módulos DDR3 atenuam bastante a necessidade de um barramento mais largo. O principal problema são os tempos de latência, que não têm uma relação direta com o número de canais.
Com um canal a menos no controlador de memória, o número de contatos do processador foi reduzido, o que levou a outra característica importante, que é a adoção do soquete LGA1156 que passa a coexistir com o LGA1366 usado pelas versões high-end do Core i7. Os dois são bem similares, mas o menor número de contatos fazem com que o LGA1156 seja menor e tenha uma aparência mais quadrada, praticamente do mesmo tamanho que um soquete LGA775:

O mesmo se aplica também aos processadores, que são menores que os Core i7 baseados no Bloomfield, muito embora conservem a mesma aparência básica e o mesmo layout sem pinos que a Intel vem utilizando desde a migração para o sistema LGA:

Junto com o Lynnfield, a Intel anunciou uma nova série de modelos os Core i5. Ao contrário do que se esperava inicialmente, a divisão entre os Core i5 não é feita com base na arquitetura (ou seja, nem todos os Core i5 serão baseados no Lynnfield e nem todos os i7 serão baseados no Bloomfield) mas sim com base no número de núcleos e no suporte a SMT (o Hyper Threading). Basicamente, com 4 núcleos e o suporte a SMT ativo você tem um Core i7 e com 4 núcleos e o suporte a SMT desativado você tem um Core i5. Futuramente serão lançados também os Core i3 (a linha de baixo custo, com apenas dois núcleos) e os Core i9 (a linha high-end, com 6 ou 8 núcleos).
O Lynnfield é usado tanto no Core i5-750 quanto nos Core i7-860 e Core i7-870. Os três processadores são quad-core, possuem os mesmos 8 MB de cache L3 e utilizam o soquete LGA1156, entretanto o Core i5-750 vem com o SMT desativado, e é justamente isso o que sela a diferença entre as duas famílias:
Core i5-750: 2.66 GHz (2.13 GHz para o uncore), 8 MB, DDR3-1333, TDP de 95W.
Core i7-860: 2.8 GHz (2.4 GHz para o uncore), 8 MB, DDR3-1333, SMT, TDP de 95W.
Core i7-870: 2.93 GHz (2.4 GHz para o uncore), 8 MB, DDR3-1333, SMT, TDP de 95W.
Embora seja desejável, o SMT não é um recurso tão importante em desktops quanto pode parecer à primeira vista, já que o número de aplicativos capazes de utilizar 8 núcleos lógicos de maneira eficiente é pequeno. Com exceção de aplicativos de renderização, compressão de arquivos e outros casos específicos, o ganho oferecido pelo SMT é muito pequeno, diferente do que temos no caso dos servidores.
Outra pequena diferença é que o i5-750 utiliza uma frequência ligeiramente mais baixa para o uncore (lembre-se, o uncore inclui o controlador de memória, o cache L3 e todos os outros componentes externos aos cores do processor), o que afeta também a frequência do cache L3, representando uma pequena redução adicional no desempenho.
Assim como no caso dos Phenom e Phenom II (onde é chamado de North Bridge), o uncore utiliza tensões próprias e opera sempre à uma frequência mais baixa que as unidades de processamento, o que significa um cache L3 relativamente lento. O principal motivo disso é o uso de transistores de chaveamento lento (similares aos que a Intel já vinha utilizando em processadores de baixo consumo) que não são capazes de operar a frequências muito altas, mas que em compensação gastam muito menos energia. Como o uncore representa mais da metade da área total do processador, a redução acaba sendo bem significativa.
Diferente do que tínhamos na época do Pentium 4, o principal limitante para a frequência de operação dos processadores não é mais a arquitetura, mas sim a dissipação térmica. Ao reduzir a dissipação, é possível atingir frequências de clock mais altas, compensando a perda de desempenho causada pelo cache L3 mais lento.
O Lynnfield introduz também uma versão mais agressiva do Turbo Boost, que é um dos recursos de maior impacto sobre o desempenho direto. Enquanto no Bloomfield o Turbo Boost oferecia uma aumento modesto, de apenas 133 MHz, no Lynnfield ele é capaz de aumentar a frequência do processador em até 666 MHz, de acordo com o número de cores ativos.
Os degraus disponíveis variam de acordo com o modelo. No Core i5-750 (que utiliza uma frequência base de 2.66) o clock pode subir para 2.8 GHz com 4 ou 3 núcleos ativos e para 3.2 GHz com 2 ou apenas 1 núcleo ativo.
No Core i7-860 (2.8 GHz) temos 2.93 GHz com 4 ou 3 núcleos, 3.33 GHz com 2 núcleos e 3.46 GHz com apenas um núcleo. No Core i7-870 a distribuição é similar, com 3.2 GHz (4 ou 3 núcleos), 3.46 GHz (2 núcleos) e 3.6 GHz (1 núcleo).
Veja que nos três casos a frequência pode subir em 133 MHz (266 MHz no caso do i7-870) mesmo com os 4 núcleos ativos, desde que o consumo atual e a temperatura não superem os limites estabelecidos. Como de praxe, você pode acompanhar a frequência atual do processador usando o CPUID ou outros softwares de diagnóstico, mas a maior parte dos chaveamentos ocorre muito rápido, com o processador aumentando a frequência para cobrir um rápido pico de consumo e em seguida voltando à frequência normal.
Além de jogos e aplicativos single-thread em geral (onde o processador pode manter apenas um ou dois núcleos ativos), aplicativos que utilizam predominantemente alguns componentes do processador (como os aplicativos de renderização e conversão de vídeo, que usam predominantemente as unidades SSE) também se beneficiam consideravelmente do Turbo Boost, já que o PCU pode desligar outros componentes do processador (reduzindo o consumo) e aumentar a frequência das unidades ativas nos 133 ou 266 MHz permitidos, mesmo sem desativar nenhum dos cores.
O lado ruim é que o uso do Turbo Boost introduz um grande fator de incerteza no desempenho do processador, pois as frequências são definidas não apenas pelo tipo de tarefas que estão sendo executadas (e consequentemente o número de núcleos em uso) mas também pela temperatura atual do processador, que é por sua vez determinada pela temperatura ambiente (que flutua ao longo do dia e de acordo com as estações do ano) e pelo cooler usado. Basicamente, o processador passa a tentar apresentar o melhor desempenho possível dentro do TDP e da temperatura estabelecida, em vez de oferecer um desempenho constante, como nas gerações anteriores.
Isso abre margem para muitos casos estranhos, de PCs com configurações idênticas apresentando desempenhos bem diferentes devido à diferenças na temperatura ambiente, na ventilação do gabinete ou aos aplicativos ativos. Prepare-se para ouvir histórias de coolers milagrosos, que aumentaram o desempenho do PC em 10% mesmo sem fazer overclock e PCs que ficam lentos durante o verão...
Do outro lado da moeda, temos a possibilidade de desativar o turbo mode e simplesmente fazer overclock. Nesse caso as coisas se tornam muito mais previsíveis e o processador volta a exibir um desempenho constante independentemente da temperatura e do consumo:

A desvantagem nesse caso é que o consumo elétrico passa a ser muito mais alto, complicando a escolha. O grande mérito do turbo boost é justamente o fato de oferecer um pouco mais de desempenho, sem aumentar muito o consumo ou comprometer o gerenciamento de energia do processador.
Outra mudança importante é a inclusão de 16 linhas PCI Express 2.0 dentro do próprio processador, o que faz com que o Lynnfield execute todas as funções que na plataforma i7 são executadas pelo chipset X58. Embora não traga mudanças com relação ao desempenho, essa mudança permitiu que a Intel simplificasse a plataforma, eliminando a necessidade de utilizar o barramento QPI (que no i7 liga o processador ao X58). Outra vantagem da integração é a redução no consumo elétrico total, já que ao serem movidos para dentro do processador, os transístores do controlador PCI Express passaram a ser fabricados usando a mesma técnica de 45 nanômetros que ele.
Estas mudanças alteraram bastante o layout do processador, com o controlador PCIe ocupando um grande espaço do lado direito. Mesmo com a redução no controlador de memória e a remoção do QPI, a contagem de transístores sumiu para 774 milhões (43 milhões a mais que no Bloomfield):

Você poderia se perguntar por que a Intel esperou para incorporar as linhas PCI Express no Lynnfield, em vez de simplesmente incorporá-las já no Bloomfield, para que elas equipassem as versões iniciais do i7. A resposta é um detalhe simples: o Lynnfield possui apenas 16 linhas PCI Express, enquanto o Bloomfield e o X58 oferecem 36 linhas no total. Caso incorporasse as 36 linhas diretamente no processador, o Bloomfield teria um volume de transístores muito maior e a Intel teria dificuldades em manter o TDP de 130 watts para o processador, daí o uso do X58 no Core i7.
Com as mudanças, o chipset perdeu muito de sua importância, assumindo um posto secundário. O primeiro chipset para a plataforma LGA1156 é o P55, que é basicamente uma versão atualizada do antigo chip ICH10 que era usado como ponte sul nos chipsets anteriores. Ele é um chip relativamente simples, que concentra as portas USB, SATA, 8 linhas PCI Express adicionais e o chipset de rede, que é conectado ao processador através de um link DMI de 2 GB/s. Seguindo a mudança, o chip passou a ser chamado de Platform Controller Hub (PCH), indicando a redistribuição das funções.


O P55 serve basicamente como um "hub" para as trilhas que vão para os slots e portas da placa-mãe. Temos então algumas poucas trilhas (correspondentes ao barramento DMI) entre o processador e o P55 que se ramificam em todas as demais. Este é um dos principais motivos de a Intel não ter dado o passo final e integrado todos os componentes diretamente ao processador, já que removendo o chipset, todas essas trilhas precisariam ir diretamente para o soquete do processador, o que aumentaria muito o número de contatos no soquete e complicaria o layout das placas.
Outro motivo, talvez mais importante que a questão técnica, é que a Intel ganha muito dinheiro vendendo chipsets, uma renda que seria perdida caso eles fossem eliminados completamente. Embora o P55 seja brutalmente mais simples que os chipsets anteriores, a Intel o vende para os fabricantes por aproximadamente o mesmo preço (cerca de 45 dólares), o que resulta em uma margem de lucro fabulosa.
Isso explica por que as placas destinadas ao i5 não são mais baratas que as placas LGA775, muito embora tenham menos componentes. Como a Intel continua cobrando o mesmo valor pelo chipset, o custo total de produção é basicamente o mesmo que era na época do Core 2 Duo, ou até mais. Se ainda tivéssemos a VIA e a ATI produzindo chipsets para processadores Intel, esse vácuo no mercado seria logo preenchido por outros chipsets de baixo custo, mas com um virtual monopólio para seus processadores, a Intel tem poucos motivos para reduzir os preços.
Continuando, as placas baseadas no P55 são bem mais simples e possuem um layout mais limpo que as placas de plataformas anteriores, com a posição central onde ficaria a ponte norte do chipset dando lugar a um espaço quase vazio com apenas alguns chaveadores ou reguladores de tensão.
Um bom exemplo é a MSI P55-GD65, onde os dois grandes dissipadores com o heat-pipe são destinados aos reguladores de tensão, e o P55 propriamente dito (posicionado entre os dois slots PCIe) recebe apenas um dissipador simples:

Assim como todas as placas baseadas no P55 que utilizam dois slots PCIe, ela utiliza uma configuração compartilhada, onde cada slot recebe 8 linhas. A divisão é feita por um quarteto de switchs PCIe instalados na placa:

A ideia de dividir as linhas PCIe entre dois slots nunca soa muito bem, mas como o P55 utiliza o PCIe 2.0, a perda acaba não sendo muito grande, já que com o dobro da banda por linha, um slot PCIe 2.0 x8 oferece a mesma taxa de transferência que um slot PCIe x16 antigo. Algumas placas implementam um terceiro slot usando 4 das linhas PCI Express disponíveis no P55, mas nesse caso o desempenho do terceiro slot fica longe do ideal.
É importante enfatizar também que o fato de usar dois slots não torna a placa automaticamente compatível com o SLI, já que é necessário que o fabricante submeta a placa ao processo de certificação e pague os royalties à nVidia. Sem isso, uma flag no BIOS bloqueia a ativação do SLI por parte dos drivers, muito embora você ainda possa usar a segunda placa para o processamento dos efeitos de física (Physics). O processo de suporte ao CrossFire X por outro lado é bem mais simples, o que faz com que quase todas as placas dual-slot ofereçam suporte a ele.
Uma tecnologia que ainda não está disponível no P55, mas que mas que será lançada em breve, é o Braidwood, uma espécie de versão turbinada do ReadyBoost, que a Intel tentou popularizar sem muito sucesso em 2007. Ele estará disponível a partir do chipset P57, que representa a segunda geração da plataforma.
O Braidwood consiste no uso de um módulo memória NVRAM, destinado a funcionar como um cache adicional para operações de acesso a disco, servindo como uma alternativa para melhorar o desempenho de acesso a disco, sem precisar migrar para um SSD:


As principais diferenças entre o Braidwood e o antigo Readyboost, são o uso de módulos com uma capacidade muito maior (8 ou 16GB) e o uso de um algoritmo de cache mais eficiente, duas melhorias que devem trazer ganhos mais tangíveis. Entretanto, o futuro do Braidwood é ainda incerto, já que os módulos não serão baratos.
Como comentei no início, o Nehalem é o primeiro de uma nova série de processadores baseados na nova arquitetura, uma família que inclui diversos outros modelos, que serão lançados ao longo dos próximos meses:
Nehalem-EX: Esta é a versão destinada a servidores. Ele será um processador 8-core nativo, com 24 MB de cache L3, que suportará o uso de 2 ou 4 processadores (ou seja, até 32 núcleos por placa), tirando proveito do uso do QPI. Devido ao aumento no número de trilhas necessárias para realizar a comunicação entre os processadores, ele utilizará mais um novo soquete, o LGA1567.
Clarkdale: Esta será uma versão dual-core do Nehalem produzida usando uma técnica de 32 nanômetros e com um chipset de vídeo integrado (mais uma função movida do chipset para o processador), servindo como um substituto direto para o Pentium E e os Core 2 Duo.
Graças à técnica de produção de 32 nanômetros, tanto o custo de produção quanto o consumo elétrico serão bem mais baixos que o dos processadores atuais, o que deve levar a Inter a fazer a mudança rapidamente. A expectativa é que a Intel anuncie os primeiros processadores baseados na plataforma antes do final de 2009.
Duas observações com relação ao chipset de vídeo é que ele será um derivado do GMA X4500, usado nos chipsets atuais (e não um derivado do Lahhabee) e que ele será um chip separado incluído dentro do encapsulamento do processador e não realmente um componente interno, incluído na mesma pastilha de silício.
Arrandale: Esta é uma versão mobile do Clarkdale, também dual-core, mas com um TDP mais baixo. Ele é destinado a substituir o Core 2 Duo nos notebooks, complementando o lançamento da nova geração do Atom (baseada no Pinetrail), que avançará sobre os netbooks.
Clarksfield: Esta é a versão quad-core destinada a notebooks, também produzida usando a técnica de 32 nanômetros. A principal diferença em relação aos processadores para desktop serão o TDP e as frequências de operação bem mais baixas.
Existe uma boa dose de polêmica em torno da utilidade de um processador quad-core em um notebook, já que eles são predominantemente usados para tarefas de produtividade e alguns jogos, tarefas onde os processadores dual-core são tradicionalmente a melhor opção. Apesar disso, a Intel parece determinada a popularizar os processadores quad-core em todas as frentes, incluindo aí os notebooks.
A boa notícia é que o uso do PCU e do Turbo Boost deve garantir que os chips mantenham um desempenho e um consumo elétrico equilibrado, mesmo em aplicativos que não se beneficiam dos 4 núcleos. Em outras palavras, os dois núcleos adicionais podem não ajudar muito, mas pelo menos também não vão atrapalhar.
Gulftown: Este é o codenome do sucessor do Bloomfield, produzido usando a técnica de 32 nanômetros, destinado a placas LGA1366. Ele manterá o uso de 4 núcleos, mas trará mais cache e possivelmente outras melhorias relacionadas ao desempenho.
A migração para a técnica de 32 nanômetros resultará em transístores com pouco mais de metade do tamanho dos produzidos usando a técnica de 45 nanômetros, o que oferecerá bastante espaço para a inclusão de novos componentes. É nesse ponto que a arquitetura modular do Nahalem começará a realmente pagar dividendos.
Inicialmente o Gulftown substituirá os modelos da série XE como processador de alto desempenho, eventualmente ganhando versões mais acessíveis. Foi anunciada também uma versão com 6 cores, que deve ser lançada no início de 2010.
Estas versões de 32 nanômetros do Nehalem são coletivamente chamadas de Westmere, que é o nome código da nova plataforma, da mesma forma que o Bloomfield, Lynnfield & cia. são sub-versões dentro da família Nehalem.

Para 2010 está prevista uma versão com GPU integrada, o Sandy Bridge. Diferente do Clarkdale, onde a GPU será apenas um segundo chip dentro do encapsulamento do processador, no Sandy Bridge a GPU será movida para dentro do núcleo, resultando em uma solução muito mais elegante.
Junto com o Sandy Bridge, teremos o lançamento dos primeiros produtos baseados no Larrabee, a nova arquitetura para o processamento paralelo que a Intel vem anunciando desde 2007.
A primeira amostra da arquitetura foi a demonstração de um chip com 80 núcleos, desenvolvido com o objetivo de oferecer 1 teraflop de poder de processamento. Cada um dos 80 núcleos é um chip relativamente simples, otimizado para processar instruções de ponto flutuante. Cada chip possui um "roteador" que o interliga aos vizinhos. Esta estrutura permite que as instruções sejam distribuídas entre os núcleos de forma bastante similar ao que acontece dentro de um cluster com várias máquinas. A principal diferença é que tudo é feito dentro de um único chip:

Com o tempo, foi revelado que este chip massivamente paralelo era uma versão prévia do Larrabee, com o qual a Intel pretende entrar no ramo de placas 3D de alto desempenho, concorrendo com a nVidia e a AMD/ATI.
Assim como no caso do Atom, a inspiração para a nova arquitetura veio do antigo Pentium. Cada um dos processadores do Larrabee é essencialmente um Pentium 1 modernizado, com duas unidades de execução e a capacidade de processar 4 threads (em vez de apenas dois, como no Nehalem) em cada uma. Elas são complementadas por uma unidade de processamento de vetores, composta por 16 unidades distintas, capazes de processar instruções de ponto flutuante de 32 bits e 256 KB de cache L2, que complementam os 64 KB de cache L1. Diferente dos processadores tradicionais, que são otimizados para o processamento de instruções seqüenciais, ele é especializado em processamento paralelo, assim como os chipsets 3D.
Desenvolver uma CPU otimizada para o processamento de gráficos pode parecer estranho, mas essa é basicamente a mesma coisa que a ATI e nVidia vêm fazendo desde a introdução dos shaders programáveis, duas gerações atrás.
Ao olhar o diagrama de blocos de um G80 (usado nas GeForce 8xxx), você notará que ele é composto por 8 clusters de unidades de processamento de vetores, que são a base do chipset. Cada uma possui seu próprio cache e a comunicação entre elas é feita de uma maneira não muito diferente da que a Intel desenvolveu para o Larrabee:

Uma única unidade não ofereceria um desempenho digo de nota, mas ao combinar algumas dúzias delas (foram anunciados planos de usar de 16 a 32 unidades na geração inicial de produtos) a Intel terá em mãos um chipset de vídeo bastante poderoso.
As primeiras versões nada mais serão do que placas 3D PCI-Express regulares, que concorrerão com os lançamentos da nVidia e da ATI, mas os aceleradores devem logo substituir também os chipsets de vídeo integrado, resultando em processadores com aceleradores 3D relativamente poderosos incluídos diretamente no núcleo.
Artigo retirado do site: http://www.guiadohardware.net/tutoriais/intel-core-i7-core-i5
Última atualização (Seg, 01 de Março de 2010 15:58)


