1. Frequência do processador do servidor
A frequência principal do processador do servidor também é chamada de frequência do clock. A unidade é MHz e é usada para indicar a velocidade de computação da CPU. Frequência principal da CPU = FSB × fator de multiplicação. Muitas pessoas pensam que a frequência principal determina a velocidade de execução da CPU. Isso não é apenas unilateral, mas também para servidores, esse entendimento também é tendencioso. Até o momento, não existe uma fórmula definitiva que possa realizar a relação numérica entre a frequência principal e a velocidade real da computação. Mesmo os dois principais fabricantes de processadores Intel e AMD têm grandes disputas neste ponto. Começamos pela Intel. , percebe-se que a Intel atribui grande importância ao fortalecimento do desenvolvimento de sua própria frequência principal. Como outros fabricantes de processadores, alguém certa vez o comparou com um processador Transmeta 1G. Sua eficiência operacional é equivalente a um processador Intel 2G.
Portanto, a frequência principal da CPU não está diretamente relacionada ao poder de computação real da CPU. A frequência principal indica a velocidade de oscilação do sinal de pulso digital na CPU. Também podemos ver exemplos disso nos produtos de processador da Intel: os chips Itanium de 1 GHz podem funcionar quase tão rápido quanto o Xeon/Opteron de 2,66 GHz, ou o Itanium 2 de 1,5 GHz é quase tão rápido quanto o Xeon/Opteron de 4 GHz. A velocidade de computação da CPU também depende dos indicadores de desempenho de vários aspectos do pipeline da CPU.
Claro, a frequência principal está relacionada à velocidade real da computação. Só podemos dizer que a frequência principal é apenas um aspecto do desempenho da CPU e não representa o desempenho geral da CPU.
2. Frequência do barramento frontal do servidor (FSB)
A frequência do barramento frontal (FSB) (ou seja, frequência do barramento) afeta diretamente a velocidade da troca direta de dados entre a CPU e a memória. Existe uma fórmula que pode ser calculada, ou seja, largura de banda de dados = (frequência do barramento × largura de banda de dados)/8. A largura de banda máxima de transmissão de dados depende da largura e frequência de transmissão de todos os dados transmitidos simultaneamente. Por exemplo, o atual Xeon Nocona que suporta 64 bits possui um barramento frontal de 800 MHz. De acordo com a fórmula, sua largura de banda máxima de transmissão de dados é de 6,4 GB/segundo.
A diferença entre a frequência FSB e FSB: A velocidade do FSB refere-se à velocidade de transmissão de dados, e o FSB é a velocidade de operação síncrona entre a CPU e a placa-mãe. Em outras palavras, o FSB de 100 MHz refere-se especificamente ao sinal de pulso digital oscilando dez milhões de vezes por segundo, enquanto o barramento frontal de 100 MHz refere-se à quantidade de transmissão de dados que a CPU pode aceitar por segundo, que é 100 MHz × 64 bits÷8 Byte; /bit=800MB/s.
Na verdade, o surgimento da arquitetura "HyperTransport" mudou a frequência real do barramento frontal (FSB). Sabíamos anteriormente que a arquitetura IA-32 deve ter três componentes importantes: Memory Controller Hub (MCH), I/O Controller Hub e PCI Hub, como os chipsets típicos da Intel, os chipsets Intel 7501 e Intel7505, que são processadores Xeons duplos. feitos sob medida. O MCH que eles contêm fornece à CPU uma frequência de barramento frontal de 533 MHz. Com memória DDR, a largura de banda do barramento frontal pode atingir 4,3 GB/segundo.
No entanto, à medida que o desempenho do processador continua a melhorar, também traz muitos problemas à arquitetura do sistema. A arquitetura "HyperTransport" não apenas resolve o problema, mas também melhora a largura de banda do barramento de forma mais eficaz, como os processadores AMD Opteron. A arquitetura flexível do barramento de E/S HyperTransport permite integrar o controlador de memória, para que o processador não transmita dados. através do barramento do sistema O chipset troca dados diretamente com a memória. Nesse caso, não sei por onde começar a falar sobre a frequência do barramento frontal (FSB) nos processadores AMD Opteron.
3. Processador FSB
O FSB é a frequência base da CPU e sua unidade também é MHz. O FSB da CPU determina a velocidade de funcionamento de toda a placa-mãe. Para ser franco, em computadores desktop, o que chamamos de overclocking refere-se ao overclock do FSB da CPU (é claro que, em circunstâncias normais, o multiplicador da CPU está bloqueado, acredito que isso seja bem compreendido). Mas para CPUs de servidores, o overclock não é absolutamente permitido. Conforme mencionado anteriormente, a CPU determina a velocidade de execução da placa-mãe. Os dois funcionam de forma síncrona. Se a CPU do servidor estiver com overclock e o FSB for alterado, ocorrerá operação assíncrona (muitas placas-mãe de desktop suportam operação assíncrona). servidor para executar de forma assíncrona.
Na maioria dos sistemas de computador atuais, o FSB também é a velocidade de funcionamento síncrono entre a memória e a placa-mãe. Desta forma, pode-se entender que o FSB da CPU está diretamente conectado à memória para atingir um estado de funcionamento síncrono entre os dois. É fácil confundir a frequência do FSB e do FSB. Vamos falar sobre a diferença entre os dois na seguinte introdução do FSB.
4. Bit da CPU e comprimento da palavra
Bit: O binário é usado em circuitos digitais e tecnologia de informática, e os códigos são apenas "0" e "1". Seja "0" ou "1" é um "bit" na CPU.
Comprimento da palavra: Na tecnologia de computadores, o número de dígitos binários que a CPU pode processar ao mesmo tempo por unidade de tempo (ao mesmo tempo) é chamado de comprimento da palavra. Portanto, uma CPU que pode processar dados com comprimento de palavra de 8 bits é geralmente chamada de CPU de 8 bits. Da mesma forma, uma CPU de 32 bits pode processar dados binários com um comprimento de palavra de 32 bits por unidade de tempo. A diferença entre byte e comprimento de palavra: como os caracteres comumente usados em inglês podem ser representados por binário de 8 bits, 8 bits são geralmente chamados de byte. O comprimento da palavra não é fixo e o comprimento da palavra é diferente para diferentes CPUs. Uma CPU de 8 bits pode processar apenas um byte por vez, enquanto uma CPU de 32 bits pode processar 4 bytes por vez. Da mesma forma, uma CPU de 64 bits pode processar 8 bytes por vez.
5. Coeficiente de multiplicação de frequência
O fator de multiplicação refere-se à relação proporcional relativa entre a frequência principal da CPU e o FSB. No mesmo FSB, quanto maior o multiplicador de frequência, maior será a frequência da CPU. Mas, na verdade, sob a premissa do mesmo FSB, uma CPU de alto multiplicador em si tem pouca importância. Isso ocorre porque a velocidade de transmissão de dados entre a CPU e o sistema é limitada. Uma CPU que busca cegamente multiplicadores altos e obtém uma frequência principal alta terá um efeito de "gargalo" óbvio - a velocidade máxima na qual a CPU obtém dados do sistema. não pode satisfazer os requisitos de computação da CPU. De modo geral, com exceção das amostras de engenharia, as CPUs da Intel têm multiplicadores bloqueados, mas a AMD não os bloqueou antes.
6.Cache da CPU
O tamanho do cache também é um dos indicadores importantes da CPU, e a estrutura e o tamanho do cache têm um grande impacto na velocidade da CPU. O cache da CPU funciona em uma frequência extremamente alta, geralmente operando na mesma frequência que o. processador, e sua eficiência de trabalho é muito maior que a da memória do sistema e do disco rígido. No trabalho real, a CPU muitas vezes precisa ler o mesmo bloco de dados repetidamente, e o aumento na capacidade do cache pode melhorar muito a taxa de acerto de leitura de dados dentro da CPU sem ter que procurá-los na memória ou no disco rígido, melhorando assim o sistema desempenho. . No entanto, devido a fatores como área e custo do chip da CPU, o cache é muito pequeno.
Cache L1 (cache de nível um) é o cache de primeiro nível da CPU, que é dividido em cache de dados e cache de instruções. A capacidade e a estrutura do cache L1 integrado têm um impacto maior no desempenho da CPU. No entanto, a memória cache é composta de RAM estática e possui uma estrutura complicada. Quando a área da matriz da CPU não pode ser muito grande, a capacidade. do cache L1 não é suficiente. Provavelmente muito grande. A capacidade do cache L1 de uma CPU de servidor geral é geralmente de 32 a 256 KB.
Cache L2 (cache de segundo nível) é o cache de segunda camada da CPU, que é dividido em chips internos e externos. O cache L2 interno no chip funciona na mesma velocidade da frequência principal, enquanto o cache L2 externo funciona apenas na metade da frequência principal. A capacidade do cache L2 também afetará o desempenho da CPU. O princípio é que quanto maior, melhor. A maior capacidade da CPU doméstica atual é de 512 KB, enquanto o cache L2 da CPU em servidores e estações de trabalho chega a 256-. 1 MB e alguns chegam a 2 MB ou 3 MB.
O cache L3 (cache de três níveis) é dividido em dois tipos. O anterior era externo e os atuais são integrados. Seu efeito real é que a aplicação do cache L3 pode reduzir ainda mais a latência da memória e melhorar o desempenho do processador ao calcular grandes quantidades de dados. Reduzir a latência da memória e melhorar os recursos de computação de grandes volumes de dados são úteis para jogos. No campo do servidor, adicionar cache L3 ainda traz uma melhoria significativa no desempenho. Por exemplo, uma configuração com um cache L3 maior usará a memória física com mais eficiência, de modo que possa lidar com mais solicitações de dados do que um subsistema de E/S de disco mais lento. Processadores com caches L3 maiores fornecem comportamento de cache do sistema de arquivos mais eficiente e comprimentos mais curtos de filas de mensagens e processadores.
Na verdade, o cache L3 mais antigo foi aplicado ao processador K6-III lançado pela AMD. O cache L3 da época era limitado pelo processo de fabricação e não estava integrado ao chip, mas sim à placa-mãe. O cache L3, que só pode ser sincronizado com a frequência do barramento do sistema, na verdade não é muito diferente da memória principal. Mais tarde, o cache L3 foi usado pelo processador Itanium da Intel para o mercado de servidores. Depois, há P4EE e Xeon MP. A Intel também planeja lançar um processador Itanium2 com cache L3 de 9 MB e, posteriormente, um processador Itanium2 dual-core com cache L3 de 24 MB.
Mas basicamente o cache L3 não é muito importante para melhorar o desempenho do processador. Por exemplo, o processador Xeon MP equipado com cache L3 de 1 MB ainda não é adversário do Opteron. é mais eficaz do que o aumento das melhorias de desempenho.
[Página cortada]
7. Conjunto de instruções estendidas da CPU
A CPU depende de instruções para calcular e controlar o sistema. Cada CPU é projetada com uma série de sistemas de instruções que correspondem aos seus circuitos de hardware. A força das instruções também é um indicador importante da CPU. O conjunto de instruções é uma das ferramentas mais eficazes para melhorar a eficiência dos microprocessadores. Da arquitetura mainstream atual, o conjunto de instruções pode ser dividido em duas partes: conjunto de instruções complexo e conjunto de instruções simplificado Do ponto de vista de aplicações específicas, como MMX (Multi Media Extended) da Intel, SSE, SSE2 (Streaming-Single instrução múltipla). data -Extensions 2), SEE3 e 3DNow da AMD são todos conjuntos de instruções estendidos da CPU, que aprimoram respectivamente as capacidades de multimídia, gráficos e processamento de Internet da CPU.
Geralmente nos referimos ao conjunto estendido de instruções da CPU como "conjunto de instruções da CPU". O conjunto de instruções SSE3 também é o menor conjunto de instruções atualmente. Anteriormente, o MMX continha 57 comandos, o SSE continha 50 comandos, o SSE2 continha 144 comandos e o SSE3 continha 13 comandos. Atualmente, o SSE3 também é o conjunto de instruções mais avançado. Os processadores Intel Prescott já suportam o conjunto de instruções SSE3. A AMD adicionará suporte para o conjunto de instruções SSE3 aos futuros processadores Transmeta.
8. Núcleo da CPU e tensão operacional de E/S
A partir do 586CPU, a tensão de trabalho da CPU é dividida em dois tipos: tensão do núcleo e tensão de E/S. Normalmente, a tensão do núcleo da CPU é menor ou igual à tensão de E/S. O tamanho da tensão do núcleo é determinado com base no processo de produção da CPU. Geralmente, quanto menor o processo de produção, menor a tensão de operação do núcleo é geralmente de 1,6 ~ 5V. A baixa tensão pode resolver os problemas de consumo excessivo de energia e geração excessiva de calor.
9. Processo de fabricação
O mícron do processo de fabricação refere-se à distância entre os circuitos dentro do IC. A tendência nos processos de fabricação é de maior densidade. Projetos de circuitos IC de maior densidade significam que CIs do mesmo tamanho podem ter projetos de circuitos com maior densidade e funções mais complexas. Agora os principais são 180nm, 130nm e 90nm. Recentemente, as autoridades afirmaram que existe um processo de fabricação de 65 nm.
10. Conjunto de instruções
(1) Conjunto de instruções CISC
Conjunto de instruções CISC, também conhecido como conjunto de instruções complexas, o nome em inglês é CISC, (abreviatura de Complex Instruction Set Computer). Em um microprocessador CISC, cada instrução do programa é executada serialmente em ordem, e as operações em cada instrução também são executadas serialmente em ordem. A vantagem da execução sequencial é o controle simples, mas a taxa de utilização de diversas partes do computador não é alta e a velocidade de execução é lenta. Na verdade, é a CPU da série x86 (ou seja, arquitetura IA-32) produzida pela Intel e suas CPUs compatíveis, como AMD e VIA. Até o novo X86-64 (também chamado AMD64) pertence à categoria CISC.
Para saber o que é um conjunto de instruções, temos que começar com a CPU da arquitetura X86 atual. O conjunto de instruções X86 foi desenvolvido especialmente pela Intel para sua primeira CPU de 16 bits (i8086). A CPU do primeiro PC do mundo - i8088 (versão simplificada do i8086) lançado pela IBM em 1981 também usava instruções X86. o computador O chip X87 foi adicionado para melhorar as capacidades de processamento de dados de ponto flutuante. A partir de agora, o conjunto de instruções X86 e o conjunto de instruções X87 serão chamados coletivamente de conjunto de instruções X86.
Embora com o desenvolvimento contínuo da tecnologia de CPU, a Intel desenvolveu sucessivamente i80386, i80486 mais recentes, até o passado PII Xeon, PIII Xeon, Pentium 3 e, finalmente, até a atual série Pentium 4, Xeon (excluindo Xeon Nocona), mas para Para garantir que o computador possa continuar a executar vários aplicativos desenvolvidos no passado para proteger e herdar ricos recursos de software, todas as CPUs produzidas pela Intel continuam a usar o conjunto de instruções X86, portanto, suas CPUs ainda pertencem à série X86. Como a série Intel X86 e suas CPUs compatíveis (como AMD Athlon MP) usam o conjunto de instruções X86, a enorme linha atual de CPUs da série X86 e compatíveis foi formada. Atualmente, x86CPU inclui principalmente CPU de servidor Intel e CPU de servidor AMD.
(2) Conjunto de instruções RISC
RISC é a abreviatura de "Reduced Instruction Set Computing" em inglês, que significa "conjunto de instruções reduzido" em chinês. Foi desenvolvido com base no sistema de instruções CISC. Alguém testou a máquina CISC e mostrou que a frequência de uso de várias instruções é bastante diferente. As instruções mais comumente usadas são algumas instruções relativamente simples, que representam apenas 20% das instruções. número total de instruções Mas a frequência de ocorrência no programa é responsável por 80%. Um sistema de instruções complexo aumentará inevitavelmente a complexidade do microprocessador, tornando o desenvolvimento do processador longo e caro. E instruções complexas requerem operações complexas, o que inevitavelmente reduzirá a velocidade do computador. Com base nas razões acima, as CPUs RISC nasceram na década de 1980. Em comparação com as CPUs CISC, as CPUs RISC não apenas simplificaram o sistema de instruções, mas também adotaram algo chamado "estrutura superescalar e superpipeline", que aumentou muito as capacidades de processamento paralelo.
O conjunto de instruções RISC é a direção de desenvolvimento de CPUs de alto desempenho. Opõe-se ao tradicional CISC (Conjunto de Instruções Complexas). Em comparação, o RISC possui um formato de instrução unificado, menos tipos e menos métodos de endereçamento do que conjuntos de instruções complexos. Claro, a velocidade de processamento melhorou bastante. Atualmente, CPUs com este sistema de instruções são comumente usadas em servidores de médio a alto padrão, especialmente servidores de última geração, todos usam CPUs com o sistema de instruções RISC. O sistema de instrução RISC é mais adequado para UNIX, o sistema operacional de servidores de última geração. Agora o Linux também é um sistema operacional semelhante ao UNIX. CPUs do tipo RISC não são compatíveis com CPUs Intel e AMD em software e hardware.
Atualmente, as CPUs que usam instruções RISC em servidores de médio a alto nível incluem principalmente as seguintes categorias: processadores PowerPC, processadores SPARC, processadores PA-RISC, processadores MIPS e processadores Alpha.
(3)IA-64
Tem havido muito debate sobre se o EPIC (Computadores de Instrução Explicitamente Paralelos) é o sucessor dos sistemas RISC e CISC. Tomando o sistema EPIC sozinho, é mais como um passo importante para os processadores da Intel avançarem em direção ao sistema RISC. Teoricamente, a CPU projetada pelo sistema EPIC pode lidar com software aplicativo Windows muito melhor do que software aplicativo baseado em Unix na mesma configuração de host.
A CPU do servidor Intel que usa tecnologia EPIC é Itanium (codinome de desenvolvimento: Merced). É um processador de 64 bits e o primeiro da série IA-64. A Microsoft também desenvolveu um sistema operacional de codinome Win64 e o oferece suporte em software. Depois que a Intel adotou o conjunto, nasceu a arquitetura IA-64 usando o conjunto de instruções EPIC. IA-64 é uma grande melhoria em relação ao x86 em muitos aspectos. Ele rompe muitas limitações da arquitetura IA32 tradicional e alcança melhorias revolucionárias nas capacidades de processamento de dados, estabilidade do sistema, segurança, usabilidade e racionalidade considerável.
A maior falha dos microprocessadores IA-64 é a falta de compatibilidade com x86. Para que os processadores IA-64 da Intel executem melhor o software de duas gerações, ela utilizou processadores IA-64 (Itanium, Itanium2...) e apresenta o x86. -to-IA-64 decodificador, que pode traduzir instruções x86 em instruções IA-64. Este decodificador não é o decodificador mais eficiente, nem é a melhor maneira de executar código x86 (a melhor maneira é executar código x86 diretamente no processador x86), portanto, o desempenho do Itanium e do Itanium2 ao executar aplicativos x86 é muito ruim. Esta também se tornou a razão fundamental para o surgimento do X86-64.
(4)X86-64 (AMD64/EM64T)
Projetado pela AMD, ele pode lidar com operações inteiras de 64 bits ao mesmo tempo e é compatível com a arquitetura X86-32. Ele suporta endereçamento lógico de 64 bits e oferece a opção de conversão para endereçamento de 32 bits; no entanto, as instruções de operação de dados são padrão para 32 bits e 8 bits e oferece a opção de conversão para 64 bits e 16 bits; suporta registradores de uso geral, se for uma operação de 32 bits, é necessário expandir o resultado para 64 bits completos. Desta forma, há uma diferença entre “execução direta” e “execução de conversão” na instrução. O campo da instrução é de 8 bits ou 32 bits, o que pode evitar que o campo seja muito longo.
A criação do x86-64 (também chamado de AMD64) não é infundada. O espaço de endereçamento de 32 bits dos processadores x86 é limitado a 4 GB de memória e os processadores IA-64 não são compatíveis com x86. A AMD considera totalmente as necessidades dos clientes e aprimora as funções do conjunto de instruções x86 para que este conjunto de instruções possa suportar modos de computação de 64 bits ao mesmo tempo. Portanto, a AMD chama sua estrutura de x86-64. Tecnicamente, para realizar operações de 64 bits na arquitetura x86-64, a AMD introduziu um novo registro de uso geral R8-R15 como uma expansão do original Use esses registros. Os registradores originais como EAX e EBX também foram expandidos de 32 bits para 64 bits. Oito novos registros foram adicionados à unidade SSE para fornecer suporte ao SSE2. O aumento no número de registros levará a melhorias de desempenho. Ao mesmo tempo, para suportar códigos e registros de 32 e 64 bits, a arquitetura x86-64 permite que o processador funcione nos dois modos a seguir: Modo Longo (modo longo) e Modo Legado (modo genético). O modo longo é dividido em dois submodos: Modo (modo de 64 bits e modo de compatibilidade). O padrão foi introduzido nos processadores de servidor Opteron da AMD.
Este ano, a tecnologia EM64T que suporta 64 bits também foi lançada. Antes de ser oficialmente chamada de EM64T, era IA32E. Este é o nome da tecnologia de extensão de 64 bits da Intel para distinguir o conjunto de instruções X86. O EM64T da Intel suporta submodo de 64 bits, que é semelhante à tecnologia X86-64 da AMD. Ele usa endereçamento de plano linear de 64 bits, adiciona 8 novos registros de uso geral (GPRs) e adiciona 8 registros para suportar instruções SSE. Semelhante à AMD, a tecnologia de 64 bits da Intel será compatível com IA32 e IA32E só será usada ao executar um sistema operacional de 64 bits. IA32E será composto por 2 submodos: submodo de 64 bits e submodo de 32 bits, que são compatíveis com versões anteriores do AMD64. O EM64T da Intel será totalmente compatível com a tecnologia X86-64 da AMD. Agora, o processador Nocona adicionou tecnologia de 64 bits, e o processador Pentium 4E da Intel também suporta tecnologia de 64 bits.
Deve-se dizer que ambos são arquiteturas de microprocessadores de 64 bits compatíveis com o conjunto de instruções x86, mas ainda existem algumas diferenças entre EM64T e AMD64. O bit NX no processador AMD64 não será fornecido nos processadores Intel.
11. Superpipeline e superescalar
Antes de explicar o superpipeline e o superescalar, vamos primeiro entender o pipeline. O pipeline foi usado pela primeira vez pela Intel no chip 486. A linha de montagem funciona como uma linha de montagem na produção industrial. Na CPU, um pipeline de processamento de instruções é composto de 5 a 6 unidades de circuito com funções diferentes e, em seguida, uma instrução X86 é dividida em 5 a 6 etapas e então executada por essas unidades de circuito, respectivamente, para que uma instrução possa ser concluída em um Ciclo de clock da CPU, aumentando assim a velocidade de computação da CPU. Cada pipeline inteiro do Pentium clássico é dividido em quatro níveis de pipeline, ou seja, pré-busca de instruções, decodificação, execução e gravação de resultados. O pipeline de ponto flutuante é dividido em oito níveis de pipeline.
Superscalar usa vários pipelines integrados para executar vários processadores ao mesmo tempo. Sua essência é trocar espaço por tempo. O super pipeline consiste em completar uma ou mais operações em um ciclo da máquina, refinando o pipeline e aumentando a frequência principal. Sua essência é trocar tempo por espaço. Por exemplo, o pipeline do Pentium 4 tem até 20 estágios. Quanto mais longas as etapas (estágios) do pipeline forem projetadas, mais rápido ele poderá completar uma instrução, para que possa se adaptar a CPUs com frequências operacionais mais altas. No entanto, um pipeline excessivamente longo também traz alguns efeitos colaterais. É muito provável que a velocidade real de computação de uma CPU com frequência mais alta seja menor. Este é o caso do Pentium 4 da Intel, embora sua frequência principal possa ser tão alta quanto. 1.4G ou mais, mas seu desempenho computacional é muito inferior ao 1.2G Athlon da AMD ou mesmo ao Pentium III.
12. Formulário de pacote
A embalagem da CPU é uma medida de proteção que utiliza materiais específicos para solidificar o chip da CPU ou módulo da CPU para evitar danos. Geralmente, a CPU deve ser embalada antes de ser entregue ao usuário. O método de empacotamento da CPU depende da forma de instalação da CPU e do design de integração do dispositivo. De um ponto de vista de classificação geral, as CPUs geralmente instaladas usando soquetes Socket são empacotadas usando PGA (grid array), enquanto as CPUs instaladas usando slots Slot x são todas empacotadas. usando a forma de embalagem SEC (caixa de junção de um lado). Existem também tecnologias de embalagem como PLGA (Plastic Land Grid Array) e OLGA (Organic Land Grid Array). Devido à concorrência de mercado cada vez mais acirrada, a atual direção de desenvolvimento da tecnologia de empacotamento de CPU é principalmente a economia de custos.
7. Conjunto de instruções estendidas da CPU
A CPU depende de instruções para calcular e controlar o sistema. Cada CPU é projetada com uma série de sistemas de instruções que correspondem aos seus circuitos de hardware. A força das instruções também é um indicador importante da CPU. O conjunto de instruções é uma das ferramentas mais eficazes para melhorar a eficiência dos microprocessadores. Da arquitetura mainstream atual, o conjunto de instruções pode ser dividido em duas partes: conjunto de instruções complexo e conjunto de instruções simplificado Do ponto de vista de aplicações específicas, como MMX (Multi Media Extended) da Intel, SSE, SSE2 (Streaming-Single instrução múltipla). data -Extensions 2), SEE3 e 3DNow da AMD são todos conjuntos de instruções estendidos da CPU, que aprimoram respectivamente as capacidades de multimídia, gráficos e processamento de Internet da CPU.
Geralmente nos referimos ao conjunto estendido de instruções da CPU como "conjunto de instruções da CPU". O conjunto de instruções SSE3 também é o menor conjunto de instruções atualmente. Anteriormente, o MMX continha 57 comandos, o SSE continha 50 comandos, o SSE2 continha 144 comandos e o SSE3 continha 13 comandos. Atualmente, o SSE3 também é o conjunto de instruções mais avançado. Os processadores Intel Prescott já suportam o conjunto de instruções SSE3. A AMD adicionará suporte para o conjunto de instruções SSE3 aos futuros processadores Transmeta.
8. Núcleo da CPU e tensão operacional de E/S
A partir do 586CPU, a tensão de trabalho da CPU é dividida em dois tipos: tensão do núcleo e tensão de E/S. Normalmente, a tensão do núcleo da CPU é menor ou igual à tensão de E/S. O tamanho da tensão do núcleo é determinado com base no processo de produção da CPU. Geralmente, quanto menor o processo de produção, menor a tensão de operação do núcleo é geralmente de 1,6 ~ 5V. A baixa tensão pode resolver os problemas de consumo excessivo de energia e geração excessiva de calor.
9. Processo de fabricação
O mícron do processo de fabricação refere-se à distância entre os circuitos dentro do IC. A tendência nos processos de fabricação é de maior densidade. Projetos de circuitos IC de maior densidade significam que CIs do mesmo tamanho podem ter projetos de circuitos com maior densidade e funções mais complexas. Agora os principais são 180nm, 130nm e 90nm. Recentemente, as autoridades afirmaram que existe um processo de fabricação de 65 nm.
10. Conjunto de instruções
(1) Conjunto de instruções CISC
Conjunto de instruções CISC, também conhecido como conjunto de instruções complexas, o nome em inglês é CISC, (abreviatura de Complex Instruction Set Computer). Em um microprocessador CISC, cada instrução do programa é executada serialmente em ordem, e as operações em cada instrução também são executadas serialmente em ordem. A vantagem da execução sequencial é o controle simples, mas a taxa de utilização de diversas partes do computador não é alta e a velocidade de execução é lenta. Na verdade, é a CPU da série x86 (ou seja, arquitetura IA-32) produzida pela Intel e suas CPUs compatíveis, como AMD e VIA. Até o novo X86-64 (também chamado AMD64) pertence à categoria CISC.
Para saber o que é um conjunto de instruções, temos que começar com a CPU da arquitetura X86 atual. O conjunto de instruções X86 foi desenvolvido especialmente pela Intel para sua primeira CPU de 16 bits (i8086). A CPU do primeiro PC do mundo - i8088 (versão simplificada do i8086) lançado pela IBM em 1981 também usava instruções X86. o computador O chip X87 foi adicionado para melhorar as capacidades de processamento de dados de ponto flutuante. A partir de agora, o conjunto de instruções X86 e o conjunto de instruções X87 serão chamados coletivamente de conjunto de instruções X86.
Embora com o desenvolvimento contínuo da tecnologia de CPU, a Intel desenvolveu sucessivamente i80386, i80486 mais recentes, até o passado PII Xeon, PIII Xeon, Pentium 3 e, finalmente, até a atual série Pentium 4, Xeon (excluindo Xeon Nocona), mas para Para garantir que o computador possa continuar a executar vários aplicativos desenvolvidos no passado para proteger e herdar ricos recursos de software, todas as CPUs produzidas pela Intel continuam a usar o conjunto de instruções X86, portanto, suas CPUs ainda pertencem à série X86. Como a série Intel X86 e suas CPUs compatíveis (como AMD Athlon MP) usam o conjunto de instruções X86, a enorme linha atual de CPUs da série X86 e compatíveis foi formada. Atualmente, x86CPU inclui principalmente CPU de servidor Intel e CPU de servidor AMD.
(2) Conjunto de instruções RISC
RISC é a abreviatura de "Reduced Instruction Set Computing" em inglês, que significa "conjunto de instruções reduzido" em chinês. Foi desenvolvido com base no sistema de instruções CISC. Alguém testou a máquina CISC e mostrou que a frequência de uso de várias instruções é bastante diferente. As instruções mais comumente usadas são algumas instruções relativamente simples, que representam apenas 20% das instruções. número total de instruções Mas a frequência de ocorrência no programa é responsável por 80%. Um sistema de instruções complexo aumentará inevitavelmente a complexidade do microprocessador, tornando o desenvolvimento do processador longo e caro. E instruções complexas requerem operações complexas, o que inevitavelmente reduzirá a velocidade do computador. Com base nas razões acima, as CPUs RISC nasceram na década de 1980. Em comparação com as CPUs CISC, as CPUs RISC não apenas simplificaram o sistema de instruções, mas também adotaram algo chamado "estrutura superescalar e superpipeline", que aumentou muito as capacidades de processamento paralelo.
O conjunto de instruções RISC é a direção de desenvolvimento de CPUs de alto desempenho. Opõe-se ao tradicional CISC (Conjunto de Instruções Complexas). Em comparação, o RISC possui um formato de instrução unificado, menos tipos e menos métodos de endereçamento do que conjuntos de instruções complexos. Claro, a velocidade de processamento melhorou bastante. Atualmente, CPUs com este sistema de instruções são comumente usadas em servidores de médio a alto padrão, especialmente servidores de última geração, todos usam CPUs com o sistema de instruções RISC. O sistema de instrução RISC é mais adequado para UNIX, o sistema operacional de servidores de última geração. Agora o Linux também é um sistema operacional semelhante ao UNIX. CPUs do tipo RISC não são compatíveis com CPUs Intel e AMD em software e hardware.
Atualmente, as CPUs que usam instruções RISC em servidores de médio a alto nível incluem principalmente as seguintes categorias: processadores PowerPC, processadores SPARC, processadores PA-RISC, processadores MIPS e processadores Alpha.
(3)IA-64
Tem havido muito debate sobre se o EPIC (Computadores de Instrução Explicitamente Paralelos) é o sucessor dos sistemas RISC e CISC. Tomando o sistema EPIC sozinho, é mais como um passo importante para os processadores da Intel avançarem em direção ao sistema RISC. Teoricamente, a CPU projetada pelo sistema EPIC pode lidar com software aplicativo Windows muito melhor do que software aplicativo baseado em Unix na mesma configuração de host.
A CPU do servidor Intel que usa tecnologia EPIC é Itanium (codinome de desenvolvimento: Merced). É um processador de 64 bits e o primeiro da série IA-64. A Microsoft também desenvolveu um sistema operacional de codinome Win64 e o oferece suporte em software. Depois que a Intel adotou o conjunto, a arquitetura IA-64 usando o conjunto de instruções épicas nasceu. O IA-64 é uma grande melhoria em relação ao x86 em muitos aspectos. Ele rompe muitas limitações da arquitetura tradicional do IA32 e alcança melhorias inovadoras nos recursos de processamento de dados, estabilidade do sistema, segurança, usabilidade e considerável racionalidade.
A maior falha dos microprocessadores IA-64 é a falta de compatibilidade com o X86. -to-ia-64 Decodificador, que pode traduzir instruções x86 em instruções IA-64. Esse decodificador não é o decodificador mais eficiente, nem é a melhor maneira de executar o código X86 (a melhor maneira é executar o código X86 diretamente no processador X86), portanto, o desempenho do Itanium e do ITANIUM2 ao executar muito os aplicativos X86. Isso também se tornou a razão fundamental para o surgimento de x86-64.
(4) x86-64 (AMD64 / EM64T)
Projetado pela AMD, ele pode lidar com operações inteiras de 64 bits ao mesmo tempo e é compatível com a arquitetura x86-32. Ele suporta endereçamento lógico de 64 bits e fornece a opção de converter para endereçamento de 32 bits; Suporta registros de uso geral, se for uma operação de 32 bits, é necessário expandir o resultado para 64 bits completos. Dessa maneira, há uma diferença entre "execução direta" e "Execução de conversão" na instrução.
A criação de x86-64 (também chamada AMD64) não é infundada. A AMD considera totalmente as necessidades dos clientes e aprimora as funções do conjunto de instruções x86 para que esse conjunto de instruções possa suportar modos de computação de 64 bits ao mesmo tempo. Tecnicamente, para executar operações de 64 bits na arquitetura x86-64, a AMD introduziu um novo registro de uso geral R8-R15 como uma expansão do uso original desses registros. Os registros originais como EAX e EBX também foram expandidos de 32 bits para 64 bits. Oito novos registros foram adicionados à unidade SSE para fornecer suporte ao SSE2. O aumento no número de registros levará a melhorias de desempenho. Ao mesmo tempo, para suportar códigos e registros de 32 e 64 bits, a arquitetura x86-64 permite que o processador funcione nos dois modos a seguir: modo longo (modo longo) e modo legado (modo genético). O modo longo é dividido em dois submodos: modo (modo de 64 bits e modo de compatibilidade). O padrão foi introduzido nos processadores de servidor Opteron da AMD.
Este ano, a tecnologia EM64T que suporta 64 bits também foi lançada. O EM64T da Intel suporta submodo de 64 bits, que é semelhante à tecnologia x86-64 da AMD. Semelhante à AMD, a tecnologia de 64 bits da Intel será compatível com o IA32 e o IA32E. O IA32E será composto por 2 submodos: sub-modo de 64 bits e sub-moda de 32 bits, que são compatíveis com AMD64. O EM64T da Intel será totalmente compatível com a tecnologia x86-64 da AMD. Agora, o processador Nocona adicionou uma tecnologia de 64 bits, e o processador Pentium 4E da Intel também suporta tecnologia de 64 bits.
Deve-se dizer que ambos são arquiteturas de microprocessador de 64 bits compatíveis com o conjunto de instruções X86, mas ainda existem algumas diferenças entre EM64T e AMD64.
11. Superpipline e SuperScalar
Antes de explicar a superpipela e o supercalar, vamos primeiro entender o pipeline. O oleoduto foi usado pela primeira vez pela Intel no chip 486. A linha de montagem funciona como uma linha de montagem na produção industrial. Na CPU, um pipeline de processamento de instruções é composto por 5-6 unidades de circuito com diferentes funções e, em seguida, uma instrução X86 é dividida em 5-6 etapas e depois executada por essas unidades de circuito, respectivamente, para que uma instrução possa ser concluída em uma Ciclo de relógio da CPU. Cada pipeline inteiro do Pentium clássico é dividido em quatro níveis de oleoduto, a saber, a pré -busca, decodificação, execução e resfriamento de instruções.
O SuperScalar usa vários pipelines embutidos para executar vários processadores ao mesmo tempo. O Super Pipeline é concluir uma ou mais operações em um ciclo de máquina, refinando o pipeline e aumentando a frequência principal. Por exemplo, o oleoduto do Pentium 4 tem até 20 estágios. Quanto mais tempo as etapas (etapas) do pipeline são projetadas, mais rápida ele pode concluir uma instrução, para que possa se adaptar às CPUs com frequências operacionais mais altas. No entanto, um pipeline excessivamente longo também traz certos efeitos colaterais. 1.4g ou mais.
12. Formulário de embalagem
A embalagem da CPU é uma medida de proteção que usa materiais específicos para solidificar o chip da CPU ou o módulo da CPU para evitar danos. O método de embalagem da CPU depende do formulário de instalação da CPU e do design de integração do dispositivo. Usando a forma de embalagem Sec (Caixa de Junction unilaterais). Também existem tecnologias de embalagem como PLGA (matriz de grade terrestre plá) e OLGA (Array da grade da terra orgânica). Devido à concorrência cada vez mais feroz do mercado, a atual direção de desenvolvimento da tecnologia de embalagem da CPU é principalmente economia de custos.