Em primeiro lugar, precisamos entender que GB2312, GBK e UTF-8 são codificações de caracteres. Além disso, existem muitas codificações de caracteres. Acontece que, para nossos sites chineses, essas três codificações são usadas com mais frequência. Simplificando, por que precisamos usar codificação? No computador, o código ASC II é usado para armazenar informações de texto. Os computadores foram originalmente inventados nos Estados Unidos e também usavam teclados e letras, de modo que seus caracteres eram fáceis de resolver com ASCII. Mas nossos caracteres chineses são diferentes. Cada caractere chinês deve corresponder a um código ASCII exclusivo. Desta forma, surgiram os padrões nacionais de codificação de caracteres: GB2312, GBK, etc. Outros países e outros idiomas também possuem seus padrões de codificação correspondentes. GB significa padrão nacional GB2312 e GBK são usados principalmente para codificação de caracteres chineses, enquanto UTF-8 é usado em todo o mundo. Isso significa que se a sua página é principalmente para chineses que falam chinês, é muito bom usar GB2312 e GBK. O volume de armazenamento de texto deve ser pequeno, o que traz algumas vantagens. Se a sua página da web for aberta ao mundo e você usar GB2312 e GBK como codificação de página da web, alguns navegadores de computador não terão essa codificação e o conteúdo de caracteres chineses da sua página da web se tornará caracteres ilegíveis irreconhecíveis. Eles geralmente são usados na meta tag de uma página da web, como:, indicando que esta página usa a codificação GB2312. Esta informação é para o navegador, que dará prioridade à decodificação da página web utilizando a informação de codificação extraída do cabeçalho da página web. Claro, também podemos forçar o navegador a usar uma determinada codificação para interpretar páginas da web, para que possamos ver o lendário código distorcido.
GBK, GB2312, etc. devem ser convertidos para UTF8 através da codificação Unicode:
GBK, GB2312--Unicode--UTF8
UTF8 - Unicode - GBK, GB2312
Para um site ou fórum, se houver muitos caracteres em inglês, é recomendado usar UTF-8 para economizar espaço. No entanto, muitos plug-ins de fórum agora geralmente suportam apenas GBK.
Se for um site chinês, o GB2312 GBK às vezes ainda apresenta alguns problemas. Para evitar todos os caracteres ilegíveis, o UTF-8 também deve ser considerado um suporte de internacionalização muito conveniente. grande conjunto de caracteres, que contém a maior parte da codificação.
Um benefício de usar UTF-8 é que os usuários de outras regiões (como Hong Kong e Taiwan) podem visualizar seu texto normalmente sem instalar o suporte para chinês simplificado* sem caracteres ilegíveis. *
gb2312 é o código para chinês simplificado
gbk suporta chinês simplificado e chinês tradicional
big5 suporta chinês tradicional
utf-8 suporta quase todos os caracteres
O código mais comumente usado na China continental é GBK18030. Além disso, existem GBK e GB2312. A relação entre esses códigos é assim. A primeira codificação de caracteres chineses formulada foi GB2312, que incluía 6.763 caracteres chineses e 682 outros símbolos. A codificação foi revisada em 1995 e denominada GBK1.0, e um total de 21.886 símbolos foram incluídos. Mais tarde, foi lançada a codificação GBK18030, que incluía um total de 27.484 caracteres chineses, bem como tibetano, mongol, uigur e outras línguas de minorias étnicas importantes. Agora, a plataforma WINDOWS deve suportar a codificação GBK18030.
A codificação GB2312 contém aproximadamente mais de 6.000 caracteres chineses (excluindo caracteres especiais). O intervalo de codificação é b0-f7 para o primeiro dígito e o intervalo de codificação para o segundo dígito é a1-fe (quando o primeiro dígito é cf, o segundo dígito). é a1-d3). Calcule o número de caracteres chineses para 6.762 caracteres chineses. Claro que existem outros personagens. Incluindo teclas de controle e outros caracteres, existem cerca de 7.573 códigos de caracteres. O código gbk é uma expansão do código GB2312 e pode acomodar mais caracteres chineses, mas é apenas uma expansão e nenhuma mudança qualitativa. Todos os códigos G B2312 são mantidos e o intervalo de codificação é expandido com base nisso. Ele acomoda um total de 22.014 códigos de caracteres (incluindo caracteres especiais). O código gb18030 é uma expansão baseada no código gbk. apenas códigos de dois dígitos são usados. Ele não pode mais acomodar os caracteres chineses necessários, portanto, um método misto de 2/4 bits é adotado para suportar mais codificações de caracteres chineses. E mantém a codificação gbk original de 2 bytes e é compatível com arquivos codificados GB2312 e gbk. Acomoda aproximadamente 55.657 códigos (incluindo caracteres especiais) Codificação Unicode (ou seja, codificação UTF): comumente conhecida como Código Universal, está comprometida em usar padrões de codificação unificados para expressar os textos de vários países. Para expressar mais texto, o UTF-8 usa um método de mistura 2/3. A gama de caracteres chineses atualmente acomodada é menor que a codificação gbk. E o processamento do chinês em 3 bytes trouxe problemas de compatibilidade. Os arquivos codificados gbk, GB2312 e gb18030 originais não podem ser processados normalmente e ainda há um longo caminho a percorrer.
Quais são as diferenças entre gbk e gb2312
Primeiro de tudo, todos precisam entender o que é gbk. O que é gb2312? Precisamos saber que todos eles são um tipo de codificação de caracteres. Claro, existem muitos tipos de codificações de caracteres.
A codificação de caracteres pode ser entendida assim:
O que está armazenado no computador são valores binários de 0 e 1.
8 bits correspondem a um byte, comumente expresso em hexadecimal.
E daí se quisermos ver os caracteres que queremos exibidos no computador em vez de vários números 0 e 1?
Aqui precisamos fazer o computador converter os valores hexadecimais correspondentes armazenados em caracteres correspondentes, incluindo caracteres em outros idiomas, como inglês e chinês, e então exibi-los na tela.
Portanto, codificação significa definir um conjunto de regras para especificar quais valores correspondem a quais caracteres.
Então a codificação de caracteres define um conjunto de regras, especificando qual valor entre tantos valores armazenados no computador corresponde a qual letra é exibida na tela do computador.
Resumindo, todos devem ser capazes de compreender que GBK e GB2312 são codificações de caracteres.
Vamos falar sobre suas diferenças e semelhanças em detalhes abaixo:
Pontos semelhantes:
1. GBK e GB2312 são ambos de 16 bits!
2. Eles geralmente são usados nas meta tags de páginas da web.
Diferenças:
1. A codificação de caracteres GBK suporta chinês simplificado e chinês tradicional!
O nome completo do GBK é "Especificação de Expansão do Código Interno Chinês" (GBK é a primeira letra de "Padrão Nacional" e Pinyin Chinês "Estendido", nome em inglês: Especificação do Código Interno Chinês), Comitê Técnico Nacional de Padronização de Tecnologia da Informação da República Popular da China, 1º de dezembro de 1995 Formulado em 15 de dezembro de 1995, o Departamento de Padronização do Departamento Estadual de Supervisão Técnica e o Departamento de Ciência, Tecnologia e Supervisão de Qualidade do Ministério da Indústria Eletrônica emitiram conjuntamente uma carta de supervisão técnica em 15 de dezembro, 1995 229, definindo-o como um documento de orientação de especificações técnicas.
2. GB2312 suporta apenas chinês simplificado!
"Conjunto de caracteres codificados chineses para troca de informações" é um conjunto de padrões nacionais publicado pela Administração Estatal de Padrões da China em 1980 e implementado em 1º de maio de 1981. O número padrão é GB 2312-1980.
O padrão GB 2312 contém um total de 6.763 caracteres chineses, incluindo 3.755 caracteres chineses de primeiro nível e 3.008 caracteres chineses de segundo nível. Ao mesmo tempo, GB 2312 inclui letras latinas, letras gregas, letras japonesas hiragana e katakana e cirílico russo. letras. 682 caracteres de largura total.
Se a sua página é principalmente para chineses que falam chinês, é muito bom usar GB2312 e GBK. O volume de armazenamento de texto deve ser pequeno, o que traz algumas vantagens. Se a sua página da web for aberta ao mundo e você usar GB2312 e GBK como codificação de página da web, alguns navegadores de computador não terão essa codificação e o conteúdo de caracteres chineses da sua página da web se tornará caracteres ilegíveis irreconhecíveis.