Se você tiver escolha, ainda deverá usar UTF-8
Na verdade, os próprios programas do sistema Windows mudaram totalmente para Unicode, e o GBK é apenas uma medida provisória para lidar com os padrões chineses.
A codificação de texto do GBK é representada por bytes duplos, ou seja, os caracteres chineses e ingleses são representados por bytes duplos. No entanto, para distinguir o chinês, o bit mais alto é definido como 1.
Quanto à codificação UTF-8, é uma codificação multibyte usada para resolver caracteres internacionais. Ela usa 8 bits (ou seja, um byte) para inglês e 24 bits (três bytes) para chinês. Para fóruns com muitos caracteres ingleses, o UTF-8 é usado para economizar espaço.
GBK contém todos os caracteres chineses,
UTF-8 contém caracteres necessários para todos os países do mundo.
GBK é um padrão compatível com GB2312 após ser expandido com base no padrão nacional GB2312 (parece que ainda não é um padrão nacional)
O texto codificado em UTF-8 pode ser exibido em vários navegadores em vários países que suportam o conjunto de caracteres UTF8.
Por exemplo, se for a codificação UTF8, o chinês também pode ser exibido no IE inglês de estrangeiros, sem que eles precisem baixar o pacote de suporte ao idioma chinês do IE.
Portanto, para fóruns com muito inglês, cada caractere ocupa 2 bytes ao usar GBK, mas ocupa apenas um byte ao usar o inglês UTF-8.
Observação: embora a versão UTF-8 tenha boa compatibilidade internacional, a versão chinesa requer 50% mais espaço de armazenamento de banco de dados do que a versão GBK/BIG5, portanto não é recomendada e só pode ser usada por usuários com requisitos especiais de compatibilidade internacional.
Simplificando:
Para fóruns com muitos caracteres chineses, é apropriado usar a codificação GBK para economizar espaço no banco de dados.
Para fóruns com muito inglês, é apropriado usar UTF-8 para economizar espaço no banco de dados.
Quais são as diferenças entre gbk e gb2312
Primeiro de tudo, todos precisam entender o que é gbk. O que é gb2312? Precisamos saber que todos eles são um tipo de codificação de caracteres. Claro, existem muitos tipos de codificações de caracteres.
A codificação de caracteres pode ser entendida assim:
O que está armazenado no computador são valores binários de 0 e 1.
8 bits correspondem a um byte, comumente expresso em hexadecimal.
E daí se quisermos ver os caracteres que queremos exibidos no computador em vez de vários números 0 e 1?
Aqui precisamos fazer o computador converter os valores hexadecimais correspondentes armazenados em caracteres correspondentes, incluindo caracteres em outros idiomas, como inglês e chinês, e depois exibi-los na tela.
Portanto, codificação significa definir um conjunto de regras para especificar quais valores correspondem a quais caracteres.
Então a codificação de caracteres define um conjunto de regras que especifica qual valor entre tantos valores armazenados no computador corresponde a qual letra é exibida na tela do computador.
Resumindo, todos devem ser capazes de compreender que GBK e GB2312 são codificações de caracteres.
Vamos falar sobre suas diferenças e semelhanças em detalhes abaixo:
Pontos semelhantes:
1. GBK e GB2312 são ambos de 16 bits!
2. Eles geralmente são usados nas meta tags de páginas da web.
Diferenças:
1. A codificação de caracteres GBK suporta chinês simplificado e chinês tradicional!
O nome completo do GBK é "Especificação de Expansão do Código Interno Chinês" (GBK é a primeira letra de "Padrão Nacional" e Pinyin Chinês "Estendido", nome em inglês: Especificação do Código Interno Chinês), Comitê Técnico Nacional de Padronização de Tecnologia da Informação da República Popular da China, 1º de dezembro de 1995 Formulado em 15 de dezembro de 1995, o Departamento de Padronização do Departamento Estadual de Supervisão Técnica e o Departamento de Ciência e Tecnologia e Supervisão de Qualidade do Ministério da Indústria Eletrônica emitiram conjuntamente uma carta de supervisão técnica em 15 de dezembro, 1995. 229, definindo-o como documento orientador de especificações técnicas.
2. GB2312 suporta apenas chinês simplificado!
"Conjunto de caracteres codificados chineses para troca de informações" é um conjunto de padrões nacionais publicado pela Administração Estatal de Padrões da China em 1980 e implementado em 1º de maio de 1981. O número padrão é GB 2312-1980.
O padrão GB 2312 contém um total de 6.763 caracteres chineses, incluindo 3.755 caracteres chineses de primeiro nível e 3.008 caracteres chineses de segundo nível. Ao mesmo tempo, GB 2312 inclui letras latinas, letras gregas, letras japonesas hiragana e katakana e cirílico russo. letras. 682 caracteres de largura total.
Se a sua página é principalmente para chineses que falam chinês, é muito bom usar GB2312 e GBK. O volume de armazenamento de texto deve ser pequeno, o que traz algumas vantagens. Se a sua página da web for aberta ao mundo e você usar GB2312 e GBK como codificação de página da web, alguns navegadores de computador não terão essa codificação e o conteúdo de caracteres chineses da sua página da web se tornará caracteres distorcidos irreconhecíveis.