En primer lugar, debemos comprender que GB2312, GBK y UTF-8 son codificaciones de caracteres. Además, existen muchas codificaciones de caracteres. Es solo que para nuestros sitios web chinos, estas tres codificaciones se utilizan con más frecuencia. En pocas palabras, ¿por qué necesitamos usar codificación? En la computadora, el código ASC II se usa para almacenar información de texto. Cada carácter corresponde a un código ASCII único. Las computadoras se inventaron originalmente en los Estados Unidos y también usaban teclados y letras, por lo que sus caracteres eran fáciles de resolver con ASCII. Pero nuestros caracteres chinos son diferentes. Cada carácter chino debe corresponder a un código ASCII único. De esta forma surgieron los estándares nacionales de codificación de caracteres: GB2312, GBK, etc. Otros países y otros idiomas también tienen sus correspondientes estándares de codificación. GB significa estándar nacional GB2312 y GBK se utilizan principalmente para codificar caracteres chinos, mientras que UTF-8 se utiliza en todo el mundo. Esto significa que si su página web es principalmente para chinos que hablan chino, es muy bueno usar GB2312 y GBK. El volumen de almacenamiento de texto debe ser pequeño, lo que tiene algunas ventajas. Si su página web va a estar abierta al mundo y utiliza GB2312 y GBK como codificación de página web, algunos navegadores de computadora no tienen esta codificación y el contenido de caracteres chinos de su página web se convertirá en caracteres confusos irreconocibles. Por lo general, se usan en la metaetiqueta de una página web, como:, lo que indica que esta página usa codificación GB2312. Esta información es para el navegador, que dará prioridad a decodificar la página web utilizando la información de codificación extraída del encabezado de la página web. Por supuesto, también podemos forzar al navegador a utilizar una determinada codificación para interpretar las páginas web, de modo que podamos ver el legendario código confuso.
GBK, GB2312, etc. deben convertirse a UTF8 mediante codificación Unicode:
GBK, GB2312--Unicode--UTF8
UTF8--Unicode--GBK, GB2312
Para un sitio web o foro, si hay muchos caracteres en inglés, se recomienda utilizar UTF-8 para ahorrar espacio. Sin embargo, muchos complementos de foros ahora generalmente solo admiten GBK.
Si se trata de un sitio web chino, GB2312 GBK a veces todavía tiene algunos problemas. Para evitar todos los caracteres confusos, se debe utilizar UTF-8. También es muy conveniente admitir la internacionalización. conjunto de caracteres grande, que contiene la mayor parte del texto.
Una ventaja de utilizar UTF-8 es que los usuarios de otras regiones (como Hong Kong y Taiwán) pueden ver su texto normalmente sin instalar soporte para chino simplificado* sin caracteres confusos. *
gb2312 es el código para chino simplificado
gbk admite chino simplificado y chino tradicional
big5 admite chino tradicional
utf-8 soporta casi todos los caracteres
El código más utilizado en China continental es GBK18030. Además, existen GBK y GB2312. La relación entre estos códigos es la siguiente. La codificación de caracteres chinos más antigua fue GB2312, que incluía 6763 caracteres chinos y otros 682 símbolos. La codificación se revisó en 1995 y se denominó GBK1.0, y se incluyeron un total de 21886 símbolos. Posteriormente, se lanzó la codificación GBK18030, que incluía un total de 27.484 caracteres chinos, así como tibetano, mongol, uigur y otros idiomas minoritarios importantes. Ahora la plataforma WINDOWS debe admitir la codificación GBK18030.
La codificación GB2312 contiene aproximadamente más de 6000 caracteres chinos (excluidos los caracteres especiales). El rango de codificación es b0-f7 para el primer dígito y el rango de codificación para el segundo dígito es a1-fe (cuando el primer dígito es cf, el segundo dígito). es a1-d3). Calcule el número de caracteres chinos hasta 6762 caracteres chinos. Por supuesto que hay otros personajes. Incluyendo las teclas de control y otros caracteres, hay alrededor de 7573 códigos de caracteres. El código gbk es una expansión del código GB2312 y puede acomodar más caracteres chinos, pero es solo una expansión y no un cambio cualitativo. Se conservan todos los códigos G B2312 y el rango de codificación se amplía sobre esta base. Tiene capacidad para un total de 22014 códigos de caracteres (incluidos los caracteres especiales). El código gb18030 es una expansión basada en el código gbk. solo se utilizan códigos de dos dígitos. Ya no puede acomodar los caracteres chinos requeridos, por lo que se adopta un método mixto de 24 bits para admitir más codificaciones de caracteres chinos. Y conserva la codificación original de 2 bytes gbk y es compatible con archivos codificados GB2312 y gbk. Tiene capacidad para aproximadamente 55657 códigos (incluidos caracteres especiales) Codificación Unicode (es decir, codificación UTF): comúnmente conocido como Código Universal, se compromete a utilizar estándares de codificación unificados para expresar los textos de varios países. Para expresar más texto, UTF-8 utiliza un método de mezcla 2/3. La gama de caracteres chinos que se admiten actualmente es menor que la codificación gbk. Y el procesamiento de chino en 3 bytes ha provocado problemas de compatibilidad. Los archivos codificados originales gbk, GB2312 y gb18030 no se pueden procesar normalmente y todavía queda un largo camino por recorrer.
¿Cuáles son las diferencias entre gbk y gb2312?
En primer lugar, todos deben comprender qué es gbk. ¿Qué es gb2312? Necesitamos saber que todos son codificaciones de caracteres. Por supuesto, existen muchas codificaciones de caracteres.
La codificación de caracteres se puede entender así:
Lo que se almacena en el ordenador son valores binarios de 0 y 1.
8 bits corresponden a un byte, comúnmente expresado en hexadecimal.
Entonces, ¿qué pasa si queremos ver los caracteres que queremos que se muestren en la computadora en lugar de varios números 0 y 1?
Aquí debemos hacer que la computadora convierta los valores hexadecimales correspondientes que almacena en los caracteres correspondientes, incluidos caracteres en otros idiomas como inglés y chino, y luego enviarlos a la pantalla.
Entonces, codificar significa definir un conjunto de reglas para especificar qué valores corresponden a qué caracteres.
Luego, la codificación de caracteres define un conjunto de reglas que especifican qué valor entre tantos valores almacenados en la computadora corresponde a qué letra se muestra en la pantalla de la computadora.
En resumen, todos deberían poder comprender que GBK y GB2312 son codificaciones de caracteres.
Hablemos de sus diferencias y similitudes en detalle a continuación:
Puntos similares:
1. ¡GBK y GB2312 son ambos de 16 bits!
2. Suelen utilizarse dentro de las metaetiquetas de las páginas web.
Diferencias:
1. ¡La codificación de caracteres GBK admite chino simplificado y chino tradicional!
El nombre completo de GBK es "Especificación de expansión del código interno chino" (GBK es la primera letra del "Estándar nacional" y el Pinyin chino "extendido", nombre en inglés: Especificación del código interno chino), Comité Técnico Nacional de Normalización de Tecnología de la Información de la República Popular. de China, 1 de diciembre de 1995 Formulada el 15 de diciembre de 1995, el Departamento de Normalización de la Oficina Estatal de Supervisión Técnica y el Departamento de Ciencia y Tecnología y Supervisión de Calidad del Ministerio de Industria Electrónica emitieron conjuntamente una carta de supervisión técnica el 15 de diciembre de 1995. 1995. 229, definiéndolo como un documento guía de especificaciones técnicas.
2. ¡GB2312 solo admite chino simplificado!
El "Conjunto de caracteres codificados chinos para el intercambio de información" es un conjunto de estándares nacionales publicados por la Administración Estatal de Estándares de China en 1980 e implementados el 1 de mayo de 1981. El número de estándar es GB 2312-1980.
El estándar GB 2312 contiene un total de 6763 caracteres chinos, incluidos 3755 caracteres chinos de primer nivel y 3008 caracteres chinos de segundo nivel. Al mismo tiempo, GB 2312 incluye letras latinas, letras griegas, letras japonesas hiragana y katakana y cirílico ruso. letras 682 caracteres de ancho completo.
Si su página web es principalmente para chinos que hablan chino, es muy bueno utilizar GB2312 y GBK. El volumen de almacenamiento de texto debe ser pequeño, lo que tiene algunas ventajas. Si su página web va a estar abierta al mundo y utiliza GB2312 y GBK como codificación de página web, algunos navegadores de computadora no tienen esta codificación y el contenido de caracteres chinos de su página web se convertirá en caracteres confusos irreconocibles.