Si tienes la opción, igual deberías usar UTF-8
De hecho, los propios programas del sistema Windows han cambiado completamente a Unicode, y GBK es sólo una medida provisional para hacer frente a los estándares chinos.
La codificación de texto de GBK está representada por bytes dobles, es decir, tanto los caracteres chinos como los ingleses están representados por bytes dobles. Sin embargo, para distinguir el chino, el bit más alto se establece en 1.
En cuanto a la codificación UTF-8, es una codificación multibyte que se utiliza para resolver caracteres internacionales. Utiliza 8 bits (es decir, un byte) para el inglés y 24 bits (tres bytes) para el chino. Para foros con muchos caracteres en inglés, se utiliza UTF-8 para ahorrar espacio.
GBK contiene todos los caracteres chinos,
UTF-8 contiene caracteres necesarios para todos los países del mundo.
GBK es un estándar que es compatible con GB2312 después de haber sido ampliado según el estándar nacional GB2312 (parece que aún no es un estándar nacional)
El texto codificado en UTF-8 se puede mostrar en varios navegadores de distintos países que admitan el juego de caracteres UTF8.
Por ejemplo, si se trata de codificación UTF8, el chino también se puede mostrar en el IE en inglés de los extranjeros sin que tengan que descargar el paquete de soporte de idioma chino de IE.
Por lo tanto, para foros con mucho inglés, cada carácter ocupa 2 bytes cuando se usa GBK, pero solo ocupa un byte cuando se usa inglés UTF-8.
Tenga en cuenta: aunque la versión UTF-8 tiene buena compatibilidad internacional, la versión china requiere un 50% más de espacio de almacenamiento de base de datos que la versión GBK/BIG5, por lo que no se recomienda y solo puede ser utilizada por usuarios con requisitos especiales de compatibilidad internacional.
En pocas palabras:
Para foros con muchos caracteres chinos, es apropiado utilizar la codificación GBK para ahorrar espacio en la base de datos.
Para foros con mucho inglés, es apropiado utilizar UTF-8 para ahorrar espacio en la base de datos.
¿Cuáles son las diferencias entre gbk y gb2312?
En primer lugar, todos deben comprender qué es gbk. ¿Qué es gb2312? Necesitamos saber que todos son codificaciones de caracteres. Por supuesto, existen muchas codificaciones de caracteres.
La codificación de caracteres se puede entender así:
Lo que se almacena en el ordenador son valores binarios de 0 y 1.
8 bits corresponden a un byte, comúnmente expresado en hexadecimal.
Entonces, ¿qué pasa si queremos ver los caracteres que queremos que se muestren en la computadora en lugar de varios números 0 y 1?
Aquí debemos hacer que la computadora convierta los valores hexadecimales correspondientes que almacena en los caracteres correspondientes, incluidos caracteres en otros idiomas como inglés y chino, y luego enviarlos a la pantalla.
Entonces, codificar significa definir un conjunto de reglas para especificar qué valores corresponden a qué caracteres.
Luego, la codificación de caracteres define un conjunto de reglas que especifican qué valor entre tantos valores almacenados en la computadora corresponde a qué letra se muestra en la pantalla de la computadora.
En resumen, todos deberían poder comprender que GBK y GB2312 son codificaciones de caracteres.
Hablemos de sus diferencias y similitudes en detalle a continuación:
Puntos similares:
1. ¡GBK y GB2312 son ambos de 16 bits!
2. Suelen utilizarse dentro de las metaetiquetas de las páginas web.
Diferencias:
1. ¡La codificación de caracteres GBK admite chino simplificado y chino tradicional!
El nombre completo de GBK es "Especificación de expansión del código interno chino" (GBK es la primera letra del "Estándar nacional" y el Pinyin chino "extendido", nombre en inglés: Especificación del código interno chino), Comité Técnico Nacional de Normalización de Tecnología de la Información de la República Popular. de China, 1 de diciembre de 1995 Formulada el 15 de diciembre de 1995, el Departamento de Normalización de la Oficina Estatal de Supervisión Técnica y el Departamento de Ciencia y Tecnología y Supervisión de Calidad del Ministerio de Industria Electrónica emitieron conjuntamente una carta de supervisión técnica el 15 de diciembre de 1995. 1995. 229, definiéndolo como un documento guía de especificaciones técnicas.
2. ¡GB2312 solo admite chino simplificado!
El "Conjunto de caracteres codificados chinos para el intercambio de información" es un conjunto de estándares nacionales publicados por la Administración Estatal de Estándares de China en 1980 e implementados el 1 de mayo de 1981. El número de estándar es GB 2312-1980.
El estándar GB 2312 contiene un total de 6763 caracteres chinos, incluidos 3755 caracteres chinos de primer nivel y 3008 caracteres chinos de segundo nivel. Al mismo tiempo, GB 2312 incluye letras latinas, letras griegas, letras japonesas hiragana y katakana y cirílico ruso. letras 682 caracteres de ancho completo.
Si su página web es principalmente para chinos que hablan chino, es muy bueno utilizar GB2312 y GBK. El volumen de almacenamiento de texto debe ser pequeño, lo que tiene algunas ventajas. Si su página web va a estar abierta al mundo y utiliza GB2312 y GBK como codificación de página web, algunos navegadores de computadora no tienen esta codificación y el contenido de caracteres chinos de su página web se convertirá en caracteres confusos irreconocibles.