Tout d'abord, nous devons comprendre que GB2312, GBK et UTF-8 sont tous des codages de caractères. De plus, il existe de nombreux codages de caractères. C'est juste que pour nos sites chinois, ces trois encodages sont plus souvent utilisés. Pour faire simple, pourquoi devons-nous utiliser le codage ? Dans l’ordinateur, le code ASC II est utilisé pour stocker les informations textuelles. Chaque caractère correspond à un code ASCII unique. Les ordinateurs ont été inventés à l'origine aux États-Unis et utilisaient également des claviers et des lettres, de sorte que leurs caractères étaient faciles à résoudre avec ASCII. Mais nos caractères chinois sont différents. Chaque caractère chinois doit correspondre à un code ASCII unique. C'est ainsi qu'ont vu le jour les normes nationales de codage des caractères : GB2312, GBK, etc. D'autres pays et d'autres langues ont également leurs normes de codage correspondantes. GB signifie norme nationale GB2312 et GBK sont principalement utilisés pour coder les caractères chinois, tandis que UTF-8 est utilisé dans le monde entier. Cela signifie que si votre page Web est principalement destinée aux Chinois qui parlent chinois, il est très judicieux d'utiliser GB2312 et GBK. Le volume de stockage de texte doit être faible, ce qui présente certains avantages. Si votre page Web doit être ouverte sur le monde et que vous utilisez GB2312 et GBK comme encodage de page Web, certains navigateurs informatiques ne disposent pas de cet encodage et le contenu en caractères chinois de votre page Web deviendra des caractères tronqués méconnaissables. Ils sont généralement utilisés dans la balise méta d'une page Web, telle que :, indiquant que cette page utilise le codage GB2312. Ces informations sont destinées au navigateur, qui donnera la priorité au décodage de la page web à l'aide des informations d'encodage extraites de l'en-tête de la page web. Bien sûr, nous pouvons également forcer le navigateur à utiliser un certain encodage pour interpréter les pages Web, afin que nous puissions voir le légendaire code tronqué.
GBK, GB2312, etc. doivent être convertis en UTF8 via l'encodage Unicode :
GBK, GB2312--Unicode--UTF8
UTF8--Unicode--GBK, GB2312
Pour un site web ou un forum, s'il y a beaucoup de caractères anglais, il est recommandé d'utiliser UTF-8 pour gagner de la place. Cependant, de nombreux plug-ins de forum ne prennent désormais généralement en charge que GBK.
S'il s'agit d'un site Web chinois, GB2312 GBK a parfois encore quelques problèmes. Afin d'éviter tous les caractères tronqués, il est également très pratique de prendre en charge l'internationalisation à l'avenir. grand jeu de caractères, qui contient la majeure partie du texte.
L'un des avantages de l'utilisation de l'UTF-8 est que les utilisateurs d'autres régions (telles que Hong Kong et Taiwan) peuvent afficher votre texte normalement sans installer la prise en charge du chinois simplifié* et sans caractères tronqués. *
gb2312 est le code du chinois simplifié
gbk prend en charge le chinois simplifié et le chinois traditionnel
big5 prend en charge le chinois traditionnel
utf-8 prend en charge presque tous les caractères
Le code le plus couramment utilisé en Chine continentale est GBK18030. De plus, il existe GBK et GB2312. La relation entre ces codes est la suivante. Le premier codage de caractères chinois était GB2312, qui comprenait 6 763 caractères chinois et 682 autres symboles. Le codage a été révisé en 1995 et nommé GBK1.0, et un total de 21 886 symboles ont été inclus. Plus tard, le codage GBK18030 a été lancé, qui comprenait un total de 27 484 caractères chinois, ainsi que le tibétain, le mongol, l'ouïghour et d'autres langues minoritaires majeures. Désormais, la plate-forme WINDOWS doit prendre en charge le codage GBK18030.
Le codage GB2312 contient environ plus de 6 000 caractères chinois (à l'exclusion des caractères spéciaux). La plage de codage est b0-f7 pour le premier chiffre et la plage de codage pour le deuxième chiffre est a1-fe (lorsque le premier chiffre est cf, le deuxième chiffre). est a1-d3). Calculez le nombre de caractères chinois à 6762 caractères chinois. Bien sûr, il y a d'autres personnages. Y compris les touches de contrôle et autres caractères, il existe environ 7 573 codes de caractères. Le code gbk est une extension du code GB2312 et peut accueillir davantage de caractères chinois, mais il ne s'agit que d'une extension et d'aucun changement qualitatif. Tous les codes G B2312 sont conservés et la plage de codage est étendue sur cette base. Il peut accueillir un total de 22 014 codes de caractères (y compris les caractères spéciaux). Le code gb18030 est une extension basée sur le code gbk. Parce qu'il y a plus de caractères chinois. seuls des codes à deux chiffres sont utilisés. Il ne peut plus prendre en charge les caractères chinois requis, c'est pourquoi une méthode mixte de 24 bits est adoptée pour prendre en charge davantage d'encodages de caractères chinois. Et il conserve le codage original gbk sur 2 octets et est compatible avec les fichiers codés GB2312 et gbk. Peut accueillir environ 55 657 codes (y compris les caractères spéciaux) Codage Unicode (c'est-à-dire codage UTF) : communément appelé Code universel, il s'engage à utiliser des normes de codage unifiées pour exprimer les textes de différents pays. Afin d'exprimer plus de texte, UTF-8 utilise une méthode de mélange 2/3. La gamme de caractères chinois actuellement pris en charge est plus petite que celle du codage gbk. Et le traitement du chinois sur 3 octets a entraîné des problèmes de compatibilité. Les fichiers codés d'origine en gbk, GB2312 et gb18030 ne peuvent pas être traités normalement, et il reste encore un long chemin à parcourir.
Quelles sont les différences entre gbk et gb2312
Tout d’abord, tout le monde doit comprendre ce qu’est gbk ? Qu’est-ce que gb2312 ? Nous devons savoir qu'il s'agit tous d'une sorte de codage de caractères. Bien sûr, il existe de nombreux types de codage de caractères.
Le codage des caractères peut être compris comme ceci :
Ce qui est stocké dans l'ordinateur, ce sont des valeurs binaires de 0 et 1.
8 bits correspondent à un octet, communément exprimé en hexadécimal.
Et si nous voulons voir les caractères que nous voulons afficher sur l'ordinateur au lieu des différents chiffres 0 et 1 ?
Ici, nous devons faire en sorte que l'ordinateur convertisse les valeurs hexadécimales correspondantes qu'il stocke en caractères correspondants, y compris les caractères d'autres langues telles que l'anglais et le chinois, puis les affiche à l'écran.
Encoder signifie donc définir un ensemble de règles pour préciser quelles valeurs correspondent à quels caractères.
Ensuite, le codage des caractères définit un ensemble de règles qui précisent quelle valeur parmi tant de valeurs stockées dans l'ordinateur correspond à quelle lettre est affichée sur l'écran de l'ordinateur.
Pour résumer, tout le monde devrait pouvoir comprendre que GBK et GB2312 sont des encodages de caractères.
Parlons de leurs différences et similitudes en détail ci-dessous :
Points similaires :
1. GBK et GB2312 sont tous deux 16 bits !
2. Ils sont généralement utilisés dans les balises méta des pages Web.
Différences :
1. L'encodage des caractères GBK prend en charge le chinois simplifié et le chinois traditionnel !
Le nom complet de GBK est « Spécification d'extension du code interne chinois » (GBK est la première lettre du pinyin chinois « Norme nationale » et « Étendu », nom anglais : Spécification du code interne chinois), Comité technique national de normalisation des technologies de l'information de la République populaire. de Chine, 1er décembre 1995. Formulée le 15 décembre 1995, le Département de normalisation du Bureau d'État de supervision technique et le Département de supervision de la science, de la technologie et de la qualité du ministère de l'Industrie électronique ont publié conjointement une lettre de supervision technique le 15 décembre. 1995. 229, le définissant comme un document d'orientation sur les spécifications techniques.
2. GB2312 ne prend en charge que le chinois simplifié !
Le « jeu de caractères codés chinois pour l'échange d'informations » est un ensemble de normes nationales publiées par l'Administration d'État des normes de Chine en 1980 et mises en œuvre le 1er mai 1981. Le numéro de la norme est GB 2312-1980.
La norme GB 2312 contient un total de 6 763 caractères chinois, dont 3 755 caractères chinois de premier niveau et 3 008 caractères chinois de deuxième niveau. Dans le même temps, le GB 2312 comprend des lettres latines, des lettres grecques, des lettres japonaises hiragana et katakana et du cyrillique russe. lettres. 682 caractères pleine chasse.
Si votre page Web est principalement destinée aux Chinois qui parlent chinois, il est très judicieux d'utiliser GB2312 et GBK. Le volume de stockage de texte doit être faible, ce qui présente certains avantages. Si votre page Web doit être ouverte sur le monde et que vous utilisez GB2312 et GBK comme encodage de page Web, certains navigateurs informatiques ne disposent pas de cet encodage et le contenu en caractères chinois de votre page Web deviendra des caractères tronqués méconnaissables.