Si vous avez le choix, vous devez toujours utiliser UTF-8
En fait, les programmes du système Windows sont entièrement passés à Unicode, et GBK n'est qu'un pis-aller pour faire face aux normes chinoises.
Le codage de texte de GBK est représenté par des octets doubles, c'est-à-dire que les caractères chinois et anglais sont représentés par des octets doubles. Cependant, afin de distinguer le chinois, le bit le plus élevé est défini sur 1.
Quant au codage UTF-8, il s'agit d'un codage multi-octets utilisé pour résoudre les caractères internationaux. Il utilise 8 bits (soit un octet) pour l'anglais et 24 bits (trois octets) pour le chinois. Pour les forums contenant de nombreux caractères anglais, UTF-8 est utilisé pour économiser de l'espace.
GBK contient tous les caractères chinois,
UTF-8 contient les caractères nécessaires à tous les pays du monde.
GBK est une norme compatible avec GB2312 après avoir été étendue sur la base de la norme nationale GB2312 (il semble que ce ne soit pas encore une norme nationale)
Le texte codé en UTF-8 peut être affiché sur divers navigateurs dans divers pays prenant en charge le jeu de caractères UTF8.
Par exemple, s'il s'agit d'un encodage UTF8, le chinois peut également être affiché sur l'IE anglais des étrangers sans qu'ils aient besoin de télécharger le package de prise en charge de la langue chinoise d'IE.
Par conséquent, pour les forums contenant beaucoup d’anglais, chaque caractère occupe 2 octets lors de l’utilisation du GBK, mais n’occupe qu’un octet lors de l’utilisation de l’anglais UTF-8.
Remarque : bien que la version UTF-8 ait une bonne compatibilité internationale, la version chinoise nécessite 50 % d'espace de stockage de base de données en plus que la version GBK/BIG5, elle n'est donc pas recommandée et ne peut être utilisée que par des utilisateurs ayant des exigences particulières en matière de compatibilité internationale.
En termes simples :
Pour les forums comportant de nombreux caractères chinois, il convient d'utiliser le codage GBK pour économiser de l'espace dans la base de données.
Pour les forums contenant beaucoup d'anglais, il convient d'utiliser UTF-8 pour économiser de l'espace dans la base de données.
Quelles sont les différences entre gbk et gb2312
Tout d’abord, tout le monde doit comprendre ce qu’est gbk ? Qu’est-ce que gb2312 ? Nous devons savoir qu'il s'agit tous d'une sorte de codage de caractères. Bien sûr, il existe de nombreux types de codage de caractères.
Le codage des caractères peut être compris comme ceci :
Ce qui est stocké dans l'ordinateur, ce sont des valeurs binaires de 0 et 1.
8 bits correspondent à un octet, communément exprimé en hexadécimal.
Et si nous voulons voir les caractères que nous voulons afficher sur l'ordinateur au lieu des différents chiffres 0 et 1 ?
Ici, nous devons faire en sorte que l'ordinateur convertisse les valeurs hexadécimales correspondantes qu'il stocke en caractères correspondants, y compris les caractères d'autres langues telles que l'anglais et le chinois, puis les affiche à l'écran.
Encoder signifie donc définir un ensemble de règles pour préciser quelles valeurs correspondent à quels caractères.
Ensuite, le codage des caractères définit un ensemble de règles qui précisent quelle valeur parmi tant de valeurs stockées dans l'ordinateur correspond à quelle lettre est affichée sur l'écran de l'ordinateur.
Pour résumer, tout le monde devrait pouvoir comprendre que GBK et GB2312 sont des encodages de caractères.
Parlons de leurs différences et similitudes en détail ci-dessous :
Points similaires :
1. GBK et GB2312 sont tous deux 16 bits !
2. Ils sont généralement utilisés dans les balises méta des pages Web.
Différences :
1. L'encodage des caractères GBK prend en charge le chinois simplifié et le chinois traditionnel !
Le nom complet de GBK est « Spécification d'extension du code interne chinois » (GBK est la première lettre du pinyin chinois « Norme nationale » et « Étendu », nom anglais : Spécification du code interne chinois), Comité technique national de normalisation des technologies de l'information de la République populaire. de Chine, 1er décembre 1995. Formulée le 15 décembre 1995, le Département de normalisation du Bureau d'État de supervision technique et le Département de supervision de la science, de la technologie et de la qualité du ministère de l'Industrie électronique ont publié conjointement une lettre de supervision technique le 15 décembre. 1995. 229, le définissant comme un document d'orientation sur les spécifications techniques.
2. GB2312 ne prend en charge que le chinois simplifié !
Le « jeu de caractères codés chinois pour l'échange d'informations » est un ensemble de normes nationales publiées par l'Administration d'État des normes de Chine en 1980 et mises en œuvre le 1er mai 1981. Le numéro de la norme est GB 2312-1980.
La norme GB 2312 contient un total de 6 763 caractères chinois, dont 3 755 caractères chinois de premier niveau et 3 008 caractères chinois de deuxième niveau. Dans le même temps, le GB 2312 comprend des lettres latines, des lettres grecques, des lettres japonaises hiragana et katakana et du cyrillique russe. lettres. 682 caractères pleine chasse.
Si votre page Web est principalement destinée aux Chinois qui parlent chinois, il est très judicieux d'utiliser GB2312 et GBK. Le volume de stockage de texte doit être faible, ce qui présente certains avantages. Si votre page Web doit être ouverte sur le monde et que vous utilisez GB2312 et GBK comme encodage de page Web, certains navigateurs informatiques ne disposent pas de cet encodage et le contenu en caractères chinois de votre page Web deviendra des caractères tronqués méconnaissables.