1. Qu’est-ce que l’encodage des caractères ?
Caractère est un terme général désignant le texte et les symboles, y compris le texte, les symboles graphiques, les symboles mathématiques, etc. Un jeu de caractères abstraits est un jeu de caractères (Charset). L'émergence de jeux de caractères vise à faciliter la diffusion et le stockage de l'information. Les jeux de caractères actuellement couramment utilisés incluent : ASCII, ISO 8859-1, Unicode, GB2312.
2. Quelles sont les caractéristiques des différents ensembles de codage ?
ASCII :
ASCII (American Standard Code for Information Interchange, American Standard Code for Information Interchange) est un système de codage informatique basé sur l'alphabet latin.
Contient du contenu : caractères de contrôle (retour chariot, retour arrière, saut de ligne), caractères affichables (majuscules et minuscules anglaises, chiffres arabes et symboles occidentaux).
Caractéristiques techniques : 7 bits représentent un caractère, soit un total de 128 caractères
Inconvénients : il ne peut représenter que l'anglais et les symboles linguistiques d'Europe occidentale, d'Asie de l'Est et d'Amérique latine ne peuvent pas être représentés.
OIN 8859-1 :
L'ISO 8859-1, officiellement numérotée ISO/IEC 8859-1:1998, également connue sous le nom de Latin-1 ou « Langue d'Europe occidentale », est le premier jeu de caractères 8 bits de l'ISO/IEC 8859 au sein de l'Organisation internationale de normalisation.
Il est basé sur ASCII et ajoute 96 lettres et symboles dans la plage vacante 0xA0-0xFF pour les langues à alphabet latin qui utilisent des symboles supplémentaires. La version ISO 8859-1:1987 a été lancée.
Contenu inclus : L'encodage ASCII inclut certaines langues utilisées en Europe occidentale.
Caractéristiques techniques : 8 bits représentent un caractère.
Unicode :
Le codage du jeu de caractères Unicode est l'abréviation de Universal Multiple-Octet Coded Character Set. Il s'agit d'un système de codage de caractères développé par une organisation appelée Unicode Consortium et prend en charge diverses langues dans le monde aujourd'hui. texte écrit. Le développement du codage a commencé en 1990 et a été officiellement annoncé en 1994. La dernière version est Unicode 4.1.0 le 31 mars 2005.
Caractéristiques techniques : Encodage 16 bits, chaque caractère occupe 2 octets. Le codage Unicode d'un caractère est déterminé. Cependant, dans le processus de transmission réel, parce que les conceptions des différentes plates-formes système ne sont pas nécessairement cohérentes et dans un souci d'économie d'espace, la mise en œuvre du codage Unicode est différente. L'implémentation d'Unicode est appelée Unicode Transformation Format (UTF en abrégé). Si un fichier Unicode de caractères ASCII de 7 bits est transmis en utilisant le codage Unicode original de 2 octets pendant le processus de transmission, cela entraînera un gaspillage relativement important. Dans cette situation, vous pouvez utiliser le codage UTF-8, qui est un codage de longueur variable qui utilise toujours un codage sur 7 bits pour représenter les caractères ASCII de base sur 7 bits, occupant un octet (le premier bit est rempli par 0). Lorsqu'il est mélangé avec d'autres caractères Unicode, il sera converti selon un certain algorithme. Chaque caractère est codé sur 1 à 3 octets et le premier bit est 0 ou 1 pour l'identification.
GB2312 :
GB 2312 ou GB 2312-80 est le jeu de caractères chinois simplifié standard national de la Chine, le nom complet est « Jeu de caractères codés chinois pour l'échange d'informations de base », également connu sous le nom de GB0. Il a été publié par l'Administration d'État des normes de Chine et mis en œuvre. le 1er mai 1981. Le codage GB2312 est populaire en Chine continentale ; Singapour et d'autres endroits utilisent également ce codage. Presque tous les systèmes chinois et logiciels internationaux en Chine continentale prennent en charge GB 2312.
Contient : 6 763 caractères chinois, dont 3 755 caractères chinois de premier niveau et 3 008 caractères chinois de deuxième niveau ; il comprend également 682 caractères, dont des lettres latines, des lettres grecques, des lettres hiragana et katakana japonaises et des lettres cyrilliques russes.
Caractéristiques techniques : Chaque caractère et symbole chinois est représenté par deux octets. Le premier octet est appelé « octet de poids fort » et le deuxième octet est appelé « octet de poids faible ». L'"octet de poids fort" utilise 0xA1-0xF7 et "l'octet de poids faible" utilise 0xA1-0xFE0xA0). Étant donné que les caractères chinois de premier niveau commencent à partir de la zone 16, la plage des « octets de poids fort » de la zone de caractères chinois est 0xB0-0xF7, la plage des « octets de poids faible » est 0xA1-0xFE et les bits de code occupés sont 72*94 = 6768. Parmi eux, 5 postes vacants sont D7FA-D7FE.