Zunächst müssen wir verstehen, dass GB2312, GBK und UTF-8 alle Zeichenkodierungen sind. Darüber hinaus gibt es viele Zeichenkodierungen. Nur werden diese drei Kodierungen für unsere chinesischen Websites häufiger verwendet. Um es einfach auszudrücken: Warum müssen wir im Computer ASC-II-Code verwenden, um Textinformationen zu speichern? Jedes Zeichen entspricht einem eindeutigen ASCII-Code. Computer wurden ursprünglich in den Vereinigten Staaten erfunden und dort wurden auch Tastaturen und Buchstaben verwendet, sodass ihre Zeichen leicht mit ASCII zu lösen waren. Aber unsere chinesischen Schriftzeichen sind unterschiedlich. Jedes chinesische Schriftzeichen muss einem eindeutigen ASCII-Code entsprechen. Auf diese Weise entstanden die nationalen Zeichenkodierungsstandards: GB2312, GBK usw. Auch andere Länder und andere Sprachen haben entsprechende Kodierungsstandards. GB bedeutet nationaler Standard. GB2312 und GBK werden hauptsächlich zur Kodierung chinesischer Zeichen verwendet, während UTF-8 weltweit verwendet wird. Das heißt, wenn Ihre Webseite hauptsächlich für Chinesen gedacht ist, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen sollte klein sein, was einige Vorteile hat. Wenn Ihre Webseite für die Welt zugänglich sein soll und Sie GB2312 und GBK als Webseitenkodierung verwenden, verfügen einige Computerbrowser nicht über diese Kodierung und der Inhalt chinesischer Schriftzeichen auf Ihrer Webseite wird zu nicht erkennbaren, verstümmelten Zeichen. Sie werden normalerweise im Meta-Tag einer Webseite verwendet, z. B.:, was darauf hinweist, dass diese Seite die GB2312-Kodierung verwendet. Diese Informationen sind für den Browser bestimmt, der der Dekodierung der Webseite Priorität einräumt, indem er die aus dem Header der Webseite extrahierten Kodierungsinformationen verwendet. Natürlich können wir den Browser auch dazu zwingen, eine bestimmte Codierung zur Interpretation von Webseiten zu verwenden, sodass wir den legendären verstümmelten Code sehen können.
GBK, GB2312 usw. müssen durch Unicode-Codierung in UTF8 konvertiert werden:
GBK, GB2312 – Unicode – UTF8
UTF8 – Unicode – GBK, GB2312
Wenn auf einer Website oder in einem Forum viele englische Zeichen vorhanden sind, wird empfohlen, UTF-8 zu verwenden, um Platz zu sparen. Allerdings unterstützen viele Forum-Plug-ins mittlerweile generell nur GBK.
Wenn es sich um eine chinesische Website handelt, gibt es bei GB2312 manchmal noch einige Probleme. Um alle verstümmelten Zeichen zu vermeiden, sollte UTF-8 auch in Zukunft als sehr praktisch angesehen werden großer Zeichensatz, der den größten Teil des Textes enthält.
Ein Vorteil der Verwendung von UTF-8 besteht darin, dass Benutzer in anderen Regionen (z. B. Hongkong und Taiwan) Ihren Text normal anzeigen können, ohne die Unterstützung für vereinfachtes Chinesisch* ohne verstümmelte Zeichen installieren zu müssen. *
gb2312 ist der Code für vereinfachtes Chinesisch
gbk unterstützt vereinfachtes Chinesisch und traditionelles Chinesisch
big5 unterstützt traditionelles Chinesisch
utf-8 unterstützt fast alle Zeichen
Der am häufigsten verwendete Code auf dem chinesischen Festland ist GBK18030. Darüber hinaus gibt es GBK und GB2312. Die Beziehung zwischen diesen Codes ist wie folgt. Die früheste Kodierung chinesischer Zeichen war GB2312, die 6763 chinesische Zeichen und 682 andere Symbole umfasste. Die Kodierung wurde 1995 überarbeitet und als GBK1.0 bezeichnet, und insgesamt waren 21886 Symbole enthalten. Später wurde die GBK18030-Kodierung eingeführt, die insgesamt 27.484 chinesische Zeichen sowie Tibetisch, Mongolisch, Uigurisch und andere wichtige Minderheitensprachen umfasste. Jetzt muss die WINDOWS-Plattform die GBK18030-Kodierung unterstützen.
Die GB2312-Kodierung enthält ungefähr mehr als 6.000 chinesische Zeichen (ohne Sonderzeichen). Der Kodierungsbereich für die erste Ziffer ist b0-f7 und der Kodierungsbereich für die zweite Ziffer ist a1-fe (wenn die erste Ziffer cf ist, ist die zweite Ziffer). ist a1-d3). Berechnen Sie die Anzahl der chinesischen Schriftzeichen auf 6762 chinesische Schriftzeichen. Natürlich gibt es noch andere Charaktere. Einschließlich Steuertasten und anderer Zeichen gibt es etwa 7573 Zeichencodes. Der GBK-Code ist eine Erweiterung des GB2312-Codes und kann mehr chinesische Zeichen aufnehmen, es handelt sich jedoch nur um eine Erweiterung und nicht um eine qualitative Änderung. Alle G B2312-Codes bleiben erhalten, und der Codierungsbereich wird auf dieser Basis erweitert. Er umfasst insgesamt 22014 Zeichencodes (einschließlich Sonderzeichen). Da nur zweistellige Codes verwendet werden, können die erforderlichen chinesischen Zeichen nicht mehr unterstützt werden. Daher wird eine 2/4-Bit-Mischmethode verwendet, um mehr chinesische Zeichenkodierungen zu unterstützen. Und es behält die ursprüngliche GBK-2-Byte-Kodierung bei und ist mit GB2312- und GBK-kodierten Dateien kompatibel. Bietet Platz für ca. 55657 Codes (einschließlich Sonderzeichen). Unicode-Kodierung (d. h. UTF-Kodierung): Allgemein bekannt als Universalcode, ist sie bestrebt, einheitliche Kodierungsstandards zu verwenden, um die Texte verschiedener Länder auszudrücken. Um mehr Text auszudrücken, verwendet UTF-8 eine 2/3-Mischmethode. Der derzeit unterstützte Bereich chinesischer Zeichen ist kleiner als bei der GBK-Kodierung. Und die Verarbeitung von Chinesisch in 3 Bytes hat zu Kompatibilitätsproblemen geführt. Die ursprünglichen gbk-, GB2312- und gb18030-codierten Dateien können nicht normal verarbeitet werden, und es liegt noch ein langer Weg vor uns.
Was sind die Unterschiede zwischen GBK und GB2312?
Zunächst muss jeder verstehen, was GBK ist. Was ist GB2312? Wir müssen wissen, dass es sich bei allen um eine Art Zeichenkodierung handelt. Natürlich gibt es viele Arten von Zeichenkodierungen.
Die Zeichenkodierung kann folgendermaßen verstanden werden:
Was im Computer gespeichert ist, sind Binärwerte von 0 und 1.
8 Bits entsprechen einem Byte, üblicherweise hexadezimal ausgedrückt.
Was also, wenn wir statt der verschiedenen Zahlen 0 und 1 die gewünschten Zeichen auf dem Computer angezeigt sehen möchten?
Hier müssen wir den Computer dazu bringen, die entsprechenden gespeicherten Hexadezimalwerte in entsprechende Zeichen umzuwandeln, einschließlich Zeichen in anderen Sprachen wie Englisch und Chinesisch, und sie dann auf dem Bildschirm auszugeben.
Codierung bedeutet also, eine Reihe von Regeln zu definieren, um festzulegen, welche Werte welchen Zeichen entsprechen.
Dann definiert die Zeichenkodierung eine Reihe von Regeln, die festlegen, welcher Wert unter so vielen im Computer gespeicherten Werten welchem Buchstaben entspricht, der auf dem Computerbildschirm angezeigt wird.
Zusammenfassend lässt sich sagen, dass jeder verstehen kann, dass es sich bei GBK und GB2312 um Zeichenkodierungen handelt.
Lassen Sie uns im Folgenden ausführlich über ihre Unterschiede und Gemeinsamkeiten sprechen:
Ähnliche Punkte:
1. GBK und GB2312 sind beide 16-Bit!
2. Sie werden normalerweise in den Meta-Tags von Webseiten verwendet.
Unterschiede:
1. Die GBK-Zeichenkodierung unterstützt vereinfachtes Chinesisch und traditionelles Chinesisch!
Der vollständige Name von GBK lautet „Chinese Internal Code Expansion Specification“ (GBK ist der erste Buchstabe von „National Standard“ und „Extended“ im chinesischen Pinyin, englischer Name: Chinese Internal Code Specification), Nationales Technisches Komitee für Informationstechnologie-Standardisierung der Volksrepublik von China, 1. Dezember 1995 Am 15. Dezember 1995 formulierten die Standardisierungsabteilung des Staatlichen Büros für technische Überwachung und die Abteilung für Wissenschaft, Technologie und Qualitätsüberwachung des Ministeriums für elektronische Industrie am 15. Dezember gemeinsam ein Schreiben zur technischen Überwachung. 1995. 229 und definiert es als Leitfaden für technische Spezifikationen.
2. GB2312 unterstützt nur vereinfachtes Chinesisch!
„Chinese Coded Character Set for Information Exchange“ ist eine Reihe nationaler Standards, die 1980 von der State Administration of Standards of China veröffentlicht und am 1. Mai 1981 umgesetzt wurden. Die Standardnummer lautet GB 2312-1980.
Der GB 2312-Standard enthält insgesamt 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten Stufe und 3008 chinesische Schriftzeichen der zweiten Stufe. Gleichzeitig umfasst GB 2312 lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische Kyrillische Buchstaben. 682 Zeichen in voller Breite.
Wenn Ihre Webseite hauptsächlich für Chinesen gedacht ist, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen sollte klein sein, was einige Vorteile hat. Wenn Ihre Webseite für die Welt zugänglich sein soll und Sie GB2312 und GBK als Webseitenkodierung verwenden, verfügen einige Computerbrowser nicht über diese Kodierung und der Inhalt chinesischer Schriftzeichen auf Ihrer Webseite wird zu nicht erkennbaren, verstümmelten Zeichen.