Wenn Sie die Wahl haben, sollten Sie dennoch UTF-8 verwenden
Tatsächlich sind die eigenen Programme des Windows-Systems vollständig auf Unicode umgestiegen, und GBK ist nur eine Notlösung, um mit chinesischen Standards zurechtzukommen.
Die Textkodierung von GBK wird durch Doppelbytes dargestellt, das heißt, sowohl chinesische als auch englische Zeichen werden durch Doppelbytes dargestellt. Zur Unterscheidung von Chinesisch wird jedoch das höchste Bit auf 1 gesetzt.
Bei der UTF-8-Kodierung handelt es sich um eine Multibyte-Kodierung zur Lösung internationaler Zeichen. Sie verwendet 8 Bit (d. h. ein Byte) für Englisch und 24 Bit (drei Byte) für Chinesisch. Für Foren mit vielen englischen Zeichen wird aus Platzgründen UTF-8 verwendet.
GBK enthält alle chinesischen Schriftzeichen,
UTF-8 enthält Zeichen, die von allen Ländern der Welt benötigt werden.
GBK ist ein Standard, der mit GB2312 kompatibel ist, nachdem er auf der Grundlage des nationalen Standards GB2312 erweitert wurde (es scheint, dass es sich noch nicht um einen nationalen Standard handelt).
UTF-8-kodierter Text kann in verschiedenen Browsern in verschiedenen Ländern angezeigt werden, die den UTF8-Zeichensatz unterstützen.
Wenn es sich beispielsweise um eine UTF8-Kodierung handelt, kann Chinesisch auch im englischen IE von Ausländern angezeigt werden, ohne dass diese das chinesische Sprachunterstützungspaket des IE herunterladen müssen.
Daher belegt bei Foren mit viel Englisch jedes Zeichen bei Verwendung von GBK 2 Bytes, bei Verwendung von UTF-8-Englisch jedoch nur ein Byte.
Bitte beachten Sie: Obwohl die UTF-8-Version über eine gute internationale Kompatibilität verfügt, benötigt die chinesische Version 50 % mehr Datenbankspeicherplatz als die GBK/BIG5-Version, daher wird sie nicht empfohlen und kann nur von Benutzern mit besonderen Anforderungen an die internationale Kompatibilität verwendet werden.
Einfach ausgedrückt:
Für Foren mit vielen chinesischen Schriftzeichen empfiehlt sich die Verwendung der GBK-Codierung, um Datenbankplatz zu sparen.
Für Foren mit viel Englisch ist es sinnvoll, UTF-8 zu verwenden, um Datenbankplatz zu sparen.
Was sind die Unterschiede zwischen GBK und GB2312?
Zunächst muss jeder verstehen, was GBK ist. Was ist GB2312? Wir müssen wissen, dass es sich bei allen um eine Art Zeichenkodierung handelt. Natürlich gibt es viele Arten von Zeichenkodierungen.
Die Zeichenkodierung kann folgendermaßen verstanden werden:
Was im Computer gespeichert ist, sind Binärwerte von 0 und 1.
8 Bits entsprechen einem Byte, üblicherweise hexadezimal ausgedrückt.
Was also, wenn wir statt der verschiedenen Zahlen 0 und 1 die gewünschten Zeichen auf dem Computer angezeigt sehen möchten?
Hier müssen wir den Computer dazu bringen, die entsprechenden gespeicherten Hexadezimalwerte in entsprechende Zeichen umzuwandeln, einschließlich Zeichen in anderen Sprachen wie Englisch und Chinesisch, und sie dann auf dem Bildschirm auszugeben.
Codierung bedeutet also, eine Reihe von Regeln zu definieren, um festzulegen, welche Werte welchen Zeichen entsprechen.
Dann definiert die Zeichenkodierung eine Reihe von Regeln, die festlegen, welcher Wert unter so vielen im Computer gespeicherten Werten welchem Buchstaben entspricht, der auf dem Computerbildschirm angezeigt wird.
Zusammenfassend lässt sich sagen, dass jeder verstehen kann, dass es sich bei GBK und GB2312 um Zeichenkodierungen handelt.
Lassen Sie uns im Folgenden ausführlich über ihre Unterschiede und Gemeinsamkeiten sprechen:
Ähnliche Punkte:
1. GBK und GB2312 sind beide 16-Bit!
2. Sie werden normalerweise in den Meta-Tags von Webseiten verwendet.
Unterschiede:
1. Die GBK-Zeichenkodierung unterstützt vereinfachtes Chinesisch und traditionelles Chinesisch!
Der vollständige Name von GBK lautet „Chinese Internal Code Expansion Specification“ (GBK ist der erste Buchstabe von „National Standard“ und „Extended“ im chinesischen Pinyin, englischer Name: Chinese Internal Code Specification), Nationales Technisches Komitee für Informationstechnologie-Standardisierung der Volksrepublik von China, 1. Dezember 1995 Am 15. Dezember 1995 formulierten die Standardisierungsabteilung des Staatlichen Büros für technische Überwachung und die Abteilung für Wissenschaft, Technologie und Qualitätsüberwachung des Ministeriums für elektronische Industrie am 15. Dezember gemeinsam ein Schreiben zur technischen Überwachung. 1995. 229 und definiert es als Leitfaden für technische Spezifikationen.
2. GB2312 unterstützt nur vereinfachtes Chinesisch!
„Chinese Coded Character Set for Information Exchange“ ist eine Reihe nationaler Standards, die 1980 von der State Administration of Standards of China veröffentlicht und am 1. Mai 1981 umgesetzt wurden. Die Standardnummer lautet GB 2312-1980.
Der GB 2312-Standard enthält insgesamt 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten Stufe und 3008 chinesische Schriftzeichen der zweiten Stufe. Gleichzeitig umfasst GB 2312 lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische Kyrillische Buchstaben. 682 Zeichen in voller Breite.
Wenn Ihre Webseite hauptsächlich für Chinesen gedacht ist, die Chinesisch sprechen, ist es sehr gut, GB2312 und GBK zu verwenden. Das Textspeichervolumen sollte klein sein, was einige Vorteile hat. Wenn Ihre Webseite für die Welt zugänglich sein soll und Sie GB2312 und GBK als Webseitenkodierung verwenden, verfügen einige Computerbrowser nicht über diese Kodierung und der Inhalt chinesischer Schriftzeichen auf Ihrer Webseite wird zu nicht erkennbaren, verstümmelten Zeichen.