Detaillierte Erläuterung der Verwendung der Java-Zeichenkodierung

Autor：Eve Cole Aktualisierungszeit：2024-11-23 19:36:01

1. Was ist Zeichenkodierung?

Zeichen ist ein allgemeiner Begriff für Text und Symbole, einschließlich Text, grafischer Symbole, mathematischer Symbole usw. Ein Satz abstrakter Zeichen ist ein Zeichensatz (Charset). Die Entstehung von Zeichensätzen soll die Verbreitung und Speicherung von Informationen erleichtern. Zu den derzeit am häufigsten verwendeten Zeichensätzen gehören: ASCII, ISO 8859-1, Unicode, GB2312

2. Was sind die Merkmale verschiedener Codierungssätze?

ASCII:

ASCII (American Standard Code for Information Interchange, American Standard Code for Information Interchange) ist ein Computercodierungssystem, das auf dem lateinischen Alphabet basiert.

Enthält Inhalt: Steuerzeichen (Wagenrücklauf, Rücktaste, Zeilenvorschub), darstellbare Zeichen (englische Groß- und Kleinschreibung, arabische Ziffern und westliche Symbole).

Technische Eigenschaften: 7 Bit stellen ein Zeichen dar, insgesamt 128 Zeichen

Nachteile: Es kann nur Englisch dargestellt werden und Sprachsymbole in Westeuropa, Ostasien und Lateinamerika können nicht dargestellt werden.

ISO 8859-1:

ISO 8859-1, offizielle Nummer ISO/IEC 8859-1:1998, auch bekannt als Latin-1 oder „Western European Language“, ist der erste 8-Bit-Zeichensatz von ISO/IEC 8859 innerhalb der Internationalen Organisation für Normung.

Es basiert auf ASCII und fügt 96 Buchstaben und Symbole im freien Bereich 0xA0-0xFF für lateinische Alphabetsprachen hinzu, die zusätzliche Symbole verwenden. Die Version ISO 8859-1:1987 wurde veröffentlicht.

Enthaltener Inhalt: Die ASCII-Kodierung umfasst einige in Westeuropa verwendete Sprachen.

Technische Eigenschaften: 8 Bit repräsentieren ein Zeichen.

Unicode:

Unicode-Zeichensatzkodierung ist die Abkürzung für Universal Multiple-Octet Coded Character Set. Es handelt sich um ein Zeichenkodierungssystem, das von einer Organisation namens Unicode Consortium entwickelt wurde und den Austausch, die Verarbeitung und die Anzeige verschiedener Sprachen unterstützt geschriebener Text. Die Entwicklung der Kodierung begann 1990 und wurde 1994 offiziell angekündigt. Die neueste Version ist Unicode 4.1.0 am 31. März 2005.

Technische Eigenschaften: 16-Bit-Kodierung, jedes Zeichen belegt 2 Bytes. Die Unicode-Kodierung eines Zeichens wird bestimmt. Im tatsächlichen Übertragungsprozess ist die Implementierung der Unicode-Codierung jedoch unterschiedlich, da die Designs verschiedener Systemplattformen nicht unbedingt konsistent sind und Platz gespart wird. Die Implementierung von Unicode wird Unicode Transformation Format (kurz UTF) genannt. Wenn eine 7-Bit-ASCII-Zeichen-Unicode-Datei während des Übertragungsprozesses unter Verwendung der ursprünglichen 2-Byte-Unicode-Codierung übertragen wird, verursacht dies eine relativ große Verschwendung. In dieser Situation können Sie die UTF-8-Kodierung verwenden, eine Kodierung mit variabler Länge, die immer noch eine 7-Bit-Kodierung verwendet, um die grundlegenden 7-Bit-ASCII-Zeichen darzustellen, die ein Byte belegen (das erste Bit wird mit 0 gefüllt). Beim Mischen mit anderen Unicode-Zeichen wird es nach einem bestimmten Algorithmus konvertiert. Jedes Zeichen wird mit 1-3 Bytes codiert, und das erste Bit ist zur Identifizierung 0 oder 1.

GB2312:

GB 2312 oder GB 2312-80 ist Chinas nationaler vereinfachter chinesischer Zeichensatz. Der vollständige Name lautet „Chinese Coded Character Set for Information Exchange Basic Set“, auch bekannt als GB0. Er wurde von der State Administration of Standards of China herausgegeben und implementiert am 1. Mai 1981. Die GB2312-Kodierung ist auf dem chinesischen Festland beliebt; Singapur und andere Orte verwenden diese Kodierung ebenfalls. Fast alle chinesischen Systeme und internationale Software auf dem chinesischen Festland unterstützen GB 2312.

Enthält: 6763 chinesische Schriftzeichen, darunter 3755 chinesische Schriftzeichen der ersten Stufe und 3008 chinesische Schriftzeichen der zweiten Stufe, außerdem 682 Schriftzeichen, darunter lateinische Buchstaben, griechische Buchstaben, japanische Hiragana- und Katakana-Buchstaben sowie russische kyrillische Buchstaben.

Technische Merkmale: Jedes chinesische Zeichen und Symbol wird durch zwei Bytes dargestellt. Das erste Byte wird als „High-Byte“ und das zweite Byte als „Low-Byte“ bezeichnet. Das „High Byte“ verwendet 0xA1-0xF7 und das „Low Byte“ verwendet 0xA1-0xFE0xA0). Da die chinesischen Zeichen der ersten Ebene im Bereich 16 beginnen, beträgt der „High-Byte“-Bereich des chinesischen Zeichenbereichs 0xB0-0xF7, der Bereich des „Low-Byte“ 0xA1-0xFE und die belegten Codebits sind 72*94= 6768. Darunter sind 5 offene Stellen D7FA-D7FE.