Java文字エンコーディングの使用方法の詳細な説明

著者：Eve Cole 更新時間：2024-11-23 19:36:01

1. 文字エンコードとは何ですか?

文字とは、文字、図記号、数学記号などを含む文字や記号の総称です。抽象文字の集合が文字セット (Charset) です。文字セットの出現は、情報の配布と保存を容易にすることを目的としています。現在一般的に使用されている文字セットには、ASCII、ISO 8859-1、Unicode、GB2312 があります。

2. さまざまなコーディングセットの特徴は何ですか?

アスキー:

ASCII (American Standard Code for Information Interchange、American Standard Code for Information Interchange) は、ラテン文字に基づくコンピューターコーディングシステムです。

内容: 制御文字 (キャリッジリターン、バックスペース、ラインフィード)、表示可能な文字 (英語の大文字と小文字、アラビア数字と欧文記号) が含まれます。

技術的特性: 7 ビットで 1 文字、合計 128 文字を表す

欠点: 英語のみを表現でき、西ヨーロッパ、東アジア、ラテンアメリカの言語記号は表現できません。

ISO 8859-1:

ISO 8859-1 (正式に ISO/IEC 8859-1:1998 と番号付け) は、Latin-1 または「西ヨーロッパ言語」としても知られ、国際標準化機構内の ISO/IEC 8859 の最初の 8 ビット文字セットです。

これは ASCII に基づいており、追加の記号を使用するラテンアルファベット言語の空の 0xA0 ～ 0xFF 範囲に 96 個の文字と記号を追加します。 ISO 8859-1:1987 バージョンがリリースされました。

含まれるコンテンツ: ASCII エンコードには、西ヨーロッパで使用されるいくつかの言語が含まれます。

技術的特性: 8 ビットで 1 文字を表します。

ユニコード:

Unicode 文字セットエンコーディングは、Universal Multiple-Octet Coded Character Set の略称で、Unicode コンソーシアムという団体によって開発された文字エンコーディングシステムであり、現在世界中のさまざまな言語の交換、処理、表示をサポートしています。書かれたテキスト。このエンコードは 1990 年に開発が開始され、1994 年に正式に発表されました。最新バージョンは 2005 年 3 月 31 日の Unicode 4.1.0 です。

技術的特性: 16 ビットエンコーディング、各文字は 2 バイトを占有します。文字の Unicode エンコードが決定されます。ただし、実際の送信プロセスでは、異なるシステムプラットフォームの設計が必ずしも一致しているとは限らず、スペースを節約する目的で、Unicode エンコードの実装も異なります。 Unicode の実装は Unicode Transformation Format (略して UTF) と呼ばれます。 7 ビット ASCII 文字 Unicode ファイルが、送信プロセス中に元の 2 バイト Unicode エンコードを使用して送信される場合、比較的大きな無駄が発生します。この状況では、UTF-8 エンコーディングを使用できます。これは、基本的な 7 ビット ASCII 文字を表すために 7 ビットエンコーディングを引き続き使用する可変長エンコーディングであり、1 バイトを占有します (最初のビットは 0 で埋められます)。他の Unicode 文字と混合する場合、各文字は 1 ～ 3 バイトを使用してエンコードされ、最初のビットは識別のために 0 または 1 になります。

GB2312:

GB 2312 または GB 2312-80 は中国の国家標準の簡体字文字セットで、正式名は「情報交換用中国語コード化文字セット基本セット」、GB0 とも呼ばれます。中国国家標準局によって発行され、実装されました。 1981 年 5 月 1 日。 GB2312 エンコードは中国本土で一般的であり、シンガポールや他の場所でもこのエンコードが使用されています。中国本土のほぼすべての中国製システムと国際ソフトウェアが GB 2312 をサポートしています。

含まれるもの: 3755 の第 1 レベルの漢字と 3008 の第 2 レベルの漢字を含む 6763 の漢字。また、ラテン文字、ギリシャ文字、日本語のひらがなおよびカタカナ文字、ロシア語のキリル文字を含む 682 文字も含まれます。

技術的特徴: 各漢字と記号は 2 バイトで表されます。最初のバイトは「上位バイト」と呼ばれ、2 番目のバイトは「下位バイト」と呼ばれます。「上位バイト」は 0xA1 ～ 0xF7 を使用し、「下位バイト」は 0xA1 ～ 0xFE0xA0 を使用します。第 1 レベルの漢字は領域 16 から始まるため、漢字領域の「上位バイト」の範囲は 0xB0 ～ 0xF7、「下位バイト」の範囲は 0xA1 ～ 0xFE、占有コードビットは 72*94= となります。 6768。このうち空席はD7FA～D7FEの5名です。