1. 文字エンコードとは何ですか?
文字とは、文字、図記号、数学記号などを含む文字や記号の総称です。抽象文字の集合が文字セット (Charset) です。文字セットの出現は、情報の配布と保存を容易にすることを目的としています。現在一般的に使用されている文字セットには、ASCII、ISO 8859-1、Unicode、GB2312 があります。
2. さまざまなコーディング セットの特徴は何ですか?
アスキー:
ASCII (American Standard Code for Information Interchange、American Standard Code for Information Interchange) は、ラテン文字に基づくコンピューターコーディングシステムです。
内容: 制御文字 (キャリッジ リターン、バックスペース、ライン フィード)、表示可能な文字 (英語の大文字と小文字、アラビア数字と欧文記号) が含まれます。
技術的特性: 7 ビットで 1 文字、合計 128 文字を表す
欠点: 英語のみを表現でき、西ヨーロッパ、東アジア、ラテンアメリカの言語記号は表現できません。
ISO 8859-1:
ISO 8859-1 (正式に ISO/IEC 8859-1:1998 と番号付け) は、Latin-1 または「西ヨーロッパ言語」としても知られ、国際標準化機構内の ISO/IEC 8859 の最初の 8 ビット文字セットです。
これは ASCII に基づいており、追加の記号を使用するラテン アルファベット言語の空の 0xA0 ~ 0xFF 範囲に 96 個の文字と記号を追加します。 ISO 8859-1:1987 バージョンがリリースされました。
含まれるコンテンツ: ASCII エンコードには、西ヨーロッパで使用されるいくつかの言語が含まれます。
技術的特性: 8 ビットで 1 文字を表します。
ユニコード:
Unicode 文字セット エンコーディングは、Universal Multiple-Octet Coded Character Set の略称で、Unicode コンソーシアムという団体によって開発された文字エンコーディング システムであり、現在世界中のさまざまな言語の交換、処理、表示をサポートしています。書かれたテキスト。このエンコードは 1990 年に開発が開始され、1994 年に正式に発表されました。最新バージョンは 2005 年 3 月 31 日の Unicode 4.1.0 です。
技術的特性: 16 ビットエンコーディング、各文字は 2 バイトを占有します。文字の Unicode エンコードが決定されます。ただし、実際の送信プロセスでは、異なるシステム プラットフォームの設計が必ずしも一致しているとは限らず、スペースを節約する目的で、Unicode エンコードの実装も異なります。 Unicode の実装は Unicode Transformation Format (略して UTF) と呼ばれます。 7 ビット ASCII 文字 Unicode ファイルが、送信プロセス中に元の 2 バイト Unicode エンコードを使用して送信される場合、比較的大きな無駄が発生します。この状況では、UTF-8 エンコーディングを使用できます。これは、基本的な 7 ビット ASCII 文字を表すために 7 ビット エンコーディングを引き続き使用する可変長エンコーディングであり、1 バイトを占有します (最初のビットは 0 で埋められます)。他の Unicode 文字と混合する場合、各文字は 1 ~ 3 バイトを使用してエンコードされ、最初のビットは識別のために 0 または 1 になります。
GB2312:
GB 2312 または GB 2312-80 は中国の国家標準の簡体字文字セットで、正式名は「情報交換用中国語コード化文字セット基本セット」、GB0 とも呼ばれます。中国国家標準局によって発行され、実装されました。 1981 年 5 月 1 日。 GB2312 エンコードは中国本土で一般的であり、シンガポールや他の場所でもこのエンコードが使用されています。中国本土のほぼすべての中国製システムと国際ソフトウェアが GB 2312 をサポートしています。
含まれるもの: 3755 の第 1 レベルの漢字と 3008 の第 2 レベルの漢字を含む 6763 の漢字。また、ラテン文字、ギリシャ文字、日本語のひらがなおよびカタカナ文字、ロシア語のキリル文字を含む 682 文字も含まれます。
技術的特徴: 各漢字と記号は 2 バイトで表されます。最初のバイトは「上位バイト」と呼ばれ、2 番目のバイトは「下位バイト」と呼ばれます。 「上位バイト」は 0xA1 ~ 0xF7 を使用し、「下位バイト」は 0xA1 ~ 0xFE0xA0 を使用します。 第 1 レベルの漢字は領域 16 から始まるため、漢字領域の「上位バイト」の範囲は 0xB0 ~ 0xF7、「下位バイト」の範囲は 0xA1 ~ 0xFE、占有コード ビットは 72*94= となります。 6768。このうち空席はD7FA~D7FEの5名です。