まず、GB2312、GBK、UTF-8 はすべて文字エンコーディングであることを理解する必要があります。さらに、文字エンコーディングは多数あります。ただ、中国語の Web サイトでは、これら 3 つのエンコーディングがより頻繁に使用されます。簡単に言うと、なぜエンコーディングを使用する必要があるのでしょうか? コンピューターでは、各文字が固有の ASCII コードに対応して格納されます。コンピュータはもともと米国で発明され、キーボードと文字も使用されていたため、文字は ASCII で解くのが簡単でした。ただし、中国語の文字はそれぞれ異なります。それぞれの漢字は固有の ASCII コードに対応している必要があります。このようにして、GB2312、GBK などの各国の文字エンコーディング標準が登場しました。他の国や言語にも、対応するエンコード標準があります。 GB は国家標準を意味します。GB2312 と GBK は主に中国語の文字のエンコードに使用され、UTF-8 は世界中で使用されます。これは、Web ページが主に中国語を話す中国人向けの場合、GB2312 と GBK を使用するのが非常に良いことを意味します。テキストの保存量は少なくて済むため、いくつかの利点があります。 Web ページを世界に公開する場合、Web ページのエンコーディングとして GB2312 および GBK を使用すると、一部のコンピューターのブラウザーにはこのエンコーディングが搭載されていないため、Web ページの中国語のコンテンツが認識できない文字化けになります。 これらは通常、Web ページのメタ タグ (: など) で使用され、このページが GB2312 エンコードを使用していることを示します。この情報はブラウザ用であり、Web ページのヘッダーから抽出されたエンコード情報を使用して Web ページをデコードすることを優先します。もちろん、Web ページを解釈するためにブラウザーに特定のエンコーディングの使用を強制して、伝説的な文字化けしたコードを確認することもできます。
GBK、GB2312 などは、Unicode エンコードを通じて UTF8 に変換する必要があります。
GBK、GB2312--Unicode--UTF8
UTF8--Unicode--GBK、GB2312
Web サイトやフォーラムで英語の文字が多く含まれる場合は、スペースを節約するために UTF-8 を使用することをお勧めします。ただし、多くのフォーラム プラグインは現在、一般に GBK のみをサポートしています。
中国語の Web サイトの場合、GB2312 GBK ではまだ問題が発生することがあります。文字化けを避けるためには、UTF-8 を使用すると便利です。大規模な文字セットには、ほとんどのテキストが含まれます。
UTF-8 を使用する利点の 1 つは、他の地域 (香港や台湾など) のユーザーが、簡体字中国語サポート* をインストールしなくても、文字化けせずにテキストを通常どおりに表示できることです。 *
gb2312 は簡体字中国語のコードです
gbk は簡体字中国語と繁体字中国語をサポートしています
big5 は繁体字中国語をサポートします
utf-8 はほぼすべての文字をサポートします
中国本土で最も一般的に使用されているコードは GBK18030 です。また、これらのコードの関係は次のとおりです。 策定された最初の漢字エンコーディングは GB2312 で、6763 個の漢字と 682 個のその他の記号が含まれていました。このエンコーディングは 1995 年に改訂され、GBK1.0 と名付けられ、合計 21886 個の記号が含まれました。 その後、GBK18030 エンコードが開始され、合計 27,484 の中国語文字に加え、チベット語、モンゴル語、ウイグル語、その他の主要な少数民族言語が含まれるようになりました。現在、WINDOWS プラットフォームは GBK18030 エンコードをサポートする必要があります。
GB2312 エンコードには、約 6,000 を超える漢字が含まれます (特殊文字を除く)。エンコード範囲は 1 桁目が b0 ~ f7、2 桁目が a1 ~ fe (1 桁目が cf の場合、2 桁目) です。は a1 ~ d3) の漢字数を計算して 6762 文字にします。もちろん他のキャラクターもいます。制御キーやその他の文字を含めると、gbk コードは GB2312 コードを拡張したもので、より多くの漢字を収容できますが、これは単なる拡張であり、質的な変更はありません。 G B2312 コードはすべて保持され、これに基づいてコーディング範囲が拡張され、合計 22014 文字コード (特殊文字を含む) に対応します。gbk コードをベースに拡張されたコードです。 2 桁のコードのみが使用されるため、必要な漢字に対応できなくなったため、より多くの中国語文字エンコーディングをサポートするために 2 ビットと 4 ビットの混合方式が採用されています。また、元の gbk 2 バイト エンコーディングを保持し、GB2312 および gbk エンコード ファイルと互換性があります。約 55657 個のコード (特殊文字を含む) に対応します。 Unicode エンコード (つまり、UTF エンコード): 一般にユニバーサル コードとして知られており、統一されたエンコード標準を使用してさまざまな国のテキストを表現することに取り組んでいます。 より多くのテキストを表現するために、UTF-8 では 2/3 混合方式が使用されます。現在対応している中国語の文字の範囲は、gbk エンコードよりも狭いです。また、中国語を 3 バイトで処理すると互換性の問題が発生し、元の gbk、GB2312、および gb18030 でエンコードされたファイルを正常に処理できなくなります。その道のりはまだ長いです。
gbkとgb2312の違いは何ですか
まず第一に、gbk とは何ですか? gb2312 とは何ですか?もちろん、これらはすべて文字エンコーディングの一種であることを知っておく必要があります。文字エンコーディングにはさまざまな種類があります。
文字エンコーディングは次のように理解できます。
コンピューターに保存されるのは0と1の2進数値です。
8 ビットは 1 バイトに対応し、通常は 16 進数で表されます。
では、さまざまな数字の 0 や 1 ではなく、コンピューター上に表示したい文字を表示したい場合はどうすればよいでしょうか?
ここでは、コンピューターに保存されている対応する 16 進値を、英語や中国語などの他の言語の文字を含む対応する文字に変換させて、画面に出力させる必要があります。
したがって、エンコードとは、どの値がどの文字に対応するかを指定する一連のルールを定義することを意味します。
次に、文字エンコーディングは一連のルールを定義し、コンピューターに保存されている非常に多くの値のうちのどの値がコンピューター画面に表示される文字に対応するかを指定します。
要約すると、GBK と GB2312 が文字エンコーディングであることは誰でも理解できるはずです。
以下でそれらの違いと類似点について詳しく説明します。
類似点:
1. GBK と GB2312 は両方とも 16 ビットです。
2. 通常、Web ページのメタ タグ内で使用されます。
違い:
1.GBK文字エンコーディングは簡体字中国語と繁体字中国語をサポートしています!
GBK の正式名称は「中国内部コード拡張仕様」(GBK は「国家標準」と「拡張」中国語ピンインの頭文字、英語名: Chinese Internal Code Supplement)、中華人民共和国国家情報技術標準化技術委員会中国、1995 年 12 月 1 日 1995 年 12 月 15 日に制定され、国家技術監督局の標準化部と電子産業省の科学技術品質監督部が共同で 12 月 15 日に技術監督通知を発行しました。 1995年229 を技術仕様ガイダンス文書として定義しています。
2. GB2312 は簡体字中国語のみをサポートします。
「情報交換用中国語コード化文字セット」は、1980 年に中国国家標準局によって発行され、1981 年 5 月 1 日に施行された一連の国家標準です。標準番号は GB 2312-1980 です。
GB 2312 標準には、第 1 レベルの漢字 3755 文字と第 2 レベルの漢字 3008 文字を含む、合計 6763 文字の漢字が含まれています。同時に、GB 2312 には、ラテン文字、ギリシャ文字、日本語のひらがなおよびカタカナ文字、およびロシア語のキリル文字が含まれています。全角682文字。
ウェブページが主に中国語を話す中国人向けの場合は、GB2312 と GBK を使用するのが非常に良いです。テキストの保存量が少なくて済むため、いくつかの利点があります。 Web ページを世界に公開する場合、Web ページのエンコーディングとして GB2312 および GBK を使用すると、一部のコンピューターのブラウザーにはこのエンコーディングが搭載されていないため、Web ページの中国語のコンテンツが認識できない文字化けになります。