選択できる場合は、引き続き UTF-8 を使用する必要があります。
実際、Windows システム自体のプログラムは完全に Unicode に移行しており、GBK は中国の標準に対応するための一時しのぎにすぎません。
GBK のテキストエンコーディングは 2 バイトで表されます。つまり、中国語と英語の文字は両方とも 2 バイトで表されますが、中国語を区別するために最上位ビットが 1 に設定されます。
UTF-8 エンコーディングは、国際文字を解決するために使用されるマルチバイト エンコーディングで、英語の場合は 8 ビット (つまり 1 バイト)、中国語の場合は 24 ビット (3 バイト) を使用します。英語の文字が多く含まれるフォーラムでは、スペースを節約するために UTF-8 が使用されます。
GBK にはすべての漢字が含まれており、
UTF-8 には、世界中のすべての国で必要な文字が含まれています。
GBKは国家規格GB2312をベースに拡張され、GB2312と互換性を持った規格です(まだ国家規格ではないようです)
UTF-8 でエンコードされたテキストは、UTF8 文字セットをサポートするさまざまな国のさまざまなブラウザで表示できます。
たとえば、UTF8 エンコーディングであれば、外国人が IE の中国語サポート パッケージをダウンロードしなくても、英語 IE で中国語を表示できます。
したがって、英語が多く含まれるフォーラムでは、GBK を使用すると各文字が 2 バイトを消費しますが、UTF-8 英語を使用すると 1 バイトしか消費しません。
注意: UTF-8 バージョンは優れた国際互換性を持っていますが、中国語バージョンは GBK/BIG5 バージョンよりも 50% 多くのデータベース ストレージ領域を必要とするため、推奨されず、国際互換性に対する特別な要件を持つユーザーのみが使用できます。
簡単に言えば:
中国語の文字が多く含まれるフォーラムの場合、データベース容量を節約するために GBK エンコードを使用することが適切です。
英語が多く含まれるフォーラムでは、データベース容量を節約するために UTF-8 を使用することが適切です。
gbkとgb2312の違いは何ですか
まず第一に、gbk とは何ですか? gb2312 とは何ですか?もちろん、これらはすべて文字エンコーディングの一種であることを知っておく必要があります。文字エンコーディングにはさまざまな種類があります。
文字エンコーディングは次のように理解できます。
コンピューターに保存されるのは0と1の2進数値です。
8 ビットは 1 バイトに対応し、通常は 16 進数で表されます。
では、さまざまな数字の 0 や 1 ではなく、コンピューター上に表示したい文字を表示したい場合はどうすればよいでしょうか?
ここでは、コンピューターに保存されている対応する 16 進値を、英語や中国語などの他の言語の文字を含む対応する文字に変換させて、画面に出力させる必要があります。
したがって、エンコードとは、どの値がどの文字に対応するかを指定する一連のルールを定義することを意味します。
次に、文字エンコーディングは、コンピュータに保存されている非常に多くの値のうちのどの値がコンピュータ画面に表示される文字に対応するかを指定する一連のルールを定義します。
要約すると、GBK と GB2312 が文字エンコーディングであることは誰でも理解できるはずです。
以下でそれらの違いと類似点について詳しく説明します。
類似点:
1. GBK と GB2312 は両方とも 16 ビットです。
2. 通常、Web ページのメタ タグ内で使用されます。
違い:
1.GBK文字エンコーディングは簡体字中国語と繁体字中国語をサポートしています!
GBK の正式名称は「中国内部コード拡張仕様」(GBK は「国家標準」と「拡張」中国語ピンインの頭文字、英語名: Chinese Internal Code Supplement)、中華人民共和国国家情報技術標準化技術委員会中国政府、1995 年 12 月 1 日 1995 年 12 月 15 日に制定され、国家技術監督局の標準化部と電子産業省の科学技術品質監督部が共同で 12 月 15 日に技術監督通知を発行しました。 1995年。 229 を参照し、技術仕様ガイダンス文書として定義します。
2. GB2312 は簡体字中国語のみをサポートします。
「情報交換用中国語コード化文字セット」は、1980 年に中国国家標準局によって発行され、1981 年 5 月 1 日に施行された一連の国家標準です。標準番号は GB 2312-1980 です。
GB 2312 標準には、第 1 レベルの漢字 3755 文字と第 2 レベルの漢字 3008 文字を含む、合計 6763 文字の漢字が含まれています。同時に、GB 2312 には、ラテン文字、ギリシャ文字、日本語のひらがなおよびカタカナ文字、およびロシア語のキリル文字が含まれています。全角682文字。
ウェブページが主に中国語を話す中国人向けの場合は、GB2312 と GBK を使用するのが非常に良いです。テキストの保存量が少なくて済むため、いくつかの利点があります。 Web ページを世界に公開する場合、Web ページのエンコーディングとして GB2312 および GBK を使用すると、一部のコンピューターのブラウザーにはこのエンコーディングが搭載されていないため、Web ページの中国語のコンテンツが認識できない文字化けになります。