Web ページでの Unicode 文字 (&#、\u など) の使用の概要

著者：Eve Cole 更新時間：2024-12-25 11:22:58

初期のコンピュータでは ASCII 文字しか使用できませんでしたが、コンピュータアプリケーションの拡大に伴い、多くの国がコンピュータ用に特別な文字セットを設計し、自国や国家の文字や文字をコンピュータで表示および処理できるようになりました。たとえば、中国の GB2312 などです。コード。その後、インターネットが登場し、全世界が接続され、複数の国や民族の言語を 1 台のコンピュータ、あるいは 1 つのインターフェイスで表示できるようになりました。国際機関は、言語間およびプラットフォーム間のテキスト変換と処理の要件を満たすために、Unicode と呼ばれる、世界中のすべてのテキストと記号に対応できる文字エンコーディングスキームを開発してきました。継続的に拡張され、現在はバージョン 10 に達しています。

Web サイト https://www.unicode.org/ にアクセスして、コードテーブルの最新バージョンのダウンロードなどの詳細情報を確認できます。

Web ページをデザインする場合、Unicode 文字セットを使用できます。Unicode 文字セットの使用方法は、HTML、CSS、JavaScript のいずれであるかによって異なります。

1) HTML で使用: &#dddd または &#xhhh;

このうち、dddd は 4 桁の 10 進数値を表し、hhh は 4 桁の 16 進数値を表し、それぞれ &# と &#x が接頭辞として付けられ、10 進コードまたは 16 進 Unicode コードで表されます。 &# と &#x を前に付ける必要があります。セミコロンは接尾辞です。現在、4 桁の 16 進コードを使用する Unicode 文字は、ほとんどが Web ページで正常に表示できますが、使用するコンピュータプラットフォームがまだ開発されていないため、他の Unicode 文字は表示できない場合があります。。例：
<p>Unicode 文字を表示します -- ∰</p>
数学記号が表示され、Unicode コードは 2230 です。「∰」または「∰」を使用してこの特殊文字を出力すると、ページに表示できます。

2) CSS で使用: hhhh

Unicode 文字が CSS で使用されることはほとんどありませんが、通常はバックスラッシュを先頭に付けた 4 桁の 16 進数の Unicode コードで表されます。

3) JavaScript で使用: うーん

JavaScript コードは、ギリシャ文字やローマ数字などを使用して要素内の温度や角度の文字を出力するなど、特殊文字を出力するためによく使用されます。4 桁の Unicode 16 進数の前にプレフィックス「u」を追加するだけで済みます。コードです。例：

document.body.innerHTML="u25D0";

幾何学図形テーブルでは Unicode コード 25D0 が使用され、通常は半月のように白で塗りつぶされ、半分が黒で塗りつぶされる円形のパターンです。

もちろん、中国人が Unicode コードを使用する最も一般的な機会は漢字です。より多くの漢字を表示するために、漢字ライブラリはまず GB2312 から GBK に拡張され、現在は GB18030 に拡張されています。 GB18030 の最新バージョンには、さまざまな少数民族の文字や一部の特殊文字を含む 70,000 文字以上の漢字が含まれています。この標準は Unicode コード方式と一致しています。もちろん、コンピュータによっては完全な新しいバージョンのサポートソフトウェアがインストールされていない場合もあり、文字の一部しか表示されないこともよくあります。

中国語の文字の Unicode コードを取得するには、JavaScript 関数 charCodeAt() を使用できます。次に例を示します。

var ucode="Zhao".charCodeAt();

このようにして、変数ucodeに漢字「趙」のUnicodeコードが格納され、10進数のUnicodeコードである36213が得られる。 toString(16) メソッドを使用して、この 10 進コードを 16 進コードに変換できます。

var ucode="Zhao".charCodeAt().toString(16);

このようにして得られるのは、漢字「趙」を 16 進数で表した Unicode コードであり、得られる値は 8d75 です。

一般に、漢字を出力する場合、漢字を含む文字列を直接表示できます。中国語の Unicode コードを使用して、対応する中国語の文字またはその他の文字を出力することもできます。

String.fromCharCode(36213);

このようにして、10 進数の Unicode コード 36213 の文字が文字列に変換され、その文字列が出力されると、中国語の文字「趙」が表示されます。 input メソッドを使用して中国語の文字を直接取得できるため、このメソッドは一部の特殊文字を出力するためによく使用されます。

&# エンコーディングを文字に変換します

これは Unicode エンコードであり、エンコードプロセスは次のようになります。

たとえば、「Yang」をエンコードするには、新しいメモ帳を作成し、「Yang」と入力し、保存時に Unicode エンコードとして保存することを選択し、ファイルの最初の 2 バイト FF と FE が Unicode であるバイナリコンテンツを表示します。エンコードファイルのヘッダーマーク、およびそれに続く 2 バイト 68 67 は、「Yang」の Unicode エンコードです。電卓を使用して 10 進数に変換すると、26472 になります。これで、HTML ファイルに「Yang」と書き込むことができ、IE に表示されます。開くと「陽」の文字。

もちろん、一般的な ASCII コードの場合、Unicode エンコードは ASCII エンコードと一致しているため、A は大文字の「A」を表示できます。

&# エンコーディングを文字に変換します

関数 uncode(str) {
return str.replace(/&#(x)?([^&]{1,5});?/g, function (a, b, c) {
return String.fromCharCode(parseInt(c, b ? 16 : 10));
});
}

文字を &# エンコーディングに変換する

関数エンコード(str) {
var a = []、i = 0;
for (; i < str.length ;) a[i] = str.charCodeAt(i ++);
return "&#" + a.join(";&#") + ";";
}

Web ページでの Unicode 文字 (&#、u など) の導入に関するこの記事はこれで終わりです。さらに関連する Unicode コンテンツについては、downcodes.com で以前の記事を検索するか、引き続き以下の関連記事を参照してください。将来的には、downcodes.com をさらにサポートする予定です。