Penjelasan rinci tentang penggunaan pengkodean karakter Java

Penulis：Eve Cole Waktu Pembaruan：2024-11-23 19:36:01

1. Apa yang dimaksud dengan pengkodean karakter?

Karakter adalah istilah umum untuk teks dan simbol, termasuk teks, simbol grafik, simbol matematika, dan lain-lain. Satu set karakter abstrak adalah kumpulan karakter (Charset). Munculnya rangkaian karakter adalah untuk memudahkan penyebaran dan penyimpanan informasi. Kumpulan karakter yang umum digunakan saat ini meliputi: ASCII, ISO 8859-1, Unicode, GB2312

2. Apa karakteristik dari berbagai kumpulan pengkodean?

ASCII:

ASCII (American Standard Code for Information Interchange, American Standard Code for Information Interchange) adalah sistem pengkodean komputer berdasarkan alfabet Latin.

Berisi konten: karakter kontrol (carriage return, backspace, line feed), karakter yang dapat ditampilkan (huruf besar dan kecil Inggris, angka Arab, dan simbol Barat).

Karakteristik teknis: 7 bit mewakili satu karakter, total 128 karakter

Kekurangan: Hanya dapat mewakili bahasa Inggris, dan simbol bahasa di Eropa Barat, Asia Timur, dan Amerika Latin tidak dapat diwakili.

ISO 8859-1:

ISO 8859-1, secara resmi diberi nomor ISO/IEC 8859-1:1998, juga dikenal sebagai Latin-1 atau "Bahasa Eropa Barat", adalah kumpulan karakter 8-bit pertama ISO/IEC 8859 dalam Organisasi Internasional untuk Standardisasi.

Ini didasarkan pada ASCII dan menambahkan 96 huruf dan simbol dalam rentang kosong 0xA0-0xFF untuk bahasa alfabet Latin yang menggunakan simbol tambahan. Versi ISO 8859-1:1987 telah diluncurkan.

Konten termasuk: Pengkodean ASCII mencakup beberapa bahasa yang digunakan di Eropa Barat.

Karakteristik teknis: 8 bit mewakili sebuah karakter.

Unikode:

Pengkodean kumpulan karakter unicode adalah singkatan dari Universal Multiple-Octet Coded Character Set. Ini adalah sistem pengkodean karakter yang dikembangkan oleh sebuah organisasi bernama Konsorsium Unicode dan mendukung berbagai bahasa di dunia saat ini teks tertulis. Pengkodeannya mulai dikembangkan pada tahun 1990 dan diumumkan secara resmi pada tahun 1994. Versi terbaru adalah Unicode 4.1.0 pada tanggal 31 Maret 2005.

Karakteristik teknis: pengkodean 16-bit, setiap karakter menempati 2 byte. Pengkodean Unicode suatu karakter ditentukan. Namun, dalam proses transmisi sebenarnya, karena desain platform sistem yang berbeda belum tentu konsisten, dan untuk tujuan menghemat ruang, penerapan pengkodean Unicode berbeda. Implementasi Unicode disebut Unicode Transformation Format (disingkat UTF). Jika file Unicode karakter ASCII 7-bit ditransmisikan menggunakan pengkodean Unicode 2-byte asli selama proses transmisi, maka akan menimbulkan pemborosan yang relatif besar. Untuk situasi ini, Anda dapat menggunakan pengkodean UTF-8, yaitu pengkodean dengan panjang variabel yang masih menggunakan pengkodean 7-bit untuk mewakili karakter dasar ASCII 7-bit, menempati satu byte (bit pertama diisi dengan 0). Ketika dicampur dengan karakter Unicode lainnya, maka akan dikonversi sesuai dengan algoritma tertentu. Setiap karakter dikodekan menggunakan 1-3 byte, dan bit pertama adalah 0 atau 1 untuk identifikasi.

GB2312:

GB 2312 atau GB 2312-80 adalah kumpulan karakter Tiongkok sederhana standar nasional Tiongkok, nama lengkapnya adalah "Kumpulan Karakter Berkode Tiongkok untuk Kumpulan Dasar Pertukaran Informasi", juga dikenal sebagai GB0. Ini dikeluarkan oleh Administrasi Standar Negara Tiongkok dan diimplementasikan pada tanggal 1 Mei 1981. Pengkodean GB2312 populer di Tiongkok daratan; Singapura dan tempat lain juga menggunakan pengkodean ini. Hampir semua sistem Tiongkok dan perangkat lunak internasional di Tiongkok daratan mendukung GB 2312.

Berisi: 6763 karakter Tionghoa, termasuk 3755 karakter Tionghoa tingkat pertama dan 3008 karakter Tionghoa tingkat kedua; juga mencakup 682 karakter termasuk huruf Latin, huruf Yunani, huruf hiragana dan katakana Jepang, serta huruf Sirilik Rusia.

Fitur teknis: Setiap karakter dan simbol Cina diwakili oleh dua byte. Byte pertama disebut "byte tinggi" dan byte kedua disebut "byte rendah". "Byte tinggi" menggunakan 0xA1-0xF7, dan "byte rendah" menggunakan 0xA1-0xFE0xA0). Karena karakter Cina tingkat pertama dimulai dari area 16, rentang "byte tinggi" dari area karakter Cina adalah 0xB0-0xF7, kisaran "byte rendah" adalah 0xA1-0xFE, dan bit kode yang ditempati adalah 72*94= 6768. Diantaranya, 5 lowongan adalah D7FA-D7FE.