Pertama-tama, kita perlu memahami bahwa GB2312, GBK dan UTF-8 semuanya merupakan pengkodean karakter. Selain itu, ada banyak pengkodean karakter. Hanya saja untuk website berbahasa Mandarin kami, ketiga pengkodean ini lebih sering digunakan. Sederhananya, mengapa kita perlu menggunakan pengkodean? Di komputer, kode ASC II digunakan untuk menyimpan informasi teks. Setiap karakter berhubungan dengan kode ASCII yang unik. Komputer awalnya ditemukan di Amerika Serikat, dan mereka juga menggunakan keyboard dan huruf, sehingga karakternya mudah dipecahkan dengan ASCII. Namun karakter China kami berbeda. Setiap karakter China harus sesuai dengan kode ASCII yang unik. Dengan cara ini, standar pengkodean karakter nasional keluar: GB2312, GBK, dll. Negara lain dan bahasa lain juga memiliki standar pengkodean yang sesuai. GB berarti standar nasional dan GBK terutama digunakan untuk pengkodean karakter Cina, sedangkan UTF-8 digunakan di seluruh dunia. Artinya, jika halaman web Anda ditujukan terutama untuk orang Tionghoa yang berbahasa Mandarin, sebaiknya gunakan GB2312 dan GBK. Volume penyimpanan teks harus kecil, yang memiliki beberapa keuntungan. Jika laman web Anda ingin dibuka untuk seluruh dunia, dan Anda menggunakan GB2312 dan GBK sebagai penyandian laman web, beberapa browser komputer tidak memiliki penyandian ini, dan konten karakter Mandarin laman web Anda akan menjadi karakter kacau yang tidak dapat dikenali. Mereka biasanya digunakan dalam tag meta halaman web, seperti:, yang menunjukkan bahwa halaman ini menggunakan pengkodean GB2312. Informasi ini ditujukan untuk browser, yang akan memberikan prioritas untuk mendekode halaman web menggunakan informasi pengkodean yang diambil dari header halaman web. Tentu saja, kita juga dapat memaksa browser untuk menggunakan pengkodean tertentu untuk menafsirkan halaman web, sehingga kita dapat melihat kode kacau yang legendaris tersebut.
GBK, GB2312, dll. harus dikonversi ke UTF8 melalui pengkodean Unicode:
GBK, GB2312--Unicode--UTF8
UTF8--Unicode--GBK, GB2312
Untuk website atau forum jika banyak karakter bahasa Inggris disarankan menggunakan UTF-8 untuk menghemat ruang. Namun, banyak plugin forum sekarang yang umumnya hanya mendukung GBK.
Jika ini adalah situs web berbahasa Mandarin, GB2312 GBK terkadang masih memiliki beberapa masalah. Untuk menghindari semua karakter yang kacau, UTF-8 harus digunakan juga sangat nyaman untuk mendukung internasionalisasi di masa depan kumpulan karakter besar, yang berisi sebagian besar teks.
Salah satu keuntungan menggunakan UTF-8 adalah pengguna di wilayah lain (seperti Hong Kong dan Taiwan) dapat melihat teks Anda secara normal tanpa menginstal dukungan Mandarin Sederhana* tanpa karakter yang kacau. *
gb2312 adalah kode untuk bahasa Mandarin yang disederhanakan
gbk mendukung bahasa Mandarin sederhana dan bahasa Mandarin tradisional
big5 mendukung bahasa Mandarin Tradisional
utf-8 mendukung hampir semua karakter
Kode yang paling umum digunakan di daratan Cina adalah GBK18030 Selain itu, ada GBK dan GB2312 Hubungan antara kode-kode tersebut seperti ini. Pengkodean karakter Cina paling awal adalah GB2312, yang mencakup 6763 karakter Cina dan 682 simbol lainnya. Pengkodean tersebut direvisi pada tahun 1995 dan diberi nama GBK1.0, dan total 21886 simbol disertakan. Kemudian, pengkodean GBK18030 diluncurkan, yang mencakup total 27.484 karakter Cina, serta bahasa Tibet, Mongolia, Uighur, dan bahasa minoritas utama lainnya. Sekarang platform WINDOWS harus mendukung pengkodean GBK18030.
Pengkodean GB2312 berisi sekitar lebih dari 6.000 karakter Cina (tidak termasuk karakter khusus). Rentang pengkodean adalah b0-f7 untuk digit pertama, dan rentang pengkodean untuk digit kedua adalah a1-fe (bila digit pertama adalah cf, digit kedua adalah cf). adalah a1-d3). Hitung jumlah karakter Cina menjadi 6762 karakter Cina. Tentu saja masih ada karakter lain. Termasuk tombol kontrol dan karakter lainnya, ada sekitar 7573 kode karakter. Kode gbk merupakan perluasan dari kode GB2312 dan dapat menampung lebih banyak karakter Cina, tetapi ini hanya perluasan dan tidak ada perubahan kualitatif. Semua kode G B2312 dipertahankan, dan rentang pengkodean diperluas atas dasar ini. Ini mengakomodasi total 2014 kode karakter (termasuk karakter khusus). Kode gb18030 merupakan perluasan berdasarkan kode gbk. hanya kode dua digit yang digunakan. Kode tersebut tidak dapat lagi mengakomodasi karakter China yang diperlukan, sehingga metode campuran 24-bit diadopsi untuk mendukung lebih banyak pengkodean karakter China. Dan itu mempertahankan pengkodean gbk 2-byte asli dan kompatibel dengan file yang dikodekan GB2312 dan gbk. Kira-kira menampung 55657 kode (termasuk karakter khusus) Pengkodean unicode (yaitu, pengkodean UTF): umumnya dikenal sebagai Kode Universal, berkomitmen untuk menggunakan standar pengkodean terpadu untuk mengekspresikan teks dari berbagai negara. Untuk mengekspresikan lebih banyak teks, UTF-8 menggunakan metode pencampuran 2/3. Kisaran karakter Cina yang ditampung saat ini lebih kecil dari pengkodean gbk. Dan pemrosesan bahasa Mandarin dalam 3 byte telah menimbulkan masalah kompatibilitas. File asli yang dikodekan gbk, GB2312, dan gb18030 tidak dapat diproses secara normal, dan jalannya masih panjang.
Apa perbedaan antara gbk dan gb2312
Pertama-tama, semua orang perlu memahami apa itu gbk? Perlu kita ketahui bahwa itu semua adalah jenis pengkodean karakter. Tentu saja pengkodean karakter itu ada banyak macamnya.
Pengkodean karakter dapat dipahami seperti ini:
Yang disimpan di komputer adalah nilai biner 0 dan 1.
8 bit sama dengan satu byte, biasanya dinyatakan dalam heksadesimal.
Lalu bagaimana jika kita ingin melihat karakter yang ingin kita tampilkan di komputer, bukan berbagai angka 0 dan 1?
Di sini kita perlu membuat komputer mengubah nilai heksadesimal yang disimpannya menjadi karakter yang sesuai, termasuk karakter dalam bahasa lain seperti Inggris dan Cina, dan kemudian menampilkannya ke layar.
Jadi pengkodean berarti mendefinisikan seperangkat aturan untuk menentukan nilai mana yang sesuai dengan karakter mana.
Kemudian pengkodean karakter mendefinisikan seperangkat aturan yang menentukan nilai mana di antara begitu banyak nilai yang disimpan di komputer yang sesuai dengan huruf mana yang ditampilkan di layar komputer.
Singkatnya, setiap orang harus dapat memahami bahwa GBK dan GB2312 adalah pengkodean karakter.
Mari kita bahas perbedaan dan persamaannya secara detail di bawah ini:
Poin serupa:
1. GBK dan GB2312 keduanya 16-bit!
2. Biasanya digunakan dalam tag meta halaman web.
Perbedaan:
1. Pengkodean karakter GBK mendukung bahasa Mandarin Sederhana dan Mandarin Tradisional!
Nama lengkap GBK adalah "Spesifikasi Ekspansi Kode Internal China" (GBK adalah huruf pertama dari "Standar Nasional" dan Pinyin China "Diperpanjang", nama Inggris: Spesifikasi Kode Internal China), Komite Teknis Standardisasi Teknologi Informasi Nasional Republik Rakyat Tiongkok, 1 Desember 1995 Dirumuskan pada tanggal 15 Desember 1995, Departemen Standardisasi Biro Pengawasan Teknis Negara dan Departemen Pengawasan Sains dan Teknologi dan Mutu Kementerian Industri Elektronik bersama-sama mengeluarkan surat pengawasan teknis pada tanggal 15 Desember 1995. 229, mendefinisikannya sebagai dokumen pedoman spesifikasi teknis.
2. GB2312 hanya mendukung bahasa Mandarin Sederhana!
"Kumpulan Karakter Kode Tiongkok untuk Pertukaran Informasi" adalah seperangkat standar nasional yang diterbitkan oleh Administrasi Standar Negara Tiongkok pada tahun 1980 dan diterapkan pada tanggal 1 Mei 1981. Nomor standarnya adalah GB 2312-1980.
Standar GB 2312 berisi total 6763 karakter Tiongkok, termasuk 3755 karakter Tiongkok tingkat pertama dan 3008 karakter Tiongkok tingkat kedua. Pada saat yang sama, GB 2312 mencakup huruf Latin, huruf Yunani, huruf hiragana dan katakana Jepang, dan Sirilik Rusia. huruf.682 karakter lebar penuh.
Jika halaman web Anda ditujukan terutama untuk orang Tionghoa yang berbicara bahasa Mandarin, sebaiknya gunakan GB2312 dan GBK. Volume penyimpanan teks harus kecil, yang memiliki beberapa keuntungan. Jika laman web Anda ingin dibuka untuk seluruh dunia, dan Anda menggunakan GB2312 dan GBK sebagai penyandian laman web, beberapa browser komputer tidak memiliki penyandian ini, dan konten karakter Mandarin laman web Anda akan menjadi karakter kacau yang tidak dapat dikenali.