ก่อนอื่นเราต้องเข้าใจว่า GB2312, GBK และ UTF-8 เป็นการเข้ารหัสอักขระทั้งหมด นอกจากนี้ยังมีการเข้ารหัสอักขระอีกมากมาย เพียงแต่ว่าสำหรับเว็บไซต์จีนของเรานั้น การเข้ารหัสทั้งสามนี้ถูกใช้บ่อยกว่า พูดง่ายๆ ก็คือ เหตุใดเราจึงต้องใช้การเข้ารหัส ในคอมพิวเตอร์ รหัส ASC II ใช้เพื่อจัดเก็บข้อมูลข้อความ เดิมทีคอมพิวเตอร์ถูกประดิษฐ์ขึ้นในสหรัฐอเมริกา และยังใช้แป้นพิมพ์และตัวอักษรด้วย ดังนั้นอักขระจึงแก้ไขได้ง่ายด้วย ASCII แต่ตัวอักษรจีนของเราแตกต่างกัน ด้วยวิธีนี้มาตรฐานการเข้ารหัสอักขระประจำชาติจึงออกมา: GB2312, GBK เป็นต้น ประเทศอื่นๆ และภาษาอื่นๆ ก็มีมาตรฐานการเข้ารหัสที่สอดคล้องกันเช่นกัน GB หมายถึงมาตรฐานแห่งชาติ GB2312 และ GBK ส่วนใหญ่จะใช้สำหรับการเข้ารหัสอักขระภาษาจีน ในขณะที่ UTF-8 ถูกใช้ทั่วโลก ซึ่งหมายความว่าหากหน้าเว็บของคุณมีไว้สำหรับคนจีนที่พูดภาษาจีนเป็นหลัก จะดีมากถ้าใช้ GB2312 และ GBK พื้นที่จัดเก็บข้อความควรมีน้อยซึ่งมีข้อดีบางประการ หากหน้าเว็บของคุณเปิดกว้างสู่โลกกว้าง และคุณใช้ GB2312 และ GBK เป็นการเข้ารหัสหน้าเว็บ เบราว์เซอร์คอมพิวเตอร์บางตัวไม่มีการเข้ารหัสนี้ และเนื้อหาตัวอักษรจีนในหน้าเว็บของคุณจะกลายเป็นอักขระที่อ่านไม่ออกซึ่งไม่สามารถจดจำได้ โดยปกติจะใช้ในเมตาแท็กของหน้าเว็บ เช่น: ซึ่งบ่งชี้ว่าหน้านี้ใช้การเข้ารหัส GB2312 ข้อมูลนี้มีไว้สำหรับเบราว์เซอร์ ซึ่งจะให้ความสำคัญกับการถอดรหัสหน้าเว็บโดยใช้ข้อมูลการเข้ารหัสที่ดึงมาจากส่วนหัวของหน้าเว็บ แน่นอน เรายังสามารถบังคับให้เบราว์เซอร์ใช้การเข้ารหัสบางอย่างเพื่อตีความหน้าเว็บได้ เพื่อที่เราจะได้เห็นโค้ดที่อ่านไม่ออกในตำนาน
GBK, GB2312 ฯลฯ จะต้องแปลงเป็น UTF8 ผ่านการเข้ารหัส Unicode:
GBK, GB2312--ยูนิโค้ด--UTF8
UTF8--ยูนิโค้ด--GBK, GB2312
สำหรับเว็บไซต์หรือกระดานสนทนา หากมีตัวอักษรภาษาอังกฤษจำนวนมาก ขอแนะนำให้ใช้ UTF-8 เพื่อประหยัดพื้นที่ อย่างไรก็ตาม ปลั๊กอินฟอรัมจำนวนมากโดยทั่วไปรองรับเฉพาะ GBK เท่านั้น
หากเป็นเว็บไซต์ภาษาจีน บางครั้ง GB2312 GBK ยังคงมีปัญหาอยู่บ้าง เพื่อหลีกเลี่ยงอักขระที่อ่านไม่ออกทั้งหมด ควรใช้ UTF-8 เช่นกัน จะสะดวกมากในการรองรับ UTF-8 ในอนาคต ชุดอักขระขนาดใหญ่ซึ่งมีข้อความส่วนใหญ่
ข้อดีอย่างหนึ่งของการใช้ UTF-8 คือผู้ใช้ในภูมิภาคอื่นๆ (เช่น ฮ่องกงและไต้หวัน) สามารถดูข้อความของคุณได้ตามปกติโดยไม่ต้องติดตั้งการสนับสนุนภาษาจีนตัวย่อ* โดยไม่มีอักขระที่อ่านไม่ออก -
gb2312 เป็นรหัสภาษาจีนตัวย่อ
gbk รองรับภาษาจีนตัวย่อและภาษาจีนตัวเต็ม
big5 รองรับภาษาจีนตัวเต็ม
utf-8 รองรับอักขระเกือบทั้งหมด
รหัสที่ใช้กันมากที่สุดในจีนแผ่นดินใหญ่คือ GBK18030 นอกจากนี้ยังมี GBK และ GB2312 ความสัมพันธ์ระหว่างรหัสเหล่านี้มีดังนี้ การเข้ารหัสอักขระจีนที่เก่าแก่ที่สุดคือ GB2312 ซึ่งประกอบด้วยอักขระจีน 6,763 ตัวและสัญลักษณ์อื่น ๆ 682 ตัว การเข้ารหัสได้รับการแก้ไขในปี 1995 และตั้งชื่อว่า GBK1.0 และรวมสัญลักษณ์ทั้งหมด 21,886 ตัว ต่อมามีการเปิดตัวการเข้ารหัส GBK18030 ซึ่งประกอบด้วยตัวอักษรจีนทั้งหมด 27,484 ตัว รวมถึงภาษาทิเบต มองโกเลีย อุยกูร์ และภาษาชนกลุ่มน้อยหลักอื่นๆ ในปัจจุบัน แพลตฟอร์ม WINDOWS จะต้องรองรับการเข้ารหัส GBK18030
การเข้ารหัส GB2312 ประกอบด้วยอักขระจีนมากกว่า 6,000 ตัวโดยประมาณ (ไม่รวมอักขระพิเศษ) ช่วงการเข้ารหัสคือ b0-f7 สำหรับหลักแรก และช่วงการเข้ารหัสสำหรับหลักที่สองคือ a1-fe (เมื่อหลักแรกคือ cf หลักที่สอง คือ a1-d3) คำนวณจำนวนตัวอักษรจีนเป็น 6762 ตัวอักษร แน่นอนว่ายังมีตัวละครอื่นอีก รวมถึงปุ่มควบคุมและอักขระอื่นๆ มีรหัสอักขระประมาณ 7573 รหัส โค้ด gbk เป็นส่วนขยายของโค้ด GB2312 และสามารถรองรับอักขระภาษาจีนได้มากขึ้น แต่เป็นเพียงส่วนขยายและไม่มีการเปลี่ยนแปลงเชิงคุณภาพ รหัส G B2312 จะยังคงอยู่ และช่วงการเข้ารหัสจะขยายตามพื้นฐานนี้ โดยรองรับรหัสอักขระได้ทั้งหมด 22014 ตัว (รวมอักขระพิเศษด้วย) ใช้รหัสเพียงสองหลักเท่านั้น ไม่สามารถรองรับอักขระภาษาจีนที่ต้องการได้อีกต่อไป ดังนั้นจึงใช้วิธีผสมแบบ 24 บิตเพื่อรองรับการเข้ารหัสอักขระภาษาจีนมากขึ้น และยังคงการเข้ารหัส gbk 2 ไบต์ดั้งเดิมไว้ และเข้ากันได้กับไฟล์ที่เข้ารหัส GB2312 และ gbk รองรับรหัสได้ประมาณ 55657 รหัส (รวมถึงอักขระพิเศษ) การเข้ารหัส Unicode (นั่นคือ การเข้ารหัส UTF): ที่รู้จักกันทั่วไปในชื่อ Universal Code มุ่งมั่นที่จะใช้มาตรฐานการเข้ารหัสแบบรวมเพื่อแสดงข้อความของประเทศต่างๆ เพื่อแสดงข้อความมากขึ้น UTF-8 ใช้วิธีการผสม 2/3 ช่วงของตัวอักษรจีนที่รองรับในปัจจุบันมีขนาดเล็กกว่าการเข้ารหัส gbk และการประมวลผลภาษาจีนในขนาด 3 ไบต์ทำให้เกิดปัญหาความเข้ากันได้ ไฟล์ที่เข้ารหัส gbk, GB2312 และ gb18030 ดั้งเดิมไม่สามารถประมวลผลได้ตามปกติ และยังมีหนทางอีกยาวไกล
ความแตกต่างระหว่าง gbk และ gb2312 คืออะไร
ก่อนอื่นทุกคนต้องเข้าใจว่า gbk คืออะไร? เราจำเป็นต้องรู้ว่าสิ่งเหล่านี้เป็นการเข้ารหัสอักขระชนิดหนึ่ง แน่นอนว่ามีการเข้ารหัสอักขระหลายประเภท
การเข้ารหัสอักขระสามารถเข้าใจได้ดังนี้:
สิ่งที่เก็บไว้ในคอมพิวเตอร์คือค่าไบนารี่ 0 และ 1
8 บิตสอดคล้องกับไบต์ โดยทั่วไปจะแสดงเป็นเลขฐานสิบหก
แล้วถ้าเราอยากเห็นอักขระที่เราต้องการแสดงบนคอมพิวเตอร์แทนที่จะเป็นตัวเลข 0 และ 1 ล่ะ?
ที่นี่เราต้องให้คอมพิวเตอร์แปลงค่าเลขฐานสิบหกที่สอดคล้องกันซึ่งจัดเก็บไว้เป็นอักขระที่เกี่ยวข้อง รวมถึงอักขระในภาษาอื่น เช่น อังกฤษ และจีน แล้วส่งออกไปยังหน้าจอ
ดังนั้นการเข้ารหัสหมายถึงการกำหนดชุดกฎเพื่อระบุว่าค่าใดที่สอดคล้องกับอักขระตัวใด
จากนั้นการเข้ารหัสอักขระจะกำหนดชุดของกฎโดยระบุว่าค่าใดในค่าจำนวนมากที่เก็บไว้ในคอมพิวเตอร์สอดคล้องกับตัวอักษรที่แสดงบนหน้าจอคอมพิวเตอร์
โดยสรุป ทุกคนควรเข้าใจว่า GBK และ GB2312 เป็นการเข้ารหัสอักขระ
มาพูดถึงความแตกต่างและความคล้ายคลึงกันโดยละเอียดด้านล่าง:
จุดที่คล้ายกัน:
1. GBK และ GB2312 มีทั้งแบบ 16 บิต!
2. โดยปกติจะใช้ภายในเมตาแท็กของหน้าเว็บ
ความแตกต่าง:
1. การเข้ารหัสอักขระ GBK รองรับภาษาจีนตัวย่อและภาษาจีนตัวเต็ม!
ชื่อเต็มของ GBK คือ "ข้อกำหนดการขยายรหัสภายในของจีน" (GBK เป็นอักษรตัวแรกของพินอินจีน "มาตรฐานแห่งชาติ" และ "ขยาย" ชื่อภาษาอังกฤษ: ข้อกำหนดรหัสภายในของจีน) คณะกรรมการด้านเทคนิคมาตรฐานเทคโนโลยีสารสนเทศแห่งชาติของสาธารณรัฐประชาชน ของจีน เมื่อวันที่ 1 ธันวาคม พ.ศ. 2538 กำหนดขึ้นเมื่อวันที่ 15 ธันวาคม พ.ศ. 2538 กรมมาตรฐานของสำนักงานกำกับดูแลด้านเทคนิคแห่งรัฐและกรมกำกับดูแลวิทยาศาสตร์ เทคโนโลยี และคุณภาพ กระทรวงอุตสาหกรรมอิเล็กทรอนิกส์ ร่วมกันออกหนังสือกำกับดูแลทางเทคนิคเมื่อวันที่ 15 ธันวาคม 1995 229 ซึ่งกำหนดให้เป็นเอกสารแนะนำข้อกำหนดทางเทคนิค
2. GB2312 รองรับเฉพาะภาษาจีนตัวย่อเท่านั้น!
"ชุดอักขระรหัสภาษาจีนเพื่อการแลกเปลี่ยนข้อมูล" คือชุดมาตรฐานระดับชาติที่เผยแพร่โดย State Administration of Standards of China ในปี 1980 และบังคับใช้เมื่อวันที่ 1 พฤษภาคม 1981 หมายเลขมาตรฐานคือ GB 2312-1980
มาตรฐาน GB 2312 ประกอบด้วยอักขระจีนทั้งหมด 6763 ตัว ซึ่งรวมถึงอักขระจีนระดับแรก 3755 ตัว และอักขระจีนระดับสอง 3008 ตัว ในเวลาเดียวกัน GB 2312 ประกอบด้วยตัวอักษรละติน ตัวอักษรกรีก อักษรฮิระงะนะและคาตาคานะของญี่ปุ่น และซีริลลิกรัสเซีย ตัวอักษร 682 ตัวเต็มความกว้าง
หากหน้าเว็บของคุณมีไว้สำหรับคนจีนที่พูดภาษาจีนเป็นหลัก จะดีมากถ้าใช้ GB2312 และ GBK พื้นที่จัดเก็บข้อความควรมีน้อยซึ่งมีข้อดีบางประการ หากหน้าเว็บของคุณเปิดกว้างสู่โลกกว้าง และคุณใช้ GB2312 และ GBK เป็นการเข้ารหัสหน้าเว็บ เบราว์เซอร์คอมพิวเตอร์บางตัวไม่มีการเข้ารหัสนี้ และเนื้อหาตัวอักษรจีนในหน้าเว็บของคุณจะกลายเป็นอักขระที่อ่านไม่ออกซึ่งไม่สามารถจดจำได้