หากคุณมีทางเลือก คุณยังควรใช้ UTF-8
ในความเป็นจริง โปรแกรมของระบบ Windows ได้เปลี่ยนไปใช้ Unicode อย่างสมบูรณ์ และ GBK เป็นเพียงมาตรการชั่วคราวในการรับมือกับมาตรฐานของจีน
การเข้ารหัสข้อความของ GBK จะแสดงด้วยไบต์คู่ กล่าวคือ ทั้งอักขระภาษาจีนและภาษาอังกฤษจะแสดงด้วยไบต์คู่ อย่างไรก็ตาม เพื่อแยกแยะภาษาจีน บิตสูงสุดจึงถูกตั้งค่าเป็น 1
สำหรับการเข้ารหัส UTF-8 เป็นการเข้ารหัสแบบหลายไบต์ที่ใช้ในการแก้อักขระสากล โดยจะใช้ 8 บิต (นั่นคือ 1 ไบต์) สำหรับภาษาอังกฤษ และ 24 บิต (3 ไบต์) สำหรับภาษาจีน สำหรับฟอรัมที่มีอักขระภาษาอังกฤษจำนวนมาก ระบบจะใช้ UTF-8 เพื่อประหยัดพื้นที่
GBK มีตัวอักษรจีนทั้งหมด
UTF-8 มีอักขระที่จำเป็นสำหรับทุกประเทศทั่วโลก
GBK เป็นมาตรฐานที่เข้ากันได้กับ GB2312 หลังจากขยายตามมาตรฐานแห่งชาติ GB2312 (ดูเหมือนว่าจะยังไม่ใช่มาตรฐานระดับชาติ)
ข้อความที่เข้ารหัส UTF-8 สามารถแสดงบนเบราว์เซอร์ต่างๆ ในประเทศต่างๆ ที่รองรับชุดอักขระ UTF8
ตัวอย่างเช่น หากเป็นการเข้ารหัส UTF8 ภาษาจีนก็สามารถแสดงบน IE ภาษาอังกฤษของชาวต่างชาติได้โดยไม่จำเป็นต้องดาวน์โหลดแพ็คเกจสนับสนุนภาษาจีนของ IE
ดังนั้น สำหรับฟอรัมที่มีภาษาอังกฤษจำนวนมาก อักขระแต่ละตัวจะใช้พื้นที่ 2 ไบต์เมื่อใช้ GBK แต่จะใช้เวลาเพียง 1 ไบต์เมื่อใช้ภาษาอังกฤษแบบ UTF-8
โปรดทราบ: แม้ว่าเวอร์ชัน UTF-8 จะมีความเข้ากันได้ดีในระดับนานาชาติ แต่เวอร์ชันภาษาจีนต้องการพื้นที่จัดเก็บฐานข้อมูลมากกว่าเวอร์ชัน GBK/BIG5 ถึง 50% ดังนั้นจึงไม่แนะนำและสามารถใช้ได้โดยผู้ใช้ที่มีข้อกำหนดพิเศษสำหรับความเข้ากันได้ระหว่างประเทศเท่านั้น
พูดง่ายๆ:
สำหรับฟอรัมที่มีตัวอักษรจีนจำนวนมาก ควรใช้การเข้ารหัส GBK เพื่อประหยัดพื้นที่ฐานข้อมูล
สำหรับฟอรัมที่มีภาษาอังกฤษจำนวนมาก ควรใช้ UTF-8 เพื่อประหยัดพื้นที่ฐานข้อมูล
ความแตกต่างระหว่าง gbk และ gb2312 คืออะไร
ก่อนอื่นทุกคนต้องเข้าใจว่า gbk คืออะไร? เราจำเป็นต้องรู้ว่าสิ่งเหล่านี้เป็นการเข้ารหัสอักขระชนิดหนึ่ง แน่นอนว่ามีการเข้ารหัสอักขระหลายประเภท
การเข้ารหัสอักขระสามารถเข้าใจได้ดังนี้:
สิ่งที่เก็บไว้ในคอมพิวเตอร์คือค่าไบนารี่ 0 และ 1
8 บิตสอดคล้องกับไบต์ โดยทั่วไปจะแสดงเป็นเลขฐานสิบหก
แล้วถ้าเราอยากเห็นอักขระที่เราต้องการแสดงบนคอมพิวเตอร์แทนที่จะเป็นตัวเลข 0 และ 1 ล่ะ?
ที่นี่เราต้องให้คอมพิวเตอร์แปลงค่าเลขฐานสิบหกที่สอดคล้องกันซึ่งจัดเก็บไว้เป็นอักขระที่เกี่ยวข้อง รวมถึงอักขระในภาษาอื่น เช่น อังกฤษ และจีน แล้วส่งออกไปยังหน้าจอ
ดังนั้นการเข้ารหัสหมายถึงการกำหนดชุดกฎเพื่อระบุว่าค่าใดที่สอดคล้องกับอักขระตัวใด
จากนั้นการเข้ารหัสอักขระจะกำหนดชุดของกฎที่ระบุว่าค่าใดจากค่าจำนวนมากที่จัดเก็บไว้ในคอมพิวเตอร์ซึ่งสอดคล้องกับตัวอักษรที่แสดงบนหน้าจอคอมพิวเตอร์
โดยสรุป ทุกคนควรเข้าใจว่า GBK และ GB2312 เป็นการเข้ารหัสอักขระ
มาพูดถึงความแตกต่างและความคล้ายคลึงกันโดยละเอียดด้านล่าง:
จุดที่คล้ายกัน:
1. GBK และ GB2312 มีทั้งแบบ 16 บิต!
2. โดยปกติจะใช้ภายในเมตาแท็กของหน้าเว็บ
ความแตกต่าง:
1. การเข้ารหัสอักขระ GBK รองรับภาษาจีนตัวย่อและภาษาจีนตัวเต็ม!
ชื่อเต็มของ GBK คือ "ข้อกำหนดการขยายรหัสภายในของจีน" (GBK เป็นอักษรตัวแรกของพินอินจีน "มาตรฐานแห่งชาติ" และ "ขยาย" ชื่อภาษาอังกฤษ: ข้อกำหนดรหัสภายในของจีน) คณะกรรมการด้านเทคนิคมาตรฐานเทคโนโลยีสารสนเทศแห่งชาติของสาธารณรัฐประชาชน ของจีน เมื่อวันที่ 1 ธันวาคม พ.ศ. 2538 กำหนดขึ้นเมื่อวันที่ 15 ธันวาคม พ.ศ. 2538 กรมมาตรฐานของสำนักงานกำกับดูแลด้านเทคนิคแห่งรัฐและกรมวิทยาศาสตร์และเทคโนโลยีและกำกับดูแลคุณภาพ กระทรวงอุตสาหกรรมอิเล็กทรอนิกส์ ร่วมกันออกหนังสือกำกับดูแลด้านเทคนิคเมื่อวันที่ 15 ธันวาคม 1995. 229 ซึ่งกำหนดให้เป็นเอกสารคำแนะนำเกี่ยวกับข้อกำหนดทางเทคนิค
2. GB2312 รองรับเฉพาะภาษาจีนตัวย่อเท่านั้น!
"ชุดอักขระรหัสภาษาจีนเพื่อการแลกเปลี่ยนข้อมูล" คือชุดมาตรฐานระดับชาติที่เผยแพร่โดย State Administration of Standards of China ในปี 1980 และบังคับใช้เมื่อวันที่ 1 พฤษภาคม 1981 หมายเลขมาตรฐานคือ GB 2312-1980
มาตรฐาน GB 2312 ประกอบด้วยอักขระจีนทั้งหมด 6763 ตัว ซึ่งรวมถึงอักขระจีนระดับแรก 3755 ตัว และอักขระจีนระดับสอง 3008 ตัว ในเวลาเดียวกัน GB 2312 ประกอบด้วยตัวอักษรละติน ตัวอักษรกรีก อักษรฮิระงะนะและคาตาคานะของญี่ปุ่น และซีริลลิกรัสเซีย ตัวอักษร 682 ตัวเต็มความกว้าง
หากหน้าเว็บของคุณมีไว้สำหรับคนจีนที่พูดภาษาจีนเป็นหลัก จะดีมากถ้าใช้ GB2312 และ GBK พื้นที่จัดเก็บข้อความควรมีน้อยซึ่งมีข้อดีบางประการ หากหน้าเว็บของคุณเปิดกว้างสู่โลกกว้าง และคุณใช้ GB2312 และ GBK เป็นการเข้ารหัสหน้าเว็บ เบราว์เซอร์คอมพิวเตอร์บางตัวไม่มีการเข้ารหัสนี้ และเนื้อหาตัวอักษรจีนในหน้าเว็บของคุณจะกลายเป็นอักขระที่อ่านไม่ออกซึ่งไม่สามารถจดจำได้