1. การเข้ารหัสอักขระคืออะไร?
อักขระเป็นคำทั่วไปสำหรับข้อความและสัญลักษณ์ รวมถึงข้อความ สัญลักษณ์กราฟิก สัญลักษณ์ทางคณิตศาสตร์ ฯลฯ ชุดอักขระนามธรรมคือชุดอักขระ (Charset) การเกิดขึ้นของชุดอักขระคือการอำนวยความสะดวกในการเผยแพร่และจัดเก็บข้อมูล ชุดอักขระที่ใช้กันทั่วไปในปัจจุบัน ได้แก่ ASCII, ISO 8859-1, Unicode, GB2312
2. ชุดการเขียนโค้ดต่างๆ มีลักษณะอย่างไร?
แอสกี:
ASCII (รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล, รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล) เป็นระบบการเข้ารหัสคอมพิวเตอร์ที่ใช้ตัวอักษรละติน
ประกอบด้วยเนื้อหา: อักขระควบคุม (การขึ้นบรรทัดใหม่, การย้อนกลับ, การป้อนบรรทัด), อักขระที่แสดงได้ (ตัวพิมพ์ใหญ่และตัวพิมพ์เล็กภาษาอังกฤษ, เลขอารบิค และสัญลักษณ์ตะวันตก)
ลักษณะทางเทคนิค: 7 บิตแทนอักขระหนึ่งตัว รวม 128 อักขระ
ข้อเสีย: สามารถแสดงได้เฉพาะภาษาอังกฤษเท่านั้น และไม่สามารถแสดงสัญลักษณ์ภาษาในยุโรปตะวันตก เอเชียตะวันออก และละตินอเมริกาได้
ISO 8859-1:
ISO 8859-1 ซึ่งมีหมายเลขอย่างเป็นทางการคือ ISO/IEC 8859-1:1998 หรือที่รู้จักในชื่อ Latin-1 หรือ "ภาษายุโรปตะวันตก" เป็นชุดอักขระ 8 บิตชุดแรกของ ISO/IEC 8859 ภายในองค์การระหว่างประเทศเพื่อการมาตรฐาน
ขึ้นอยู่กับ ASCII และเพิ่มตัวอักษรและสัญลักษณ์ 96 ตัวในช่วง 0xA0-0xFF ที่ว่างสำหรับภาษาอักษรละตินที่ใช้สัญลักษณ์เพิ่มเติม เวอร์ชัน ISO 8859-1:1987 เปิดตัวแล้ว
รวมเนื้อหา: การเข้ารหัส ASCII รวมถึงบางภาษาที่ใช้ในยุโรปตะวันตก
ลักษณะทางเทคนิค: 8 บิตแสดงถึงอักขระ
ยูนิโค้ด:
การเข้ารหัสชุดอักขระ Unicode ย่อมาจาก Universal Multiple-Octet Coded Character Set เป็นระบบการเข้ารหัสอักขระที่พัฒนาโดยองค์กรที่เรียกว่า Unicode Consortium และรองรับภาษาต่างๆ ในโลกปัจจุบัน การแลกเปลี่ยน การประมวลผล และการแสดงผล ข้อความที่เขียน การเข้ารหัสเริ่มได้รับการพัฒนาในปี 1990 และได้ประกาศอย่างเป็นทางการในปี 1994 เวอร์ชันล่าสุดคือ Unicode 4.1.0 เมื่อวันที่ 31 มีนาคม 2548
ลักษณะทางเทคนิค: การเข้ารหัส 16 บิต อักขระแต่ละตัวใช้พื้นที่ 2 ไบต์ มีการกำหนดการเข้ารหัส Unicode ของอักขระ อย่างไรก็ตาม ในกระบวนการส่งข้อมูลจริง เนื่องจากการออกแบบแพลตฟอร์มระบบที่แตกต่างกันไม่จำเป็นต้องสอดคล้องกัน และเพื่อวัตถุประสงค์ในการประหยัดพื้นที่ การใช้การเข้ารหัส Unicode จึงแตกต่างออกไป การใช้งาน Unicode เรียกว่า Unicode Transformation Format (เรียกสั้น ๆ ว่า UTF) หากไฟล์ Unicode อักขระ ASCII 7 บิตถูกส่งโดยใช้การเข้ารหัส Unicode 2 ไบต์ดั้งเดิมในระหว่างกระบวนการส่ง จะทำให้เกิดการสิ้นเปลืองค่อนข้างมาก สำหรับสถานการณ์นี้ คุณสามารถใช้การเข้ารหัส UTF-8 ซึ่งเป็นการเข้ารหัสความยาวผันแปรได้ซึ่งยังคงใช้การเข้ารหัส 7 บิตเพื่อแสดงอักขระ ASCII พื้นฐาน 7 บิต ซึ่งกินพื้นที่หนึ่งไบต์ (บิตแรกเต็มไปด้วย 0) เมื่อผสมกับอักขระ Unicode อื่น ๆ จะถูกแปลงตามอัลกอริทึมที่กำหนด อักขระแต่ละตัวจะถูกเข้ารหัสโดยใช้ 1-3 ไบต์ และบิตแรกคือ 0 หรือ 1 เพื่อระบุตัวตน
GB2312:
GB 2312 หรือ GB 2312-80 เป็นชุดอักขระจีนตัวย่อมาตรฐานแห่งชาติของจีน ชื่อเต็มคือ "ชุดอักขระรหัสจีนสำหรับชุดพื้นฐานการแลกเปลี่ยนข้อมูล" หรือที่เรียกว่า GB0 ซึ่งออกโดย State Administration of Standards of China และนำไปใช้ เมื่อวันที่ 1 พฤษภาคม พ.ศ. 2524 การเข้ารหัส GB2312 เป็นที่นิยมในจีนแผ่นดินใหญ่ สิงคโปร์และที่อื่นๆ ก็ใช้การเข้ารหัสนี้เช่นกัน ระบบจีนและซอฟต์แวร์ต่างประเทศเกือบทั้งหมดในจีนแผ่นดินใหญ่รองรับ GB 2312
ประกอบด้วย: ตัวอักษรจีน 6,763 ตัว รวมถึงตัวอักษรจีนระดับ 1 3,755 ตัว และตัวอักษรจีนระดับ 2 3,008 ตัว รวมถึงตัวอักษรละติน อักษรกรีก อักษรฮิระงะนะและคาตาคานะของญี่ปุ่น และอักษรซีริลลิกรัสเซีย
คุณสมบัติทางเทคนิค: ตัวอักษรและสัญลักษณ์ภาษาจีนแต่ละตัวจะแสดงเป็นสองไบต์ ไบต์แรกเรียกว่า "ไบต์สูง" และไบต์ที่สองเรียกว่า "ไบต์ต่ำ" "ไบต์สูง" ใช้ 0xA1-0xF7 และ "ไบต์ต่ำ" ใช้ 0xA1-0xFE0xA0) เนื่องจากอักขระภาษาจีนระดับแรกเริ่มต้นจากพื้นที่ 16 ช่วง "ไบต์สูง" ของพื้นที่อักขระจีนคือ 0xB0-0xF7 ช่วง "ไบต์ต่ำ" คือ 0xA1-0xFE และบิตโค้ดที่ถูกครอบครองคือ 72*94= 6768. ในจำนวนนี้มีตำแหน่งงานว่าง 5 ตำแหน่ง ได้แก่ D7FA-D7FE