1. ما هو ترميز الأحرف؟
الحرف هو مصطلح عام للنص والرموز، بما في ذلك النص والرموز الرسومية والرموز الرياضية وما إلى ذلك. مجموعة الأحرف المجردة هي مجموعة أحرف (مجموعة الأحرف). إن ظهور مجموعات الأحرف هو تسهيل نشر المعلومات وتخزينها. تتضمن مجموعات الأحرف الشائعة الاستخدام حاليًا ما يلي: ASCII، ISO 8859-1، Unicode، GB2312
2. ما هي خصائص مجموعات الترميز المختلفة؟
أسكي:
ASCII (الرمز القياسي الأمريكي لتبادل المعلومات، والرمز القياسي الأمريكي لتبادل المعلومات) هو نظام ترميز كمبيوتر يعتمد على الأبجدية اللاتينية.
يحتوي على المحتوى: أحرف التحكم (سطر الإرجاع، مسافة للخلف، تغذية الأسطر)، أحرف قابلة للعرض (الأحرف الكبيرة والصغيرة باللغة الإنجليزية، والأرقام العربية والرموز الغربية).
الخصائص التقنية: 7 بتات تمثل حرفًا واحدًا، بإجمالي 128 حرفًا
العيوب: يمكن أن تمثل اللغة الإنجليزية فقط، ولا يمكن تمثيل رموز اللغة في أوروبا الغربية وشرق آسيا وأمريكا اللاتينية.
إسو 8859-1:
ISO 8859-1، المرقم رسميًا ISO/IEC 8859-1:1998، والمعروف أيضًا باسم Latin-1 أو "لغة أوروبا الغربية"، هو أول مجموعة أحرف 8 بت من ISO/IEC 8859 داخل المنظمة الدولية للمعايير.
يعتمد على ASCII ويضيف 96 حرفًا ورمزًا في النطاق 0xA0-0xFF الشاغر للغات الأبجدية اللاتينية التي تستخدم رموزًا إضافية. تم إطلاق نسخة ISO 8859-1:1987.
المحتوى المتضمن: يتضمن ترميز ASCII بعض اللغات المستخدمة في أوروبا الغربية.
الخصائص التقنية: 8 بتات تمثل الشخصية.
يونيكود:
ترميز مجموعة أحرف Unicode هو اختصار لـ Universal Multiple-Octet Coded Character Set وهو نظام ترميز أحرف تم تطويره بواسطة منظمة تسمى Unicode Consortium ويدعم العديد من اللغات في العالم اليوم لتبادل ومعالجة وعرض نص مكتوب. بدأ تطوير الترميز في عام 1990 وتم الإعلان عنه رسميًا في عام 1994. وأحدث إصدار هو Unicode 4.1.0 في 31 مارس 2005.
الخصائص التقنية: ترميز 16 بت، كل حرف يحتل 2 بايت. يتم تحديد ترميز Unicode للشخصية. ومع ذلك، في عملية النقل الفعلية، نظرًا لأن تصميمات منصات النظام المختلفة ليست بالضرورة متسقة، ولأغراض توفير المساحة، يختلف تنفيذ ترميز Unicode. يُطلق على تنفيذ Unicode اسم Unicode Transformation Format (UTF للاختصار). إذا تم إرسال ملف Unicode ذو أحرف ASCII مكون من 7 بتات باستخدام ترميز Unicode الأصلي المكون من 2 بايت أثناء عملية الإرسال، فسيتسبب ذلك في إهدار كبير نسبيًا. في هذه الحالة، يمكنك استخدام ترميز UTF-8، وهو ترميز متغير الطول لا يزال يستخدم ترميز 7 بت لتمثيل أحرف ASCII الأساسية ذات 7 بتات، ويشغل بايتًا واحدًا (يتم ملء البت الأول بـ 0). عند مزجه مع أحرف Unicode أخرى، سيتم تحويله وفقًا لخوارزمية معينة، ويتم تشفير كل حرف باستخدام 1-3 بايت، والبت الأول هو 0 أو 1 لتحديد الهوية.
GB2312:
GB 2312 أو GB 2312-80 هي مجموعة الأحرف الصينية المبسطة القياسية الوطنية في الصين، والاسم الكامل هو "مجموعة الأحرف الصينية المشفرة للمجموعة الأساسية لتبادل المعلومات"، والمعروفة أيضًا باسم GB0، وقد تم إصدارها من قبل إدارة الدولة للمعايير في الصين وتم تنفيذها في 1 مايو 1981. يعد ترميز GB2312 شائعًا في بر الصين الرئيسي وفي أماكن أخرى يستخدم هذا الترميز أيضًا. تدعم جميع الأنظمة الصينية والبرامج الدولية تقريبًا في الصين القارية GB 2312.
يحتوي على: 6763 حرفًا صينيًا، منها 3755 حرفًا صينيًا من المستوى الأول و3008 حرفًا صينيًا من المستوى الثاني؛ كما يتضمن 682 حرفًا منها الحروف اللاتينية، والحروف اليونانية، وأحرف الهيراجانا والكاتاكانا اليابانية، والأحرف السيريلية الروسية.
الميزات التقنية: يتم تمثيل كل حرف ورمز صيني ببايتين. البايت الأول يسمى "البايت العالي" والبايت الثاني يسمى "البايت المنخفض". يستخدم "البايت العالي" 0xA1-0xF7، ويستخدم "البايت المنخفض" 0xA1-0xFE0xA0). نظرًا لأن الأحرف الصينية من المستوى الأول تبدأ من المنطقة 16، فإن نطاق "البايت العالي" لمنطقة الأحرف الصينية هو 0xB0-0xF7، ونطاق "البايت المنخفض" هو 0xA1-0xFE، وبتات التعليمات البرمجية المشغولة هي 72*94= 6768. من بينها 5 وظائف شاغرة هي D7FA-D7FE.