أولاً، علينا أن نفهم أن GB2312 وGBK وUTF-8 كلها ترميزات للأحرف. بالإضافة إلى ذلك، هناك العديد من ترميزات الأحرف. إنه فقط بالنسبة لمواقعنا الإلكترونية الصينية، يتم استخدام هذه الترميزات الثلاثة في كثير من الأحيان. بكل بساطة، لماذا نحتاج إلى استخدام التشفير في الكمبيوتر، يتم استخدام رمز ASC II لتخزين المعلومات النصية، ويتوافق كل حرف مع رمز ASCII الفريد. تم اختراع أجهزة الكمبيوتر في الأصل في الولايات المتحدة، وكانت تستخدم عليها أيضًا لوحات المفاتيح والحروف، لذلك كان من السهل حل أحرفها باستخدام ASCII. لكن الأحرف الصينية لدينا مختلفة، ويجب أن يتوافق كل حرف صيني مع رمز ASCII الفريد. بهذه الطريقة، ظهرت معايير ترميز الأحرف الوطنية: GB2312، GBK، إلخ. البلدان الأخرى واللغات الأخرى لديها أيضًا معايير الترميز المقابلة لها. GB يعني المعيار الوطني GB2312 وGBK يُستخدمان بشكل أساسي لترميز الأحرف الصينية، بينما يُستخدم UTF-8 في جميع أنحاء العالم. هذا يعني أنه إذا كانت صفحة الويب الخاصة بك مخصصة بشكل أساسي للأشخاص الصينيين الذين يتحدثون الصينية، فمن الجيد جدًا استخدام GB2312 وGBK، ويجب أن يكون حجم تخزين النص صغيرًا، وهو ما له بعض المزايا. إذا كانت صفحة الويب الخاصة بك مفتوحة للعالم، وكنت تستخدم GB2312 وGBK كتشفير لصفحة الويب، فإن بعض متصفحات الكمبيوتر لا تحتوي على هذا التشفير، وسيصبح محتوى الأحرف الصينية لصفحة الويب الخاصة بك أحرفًا مشوهة لا يمكن التعرف عليها. يتم استخدامها عادةً في العلامة الوصفية لصفحة الويب، مثل:، للإشارة إلى أن هذه الصفحة تستخدم ترميز GB2312. هذه المعلومات مخصصة للمتصفح الذي سيعطي الأولوية لفك تشفير صفحة الويب باستخدام معلومات التشفير المستخرجة من رأس صفحة الويب. بالطبع، يمكننا أيضًا إجبار المتصفح على استخدام ترميز معين لتفسير صفحات الويب، حتى نتمكن من رؤية الكود الأسطوري المشوه.
يجب تحويل GBK وGB2312 وما إلى ذلك إلى UTF8 من خلال تشفير Unicode:
GBK، GB2312--Unicode-UTF8
UTF8--يونيكود-GBK، GB2312
بالنسبة لموقع ويب أو منتدى، إذا كان هناك العديد من الأحرف الإنجليزية، فمن المستحسن استخدام UTF-8 لتوفير المساحة. ومع ذلك، فإن العديد من المكونات الإضافية للمنتدى تدعم الآن بشكل عام GBK فقط.
إذا كان موقع ويب صينيًا، فإن GB2312 GBK لا يزال يواجه بعض المشكلات في بعض الأحيان، لتجنب جميع الأحرف المشوهة، يجب استخدام UTF-8، كما أنه مناسب جدًا لدعم التدويل في المستقبل مجموعة أحرف كبيرة تحتوي على معظم النص.
تتمثل إحدى فوائد استخدام UTF-8 في أن المستخدمين في المناطق الأخرى (مثل هونج كونج وتايوان) يمكنهم عرض النص بشكل طبيعي دون تثبيت دعم اللغة الصينية المبسطة* وبدون أحرف مشوهة. *
gb2312 هو رمز اللغة الصينية المبسطة
يدعم gbk اللغة الصينية المبسطة والصينية التقليدية
يدعم big5 اللغة الصينية التقليدية
يدعم utf-8 جميع الشخصيات تقريبًا
الكود الأكثر استخدامًا في بر الصين الرئيسي هو GBK18030. بالإضافة إلى ذلك، هناك GBK وGB2312. العلاقة بين هذه الرموز هي كالتالي. أول ترميز للأحرف الصينية كان GB2312، والذي تضمن 6763 حرفًا صينيًا و682 رمزًا آخر، تمت مراجعة الترميز في عام 1995 وأطلق عليه اسم GBK1.0، وتم تضمين إجمالي 21886 رمزًا. في وقت لاحق، تم إطلاق ترميز GBK18030، والذي يتضمن إجمالي 27484 حرفًا صينيًا، بالإضافة إلى لغات التبت والمنغولية والأويغورية ولغات الأقليات الرئيسية الأخرى. الآن يجب أن تدعم منصة WINDOWS ترميز GBK18030.
يحتوي ترميز GB2312 على ما يزيد عن 6000 حرف صيني تقريبًا (باستثناء الأحرف الخاصة)، نطاق التشفير هو b0-f7 للرقم الأول، ونطاق التشفير للرقم الثاني هو a1-fe (عندما يكون الرقم الأول هو cf، يكون الرقم الثاني). هو a1-d3) حساب عدد الأحرف الصينية إلى 6762 حرفًا صينيًا. وبالطبع هناك شخصيات أخرى. بما في ذلك مفاتيح التحكم والأحرف الأخرى، يوجد حوالي 7573 رمزًا للأحرف، ويعد كود gbk امتدادًا لكود GB2312 ويمكنه استيعاب المزيد من الأحرف الصينية، ولكنه مجرد توسيع وليس تغييرًا نوعيًا. يتم الاحتفاظ بجميع رموز G B2312، ويتم توسيع نطاق الترميز على هذا الأساس، وهو يستوعب إجمالي 22014 رمزًا للأحرف (بما في ذلك الأحرف الخاصة). يعد رمز gb18030 بمثابة توسيع يعتمد على رمز gbk. يتم استخدام رموز مكونة من رقمين فقط، ولم يعد بإمكانها استيعاب الأحرف الصينية المطلوبة، لذلك تم اعتماد طريقة مختلطة 24 بت لدعم المزيد من ترميزات الأحرف الصينية. ويحتفظ بتشفير gbk الأصلي 2 بايت ويتوافق مع الملفات المشفرة GB2312 وgbk. يستوعب تقريبًا 55657 رمزًا (بما في ذلك الأحرف الخاصة) ترميز Unicode (أي ترميز UTF): المعروف باسم Universal Code، وهو ملتزم باستخدام معايير التشفير الموحدة للتعبير عن نصوص مختلف البلدان. من أجل التعبير عن المزيد من النص، يستخدم UTF-8 طريقة خلط 2/3. نطاق الأحرف الصينية المستوعب حاليًا أصغر من ترميز gbk. وقد أدت معالجة اللغة الصينية بثلاثة بايت إلى حدوث مشكلات في التوافق، ولا يمكن معالجة الملفات المشفرة الأصلية gbk وGB2312 وgb18030 بشكل طبيعي، ولا يزال هناك طريق طويل لنقطعه.
ما هي الاختلافات بين gbk و gb2312
بادئ ذي بدء، يحتاج الجميع إلى فهم ما هو gbk؟ ما هو gb2312؟ نحتاج إلى معرفة أن جميعها عبارة عن نوع من ترميز الأحرف. بالطبع، هناك أنواع عديدة من ترميز الأحرف.
يمكن فهم ترميز الأحرف على النحو التالي:
ما يتم تخزينه في الكمبيوتر هو القيم الثنائية 0 و 1.
8 بتات تتوافق مع البايت، ويتم التعبير عنها عادة بالنظام الست عشري.
فماذا لو أردنا رؤية الأحرف التي نريدها معروضة على الكمبيوتر بدلاً من الأرقام المختلفة 0 و1؟
نحن هنا بحاجة إلى جعل الكمبيوتر يقوم بتحويل القيم السداسية العشرية المقابلة التي يخزنها إلى أحرف مقابلة، بما في ذلك الأحرف في لغات أخرى مثل الإنجليزية والصينية، ومن ثم إخراجها إلى الشاشة.
لذا فإن التشفير يعني تحديد مجموعة من القواعد لتحديد القيم التي تتوافق مع أي أحرف.
ثم يحدد ترميز الأحرف مجموعة من القواعد التي تحدد القيمة من بين العديد من القيم المخزنة في الكمبيوتر التي تتوافق مع الحرف الذي يتم عرضه على شاشة الكمبيوتر.
خلاصة القول، يجب أن يكون الجميع قادرين على فهم أن GBK وGB2312 هما ترميزان للأحرف.
دعونا نتحدث عن الاختلافات والتشابهات بينهما بالتفصيل أدناه:
نقاط مماثلة:
1. GBK وGB2312 كلاهما 16 بت!
2. يتم استخدامها عادةً ضمن العلامات الوصفية لصفحات الويب.
الاختلافات:
1. يدعم ترميز أحرف GBK اللغة الصينية المبسطة والصينية التقليدية!
الاسم الكامل لـ GBK هو "مواصفات توسيع الكود الداخلي الصيني" (GBK هو الحرف الأول من "المعيار الوطني" و"الموسع" الصيني بينيين، الاسم الإنجليزي: مواصفات الكود الداخلي الصيني)، اللجنة الفنية الوطنية لتقييس تكنولوجيا المعلومات لجمهورية الصين الشعبية الصين، 1 ديسمبر 1995، تمت صياغته في 15 ديسمبر 1995، وأصدرت إدارة التقييس التابعة لمكتب الدولة للرقابة الفنية وإدارة العلوم والتكنولوجيا ومراقبة الجودة بوزارة الصناعة الإلكترونية خطاب إشراف فني مشترك في 15 ديسمبر، 1995. 229، وتعريفها بأنها وثيقة توجيه المواصفات الفنية.
2. GB2312 يدعم اللغة الصينية المبسطة فقط!
"مجموعة الأحرف الصينية المشفرة لتبادل المعلومات" هي مجموعة من المعايير الوطنية التي نشرتها إدارة الدولة للمعايير الصينية في عام 1980 وتم تنفيذها في 1 مايو 1981. الرقم القياسي هو GB 2312-1980.
يحتوي معيار GB 2312 على إجمالي 6763 حرفًا صينيًا، بما في ذلك 3755 حرفًا صينيًا من المستوى الأول و3008 حرفًا صينيًا من المستوى الثاني، وفي الوقت نفسه، يتضمن GB 2312 الحروف اللاتينية والأحرف اليونانية وأحرف الهيراجانا والكاتاكانا اليابانية والسيريلية الروسية. 682 حرفًا بالعرض الكامل.
إذا كانت صفحة الويب الخاصة بك مخصصة بشكل أساسي للأشخاص الصينيين الذين يتحدثون الصينية، فمن الجيد جدًا استخدام GB2312 وGBK، ويجب أن يكون حجم تخزين النص صغيرًا، وهو ما له بعض المزايا. إذا كانت صفحة الويب الخاصة بك مفتوحة للعالم، وكنت تستخدم GB2312 وGBK كتشفير لصفحة الويب، فإن بعض متصفحات الكمبيوتر لا تحتوي على هذا التشفير، وسيصبح محتوى الأحرف الصينية لصفحة الويب الخاصة بك أحرفًا مشوهة لا يمكن التعرف عليها.