Если у вас есть выбор, вам все равно следует использовать UTF-8.
Фактически, собственные программы системы Windows полностью перешли на Unicode, а GBK — это всего лишь временная мера, позволяющая соответствовать китайским стандартам.
Текстовая кодировка GBK представлена двойными байтами, то есть как китайские, так и английские символы представлены двойными байтами. Однако, чтобы различать китайский язык, старший бит установлен в 1.
Что касается кодировки UTF-8, то это многобайтовая кодировка, используемая для решения международных символов. Она использует 8 бит (то есть один байт) для английского языка и 24 бита (три байта) для китайского языка. На форумах с большим количеством английских символов для экономии места используется UTF-8.
GBK содержит все китайские иероглифы,
UTF-8 содержит символы, необходимые всем странам мира.
GBK — это стандарт, совместимый с GB2312 после расширения на основе национального стандарта GB2312 (похоже, что он еще не является национальным стандартом)
Текст в кодировке UTF-8 может отображаться в различных браузерах в разных странах, поддерживающих набор символов UTF8.
Например, если это кодировка UTF8, китайский язык также может отображаться в английском IE иностранцев без необходимости загружать пакет поддержки китайского языка в IE.
Поэтому для форумов с большим количеством английского каждый символ занимает 2 байта при использовании GBK, а при использовании английского в UTF-8 — только один байт.
Обратите внимание: хотя версия UTF-8 имеет хорошую международную совместимость, китайская версия требует на 50% больше места для хранения базы данных, чем версия GBK/BIG5, поэтому она не рекомендуется и может использоваться только пользователями с особыми требованиями к международной совместимости.
Проще говоря:
Для форумов с большим количеством китайских иероглифов уместно использовать кодировку GBK для экономии места в базе данных.
Для форумов с большим количеством английского языка уместно использовать UTF-8 для экономии места в базе данных.
В чем разница между gbk и gb2312
Прежде всего всем нужно понять, что такое gbk. Что такое gb2312? Нам нужно знать, что все они представляют собой разновидность кодировки символов. Конечно, существует множество видов кодировок символов.
Кодировку символов можно понять так:
В компьютере хранятся двоичные значения 0 и 1.
8 бит соответствуют байту, обычно выражаемому в шестнадцатеричном виде.
А что, если мы хотим видеть на компьютере нужные символы вместо различных цифр 0 и 1?
Здесь нам нужно заставить компьютер преобразовать соответствующие хранимые им шестнадцатеричные значения в соответствующие символы, включая символы других языков, таких как английский и китайский, а затем вывести их на экран.
Таким образом, кодирование означает определение набора правил, определяющих, какие значения каким символам соответствуют.
Затем кодировка символов определяет набор правил, определяющих, какое значение среди множества значений, хранящихся в компьютере, соответствует какой букве отображается на экране компьютера.
Подводя итог, каждый должен понимать, что GBK и GB2312 — это кодировки символов.
Об их различиях и сходствах поговорим подробнее ниже:
Похожие моменты:
1. GBK и GB2312 оба 16-битные!
2. Обычно они используются в метатегах веб-страниц.
Отличия:
1. Кодировка символов GBK поддерживает упрощенный китайский и традиционный китайский!
Полное название GBK — «Спецификация расширения китайского внутреннего кода» (GBK — это первая буква «Национального стандарта» и «Расширенного» китайского пиньинь, английское название: Спецификация китайского внутреннего кода), Национальный технический комитет по стандартизации информационных технологий Народной Республики. Китая, 1 декабря 1995 г. Сформулировано 15 декабря 1995 г., Департамент стандартизации Государственного бюро технического надзора и Департамент науки, технологий и контроля качества Министерства электронной промышленности совместно выдали 15 декабря письмо о техническом надзоре, 1995. 229, определяя его как руководящий документ по техническим спецификациям.
2. GB2312 поддерживает только упрощенный китайский язык!
«Набор китайских кодированных символов для обмена информацией» — это набор национальных стандартов, опубликованных Государственным управлением по стандартам Китая в 1980 году и введенных в действие 1 мая 1981 года. Номер стандарта — GB 2312-1980.
Стандарт GB 2312 содержит в общей сложности 6763 китайских символа, в том числе 3755 китайских иероглифов первого уровня и 3008 китайских иероглифов второго уровня. При этом GB 2312 включает латинские буквы, греческие буквы, японские буквы хираганы и катаканы, а также русскую кириллицу. 682 полноразмерных символа.
Если ваша веб-страница предназначена в основном для китайцев, говорящих по-китайски, очень хорошо использовать GB2312 и GBK. Объем хранилища текста должен быть небольшим, что имеет некоторые преимущества. Если ваша веб-страница должна быть открыта для всего мира и вы используете GB2312 и GBK в качестве кодировки веб-страницы, некоторые компьютерные браузеры не имеют этой кодировки, и содержимое вашей веб-страницы, содержащее китайские символы, станет нераспознаваемым, искаженным.