Прежде всего, нам нужно понять, что GB2312, GBK и UTF-8 — это кодировки символов. Кроме того, существует множество кодировок символов. Просто для наших китайских сайтов чаще используются именно эти три кодировки. Проще говоря, зачем нам использовать кодировку? В компьютере для хранения текстовой информации используется код ASC II. Каждому символу соответствует уникальный код ASCII. Компьютеры были первоначально изобретены в Соединенных Штатах, и там также использовались клавиатуры и буквы, поэтому их символы было легко решить с помощью ASCII. Но наши китайские иероглифы разные. Каждому китайскому иероглифу должен соответствовать уникальный код ASCII. Так появились национальные стандарты кодировки символов: GB2312, GBK и др. Другие страны и другие языки также имеют свои соответствующие стандарты кодирования. GB означает национальный стандарт GB2312 и GBK, которые в основном используются для кодирования китайских символов, а UTF-8 используется во всем мире. Это означает, что если ваша веб-страница предназначена в основном для китайцев, говорящих по-китайски, очень хорошо использовать GB2312 и GBK. Объем хранилища текста должен быть небольшим, что имеет некоторые преимущества. Если ваша веб-страница должна быть открыта для всего мира и вы используете GB2312 и GBK в качестве кодировки веб-страницы, некоторые компьютерные браузеры не имеют этой кодировки, и содержимое вашей веб-страницы, содержащее китайские символы, станет нераспознаваемым, искаженным. Обычно они используются в метатеге веб-страницы, например:, указывая, что на этой странице используется кодировка GB2312. Эта информация предназначена для браузера, который отдает приоритет декодированию веб-страницы с использованием информации о кодировке, извлеченной из заголовка веб-страницы. Конечно, мы также можем заставить браузер использовать определенную кодировку для интерпретации веб-страниц, чтобы мы могли видеть легендарный искаженный код.
GBK, GB2312 и т. д. необходимо преобразовать в UTF8 посредством кодировки Unicode:
ГБК, GB2312--Юникод--UTF8
UTF8--Юникод--GBK, GB2312
Для веб-сайта или форума, если на нем много английских символов, для экономии места рекомендуется использовать UTF-8. Однако многие плагины форумов теперь обычно поддерживают только GBK.
Если это китайский веб-сайт, у GB2312 GBK иногда все еще возникают некоторые проблемы. Чтобы избежать искажения символов, следует использовать UTF-8. Также очень удобно поддерживать интернационализацию в будущем. большой набор символов, который содержит большую часть кодировки.
Одним из преимуществ использования UTF-8 является то, что пользователи в других регионах (например, в Гонконге и Тайване) могут просматривать ваш текст в обычном режиме без установки поддержки упрощенного китайского языка* без искаженных символов. *
gb2312 — код упрощенного китайского языка.
gbk поддерживает упрощенный китайский и традиционный китайский.
big5 поддерживает традиционный китайский язык
utf-8 поддерживает почти все символы
Наиболее часто используемый код в материковом Китае — GBK18030. Кроме того, существуют GBK и GB2312. Соотношение между этими кодами такое. Самая ранняя кодировка китайских символов была GB2312, которая включала 6763 китайских символа и 682 других символа. Кодировка была пересмотрена в 1995 году и получила название GBK1.0, и в общей сложности было включено 21886 символов. Позже была запущена кодировка GBK18030, которая включала в общей сложности 27 484 китайских символа, а также тибетский, монгольский, уйгурский и другие языки основных меньшинств. Теперь платформа WINDOWS должна поддерживать кодировку GBK18030.
Кодировка GB2312 содержит примерно более 6000 китайских символов (исключая специальные символы). Диапазон кодирования первой цифры — b0-f7, а диапазон кодирования второй цифры — a1-fe (когда первая цифра — cf, вторая цифра). это a1-d3). Подсчитайте количество китайских иероглифов до 6762 китайских иероглифов. Конечно, есть и другие персонажи. Включая клавиши управления и другие символы, имеется около 7573 кодов символов. Код gbk является расширением кода GB2312 и может содержать больше китайских символов, но это всего лишь расширение, а не качественное изменение. Все коды G B2312 сохранены, и на этой основе диапазон кодирования расширен. Он вмещает в общей сложности 22014 кодов символов (включая специальные символы). Код gb18030 является расширением, основанным на коде gbk. используются только двухзначные коды. Он больше не может содержать необходимые китайские символы, поэтому используется 24-битный смешанный метод для поддержки большего количества кодировок китайских символов. Он сохраняет исходную 2-байтовую кодировку gbk и совместим с файлами в кодировке GB2312 и gbk. Приблизительно вмещает 55 657 кодов (включая специальные символы). Кодировка Unicode (то есть кодировка UTF): широко известная как универсальный код, она стремится использовать унифицированные стандарты кодирования для выражения текстов различных стран. Чтобы выразить больше текста, UTF-8 использует метод смешивания 2/3. Диапазон поддерживаемых в настоящее время китайских символов меньше, чем в кодировке gbk. А обработка китайского языка в 3 байта привела к проблемам совместимости. Исходные файлы в кодировке gbk, GB2312 и gb18030 не могут быть нормально обработаны, и впереди еще долгий путь.
В чем разница между gbk и gb2312
Прежде всего всем нужно понять, что такое gbk. Что такое gb2312? Нам нужно знать, что все они представляют собой разновидность кодировки символов. Конечно, существует множество видов кодировок символов.
Кодировку символов можно понять так:
В компьютере хранятся двоичные значения 0 и 1.
8 бит соответствуют байту, обычно выражаемому в шестнадцатеричном виде.
А что, если мы хотим видеть на компьютере нужные символы вместо различных цифр 0 и 1?
Здесь нам нужно заставить компьютер преобразовать соответствующие хранимые им шестнадцатеричные значения в соответствующие символы, включая символы других языков, таких как английский и китайский, а затем вывести их на экран.
Таким образом, кодирование означает определение набора правил, определяющих, какие значения каким символам соответствуют.
Затем кодировка символов определяет набор правил, определяющих, какое значение среди множества значений, хранящихся в компьютере, соответствует какой букве отображается на экране компьютера.
Подводя итог, каждый должен понимать, что GBK и GB2312 — это кодировки символов.
Об их различиях и сходствах поговорим подробнее ниже:
Похожие моменты:
1. GBK и GB2312 оба 16-битные!
2. Обычно они используются в метатегах веб-страниц.
Отличия:
1. Кодировка символов GBK поддерживает упрощенный китайский и традиционный китайский!
Полное название GBK — «Спецификация расширения китайского внутреннего кода» (GBK — это первая буква «Национального стандарта» и «Расширенного» китайского пиньинь, английское название: Спецификация китайского внутреннего кода), Национальный технический комитет по стандартизации информационных технологий Народной Республики. Китая, 1 декабря 1995 г. Сформулировано 15 декабря 1995 г., Департамент стандартизации Государственного бюро технического надзора и Департамент науки, технологий и контроля качества Министерства электронной промышленности совместно выдали 15 декабря письмо о техническом надзоре, 1995. 229, определяя его как руководящий документ по техническим спецификациям.
2. GB2312 поддерживает только упрощенный китайский язык!
«Набор китайских кодированных символов для обмена информацией» — это набор национальных стандартов, опубликованных Государственным управлением по стандартам Китая в 1980 году и введенных в действие 1 мая 1981 года. Номер стандарта — GB 2312-1980.
Стандарт GB 2312 содержит в общей сложности 6763 китайских символа, в том числе 3755 китайских иероглифов первого уровня и 3008 китайских иероглифов второго уровня. При этом GB 2312 включает латинские буквы, греческие буквы, японские буквы хираганы и катаканы, а также русскую кириллицу. 682 полноразмерных символа.
Если ваша веб-страница предназначена в основном для китайцев, говорящих по-китайски, очень хорошо использовать GB2312 и GBK. Объем хранилища текста должен быть небольшим, что имеет некоторые преимущества. Если ваша веб-страница должна быть открыта для всего мира и вы используете GB2312 и GBK в качестве кодировки веб-страницы, некоторые компьютерные браузеры не имеют этой кодировки, и содержимое вашей веб-страницы, содержащее китайские символы, станет нераспознаваемым, искаженным.