1. Что такое кодировка символов?
Символ — это общий термин для текста и символов, включая текст, графические символы, математические символы и т. д. Набор абстрактных символов представляет собой набор символов (Charset). Появление наборов символов призвано облегчить распространение и хранение информации. В настоящее время наиболее часто используемые наборы символов включают: ASCII, ISO 8859-1, Unicode, GB2312.
2. Каковы характеристики различных наборов кодирования?
ASCII:
ASCII (Американский стандартный код обмена информацией, Американский стандартный код обмена информацией) — это компьютерная система кодирования, основанная на латинском алфавите.
Содержит: управляющие символы (возврат каретки, возврат назад, перевод строки), отображаемые символы (английские прописные и строчные буквы, арабские цифры и западные символы).
Технические характеристики: 7 бит представляют один символ, всего 128 символов.
Недостатки: он может представлять только английский язык, а языковые символы Западной Европы, Восточной Азии и Латинской Америки не могут быть представлены.
ИСО 8859-1:
ISO 8859-1, официально имеющий номер ISO/IEC 8859-1:1998, также известный как Latin-1 или «западноевропейский язык», является первым 8-битным набором символов ISO/IEC 8859 в рамках Международной организации по стандартизации.
Он основан на ASCII и добавляет 96 букв и символов в свободный диапазон 0xA0-0xFF для языков с латинским алфавитом, использующих дополнительные символы. Выпущена версия ISO 8859-1:1987.
Включенное содержимое: Кодировка ASCII включает некоторые языки, используемые в Западной Европе.
Технические характеристики: 8 бит представляют символ.
Юникод:
Кодировка набора символов Unicode — это аббревиатура универсального набора символов с многооктетной кодировкой. Это система кодирования символов, разработанная организацией под названием Консорциум Unicode и поддерживающая сегодня различные языки в мире. Обмен, обработка и отображение. письменный текст. Кодировка начала разрабатываться в 1990 году и была официально анонсирована в 1994 году. Последней версией является Unicode 4.1.0 от 31 марта 2005 года.
Технические характеристики: Кодировка 16 бит, каждый символ занимает 2 байта. Определяется кодировка символа в Юникоде. Однако в реальном процессе передачи, поскольку конструкции разных системных платформ не обязательно согласованы, а в целях экономии места реализация кодировки Unicode различна. Реализация Unicode называется форматом преобразования Unicode (сокращенно UTF). Если в процессе передачи файл Unicode с 7-битными символами ASCII передается с использованием исходной 2-байтовой кодировки Unicode, это приведет к относительно большим потерям. В этой ситуации вы можете использовать кодировку UTF-8, которая представляет собой кодировку переменной длины, которая по-прежнему использует 7-битную кодировку для представления основных 7-битных символов ASCII, занимающих один байт (первый бит заполняется 0). При смешивании с другими символами Юникода он преобразуется по определенному алгоритму. Каждый символ кодируется с помощью 1-3 байтов, а первый бит равен 0 или 1 для идентификации.
ГБ2312:
GB 2312 или GB 2312-80 — это упрощенный китайский набор символов национального стандарта Китая, полное название — «Базовый набор китайских кодированных символов для обмена информацией», также известный как GB0. Он был выпущен Государственным управлением по стандартам Китая и внедрен. 1 мая 1981 года. Кодировка GB2312 популярна в материковом Китае и в других местах. Почти все китайские системы и международное программное обеспечение в материковом Китае поддерживают GB 2312.
Содержит: 6763 китайских иероглифа, в том числе 3755 китайских иероглифов первого уровня и 3008 китайских иероглифов второго уровня; также включает 682 символа, включая латинские буквы, греческие буквы, японские буквы хираганы и катаканы, а также русские буквы кириллицы.
Технические особенности: Каждый китайский иероглиф и символ представлен двумя байтами. Первый байт называется «старшим байтом», а второй байт называется «младшим байтом». «Старший байт» использует 0xA1-0xF7, а «младший байт» использует 0xA1-0xFE0xA0). Поскольку китайские иероглифы первого уровня начинаются с области 16, диапазон «старших байтов» области китайских символов составляет 0xB0-0xF7, диапазон «младших байтов» — 0xA1-0xFE, а занятые биты кода — 72*94= 6768. Среди них 5 вакансий D7FA-D7FE.