Explicação detalhada do uso da codificação de caracteres Java

Autor：Eve Cole Data da Última Atualização：2024-11-23 19:36:01

1. O que é codificação de caracteres?

Caractere é um termo geral para texto e símbolos, incluindo texto, símbolos gráficos, símbolos matemáticos, etc. Um conjunto de caracteres abstratos é um conjunto de caracteres (Charset). O surgimento de conjuntos de caracteres visa facilitar a disseminação e armazenamento de informações. Os conjuntos de caracteres comumente usados atualmente incluem: ASCII, ISO 8859-1, Unicode, GB2312

2. Quais são as características dos vários conjuntos de codificação?

ASCII:

ASCII (American Standard Code for Information Interchange, American Standard Code for Information Interchange) é um sistema de codificação de computador baseado no alfabeto latino.

Contém conteúdo: caracteres de controle (retorno de carro, backspace, avanço de linha), caracteres exibíveis (maiúsculas e minúsculas em inglês, algarismos arábicos e símbolos ocidentais).

Características técnicas: 7 bits representam um caractere, um total de 128 caracteres

Desvantagens: Só pode representar o inglês e os símbolos linguísticos da Europa Ocidental, Leste Asiático e América Latina não podem ser representados.

ISO 8859-1:

ISO 8859-1, oficialmente numerado ISO/IEC 8859-1:1998, também conhecido como Latin-1 ou "Língua da Europa Ocidental", é o primeiro conjunto de caracteres de 8 bits da ISO/IEC 8859 dentro da Organização Internacional de Padronização.

É baseado em ASCII e adiciona 96 letras e símbolos no intervalo vago 0xA0-0xFF para idiomas do alfabeto latino que usam símbolos adicionais. A versão ISO 8859-1:1987 foi lançada.

Conteúdo incluído: A codificação ASCII inclui alguns idiomas usados na Europa Ocidental.

Características técnicas: 8 bits representam um caractere.

Unicode:

A codificação do conjunto de caracteres Unicode é a abreviatura de Universal Multiple-Octet Coded Character Set. É um sistema de codificação de caracteres desenvolvido por uma organização chamada Unicode Consortium e oferece suporte a vários idiomas no mundo hoje. texto escrito. A codificação começou a ser desenvolvida em 1990 e foi anunciada oficialmente em 1994. A versão mais recente é Unicode 4.1.0 em 31 de março de 2005.

Características técnicas: codificação de 16 bits, cada caractere ocupa 2 bytes. A codificação Unicode de um caractere é determinada. No entanto, no processo de transmissão real, porque os designs das diferentes plataformas do sistema não são necessariamente consistentes e para fins de economia de espaço, a implementação da codificação Unicode é diferente. A implementação do Unicode é chamada Unicode Transformation Format (UTF, abreviadamente). Se um arquivo Unicode de caracteres ASCII de 7 bits for transmitido usando a codificação Unicode original de 2 bytes durante o processo de transmissão, isso causará um desperdício relativamente grande. Para esta situação, você pode usar a codificação UTF-8, que é uma codificação de comprimento variável que ainda usa uma codificação de 7 bits para representar os caracteres ASCII básicos de 7 bits, ocupando um byte (o primeiro bit é preenchido com 0). Quando misturado com outros caracteres Unicode, ele será convertido de acordo com um determinado algoritmo. Cada caractere é codificado usando 1-3 bytes e o primeiro bit é 0 ou 1 para identificação.

GB2312:

GB 2312 ou GB 2312-80 é o conjunto de caracteres chineses simplificados padrão nacional da China, o nome completo é "Conjunto de caracteres codificados chineses para conjunto básico de troca de informações", também conhecido como GB0. Foi emitido pela Administração Estatal de Padrões da China e implementado. em 1º de maio de 1981. A codificação GB2312 é popular na China continental e em outros lugares também usa essa codificação. Quase todos os sistemas chineses e software internacional na China continental suportam GB 2312.

Contém: 6.763 caracteres chineses, incluindo 3.755 caracteres chineses de primeiro nível e 3.008 caracteres chineses de segundo nível, também inclui 682 caracteres, incluindo letras latinas, letras gregas, letras japonesas hiragana e katakana e letras cirílicas russas;

Características técnicas: Cada caractere e símbolo chinês é representado por dois bytes. O primeiro byte é chamado de “byte alto” e o segundo byte é chamado de “byte baixo”. O "byte alto" usa 0xA1-0xF7 e o "byte baixo" usa 0xA1-0xFE0xA0). Como os caracteres chineses de primeiro nível começam na área 16, o intervalo de "bytes altos" da área de caracteres chineses é 0xB0-0xF7, o intervalo de "bytes baixos" é 0xA1-0xFE e os bits de código ocupados são 72*94= 6768. Dentre elas, 5 vagas são D7FA-D7FE.