Explicación detallada del uso de la codificación de caracteres Java.

Autor：Eve Cole Fecha de actualización：2024-11-23 19:36:01

1. ¿Qué es la codificación de caracteres?

Carácter es un término general para texto y símbolos, incluido texto, símbolos gráficos, símbolos matemáticos, etc. Un conjunto de caracteres abstractos es un conjunto de caracteres (Charset). La aparición de conjuntos de caracteres tiene como objetivo facilitar la difusión y el almacenamiento de información. Los conjuntos de caracteres más utilizados actualmente incluyen: ASCII, ISO 8859-1, Unicode, GB2312

2. ¿Cuáles son las características de los distintos conjuntos de codificación?

ASCII:

ASCII (Código estándar americano para el intercambio de información, Código estándar americano para el intercambio de información) es un sistema de codificación informática basado en el alfabeto latino.

Contiene contenido: caracteres de control (retorno de carro, retroceso, avance de línea), caracteres visualizables (mayúsculas y minúsculas en inglés, números arábigos y símbolos occidentales).

Características técnicas: 7 bits representan un carácter, un total de 128 caracteres

Desventajas: solo puede representar inglés y no se pueden representar símbolos de idiomas en Europa occidental, Asia oriental y América Latina.

Norma ISO 8859-1:

ISO 8859-1, oficialmente numerada ISO/IEC 8859-1:1998, también conocida como Latin-1 o "idioma de Europa occidental", es el primer conjunto de caracteres de 8 bits de ISO/IEC 8859 dentro de la Organización Internacional de Normalización.

Se basa en ASCII y agrega 96 letras y símbolos en el rango vacante 0xA0-0xFF para idiomas del alfabeto latino que usan símbolos adicionales. Se ha lanzado la versión ISO 8859-1:1987.

Contenido incluido: La codificación ASCII incluye algunos idiomas utilizados en Europa Occidental.

Características técnicas: 8 bits representan un carácter.

Unicódigo:

La codificación de conjunto de caracteres Unicode es la abreviatura de Conjunto de caracteres codificados de octetos múltiples universales. Es un sistema de codificación de caracteres desarrollado por una organización llamada Unicode Consortium y admite el intercambio, procesamiento y visualización de varios idiomas en el mundo. texto escrito. La codificación comenzó a desarrollarse en 1990 y se anunció oficialmente en 1994. La última versión es Unicode 4.1.0 del 31 de marzo de 2005.

Características técnicas: Codificación de 16 bits, cada carácter ocupa 2 bytes. Se determina la codificación Unicode de un carácter. Sin embargo, en el proceso de transmisión real, debido a que los diseños de diferentes plataformas del sistema no son necesariamente consistentes y con el fin de ahorrar espacio, la implementación de la codificación Unicode es diferente. La implementación de Unicode se llama formato de transformación Unicode (UTF para abreviar). Si un archivo Unicode de caracteres ASCII de 7 bits se transmite utilizando la codificación Unicode original de 2 bytes durante el proceso de transmisión, provocará un desperdicio relativamente grande. Para esta situación, puede utilizar la codificación UTF-8, que es una codificación de longitud variable que todavía utiliza una codificación de 7 bits para representar los caracteres ASCII básicos de 7 bits, ocupando un byte (el primer bit se rellena con 0). Cuando se mezcla con otros caracteres Unicode, se convertirá de acuerdo con un algoritmo determinado. Cada carácter se codifica utilizando de 1 a 3 bytes y el primer bit es 0 o 1 para identificación.

GB2312:

GB 2312 o GB 2312-80 es el conjunto de caracteres chinos simplificados estándar nacional de China, el nombre completo es "Conjunto básico de caracteres codificados chinos para el intercambio de información", también conocido como GB0. Fue emitido por la Administración Estatal de Estándares de China e implementado. el 1 de mayo de 1981. La codificación GB2312 es popular en China continental, Singapur y otros lugares también utilizan esta codificación. Casi todos los sistemas chinos y el software internacional en China continental admiten GB 2312.

Contiene: 6763 caracteres chinos, incluidos 3755 caracteres chinos de primer nivel y 3008 caracteres chinos de segundo nivel. También incluye 682 caracteres que incluyen letras latinas, letras griegas, letras japonesas hiragana y katakana y letras cirílicas rusas.

Características técnicas: Cada carácter y símbolo chino está representado por dos bytes. El primer byte se denomina "byte alto" y el segundo byte se denomina "byte bajo". El "byte alto" usa 0xA1-0xF7 y el "byte bajo" usa 0xA1-0xFE0xA0). Dado que los caracteres chinos de primer nivel comienzan desde el área 16, el rango de "byte alto" del área de caracteres chinos es 0xB0-0xF7, el rango de "byte bajo" es 0xA1-0xFE y los bits de código ocupados son 72*94= 6768. Entre ellas, 5 vacantes son D7FA-D7FE.