Java 문자 인코딩 사용에 대한 자세한 설명

저자：Eve Cole 업데이트 시간：2024-11-23 19:36:01

1. 문자 인코딩이란 무엇입니까?

문자는 텍스트, 그래픽 기호, 수학 기호 등을 포함하는 텍스트 및 기호에 대한 일반적인 용어입니다. 추상 문자 집합은 문자 집합(Charset)입니다. 문자 집합의 출현은 정보의 보급과 저장을 용이하게 하기 위한 것입니다. 현재 일반적으로 사용되는 문자 집합에는 ASCII, ISO 8859-1, Unicode, GB2312가 포함됩니다.

2. 다양한 코딩 세트의 특징은 무엇입니까?

아스키:

ASCII(미국 정보 교환 표준 코드, 미국 정보 교환 표준 코드)는 라틴 알파벳을 기반으로 하는 컴퓨터 코딩 시스템입니다.

내용 포함: 제어 문자(캐리지 리턴, 백스페이스, 줄 바꿈), 표시 가능한 문자(영어 대문자 및 소문자, 아라비아 숫자 및 서양 기호).

기술적 특성: 7비트는 한 문자를 나타내며 총 128자입니다.

단점: 영어만 표현할 수 있고, 서유럽, 동아시아, 라틴아메리카의 언어기호는 표현할 수 없다.

ISO 8859-1:

ISO 8859-1은 공식적으로 ISO/IEC 8859-1:1998로 번호가 지정되었으며 라틴어-1 또는 "서유럽 언어"라고도 알려져 있으며 국제 표준화 기구 내에서 ISO/IEC 8859의 첫 번째 8비트 문자 집합입니다.

ASCII를 기반으로 하며, 추가 기호를 사용하는 라틴 알파벳 언어에 대해 빈 0xA0-0xFF 범위에 96개의 문자와 기호를 추가합니다. ISO 8859-1:1987 버전이 출시되었습니다.

포함된 내용: ASCII 인코딩에는 서유럽에서 사용되는 일부 언어가 포함되어 있습니다.

기술적 특성: 8비트는 문자를 나타냅니다.

유니코드:

유니코드 문자 집합 인코딩(Unicode Character Set Encoding)은 Universal Multiple-Octet Coded Character Set의 약자로 Unicode Consortium이라는 조직에서 개발한 문자 인코딩 시스템으로 오늘날 전 세계의 다양한 언어를 교환, 처리 및 표시합니다. 쓰여진 텍스트. 인코딩은 1990년에 개발되기 시작하여 1994년에 공식적으로 발표되었습니다. 최신 버전은 2005년 3월 31일 유니코드 4.1.0입니다.

기술적 특성: 16비트 인코딩, 각 문자는 2바이트를 차지합니다. 문자의 유니코드 인코딩이 결정됩니다. 그러나 실제 전송 과정에서는 서로 다른 시스템 플랫폼의 설계가 반드시 일관되지는 않으며 공간 절약을 위해 유니코드 인코딩 구현이 다릅니다. 유니코드 구현을 유니코드 변환 형식(줄여서 UTF)이라고 합니다. 7비트 ASCII 문자 유니코드 파일이 전송 과정에서 원래의 2바이트 유니코드 인코딩을 사용하여 전송되면 상대적으로 큰 낭비가 발생합니다. 이러한 상황에서는 UTF-8 인코딩을 사용할 수 있습니다. UTF-8 인코딩은 여전히 7비트 인코딩을 사용하여 기본 7비트 ASCII 문자를 표현하는 가변 길이 인코딩으로, 1바이트를 차지합니다(첫 번째 비트는 0으로 채워짐). 다른 유니코드 문자와 혼합되면 특정 알고리즘에 따라 변환됩니다. 각 문자는 1-3바이트를 사용하여 인코딩되며 식별을 위해 첫 번째 비트는 0 또는 1입니다.

GB2312:

GB 2312 또는 GB 2312-80은 중국의 국가 표준 간체 중국어 문자 집합이며, 전체 이름은 "정보 교환 기본 집합을 위한 중국어 코드 문자 집합"이며 GB0이라고도 합니다. 이는 중국 국가 표준 관리국에서 발행하여 구현되었습니다. 1981년 5월 1일. GB2312 인코딩은 중국 본토에서 널리 사용되며 다른 곳에서도 이 인코딩을 사용합니다. 중국 본토의 거의 모든 중국 시스템과 국제 소프트웨어는 GB 2312를 지원합니다.

포함: 1급 한자 3755자, 2급 한자 3008자를 포함하여 한자 6763자, 라틴 문자, 그리스 문자, 일본어 히라가나 및 가타카나 문자, 러시아어 키릴 문자를 포함한 682자도 포함됩니다.

기술적 특징: 각 중국어 문자와 기호는 2바이트로 표시됩니다. 첫 번째 바이트를 "상위 바이트"라고 하고 두 번째 바이트를 "낮은 바이트"라고 합니다. "상위 바이트"는 0xA1-0xF7을 사용하고 "하위 바이트"는 0xA1-0xFE0xA0을 사용합니다. 1급 한자는 영역 16부터 시작하므로 한자 영역의 "상위 바이트" 범위는 0xB0-0xF7, "하위 바이트" 범위는 0xA1-0xFE, 점유 코드 비트는 72*94= 6768. 그 중 5개의 공석은 D7FA-D7FE입니다.