우선, GB2312, GBK 및 UTF-8은 모두 문자 인코딩이라는 점을 이해해야 합니다. 또한 많은 문자 인코딩이 있습니다. 단지 중국 웹사이트의 경우 이 세 가지 인코딩이 더 자주 사용되기 때문입니다. 간단히 말하면, 왜 인코딩을 사용해야 할까요? 컴퓨터에서 ASC II 코드는 텍스트 정보를 저장하는 데 사용됩니다. 컴퓨터는 원래 미국에서 발명되었고 그 위에 키보드와 문자도 사용했기 때문에 그 문자는 ASCII로 쉽게 풀 수 있었습니다. 그러나 우리의 한자는 서로 다릅니다. 각 한자는 고유한 ASCII 코드와 일치해야 합니다. 이런 식으로 국가 문자 인코딩 표준인 GB2312, GBK 등이 나왔습니다. 다른 국가 및 다른 언어에도 해당하는 인코딩 표준이 있습니다. GB는 국가 표준을 의미하며 GB2312와 GBK는 주로 한자 인코딩에 사용되는 반면 UTF-8은 전 세계적으로 사용됩니다. 즉, 귀하의 웹페이지가 주로 중국어를 사용하는 중국인을 대상으로 하는 경우 GB2312 및 GBK를 사용하는 것이 매우 좋으며 텍스트 저장 용량이 작아야 하며 몇 가지 장점이 있습니다. 웹페이지를 전 세계에 공개하고 웹페이지 인코딩으로 GB2312 및 GBK를 사용하는 경우 일부 컴퓨터 브라우저에는 이 인코딩이 없으므로 웹페이지의 한자 콘텐츠가 인식할 수 없는 왜곡된 문자가 됩니다. 이는 일반적으로 다음과 같은 웹 페이지의 메타 태그에 사용되며, 이는 이 페이지가 GB2312 인코딩을 사용함을 나타냅니다. 이 정보는 브라우저에 대한 정보로, 웹페이지 헤더에서 추출된 인코딩 정보를 사용하여 웹페이지를 디코딩하는 데 우선순위를 둡니다. 물론, 브라우저가 웹 페이지를 해석하기 위해 특정 인코딩을 사용하도록 강제하여 전설적인 잘못된 코드를 볼 수도 있습니다.
GBK, GB2312 등은 유니코드 인코딩을 통해 UTF8로 변환되어야 합니다.
GBK, GB2312--유니코드--UTF8
UTF8--유니코드--GBK, GB2312
웹사이트나 포럼의 경우 영문자가 많으면 공간 절약을 위해 UTF-8을 사용하는 것이 좋습니다. 그러나 현재 많은 포럼 플러그인은 일반적으로 GBK만 지원합니다.
중국어 웹사이트인 경우 GB2312 GBK에는 여전히 일부 문제가 있습니다. 모든 문자 왜곡을 방지하려면 UTF-8을 사용해야 합니다. 향후 국제화를 지원하는 것도 매우 편리합니다. 대부분의 텍스트 코딩이 포함된 큰 문자 집합입니다.
UTF-8을 사용하면 다른 지역(홍콩, 대만 등)의 사용자가 중국어 간체 지원*을 설치하지 않고도 문자가 깨지지 않고 텍스트를 정상적으로 볼 수 있다는 이점이 있습니다. *
gb2312는 중국어 간체 코드입니다.
gbk는 중국어 간체와 중국어 번체를 지원합니다.
big5는 중국어 번체를 지원합니다.
utf-8은 거의 모든 문자를 지원합니다
중국 본토에서 가장 일반적으로 사용되는 코드는 GBK18030이며, GBK와 GB2312도 있습니다. 공식화된 최초의 한자 인코딩은 GB2312로, 여기에는 6763개의 한자와 682개의 기타 기호가 포함되어 있습니다. 인코딩은 1995년에 개정되어 GBK1.0으로 명명되었으며 총 21886개의 기호가 포함되었습니다. 나중에 총 27,484개의 중국어 문자와 티베트어, 몽골어, 위구르어 및 기타 주요 소수 민족 언어가 포함된 GBK18030 인코딩이 출시되었습니다. 이제 WINDOWS 플랫폼은 GBK18030 인코딩을 지원해야 합니다.
GB2312 인코딩은 약 6,000자 이상의 한자(특수문자 제외)를 포함하며, 인코딩 범위는 첫 번째 자리는 b0~f7, 두 번째 자리는 a1~fe(첫 번째 자리가 cf인 경우 두 번째 자리)이다. a1-d3) 한자의 수를 6762자로 계산합니다. 물론 다른 캐릭터도 있습니다. 컨트롤 키와 기타 문자를 포함하면 약 7573개의 문자 코드가 있습니다. gbk 코드는 GB2312 코드의 확장으로 더 많은 한자를 수용할 수 있지만 확장일 뿐 질적 변화는 없습니다. G B2312 코드는 모두 유지되며, 이를 기반으로 코딩 범위가 확장됩니다. gb18030 코드는 gbk 코드를 기반으로 한 확장이므로 총 22014개의 문자 코드를 수용할 수 있습니다. 두 자리 코드만 사용됩니다. 더 이상 필요한 한자를 수용할 수 없으므로 더 많은 한자 인코딩을 지원하기 위해 24비트 혼합 방법이 채택됩니다. 또한 원본 gbk 2바이트 인코딩을 유지하며 GB2312 및 gbk 인코딩 파일과 호환됩니다. 대략 55657개의 코드 수용(특수문자 포함) 유니코드 인코딩(즉, UTF 인코딩): 일반적으로 유니버설 코드(Universal Code)로 알려져 있으며, 다양한 국가의 텍스트를 표현하기 위해 통일된 인코딩 표준을 사용하기 위해 노력하고 있습니다. UTF-8은 더 많은 텍스트를 표현하기 위해 2/3 믹싱 방식을 사용합니다. 현재 수용되는 한자의 범위는 gbk 인코딩보다 작습니다. 그리고 3바이트로 중국어를 처리하면 호환성 문제가 발생하여 원본 gbk, GB2312, gb18030 인코딩 파일을 정상적으로 처리할 수 없으며 아직 갈 길이 멀습니다.
gbk와 gb2312의 차이점은 무엇입니까?
우선 gb2312가 무엇인지 모두가 이해해야 겠죠? 물론, 다양한 종류의 문자 인코딩이 있습니다.
문자 인코딩은 다음과 같이 이해될 수 있습니다.
컴퓨터에 저장되는 것은 0과 1의 이진값이다.
8비트는 1바이트에 해당하며 일반적으로 16진수로 표시됩니다.
그렇다면 다양한 숫자 0과 1 대신 컴퓨터에 표시하려는 문자를 보려면 어떻게 해야 할까요?
여기서는 컴퓨터가 저장한 해당 16진수 값을 영어, 중국어 등 다른 언어의 문자를 포함하여 해당 문자로 변환한 다음 화면에 출력하도록 해야 합니다.
따라서 인코딩은 어떤 값이 어떤 문자에 해당하는지 지정하는 일련의 규칙을 정의하는 것을 의미합니다.
그런 다음 문자 인코딩은 컴퓨터에 저장된 수많은 값 중 어떤 값이 컴퓨터 화면에 표시되는 문자에 해당하는지 지정하는 일련의 규칙을 정의합니다.
요약하면 GBK와 GB2312가 문자 인코딩이라는 것을 모든 사람이 이해할 수 있어야 합니다.
아래에서 차이점과 유사점에 대해 자세히 설명하겠습니다.
비슷한 점:
1. GBK와 GB2312는 모두 16비트입니다!
2. 일반적으로 웹페이지의 메타 태그 내에서 사용됩니다.
차이점:
1. GBK 문자 인코딩은 중국어 간체와 중국어 번체를 지원합니다!
GBK의 전체 이름은 "중국 내부 코드 확장 사양"입니다(GBK는 "국가 표준" 및 "확장" 중국어 병음의 첫 글자, 영어 이름: 중국어 내부 코드 사양), 인민 공화국 국가 정보 기술 표준화 기술 위원회 중국, 1995년 12월 1일 1995년 12월 15일 제정, 국가기술감독국 표준화부와 전자공업부 과학기술품질 감독부가 공동으로 12월 15일 기술감독서한을 발행했다. 1995년 229에서는 이를 기술사양 지침서로 정의하고 있다.
2. GB2312는 중국어 간체만 지원합니다!
"정보 교환을 위한 중국어 코드 문자 집합"은 1980년 중국 국가 표준 관리국에서 발표하고 1981년 5월 1일에 시행한 국가 표준 집합입니다. 표준 번호는 GB 2312-1980입니다.
GB 2312 표준에는 1급 한자 3755자, 2급 한자 3008자를 포함하여 총 6763자가 포함됩니다. 동시에 GB 2312에는 라틴 문자, 그리스 문자, 일본어 히라가나 및 가타카나 문자, 러시아어 키릴 문자가 포함됩니다. 문자 682자.
귀하의 웹페이지가 주로 중국어를 사용하는 중국인을 대상으로 하는 경우 GB2312 및 GBK를 사용하는 것이 매우 좋으며 텍스트 저장 용량이 작아야 하며 몇 가지 장점이 있습니다. 웹페이지를 전 세계에 공개하고 웹페이지 인코딩으로 GB2312 및 GBK를 사용하는 경우 일부 컴퓨터 브라우저에는 이 인코딩이 없으므로 웹페이지의 한자 콘텐츠가 인식할 수 없는 왜곡된 문자가 됩니다.