중국어 단어 분할이란 무엇입니까?
단어 분할이란 무엇입니까? 중국어 단어 분할과 다른 단어 분할의 차이점은 무엇입니까? 단어 분할은 특정 사양에 따라 연속된 단어 시퀀스를 단어 시퀀스로 재조합하는 프로세스입니다. 위의 예를 보면, 영어 글쓰기에서는 공백이 단어 사이의 자연스러운 구분 기호로 사용되는 반면, 중국어에서는 단어, 문장, 단락만 명확한 구분 기호로 간단히 구분할 수 있음을 알 수 있습니다. 영어 역시 단어 수준에서 구문을 나누는 문제가 있습니다. 위의 예에서 볼 수 있듯이 중국어는 영어보다 훨씬 더 복잡하고 어렵습니다.
현재 세 가지 주류 중국어 단어 분할 알고리즘이 있습니다.
1. 문자열 매칭을 기반으로 한 단어 분할 방법
이 방법은 분석할 한자어 문자열을 특정 전략에 따라 "충분히 큰" 기계어 사전의 항목과 일치시키는 방법이라고도 합니다. (단어를 알아보세요). 서로 다른 검색 방향에 따라 문자열 일치 단어 분할 방법은 서로 다른 길이의 우선순위 일치에 따라 순방향 일치와 역방향 일치로 나눌 수 있으며 최대(최장) 일치와 최소(최단) 일치로 나눌 수 있습니다. 품사 태깅 과정과 관련된 것인지 결합하여 단순 단어 분할 방법과 단어 분할과 주석을 결합한 통합 방법으로 나눌 수 있습니다. 일반적으로 사용되는 몇 가지 기계적 단어 분할 방법은 다음과 같습니다.
1) 순방향 최대 매칭 방법(왼쪽에서 오른쪽 방향);
2) 역최대 매칭 방식(오른쪽에서 왼쪽 방향);
3) 최소 분할(각 문장의 단어 수를 최소화).
위에서 언급한 다양한 방법들은 서로 결합될 수도 있으며, 예를 들어 순방향 최대 매칭 방법과 역방향 최대 매칭 방법을 결합하여 양방향 매칭 방법을 형성할 수도 있다. 중국어 단일 문자 단어 형성의 특성으로 인해 정방향 최소 일치와 역방향 최소 일치는 일반적으로 거의 사용되지 않습니다. 일반적으로 역방향 매칭의 분할 정확도는 순방향 매칭의 정확도보다 약간 높으며 모호성이 더 적습니다. 통계 결과를 보면 단순히 순방향 최대 매칭을 사용한 경우의 오류율은 1/169이고, 단순히 역방향 최대 매칭을 사용한 경우의 오류율은 1/245인 것으로 나타났습니다. 그러나 이 정확도는 실제 요구 사항을 충족하는 것과는 거리가 멀습니다. 실제 사용되는 단어분할 시스템은 모두 예비적 분할 방법으로 기계적 단어분할을 사용하고 있으며, 그 외 다양한 언어정보를 활용하여 분할의 정확도를 더욱 높일 필요가 있다.
한 가지 방법은 특징 스캐닝 또는 마크 분할이라고 하는 스캐닝 방법을 개선하는 것입니다. 이는 분석할 문자열에서 명백한 특성을 가진 일부 단어를 식별하고 분할하는 데 우선순위를 두고 이러한 단어를 중단점으로 사용하여 원래 문자열을 기계어 단어로 나눌 수 있습니다. 일치 오류율을 줄이기 위해 더 작은 문자열에 대해 분할이 수행됩니다. 또 다른 방법은 단어 분할과 품사 태깅을 결합하고, 풍부한 품사 정보를 활용하여 단어 분할 결정에 도움을 주고, 태깅 과정에서 단어 분할 결과를 확인하고 조정하여 정확도를 크게 높이는 방법입니다. 분할.
2. 이해를 바탕으로 한 단어 분할 방법
이 단어 분할 방법은 컴퓨터가 인간의 문장 이해를 시뮬레이션할 수 있도록 하여 단어 인식 효과를 얻습니다. 기본 아이디어는 단어를 분할하면서 구문 및 의미 분석을 수행하고, 구문 정보와 의미 정보를 사용하여 모호성을 처리하는 것입니다. 일반적으로 단어 분할 하위 시스템, 구문 및 의미 하위 시스템, 전체 제어 부분의 세 부분으로 구성됩니다. 전체 제어 부분의 조정 하에 단어 분할 하위 시스템은 단어, 문장 등에 대한 구문 및 의미 정보를 획득하여 단어 분할의 모호성을 판단할 수 있습니다. 즉, 인간이 문장을 이해하는 과정을 시뮬레이션합니다. 이러한 단어 분할 방법에는 많은 양의 언어 지식과 정보가 필요합니다. 중국어 지식의 일반성과 복잡성으로 인해 다양한 언어 정보를 기계가 직접 읽을 수 있는 형태로 정리하는 것은 어렵습니다. 따라서 이해를 기반으로 한 단어 분할 시스템은 아직 실험 단계에 있습니다.
3. 통계 기반 단어 분할 방법
형식적인 관점에서 볼 때 단어는 안정적인 단어의 조합이므로 문맥상 인접한 단어가 동시에 나타나는 횟수가 많을수록 단어를 형성할 확률이 높아집니다. 따라서 단어 사이에 인접한 단어가 동시 발생하는 빈도나 확률이 단어의 신뢰성을 더 잘 반영할 수 있습니다. 코퍼스 내에서 동시 발생하는 인접 단어의 조합 빈도를 계산하고 상호 발생 정보를 계산할 수 있습니다. 두 문자의 상호 발생 정보를 정의하고 두 한자 X, Y의 인접 동시 발생 확률을 계산합니다. 상호출현 정보는 한자 간 결합관계의 친밀도를 반영한다. 친밀도가 일정 임계값보다 높을 경우, 이 단어군이 하나의 단어를 형성할 수 있다고 볼 수 있다. 이 방법은 말뭉치에 있는 단어군의 빈도수만 세기만 하면 되고 사전을 분할할 필요가 없기 때문에 사전 없는 단어 분할 방법 또는 통계적 단어 추출 방법이라고도 합니다. 그러나 이 방법에는 "this", "one", "some", "my", "Many"와 같이 자주 함께 발생하지만 단어가 아닌 일반적으로 사용되는 일부 단어 그룹을 추출하는 경우가 많습니다. 등이 있으며, 일반적인 단어의 인식 정확도가 낮고 시간과 공간의 오버헤드가 크다. 실용적인 통계 단어 분할 시스템은 문자열 일치 및 단어 분할을 위해 기본 단어 분할 사전(공통 단어 사전)을 사용해야 하며 동시에 일부 새로운 단어를 식별하기 위해 통계 방법을 사용해야 합니다. 즉 문자열 빈도 통계를 문자열 일치와 결합해야 합니다. 단어 분할 일치 역할을 할 뿐만 아니라 통계적 방법을 사용하여 일부 새로운 단어를 식별하며, 사전이 없는 단어 분할 및 문맥 인식을 활용하여 새로운 단어를 식별합니다. 자동으로 모호성을 제거합니다.
분사에 관해 참고할 몇 가지 사항은 다음과 같습니다.
1. 단어 분할 알고리즘의 시간 성능은 상대적으로 높습니다. 특히 오늘날의 웹 검색은 실시간 요구 사항이 높습니다. 그러므로 중국어 정보처리의 기본이 되는 단어분할은 우선 최소한의 시간을 들여야 한다.
2. 단어 분할 정확도가 향상된다고 해서 반드시 검색 성능이 향상되는 것은 아닙니다. 단어 분할이 특정 정확도에 도달한 후에는 중국어 정보 검색에 대한 영향이 더 이상 명확하지 않습니다. 비록 여전히 약간의 영향이 있지만 이는 더 이상 CIR의 성능 병목 현상이 아닙니다. 따라서 맹목적으로 높은 정확성을 추구하는 일방적인 단어 분할 알고리즘은 대규모 중국어 정보 검색에는 그다지 적합하지 않습니다. 시간과 정확성 사이에 충돌이 있는 경우 둘 사이의 적절한 균형을 찾아야 합니다.
3. 분할 세분성은 여전히 긴 단어 우선순위 원칙을 따를 수 있지만 관련 후속 처리는 쿼리 확장 수준에서 수행되어야 합니다. 정보 검색에서 단어 분할 알고리즘은 교차 모호성을 제거하는 방법에만 집중하면 됩니다. 적용 범위 모호함의 경우 사전의 보조 인덱싱 및 쿼리 확장을 사용하여 이를 해결할 수 있습니다.
4. 기억률보다는 미등록어 인식의 정확성이 더 중요합니다. 잘못된 미등록어를 분할하는 일이 없도록 미등록어 식별 시에는 잘못된 조합이 이루어지지 않도록 노력할 필요가 있다. 단일 단어가 등록되지 않은 단어로 잘못 결합된 경우 해당 문서가 올바르게 검색되지 않을 수 있습니다.
바이두 분사
먼저 구분 기호를 기준으로 쿼리를 구분합니다. <정보 검색, 이론, 도구> 분사 뒤에 "정보 검색 이론적 도구".
그런 다음 중복된 문자열이 있는지 확인하십시오. 그렇다면 여분의 문자열을 버리고 하나만 유지하십시오. "이론적 도구 이론"이라는 단어를 <도구 이론>으로 나눈 후 GOOGLE에서는 이러한 병합 계산을 고려하지 않습니다.
그런 다음 영어 단어나 숫자가 있는지 확인합니다. 그렇다면 영어 단어나 숫자를 전체적으로 유지하고 앞뒤의 한자를 잘라냅니다. 단어 분할 <영화, BT, 다운로드> 다음에 "영화 BT 다운로드"를 쿼리합니다.
문자열에 한자 3자 이하만 포함되어 있으면 변경하지 않고 유지하세요. 문자열 길이가 한자 4자보다 크면 Baidu의 단어 분할 프로그램이 작동하여 문자열을 분리합니다.
단어 분할 알고리즘 유형: 순방향 최대 일치, 역방향 최대 일치, 언어 모델 방법, 최단 경로 알고리즘 단어 분할 시스템이 좋은지 여부를 판단하는 데는 두 가지 핵심 사항이 있습니다. 모호함을 제거하고, 다른 하나는 사전에 등록되지 않은 단어, 예를 들어 사람 이름, 장소 이름, 조직 이름 등을 식별하는 것입니다.
Baidu 단어 분할은 최소 두 개의 사전을 사용합니다. 하나는 일반 사전이고 다른 하나는 특수 사전(인명, 지명, 새로운 단어 등)입니다. 게다가 특수사전이 먼저 잘라낸 뒤 나머지 조각을 일반사전으로 나누어준다.
Baidu의 단어 분할 알고리즘 유형은 양방향 최대 일치 알고리즘을 사용합니다.
예: "Mao Zedong Beijing Hua Yanyun" 쿼리, Baidu의 단어 분할 결과: "Mao Zedong/Beijing/Beijing Hua Yanyun"
바이두 단어 분할은 사람의 이름을 식별할 수 있을 뿐만 아니라 'Beijing Yanyun'도 식별할 수 있어 사전에 등록되지 않은 단어를 식별하는 기능이 있음을 보여줍니다.
먼저 특수 사전(인명, 일부 지명 등)을 쿼리하고 고유명사를 잘라내고 나머지 부분에 대해 양방향 단어 분할 전략을 채택합니다(순방향 최대 일치, 역방향 최대 일치). ) 분할 결과가 동일하다는 것은 모호성이 없음을 의미하며 단어 분할 결과를 직접 출력합니다.
불일치하는 경우에는 최단 경로의 결과가 출력됩니다. 즉, 조각이 적을수록 좋습니다. 예를 들어 <Cuba, Bi, Ethics> 및 <Old Babylon, Li>와 비교하여 후자인 <Beijing을 선택합니다. , Hua, Yanyun> <Beijing Yanyun>과 비교하면 후자를 선택하세요.
길이가 동일한 경우 단일 단어가 더 적은 분할 결과 그룹을 선택합니다. "먼 고대 바빌론", 이 쿼리는 바이두에서 "먼/고대/고대 바빌론"으로 분할하는 대신 <먼, 고대, 바빌론>으로 분할했습니다.
단어도 동일한 경우 정방향 단어 분할 결과를 선택합니다. "Wang Qiang Xiao:"를 쿼리하면 Baidu는 이를 "Wang/Qiang/Small"로 역으로 분할하는 대신 "Wang/Qiang/Small"로 분할합니다.
Baidu는 위의 관점에서 볼 때 단어 분할 알고리즘에는 특별한 것이 없으며 Baidu가 위의 단어 분할보다 더 복잡한 알고리즘을 채택하더라도 명확성 효과는 이상적이지 않습니다. 알고리즘이 장점이라고 하기는 어렵습니다. 바이두의 유일한 장점은 대용량 특수 사전입니다. 이 특수 사전에는 대장금 등의 이름이 포함됩니다. 노부인), 일부 지명(아랍에미리트 등)은 학계에서 발표한 정보를 채택한 것으로 추정된다. 말뭉치에서 추출하여 이 전문 사전을 점차 확장합니다. ——이 기사는 중국 SEO 포럼의 원래 주소에서 가져온 것입니다: http://www.web520.com/bbs/thread-2742-1-1.html
저자 정보: 중국 SEO 포럼(www.web520.com/bbs) 창립자 중 한 명인 Lao Chen