PHP 중국어 단어 분할 코드는 유니코드 기반 어휘집을 사용하고 역방향 일치 모드 단어 분할을 사용합니다. 이론적으로 더 넓은 범위의 인코딩과 호환되며 특히 UTF-8 인코딩에 편리합니다. PhpanAlytic은 구성 요소가 없는 시스템이므로 구성 요소를 사용할 때보다 속도가 약간 느려집니다. 그러나 단어 분할이 많은 경우 단어 분할 중에 단어 데이터베이스 로딩이 완료되므로 콘텐츠가 많을수록 속도가 빨라집니다. 이는 정상적인 현상입니다. PHP-APC를 지원하는 서버의 경우 이 프로그램은 사전 캐싱을 지원하므로 이론적인 속도는 구성 요소가 있는 단어 분할 프로그램보다 느리지 않습니다.
단어 분할 시스템은 문자열 일치를 기반으로 하는 단어 분할 방법 입니다. 이 방법은 분석할 한자 문자열을 특정 전략에 따라 "충분히 큰" 기계 사전의 항목과 일치시킵니다. 사전에서 문자열이 발견되면 일치에 성공한 것입니다(단어가 인식됨). 서로 다른 검색 방향에 따라 문자열 일치 단어 분할 방법은 서로 다른 길이의 우선순위 일치에 따라 순방향 일치와 역방향 일치로 나눌 수 있으며 최대(최장) 일치와 최소(최단) 일치로 나눌 수 있습니다. 품사 태깅 과정과 관련된 것인지 결합하여 단순 단어 분할 방법과 단어 분할과 주석을 결합한 통합 방법으로 나눌 수 있습니다. 일반적으로 사용되는 몇 가지 기계적 단어 분할 방법은 다음과 같습니다.
1) 순방향 최대 매칭 방법(왼쪽에서 오른쪽 방향); 2) 역최대 매칭 방식(오른쪽에서 왼쪽 방향); 3) 최소 분할(각 문장의 단어 수를 최소화).
위에서 언급한 다양한 방법들은 서로 결합될 수도 있으며, 예를 들어 순방향 최대 매칭 방법과 역방향 최대 매칭 방법을 결합하여 양방향 매칭 방법을 형성할 수도 있다. 중국어 단일 문자 단어 형성의 특성으로 인해 정방향 최소 일치와 역방향 최소 일치는 일반적으로 거의 사용되지 않습니다. 일반적으로 역방향 매칭의 분할 정확도는 순방향 매칭의 정확도보다 약간 높으며 모호성이 더 적습니다. 통계 결과를 보면 단순히 순방향 최대 매칭을 사용한 경우의 오류율은 1/169이고, 단순히 역방향 최대 매칭을 사용한 경우의 오류율은 1/245인 것으로 나타났습니다. 그러나 이 정확도는 실제 요구 사항을 충족하는 것과는 거리가 멀습니다. 실제 사용되는 단어분할 시스템은 모두 예비적 분할 방법으로 기계적 단어분할을 사용하고 있으며, 그 외 다양한 언어정보를 활용하여 분할의 정확도를 더욱 높일 필요가 있다.
한 가지 방법은 특징 스캐닝 또는 마크 분할이라고 하는 스캐닝 방법을 개선하는 것입니다. 이는 분석할 문자열에서 명백한 특성을 가진 일부 단어를 식별하고 분할하는 데 우선순위를 두고 이러한 단어를 중단점으로 사용하여 원래 문자열을 기계어 단어로 나눌 수 있습니다. 일치 오류율을 줄이기 위해 더 작은 문자열에 대해 분할이 수행됩니다. 또 다른 방법은 단어 분할과 품사 태깅을 결합하고, 풍부한 품사 정보를 활용하여 단어 분할 결정에 도움을 주고, 태깅 과정에서 단어 분할 결과를 확인하고 조정하여 정확도를 크게 높이는 방법입니다. 분할.