전각 및 반각 구두점이 혼합된 중국어 및 영어 문장에 대해 단어 분할을 수행할 수 있습니다. 구문의 최대 단어 길이, 구두점 문장의 최소 단어 길이, 단어 분할 결과에서 단일 단어 유지 여부, 문장 부호 유지 여부 및 기타 기능을 선택할 수 있습니다. 자세한 지침은 다운로드 패키지에 있는 Readme.txt를 참조하세요.
기본적으로 sqlite 사전 파일이 제공됩니다. 가상 호스트가 sqlite를 지원하지 않는 경우 이를 mysql로 가져오거나 다른 사전을 직접 만들 수 있습니다.
제 능력의 한계로 인해 효율성 측면에서 모두를 만족시킬 수는 없으므로, 더 많은 정보를 제공해 주시기 바랍니다.
사전의 마운트, 언로드, 쿼리는 기능이 분리되어 있어 수정이 쉬워야 합니다. 핵심 단어 분할 알고리즘은 해당 단어가 사전에 있는지 여부를 알려주기 위해 true 또는 false를 반환하는 findinDict만 필요합니다.
주목해야 할 또 다른 사항은 mbstring의 확장이 필요하다는 것입니다. 중국어, 영어, 전각, 반각을 섞어서 단어를 분할하는 방법은 없습니다. mbstring을 사용하지 않고서는 문장 길이를 계산하기가 매우 어렵습니다.
프로그램은 기본적으로 ThinkPHP의 확장으로 제공되지만, 확장 Base를 제거하고 단어 분할을 직접 사용할 수도 있습니다. Apache2 오픈소스 계약이므로, 제 프로그램이 마음에 들지 않으시면 상용 클로즈소스로 사용해도 상관없습니다.
확장하다