Puede realizar segmentación de palabras en oraciones en chino e inglés con puntuación mixta de ancho completo y medio ancho. Puede elegir la longitud máxima de palabra de una frase, la longitud mínima de palabra de una oración de puntuación, si desea conservar una sola palabra en el resultado de la segmentación de palabras, si desea conservar los signos de puntuación y otras funciones. Para obtener instrucciones más detalladas, consulte el archivo Readme.txt en el paquete de descarga.
De forma predeterminada se proporciona un archivo de diccionario sqlite. Si su servidor virtual no es compatible con sqlite, puede importarlo a mysql o crear otros diccionarios usted mismo.
Debido a mis capacidades limitadas, es posible que no pueda satisfacer a todos en términos de eficiencia, así que incluya más información.
El montaje, descarga y consulta del diccionario tienen funciones separadas, por lo que debería ser fácil de modificar. El algoritmo central de segmentación de palabras solo necesita que findinDict devuelva verdadero o falso para decirme si la palabra está en el diccionario.
Otra cosa a tener en cuenta es que se requiere la extensión de mbstring. No hay forma de mezclar chino, inglés, ancho completo y medio ancho para segmentar palabras. Es muy difícil calcular la longitud de la oración sin usar mbstring.
El programa se proporciona como una extensión de ThinkPHP de forma predeterminada, pero puede eliminar la Base extendida y usar la segmentación de palabras directamente. Acuerdo de código abierto de Apache2, por lo tanto, no importa si se usa para código cerrado comercial, siempre y cuando no le desagrade mi programa.
Expandir