El código PHP de segmentación de palabras chinas utiliza un léxico basado en Unicode y utiliza la segmentación de palabras en modo de coincidencia inversa. En teoría, es compatible con una gama más amplia de codificaciones y es particularmente conveniente para la codificación UTF-8. Dado que PhpanAlysis es un sistema sin componentes, la velocidad será ligeramente más lenta que con componentes. Sin embargo, en una gran cantidad de segmentaciones de palabras, dado que la carga de la base de datos de palabras se completa durante la segmentación de palabras, cuanto más contenido, más rápida será la velocidad. Este es un fenómeno normal. Para los servidores que admiten PHP-APC, este programa admite el almacenamiento en caché de diccionarios. Después de hacerlo, la velocidad teórica no será más lenta que la de los programas de segmentación de palabras con componentes.
El sistema de segmentación de palabras es un método de segmentación de palabras basado en la coincidencia de cadenas . Este método también se denomina método de segmentación mecánica de palabras. Combina la cadena de caracteres chinos que se analizará con las entradas en un diccionario de máquina "suficientemente grande" de acuerdo con una determinada estrategia. Si se encuentra una cadena en el diccionario, la coincidencia es exitosa (se reconoce una palabra). Según las diferentes direcciones de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); ya sea que esté relacionado con el proceso de etiquetado de parte del discurso combinado, se puede dividir en un método simple de segmentación de palabras y un método integrado que combina segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:
1) Método de coincidencia máxima hacia adelante (dirección de izquierda a derecha);
2) Método de coincidencia máxima inversa (dirección de derecha a izquierda);
3) Segmentación mínima (minimizar el número de palabras en cada frase).
Los diversos métodos mencionados anteriormente también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características de la formación de palabras chinas de un solo carácter, la coincidencia mínima directa y la coincidencia mínima inversa generalmente rara vez se utilizan. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de simplemente usar la coincidencia máxima directa es 1/169, y la tasa de error de simplemente usar la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. Todos los sistemas de segmentación de palabras realmente utilizados utilizan la segmentación mecánica de palabras como método de segmentación preliminar, y es necesario mejorar aún más la precisión de la segmentación mediante el uso de otra información lingüística.
Un método consiste en mejorar el método de escaneo, que se denomina escaneo de características o segmentación de marcas. Prioriza la identificación y segmentación de algunas palabras con características obvias en la cadena que se va a analizar. Utilizando estas palabras como puntos de interrupción, la cadena original se puede dividir en palabras mecánicas. La segmentación se realiza para cadenas más pequeñas para reducir la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación.
Expandir