¿Qué es la segmentación de palabras chinas?
¿Qué es la segmentación de palabras? ¿Cuál es la diferencia entre la segmentación de palabras chinas y otras segmentaciones de palabras? La segmentación de palabras es el proceso de recombinar secuencias continuas de palabras en secuencias de palabras de acuerdo con ciertas especificaciones. Del ejemplo anterior, podemos ver que en la escritura en inglés, los espacios se utilizan como delimitadores naturales entre palabras, mientras que en chino, solo las palabras, oraciones y párrafos pueden delimitarse simplemente mediante delimitadores obvios. Aunque las palabras no tienen un delimitador formal. El inglés también tiene el problema de dividir frases, a nivel de palabras, como podemos ver en el ejemplo anterior, el chino es mucho más complicado y difícil que el inglés.
Actualmente existen tres algoritmos de segmentación de palabras chinas convencionales:
1. Método de segmentación de palabras basado en la coincidencia de cadenas.
Este método también se denomina método de segmentación mecánica de palabras. Combina la cadena de caracteres chinos que se analizará con las entradas en un diccionario de máquina "suficientemente grande" de acuerdo con una determinada estrategia. Si se encuentra una determinada cadena en el diccionario, se realiza la coincidencia. exitoso. (Reconocer una palabra). Según las diferentes direcciones de escaneo, el método de segmentación de palabras de coincidencia de cadenas se puede dividir en coincidencia directa y coincidencia inversa de acuerdo con la coincidencia de prioridad de diferentes longitudes, y se puede dividir en coincidencia máxima (más larga) y coincidencia mínima (más corta); ya sea que esté relacionado con el proceso de etiquetado de parte del discurso combinado, se puede dividir en un método simple de segmentación de palabras y un método integrado que combina segmentación y anotación de palabras. Varios métodos de segmentación mecánica de palabras comúnmente utilizados son los siguientes:
1) Método de coincidencia máxima hacia adelante (dirección de izquierda a derecha);
2) Método de coincidencia máxima inversa (dirección de derecha a izquierda);
3) Segmentación mínima (minimizar el número de palabras en cada frase).
Los diversos métodos mencionados anteriormente también se pueden combinar entre sí, por ejemplo, el método de coincidencia máxima directa y el método de coincidencia máxima inversa se pueden combinar para formar un método de coincidencia bidireccional. Debido a las características de la formación de palabras chinas de un solo carácter, la coincidencia mínima directa y la coincidencia mínima inversa generalmente rara vez se utilizan. En términos generales, la precisión de la segmentación de la concordancia inversa es ligeramente mayor que la de la concordancia directa y se encuentran menos ambigüedades. Los resultados estadísticos muestran que la tasa de error de simplemente usar la coincidencia máxima directa es 1/169, y la tasa de error de simplemente usar la coincidencia máxima inversa es 1/245. Sin embargo, esta precisión está lejos de satisfacer las necesidades reales. Todos los sistemas de segmentación de palabras realmente utilizados utilizan la segmentación mecánica de palabras como método de segmentación preliminar, y es necesario mejorar aún más la precisión de la segmentación mediante el uso de otra información lingüística.
Un método consiste en mejorar el método de escaneo, que se denomina escaneo de características o segmentación de marcas. Prioriza la identificación y segmentación de algunas palabras con características obvias en la cadena que se va a analizar. Utilizando estas palabras como puntos de interrupción, la cadena original se puede dividir en palabras mecánicas. La segmentación se realiza para cadenas más pequeñas para reducir la tasa de error de coincidencia. Otro método es combinar la segmentación de palabras y el etiquetado de partes del discurso, utilizar información rica sobre las partes del discurso para ayudar en las decisiones de segmentación de palabras y, a su vez, verificar y ajustar los resultados de la segmentación de palabras durante el proceso de etiquetado, mejorando así en gran medida la precisión de segmentación.
2. Método de segmentación de palabras basado en la comprensión.
Este método de segmentación de palabras logra el efecto de reconocimiento de palabras al permitir que la computadora simule la comprensión humana de las oraciones. La idea básica es realizar un análisis sintáctico y semántico mientras se segmentan palabras y utilizar información sintáctica y semántica para abordar la ambigüedad. Por lo general, consta de tres partes: subsistema de segmentación de palabras, subsistema de sintaxis y semántica y parte de control general. Bajo la coordinación de la parte de control general, el subsistema de segmentación de palabras puede obtener información sintáctica y semántica sobre palabras, oraciones, etc. para juzgar la ambigüedad de la segmentación de palabras, es decir, simula el proceso de comprensión humana de las oraciones. Este método de segmentación de palabras requiere el uso de una gran cantidad de información y conocimiento del idioma. Debido a la generalidad y complejidad del conocimiento del idioma chino, es difícil organizar la información diversa del idioma en una forma que las máquinas puedan leer directamente. Por lo tanto, el sistema de segmentación de palabras basado en la comprensión aún se encuentra en la etapa experimental.
3. Método de segmentación de palabras basado en estadísticas.
Desde un punto de vista formal, las palabras son combinaciones estables de palabras, por lo que en contexto, cuantas más veces aparezcan palabras adyacentes al mismo tiempo, es más probable que formen una palabra. Por lo tanto, la frecuencia o probabilidad de que palabras adyacentes coexistan entre palabras puede reflejar mejor la credibilidad de la palabra. Se puede contar la frecuencia de combinaciones de palabras adyacentes que coexisten en el corpus y se puede calcular la información de su aparición mutua. Defina la información de ocurrencia mutua de dos caracteres y calcule la probabilidad de coexistencia adyacente de dos caracteres chinos X e Y. La información de ocurrencia mutua refleja la cercanía de la relación de combinación entre caracteres chinos. Cuando la cercanía es superior a un cierto umbral, se puede considerar que este grupo de palabras puede formar una palabra. Este método solo necesita contar la frecuencia de los grupos de palabras en el corpus y no necesita segmentar el diccionario, por lo que también se denomina método de segmentación de palabras sin diccionario o método de extracción estadística de palabras. Sin embargo, este método también tiene ciertas limitaciones. A menudo extraerá algunos grupos de palabras de uso común que aparecen con frecuencia pero que no son palabras, como "este", "uno", "algunos", "mi", "muchos". etc., y la precisión del reconocimiento de palabras comunes es pobre y la sobrecarga de tiempo y espacio es grande. Los sistemas prácticos de segmentación de palabras estadísticas deben utilizar un diccionario de segmentación de palabras básico (diccionario de palabras comunes) para la coincidencia de cadenas y la segmentación de palabras, y al mismo tiempo utilizar métodos estadísticos para identificar algunas palabras nuevas, es decir, combinar estadísticas de frecuencia de cadenas con coincidencia de cadenas, que No solo desempeña el papel de segmentación de palabras coincidentes, sino que también utiliza métodos estadísticos para identificar algunas palabras nuevas. Tiene las características de segmentación rápida y alta eficiencia. También aprovecha la segmentación de palabras sin diccionario y el reconocimiento de contexto para identificar palabras nuevas. eliminar automáticamente las ambigüedades.
Algunos puntos a tener en cuenta sobre los participios:
1. El rendimiento temporal del algoritmo de segmentación de palabras es relativamente alto. Especialmente la búsqueda web actual tiene altos requisitos en tiempo real. Por lo tanto, la segmentación de palabras, que es la base del procesamiento de la información china, debe tomar primero el menor tiempo posible.
2. La mejora de la precisión de la segmentación de palabras no conduce necesariamente a una mejora del rendimiento de la recuperación. Una vez que la segmentación de palabras alcance cierta precisión, el impacto en la recuperación de información china ya no será obvio. Aunque todavía hay cierto impacto, este ya no es el cuello de botella en el rendimiento de CIR. Por lo tanto, el algoritmo de segmentación de palabras unilateral que persigue ciegamente una alta precisión no es muy adecuado para la recuperación de información china a gran escala. Cuando hay un conflicto entre tiempo y precisión, debemos encontrar un equilibrio adecuado entre ambos.
3. La granularidad de la segmentación aún puede seguir el principio de prioridad de palabras largas, pero el procesamiento posterior relevante debe realizarse en el nivel de expansión de la consulta. En la recuperación de información, los algoritmos de segmentación de palabras solo necesitan centrarse en cómo eliminar ambigüedades cruzadas. Para la ambigüedad de la cobertura, podemos utilizar la indexación secundaria del diccionario y la expansión de consultas para resolverla.
4. La precisión del reconocimiento de palabras no registradas es más importante que la tasa de recuperación. Es necesario intentar garantizar que no se realicen combinaciones incorrectas al identificar palabras no registradas, para evitar segmentar palabras no registradas incorrectas. Si las palabras individuales se combinan incorrectamente en palabras no registradas, es posible que el documento correspondiente no se recupere correctamente.
participio baidu
Primero separe la consulta según el delimitador. "Herramientas teóricas de recuperación de información" después del participio <recuperación de información, teoría, herramientas>.
Luego vea si hay cadenas duplicadas. Si es así, descarte las adicionales y conserve solo una. Después de dividir la palabra "teoría de herramientas teóricas" en <teoría de herramientas>, GOOGLE no considera este cálculo de fusión.
Luego determine si hay palabras o números en inglés. Si es así, mantenga las palabras o números en inglés como un todo y corte los caracteres chinos antes y después. Consulta "descarga de película BT" después de la palabra segmentación <película, BT, descarga>.
Si la cadena solo contiene menos de 3 caracteres chinos o igual, manténgala sin cambios. Cuando la longitud de la cadena sea mayor que 4 caracteres chinos, el programa de segmentación de palabras de Baidu se pondrá a trabajar y dividirá la cadena.
Tipos de algoritmos de segmentación de palabras: coincidencia máxima directa, coincidencia máxima inversa, coincidencia máxima bidireccional, método de modelo de lenguaje, algoritmo de ruta más corta Para juzgar si un sistema de segmentación de palabras es bueno o no, hay dos puntos clave. eliminar la ambigüedad; la otra es la identificación de palabras que no están registradas en el diccionario. Por ejemplo, nombres de personas, lugares, organizaciones, etc.
La segmentación de palabras de Baidu utiliza al menos dos diccionarios, uno es un diccionario general y el otro es un diccionario especial (nombres de personas, nombres de lugares, palabras nuevas, etc.). Además, el diccionario especial lo corta primero y luego los fragmentos restantes se dividen en el diccionario ordinario.
El tipo de algoritmo de segmentación de palabras de Baidu utiliza un algoritmo de coincidencia máxima bidireccional.
Ejemplo: consulta "Mao Zedong Beijing Hua Yanyun", el resultado de la segmentación de palabras de Baidu es: "Mao Zedong/Beijing/Beijing Hua Yanyun"
La segmentación de palabras de Baidu puede identificar nombres de personas y también puede identificar "Beijing Yanyun", lo que demuestra que tiene la función de identificar palabras que no están registradas en el diccionario.
Primero, consulte el diccionario especial (nombres de personas, algunos nombres de lugares, etc.), recorte los nombres propios y adopte una estrategia de segmentación de palabras bidireccional para las partes restantes (coincidencia máxima directa, coincidencia máxima inversa). ) Los resultados de la segmentación son los mismos, lo que significa que no hay ambigüedad, genera directamente la palabra resultados de la segmentación.
Si son inconsistentes, se genera el resultado del camino más corto, es decir, cuantos menos fragmentos, mejor. Por ejemplo, en comparación con <Cuba, Bi, Ética> y <Old Babylon, Li>, elija este último, <Beijing. , Hua, Yanyun> En comparación con <Beijing Yanyun>, elija este último.
Si las longitudes son iguales, seleccione el grupo de resultados de segmentación con menos palabras individuales. "Babilonia antigua y distante", Baidu segmentó esta consulta en <Babilonia antigua, distante>, en lugar de segmentarla en "Babilonia distante/antigua/antigua"
Si las palabras también son iguales, seleccione el resultado de la segmentación de palabras hacia adelante. Consulta "Wang Qiang Xiao:", Baidu la segmentará en "Wang/Qiang/Small" en lugar de segmentarla a la inversa en "Wang/Qiang/Small".
Baidu siempre ha promovido sus ventajas en el procesamiento chino. Desde el punto de vista anterior, el algoritmo de segmentación de palabras no tiene nada de especial, e incluso si Baidu adopta un algoritmo que es más complejo que la segmentación de palabras anterior, el efecto de desambiguación no es ideal. algoritmo, es difícil decir que es una ventaja. Si decimos Si Baidu tiene una ventaja, su única ventaja es su gran diccionario especial. Este diccionario especial contiene nombres de personas (como Dae Jang Geum), títulos (como. la anciana) y algunos nombres de lugares (como los Emiratos Árabes Unidos, etc.) Se estima que Baidu adopta la información publicada por el mundo académico. El algoritmo de reconocimiento de entidades nombradas relativamente nuevo identifica continuamente palabras que no están registradas en el diccionario. del corpus, y poco a poco va ampliando este diccionario especializado. ——Este artículo proviene de la dirección de publicación original del Foro SEO de China: http://www.web520.com/bbs/thread-2742-1-1.html
Información del autor: Lao Chen, uno de los fundadores del Foro SEO de China (www.web520.com/bbs)