Qu'est-ce que la segmentation des mots chinois
Qu'est-ce que la segmentation de mots ? Quelle est la différence entre la segmentation de mots chinois et les autres segmentations de mots ? La segmentation de mots est le processus de recombinaison de séquences de mots continues en séquences de mots selon certaines spécifications. À partir de l'exemple ci-dessus, nous pouvons voir que dans l'écriture anglaise, les espaces sont utilisés comme délimiteurs naturels entre les mots, tandis qu'en chinois, seuls les mots, les phrases et les paragraphes peuvent être simplement délimités par des délimiteurs évidents. Seuls les mots n'ont pas de délimiteur formel. L'anglais a également le problème de diviser les phrases, au niveau des mots, comme le montre l'exemple ci-dessus, le chinois est beaucoup plus compliqué et difficile que l'anglais.
Il existe actuellement trois algorithmes traditionnels de segmentation de mots chinois :
1. Méthode de segmentation de mots basée sur la correspondance de chaînes
Cette méthode est également appelée méthode de segmentation mécanique des mots. Elle fait correspondre la chaîne de caractères chinois à analyser avec les entrées d'un dictionnaire automatique « suffisamment grand » selon une certaine stratégie. Si une certaine chaîne est trouvée dans le dictionnaire, la correspondance est établie. réussi. (Reconnaître un mot). Selon différentes directions de balayage, la méthode de segmentation des mots de correspondance de chaîne peut être divisée en correspondance directe et correspondance inverse en fonction de la correspondance prioritaire de différentes longueurs, elle peut être divisée en correspondance maximale (la plus longue) et en correspondance minimale (la plus courte) ; qu'il soit lié au processus de marquage d'une partie du discours. Combiné, il peut être divisé en une méthode simple de segmentation de mots et une méthode intégrée qui combine la segmentation de mots et l'annotation. Plusieurs méthodes de segmentation mécanique des mots couramment utilisées sont les suivantes :
1) Méthode de correspondance maximale avant (direction de gauche à droite) ;
2) Méthode de correspondance maximale inverse (direction de droite à gauche) ;
3) Segmentation minimale (minimiser le nombre de mots dans chaque phrase).
Les différentes méthodes mentionnées ci-dessus peuvent également être combinées les unes avec les autres. Par exemple, la méthode de correspondance maximale directe et la méthode de correspondance maximale inverse peuvent être combinées pour former une méthode de correspondance bidirectionnelle. En raison des caractéristiques de la formation des mots chinois à un seul caractère, la correspondance minimale directe et la correspondance minimale inverse sont généralement rarement utilisées. D'une manière générale, la précision de segmentation de la correspondance inverse est légèrement supérieure à celle de la correspondance directe, et moins d'ambiguïtés sont rencontrées. Les résultats statistiques montrent que le taux d'erreur lié à la simple utilisation de la correspondance maximale directe est de 1/169 et que le taux d'erreur lié à la simple utilisation de la correspondance maximale inverse est de 1/245. Cependant, cette précision est loin de répondre aux besoins réels. Les systèmes de segmentation de mots actuellement utilisés utilisent tous la segmentation mécanique des mots comme méthode de segmentation préliminaire, et il est nécessaire d'améliorer encore la précision de la segmentation en utilisant diverses autres informations linguistiques.
Une méthode consiste à améliorer la méthode d'analyse, appelée analyse de caractéristiques ou segmentation de marques. Elle donne la priorité à l'identification et à la segmentation de certains mots présentant des caractéristiques évidentes dans la chaîne à analyser. En utilisant ces mots comme points d'arrêt, la chaîne d'origine peut être divisée en mots mécaniques. la segmentation est effectuée pour les chaînes plus petites afin de réduire le taux d'erreur de correspondance. Une autre méthode consiste à combiner la segmentation des mots et le marquage des parties du discours, à utiliser des informations riches sur les parties du discours pour faciliter les décisions de segmentation des mots, puis à vérifier et à ajuster les résultats de la segmentation des mots pendant le processus de marquage, améliorant ainsi considérablement la précision de segmentation.
2. Méthode de segmentation des mots basée sur la compréhension
Cette méthode de segmentation de mots obtient l'effet de reconnaissance de mots en permettant à l'ordinateur de simuler la compréhension humaine des phrases. L'idée de base est d'effectuer une analyse syntaxique et sémantique tout en segmentant les mots, et d'utiliser des informations syntaxiques et sémantiques pour traiter l'ambiguïté. Il se compose généralement de trois parties : le sous-système de segmentation des mots, le sous-système de syntaxe et de sémantique et la partie de contrôle global. Sous la coordination de la partie de contrôle globale, le sous-système de segmentation des mots peut obtenir des informations syntaxiques et sémantiques sur les mots, les phrases, etc. pour juger de l'ambiguïté de la segmentation des mots, c'est-à-dire qu'il simule le processus de compréhension humaine des phrases. Cette méthode de segmentation de mots nécessite l’utilisation d’une grande quantité de connaissances et d’informations linguistiques. En raison de la généralité et de la complexité de la connaissance de la langue chinoise, il est difficile d'organiser diverses informations linguistiques sous une forme pouvant être directement lue par les machines. Par conséquent, le système de segmentation des mots basé sur la compréhension en est encore au stade expérimental.
3. Méthode de segmentation de mots basée sur des statistiques
D'un point de vue formel, les mots sont des combinaisons stables de mots, donc dans le contexte, plus les mots adjacents apparaissent en même temps, plus ils ont de chances de former un mot. Par conséquent, la fréquence ou la probabilité de cooccurrence de mots adjacents entre des mots peut mieux refléter la crédibilité du mot. La fréquence des combinaisons de mots adjacents qui coapparaissent dans le corpus peut être comptée et leurs informations d'occurrence mutuelle peuvent être calculées. Définissez les informations d'occurrence mutuelle de deux caractères et calculez la probabilité de cooccurrence adjacente de deux caractères chinois X et Y. Les informations d'occurrence mutuelle reflètent l'étroitesse de la relation de combinaison entre les caractères chinois. Lorsque la proximité est supérieure à un certain seuil, on peut considérer que ce groupe de mots peut former un mot. Cette méthode n'a besoin que de compter la fréquence des groupes de mots dans le corpus et n'a pas besoin de segmenter le dictionnaire. Elle est donc également appelée méthode de segmentation de mots sans dictionnaire ou méthode d'extraction statistique de mots. Cependant, cette méthode présente également certaines limites. Elle extrait souvent certains groupes de mots couramment utilisés qui coapparaissent fréquemment mais ne sont pas des mots, tels que « ceci », « un », « certains », « mon », « plusieurs », etc., et la précision de la reconnaissance des mots courants est médiocre et la surcharge de temps et d'espace est importante. Les systèmes pratiques de segmentation statistique de mots doivent utiliser un dictionnaire de segmentation de mots de base (dictionnaire de mots commun) pour la correspondance de chaînes et la segmentation de mots, et en même temps utiliser des méthodes statistiques pour identifier de nouveaux mots, c'est-à-dire combiner les statistiques de fréquence de chaînes avec la correspondance de chaînes, ce qui joue non seulement le rôle de segmentation de mots correspondants, mais utilise également des méthodes statistiques pour identifier de nouveaux mots. Il présente les caractéristiques d'une segmentation rapide et d'une grande efficacité. Il profite également de la segmentation des mots sans dictionnaire et de la reconnaissance du contexte pour identifier de nouveaux mots et. éliminer automatiquement les ambiguïtés.
Quelques points à noter sur les participes :
1. Les performances temporelles de l'algorithme de segmentation de mots sont relativement élevées. La recherche sur le Web d'aujourd'hui, en particulier, présente des exigences élevées en matière de temps réel. Par conséquent, la segmentation des mots, qui est à la base du traitement de l’information chinoise, doit d’abord prendre le moins de temps possible.
2. L’amélioration de la précision de la segmentation des mots n’entraîne pas nécessairement une amélioration des performances de récupération. Une fois que la segmentation des mots a atteint une certaine précision, l'impact sur la recherche d'informations en chinois ne sera plus évident. Bien qu'il y ait encore un certain impact, ce n'est plus le goulot d'étranglement des performances du CIR. Par conséquent, l’algorithme de segmentation unilatérale des mots qui recherche aveuglément une grande précision n’est pas très adapté à la recherche d’informations chinoises à grande échelle. Lorsqu’il y a un conflit entre le temps et la précision, nous devons trouver un équilibre approprié entre les deux.
3. La granularité de la segmentation peut toujours suivre le principe de priorité des mots longs, mais le traitement ultérieur pertinent doit être effectué au niveau de l'expansion de la requête. Dans la recherche d'informations, les algorithmes de segmentation de mots doivent uniquement se concentrer sur la manière d'éliminer les ambiguïtés croisées. En cas d'ambiguïté de couverture, nous pouvons utiliser l'indexation secondaire du dictionnaire et l'expansion des requêtes pour la résoudre.
4. La précision de la reconnaissance des mots non enregistrés est plus importante que le taux de rappel. Il est nécessaire d'essayer de s'assurer qu'aucune mauvaise combinaison n'est effectuée lors de l'identification de mots non enregistrés, afin d'éviter de segmenter de mauvais mots non enregistrés. Si des mots uniques sont incorrectement combinés en mots non enregistrés, le document correspondant risque de ne pas être correctement récupéré.
Participe Baidu
Séparez d’abord la requête en fonction du délimiteur. "Outils théoriques de recherche d'informations" après le participe <récupération d'informations, théorie, outils>.
Vérifiez ensuite s'il y a des chaînes en double. Si tel est le cas, supprimez celles en trop et n'en conservez qu'une. Une fois le mot « théorie théorique des outils » divisé en <théorie des outils>, GOOGLE ne prend pas en compte ce calcul de fusion.
Déterminez ensuite s'il y a des mots ou des chiffres anglais. Si c'est le cas, conservez les mots ou les chiffres anglais dans leur ensemble et coupez les caractères chinois avant et après. Recherchez « film BT téléchargement » après la segmentation du mot <film, BT, téléchargement>.
Si la chaîne ne contient que moins ou égal à 3 caractères chinois, conservez-la inchangée. Lorsque la longueur de la chaîne est supérieure à 4 caractères chinois, le programme de segmentation de mots de Baidu se mettra au travail et divisera la chaîne.
Types d'algorithmes de segmentation de mots : correspondance maximale avant, correspondance maximale inverse, correspondance maximale bidirectionnelle, méthode de modèle de langage, algorithme du chemin le plus court. Pour juger si un système de segmentation de mots est bon ou non, il y a deux points clés. L'un est la capacité de. éliminer l'ambiguïté ; l'autre est l'identification de mots qui ne sont pas enregistrés dans le dictionnaire, par exemple des noms de personnes, de lieux, d'organisations, etc.
La segmentation des mots Baidu utilise au moins deux dictionnaires, l'un est un dictionnaire général et l'autre est un dictionnaire spécial (noms de personnes, noms de lieux, mots nouveaux, etc.). De plus, le dictionnaire spécial le coupe d'abord, puis les fragments restants sont divisés par le dictionnaire ordinaire.
Le type d'algorithme de segmentation de mots de Baidu utilise un algorithme de correspondance maximale bidirectionnelle.
Exemple : requête "Mao Zedong Beijing Hua Yanyun", résultats de la segmentation des mots de Baidu : "Mao Zedong/Beijing/Beijing Hua Yanyun"
La segmentation des mots Baidu peut identifier les noms des personnes, ainsi que « Pékin Yanyun », ce qui montre qu'elle a pour fonction d'identifier les mots qui ne sont pas enregistrés dans le dictionnaire.
Tout d'abord, interrogez le dictionnaire spécial (noms de personnes, certains noms de lieux, etc.), découpez les noms propres et adoptez une stratégie de segmentation de mots bidirectionnelle pour les parties restantes si les deux (correspondance maximale avant, correspondance maximale inverse). ) les résultats de segmentation sont les mêmes, cela signifie qu'il n'y a pas d'ambiguïté, affichez directement les résultats de segmentation de mots.
S'ils sont incohérents, le résultat du chemin le plus court est généré, c'est-à-dire que moins il y a de fragments, mieux c'est. Par exemple, par rapport à <Cuba, Bi, Ethics> et <Old Babylon, Li>, choisissez ce dernier, <Beijing. , Hua, Yanyun> Par rapport à <Beijing Yanyun>, choisissez ce dernier.
Si les longueurs sont identiques, sélectionnez le groupe de résultats de segmentation contenant moins de mots simples. « Babylone ancienne lointaine », cette requête a été segmentée par Baidu en < Babylone ancienne et lointaine >, au lieu d'être segmentée en « Babylone lointaine/ancienne/ancienne »
Si les mots sont également identiques, sélectionnez le résultat de la segmentation des mots avant. Recherchez « Wang Qiang Xiao : », Baidu le segmentera en « Wang/Qiang/Small » au lieu de le segmenter à l'envers en « Wang/Qiang/Small ».
Baidu a toujours vanté ses avantages dans le traitement du chinois. Du point de vue ci-dessus, l'algorithme de segmentation de mots n'a rien de spécial et l'effet de désambiguïsation n'est pas idéal, même si Baidu adopte un algorithme plus complexe que la segmentation de mots ci-dessus. algorithme, il est difficile de dire que c'est un avantage. Si l'on dit Si Baidu a un avantage, son seul avantage est son grand dictionnaire spécial. Ce dictionnaire spécial contient des noms de personnes (comme Dae Jang Geum), des titres (comme Dae Jang Geum). la vieille dame), et certains noms de lieux (comme les Émirats arabes unis, etc.). On estime que Baidu adopte les informations publiées par le monde universitaire. L'algorithme de reconnaissance d'entités nommées relativement nouveau identifie en permanence les mots qui ne sont pas enregistrés dans le dictionnaire. du corpus, et enrichit progressivement ce dictionnaire spécialisé. ——Cet article provient de l'adresse originale du China SEO Forum : http://www.web520.com/bbs/thread-2742-1-1.html
Informations sur l'auteur : Lao Chen, l'un des fondateurs du China SEO Forum (www.web520.com/bbs)