Le code de segmentation de mots chinois PHP utilise un lexique basé sur Unicode et utilise la segmentation de mots en mode de correspondance inverse. Il est théoriquement compatible avec une gamme plus large d'encodages et est particulièrement pratique pour l'encodage UTF-8. Étant donné que PhpanAlysis est un système sans composants, la vitesse sera légèrement plus lente que celle des composants. Cependant, dans un grand nombre de segmentations de mots, puisque le chargement de la base de données de mots est terminé pendant la segmentation des mots, plus il y a de contenu, plus la vitesse sera rapide. .C'est un phénomène normal., Pour les serveurs prenant en charge PHP-APC, ce programme prend en charge la mise en cache des dictionnaires. Après cela, la vitesse théorique ne sera pas plus lente que celle des programmes de segmentation de mots avec des composants.
Le système de segmentation de mots est une méthode de segmentation de mots basée sur la correspondance de chaînes . Cette méthode est également appelée méthode de segmentation mécanique des mots. Elle fait correspondre la chaîne de caractères chinois à analyser avec les entrées d'un dictionnaire automatique « suffisamment grand ». Si Si une chaîne est trouvée dans le dictionnaire, la correspondance est réussie (un mot est reconnu). Selon différentes directions de balayage, la méthode de segmentation des mots de correspondance de chaîne peut être divisée en correspondance directe et correspondance inverse en fonction de la correspondance prioritaire de différentes longueurs, elle peut être divisée en correspondance maximale (la plus longue) et en correspondance minimale (la plus courte) ; qu'il soit lié au processus de marquage d'une partie du discours. Combiné, il peut être divisé en une méthode simple de segmentation de mots et une méthode intégrée qui combine la segmentation de mots et l'annotation. Plusieurs méthodes de segmentation mécanique des mots couramment utilisées sont les suivantes :
1) Méthode de correspondance maximale avant (direction de gauche à droite) ;
2) Méthode de correspondance maximale inverse (direction de droite à gauche) ;
3) Segmentation minimale (minimiser le nombre de mots dans chaque phrase).
Les différentes méthodes mentionnées ci-dessus peuvent également être combinées les unes avec les autres. Par exemple, la méthode de correspondance maximale directe et la méthode de correspondance maximale inverse peuvent être combinées pour former une méthode de correspondance bidirectionnelle. En raison des caractéristiques de la formation des mots chinois à un seul caractère, la correspondance minimale directe et la correspondance minimale inverse sont généralement rarement utilisées. D'une manière générale, la précision de segmentation de la correspondance inverse est légèrement supérieure à celle de la correspondance directe, et moins d'ambiguïtés sont rencontrées. Les résultats statistiques montrent que le taux d'erreur lié à la simple utilisation de la correspondance maximale directe est de 1/169 et que le taux d'erreur lié à la simple utilisation de la correspondance maximale inverse est de 1/245. Cependant, cette précision est loin de répondre aux besoins réels. Les systèmes de segmentation de mots actuellement utilisés utilisent tous la segmentation mécanique des mots comme méthode de segmentation préliminaire, et il est nécessaire d'améliorer encore la précision de la segmentation en utilisant diverses autres informations linguistiques.
Une méthode consiste à améliorer la méthode d'analyse, appelée analyse de caractéristiques ou segmentation de marques. Elle donne la priorité à l'identification et à la segmentation de certains mots présentant des caractéristiques évidentes dans la chaîne à analyser. En utilisant ces mots comme points d'arrêt, la chaîne d'origine peut être divisée en mots mécaniques. la segmentation est effectuée pour les chaînes plus petites afin de réduire le taux d'erreur de correspondance. Une autre méthode consiste à combiner la segmentation des mots et le marquage des parties du discours, à utiliser des informations riches sur les parties du discours pour faciliter les décisions de segmentation des mots, puis à vérifier et à ajuster les résultats de la segmentation des mots pendant le processus de marquage, améliorant ainsi considérablement la précision de segmentation.
Développer