Peut effectuer une segmentation de mots sur des phrases en chinois et en anglais avec une ponctuation mixte pleine chasse et demi-chasse. Vous pouvez choisir la longueur maximale des mots d'une phrase, la longueur minimale des mots d'une phrase de ponctuation, s'il faut conserver un seul mot dans le résultat de la segmentation des mots, s'il faut conserver les signes de ponctuation et d'autres fonctions. Pour des instructions plus détaillées, veuillez consulter le fichier Readme.txt dans le package de téléchargement.
Un fichier de dictionnaire SQLite est fourni par défaut. Si votre hôte virtuel ne prend pas en charge SQLite, vous pouvez l'importer dans MySQL ou créer vous-même d'autres dictionnaires.
En raison de mes capacités limitées, je ne pourrai peut-être pas satisfaire tout le monde en termes d'efficacité, veuillez donc inclure plus d'informations.
Le montage, le déchargement et l'interrogation du dictionnaire ont des fonctions séparées, il devrait donc être facile à modifier. L'algorithme de segmentation de mots principal n'a besoin que de findinDict pour renvoyer un vrai ou un faux pour me dire si le mot est dans le dictionnaire.
Une autre chose à noter est que l'extension de mbstring est requise. Il n'y a aucun moyen de mélanger le chinois, l'anglais, la pleine largeur et la demi-largeur pour segmenter les mots. Il est très difficile de calculer la longueur d'une phrase sans utiliser mbstring.
Le programme est fourni par défaut comme une extension de ThinkPHP, mais vous pouvez supprimer la base d'extension et utiliser directement la segmentation de mots. Accord open source Apache2, donc, peu importe s'il est utilisé à des fins commerciales fermées, tant que vous n'aimez pas mon programme
Développer