Kode segmentasi kata PHP Cina menggunakan leksikon berdasarkan Unicode dan menggunakan segmentasi kata mode pencocokan terbalik. Secara teori, kode ini kompatibel dengan rentang pengkodean yang lebih luas dan sangat nyaman untuk pengkodean UTF-8. Karena PhpanAlysis adalah sistem tanpa komponen, kecepatannya akan sedikit lebih lambat dibandingkan dengan komponen. Namun, dalam sejumlah besar segmentasi kata, karena pemuatan database kata selesai selama segmentasi kata, semakin banyak konten, semakin cepat kecepatannya. .Ini adalah fenomena normal., Untuk server yang mendukung PHP-APC, program ini mendukung caching kamus. Setelah melakukannya, kecepatan teoritisnya tidak akan lebih lambat dibandingkan program segmentasi kata dengan komponen.
Sistem segmentasi kata adalah metode segmentasi kata berdasarkan pencocokan string . Metode ini disebut juga metode segmentasi kata mekanis, yang mencocokkan string karakter Cina untuk dianalisis dengan entri dalam kamus mesin yang "cukup besar" menurut strategi tertentu. Jika Jika sebuah string ditemukan dalam kamus, pencocokan berhasil (sebuah kata dikenali). Menurut arah pemindaian yang berbeda, metode segmentasi kata pencocokan string dapat dibagi menjadi pencocokan maju dan pencocokan terbalik; sesuai dengan pencocokan prioritas dengan panjang yang berbeda, dapat dibagi menjadi pencocokan maksimum (terpanjang) dan pencocokan minimum (terpendek); apakah itu terkait dengan proses penandaan part-of-speech Gabungan, dapat dibagi menjadi metode segmentasi kata sederhana dan metode terintegrasi yang menggabungkan segmentasi kata dan anotasi. Beberapa metode segmentasi kata mekanis yang umum digunakan adalah sebagai berikut:
1) Metode pencocokan maksimum maju (arah dari kiri ke kanan);
2) Metode pencocokan maksimum terbalik (arah dari kanan ke kiri);
3) Segmentasi minimum (meminimalkan jumlah kata dalam setiap kalimat).
Berbagai metode yang disebutkan di atas juga dapat digabungkan satu sama lain. Misalnya, metode pencocokan maksimum maju dan metode pencocokan maksimum terbalik dapat digabungkan untuk membentuk metode pencocokan dua arah. Karena karakteristik pembentukan kata karakter tunggal Cina, pencocokan minimum maju dan pencocokan minimum terbalik umumnya jarang digunakan. Secara umum, keakuratan segmentasi pencocokan terbalik sedikit lebih tinggi dibandingkan pencocokan maju, dan lebih sedikit ambiguitas yang ditemui. Hasil statistik menunjukkan bahwa tingkat kesalahan penggunaan pencocokan maksimum maju saja adalah 1/169, dan tingkat kesalahan penggunaan pencocokan maksimum terbalik adalah 1/245. Namun, keakuratan ini masih jauh dari memenuhi kebutuhan sebenarnya. Sistem segmentasi kata yang sebenarnya digunakan semuanya menggunakan segmentasi kata mekanis sebagai metode segmentasi awal, dan perlu lebih ditingkatkan lagi keakuratan segmentasinya dengan menggunakan berbagai informasi linguistik lainnya.
Salah satu caranya adalah dengan menyempurnakan metode pemindaian yang disebut pemindaian fitur atau segmentasi tanda, yang mengutamakan identifikasi dan segmentasi beberapa kata dengan karakteristik yang jelas dalam string yang akan dianalisis. Dengan menggunakan kata-kata tersebut sebagai breakpoint, string asli dapat dibagi menjadi Kata mekanis segmentasi dilakukan untuk string yang lebih kecil untuk mengurangi tingkat kesalahan pencocokan. Metode lainnya adalah dengan menggabungkan segmentasi kata dan penandaan part-of-speech, menggunakan informasi part-of-speech yang kaya untuk membantu keputusan segmentasi kata, dan pada gilirannya memeriksa dan menyesuaikan hasil segmentasi kata selama proses penandaan, sehingga sangat meningkatkan akurasi dari segmentasi.
Memperluas