Apa itu segmentasi kata Cina
Apa itu segmentasi kata? Apa perbedaan segmentasi kata dalam bahasa Mandarin dengan segmentasi kata lainnya? Segmentasi kata adalah proses menggabungkan kembali rangkaian kata yang berkesinambungan menjadi rangkaian kata menurut spesifikasi tertentu. Dari contoh di atas, kita dapat melihat bahwa dalam penulisan bahasa Inggris, spasi digunakan sebagai pembatas alami antar kata, sedangkan dalam bahasa Cina, hanya kata, kalimat, dan paragraf yang dapat dipisahkan dengan pembatas yang jelas Bahasa Inggris juga mempunyai masalah dalam membagi frase, pada tingkat kata, seperti yang kita lihat dari contoh di atas, bahasa Mandarin jauh lebih rumit dan sulit daripada bahasa Inggris.
Saat ini ada tiga algoritma segmentasi kata utama dalam bahasa Mandarin:
1. Metode segmentasi kata berdasarkan pencocokan string
Metode ini juga disebut metode segmentasi kata mekanis, yang mencocokkan string karakter Cina untuk dianalisis dengan entri dalam kamus mesin yang "cukup besar" menurut strategi tertentu. Jika string tertentu ditemukan dalam kamus, maka kecocokannya adalah berhasil. (Kenali sebuah kata). Menurut arah pemindaian yang berbeda, metode segmentasi kata pencocokan string dapat dibagi menjadi pencocokan maju dan pencocokan terbalik; sesuai dengan pencocokan prioritas dengan panjang yang berbeda, dapat dibagi menjadi pencocokan maksimum (terpanjang) dan pencocokan minimum (terpendek); apakah itu terkait dengan proses penandaan part-of-speech Gabungan, dapat dibagi menjadi metode segmentasi kata sederhana dan metode terintegrasi yang menggabungkan segmentasi kata dan anotasi. Beberapa metode segmentasi kata mekanis yang umum digunakan adalah sebagai berikut:
1) Metode pencocokan maksimum maju (arah dari kiri ke kanan);
2) Metode pencocokan maksimum terbalik (arah dari kanan ke kiri);
3) Segmentasi minimum (meminimalkan jumlah kata dalam setiap kalimat).
Berbagai metode yang disebutkan di atas juga dapat digabungkan satu sama lain. Misalnya, metode pencocokan maksimum maju dan metode pencocokan maksimum terbalik dapat digabungkan untuk membentuk metode pencocokan dua arah. Karena karakteristik pembentukan kata karakter tunggal Cina, pencocokan minimum maju dan pencocokan minimum terbalik umumnya jarang digunakan. Secara umum, keakuratan segmentasi pencocokan terbalik sedikit lebih tinggi dibandingkan pencocokan maju, dan lebih sedikit ambiguitas yang ditemui. Hasil statistik menunjukkan bahwa tingkat kesalahan penggunaan pencocokan maksimum maju saja adalah 1/169, dan tingkat kesalahan penggunaan pencocokan maksimum terbalik adalah 1/245. Namun, keakuratan ini masih jauh dari memenuhi kebutuhan sebenarnya. Sistem segmentasi kata yang sebenarnya digunakan semuanya menggunakan segmentasi kata mekanis sebagai metode segmentasi awal, dan perlu lebih ditingkatkan lagi keakuratan segmentasinya dengan menggunakan berbagai informasi linguistik lainnya.
Salah satu caranya adalah dengan menyempurnakan metode pemindaian yang disebut pemindaian fitur atau segmentasi tanda, yang mengutamakan identifikasi dan segmentasi beberapa kata dengan karakteristik yang jelas dalam string yang akan dianalisis. Dengan menggunakan kata-kata tersebut sebagai breakpoint, string asli dapat dibagi menjadi Kata mekanis segmentasi dilakukan untuk string yang lebih kecil untuk mengurangi tingkat kesalahan pencocokan. Metode lainnya adalah dengan menggabungkan segmentasi kata dan penandaan part-of-speech, menggunakan informasi part-of-speech yang kaya untuk membantu keputusan segmentasi kata, dan pada gilirannya memeriksa dan menyesuaikan hasil segmentasi kata selama proses penandaan, sehingga sangat meningkatkan akurasi dari segmentasi.
2. Metode segmentasi kata berdasarkan pemahaman
Metode segmentasi kata ini mencapai efek pengenalan kata dengan memungkinkan komputer mensimulasikan pemahaman manusia terhadap kalimat. Ide dasarnya adalah melakukan analisis sintaksis dan semantik sambil mengelompokkan kata-kata, dan menggunakan informasi sintaksis dan informasi semantik untuk mengatasi ambiguitas. Biasanya terdiri dari tiga bagian: subsistem segmentasi kata, subsistem sintaksis dan semantik, dan bagian kontrol keseluruhan. Di bawah koordinasi bagian kontrol keseluruhan, subsistem segmentasi kata dapat memperoleh informasi sintaksis dan semantik tentang kata, kalimat, dll. untuk menilai ambiguitas segmentasi kata, yaitu mensimulasikan proses pemahaman manusia terhadap kalimat. Metode segmentasi kata ini memerlukan penggunaan sejumlah besar pengetahuan dan informasi bahasa. Karena sifat umum dan kompleksitas pengetahuan bahasa Mandarin, sulit untuk mengatur berbagai informasi bahasa ke dalam bentuk yang dapat langsung dibaca oleh mesin oleh karena itu, sistem segmentasi kata berdasarkan pemahaman masih dalam tahap percobaan.
3. Metode segmentasi kata berdasarkan statistik
Dari sudut pandang formal, kata merupakan kombinasi kata yang stabil, sehingga dalam konteksnya, semakin sering kata-kata yang berdekatan muncul pada waktu yang sama, semakin besar kemungkinan kata-kata tersebut membentuk sebuah kata. Oleh karena itu, frekuensi atau kemungkinan kemunculan kata-kata yang berdekatan di antara kata-kata dapat lebih mencerminkan kredibilitas kata tersebut. Frekuensi kombinasi kata-kata yang berdekatan yang muncul bersamaan dalam korpus dapat dihitung dan informasi kemunculan timbal baliknya dapat dihitung. Tentukan informasi kemunculan timbal balik dari dua karakter dan hitung probabilitas kemunculan bersama yang berdekatan dari dua karakter Cina X dan Y. Informasi kemunculan timbal balik mencerminkan kedekatan hubungan kombinasi antar karakter Tionghoa. Apabila kedekatannya lebih tinggi dari ambang batas tertentu, maka kelompok kata tersebut dapat dianggap membentuk sebuah kata. Cara ini hanya perlu menghitung frekuensi kelompok kata dalam korpus dan tidak perlu melakukan segmentasi kamus, sehingga disebut juga dengan metode segmentasi kata bebas kamus atau metode ekstraksi kata statistik. Namun, metode ini juga memiliki keterbatasan tertentu. Metode ini sering kali mengekstraksi beberapa kelompok kata yang umum digunakan dan sering muncul bersamaan tetapi bukan kata, seperti "ini", "satu", "beberapa", "saya", "banyak", dll., dan keakuratan pengenalan kata-kata umum buruk serta biaya waktu dan ruang yang besar. Sistem segmentasi kata statistik praktis harus menggunakan kamus segmentasi kata dasar (kamus kata umum) untuk pencocokan string dan segmentasi kata, dan pada saat yang sama menggunakan metode statistik untuk mengidentifikasi beberapa kata baru, yaitu menggabungkan statistik frekuensi string dengan pencocokan string, yang mana tidak hanya memainkan peran mencocokkan segmentasi kata, tetapi juga menggunakan metode statistik untuk mengidentifikasi beberapa kata baru. Ia memiliki karakteristik segmentasi cepat dan efisiensi tinggi. Ia juga memanfaatkan segmentasi kata tanpa kamus dan pengenalan konteks untuk mengidentifikasi kata-kata baru dan secara otomatis menghilangkan ambiguitas.
Beberapa hal yang perlu diperhatikan tentang participle:
1. Kinerja waktu dari algoritma segmentasi kata relatif tinggi. Terutama pencarian web saat ini yang memiliki persyaratan real-time yang tinggi. Oleh karena itu, segmentasi kata, yang merupakan dasar pemrosesan informasi di Tiongkok, pertama-tama harus memakan waktu sesedikit mungkin.
2. Peningkatan akurasi segmentasi kata tidak serta merta mengarah pada peningkatan kinerja pengambilan. Setelah segmentasi kata mencapai akurasi tertentu, dampaknya terhadap pengambilan informasi di China tidak lagi terlihat jelas. Meskipun masih ada beberapa dampak, hal ini tidak lagi menjadi penghambat kinerja CIR. Oleh karena itu, algoritme segmentasi kata satu sisi yang secara membabi buta mengejar akurasi tinggi sangat tidak cocok untuk pengambilan informasi Tiongkok skala besar. Ketika ada konflik antara waktu dan akurasi, kita perlu menemukan keseimbangan antara keduanya.
3. Perincian segmentasi masih dapat mengikuti prinsip prioritas kata panjang, namun pemrosesan selanjutnya yang relevan perlu dilakukan pada tingkat perluasan kueri. Dalam pencarian informasi, algoritma segmentasi kata hanya perlu fokus pada cara menghilangkan ambiguitas silang. Untuk ambiguitas cakupan, kita dapat menggunakan pengindeksan sekunder kamus dan perluasan kueri untuk mengatasinya.
4. Keakuratan pengenalan kata yang tidak terdaftar lebih penting daripada tingkat ingatannya. Penting untuk mencoba memastikan bahwa tidak ada kombinasi yang salah yang dilakukan ketika mengidentifikasi kata-kata yang tidak terdaftar, untuk menghindari pengelompokan kata-kata yang tidak terdaftar yang salah. Jika satu kata digabungkan secara tidak benar menjadi kata yang tidak terdaftar, dokumen terkait mungkin tidak dapat diambil dengan benar.
Partisipan Baidu
Pertama pisahkan kueri berdasarkan pembatas. "Alat teori pengambilan informasi" setelah participle <pengambilan informasi, teori, alat>.
Kemudian lihat apakah ada string duplikat. Jika demikian, buang string tambahan dan simpan hanya satu. Setelah kata "teori alat teoretis" dibagi menjadi <teori alat>, GOOGLE tidak mempertimbangkan perhitungan penggabungan ini.
Kemudian tentukan apakah ada kata atau angka dalam bahasa Inggris. Jika ya, pertahankan kata atau angka dalam bahasa Inggris tersebut secara keseluruhan dan potong karakter Mandarin sebelum dan sesudahnya. Kueri "unduhan film BT" setelah segmentasi kata <film, BT, unduh>.
Jika string hanya berisi kurang dari atau sama dengan 3 karakter Cina, biarkan tidak berubah. Jika panjang string lebih besar dari 4 karakter Cina, program segmentasi kata Baidu akan bekerja dan memecah string.
Jenis algoritma segmentasi kata: pencocokan maksimum maju, pencocokan maksimum terbalik, pencocokan maksimum dua arah, metode model bahasa, algoritma jalur terpendek. Untuk menilai baik atau tidaknya suatu sistem segmentasi kata, ada dua poin penting menghilangkan ambiguitas; yang lainnya adalah identifikasi kata-kata yang tidak terdaftar dalam kamus, misalnya nama orang, tempat, organisasi, dan sebagainya.
Segmentasi kata Baidu menggunakan setidaknya dua kamus, satu kamus umum dan satu lagi kamus khusus (nama orang, nama tempat, kata baru, dll). Selain itu, kamus khusus memotongnya terlebih dahulu, dan kemudian sisa fragmennya dibagi oleh kamus biasa.
Jenis algoritma segmentasi kata Baidu menggunakan algoritma pencocokan maksimum dua arah.
Contoh: Query "Mao Zedong Beijing Hua Yanyun", hasil segmentasi kata Baidu: "Mao Zedong/Beijing/Beijing Hua Yanyun"
Segmentasi kata Baidu dapat mengidentifikasi nama orang, dan juga dapat mengidentifikasi "Beijing Yanyun", yang menunjukkan bahwa ia memiliki fungsi untuk mengidentifikasi kata-kata yang tidak terdaftar dalam kamus.
Pertama, tanyakan kamus khusus (nama orang, beberapa nama tempat, dll.), gunting nama diri, dan terapkan strategi segmentasi kata dua arah untuk bagian yang tersisa. Jika keduanya (pencocokan maksimum maju, pencocokan maksimum terbalik ) hasil segmentasinya sama, artinya tidak ada ambiguitas, langsung keluarkan kata hasil segmentasinya.
Jika tidak konsisten, hasil jalur terpendek adalah keluaran, yaitu semakin sedikit fragmen, semakin baik. Misalnya, dibandingkan dengan <Cuba, Bi, Ethics> dan <Old Babylon, Li>, pilih yang terakhir, <Beijing. , Hua, Yanyun> Dibandingkan dengan <Beijing Yanyun>, pilih yang terakhir.
Jika panjangnya sama, pilih kelompok hasil segmentasi yang jumlah kata tunggalnya lebih sedikit. "Babel kuno yang jauh", kueri ini disegmentasi oleh Baidu menjadi <jauh, kuno, Babel>, bukannya disegmentasi menjadi "Babel jauh/kuno/kuno"
Jika kata-katanya juga sama, pilih hasil segmentasi kata maju. Kueri "Wang Qiang Xiao:", Baidu akan mengelompokkannya menjadi "Wang/Qiang/Kecil" alih-alih mengelompokkannya secara terbalik menjadi "Wang/Qiang/Kecil"
Baidu selalu mempromosikan keunggulannya dalam pemrosesan bahasa Mandarin. Dari sudut pandang di atas, tidak ada yang istimewa dari algoritma segmentasi kata, dan efek disambiguasinya tidak ideal. Meskipun Baidu mengadopsi algoritma yang lebih kompleks daripada segmentasi kata di atas algoritma, sulit untuk mengatakan bahwa itu adalah keuntungan. Jika kita mengatakan Jika Baidu memiliki keuntungan, satu-satunya keuntungan adalah kamus khusus yang besar. Kamus khusus ini berisi nama orang (seperti Dae Jang Geum), judul (seperti wanita tua), dan beberapa nama tempat (seperti Uni Emirat Arab, dll.). Diperkirakan Baidu mengadopsi informasi yang diterbitkan oleh akademisi. Algoritme pengenalan entitas bernama yang relatif baru terus mengidentifikasi kata-kata yang tidak terdaftar dalam kamus dari korpus, dan secara bertahap memperluas kamus khusus ini. ——Artikel ini berasal dari alamat postingan asli China SEO Forum: http://www.web520.com/bbs/thread-2742-1-1.html
Informasi penulis: Lao Chen, salah satu pendiri China SEO Forum (www.web520.com/bbs)