ภาษาไทย
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
หน้าแรก
ดาวน์โหลดซอร์สโค้ด
เกี่ยวกับการเขียนโปรแกรม
ทรัพยากรสร้างเว็บไซต์
หนังสือและบทเรียน
บทเรียนออกแบบเว็บ
บทเรียนการเขียนโปรแกรมเครือข่าย
เกมมือถือ
แอปมือถือ
บทความ
หน้าแรก
>
ซอร์สโค้ด PHP
>
ลิงค์ค้นหา
รหัสการแบ่งส่วนคำภาษาจีน PHP
ลิงค์ค้นหา
v1.0 UTF-8
ไม่มีทรัพยากร
โค้ดการแบ่งส่วนคำภาษาจีน PHP ใช้พจนานุกรมที่ใช้ Unicode และใช้การแบ่งส่วนคำในโหมดจับคู่แบบย้อนกลับ ตามหลักทฤษฎีแล้ว เข้ากันได้กับการเข้ารหัสที่หลากหลาย และสะดวกเป็นพิเศษสำหรับการเข้ารหัส UTF-8 เนื่องจาก PhpanAlysis เป็นระบบที่ไม่มีส่วนประกอบ ความเร็วจะช้ากว่าส่วนประกอบเล็กน้อย อย่างไรก็ตาม ในการแบ่งส่วนคำจำนวนมาก เนื่องจากการโหลดฐานข้อมูลคำเสร็จสมบูรณ์ในระหว่างการแบ่งส่วนคำ ยิ่งมีเนื้อหามาก ความเร็วก็จะยิ่งเร็วขึ้นเท่านั้น นี่เป็นปรากฏการณ์ปกติ สำหรับเซิร์ฟเวอร์ที่รองรับ PHP-APC โปรแกรมนี้รองรับการแคชพจนานุกรม หลังจากทำเช่นนั้น ความเร็วทางทฤษฎีจะไม่ช้ากว่าโปรแกรมแบ่งส่วนคำเหล่านั้น
ระบบการแบ่งส่วนคำเป็น
วิธีการแบ่งส่วนคำโดยอิงจากการจับคู่สตริง
วิธีการนี้เรียกอีกอย่างว่าวิธีการแบ่งส่วนคำแบบกลไก โดยจะจับคู่สตริงอักขระภาษาจีนที่จะวิเคราะห์ด้วยรายการในพจนานุกรมของเครื่อง "ใหญ่เพียงพอ" ตามกลยุทธ์บางอย่าง หากพบสตริงในพจนานุกรม แสดงว่าการจับคู่สำเร็จ (ระบบจดจำคำได้) ตามทิศทางการสแกนที่แตกต่างกัน วิธีการแบ่งคำที่จับคู่สตริงสามารถแบ่งออกเป็นการจับคู่ไปข้างหน้าและการจับคู่แบบย้อนกลับ ตามลำดับความสำคัญของการจับคู่ที่มีความยาวต่างกัน สามารถแบ่งออกเป็นการจับคู่สูงสุด (ยาวที่สุด) และการจับคู่ขั้นต่ำ (สั้นที่สุด) ตาม ไม่ว่าจะเกี่ยวข้องกับกระบวนการติดแท็กส่วนของคำพูด เมื่อรวมกันแล้วก็สามารถแบ่งได้เป็นวิธีการแบ่งคำแบบง่ายๆ และวิธีบูรณาการที่รวมการแบ่งส่วนคำและคำอธิบายประกอบเข้าด้วยกัน วิธีการแบ่งคำเชิงกลที่ใช้กันทั่วไปหลายวิธีมีดังนี้:
1) วิธีจับคู่ไปข้างหน้าสูงสุด (ทิศทางจากซ้ายไปขวา)
2) วิธีจับคู่สูงสุดแบบผกผัน (ทิศทางจากขวาไปซ้าย)
3) การแบ่งส่วนขั้นต่ำ (ลดจำนวนคำในแต่ละประโยคให้เหลือน้อยที่สุด)
วิธีการต่างๆ ที่กล่าวมาข้างต้นสามารถนำมารวมกันได้ ตัวอย่างเช่น วิธีการจับคู่สูงสุดแบบไปข้างหน้าและวิธีการจับคู่แบบย้อนกลับสามารถรวมกันเพื่อสร้างวิธีการจับคู่แบบสองทางได้ เนื่องจากลักษณะของการสร้างคำด้วยอักขระเดี่ยวในภาษาจีน การจับคู่ขั้นต่ำแบบไปข้างหน้าและการจับคู่ขั้นต่ำแบบย้อนกลับจึงไม่ค่อยได้ใช้ โดยทั่วไปแล้ว ความแม่นยำในการแบ่งเซ็กเมนต์ของการจับคู่แบบย้อนกลับจะสูงกว่าการจับคู่ไปข้างหน้าเล็กน้อย และพบความคลุมเครือน้อยลง ผลลัพธ์ทางสถิติแสดงให้เห็นว่าอัตราข้อผิดพลาดของการใช้การจับคู่สูงสุดแบบย้อนกลับเพียงอย่างเดียวคือ 1/169 และอัตราข้อผิดพลาดของการใช้การจับคู่สูงสุดแบบย้อนกลับเพียงอย่างเดียวคือ 1/245 อย่างไรก็ตามความแม่นยำนี้ยังห่างไกลจากการตอบสนองความต้องการที่แท้จริง ระบบการแบ่งส่วนคำที่ใช้จริงทั้งหมดใช้การแบ่งส่วนคำเชิงกลเป็นวิธีการแบ่งส่วนเบื้องต้น และจำเป็นต้องปรับปรุงความแม่นยำของการแบ่งส่วนเพิ่มเติมโดยใช้ข้อมูลทางภาษาอื่นๆ
วิธีหนึ่งคือการปรับปรุงวิธีการสแกน ซึ่งเรียกว่าการสแกนคุณลักษณะหรือการแบ่งส่วนเครื่องหมาย โดยจะจัดลำดับความสำคัญของการระบุและการแบ่งส่วนคำบางคำที่มีลักษณะชัดเจนในสตริงที่จะวิเคราะห์ โดยใช้คำเหล่านี้เป็นเบรกพอยต์ สตริงต้นฉบับสามารถแบ่งออกเป็นคำเชิงกลได้ การแบ่งส่วนจะดำเนินการสำหรับสตริงที่มีขนาดเล็กลงเพื่อลดอัตราความผิดพลาดในการจับคู่ อีกวิธีหนึ่งคือการรวมการแบ่งส่วนคำและการติดแท็กส่วนของคำพูด ใช้ข้อมูลส่วนหนึ่งของคำพูดที่หลากหลายเพื่อช่วยในการตัดสินใจในการแบ่งส่วนคำ และตรวจสอบและปรับผลลัพธ์การแบ่งส่วนคำในระหว่างกระบวนการติดแท็ก ซึ่งจะช่วยปรับปรุงความแม่นยำของคำได้อย่างมาก การแบ่งส่วน
ขยาย
ข้อมูลเพิ่มเติม
เวอร์ชัน
v1.0 UTF-8
ประเภท
ลิงค์ค้นหา
เวลาอัปเดต
2011-11-22
ขนาด
2371584
ภาษา
ภาษาจีนตัวย่อ
เวอร์ชันที่เกี่ยวข้อง
PHP
2009-06-26
PHP
2009-06-26
PHP
2009-06-24
PHP
2009-06-24
PHP
2009-06-23
PHP
2009-06-23
แนะนำสำหรับคุณ
กูเกิลโครม
การเรียกดูหน้าแรก
3.0.190.0 build 18892 绿色多语版_Google Chrome浏览器
กูเกิลโครม
การเรียกดูหน้าแรก
3.0.182.3 Dev 多国语言官方安装版
กูเกิลโครม
การเรียกดูหน้าแรก
3.0.182.3 Dev 多国语言绿色便携版
WeChat Taobao รุ่นความมั่งคั่ง
อีคอมเมิร์ซ
v1.0
รูปแบบ txt ค้นหาดาวน์โหลดนวนิยาย
ของสะสมของโจร
v1.0
WordPress ยังคงรักษาปลั๊กอินรูปแบบสรุปการสกัดกั้นอัตโนมัติของจีน (Bobaiyou) เวอร์ชันที่ปรับให้เหมาะสม
บล็อก
รูปแบบเอฟเฟกต์สีเส้นขีด jpg
ภาพเคลื่อนไหว
เครื่องมือแปลงรูปแบบพาร์ติชัน
ยูทิลิตี้ดิสก์
1.0 绿色版_轻松实现转换各个分区的格式
คู่มือภาษาจีน Apache2.0 (รูปแบบ chm)
บทช่วยสอนเซิร์ฟเวอร์
ข้อมูลที่เกี่ยวข้อง
ทั้งหมด
แก้ไขปัญหาสภาพแวดล้อมการติดตั้งเจดีย์แต่ไม่แสดงผล (nginx/mysql/php ฯลฯ)
2024-11-14
บทช่วยสอนกราฟิก PHP การติดตั้ง Ubuntu
2024-11-14
วิธีปิดแท็กภาษาเทมเพลต php ใน vscode
2023-08-11
ความแตกต่างระหว่างเฟรมเวิร์ก PHP และ CMS คืออะไร
2022-06-14
การโหลด Composer ตามความต้องการใน php.ini
2022-05-16
วิธีกำหนดค่าคงที่ใน PHP
2022-05-10
PHP ใช้ fread() เพื่อจัดการไบต์
2022-05-10
คำอธิบายโดยละเอียดเกี่ยวกับโหมดการทำงาน PHP ทั่วไป
2022-05-10
ไลบรารี PDO ใน php คืออะไร
2022-05-10
วิธีเรียกใช้แบบสอบถามโดยใช้ php PDO
2022-05-10
คำสั่งที่เตรียมไว้ของ php PDO คืออะไร?
2022-05-12
การใช้การเติมโค้ดอัตโนมัติใน phpstorm
2022-05-11
ความคิดเห็นจากผู้ใช้