การแบ่งส่วนคำภาษาจีนคืออะไร
การแบ่งส่วนคำคืออะไร อะไรคือความแตกต่างระหว่างการแบ่งส่วนคำภาษาจีนและการแบ่งส่วนคำอื่นๆ? จากตัวอย่างข้างต้น เราจะเห็นได้ว่าในการเขียนภาษาอังกฤษ มีการใช้ช่องว่างเป็นตัวคั่นตามธรรมชาติระหว่างคำ ในขณะที่ภาษาจีนใช้เพียงคำ ประโยค และย่อหน้าเท่านั้นที่สามารถคั่นด้วยตัวคั่นที่ชัดเจนเท่านั้น ภาษาอังกฤษยังมีปัญหาในการแบ่งวลี ในระดับคำ ดังที่เราเห็นจากตัวอย่างข้างต้น ภาษาจีนมีความซับซ้อนและยากกว่าภาษาอังกฤษมาก
ปัจจุบันมีอัลกอริธึมการแบ่งส่วนคำภาษาจีนกระแสหลักสามแบบ:
1. วิธีการแบ่งส่วนคำตามการจับคู่สตริง
วิธีการนี้เรียกอีกอย่างว่าวิธีการแบ่งส่วนคำแบบกลไก โดยจะจับคู่สตริงอักขระภาษาจีนที่จะวิเคราะห์กับรายการในพจนานุกรมของเครื่อง "มีขนาดใหญ่เพียงพอ" ตามกลยุทธ์บางอย่าง หากพบสตริงที่แน่นอนในพจนานุกรม ก็จะถือว่าตรงกัน ประสบความสำเร็จ (จดจำคำ) ตามทิศทางการสแกนที่แตกต่างกัน วิธีการแบ่งคำที่จับคู่สตริงสามารถแบ่งออกเป็นการจับคู่ไปข้างหน้าและการจับคู่แบบย้อนกลับ ตามลำดับความสำคัญของการจับคู่ที่มีความยาวต่างกัน สามารถแบ่งออกเป็นการจับคู่สูงสุด (ยาวที่สุด) และการจับคู่ขั้นต่ำ (สั้นที่สุด) ตาม ไม่ว่าจะเกี่ยวข้องกับกระบวนการติดแท็กส่วนของคำพูด เมื่อรวมกันแล้วก็สามารถแบ่งได้เป็นวิธีการแบ่งคำแบบง่ายๆ และวิธีบูรณาการที่รวมการแบ่งส่วนคำและคำอธิบายประกอบเข้าด้วยกัน วิธีการแบ่งคำเชิงกลที่ใช้กันทั่วไปหลายวิธีมีดังนี้:
1) วิธีจับคู่ไปข้างหน้าสูงสุด (ทิศทางจากซ้ายไปขวา)
2) วิธีจับคู่สูงสุดแบบผกผัน (ทิศทางจากขวาไปซ้าย)
3) การแบ่งส่วนขั้นต่ำ (ลดจำนวนคำในแต่ละประโยคให้เหลือน้อยที่สุด)
วิธีการต่างๆ ที่กล่าวมาข้างต้นสามารถนำมารวมกันได้ ตัวอย่างเช่น วิธีการจับคู่สูงสุดแบบไปข้างหน้าและวิธีการจับคู่แบบย้อนกลับสามารถรวมกันเพื่อสร้างวิธีการจับคู่แบบสองทางได้ เนื่องจากลักษณะของการสร้างคำด้วยอักขระเดี่ยวในภาษาจีน การจับคู่ขั้นต่ำแบบไปข้างหน้าและการจับคู่ขั้นต่ำแบบย้อนกลับจึงไม่ค่อยได้ใช้ โดยทั่วไปแล้ว ความแม่นยำในการแบ่งเซ็กเมนต์ของการจับคู่แบบย้อนกลับจะสูงกว่าการจับคู่ไปข้างหน้าเล็กน้อย และพบความคลุมเครือน้อยลง ผลลัพธ์ทางสถิติแสดงให้เห็นว่าอัตราข้อผิดพลาดของการใช้การจับคู่สูงสุดแบบย้อนกลับเพียงอย่างเดียวคือ 1/169 และอัตราข้อผิดพลาดของการใช้การจับคู่สูงสุดแบบย้อนกลับเพียงอย่างเดียวคือ 1/245 อย่างไรก็ตามความแม่นยำนี้ยังห่างไกลจากการตอบสนองความต้องการที่แท้จริง ระบบการแบ่งส่วนคำที่ใช้จริงทั้งหมดใช้การแบ่งส่วนคำเชิงกลเป็นวิธีการแบ่งส่วนเบื้องต้น และจำเป็นต้องปรับปรุงความแม่นยำของการแบ่งส่วนเพิ่มเติมโดยใช้ข้อมูลทางภาษาอื่นๆ
วิธีหนึ่งคือการปรับปรุงวิธีการสแกน ซึ่งเรียกว่าการสแกนคุณลักษณะหรือการแบ่งส่วนเครื่องหมาย โดยจะจัดลำดับความสำคัญของการระบุและการแบ่งส่วนคำบางคำที่มีลักษณะชัดเจนในสตริงที่จะวิเคราะห์ โดยใช้คำเหล่านี้เป็นเบรกพอยต์ สตริงต้นฉบับสามารถแบ่งออกเป็นคำเชิงกลได้ การแบ่งส่วนจะดำเนินการสำหรับสตริงที่มีขนาดเล็กลงเพื่อลดอัตราความผิดพลาดในการจับคู่ อีกวิธีหนึ่งคือการรวมการแบ่งส่วนคำและการติดแท็กส่วนของคำพูด ใช้ข้อมูลส่วนหนึ่งของคำพูดที่หลากหลายเพื่อช่วยในการตัดสินใจในการแบ่งส่วนคำ และตรวจสอบและปรับผลลัพธ์การแบ่งส่วนคำในระหว่างกระบวนการติดแท็ก ซึ่งจะช่วยปรับปรุงความแม่นยำของคำได้อย่างมาก การแบ่งส่วน
2. วิธีการแบ่งคำตามความเข้าใจ
วิธีการแบ่งส่วนคำนี้ทำให้ได้ผลของการรู้จำคำโดยอนุญาตให้คอมพิวเตอร์จำลองความเข้าใจประโยคของมนุษย์ แนวคิดพื้นฐานคือการวิเคราะห์วากยสัมพันธ์และความหมายในขณะที่แบ่งคำ และใช้ข้อมูลวากยสัมพันธ์และข้อมูลความหมายเพื่อจัดการกับความคลุมเครือ โดยปกติจะประกอบด้วยสามส่วน: ระบบย่อยการแบ่งส่วนคำ ระบบย่อยไวยากรณ์และความหมาย และส่วนควบคุมโดยรวม ภายใต้การประสานงานของส่วนควบคุมโดยรวม ระบบย่อยการแบ่งส่วนคำสามารถรับข้อมูลทางวากยสัมพันธ์และความหมายเกี่ยวกับคำ ประโยค ฯลฯ เพื่อตัดสินความคลุมเครือของการแบ่งส่วนคำ นั่นคือ จำลองกระบวนการทำความเข้าใจประโยคของมนุษย์ วิธีการแบ่งคำนี้ต้องใช้ความรู้และข้อมูลทางภาษาจำนวนมาก เนื่องจากความรู้ภาษาจีนมีลักษณะทั่วไปและซับซ้อน จึงเป็นเรื่องยากที่จะจัดระเบียบข้อมูลภาษาต่างๆ ให้อยู่ในรูปแบบที่เครื่องสามารถอ่านได้โดยตรง ดังนั้น ระบบการแบ่งกลุ่มคำตามความเข้าใจยังอยู่ในขั้นทดลอง
3. วิธีการแบ่งคำตามสถิติ
จากมุมมองที่เป็นทางการ คำคือการผสมผสานระหว่างคำที่มั่นคง ดังนั้นในบริบท ยิ่งคำที่อยู่ติดกันปรากฏพร้อมกันมากเท่าไร ก็ยิ่งมีแนวโน้มที่จะสร้างคำมากขึ้นเท่านั้น ดังนั้นความถี่หรือความน่าจะเป็นของคำที่อยู่ติดกันที่เกิดขึ้นระหว่างคำสามารถสะท้อนความน่าเชื่อถือของคำได้ดีขึ้น สามารถนับความถี่ของการรวมกันของคำที่อยู่ติดกันซึ่งเกิดขึ้นร่วมในคลังข้อมูลและสามารถคำนวณข้อมูลการเกิดขึ้นร่วมกันได้ กำหนดข้อมูลการเกิดขึ้นร่วมกันของอักขระสองตัว และคำนวณความน่าจะเป็นของการเกิดขึ้นร่วมกันที่อยู่ติดกันของอักขระจีนสองตัว X และ Y ข้อมูลการเกิดขึ้นร่วมกันสะท้อนถึงความใกล้ชิดของความสัมพันธ์แบบผสมผสานระหว่างตัวอักษรจีน เมื่อความใกล้ชิดสูงกว่าเกณฑ์ที่กำหนดก็ถือว่ากลุ่มคำนี้อาจก่อตัวเป็นคำได้ วิธีการนี้จำเป็นต้องนับความถี่ของกลุ่มคำในคลังข้อมูลเท่านั้น และไม่จำเป็นต้องแบ่งส่วนพจนานุกรม ดังนั้นจึงเรียกอีกอย่างว่าวิธีการแบ่งคำแบบไม่มีพจนานุกรมหรือวิธีการแยกคำทางสถิติ อย่างไรก็ตาม วิธีนี้มีข้อจำกัดบางประการเช่นกัน โดยมักจะแยกกลุ่มคำที่ใช้บ่อยบางกลุ่มซึ่งเกิดขึ้นร่วมกันบ่อยครั้งแต่ไม่ใช่คำ เช่น "นี่" "หนึ่ง" "บาง" "ของฉัน" "หลาย" ฯลฯ และความแม่นยำในการรู้จำคำทั่วไปก็ไม่ดี และค่าใช้จ่ายด้านเวลาและพื้นที่ก็มีมาก ระบบการแบ่งส่วนคำทางสถิติเชิงปฏิบัติต้องใช้พจนานุกรมการแบ่งส่วนคำพื้นฐาน (พจนานุกรมคำทั่วไป) สำหรับการจับคู่สตริงและการแบ่งส่วนคำ และในขณะเดียวกันก็ใช้วิธีการทางสถิติเพื่อระบุคำศัพท์ใหม่บางคำ นั่นคือ รวมสถิติความถี่ของสตริงเข้ากับการจับคู่สตริง ซึ่ง ไม่เพียงแต่มีบทบาทในการแบ่งส่วนคำที่ตรงกันเท่านั้น แต่ยังใช้วิธีการทางสถิติเพื่อระบุคำใหม่ๆ ด้วย มีลักษณะของการแบ่งส่วนคำที่รวดเร็วและมีประสิทธิภาพสูงอีกด้วย กำจัดความคลุมเครือโดยอัตโนมัติ
ประเด็นที่ควรทราบเกี่ยวกับผู้เข้าร่วม:
1. ประสิทธิภาพด้านเวลาของอัลกอริทึมการแบ่งส่วนคำค่อนข้างสูง โดยเฉพาะการค้นหาเว็บในปัจจุบันมีความต้องการแบบเรียลไทม์สูง ดังนั้นการแบ่งส่วนคำซึ่งเป็นพื้นฐานของการประมวลผลข้อมูลของจีนจึงต้องใช้เวลาน้อยที่สุดก่อน
2. การปรับปรุงความแม่นยำในการแบ่งส่วนคำไม่จำเป็นต้องนำไปสู่การปรับปรุงประสิทธิภาพการดึงข้อมูล หลังจากที่การแบ่งส่วนคำมีความแม่นยำในระดับหนึ่งแล้ว ผลกระทบต่อการดึงข้อมูลภาษาจีนจะไม่ชัดเจนอีกต่อไป แม้ว่าจะยังคงมีผลกระทบอยู่บ้าง แต่นี่ก็ไม่ใช่ปัญหาคอขวดของประสิทธิภาพของ CIR อีกต่อไป ดังนั้น อัลกอริธึมการแบ่งส่วนคำด้านเดียวที่สุ่มสี่สุ่มห้าแสวงหาความแม่นยำสูง จึงไม่เหมาะอย่างยิ่งสำหรับการดึงข้อมูลภาษาจีนขนาดใหญ่ เมื่อมีข้อขัดแย้งระหว่างเวลาและความถูกต้อง เราจำเป็นต้องค้นหาสมดุลที่เหมาะสมระหว่างทั้งสอง
3. รายละเอียดของการแบ่งส่วนยังคงสามารถเป็นไปตามหลักการจัดลำดับความสำคัญของคำที่ยาวได้ แต่การประมวลผลที่เกี่ยวข้องในภายหลังจะต้องดำเนินการในระดับการขยายการค้นหา ในการดึงข้อมูล อัลกอริธึมการแบ่งส่วนคำจะต้องมุ่งเน้นไปที่วิธีกำจัดความกำกวมข้ามเท่านั้น สำหรับความคลุมเครือของการครอบคลุม เราสามารถใช้การจัดทำดัชนีรองของพจนานุกรมและการขยายการค้นหาเพื่อแก้ไข
4. ความแม่นยำของการรู้จำคำที่ไม่ได้ลงทะเบียนมีความสำคัญมากกว่าอัตราการเรียกคืน มีความจำเป็นต้องพยายามให้แน่ใจว่าไม่มีการผสมคำที่ไม่ถูกต้องเมื่อระบุคำที่ไม่ได้ลงทะเบียน เพื่อหลีกเลี่ยงการแบ่งคำที่ไม่ได้ลงทะเบียนผิด หากคำเดียวรวมกันเป็นคำที่ไม่ได้ลงทะเบียนไม่ถูกต้อง อาจไม่สามารถดึงเอกสารที่เกี่ยวข้องได้อย่างถูกต้อง
กริยาไป่ตู้
ขั้นแรกให้แยกแบบสอบถามตามตัวคั่น “เครื่องมือทางทฤษฎีการดึงข้อมูล” หลังกริยา <การดึงข้อมูล ทฤษฎี เครื่องมือ>
จากนั้นดูว่ามีสตริงที่ซ้ำกันหรือไม่ ถ้ามี ให้ทิ้งสตริงที่เกินมาและเก็บไว้เพียงสตริงเดียว หลังจากที่คำว่า "ทฤษฎีเครื่องมือเชิงทฤษฎี" ถูกแบ่งออกเป็น <ทฤษฎีเครื่องมือ> แล้ว GOOGLE จะไม่พิจารณาการคำนวณการควบรวมกิจการนี้
แล้วพิจารณาว่ามีคำหรือตัวเลขภาษาอังกฤษหรือไม่ ถ้ามี ให้เก็บคำหรือตัวเลขภาษาอังกฤษไว้โดยรวมแล้วตัดตัวอักษรจีนออกก่อนและหลัง ค้นหา "ดาวน์โหลดภาพยนตร์ BT" หลังการแบ่งคำว่า <movie, BT, download>
หากสตริงมีอักขระจีนน้อยกว่าหรือเท่ากับ 3 ตัว ให้คงไว้เหมือนเดิม เมื่อความยาวของสตริงมากกว่า 4 ตัวอักษรจีน โปรแกรมแบ่งส่วนคำของ Baidu จะทำงานและแยกสตริงออก
ประเภทอัลกอริธึมการแบ่งส่วนคำ: การจับคู่สูงสุดแบบย้อนกลับ การจับคู่สูงสุดแบบสองทาง วิธีการสร้างแบบจำลองภาษา อัลกอริธึมเส้นทางที่สั้นที่สุด ในการตัดสินว่าระบบการแบ่งส่วนคำนั้นดีหรือไม่ มีสองประเด็นสำคัญ ขจัดความคลุมเครือ อีกประการหนึ่งคือการระบุคำที่ไม่ได้บันทึกไว้ในพจนานุกรม เช่น ชื่อบุคคล สถานที่ องค์กร ฯลฯ
การแบ่งส่วนคำไป่ตู้ใช้พจนานุกรมอย่างน้อยสองพจนานุกรม พจนานุกรมหนึ่งเป็นพจนานุกรมทั่วไป และอีกพจนานุกรมหนึ่งเป็นพจนานุกรมพิเศษ (ชื่อบุคคล ชื่อสถานที่ คำศัพท์ใหม่ ฯลฯ) ยิ่งไปกว่านั้น พจนานุกรมพิเศษจะตัดออกก่อน จากนั้นจึงแบ่งส่วนที่เหลือด้วยพจนานุกรมธรรมดา
ประเภทอัลกอริธึมการแบ่งส่วนคำของ Baidu ใช้อัลกอริธึมการจับคู่สูงสุดแบบสองทาง
ตัวอย่าง: ข้อความค้นหา "เหมาเจ๋อตงปักกิ่งหัวหยานหยุน" ผลลัพธ์การแบ่งส่วนคำของไป่ตู้: "เหมาเจ๋อตง/ปักกิ่ง/ปักกิ่งหัวหยานหยุน"
การแบ่งส่วนคำไป่ตู้สามารถระบุชื่อของบุคคล และยังสามารถระบุ "ปักกิ่ง หยานหยุน" ซึ่งแสดงให้เห็นว่ามีหน้าที่ในการระบุคำที่ไม่ได้ลงทะเบียนในพจนานุกรม
ขั้นแรก ค้นหาพจนานุกรมพิเศษ (ชื่อบุคคล ชื่อสถานที่บางแห่ง ฯลฯ) ตัดชื่อที่เหมาะสมออก และใช้กลยุทธ์การแบ่งส่วนคำแบบสองทางสำหรับส่วนที่เหลือ หากทั้งสอง (การจับคู่สูงสุดไปข้างหน้า การจับคู่สูงสุดแบบย้อนกลับ ) ผลลัพธ์การแบ่งส่วนจะเหมือนกัน หมายความว่าไม่มีความคลุมเครือ แสดงผลผลลัพธ์การแบ่งส่วนคำโดยตรง
หากไม่สอดคล้องกัน ผลลัพธ์ของเส้นทางที่สั้นที่สุดก็คือผลลัพธ์ นั่นคือ ยิ่งมีชิ้นส่วนน้อยลงก็ยิ่งดี ตัวอย่างเช่น เมื่อเปรียบเทียบกับ <คิวบา ไบ จริยธรรม> และ <บาบิโลนเก่า ลี่> ให้เลือกอย่างหลัง <ปักกิ่ง , Hua, Yanyun> เมื่อเทียบกับ <Beijing Yanyun> ให้เลือกอันหลัง
หากความยาวเท่ากัน ให้เลือกกลุ่มของผลลัพธ์การแบ่งส่วนที่มีคำเพียงคำเดียวน้อยลง "บาบิโลนโบราณอันห่างไกล" คำค้นหานี้ถูกแบ่งโดย Baidu ออกเป็น <บาบิโลนโบราณที่ห่างไกล> แทนที่จะแบ่งออกเป็น "บาบิโลนที่ห่างไกล/โบราณ/โบราณ"
หากคำเหมือนกัน ให้เลือกผลลัพธ์การแบ่งส่วนคำไปข้างหน้า การค้นหา "Wang Qiang Xiao:" Baidu จะแบ่งส่วนออกเป็น "Wang/Qiang/Small" แทนที่จะแบ่งกลับเป็น "Wang/Qiang/Small"
ไป่ตู้ส่งเสริมข้อได้เปรียบในการประมวลผลภาษาจีนมาโดยตลอด จากมุมมองข้างต้น ไม่มีอะไรพิเศษเกี่ยวกับอัลกอริทึมการแบ่งส่วนคำ และเอฟเฟกต์การแก้ไขความกำกวมก็ไม่เหมาะ แม้ว่า Baidu จะใช้อัลกอริทึมที่ซับซ้อนกว่าการแบ่งส่วนคำข้างต้นก็ตาม อัลกอริทึม มันยากที่จะบอกว่ามันเป็นข้อได้เปรียบ ถ้าเราบอกว่าถ้า Baidu มีข้อได้เปรียบ ข้อได้เปรียบเพียงอย่างเดียวของมันคือพจนานุกรมพิเศษขนาดใหญ่ พจนานุกรมพิเศษนี้ประกอบด้วยชื่อของบุคคล (เช่น Dae Jang Geum) ตำแหน่ง (เช่น หญิงชรา) และชื่อสถานที่บางแห่ง (เช่น สหรัฐอาหรับเอมิเรตส์ เป็นต้น) คาดว่า Baidu ใช้ข้อมูลที่เผยแพร่โดยสถาบันการศึกษา อัลกอริธึมการจดจำเอนทิตีที่มีชื่อค่อนข้างใหม่จะระบุคำที่ไม่ได้ลงทะเบียนในพจนานุกรมอย่างต่อเนื่อง จากคลังข้อมูลและค่อยๆ ขยายพจนานุกรมเฉพาะนี้ออกไป ——บทความนี้มาจากที่อยู่โพสต์ดั้งเดิมของ China SEO Forum: http://www.web520.com/bbs/thread-2742-1-1.html
ข้อมูลผู้เขียน: Lao Chen หนึ่งในผู้ก่อตั้ง China SEO Forum (www.web520.com/bbs)