การทำความเข้าใจเทคโนโลยีการแบ่งส่วนคำของเครื่องมือค้นหามีความสำคัญอย่างยิ่งต่องาน SEO ของเรา ไม่ว่าจะเป็นการจัดวางคำหลักหรือโครงสร้างลิงก์ ก็มีความเกี่ยวข้องอย่างใกล้ชิดกับการแบ่งส่วนคำ เซียวฮันจะพูดถึงการแบ่งคำภาษาจีนของไป่ตู้ (แน่นอนว่าไม่ได้จำกัดอยู่แค่ไป่ตู้ แต่เครื่องมือค้นหาอื่นๆ ก็คล้ายกัน) บทความนี้แบ่งออกเป็นสองส่วน ส่วนแรกคือการแยกคำอธิบายที่มีอยู่เกี่ยวกับการแบ่งส่วนคำ จากนั้นจึงเพิ่มแนวคิดเพิ่มเติมของฉันเองเกี่ยวกับการแบ่งส่วนคำ
การแบ่งส่วนคำภาษาจีนคืออะไร?
เราทุกคนรู้ดีว่าประโยคภาษาอังกฤษประกอบด้วยคำที่คั่นด้วยช่องว่าง ดังนั้นการแบ่งคำจึงสะดวกกว่ามาก อย่างไรก็ตาม ประโยคภาษาจีนของเราประกอบด้วยตัวอักษรจีนที่เชื่อมต่อกันทีละตัว ดังนั้นจึงค่อนข้างซับซ้อน การแบ่งส่วนคำภาษาจีนหมายถึงกระบวนการตัดประโยคภาษาจีนออกเป็นคำแต่ละคำแล้วประกอบกลับเป็นลำดับคำตามกฎเกณฑ์บางประการ สิ่งนี้เรียกว่า "การแบ่งส่วนคำภาษาจีน"
การแบ่งส่วนคำมีบทบาทอย่างมากในเครื่องมือค้นหาและเป็นพื้นฐานของการขุดข้อความ โดยสามารถช่วยให้โปรแกรมระบุความหมายของประโยคได้โดยอัตโนมัติเพื่อให้บรรลุการจับคู่ในระดับสูงในผลการค้นหา คุณภาพของการแบ่งส่วนคำส่งผลโดยตรงต่อความแม่นยำของผลการค้นหา . ในปัจจุบัน วิธีการแบ่งคำในเครื่องมือค้นหาส่วนใหญ่ใช้การจับคู่พจนานุกรมและสถิติ
1. วิธีการแบ่งคำตามการจับคู่พจนานุกรม
วิธีแรกต้องใช้พจนานุกรมขนาดใหญ่มากซึ่งเป็นไลบรารี่ดัชนีการแบ่งส่วนคำ จากนั้นจึงจับคู่สตริงที่จะแบ่งส่วนกับคำในอรรถาภิธานตามกฎเกณฑ์บางประการ หากพบคำใดคำหนึ่ง การจับคู่จะสำเร็จ สี่วิธีการจับคู่:
1. วิธีจับคู่ไปข้างหน้าสูงสุด (ทิศทางจากซ้ายไปขวา)
2. วิธีจับคู่สูงสุดแบบผกผัน (ทิศทางจากขวาไปซ้าย)
3. การแบ่งส่วนขั้นต่ำ (ลดจำนวนคำในแต่ละประโยคให้เหลือน้อยที่สุด)
4. วิธีจับคู่สูงสุดแบบสองทิศทาง (สแกนสองครั้งจากซ้ายไปขวาและจากขวาไปซ้าย)
โดยทั่วไปแล้ว เครื่องมือค้นหาจะใช้วิธีการต่างๆ ผสมผสานกัน แต่วิธีการนี้ยังนำความยากลำบากมาสู่เครื่องมือค้นหา เช่น การจัดการกับความคลุมเครือ (กุญแจสำคัญคือความกว้างและความลึกของภาษาจีนของเรา) เพื่อปรับปรุงความแม่นยำของการจับคู่ เสิร์ชเอ็นจิ้นจะจำลองความเข้าใจของมนุษย์ในประโยคเพื่อให้เกิดการจดจำคำ . ผล. แนวคิดพื้นฐานคือการวิเคราะห์วากยสัมพันธ์และความหมายในขณะที่แบ่งคำ และใช้ข้อมูลวากยสัมพันธ์และข้อมูลความหมายเพื่อจัดการกับความคลุมเครือ โดยปกติจะประกอบด้วยสามส่วน: ระบบย่อยการแบ่งส่วนคำ ระบบย่อยไวยากรณ์และความหมาย และส่วนควบคุมโดยรวม ภายใต้การประสานงานของส่วนควบคุมโดยรวม ระบบย่อยการแบ่งส่วนคำสามารถรับข้อมูลทางวากยสัมพันธ์และความหมายเกี่ยวกับคำ ประโยค ฯลฯ เพื่อตัดสินความคลุมเครือของการแบ่งส่วนคำ นั่นคือ จำลองกระบวนการทำความเข้าใจประโยคของมนุษย์ วิธีการแบ่งคำนี้ต้องใช้ความรู้และข้อมูลทางภาษาจำนวนมาก แน่นอนว่าเครื่องมือค้นหาของเราก็มีการปรับปรุงอย่างต่อเนื่องเช่นกัน
2. วิธีการแบ่งคำตามสถิติ
แม้ว่าพจนานุกรมการแบ่งส่วนคำจะช่วยแก้ปัญหาได้มากมาย แต่ก็ยังไม่เพียงพอ เครื่องมือค้นหาจะต้องมีความสามารถในการค้นหาคำศัพท์ใหม่ ๆ อย่างต่อเนื่องและพิจารณาว่าเป็นคำที่แยกจากกันหรือไม่โดยการคำนวณความน่าจะเป็นที่คำที่อยู่ติดกันจะปรากฏ ดังนั้น ยิ่งคุณมีบริบทมากเท่าใด ความเข้าใจประโยคก็จะยิ่งแม่นยำยิ่งขึ้น และการแบ่งส่วนคำก็จะยิ่งแม่นยำมากขึ้นเท่านั้น ตัวอย่างเช่น "การเพิ่มประสิทธิภาพกลไกค้นหา" อาจตรงกันในพจนานุกรมเป็น: search/engine/optimization, search/index/engine/optimization แต่หลังจากการคำนวณความน่าจะเป็นในภายหลัง พบว่า "การเพิ่มประสิทธิภาพกลไกค้นหา" อยู่ติดกันในบริบท . หากปรากฏบ่อยคำนั้นจะถูกเพิ่มเข้าไปในดัชนีคำตามสถิติ
การใช้การแบ่งคำภาษาจีน
ความแม่นยำของการแบ่งส่วนคำมีความสำคัญมากสำหรับเครื่องมือค้นหา แต่ถ้าความเร็วของการแบ่งส่วนคำช้าเกินไปไม่ว่าความแม่นยำจะสูงแค่ไหนก็จะใช้กับเครื่องมือค้นหาไม่ได้เพราะเครื่องมือค้นหาจำเป็นต้องประมวลผลเว็บหลายร้อยล้าน หากการแบ่งส่วนคำใช้เวลานานเกินไปจะส่งผลต่อความเร็วในการอัปเดตเนื้อหาเครื่องมือค้นหาอย่างมาก ดังนั้นสำหรับเครื่องมือค้นหา ทั้งความแม่นยำและความเร็วของการแบ่งส่วนคำจึงต้องเป็นไปตามข้อกำหนดที่สูงมาก
สำหรับผู้ปฏิบัติงาน SEO อย่างเรา เราต้องเชี่ยวชาญหลักการและวิธีการแบ่งส่วนคำ เพื่อที่เราจะได้ออกแบบเว็บไซต์ของเราเพื่อให้เครื่องมือค้นหาสามารถระบุความเกี่ยวข้องของหัวข้อได้อย่างง่ายดาย ตัวอย่างเช่น เว็บไซต์ของเราเกี่ยวกับการฝึกอบรม SEO เมื่อผู้ใช้ค้นหาคำนี้ เครื่องมือค้นหาจะแบ่งกลุ่มคำนั้นก่อน เช่น "SEO" และ "การฝึกอบรม" จากนั้นจึงจับคู่คำนั้นแยกกันในฐานข้อมูลดัชนี มีอีกประเด็นหนึ่งที่เกี่ยวข้องที่นี่ และมันเป็นบทสรุปของฉันเอง หลังจากแต่ละการแบ่งคำ จะมีหัวเรื่องและคำวิเศษณ์ โดยปกติแล้ว หัวเรื่องจะถูกจับคู่ก่อน จากนั้นคำวิเศษณ์จะถูกจับคู่อย่างชัดเจน เรื่องที่นี่จึงจับคู่ก่อนแล้วจึงตามด้วยคำวิเศษณ์ของการฝึกอบรม ดังนั้นจึงเหลือให้ทุกคนพิจารณาว่าเว็บไซต์ของเราควรจัดวางและจัดโครงสร้างอย่างไร
ผู้แต่ง: เซียวฮัน เผยแพร่บล็อก SEO เซียวฮันครั้งแรก
ที่อยู่เดิม: http://www.xiaohan86.com/2011061149.html โปรดระบุแหล่งที่มาเมื่อพิมพ์ซ้ำ
ขอบคุณเสี่ยวฮั่นสำหรับการสนับสนุนของคุณ