การวิเคราะห์โดยย่อเกี่ยวกับหลักการของเครื่องมือค้นหา: การจับคู่ไฟล์และการคัดกรองเซ็ตย่อยเริ่มต้น

ผู้เขียน：Eve Cole เวลาอัปเดต：2011-03-21 16:26:40

การจับคู่ไฟล์และการเลือกเซ็ตย่อยเริ่มต้นเป็นสองประเด็นที่สำคัญมากในกระบวนการจัดอันดับของเครื่องมือค้นหา วันนี้ผมจะให้ข้อมูลสรุปเบื้องต้นเกี่ยวกับทั้งสองประเด็นนี้ แม้ว่าสิ่งเหล่านี้ดูเหมือนจะไม่เกี่ยวข้องกับเรา แต่ทุกคนควรเรียนรู้เพิ่มเติมเกี่ยวกับหลักการพื้นฐานบางประการ ซึ่งจะมีความสำคัญเป็นแนวทางสำหรับการสร้างเว็บไซต์และการเพิ่มประสิทธิภาพในอนาคต แน่นอนว่านี่เป็นเพียงบทสรุปบางส่วนของฉันเอง ฉันหวังว่า โปรดทำการแก้ไข

หลังจากที่เครื่องมือค้นหาผ่านการประมวลผลล่วงหน้าสองสามขั้นตอนแรก สิ่งที่เครื่องมือค้นหาได้รับคือชุดของคำหลักในหน่วยคำ ก่อนหน้านี้ เครื่องมือค้นหาได้รับไฟล์หนึ่งไฟล์ที่สอดคล้องกับคำหลักหลายคำ แต่ประสิทธิภาพการค้นหาดังกล่าวต่ำเกินไปและไม่สมจริง ดังนั้นเครื่องมือค้นหาจะแมปไฟล์เหล่านี้แบบย้อนกลับ และผลลัพธ์ก็คือคำหลักหนึ่งคำที่สอดคล้องกับเอกสารคำหลักหลายคำ ด้วยวิธีนี้ เมื่อผู้ใช้ค้นหาคำสำคัญบางคำ การคำนวณและการจับคู่จะดำเนินการในไฟล์ทั้งหมดที่สอดคล้องกับคำสำคัญ และผลการค้นหาที่ดีที่สุดจะถูกส่งกลับไปยังผู้ใช้ หลังจากทำความเข้าใจกระบวนการทั่วไปนี้แล้ว เรามาเริ่มแบ่งปันประเด็นหลักสองประการของวันนี้กันดีกว่า

ประการแรกคือการจับคู่ไฟล์: สไปเดอร์ของเครื่องมือค้นหากำลังรวบรวมข้อมูลและดึงข้อมูลอยู่ตลอดเวลา และพวกมันจะเรียงลำดับ สรุป และจัดเก็บข้อมูลที่บันทึกไว้อย่างต่อเนื่อง กระบวนการเหล่านี้จะไม่ดำเนินการเมื่อผู้ใช้ค้นหา แต่เป็นการประมวลผลล่วงหน้าก่อนและหลังการค้นหา เมื่อผู้ใช้ค้นหาคำสำคัญบางคำ เครื่องมือค้นหาจะค้นหาเฉพาะในฐานข้อมูลของตัวเอง แทนที่จะค้นหาทางอินเทอร์เน็ตแบบเรียลไทม์ บนเว็บไซต์ทั้งหมด เพื่ออธิบายให้ชัดเจนยิ่งขึ้น ฉันจะอธิบายให้คุณฟังด้วยแผนภาพง่ายๆ:

รูปภาพนี้เป็นตารางไฟล์การจับคู่ด่วนแบบดัชนีกลับหัวทั่วไป เมื่อผู้ใช้ค้นหา "คำหลัก 1 คำหลัก 16" โปรแกรมค้นหาจะทำการคำนวณและจับคู่อย่างง่ายในไฟล์ทั้งหมดที่สอดคล้องกับสองคำนี้ และค้นหาไฟล์ที่มีคำหลัก 1 ยังมีทุกหน้าของคำหลัก 16

ประการที่สองคือการคัดกรองเซ็ตย่อยเริ่มต้น: เซ็ตย่อยคือการตอบสนองความต้องการของผู้ใช้อย่างรวดเร็วยิ่งขึ้น เครื่องมือค้นหาจำเป็นต้องเลือกจากเพจที่เกี่ยวข้องทั้งหมด และคำนวณเฉพาะเพจที่มีน้ำหนักสูงกว่าเล็กน้อยแล้วส่งคืนให้กับผู้ใช้ มักเรียกว่าเซตย่อยเริ่มต้น คุณคงจินตนาการได้ว่าเมื่อเราค้นหาคำหลักบางคำ จำนวนหน้าที่มีคำหลักนี้มักจะมีขนาดใหญ่มาก อาจเป็นหลักแสนหรือหลายล้านหน้าก็ตาม หากเครื่องมือค้นหาจับคู่จากข้อมูลจำนวนมากก็จะใช้เวลานานขึ้นอย่างเห็นได้ชัด เพื่อให้ตรงกับความต้องการของผู้ใช้มากขึ้น ในทางปฏิบัติเครื่องมือค้นหาจะเลือกเฉพาะหน้าเว็บที่มีน้ำหนักมากมาจับคู่ แต่หน้าเว็บประเภทใดที่มีข้อมูลสูง น้ำหนัก? เพื่อให้ตรงตามเงื่อนไขของเครื่องมือค้นหา? ซึ่งรวมถึงอิทธิพลของเนื้อหาและองค์ประกอบที่เกี่ยวข้องกับเพจหลายๆ ด้าน ทั้งปัจจัยภายนอกและภายใน ปัญหานี้ไม่ได้เน้นไปที่บทสรุปของบทความนี้ ฉันจะแชร์กับคุณอย่างช้าๆ ในบทความต่อๆ ไป

โดยปกติแล้วเมื่อเราค้นหา เป็นไปไม่ได้ที่จะดูผลการค้นหาทั้งหมดทีละรายการ โดยทั่วไป เราจะดูเฉพาะสองสามหน้าแรกหรือแม้แต่สองสามหน้าแรกเท่านั้น แม้ว่าจะมีผลลัพธ์ที่เกี่ยวข้องมากมายที่ส่งคืนโดยเครื่องมือค้นหา แต่ผลลัพธ์เหล่านี้กลับเป็นเช่นนั้น ยังคงมีคุณสมบัติบนอินเทอร์เน็ต มันเป็นส่วนเล็ก ๆ ของหน้าเว็บจำนวนมาก ดังนั้น พฤติกรรมการค้นหาของผู้ใช้จึงเปลี่ยนไป และเครื่องมือค้นหาก็เผชิญกับความท้าทายอย่างมากเช่นกัน กำลังพยายามทำสิ่ง

ณ จุดนี้ ฉันได้แบ่งปันหลักการพื้นฐานของเครื่องมือค้นหาผ่านการจับคู่ไฟล์และการคัดกรองเซ็ตย่อยเริ่มต้น แน่นอนว่ายังมีอีกหลายสิ่งที่จำเป็นต้องเกี่ยวข้องในทางเทคนิค และทุกแง่มุมที่ต้องพิจารณามีความครอบคลุมและซับซ้อนมากขึ้น นี่เป็นเพียงผมได้สรุปหลักการทั่วไปสำหรับทุกคน ด้วยการทำความเข้าใจทุกแง่มุมของเครื่องมือค้นหา จึงสามารถมีบทบาทชี้นำในการสร้างเว็บไซต์และการเพิ่มประสิทธิภาพเครื่องมือค้นหาของเรา

เอาล่ะ สำหรับบทความนี้เพียงเท่านี้ ฉันจะสรุปและแบ่งปันกับคุณต่อไปในอนาคต บทความนี้มาจาก: Beijing SEO, เว็บไซต์: http://www.seostudy.org/ โปรดเก็บลิขสิทธิ์สำหรับการพิมพ์ซ้ำ ขอขอบคุณ!

ขอขอบคุณ Beijing SEO สำหรับการสนับสนุนของคุณ