-
แม้ว่าเสิร์ชเอ็นจิ้นจะได้รับการพัฒนาเป็นอย่างดี แต่ก็ยังต้องเผชิญกับความท้าทายทางเทคนิคหลายประการ โดยหลักๆ ได้แก่:
1. การรวบรวมข้อมูลหน้าจะต้องรวดเร็วและครอบคลุม
เรารู้ว่าอินเทอร์เน็ตเป็นการอัปเดตเนื้อหาแบบไดนามิก ทุกๆ วัน ผู้คนจำนวนมากเผยแพร่เนื้อหาใหม่หรืออัปเดตเนื้อหาเก่าบนอินเทอร์เน็ต เครื่องมือค้นหาจะรวบรวมข้อมูลหน้าเว็บที่ตรงกับความตั้งใจในการค้นหาของผู้ใช้จากข้อมูลจำนวนมหาศาลนี้ เมื่อต้องเผชิญกับข้อมูลจำนวนมหาศาลที่มีอยู่แล้วและปริมาณข้อมูลที่เพิ่มขึ้นตามเรขาคณิตทุกๆ วินาที ทำให้ภาระงานของเครื่องมือค้นหามีจำนวนมาก ต้องใช้เวลามากในการอัปเดตโปรแกรมเครื่องมือค้นหาโดยเฉพาะเมื่อเพิ่งเกิดขึ้น . บางครั้งวงจรสามารถอัปเดตได้ทุก ๆ สองสามเดือน ลองจินตนาการดูว่าภายในไม่กี่เดือนจะมีการอัปเดตหน้าเว็บและรายการใหม่จำนวนเท่าใด ผลการค้นหาดังกล่าวมีแนวโน้มที่จะล่าช้า เพื่อให้ได้ผลลัพธ์การค้นหาที่ดีที่สุด สไปเดอร์ค้นหาจะต้องรวบรวมข้อมูลหน้าเว็บให้ครอบคลุมมากที่สุดเท่าที่จะเป็นไปได้ ซึ่งต้องใช้เครื่องมือค้นหาในการแก้ไขปัญหาทางเทคนิคหลายประการ นี่เป็นความท้าทายหลักที่เผชิญอยู่
2. การจัดเก็บข้อมูลจำนวนมาก
ข้อมูลบนอินเทอร์เน็ตมีขนาดใหญ่มากจนแทบจะจินตนาการไม่ได้ และมีข้อมูลใหม่ๆ เกิดขึ้นมากมายทุกวัน หลังจากที่เครื่องมือค้นหารวบรวมข้อมูลหน้าเว็บเหล่านี้ พวกเขาจะต้องถูกจัดเก็บในรูปแบบข้อมูลที่แน่นอน และโครงสร้างข้อมูลจำเป็นต้องมีความเหมาะสม และจะต้องมี ความสามารถในการขยายขนาดที่สูงมาก ความเร็วในการเขียนข้อมูลต้องเร็ว และความเร็วในการเข้าถึงต้องเร็วเพียงพอ นอกเหนือจากการจัดเก็บข้อมูลจำนวนมากบนหน้าเว็บแล้ว เสิร์ชเอ็นจิ้นยังต้องจัดเก็บความสัมพันธ์ของลิงก์ระหว่างหน้าเว็บ ข้อมูลประวัติบนหน้าเว็บ และข้อมูลดัชนีจำนวนมากเพื่อให้สามารถจัดทำดัชนีและจัดเรียงได้ดียิ่งขึ้น ปริมาณข้อมูลเหล่านี้มีขนาดใหญ่มาก มีความท้าทายด้านเทคนิคมากมายในการจัดเก็บและอ่านข้อมูลขนาดใหญ่เช่นนี้
3. การประมวลผลดัชนีต้องรวดเร็วและมีประสิทธิภาพ และต้องสามารถปรับขนาดได้
หลังจากที่เสิร์ชเอ็นจิ้นรวบรวมข้อมูลและเก็บข้อมูลเพจแล้ว ก็ต้องจัดทำดัชนีเพจหลายเพจด้วย เช่น การคำนวณความสัมพันธ์ระหว่างเพจ ดัชนีไปข้างหน้า ดัชนีย้อนกลับ เป็นต้น ตัวอย่างเช่น มีการคำนวณ PR ของ Google เป็นต้น เสิร์ชเอ็นจิ้นต้องดำเนินการจัดทำดัชนีจำนวนมากเพื่อให้ได้ผลลัพธ์การค้นหาที่รวดเร็ว นอกจากนี้ ในระหว่างกระบวนการจัดทำดัชนี จะมีการสร้างหน้าใหม่จำนวนมาก และจำเป็นต้องมีโปรแกรมประมวลผลดัชนีของเครื่องมือค้นหา ที่จะเปรียบเทียบ scalability ที่ดี
4. การประมวลผลคำค้นหารวดเร็วและแม่นยำ
ขั้นตอนก่อนหน้านี้ทั้งหมดทำงานในโปรแกรมพื้นหลังของเครื่องมือค้นหา และขั้นตอนการสืบค้นเป็นขั้นตอนที่ผู้ใช้สามารถดูผลลัพธ์ได้ หลังจากที่เราใส่คำสำคัญลงในช่องค้นหาของเครื่องมือค้นหาแล้วคลิกค้นหา เครื่องมือค้นหามักจะสามารถส่งผลลัพธ์กลับมาให้เราได้ภายในเวลาไม่ถึงวินาที แม้ว่าภายนอกจะดูเรียบง่าย แต่สำหรับเครื่องมือค้นหาแล้ว จริงๆ แล้วมีความซับซ้อนมาก กระบวนการ มีอัลกอริธึมมากมายที่เกี่ยวข้อง จำเป็นต้องค้นหาหน้าเว็บที่เหมาะสมอย่างรวดเร็วจากหน้าเว็บที่ตรงตามเงื่อนไขพื้นฐานภายในเวลาไม่ถึงวินาทีและติดอันดับด้านหน้าของเครื่องมือค้นหา เรารู้ว่า Baidu สามารถดูผลลัพธ์ได้สูงสุด 76 หน้า และ Google ก็มีมากกว่านั้นอีกเล็กน้อย และสามารถดูผลลัพธ์ได้สูงสุด 100 หน้า
แหล่งที่มาของบทความ: http://www.suptb.cn/ โปรดระบุแหล่งที่มาเมื่อพิมพ์ซ้ำ ขอบคุณครับ
ขอขอบคุณ danieldu2008 สำหรับการสนับสนุนของเขา