ฉันดูแลเว็บไซต์ภาษาอังกฤษบางแห่งในบริษัท โดยทำงาน SEO เป็นประจำทุกวัน เช่น เพิ่มลิงก์ สร้างคีย์เวิร์ด เป็นต้น อย่างไรก็ตาม ตั้งแต่เดือนมีนาคม 2009 เว็บไซต์ดังกล่าวมักเต็มไปด้วยลิงก์ที่ซ่อนอยู่ นี่เป็นการบุกรุกของแฮ็กเกอร์ทั่วไป อาจมีการเพิ่มแบ็คดอร์เข้าไปในระบบของเว็บไซต์ ตั้งแต่นั้นเป็นต้นมา ลิงก์ที่ซ่อนไว้ก็มักจะถูกเพิ่มเข้าไปในหน้าแรก แม้ว่าจะมีการครอบคลุมไปแล้ว แต่หนึ่งหรือสองวันต่อมา ลิงก์ที่ซ่อนไว้ก็ได้ถูกเพิ่มเข้าไปในหน้าแรกอีกครั้ง แต่สำหรับเรื่องนี้ ฉันเพิ่งตรวจสอบไฟล์บันทึกโดยไม่ได้ตั้งใจและไม่พบเบาะแสใด ๆ ดังนั้นฉันจึงไม่ได้จริงจังกับมัน ฉันคิดว่ามันเป็นเพียงการเพิ่มลิงก์สองสามอันและมันไม่ใช่เรื่องใหญ่อะไร
เมื่อวันที่ 19 มิถุนายน ฉันตรวจสอบเว็บไซต์ในตอนเช้าและพบว่าจำนวนการเข้าชมเว็บไซต์ลดลงอย่างมาก ฉันรู้สึกแปลก ๆ ฉันเห็นว่าผู้เยี่ยมชมทั้งหมดมาจาก Yahoo! และ Bing แต่ไม่ใช่จาก Google เครื่องมือของผู้ดูแลระบบ Google ให้ดู ตั้งแต่วันที่ 17 Google ส่งอีเมลแจ้งฉันว่าเว็บไซต์ถูกลบเนื่องจากเพิ่มข้อความที่ซ่อนอยู่ ฉันตกใจมาก จึงดาวน์โหลดทั้งเว็บไซต์ เจอแฮกเกอร์แบ็คดอร์ ลบทิ้ง แก้ไขเพจและส่งใหม่เพื่อตรวจสอบอีกครั้ง สองวันต่อมา ในเช้าวันที่ 21 ฉันพบว่าเว็บไซต์ได้รับการจัดทำดัชนีใหม่และอันดับโดยทั่วไปยังคงไม่เปลี่ยนแปลง
มีหลายประเด็นที่น่าสังเกต คือ ในวันที่ 17 Google ส่งอีเมลแจ้งการลบดัชนี แต่ในวันนั้น ยังคงมีการเข้าชมจาก Google เลย ในการเปลี่ยนแปลงจำนวนการเข้าชม เห็นได้ชัดเจนมาก กล่าวคือ แม้ว่าทีมคุณภาพการค้นหาของ Google จะส่งอีเมลแจ้งว่าดัชนีถูกลบไปแล้ว แต่จริงๆ แล้วดัชนียังไม่ได้ถูกลบออกทั้งหมดก็ยังมี การเข้าชมที่มาจาก Google และอีกสองวันต่อมา Google ก็รวมเว็บไซต์อีกครั้ง และโดยพื้นฐานแล้วอันดับไม่ได้อยู่ที่นั่น จำนวนหน้าที่จัดทำดัชนีไม่ได้เปลี่ยนแปลงไปมากนักจากเมื่อก่อน แต่สิ่งที่น่าสังเกตเป็นพิเศษคือฉันพบว่า Google Snapshot ของหน้าแรกตั้งแต่วันที่ 18 มิถุนายน การค้นพบนี้ค่อนข้างน่าตกใจจริงๆ กล่าวคือ หลังจากลบดัชนีแล้ว Google Spider ก็ยังรวบรวมข้อมูลหน้าเว็บอยู่
หลังจากลบดัชนีในวันที่ 19 แล้ว ไม่สามารถค้นหาเว็บไซต์ทั้งหมดบน Google ได้ ต่อมาก็ถูกจัดทำดัชนีใหม่ ผมเห็นว่าภาพรวมของหน้าส่วนใหญ่มาจากก่อนวันที่ 17 ดัชนีเป็นจริง มันถูกลบออกจากฐานข้อมูลดัชนีโดย Google อย่างสมบูรณ์หรือไม่ ฉันกลัวว่าไม่จำเป็น ไม่เช่นนั้นวันที่สแน็ปช็อตจะไม่ใช่วันที่ก่อนที่จะลบ แต่เป็นวันที่รวบรวมข้อมูลใหม่หลังจากตรวจสอบ
ที่นี่ฉันกล้าคาดเดา ไม่มีใครรู้อัลกอริทึมของเครื่องมือค้นหาของ Google แต่มีร่องรอยบางอย่างที่สามารถเดาได้: Google ใช้กลยุทธ์ดังกล่าวและมีเซิร์ฟเวอร์เฉพาะเพื่อจัดเก็บไฟล์ที่ถูกลงโทษหรือถูกลบหรือไม่ เว็บไซต์ก็เหมือนกับ Google Sandbox แม้แต่วิธีการประมวลผลหน้าเว็บดัชนีที่ถูกลบก็เป็นอีกหนึ่งลักษณะของ Google Sandbox เมื่อเว็บไซต์ถูกลบออกจากดัชนี ดัชนีทั้งหมดจะถูกย้ายไปยังเซิร์ฟเวอร์ดังกล่าวในดัชนีการจัดอันดับปกติของเว็บไซต์เหล่านี้ จะไม่มีอยู่ใน แล้ว แต่สไปเดอร์จะยังคงเยี่ยมชมเว็บไซต์ที่ถูกบล็อกเหล่านี้ ซึ่งสามารถดูได้ผ่านวันที่สแน็ปช็อต มิฉะนั้น จะสามารถเห็นได้ผ่านไฟล์บันทึกของเซิร์ฟเวอร์ เมื่อตรวจสอบเว็บไซต์อีกครั้งและผ่านแล้ว ก็จะใช้เวลา เวลาที่สั้นมากในการย้ายจากเซิร์ฟเวอร์ดังกล่าวไปยังดัชนีปกติ นี่คือสาเหตุที่เมื่อผ่านการตรวจสอบแล้ว จำนวนหน้าที่รวมไว้จะกลับมาจาก 0 ไปยังระดับก่อนหน้า หากรวมใหม่อีกครั้ง ก็ไม่ควรเป็นเช่นนั้น ความเร็วในการรวมที่รวดเร็ว
ฉันแค่หยิบยกประเด็นบางอย่างที่ฉันค้นพบ ฉันหวังว่าเพื่อน ๆ จะสามารถเสนอความคิดเห็นของตนเองและสื่อสารกับฉันได้