ภาระหน้าที่ของเครื่องมือค้นหาในการระบุหน้าเว็บอย่างถูกต้องไม่ใช่ของขวัญ

ผู้เขียน：Eve Cole เวลาอัปเดต：2012-08-22 10:34:20

เมื่อวันที่ 13 เมษายน 2010 ใน Baidu Tieba Webmaster Club, ZAC ผู้เชี่ยวชาญด้าน SEO ชาวจีนที่มีชื่อเสียงได้ถามในโพสต์ว่า "การถามคำถามในนามของผู้อื่นว่าเนื้อหาต้นฉบับไม่สามารถระบุได้": "การจัดอันดับเนื้อหาต้นฉบับของฉันเอง มักจะไม่ดีเท่ากับเนื้อหาที่พิมพ์ซ้ำหรือลอกเลียนแบบ เว็บมาสเตอร์สามารถทำอะไรได้บ้างเพื่อป้องกันหรือปรับปรุง เว็บไซต์ของฉันอัปเดตเนื้อหาต้นฉบับทุกวัน และ Baidu ก็อัปเดตเนื้อหาดังกล่าวทุกวัน อย่างไรก็ตาม หลังจากที่ผู้อื่นรวมการพิมพ์ซ้ำแล้ว ไม่สามารถค้นหาได้ ฉันยืนหยัดมาเกือบ 4 ครั้ง มันเป็นงานดั้งเดิมของฉัน แต่ Baidu ยังคงทิ้งฉันไปมากกว่า 500 แห่ง!”

เมื่อสองปีที่แล้ว ตัวแทนผู้ดูแลเว็บของ ZAC ได้พูดคุยกับ Lee ซึ่งเป็นตัวแทนของ Baidu ในประเด็นเรื่องการผนวกรวมดั้งเดิม

กว่าสองปีผ่านไปและสถานการณ์ที่ระบุไว้ในคำถามข้างต้นไม่ได้เปลี่ยนแปลงและแย่ลงไปอีก อย่างไรก็ตาม เว็บไซต์เปิดตัวเนื้อหาต้นฉบับได้สูญเสียชื่อเสียงไปแล้ว สิ่งนี้ไม่ยอมรับการแพร่กระจายของสิ่งที่เรียกว่า SEO โดยอาศัย "การคัดลอกและรวบรวมต้นฉบับปลอม" ที่กำหนดเป้าหมายข้อบกพร่องของ Baidu

ไม่น่าแปลกใจเลยที่งาน "Webmaster Clinic Open Day" ของไป่ตู้ในวันที่ 10 สิงหาคมปีนี้ ปัญหาการระบุความเป็นต้นฉบับกลายเป็นคำถามที่ผู้ดูแลเว็บและ SEOER มักถามลี วิศวกรค้นหาของไป่ตู้

ไม่น่าแปลกใจเลยที่คำตอบของวิศวกรค้นหาของ Baidu Lee เป็นการเลียนแบบคำตอบของเขาเมื่อสองปีที่แล้ว: "อาจกล่าวได้ว่ากลยุทธ์ของ Baidu ยังไม่สมบูรณ์แบบ และเราได้ปรับปรุงอัลกอริทึมการระบุตัวตนดั้งเดิมที่สมบูรณ์แบบ"

ผู้ที่ติดตามข่าวไป่ตู้จะพบว่าคำตอบของไป่ตู้ ลี "เรากำลังออกแบบชุดอัลกอริธึมการระบุตัวตนแบบดั้งเดิมที่ค่อนข้างสมบูรณ์" นั้นเป็นการตอบสนองต่อ "มาตรการต่อต้านไซต์คุณภาพต่ำ" ของทีมป้องกันการฉ้อโกงการค้นหาเว็บของ Baidu เมื่อวันที่ 2 กรกฎาคม "มาตรการต่อต้านเว็บไซต์คุณภาพต่ำ (เว็บไซต์ต้นฉบับปลอมและเว็บไซต์ที่ไม่ใช่ต้นฉบับ) มีผลบังคับใช้" - ทุกคนยังจำได้ว่าในเวลานั้น "มาตรการต่อต้านเว็บไซต์คุณภาพต่ำได้มีผลแล้ว" กล่าวอย่างยิ่งใหญ่: "เพื่อให้มีคุณภาพสูง สำหรับผู้ดูแลเว็บที่ใช้แหล่งข้อมูลดั้งเดิม เนื่องจากเราลดหรือกำจัดการจัดอันดับไซต์คุณภาพต่ำ คุณจะได้รับการเข้าชมจาก Baidu มากขึ้น"

แต่น้อยกว่าสองเดือนต่อมา คำตอบของวิศวกรค้นหา Baidu Lee ปฏิเสธคำสั่งของทีมป้องกันการฉ้อโกงการค้นหาเว็บ Baidu อย่างสมบูรณ์ ซึ่งน่าตกใจจริงๆ

ยิ่งไปกว่านั้น เมื่อต้องเผชิญกับคำถามในการระบุ "เนื้อหาต้นฉบับ" สองครั้งหลังจากผ่านไปสองปี Baidu Lee ก็นำวิธี "มองไปรอบ ๆ และพูดคุยเกี่ยวกับมัน" มาใช้เพื่อจัดการกับมันโดยไม่ได้ตั้งใจ เมื่อสองปีที่แล้ว คำตอบของ Lee คือ "จากมุมมองของ ประสบการณ์การใช้งานการพิมพ์ซ้ำบางฉบับอาจไม่เลวร้ายไปกว่าต้นฉบับ...เป็นเพียงการพิมพ์ในประเทศซึ่งหลายฉบับถูกตัดออกไปตั้งแต่ต้นจนจบซึ่งทำให้ผู้เขียนต้นฉบับได้รับบาดเจ็บมากขึ้น” โดยมุ่งเป้าไปที่ปัญหาความผิดปกติในประเทศมากกว่า การพิมพ์ซ้ำในปีนี้ คำตอบของ Baidu Lee คือ: "(Baidu ได้รับการร้องเรียนมากกว่า 80% ที่อ้างว่าเป็นต้นฉบับนั้นไม่ถูกต้อง และยังมีเว็บไซต์จำนวนมากที่อ้างว่าแพทย์แผนจีนโบราณสามารถรักษาโรคระยะสุดท้ายได้ 3-5 วัน ไม่สามารถอ่านเนื้อหาทั้งหมดได้และอ้างว่าเป็นเว็บไซต์คุณภาพสูง"

ไม่อาจปฏิเสธได้ว่าสิ่งที่ Lee พูดนั้นเป็นข้อเท็จจริงทั้งหมด แต่การสะสมรายละเอียดที่แท้จริงไม่เท่ากับภาพรวมที่แท้จริง การมีอยู่ของสถานการณ์ทั่วไปเหล่านี้ไม่ได้หมายความว่าไม่มีเนื้อหาต้นฉบับคุณภาพสูงในอุตสาหกรรมอินเทอร์เน็ตของจีนและก็ไม่เป็นเช่นนั้น หมายความว่า Baidu ไม่สามารถระบุเว็บไซต์ได้ สาเหตุของการเปิดตัวครั้งแรก ดังคำกล่าวที่ว่า "ถ้าคุณไม่มีเพชร ก็อย่ายุ่งกับเครื่องลายคราม" คำกล่าวของ Baidu Lee สามารถพิสูจน์ได้ว่าความสามารถของ Baidu ในการระบุเนื้อหาต้นฉบับและการลบหน้าที่ซ้ำกันไม่ได้ดีขึ้นเลย

จะต้องเน้นย้ำว่าหลังจากเข้าใจว่าความสามารถที่ไม่ดีในการระบุหน้าต้นฉบับเป็นจุดอ่อนของเครื่องมือค้นหาทั้งหมด ผู้เขียนต้นฉบับระดับรากหญ้าจำนวนมากได้เพิ่มคำชี้แจงลิขสิทธิ์ที่ส่วนท้ายของบทความเพื่อทำเครื่องหมาย URL เริ่มต้นและในเวลาเดียวกัน พวกเขาได้รับคำแนะนำจากวิธีการ "ซิงโครไนซ์เนื้อหา" ของการส่งเว็บไซต์อุตสาหกรรมคุณภาพสูง เครื่องมือค้นหาและผู้ดูแลเว็บที่โพสต์ใหม่ - แม้ว่าลิงก์ที่ได้รับส่วนใหญ่เป็นลิงก์ข้อความธรรมดา แต่วิศวกรค้นหาของ Baidu Lee กล่าวว่า "มาชี้แจงคำถาม: สามารถลิงก์ใน รูปแบบของข้อความธรรมดา (ไม่ใช่แท็ก) ได้รับการยอมรับและประมวลผลหรือไม่ คำตอบ "ใช่ สไปเดอร์ของเครื่องมือค้นหาจำเป็นต้องค้นพบและรวบรวมข้อมูลลิงก์บนอินเทอร์เน็ตในเวลาที่เหมาะสม ไม่ว่าลิงก์จะอยู่ในรูปแบบใด" ซึ่งทำให้พวกเขามั่นใจ

สิ่งที่ทำให้ผู้ดูแลเว็บเหล่านี้ผิดหวังก็คือ เว็บไซต์ที่ส่งและพิมพ์ซ้ำที่เชื่อถือได้จำนวนมากในอุตสาหกรรมไม่ได้ "พิมพ์ซ้ำตั้งแต่ต้นจนจบ" ดังที่ Baidu Lee กล่าว และหน้าเว็บของเว็บไซต์ที่ส่งหรือพิมพ์ซ้ำที่มีน้ำหนักมากจะถูกสร้างขึ้นและรวมอยู่ด้วย โดยเสิร์ชเอ็นจิ้นเร็วกว่าอย่างเห็นได้ชัด " ในกรณีของ "การคัดลอกและรวบรวมเว็บไซต์หลอกต้นฉบับ" ยังมีหน้าแรกต้นฉบับจำนวนมากที่ Baidu ละเลย อันดับของ "การคัดลอกและรวบรวมหลอกต้นฉบับ" เว็บไซต์ต่างๆ ยังคงอยู่ในระดับสูง - หน้าเหล่านี้จำนวนมากยังคงสุ่มดักจับบางส่วนของบทความ และไม่ได้แสดงแก่นเรื่องของบทความได้ครบถ้วน ไม่สามารถตอบสนองมาตรฐาน "ประสบการณ์การใช้งานที่ดีขึ้น" ที่โฆษณาโดย Baidu ได้

จะต้องสังเกตว่าแม้ว่าการระบุหน้าต้นฉบับเป็นจุดอ่อนของเครื่องมือค้นหามาโดยตลอด แต่ไม่ใช่ว่าเครื่องมือค้นหาทั้งหมดจะทำงานได้แย่เท่ากับ Baidu เมื่อเผชิญกับ URL ที่มีน้ำหนักสูงจำนวนมากที่ชี้ไปยังหน้าเริ่มต้นดั้งเดิม ดังที่ Wang Tong ซึ่งเป็น SEOER ในประเทศที่มีชื่อเสียงกล่าว เมื่อเผชิญกับการแพร่กระจายของ "การคัดลอกและรวบรวมต้นฉบับปลอม" บนอินเทอร์เน็ตของจีน สำหรับหน้าเปิดตัวดั้งเดิมพร้อมคำแนะนำ URL คำชี้แจงลิขสิทธิ์ (นอกเหนือจากการเผยแพร่ เวลา, ความเป็นสากลของลิงก์และน้ำหนักหน้าลิงก์ของเว็บไซต์ ฯลฯ มาตรฐาน) Google ไม่ได้รับความล้มเหลวโดยสิ้นเชิงเช่น Baidu ซึ่งอ้างว่า "รู้จักภาษาจีนดีที่สุด" - การค้นหาที่เกี่ยวข้องกับบล็อกบัสเตอร์ยอดนิยมถูกครอบครองโดยเพจต้นฉบับหลอกที่คัดลอกและรวบรวม และหน้าแรกเดิมก็หายไปอย่างไร้ร่องรอย

สิ่งนี้แสดงให้เห็นว่า Baidu ซึ่ง “รู้จักภาษาจีนดีที่สุด” จะต้องดำเนินการระบุตัวตนดั้งเดิมและลบหน้าที่ซ้ำกัน (เพื่อระบุหน้าข้อมูลคุณภาพสูงและหน้าเสริมที่สำคัญสำหรับคำแนะนำที่สำคัญ) ก่อนที่จะแนะนำ URL ให้ค้นหาชาวเน็ตผ่านการจัดทำดัชนีคำหลัก ยังไม่เสร็จสมบูรณ์ เหตุผลก็คือระดับทางเทคนิคต่ำมากและมีความจำเป็นเร่งด่วนที่จะต้องตามให้ทัน และคำกล่าวของ Baidu Lee ก็กำลังมองหาข้อแก้ตัวสำหรับ Baidu อยู่ตลอดเวลา

ยิ่งไปกว่านั้น ในการเปรียบเทียบ ประสิทธิภาพที่ดีขึ้นของ Google ในการระบุที่อยู่เริ่มต้นดั้งเดิมพิสูจน์ให้เห็นว่า Baidu ไม่สนใจหน้าเริ่มต้นดั้งเดิม แต่สนใจเพียงเนื้อหาต้นฉบับมากกว่า - แต่ขาดการรับรู้เรื่องลิขสิทธิ์ที่เหมาะสม ฉันคิดว่านี่คือสิ่งที่ Baidu กำลังทำอยู่ เป็นเวลานานแล้ว สาเหตุหลักที่ทำให้อัลกอริธึมเว็บไซต์เดิมล้าหลังคือ "เป็นไปไม่ได้หรือไม่"

ไม่น่าแปลกใจเลยที่ Wang Tong ซึ่งเป็น SEOER ในประเทศที่มีชื่อเสียงกล่าวว่า "การปรับเปลี่ยน 628 ของ Baidu คือการปราบปรามเว็บไซต์ดั้งเดิม" เว็บมาสเตอร์และ SEOER จำนวนมากรู้สึกเศร้า

ในความเป็นจริงหากเทคโนโลยีการระบุตัวตนของหน้าแรกดั้งเดิมสามารถปรับปรุงได้อย่างมากก็สามารถช่วยปรับปรุงความสามารถในการต่อต้านการโกงของเครื่องมือค้นหาได้อย่างมาก ทำลายแผนการของ SEOER ที่หลอกลวงเครื่องมือค้นหาด้วยวิธีต่างๆ เพื่อหากำไรโดยตรง แพลตฟอร์มสำหรับผู้ที่มุ่งมั่นอย่างจริงจังกับเครื่องมือค้นหาระดับไฮเอนด์ ความมั่นใจในเนื้อหาต้นฉบับที่มีคุณภาพ

เฉพาะเมื่อ Baidu เคารพการทำงานของผู้ดูแลเว็บไซต์ดั้งเดิมขนาดเล็กและขนาดกลางจำนวนมากที่มีการปฏิบัติจริง และสนับสนุนให้พวกเขาใช้สติปัญญาและความสามารถของตนต่อไปเพื่อดำเนินงานดั้งเดิมเท่านั้น เราจึงสามารถแนะนำผู้ดูแลเว็บและ SEOER จำนวนมากขึ้นที่หมกมุ่นอยู่กับ "การคัดลอกและรวบรวม pseudo-Originals" เพื่อทุ่มเทแรงกายแรงใจไปสู่เนื้อหาต้นฉบับที่ “สะท้อนคุณค่าหลักของเว็บไซต์ได้ดีที่สุด” สำหรับ Baidu แม้ว่าขั้นตอนนี้จะยาก แต่ก็เป็นก้าวสำคัญที่เป็นประโยชน์ต่อการพัฒนาเครื่องมือค้นหาในอนาคต

นอกจากนี้ ฉันต้องเตือนการค้นหาเว็บของ Baidu ว่านี่ไม่ใช่ของขวัญของ Baidu ให้กับผู้ดูแลเว็บระดับรากหญ้าจำนวนมากในการแก้ปัญหา "ปัญหาการรวบรวมเนื้อหาต้นฉบับ" ที่ผู้ดูแลเว็บรายงานโดยเร็วที่สุดด้วยอัลกอริธึมที่สมเหตุสมผลกว่า (เว็บไซต์ที่มีชื่อเสียงไม่ทำให้ Baidu โกรธที่ ทั้งหมด) Taobao บล็อก Baidu โดยตรง) แต่เป็น "ภาระผูกพันพื้นฐาน" ที่ Baidu ต้องปฏิบัติตามภายใต้กฎหมายลิขสิทธิ์ปัจจุบันและกฎหมายอื่น ๆ ที่เกี่ยวข้อง ชาว Baidu ไม่สามารถรู้สึกดีกับตัวเองมากเกินไป

จะไปที่ไหน ถนนอยู่ที่เท้าของคุณ ทุกอย่างขึ้นอยู่กับตัวเลือกของเครื่องมือค้นหาเอง (บทความนี้เผยแพร่ครั้งแรกโดย gouyn12 สงวนลิขสิทธิ์ คุณต้องรับผิดชอบต่อบทความ โปรดระบุแหล่งที่มาดั้งเดิมของบทความใน รูปแบบของลิงค์เมื่อพิมพ์ซ้ำ : http://www.gouyn12.com/cnnet/327.html )

(บรรณาธิการ: Chen Long) พื้นที่ส่วนตัวของผู้เขียน gouyn12