ขณะนี้ฉันกำลังดำเนินการเว็บไซต์ที่ไม่ใช่กระแสหลัก การรวมเนื้อหานั้นทำได้ในตอนแรก แต่หลังจากนั้นไม่นานก็มีไซต์เพียงไม่กี่สิบแห่งที่มีข้อมูลนับหมื่นเท่านั้นที่รวมอยู่ใน Baidu แน่นอน ฉันรู้ด้วยว่าการรวบรวมตลอดเวลาไม่ใช่ทางเลือก แต่ด้วยกำลังคนที่มีจำกัด จึงเป็นไปไม่ได้ที่จะเพิ่มทีละคน และมันก็ไม่สมจริงเช่นกัน เลยอยากจะค้นหาว่าเสิร์ชเอ็นจิ้นตัดสินว่าเป็นของจริงหรือไม่ แต่น่าเสียดายที่เนื้อหาในด้านนี้ไม่ค่อยมีมากนัก จากนั้นฉันก็คิดเกี่ยวกับมันจากมุมมองของวิศวกรการค้นหา และฉันก็อดไม่ได้ที่จะเหงื่อแตกออกมา เพราะมันง่ายเกินไปที่จะตัดสินว่าเป็นต้นฉบับหรือไม่ ฉันจะวิเคราะห์ตามลำดับความคิดของฉันเพื่อใช้อ้างอิง
ผมขอใช้บทความนี้เป็นตัวอย่างในการอธิบาย หัวข้อ: Nanhao Beijing Technology Co., Ltd. เป็นผู้ผลิตเครื่องอ่านเคอร์เซอร์ระดับมืออาชีพ เนื้อหา: เครื่องอ่านเคอร์เซอร์ที่พัฒนาโดย Nanhao Technology มีการอ่านการ์ดที่รวดเร็ว คุณภาพดีเยี่ยม และบริการที่ดี ที่อยู่บริษัทของเราอยู่ใน XXXX ปักกิ่ง สไปเดอร์มาที่เว็บไซต์ของเราผ่านข้อความไฮเปอร์ลิงก์และมาที่หน้าบทความนี้ผ่านลิงก์ในไซต์ การวิเคราะห์การตัดสินของเครื่องมือค้นหาเริ่มต้นขึ้น
1. การวิเคราะห์ชื่อเรื่อง ขณะนี้หน้าเว็บหลายหน้ามีร่องรอยของการเพิ่มประสิทธิภาพที่ชัดเจนและมีคำหางยาวจำนวนมาก แต่คำหางยาวเหล่านี้ที่ด้านหลังควรบอกเครื่องยนต์ว่าหน้านั้นเกี่ยวกับอะไร เพราะในกรณีนี้เครื่องยนต์จะคิดว่ามีเช่นกัน ซ้ำหลายครั้งเห็นได้ชัดว่านี่เป็นแนวทางที่ไม่ถูกต้อง ที่จริงแล้ว ควรมีฟังก์ชันการสกัดกั้น เช่น เฉพาะอักขระ 40 ตัวแรกเท่านั้นที่ถูกดักเป็นเนื้อหาการวิเคราะห์ ในที่สุดก็สันนิษฐานว่าสิ่งที่สกัดกั้นเครื่องยนต์คือ: Nanhao Beijing Technology Co., Ltd. เป็นนักอ่านเคอร์เซอร์มืออาชีพ
สิ่งแรกที่ต้องทำคือตัดสินว่าชื่อนี้มีเอกลักษณ์หรือไม่ จะตัดสินอย่างไร ไม่ต้องกังวล ยังมีวิธีอยู่ เราทุกคนรู้ดีว่าการจัดหมวดหมู่ของเครื่องยนต์นั้นขึ้นอยู่กับรายการคำ แล้วเราจะรับรายการได้อย่างไร แบบง่าย: รายการคำค้นหาที่เกี่ยวข้อง ดังที่แสดงด้านล่าง:
กลไกจะวิเคราะห์และจับคู่ชื่อที่ดักฟังทีละรายการในฐานข้อมูลตามคำค้นหาที่เกี่ยวข้อง เช่น นำคำว่า "cursor reader" มาจากชื่อเรื่อง แล้วจับคู่กับคำค้นหาที่เกี่ยวข้อง หากชื่อนี้มีอยู่แล้วในฐานข้อมูล จะถือว่าชื่อนี้ไม่ซ้ำกัน และต้องมีเนื้อหาบทความ จับคู่ หากตัวอ่านคำเคอร์เซอร์ตรงกัน Nanhao Beijing จะถูกดักจับอีกครั้ง และต่อๆ ไป และการจับคู่จะดำเนินการ... จนกว่าจะวิเคราะห์คำหลักทั้งหมดที่กลไกคิดว่ามีชื่ออยู่
มีสองผลลัพธ์สุดท้ายที่ตรงกันสำหรับชื่อ: ประการแรก ฐานข้อมูลชื่อไม่มีเนื้อหานี้ในปัจจุบัน และเนื้อหาจำเป็นต้องได้รับการตรวจสอบ ประการที่สอง เนื้อหานี้มีอยู่แล้วในฐานข้อมูลชื่อและจำเป็นต้องได้รับการตรวจสอบ
2. การวิเคราะห์เนื้อหา แนวคิดพื้นฐานควรคล้ายกับการวิเคราะห์ชื่อเรื่อง แต่มีความแตกต่างกัน เนื่องจากข้อมูลในเนื้อหามีความซับซ้อนมากกว่าชื่อเรื่อง
ตามที่กล่าวไว้ก่อนหน้านี้ เนื้อหาของเราคือ: เครื่องอ่านเคอร์เซอร์ที่พัฒนาโดย Nanhao Technology มีการอ่านการ์ดที่รวดเร็ว คุณภาพดีเยี่ยม และบริการที่ดี ที่อยู่บริษัทของเราอยู่ใน XXXX ปักกิ่ง เนื่องจากโดยทั่วไปเนื้อหาของบทความจะยาวมาก จึงไม่สามารถวิเคราะห์คำหลักได้ เขาจึงต้องวิเคราะห์และจับคู่ประโยคหรือย่อหน้า อย่างไรก็ตาม ช่วงการจับคู่นี้ควรได้รับการวิเคราะห์และจับคู่ในฐานข้อมูลบทความที่มีคำค้นหาที่เกี่ยวข้องในชื่อเรื่อง
ขั้นแรก เรามาพูดถึงวิธีการวิเคราะห์โดยทั่วไป: สุ่มตัดเขตข้อมูลแบบยาว แล้ววิเคราะห์เนื้อหาก่อนและหลังเขตข้อมูลนี้ หากหน้าปัจจุบันและฐานข้อมูลเนื้อหากลไกมีเขตข้อมูลเดียวกันและย่อหน้าด้านหน้าและด้านหลังก็เป็นเช่นกัน เช่นเดียวกันจะถือว่าบทความนี้มีการลอกเลียนแบบน่าสงสัยไม่มีความคิดริเริ่ม โดยปกติแล้วกระบวนการวิเคราะห์จะต้องทำซ้ำหลายครั้ง หากคุณวิเคราะห์ 10 ครั้ง 9 ครั้งจะมีเนื้อหาเดียวกันในฐานข้อมูลเนื้อหาที่มีอยู่ก่อนและหลังฟิลด์ที่ถูกดัก บวกกับชื่อจะเหมือนกัน ในกรณีนี้ ของคุณ บทความจะเป็น ถือว่าไม่มีต้นฉบับ
มาจำลองกันด้านล่าง
กลไกดักจับเป็นครั้งแรก "ตัวอ่านเคอร์เซอร์อ่านการ์ดอย่างรวดเร็ว" จากนั้นจึงมาที่ฐานข้อมูลบทความผ่านคำค้นหาที่เกี่ยวข้อง ช่องฐานข้อมูลที่มีอยู่นำหน้าด้วย "การวิจัยและพัฒนาเทคโนโลยี" และช่องหลังจากนั้นเป็น "คุณภาพดีเยี่ยม" " นำออกทั้งสองช่องนี้ตรงกับหน้าปัจจุบันของเรา หากมีเนื้อหาเหมือนกันจะถูกบันทึกเป็น 0 หากไม่มีเนื้อหาที่คล้ายกันจะถูกบันทึกเป็น 1 แมทช์เดียวจบแล้ว
จากนั้นดักจับ "ที่อยู่บริษัท" ดำเนินการแล้วรับผลลัพธ์เป็น 0 หรือ 1 อีกครั้ง เป็นต้น จนกว่าจำนวนรอบการจับคู่ที่กำหนดโดยเครื่องยนต์จะเสร็จสิ้น หากคุณจับคู่ 10 ครั้งและพบเนื้อหาเดียวกัน 7, 8 หรือ 10 ครั้ง บทความของคุณจะถือว่าไม่ใช่ต้นฉบับ...
ยิ่งไปกว่านั้น หากพิจารณาว่านี่เป็นบทความต้นฉบับ กลไกจะดำเนินการ +1 กับชื่อโดเมนในฐานข้อมูลน้ำหนักชื่อโดเมน แน่นอนว่าเมื่อมีการเผยแพร่บทความต้นฉบับมากขึ้นเรื่อยๆ น้ำหนักก็จะสูงขึ้น และสูงขึ้นเรื่อยๆ และอันดับก็จะสูงขึ้นเรื่อยๆ เช่น A5, chinaZ.
ฉันต้องการจับคู่คำหลักระหว่างชื่อเรื่องและเนื้อหา ตราบใดที่มีการจับคู่ที่เพียงพอและขยายช่วงการจับคู่ของฐานข้อมูลที่เกี่ยวข้องอย่างกล้าหาญ ฉันสามารถบอกได้ว่าบทความนั้นเป็นต้นฉบับหรือไม่ ในความเป็นจริง โปรเซสเซอร์ในปัจจุบันเริ่มเร็วขึ้นและถูกลง นอกจากนี้ วิศวกรเครื่องมือค้นหาล้วนมีการศึกษาสูง อัลกอริธึมได้รับการปรับปรุง และประสบการณ์ก็สั่งสมมา โปรแกรมค้นหาจะตัดสินว่าบทความนั้นเป็นต้นฉบับหรือไม่ ทำได้ง่ายเหมือนกับการสับกะหล่ำปลี
ไม่เป็นไรถ้าฉันไม่คิด แต่ฉันก็ตกใจมากเมื่อคิดถึงมัน ฉันสรุปได้ว่าสถานีรวบรวมต้องตาย! มันควรจะเป็นต้นฉบับหรืออย่างน้อยก็ควรเปลี่ยนชื่อ มาดูกัน และถ้าฉันมีเวลา ฉันจะแบ่งปันวิธีการเขียนบทความหลอกต้นฉบับที่เครื่องยนต์ไม่สามารถวิเคราะห์ได้
ข้างต้นเป็นเพียงการวิเคราะห์ง่ายๆ ของฉัน อัลกอริธึมที่แท้จริงนั้นซับซ้อนกว่ามาก โฆษณาอื่น: http://www.nanhaokeji.com ที่ต้องการ PR เพิ่งได้รับการอัปเดต 1, QQ: 419844484 โปรดระบุลิงก์เพื่อนเมื่อเพิ่มเพื่อน
บรรณาธิการที่รับผิดชอบ: Chen Long Author รู้สึกถึงพื้นที่ส่วนตัวของผู้เขียน