โดยทั่วไปแล้วคำหรือวลีจะกลายเป็นคำสำคัญในบทความได้หรือไม่นั้นขึ้นอยู่กับความสามารถในการสะท้อนแนวคิดหลักของบทความเป็นหลัก ความสัมพันธ์ระหว่างคำหลักและบทความมีจุดประสงค์หลักเพื่อแสดงให้เห็นว่าคำหรือวลีที่เลือกสามารถสะท้อนแนวคิดหลักหรือธีมของบทความสำหรับบทความนั้นๆ ได้ดีเพียงใด การสกัดคำหลักจะได้รับผลกระทบจากตำแหน่งของคำในบทความ ความถี่ของการเกิด และลักษณะทางความหมายของคำ แล้วเครื่องมือค้นหาจะกำหนดความสัมพันธ์ระหว่างคำหลักและบทความได้อย่างไร? ในที่นี้ผู้เขียนเริ่มต้นจากความคิดเห็นของตนเองและมีแนวคิดบางประการซึ่งควรนำไปใช้ในการสร้างแรงบันดาลใจให้ผู้อื่นและรับคำแนะนำจากทุกคน
โดยส่วนตัวแล้ว ฉันคิดว่าเครื่องมือค้นหาควรวิเคราะห์คำหลักและลักษณะของบทความตามขั้นตอนต่อไปนี้:
ขั้นแรก: เครื่องมือค้นหาจะกรองหน้าเว็บที่จะวิเคราะห์ก่อน
การทำให้หน้าเว็บบริสุทธิ์ส่วนใหญ่จะลบโฆษณาที่ไม่มีประโยชน์ แถบนำทาง และเสียงเทมเพลตหน้าเว็บอื่นๆ จำนวนมาก รวมถึงเนื้อหาที่ไม่มีความหมาย เช่น สคริปต์ JavaScript แท็ก CSS และเนื้อหาอื่นๆ ในหน้าเว็บ ส่วนอัลกอริธึมที่เครื่องมือค้นหาใช้นั้นเราไม่ทราบ แต่โดยส่วนตัวแล้วประมาณว่ามันจะแบ่งหน้าเว็บออกเป็นบล็อกต่างๆ กำหนดบล็อกที่มีเนื้อหาเฉพาะเรื่องโดยการวัดความสำคัญของบล็อกหน้าเว็บ แล้วแยก As สำหรับเนื้อหาของบล็อคนี้ ส่วนวิธีที่ search engine กำหนดความสำคัญของความเร็วหน้าเว็บนั้นก็อีกหัวข้อหนึ่ง
ประการที่สอง: ดำเนินการประมวลผลการแบ่งส่วนคำในเนื้อหาที่แยกออกมา
โดยส่วนตัวแล้ว ฉันคิดว่าเครื่องมือค้นหาอาจใช้อัลกอริธึมบางประเภทเพื่อแบ่งส่วนเนื้อหาออกเป็นคำต่างๆ โดยประมาณ และขั้นแรกให้รับผลลัพธ์การแบ่งส่วน N ที่มีความน่าจะเป็นสูงสุด จากนั้นจึงใช้วิธีการใส่คำอธิบายประกอบบทบาทเพื่อระบุคำที่ไม่ได้ลงทะเบียนและคำนวณความน่าจะเป็นของคำเหล่านั้น คำต่างๆ จะถูกเพิ่มลงในกราฟคำที่แบ่งเป็นส่วนๆ แล้วจึงถือเป็นคำธรรมดา และสุดท้ายก็ทำการเขียนโปรแกรมแบบไดนามิกเพื่อเลือกผลลัพธ์คำอธิบายประกอบการแบ่งส่วนความน่าจะเป็นสูงสุด N รายการ และบันทึกมัน
ประการที่สาม: ลบคำที่ไม่มีความหมายออกจากผลการแบ่งส่วนคำเบื้องต้น
ระบบค้นหาจะวิเคราะห์ผลลัพธ์ของการแบ่งส่วนคำในขั้นตอนที่ 2 และลบคำที่ไม่เป็นรูปธรรมบางคำออก เช่น อนุภาคกิริยาช่วย และคำคุณศัพท์ และคำบางคำ นอกจากนี้ ยังถือว่าข้อมูลที่แสดงด้วยคำคำเดียวยังไม่สมบูรณ์เพียงพอและควรถูกกรองออก . หยุดการลบคำสามารถทำได้โดยการสร้างรายการคำหยุด ด้วยวิธีนี้ เมื่อลบคำไร้สาระเหล่านี้ออกไปแล้ว สิ่งที่เหลืออยู่ก็เป็นคำที่มีความหมายที่ควรค่าแก่การวิเคราะห์
ประการที่สี่: กำหนดและวิเคราะห์น้ำหนักของคำหลัก
หลังจากแบ่งคำและการทำให้บทความบริสุทธิ์แล้ว จำเป็นต้องวิเคราะห์คำหลักทั้งหมดของบทความ แนวคิดของผู้เขียนคือเครื่องมือค้นหาแสดงข้อความเป็นเวกเตอร์คุณลักษณะมิติที่ 4 และแต่ละองค์ประกอบประกอบด้วยคำหลักและ น้ำหนักของพวกเขา เป็นที่เชื่อกันโดยทั่วไปว่าการกำหนดน้ำหนักของคำสำคัญในข้อความนั้นส่วนใหญ่ประกอบด้วยสามส่วน ความถี่ของคำ ตำแหน่ง และความหมายของคำจะมีอิทธิพลต่อการตัดสินใจร่วมกัน ผลกระทบของความถี่และตำแหน่งของคำต่อคำหรือวลีสามารถกำหนดได้โดยใช้อัลกอริธึมบางอย่าง และน้ำหนักความหมายของคำยังได้รับการวิเคราะห์และคำนวณโดยใช้อัลกอริธึมแบบตายตัวอีกด้วย เครื่องมือค้นหาใช้ชุดอัลกอริธึมเพื่อคำนวณและวิเคราะห์คำหลักข้างต้น เพื่อให้ได้ผลลัพธ์สุดท้าย
ผู้เขียนเชื่อว่าเครื่องมือค้นหาจะได้รับผลลัพธ์สุดท้ายหลังจากวิเคราะห์ผ่านขั้นตอนข้างต้น ผู้เขียนพูดถึงวิธีการวิเคราะห์เฉพาะของเครื่องมือค้นหาซึ่งเป็นเพียงความคิดเห็นส่วนตัวของเขา:
ขั้นแรก: น้ำหนักของเครื่องมือค้นหาตามตำแหน่งคำหลัก
ในเอกสาร ตำแหน่งของคำหลักมีบทบาทสำคัญในการกำหนดน้ำหนักของคำหลักบนหน้าสำหรับเครื่องมือค้นหา ตัวอย่างเช่น ชื่อโดเมนได้รับการพิจารณาโดยเครื่องมือค้นหาว่าเป็นปัจจัยคงที่ที่สุดของเว็บไซต์ ตัวอย่างเช่น ชื่อโดเมนที่มีคำหลัก DVD มีข้อได้เปรียบโดยธรรมชาติเมื่อผู้ใช้ค้นหาคำหลัก DVD ชื่อเป็นทรัพยากรที่มีค่าที่สุดของเว็บไซต์ เครื่องมือค้นหาเชื่อว่าชื่อนั้นจะแสดงอยู่ในแถบชื่อเรื่องของเบราว์เซอร์ เนื่องจากชื่อนั้นแสดงต่อผู้ใช้ จึงเป็นบทสรุปที่สำคัญและกระชับที่สุดของไฟล์ การเน้นสัดส่วนของคำหลักในชื่ออย่างเหมาะสมจะเอื้อต่อการปรับปรุงอันดับได้อย่างมาก
ประการที่สอง: เครื่องมือค้นหาจะขึ้นอยู่กับความถี่ของคำหลัก
จำนวนคำหลักที่แตกต่างกันในหน้าเว็บเป็นสิ่งสำคัญมาก โดยส่วนตัวแล้ว ฉันคิดว่าแม้ว่าตำแหน่งและความถี่ของคำของคำหลักจะมีอิทธิพลอย่างมากต่อน้ำหนักของคำหลัก แต่ความถี่ของคำที่สูงไม่ได้เป็นตัวกำหนดว่าคำนั้นเหมาะสมที่จะเป็นคำหลักหรือไม่ เพื่อยกตัวอย่างง่ายๆ เรากำลังเพิ่มประสิทธิภาพ "สหรัฐอเมริกา" ในบทความ ความถี่ของคำนั้นสูงมาก และตำแหน่งที่ปรากฏก็มีความสำคัญมากเช่นกัน อย่างไรก็ตาม คำนี้ยังไม่สามารถให้น้ำหนักที่สูงกว่านี้ได้เนื่องจาก "ยูไนเต็ด" States" ก็ปรากฏอย่างกว้างขวางในเอกสารอื่น ๆ ในเอกสารเหล่านี้ "United States" ก็ปรากฏบ่อยครั้งและตำแหน่งของมันก็มีความสำคัญเช่นกัน ดังนั้นคำที่มีความถี่สูงแต่ไม่เหมาะสมเนื่องจากเป็นคีย์เวิร์ดควรให้น้ำหนักน้อยลง
ประการที่สาม: ระยะห่างระหว่างคำสำคัญที่สำคัญในเอกสาร
การวิเคราะห์ส่วนบุคคล ระยะห่างระหว่างคำหลักที่สำคัญในเอกสารควรเป็นส่วนสำคัญในการวัดความเกี่ยวข้องของคำหลักและบทความ
ผู้เขียนเชื่อว่าหลังจากที่เครื่องมือค้นหาดำเนินการตามขั้นตอนข้างต้นแล้ว จะให้คะแนนบทความสำหรับคำหลักนี้ เมื่อผู้ใช้ค้นหาคำหลักบางคำ โอกาสที่บทความที่มีคะแนนสูงจะถูกจัดอันดับเป็นอันดับแรก ยิ่งใหญ่กว่ามาก แน่นอนว่าไม่รวมอิทธิพลของลิงก์ภายนอก ข้างต้นเป็นมุมมองส่วนตัวบางส่วนเกี่ยวกับเครื่องมือค้นหา ซึ่งไม่จำเป็นต้องถูกต้องเสมอไป ฉันหวังว่าจะได้เรียนรู้จากพวกเขาร่วมกัน สุดท้ายนี้ ลิขสิทธิ์ของบทความนี้เป็นของ: Guangzhou Abortion Hospital: http://www.gzrlw.net/ คุณสามารถพิมพ์ซ้ำได้ แต่โปรดเก็บลิงก์ไว้ ขอขอบคุณสำหรับความเข้าใจและความร่วมมือของคุณ!
ขอขอบคุณ siyi8473 สำหรับการสนับสนุนของเขา