อัลกอริธึม TF-IDF เป็นที่รู้จักกันดีในหมู่พนักงาน SEO มืออาชีพ เป็นเทคโนโลยีการถ่วงน้ำหนักที่ใช้กันทั่วไปสำหรับการดึงข้อมูลและการสำรวจข้อมูล เมื่อนำไปใช้กับการวิเคราะห์หน้าเว็บ จะถ่วงน้ำหนักคำหลักที่เกี่ยวข้องในหน้าเว็บและวิเคราะห์หน้าเว็บจำนวนมาก มีการให้น้ำหนักคำหลักของหน้าเว็บที่เกี่ยวข้องของคำหลักเฉพาะในการจัดอันดับ และให้พื้นฐานทางวิทยาศาสตร์ในอัลกอริทึมการเรียงลำดับขั้นสุดท้าย
ก่อนอื่น ให้ดูที่สูตร TF*IDF: ค่า TF*IDF = TF×IDF (TF คูณ IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × บันทึก (N/DF(t)) เหตุใดเราจึงควรวิเคราะห์สูตรนี้ เนื่องจากยิ่งค่า TF-IDF ของหน้าเว็บมากขึ้นเท่าใด เนื้อหาข้อความและคำดัชนีในหน้าเว็บก็จะยิ่งมีความเกี่ยวข้องมากขึ้นเท่านั้น น้ำหนักที่สามารถรับได้จากเครื่องมือค้นหาก็จะยิ่งสูงขึ้นเท่านั้น การจัดอันดับที่ดีขึ้นสำหรับหน้าเว็บในภายหลัง การสนับสนุนที่ยอดเยี่ยม
ความถี่ของเทอม TF (ความถี่ของเทอม) ใน TF*IDF บ่งชี้ความถี่ของการเกิดคำศัพท์ในเอกสาร ในขณะที่ความถี่ของเอกสารผกผันของ IDF (Inverse Document Frequency) บ่งชี้ว่าหากจำนวนเอกสารที่มีเทอม t น้อยกว่า IDF จะมีขนาดใหญ่ขึ้น นี่แสดงให้เห็นว่ารายการ t มีความสามารถในการแยกแยะประเภทที่ดี IDF ที่แสดงโดยสูตรสามารถเขียนได้เป็น: IDF(t) = log(N / DF(t)) DF(t) หมายถึงจำนวนเอกสารที่มีคำค้นหาบางคำ (แสดงโดย t) และ N หมายถึงจำนวนหน้าเว็บทั้งหมดบนอินเทอร์เน็ต
เป็นการยากที่จะเข้าใจแนวคิดเหล่านี้อย่างละเอียด ฉันขอยกตัวอย่างเพื่อให้คุณเข้าใจได้ดี
การใช้ TF-IDF เพื่ออธิบายปรากฏการณ์การจัดอันดับ "การวินิจฉัย SEO"
ตัวอย่างเช่น สำหรับการจัดอันดับหน้าเว็บของคำหลัก "การวินิจฉัย SEO" เราได้ตรวจสอบการวิเคราะห์การแสดงความถี่ของคำบางคำที่เกี่ยวข้องกับคำนี้บนเว็บไซต์สามในสิบอันดับแรก:
อันดับสองคือการวินิจฉัย SEO ของ A5 ความถี่ของคำว่า “SEO” และ “การวินิจฉัย” คือ 41 และ 46 ตามลำดับ และความถี่ของคำว่า “การวินิจฉัย SEO” คือ 20
เว็บไซต์อันดับสามคือบริษัทในฉางชา ความถี่ของคำว่า "SEO" และ "การวินิจฉัย" คือ 12 และ 4 ตามลำดับ และความถี่ของคำว่า "การวินิจฉัย SEO" คือ 1;
บล็อก My Smell the Rose อยู่ในอันดับที่ 10 ในบรรดาเว็บไซต์ต่างๆ ความถี่ของคำว่า "SEO" สูงที่สุดถึง 84 ความถี่ของคำว่า "การวินิจฉัย" คือ 7 และความถี่ของคำว่า "การวินิจฉัย SEO" คือ 4
การค้นหา "การวินิจฉัย SEO" จะแสดงหน้าเว็บประมาณ 1,530,000 หน้า "SEO" และ "การวินิจฉัย" เป็นขีดจำกัดสูงสุดของ Baidu ที่ประมาณ 100,000,000 หน้า หรือคิดเป็น N=1,000 พันล้านหน้า ดังนั้นค่า TF*IDF ของคำหลักสามคำบนหน้าเว็บสามหน้าจึงได้รับการคำนวณดังนี้:
1. ขั้นแรกให้คำนวณค่า IDF ของสามคำ:
SEO: IDF= บันทึก(N / DF(t))= บันทึก(10,000/1)=4
การวินิจฉัย: IDF= log(N / DF(t))= log(10000/1)=4
การวินิจฉัย SEO: IDF= log(N / DF(t))= log(10000/0.015)= 7-log15µ6
2. คำนวณค่า TF ของสามคำ:
ค่า TF ของคำหลัก SEO สำหรับสามสถานี:
ฉางชา: TF= log(TF(t,d))= log12µ1.1
A5: TF= บันทึก(TF(t,d))= log41µ1.64
กลิ่นกุหลาบ: TF= log(TF(t,d))= log84µ1.92
ค่า TF ของการวิเคราะห์คำหลักสำหรับสามสถานี:
ฉางชา: TF= log(TF(t,d))= log4γ0.63
A5: TF= บันทึก(TF(t,d))= log46µ1.68
กลิ่นกุหลาบ: TF= log(TF(t,d))= log7µ0.84
ค่า TF ของการวิเคราะห์คำหลัก SEO สำหรับสามสถานี:
ฉางชา: TF= log(TF(t,d))= log1=0
A5: TF= บันทึก(TF(t,d))= log20µ1.45
กลิ่นกุหลาบ: TF= log(TF(t,d))= log4γ0.63
3. ค่า TF*IDF ของสามคำจากสามเว็บไซต์คือ:
จากตารางด้านบน เราจะเห็นได้อย่างชัดเจนว่าบล็อก "SEO" ของฉันมีค่า TF*IDF สูงสุด และ "การวินิจฉัย" และ "การวินิจฉัย SEO" ของ A5 Webmaster Network มีค่า TF*IDF สูงสุด
หากคุณดูความสัมพันธ์ที่คำนวณจากค่า TF*IDF เพียงอย่างเดียว การจัดอันดับของคำว่า "การวินิจฉัย SEO" จะสูงที่สุด และ A5 Webmaster Network ควรได้รับการจัดอันดับที่ดีกว่า ก่อนหน้านี้เมื่อวานอยู่ระหว่างทั้งสองจริงๆ) สถานีฉางซาน่าจะอยู่จุดสิ้นสุด แต่ดูเหมือนว่าจะมีช่องว่างบางอย่างกับผลลัพธ์ที่แท้จริง สิ่งนี้แสดงให้เห็นว่ามีปัจจัยที่สำคัญอื่นๆ ในการจัดอันดับหน้าเว็บไซต์ เช่น น้ำหนักโดยรวมของเว็บไซต์ น้ำหนักและคุณภาพของหน้าเว็บแต่ละหน้า ลิงก์ภายนอก และการโต้ตอบของผู้ใช้ (เช่น ประสบการณ์ผู้ใช้) ซึ่งเราต้องพิจารณา
นอกจากนี้ การเปรียบเทียบค่า TF*IDF ของเว็บไซต์เดียวกัน สถานีฉางซาและบล็อก Xiaoxiangqiangwei ของฉันต้องปรับปรุงการจัดอันดับ ข้อกำหนดสำหรับการจัดอันดับคำหลัก "SEO" นั้นค่อนข้างสูง และ A5 การจัดอันดับ "การวินิจฉัย SEO" ในเว็บไซต์ของผู้ดูแลเว็บมีบทบาทชี้ขาด และการจัดอันดับคำหลัก "SEO" มีผลกระทบน้อยกว่าต่อความผันผวนของการจัดอันดับ มีพื้นฐานอยู่บ้าง เช่น วันก่อนเมื่อวาน บล็อกของฉัน "SEO Diagnosis" อยู่ในอันดับที่ 3 ในขณะนั้น คีย์เวิร์ด "SEO" อยู่ในอันดับที่ 10 ตอนนี้หล่นลงมาอยู่ที่หน้า 23 แล้ว และอันดับก็มี ลดลงมาอยู่ที่สิบ ดังนั้นฉันจึงใช้ TF*IDF มากขึ้น การวิจัยสามารถช่วยให้เราค้นพบปรากฏการณ์การจัดอันดับคำหลักมากมาย และกำหนดกลยุทธ์การเพิ่มประสิทธิภาพ SEO ที่ตรงเป้าหมาย
แน่นอนว่าการคำนวณนี้ขึ้นอยู่กับสถานะในอุดมคติ แต่ยังสามารถอธิบายสาเหตุของปรากฏการณ์ SEO บางอย่างได้ ตราบใดที่เราเชี่ยวชาญแนวคิดพื้นฐานของอัลกอริธึม TF*IDF แล้วนำไปใช้กับการเพิ่มประสิทธิภาพเว็บไซต์ เราก็จะทำ สามารถเพิ่มประสิทธิภาพเว็บไซต์ได้ดียิ่งขึ้นอย่างแน่นอน เช่น My blog โดยการลดผลกระทบของคำว่า “SEO” ต่อการจัดอันดับเว็บไซต์ อาจจะสามารถควบคุมการจัดอันดับคำหลัก “การวิเคราะห์ SEO” บนหน้าเว็บได้ดีขึ้นอย่างแน่นอน
บทความนี้เผยแพร่โดย Xu Ziyu บรรณาธิการของ Hangzhou SEO ( http://www.soxunseo.com ) ทุกคนสามารถพิมพ์ซ้ำได้ โปรดเก็บลิงก์นี้ไว้เมื่อพิมพ์ซ้ำ
(บรรณาธิการ: Yang Yang) พื้นที่ส่วนตัวของผู้เขียน Xu Ziyu