Algoritme TF-IDF telah dikenal oleh banyak pekerja SEO profesional. Ini adalah teknologi pembobotan yang umum digunakan untuk pengambilan informasi dan eksplorasi informasi. Ketika diterapkan pada analisis halaman web, algoritma ini memberi bobot pada kata kunci yang relevan di halaman web dan menganalisis banyak halaman web . Bobot kata kunci halaman web yang relevan dari kata kunci tertentu dalam peringkat diberikan, dan dasar ilmiah diberikan dalam algoritma pengurutan akhir.
Pertama lihat rumus TF*IDF: Nilai TF*IDF = TF×IDF (TF dikali IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) × log (N/DF(t)). Mengapa kita harus menganalisis rumus ini? Karena semakin besar nilai TF-IDF suatu halaman web, semakin relevan konten teks dan kata indeks pada halaman web tersebut, semakin tinggi pula bobot yang dapat diperolehnya di mesin pencari, yang dapat memberikan peringkat yang lebih baik untuk halaman web selanjutnya.
Frekuensi istilah TF (Term Frekuensi) dalam TF*IDF menunjukkan frekuensi kemunculan istilah dalam suatu dokumen, sedangkan frekuensi dokumen invers IDF (Inverse Document Frekuensi) menunjukkan bahwa jika jumlah dokumen yang mengandung istilah t lebih sedikit, maka IDF akan lebih besar. Hal ini menunjukkan bahwa entri t mempunyai kemampuan diskriminasi kategori baik. IDF yang dinyatakan dengan rumus dapat dituliskan sebagai: IDF(t) = log(N / DF(t)). DF(t) mewakili jumlah dokumen yang mengandung istilah pencarian tertentu (diwakili oleh t), dan N mewakili jumlah total halaman web di Internet.
Sulit untuk memahami konsep-konsep ini secara menyeluruh. Izinkan saya memberi Anda sebuah contoh agar Anda dapat memahaminya dengan baik.
Menggunakan TF-IDF untuk menjelaskan fenomena peringkat "diagnosis SEO".
Misalnya, untuk peringkat halaman web dari kata kunci "diagnosis SEO", kami memeriksa beberapa analisis tampilan frekuensi kata dari kata-kata yang terkait dengan kata ini di tiga dari sepuluh situs web teratas:
Peringkat kedua adalah diagnosis SEO A5. Frekuensi kata “SEO” dan “diagnosis” masing-masing adalah 41 dan 46, dan frekuensi kata “diagnosis SEO” adalah 20;
Situs web yang menduduki peringkat ketiga adalah sebuah perusahaan di Changsha. Frekuensi kata "SEO" dan "diagnosis" masing-masing adalah 12 dan 4, dan frekuensi kata "diagnosis SEO" adalah 1;
Blog My Smell the Rose menempati urutan kesepuluh. Di antara website, frekuensi kata "SEO" paling tinggi, mencapai 84, frekuensi kata "diagnosis" adalah 7, dan frekuensi kata "diagnosis SEO" adalah 4.
Penelusuran untuk "diagnosis SEO" menunjukkan sekitar 1.530.000 halaman. "SEO" dan "diagnosis" adalah batas atas Baidu sekitar 100.000.000, sehingga menghasilkan N=1000 miliar. Oleh karena itu, nilai TF*IDF dari tiga kata kunci pada tiga halaman web dihitung sebagai berikut:
1. Hitung dulu nilai IDF dari tiga kata:
SEO: IDF= log(N / DF(t))= log(10000/1)=4
Diagnosa: IDF= log(N / DF(t))= log(10000/1)=4
Diagnosis SEO: IDF= log(N / DF(t))= log(10000/0,015)= 7-log15≈6
2. Hitung nilai TF dari tiga kata:
Nilai TF SEO kata kunci untuk tiga stasiun:
Changsha: TF= log(TF(t,d))= log12≈1.1
A5: TF= log(TF(t,d))= log41≈1.64
Cium aroma mawar: TF= log(TF(t,d))= log84≈1.92
Nilai TF diagnosis kata kunci untuk ketiga stasiun:
Changsha: TF= log(TF(t,d))= log4≈0.63
A5: TF= log(TF(t,d))= log46≈1.68
Cium aroma mawar: TF= log(TF(t,d))= log7≈0.84
Nilai TF diagnosis SEO kata kunci untuk tiga stasiun:
Changsha: TF= log(TF(t,d))= log1=0
A5: TF= log(TF(t,d))= log20≈1.45
Cium aroma mawar: TF= log(TF(t,d))= log4≈0.63
3. Nilai TF*IDF tiga kata dari tiga website adalah:
Dari tabel di atas, kita dapat melihat dengan jelas bahwa blog saya "SEO" memiliki nilai TF*IDF tertinggi, dan "Diagnosis" dan "Diagnosis SEO" Jaringan Webmaster A5 memiliki nilai TF*IDF tertinggi.
Jika dilihat murni dari korelasi yang dihitung dari nilai TF*IDF, maka peringkat kata "diagnosis SEO" adalah yang tertinggi dan Jaringan Webmaster A5 seharusnya mendapatkan peringkat yang lebih baik sebelum kemarin memang di antara keduanya), Stasiun Changsha seharusnya berada di ujung, namun tampaknya ada kesenjangan tertentu dengan hasil sebenarnya. Hal ini menunjukkan bahwa ada faktor lain yang lebih penting dalam peringkat halaman situs web, seperti bobot situs web secara keseluruhan, bobot dan kualitas masing-masing halaman web, tautan eksternal, dan interaksi pengguna (yaitu pengalaman pengguna), yang perlu kita pertimbangkan.
Selain itu, membandingkan nilai TF*IDF dari situs web yang sama, stasiun Changsha dan blog Xiaoxiangqiangwei saya perlu meningkatkan peringkatnya. Persyaratan untuk peringkat kata kunci "SEO" relatif tinggi. Peringkat "SEO" memainkan peran yang menentukan. dan A5 Peringkat "Diagnosis SEO" di situs webmaster memainkan peran yang menentukan, dan peringkat kata kunci "SEO" memiliki pengaruh yang lebih kecil terhadap fluktuasi peringkatnya. Ada beberapa dasar untuk ini, misalnya kemarin lusa, blog saya "Diagnosis SEO" menduduki peringkat ketiga, saat itu kata kunci "SEO" berada di peringkat 10. Sekarang turun ke halaman 23, dan peringkatnya pun naik. turun ke urutan kesepuluh, jadi saya lebih banyak menggunakan TF*IDF. Penelitian dapat membantu kita menemukan banyak fenomena peringkat kata kunci dan merumuskan strategi optimasi SEO yang ditargetkan.
Tentu saja perhitungan ini didasarkan pada keadaan ideal, tetapi juga dapat menjelaskan penyebab beberapa fenomena SEO. Selama kita bisa menguasai ide dasar algoritma TF*IDF dan kemudian menerapkannya pada optimasi website, kita akan melakukannya pasti dapat lebih mengoptimalkan website, seperti Blog saya, dengan mengurangi dampak kata "SEO" pada peringkat website, mungkin dapat lebih mengontrol peringkat kata kunci "diagnosis SEO" pada halaman web.
Artikel ini diterbitkan oleh Xu Ziyu, editor Hangzhou SEO ( http://www.soxunseo.com ) Jaringan Penelusuran. Setiap orang dipersilakan untuk mencetak ulang. Harap simpan tautan ini saat mencetak ulang.
(Editor: Yang Yang) Ruang pribadi penulis Xu Ziyu