Bagaimana mesin pencari menentukan apakah konten artikel halaman itu asli?

Penulis：Eve Cole Waktu Pembaruan：2011-06-29 16:44:06

Saat ini saya mengoperasikan situs web non-mainstream. Kontennya dikumpulkan. Penyertaannya baik-baik saja pada awalnya, tetapi segera dilarang. Hanya beberapa lusin situs dengan puluhan ribu data yang disertakan di Baidu. Tentu saja saya juga tahu bahwa mengumpulkan sepanjang waktu bukanlah suatu pilihan, tetapi dengan tenaga yang terbatas, tidak mungkin untuk menambahkannya satu per satu, dan itu juga tidak realistis. Jadi saya ingin mencari bagaimana mesin pencari menentukan asli atau tidak, tapi sayangnya, tidak banyak konten tentang aspek ini. Kemudian saya memikirkannya dari sudut pandang seorang insinyur pencari, dan mau tidak mau saya berkeringat dingin, karena terlalu mudah untuk menentukan apakah itu asli atau tidak. Saya akan menganalisisnya sesuai urutan pemikiran saya untuk referensi.

Izinkan saya menggunakan artikel ini sebagai contoh untuk menjelaskan. Judul: Nanhao Beijing Technology Co., Ltd. adalah produsen profesional pembaca kursor. Isi: Pembaca kursor yang dikembangkan oleh Nanhao Technology memiliki pembacaan kartu yang cepat, kualitas yang sangat baik, dan pelayanan yang baik. Alamat perusahaan kami di XXXX, Beijing. Laba-laba datang ke situs web kami melalui teks hyperlink dan ke halaman artikel ini melalui tautan dalam situs. Analisis penilaian mesin pencari dimulai.

1. Analisis judul. Banyak halaman web sekarang memiliki jejak optimasi yang jelas dan mengandung banyak kata-kata berekor panjang, namun kata-kata berekor panjang di belakang seharusnya hanya memberi tahu mesin tentang halaman tersebut, karena dalam hal ini mesin akan berpikir ada juga banyak Ulangi, jelas ini adalah pendekatan yang salah. Padahal seharusnya ada fungsi intersepsi, misalnya hanya 40 karakter pertama yang dicegat sebagai konten analisis. Terakhir, diasumsikan bahwa yang disadap oleh mesin adalah: Nanhao Beijing Technology Co., Ltd. adalah pembaca kursor profesional.

Hal pertama yang harus dilakukan adalah menilai apakah judul ini unik. Bagaimana menilainya? Kita semua tahu bahwa klasifikasi mesin didasarkan pada entri kata, jadi bagaimana kita mendapatkan entri tersebut? Sederhana: Entri istilah pencarian terkait. Seperti yang ditunjukkan di bawah ini:

Mesin akan menganalisis dan mencocokkan judul yang disadap satu per satu di databasenya sesuai dengan istilah pencarian yang relevan. Misalnya, ambil kata "pembaca kursor" dari judul, lalu cocokkan dengan istilah pencarian terkait. Jika judul tersebut sudah ada di database, maka judul tersebut dianggap tidak unik dan konten artikelnya perlu cocok. Jika pembaca kursor kata cocok, Nanhao Beijing akan dicegat lagi, dan seterusnya, dan pencocokan akan dilakukan... hingga telah menganalisis semua kata kunci yang menurut mesin mengandung judul tersebut.

Ada dua hasil akhir pencocokan untuk judul: Pertama, database judul saat ini tidak memiliki konten ini, dan konten tersebut perlu diselidiki. Kedua, konten ini sudah ada di database judul dan perlu diselidiki.

2. Analisis isi. Ide dasarnya harusnya mirip dengan analisis judul, namun terdapat perbedaan, karena informasi yang terkandung dalam konten lebih kompleks dibandingkan dengan judul, lebih beragam dan memerlukan algoritma yang lebih kompleks.

Seperti disebutkan sebelumnya, konten kami adalah: pembaca kursor yang dikembangkan oleh Nanhao Technology memiliki pembacaan kartu yang cepat, kualitas yang sangat baik, dan pelayanan yang baik. Alamat perusahaan kami di XXXX, Beijing. Karena isi artikel umumnya sangat panjang, tidak mungkin menganalisis kata kunci. Ia harus menganalisis dan mencocokkan sebuah kalimat atau paragraf. Namun rentang pencocokan ini tetap harus dianalisis dan dicocokkan dalam database artikel dengan istilah pencarian yang relevan di judul.

Pertama, mari kita bicara tentang metode analisisnya secara umum: Secara acak mencegat bidang panjang acak, lalu menganalisis konten sebelum dan sesudah bidang ini. Jika halaman saat ini dan database konten mesin memiliki bidang yang sama dan paragraf depan dan belakang juga sama sama, artikel ini akan dianggap mengandung Plagiarisme, dugaan tidak orisinalitas. Proses analisis ini biasanya perlu diulang beberapa kali. Jika dianalisis 10 kali, 9 kali akan ada konten yang sama di database konten yang ada sebelum dan sesudah bidang yang disadap, ditambah judulnya sama artikel akan dianggap tidak orisinal.

Mari kita simulasikan di bawah ini.

Mesin mencegat untuk pertama kalinya "Pembaca kursor membaca kartu dengan cepat", dan kemudian masuk ke database artikel melalui istilah pencarian terkait. Bidang database yang ada diawali dengan "Penelitian dan Pengembangan Teknologi", dan bidang setelahnya adalah "Kualitas Luar Biasa ". Keluarkan kedua Bidang ini yang dicocokkan dengan halaman kita saat ini. Jika ada konten yang sama, dicatat sebagai 0; jika tidak ada konten yang serupa, dicatat sebagai 1. Satu pertandingan selesai.

Kemudian potong "alamat perusahaan", lakukan operasi, dan dapatkan hasil 0 atau 1 lagi, dan seterusnya. Hingga jumlah siklus pencocokan yang diatur oleh mesin selesai. Jika Anda mencocokkan 10 kali dan menemukan konten yang sama sebanyak 7, 8, atau 10 kali, maka artikel Anda akan dianggap tidak asli...

Lebih jauh lagi, jika ditentukan bahwa ini adalah artikel asli, maka mesin akan melakukan operasi +1 pada nama domain di database bobot nama domainnya. Tentunya, semakin banyak artikel asli yang diterbitkan, bobotnya akan semakin tinggi dan lebih tinggi, dan peringkatnya akan semakin tinggi. Seperti A5, chinaZ.

Saya ingin mencocokkan kata kunci antara judul dan konten. Selama ada cukup kecocokan dan dengan berani memperluas jangkauan pencocokan dari database yang relevan, saya dapat mengetahui apakah sebuah artikel itu asli atau tidak. Faktanya, prosesor saat ini menjadi lebih cepat dan lebih murah. Selain itu, para insinyur mesin pencari semuanya berpendidikan tinggi, algoritma telah ditingkatkan, dan pengalaman telah dikumpulkan. Mesin pencari menilai asli atau tidaknya sebuah artikel, semudah memotong kubis.

Tidak apa-apa jika saya tidak memikirkannya, tetapi saya sangat terkejut ketika memikirkannya. Saya sampai pada kesimpulan bahwa stasiun pengumpulan harus mati! Harus asli, atau setidaknya judulnya harus diubah. Yuk kita simak, jika ada waktu saya akan share cara menulis artikel pseudo original yang tidak bisa dianalisa mesin.

Di atas hanyalah analisis sederhana saya. Algoritme sebenarnya jauh lebih rumit. Ini hanya untuk referensi! Iklan lain: http://www.nanhaokeji.com . Situs web yang saya operasikan sedang mencari tautan ramah disukai. PR baru saja diperbarui. 1, QQ: 419844484, harap tunjukkan tautan teman saat menambahkan teman.

Editor yang bertanggung jawab: Chen Long Ruang pribadi penulis feelingseas