Comment les moteurs de recherche déterminent-ils si le contenu d’un article de page est original ?

Auteur：Eve Cole Date de mise à jour：2011-06-29 16:44:06

J'exploite actuellement un site Web non grand public. Le contenu est collecté. L'inclusion était correcte au début, mais elle a été interdite peu de temps après. Seules quelques dizaines de sites contenant des dizaines de milliers de données sont inclus dans Baidu. Bien sûr, je sais aussi que collecter tout le temps n'est pas une option, mais avec une main-d'œuvre limitée, il est impossible de les ajouter un par un, et c'est également irréaliste. J'ai donc voulu chercher comment les moteurs de recherche déterminent si c'est original ou non, mais malheureusement, il n'y a pas beaucoup de contenu sur cet aspect. Ensuite, j'y ai réfléchi du point de vue d'un ingénieur de recherche, et je n'ai pas pu m'empêcher d'avoir des sueurs froides, car il était trop facile de déterminer si c'était original ou non. Je vais l'analyser dans l'ordre de ma réflexion pour référence.

Permettez-moi d'utiliser cet article comme exemple pour expliquer. Titre : Nanhao Beijing Technology Co., Ltd. est un fabricant professionnel de lecteurs de curseur. Contenu : Le lecteur de curseur développé par Nanhao Technology offre une lecture rapide des cartes, une excellente qualité et un bon service. L'adresse de notre entreprise est à XXXX, Pékin. Les araignées sont arrivées sur notre site Web via un lien hypertexte et vers cette page d'article via des liens sur le site. L’analyse du jugement des moteurs de recherche commence.

1. Analyse du titre. De nombreuses pages Web présentent désormais des traces évidentes d'optimisation et contiennent beaucoup de mots à longue traîne, mais ces mots à longue traîne à la fin devraient simplement indiquer au moteur de quoi parle la page, car dans ce cas, le moteur pensera qu'il y en a aussi. beaucoup le répètent, c'est évidemment une approche incorrecte. En fait, il devrait y avoir une fonction d'interception, par exemple, seuls les 40 premiers caractères sont interceptés comme contenu d'analyse. Enfin, on suppose que ce que le moteur intercepte est : Nanhao Beijing Technology Co., Ltd. est un lecteur de curseur professionnel.

La première chose à faire est de juger si ce titre est unique. Comment juger ne vous inquiétez pas, il existe un moyen. Nous savons tous que la classification des moteurs est basée sur des entrées de mots, alors comment obtenir les entrées ? Simple : entrées de termes de recherche associés. Comme indiqué ci-dessous :

Le moteur analysera et fera correspondre un à un les titres interceptés dans sa base de données selon les termes de recherche pertinents. Par exemple, prenez le mot « lecteur de curseur » dans le titre, puis associez-le aux termes de recherche associés. Si ce titre existe déjà dans la base de données, il sera considéré que ce titre n'est pas unique et le contenu de l'article doit l'être. correspondait. Si le lecteur de curseur de mots correspond, Nanhao Beijing sera à nouveau intercepté, et ainsi de suite, et la correspondance sera effectuée... jusqu'à ce qu'il ait analysé tous les mots-clés que le moteur pense contenir dans le titre.

Il existe deux résultats finaux de correspondance pour le titre : Premièrement, la base de données de titres ne contient pas actuellement ce contenu et ce contenu doit être étudié. Deuxièmement, ce contenu existe déjà dans la base de données de titres et doit être étudié.

2. Analyse du contenu. L'idée de base doit être similaire à l'analyse du titre, mais il existe des différences. Après tout, les informations contenues dans le contenu sont plus complexes que le titre. Elles sont plus diversifiées et nécessitent des algorithmes plus complexes.

Comme mentionné précédemment, notre contenu est le suivant : le lecteur de curseur développé par Nanhao Technology offre une lecture rapide des cartes, une excellente qualité et un bon service. L'adresse de notre entreprise est à XXXX, Pékin. Le contenu des articles étant généralement très long, il est impossible d’analyser des mots-clés. Il faut analyser et faire correspondre une phrase ou un paragraphe. Cependant, cette plage de correspondance doit toujours être analysée et mise en correspondance dans la base de données d'articles avec les termes de recherche pertinents dans le titre.

Parlons d'abord de sa méthode d'analyse en général : interceptez aléatoirement des champs longs aléatoires, puis analysez le contenu avant et après ce champ si la page actuelle et la base de données de contenu du moteur ont les mêmes champs et que les paragraphes avant et arrière sont également les mêmes. de même, on considérera que cet article présente du plagiat, un soupçon de non-originalité. Ce processus d'analyse doit généralement être répété plusieurs fois. Si vous l'analysez 10 fois, 9 fois il y aura le même contenu dans la base de données de contenu existante avant et après le champ intercepté, et le titre est le même. Dans ce cas, votre. l'article sera Il a été jugé non original.

Simulons-le ci-dessous.

Le moteur a intercepté pour la première fois "Le lecteur de curseur lit les cartes rapidement", puis est arrivé à la base de données d'articles via des termes de recherche associés. Le champ de la base de données existante était précédé de "Recherche et développement technologique", et le champ suivant était "Excellente qualité". ". Retirez ces deux champs qui correspondent à notre page actuelle. S'il y a le même contenu, il est enregistré comme 0 ; s'il n'y a pas de contenu similaire, il est enregistré comme 1. Un match est terminé.

Interceptez ensuite "l'adresse de l'entreprise", effectuez l'opération et obtenez à nouveau un résultat de 0 ou 1, et ainsi de suite. Jusqu'à ce que le nombre de cycles de correspondance défini par le moteur soit terminé. Si vous correspondez 10 fois et trouvez le même contenu 7, 8 ou 10 fois, alors votre article sera considéré comme non original...

En allant plus loin, s'il est déterminé qu'il s'agit d'un article original, alors le moteur effectuera une opération +1 sur le nom de domaine dans sa base de données de poids de nom de domaine. Évidemment, à mesure que de plus en plus d'articles originaux seront publiés, le poids sera plus élevé. et plus haut, et le classement sera de plus en plus élevé. Tels que A5, chinaZ.

Je souhaite faire correspondre les mots-clés entre le titre et le contenu. Tant qu'il y a suffisamment de correspondances et élargir audacieusement la plage de correspondance de la base de données concernée, je peux dire si un article est original ou non. En fait, les processeurs actuels sont de plus en plus rapides et moins chers. De plus, les ingénieurs des moteurs de recherche sont tous hautement qualifiés, les algorithmes ont été améliorés et l'expérience s'est accumulée. Les moteurs de recherche jugent si un article est original ou non, aussi simplement que couper du chou.

Ce n'est pas grave si je n'y pense pas, mais je suis vraiment choqué quand j'y pense, je suis arrivé à la conclusion que la station de collecte doit mourir. Elle devrait être originale, ou au moins le titre devrait être changé. Jetons un coup d'oeil, et si j'ai le temps, je partagerai comment rédiger des articles pseudo-originaux qui ne peuvent pas être analysés par les moteurs.

Ce qui précède n'est qu'une simple analyse. L'algorithme réel est beaucoup plus compliqué après tout. C'est uniquement à titre de référence ! préféré. Le PR vient d'être mis à jour 1, QQ : 419844484, veuillez indiquer le lien ami lors de l'ajout d'amis.

Rédacteur en chef : Chen Long Espace personnel de l'auteur de Feelseas