Wie stellen Suchmaschinen fest, ob der Inhalt eines Seitenartikels original ist?

Autor：Eve Cole Aktualisierungszeit：2011-06-29 16:44:06

Ich betreibe derzeit eine Nicht-Mainstream-Website. Die Aufnahme war zunächst in Ordnung, wurde jedoch bald darauf verboten. Nur ein paar Dutzend Websites mit Zehntausenden von Daten. Natürlich weiß ich auch, dass ständiges Sammeln keine Option ist, aber mit begrenzter Arbeitskraft ist es unmöglich, sie einzeln hinzuzufügen, und es ist auch unrealistisch. Deshalb wollte ich recherchieren, wie Suchmaschinen feststellen, ob es original ist oder nicht, aber leider gibt es zu diesem Aspekt nicht viel Inhalt. Dann dachte ich aus der Perspektive eines Suchingenieurs darüber nach und brach in kalten Schweiß aus, weil es zu einfach war, festzustellen, ob es original war oder nicht. Ich werde es als Referenz in der Reihenfolge meines Denkens analysieren.

Lassen Sie mich diesen Artikel als Beispiel zur Erklärung verwenden. Titel: Nanhao Beijing Technology Co., Ltd. ist ein professioneller Hersteller von Cursor-Lesegeräten. Inhalt: Der von Nanhao Technology entwickelte Cursorleser bietet schnelles Kartenlesen, hervorragende Qualität und guten Service. Unsere Firmenadresse ist XXXX, Peking. Spinnen gelangten über Hyperlink-Texte auf unsere Website und über In-Site-Links zu dieser Artikelseite. Die Analyse der Suchmaschinenbeurteilung beginnt.

1. Analyse des Titels. Viele Webseiten weisen mittlerweile offensichtliche Optimierungsspuren auf und enthalten viele Long-Tail-Wörter, aber diese Long-Tail-Wörter am Ende sollten der Engine lediglich sagen, worum es auf der Seite geht, denn in diesem Fall geht die Engine davon aus, dass dies auch der Fall ist Viele wiederholen, offensichtlich ist dies ein falscher Ansatz. Tatsächlich sollte es eine Abfangfunktion geben, beispielsweise werden nur die ersten 40 Zeichen als Analyseinhalt abgefangen. Schließlich wird davon ausgegangen, dass die Engine Folgendes abfängt: Nanhao Beijing Technology Co., Ltd. ist ein professioneller Cursorleser.

Das erste, was Sie tun müssen, ist zu beurteilen, ob dieser Titel einzigartig ist. Keine Sorge, es gibt einen Weg. Wir alle wissen, dass die Engine-Klassifizierung auf Wörterinträgen basiert. Wie erhalten wir also die Einträge? Ganz einfach: Verwandte Suchbegriffeinträge. Wie unten gezeigt:

Die Engine analysiert die abgefangenen Titel und ordnet sie einzeln in ihrer Datenbank entsprechend den relevanten Suchbegriffen zu. Nehmen Sie beispielsweise das Wort „Cursor Reader“ aus dem Titel und gleichen Sie es dann mit verwandten Suchbegriffen ab. Wenn dieser Titel bereits in der Datenbank vorhanden ist, wird davon ausgegangen, dass dieser Titel nicht eindeutig ist, und der Artikelinhalt muss es sein abgestimmt. Wenn der Wort-Cursor-Leser übereinstimmt, wird Nanhao Beijing erneut abgefangen und so weiter, und der Abgleich wird durchgeführt ... bis alle Schlüsselwörter analysiert wurden, von denen die Suchmaschine glaubt, dass der Titel sie enthält.

Es gibt zwei endgültige Übereinstimmungsergebnisse für den Titel: Erstens verfügt die Titeldatenbank derzeit nicht über diesen Inhalt und der Inhalt muss untersucht werden. Zweitens ist dieser Inhalt bereits in der Titeldatenbank vorhanden und muss untersucht werden.

2. Inhaltsanalyse. Die Grundidee sollte der Analyse des Titels ähneln, es gibt jedoch Unterschiede. Schließlich sind die im Inhalt enthaltenen Informationen vielfältiger und erfordern komplexere Algorithmen.

Wie bereits erwähnt, lautet unser Inhalt: Der von Nanhao Technology entwickelte Cursorleser bietet schnelles Kartenlesen, hervorragende Qualität und guten Service. Unsere Firmenadresse ist XXXX, Peking. Da der Inhalt von Artikeln im Allgemeinen sehr lang ist, ist es unmöglich, Schlüsselwörter zu analysieren. Er muss einen Satz oder einen Absatz analysieren und zuordnen. Dieser Übereinstimmungsbereich sollte jedoch noch analysiert und in der Artikeldatenbank mit relevanten Suchbegriffen im Titel abgeglichen werden.

Lassen Sie uns zunächst über seine Analysemethode im Allgemeinen sprechen: Zufällige lange Felder abfangen und dann den Inhalt vor und nach diesem Feld analysieren. Wenn die aktuelle Seite und die Engine-Inhaltsdatenbank dieselben Felder haben und die vorderen und hinteren Absätze ebenfalls vorhanden sind Ebenso wird davon ausgegangen, dass dieser Artikel ein Plagiat und den Verdacht der Nicht-Originalität aufweist. Dieser Analysevorgang muss normalerweise mehrmals wiederholt werden. In der vorhandenen Inhaltsdatenbank sind vor und nach dem abgefangenen Feld neun Mal dieselben Inhalte vorhanden Der Artikel wird als nicht original eingestuft.

Lassen Sie es uns unten simulieren.

Die Engine fing zum ersten Mal „Cursor-Reader liest Karten schnell“ ab und gelangte dann über verwandte Suchbegriffe zur Artikeldatenbank. Dem vorhandenen Datenbankfeld wurde „Technologieforschung und -entwicklung“ vorangestellt, und das Feld danach lautete „Ausgezeichnete Qualität“. ". Nehmen Sie heraus, dass diese beiden Felder mit unserer aktuellen Seite abgeglichen werden. Wenn es den gleichen Inhalt gibt, wird er als 0 aufgezeichnet; wenn es keinen ähnlichen Inhalt gibt, wird er als 1 aufgezeichnet. Ein Spiel ist abgeschlossen.

Fangen Sie dann die „Firmenadresse“ ab, führen Sie die Operation aus und erhalten Sie erneut ein Ergebnis von 0 oder 1 und so weiter. Bis die von der Engine festgelegte Anzahl an passenden Zyklen abgeschlossen ist. Wenn Sie 10 Mal eine Übereinstimmung finden und den gleichen Inhalt 7, 8 oder 10 Mal finden, wird Ihr Artikel als nicht original betrachtet ...

Darüber hinaus führt die Engine, wenn festgestellt wird, dass es sich um einen Originalartikel handelt, eine +1-Operation für den Domainnamen in ihrer Domainnamen-Gewichtungsdatenbank aus. Je mehr Originalartikel veröffentlicht werden, desto höher wird die Gewichtung sein und höher, und das Ranking wird immer besser. Wie A5, ChinaZ.

Ich möchte die Schlüsselwörter zwischen Titel und Inhalt abgleichen. Solange es genügend Übereinstimmungen gibt und ich den Übereinstimmungsbereich der relevanten Datenbank mutig erweitere, kann ich erkennen, ob ein Artikel originell ist oder nicht. Tatsächlich werden die heutigen Prozessoren immer schneller und billiger. Darüber hinaus sind alle Suchmaschineningenieure gut ausgebildet, die Algorithmen wurden verbessert und es wurden Erfahrungen gesammelt. Suchmaschinen beurteilen, ob ein Artikel original ist oder nicht, so einfach wie Kohl hacken.

Es ist in Ordnung, wenn ich nicht darüber nachdenke, aber ich bin wirklich schockiert, wenn ich darüber nachdenke, dass die Sammelstation sterben muss oder zumindest der Titel geändert werden sollte. Werfen wir einen Blick darauf, und wenn ich Zeit habe, erkläre ich Ihnen, wie man Pseudo-Originalartikel schreibt, die nicht von Suchmaschinen analysiert werden können.

Das Obige ist nur meine einfache Analyse. Der eigentliche Algorithmus dient nur als Referenz: http://www.nanhaokeji.com . Eine von mir betriebene Website ist auf der Suche nach benutzerfreundlichen Websites Bevorzugt wurde die PR 1, QQ: 419844484, bitte geben Sie den Freundeslink an, wenn Sie Freunde hinzufügen.

Verantwortlicher Herausgeber: Chen Long. Der persönliche Bereich des Autors