検索エンジンはページの記事の内容がオリジナルかどうかをどのように判断するのでしょうか?

著者：Eve Cole 更新時間：2011-06-29 16:44:06

現在、非主流の Web サイトを運営しています。最初は含めても問題ありませんでしたが、数万件のデータを含む数十のサイトのみが Baidu に含められました。もちろん、常に収集することが不可能であることも承知していますが、限られたマンパワーの中で、それを逐次追加することは不可能であり、非現実的でもあります。そこで、検索エンジンがオリジナルかどうかをどのように判断するのかを調べたいと思ったのですが、残念ながらこの点に関するコンテンツはあまりありませんでした。そこで検索エンジニアの立場で考えてみたところ、オリジナルかどうかの判断があまりにも簡単すぎて、冷や汗をかかずにはいられませんでした。参考までに私の考えた順に分析してみます。

この記事を例として説明しましょう。タイトル: Nanhao北京技術有限公司はカーソルリーダーの専門メーカーです。内容: Nanhao Technology が開発したカーソルリーダーは、高速カード読み取り、優れた品質、優れたサービスを備えています。当社の住所は北京市XXXXにあります。スパイダーはハイパーリンクテキストを通じて当社の Web サイトにアクセスし、サイト内リンクを通じてこの記事ページにアクセスしました。検索エンジン判定解析が始まります。

1. タイトルの分析。現在、多くの Web ページには明らかな最適化の痕跡があり、多くのロングテールワードが含まれていますが、後ろにあるこれらのロングテールワードは、そのページが何についてであるかをエンジンに伝えるだけである必要があります。この場合、エンジンは、そこにもあると判断するからです。繰り返しますが、これは明らかに間違ったアプローチです。実際には、最初の 40 文字だけを解析内容としてインターセプトするなどのインターセプト機能が必要です。最後に、エンジンがインターセプトするものは次のとおりであると仮定します。Nanhao Beijing Technology Co., Ltd. はプロのカーソルリーダーです。

まず最初に、このタイトルがユニークかどうかを判断する必要があります。どうやって判断するか、方法はあります。エンジンの分類が単語のエントリに基づいていることは誰もが知っていますが、どのようにしてエントリを取得するのでしょうか?シンプル: 関連する検索語エントリ。以下に示すように:

エンジンは、関連する検索用語に従って、データベース内で傍受されたタイトルを 1 つずつ分析し、照合します。たとえば、タイトルから「カーソルリーダー」という単語を取り出し、関連する検索用語と照合します。このタイトルがデータベースにすでに存在する場合、このタイトルは一意ではないとみなされるため、記事の内容は一意である必要があります。一致しました。単語カーソルリーダーが一致すると、Nanhao北京が再度インターセプトされるなど、エンジンがタイトルに含まれると考えられるすべてのキーワードを分析するまで、一致が実行されます。

タイトルの最終的な照合結果は 2 つあります。まず、タイトルデータベースには現在このコンテンツが存在しないため、コンテンツを調査する必要があります。次に、このコンテンツはタイトルデータベースにすでに存在しており、調査する必要があります。

2. コンテンツ分析。基本的な考え方はタイトルの分析と似ていますが、結局のところ、コンテンツに含まれる情報はタイトルよりも複雑であり、より複雑なアルゴリズムが必要です。

前述したように、当社の内容は、Nanhao Technology が開発したカーソルリーダーは、カードの読み取りが速く、品質が高く、サービスが優れているということです。当社の住所は北京市XXXXにあります。記事の内容は一般に非常に長いため、キーワードを分析して文または段落を一致させる必要があります。ただし、この一致範囲は引き続き分析され、タイトル内の関連する検索用語と記事データベース内で照合される必要があります。

まず、一般的な分析方法について説明します。ランダムな長いフィールドをランダムに取得し、現在のページとエンジンコンテンツデータベースに同じフィールドがあり、前後の段落も同じである場合に、このフィールドの前後のコンテンツを分析します。同様に、この記事には盗作、非オリジナル性の疑いがあると見なされます。通常、この分析プロセスは数回繰り返す必要があります。10 回分析すると、インターセプトされたフィールドの前後に同じコンテンツが既存のコンテンツデータベースに存在し、この場合はタイトルも同じになります。この記事はオリジナルではないとみなされました。

以下でシミュレーションしてみましょう。

エンジンは初めて「カーソルリーダーがカードを素早く読み取る」を捕捉し、その後、関連する検索用語を通じて記事データベースに到達しました。既存のデータベースフィールドの前には「技術研究開発」があり、その後のフィールドは「優れた品質」でした。 "。これら 2 つのフィールドを取り出して、現在のページと照合します。同じ内容があれば0、無い場合は1として記録されます。 1試合が終了しました。

次に、「会社のアドレス」をインターセプトし、操作を実行して、再び 0 または 1 の結果を取得する、というように繰り返します。エンジンによって設定されたマッチングサイクル数が完了するまで。 10 回一致し、同じコンテンツが 7、8、または 10 回見つかった場合、記事はオリジナルではないとみなされます。

さらに、これがオリジナルの記事であると判断された場合、エンジンはドメイン名重み付けデータベース内のドメイン名に対して +1 操作を実行します。明らかに、オリジナルの記事が公開されるほど、重み付けは高くなります。とどんどん順位が上がっていきます。 A5、チャイナZなど。

タイトルと内容のキーワードを一致させ、関連するデータベースの一致範囲を大胆に拡張すれば、記事がオリジナルかどうかを判断できます。実際、今日のプロセッサは高速かつ安価になっており、検索エンジンのエンジニアは皆高学歴であり、アルゴリズムが改良され、経験が蓄積されています。検索エンジンは、キャベツを切るのと同じくらい簡単に、記事がオリジナルかどうかを判断します。

考えなくても大丈夫ですが、考えてみると、コレクションステーションは廃止するか、少なくともタイトルを変更する必要があるという結論に達しました。時間があれば、エンジンで解析できない疑似オリジナル記事の書き方を紹介しますので、見てみましょう。

上記は単なる私の単純な分析です。結局のところ、実際のアルゴリズムはさらに複雑です。別の広告: http://www.nanhaokeji.comは、フレンドリーなリンクを探しています。 PR が更新されました。1、QQ: 419844484、友達を追加するときに友達リンクを指定してください。

担当編集：Chen Long 著者feelingseasのパーソナルスペース