先週、ウェブサイトを新浪のニュースデータと同期させる記事を書きましたが、一部のネチズンが興味を持ったので、その中で言及されている疑似オリジナルシステムを共有し、その実装原理についても紹介することにしました。私のシーシュポスのワークショップで。
結局のところ、検索エンジンは依然として機械であり、タイトルを変更したり、いくつかの単語を置き換えたり、いくつかの章をシャッフルしたり、いくつかのリンクを挿入したりすることで、擬似オリジナル性の目的を達成することができます。インターネット上でも利用できますが、やはり手動で生成する必要があるため、自動回収プログラムと組み合わせて、回収→倉庫→擬似原本というプロセスを全自動で実現したいと考えています。 、プロセス全体は誰も管理できず、リアルタイムのセックスが可能です。
もっと身近なところでは、記事の意味に影響を与えずに単語を変更するより良い方法は、同義語を使用して置き換えることです。そこで、インターネットでそのようなデータベースを検索しても見つからなかった後、最初のステップとして、シソーラスを構築することにしました。関連する Web サイトを探すことにしました。収集した結果、Kingsoft PowerWord が私の要件を十分に満たすことができることがわかりました。数万のデータを含む語彙ライブラリを構築しました。
次に、キーワードが置き換えられます。どのように置き換えるのか、またどのフレーズを置き換えるのかを考えます。まず、記事をいくつかのフレーズに分割し、その後、シソーラスで 2 文字を超える長さのキーワードを検索します。はい、それを置き換えます。さらに、シノニムを高速化するために Python を使用します。いくつかのキーコードは次のとおりです。
def getnewword(テキスト, リスト):
CXN。 execute("名前='%s' 制限 1 の tool_words から ID を選択"%text)
結果=cxn。フェッチョーネ()
type(result) が NoneType でない場合:
CXN。 execute("tool_wordslike から名前を選択します。ここで wid=%d order by rand() 制限 1"%result[0])
結果4=cxn。フェッチョーネ()
type(result4) が NoneType でない場合:
リスト[テキスト]=結果4[0]
def Cuttest(テキスト、フラグ):
リスト={}
wlist = セグメント。カット(テキスト)
リスト。逆行する()
結果=""
wlist の tmp の場合:
iflen(tmp)>1:
フラグ==1の場合:
getnewword(tmp,list)
フラグ==1の場合:
結果=""
リスト内の k について。 iterkeys():
result+=k+","+list[k]+";"
それ以外:
結果+=tmp+";";
結果を返す
でも結局のところ、擬似オリジナルシステムもプログラムですので、意味の不適切さや文章の滑らかさを完全に保証することは不可能です。はは、その記事を覚えています。私のウェブサイトのhttp://www.xxfsw.com/show24047.html では、ノーベル物理学賞を受賞したロシアの学者ギンツブルグ氏が亡くなりました。その結果、彼の死は私に変わりました。言葉が出ない。もちろん、同義語の置換以外にも、段落の反転やリンクの挿入などもあります。これらは比較的簡単に実装できるので、詳細は説明しません。実装状況に応じて皆さんが選択します。 , 疑似オリジナルコンテンツを使用することで、ユーザーエクスペリエンスに影響を与えることなく目的を達成できるようにするためのいくつかの方法も考えました。これは、Baidu によって手動で検出されるかどうかです。
それ以来、このようなトラブルを経て、Baidu Spider があなたのサイトを訪問し、ショックを受けました。「おっと、この記事の内容はこれまで見たことがありませんでした。承諾しました。」