前回と同じように、クローラーを作成するためのアイデアと準備する必要がある知識について話しましょう。専門家は無視してください。
まず、何をしたいのかを考え、簡単な要件をいくつか挙げてみましょう。
要件は次のとおりです。
1. Zhihu 公式 Web サイト (http://www.zhihu.com/) へのアクセスをシミュレートします。
2. 今日の注目記事、今月の注目記事、編集者のおすすめなど、指定されたページ コンテンツをダウンロードします。
3. 投資、プログラミング、失敗したコースなど、指定されたカテゴリのすべての質問と回答をダウンロードします。
4. 指定した回答者からのすべての回答をダウンロードする
5. 変態的なワンクリック機能があれば最高です (Laylen の回答をすべて一度に「いいね!」できるようにするためです。私はとても賢いのです!)
次に、解決する必要がある技術的問題を次のように簡単にリストします。
1. ブラウザによる Web ページへのアクセスをシミュレートする
2. 主要なデータをキャプチャし、ローカルに保存します
3. Web ブラウジングにおける動的読み込みの問題を解決する
4. ツリー構造を使用して、Zhihu 上のすべてのコンテンツを大規模にクロールします
わかりました、今考えているのはこれだけです。
次のステップは準備です。
1. クローラー言語を決定する: 以前に一連のクローラー チュートリアルを書いたことがあるため (ここをクリック)、Baidu Tieba、Encyclopedia of Embarrassssing Things、山東大学の成績ポイント クエリなどはすべて Python で書かれているため、Java を使用することにしました。今度はそれを書くために(完全に餌を与えてください。50セントがない場合は、私に連絡してみませんか?)
2. 一般的なサイエンス クローラーの知識: Web クローラー、または Web スパイダーは非常に鮮やかな名前です。インターネットを蜘蛛の巣に例えると、蜘蛛は巣の上を這っている蜘蛛です。 Web スパイダーは、リンク アドレスを通じて Web ページを検索します。詳しい紹介については、ここをクリックしてください。
3. クローラー環境を準備します。Jdk と Eclipse のインストールと構成については詳しく説明しません。ここで、優れたブラウザはクローラーにとって非常に重要です。まず、必要なものがどこにあるかを知るために Web を閲覧する必要があり、そうして初めて、クローラーにどこに行くか、どのようにクロールするかを指示できるからです。個人的には Firefox または Google Chrome をおすすめします。右クリックで要素を検査したり、ソースコードを表示したりする機能は非常に強力です。
さあ、公式のクローラーの旅を始めましょう! 〜具体的に何を話せばいいのですか?まあ、考えさせてください。