Начнем с того же, что и раньше. Давайте поговорим об идеях изготовления краулера и знаниях, которые необходимо подготовить. Знатоки, пожалуйста, проигнорируйте.
Для начала давайте подумаем, что мы хотим сделать, и перечислим несколько простых требований.
Требования следующие:
1. Имитировать доступ к официальному сайту Zhihu (http://www.zhihu.com/)
2. Загрузите указанное содержимое страницы, включая: самое популярное на сегодняшний день, самое популярное в этом месяце и рекомендации редактора.
3. Загрузите все вопросы и ответы в указанных категориях, таких как: инвестиции, программирование, провальные курсы.
4. Загрузите все ответы указанного респондента.
5. Лучше всего было бы иметь извращенную функцию лайка в один клик (чтобы мне нравились все ответы Лейлен сразу. Я такой умный!)
Далее кратко перечисляются технические проблемы, которые необходимо решить:
1. Имитировать доступ браузера к веб-страницам
2. Соберите ключевые данные и сохраните их локально.
3. Решите проблему динамической загрузки при просмотре веб-страниц.
4. Используйте древовидную структуру для массового сканирования всего контента на Zhihu.
Ладно, это все, о чем я сейчас думаю.
Следующий шаг – подготовка.
1. Определите язык сканера: поскольку я уже написал серию руководств по сканеру (нажмите здесь), Baidu Tieba, Энциклопедия смущающих вещей, запрос на получение оценок в Шаньдунском университете и т. д. написаны на Python, поэтому я решил использовать Java. чтобы написать это в этот раз (накормите полностью. Если у вас нет полтинника, почему бы вам не связаться со мной?)
2. Научно-популярные знания сканеров. Веб-сканер, или Web Spider, — очень яркое название. Если Интернет сравнить с паутиной, то паук — это паук, ползающий по паутине. Веб-пауки ищут веб-страницы по их ссылочным адресам. Для подробного ознакомления, пожалуйста, нажмите здесь.
3. Подготовьте среду сканера: я не буду вдаваться в подробности установки и настройки Jdk и Eclipse. Здесь хороший браузер очень важен для сканеров, потому что сначала вам нужно просмотреть Интернет, чтобы узнать, где находятся нужные вам вещи, и только тогда вы сможете сказать своим сканерам, куда идти и как сканировать. Лично я рекомендую Firefox или Google Chrome. Их функции щелчка правой кнопкой мыши для проверки элементов и просмотра исходного кода очень эффективны.
Теперь мы начинаем официальное путешествие! ~О чём мне конкретно говорить? Ну, это вопрос, не волнуйтесь^_^.