В Интернете имеется множество ресурсов, но эффективно искать информацию сложно. Создание поисковой системы — лучший способ решить эту проблему. В этой статье сначала подробно описывается системная структура поисковой системы в Интернете, а затем дается подробное объяснение с трех аспектов: сетевой робот, индексная система и веб-сервер. Чтобы глубже понять эту технологию, я также лично внедрил собственную поисковую систему — поисковую систему новостей. Поисковая система новостей анализирует и ищет указанные веб-страницы по гиперссылкам, индексирует каждую найденную новость и добавляет ее в базу данных. Затем веб-сервер принимает запрос клиента и ищет соответствующие новости в индексной базе данных. В главе, посвященной поисковой системе, помимо подробного описания основной технологии, я также объединил для иллюстрации код реализации поисковой системы новостей с изображениями и текстами, которые легко понять.
Оглавление Оглавление 1 Резюме 3 Глава 1 Введение 4 Глава 2 Структура поисковых систем 5 2.1 Обзор системы 5 2.2 Состав поисковых систем 5 2.2.1 Сетевой робот 5 2.2.2 Индексирование и поиск 5 2.2.3 Веб-сервер 6 2.3 Основные показатели и анализ поисковых систем 6 Раздел 2.4 6 Глава 3 Сетевой робот 7 3.1 Что такое сетевой робот 7 3.2 Структурный анализ сетевых роботов 7 3.2.1 Как анализировать HTML 7 3.2.2 Структура программы Spider 8 3.2.3 Как создать программу Spider 9 3.2.4 Как улучшить производительность программы 11 3.2.5 Анализ кода сетевых роботов 12 Раздел 3.3 14 Глава 4 Индексирование и поиск на основе LUCENE 15 4.1 Что такое полнотекстовый поиск LUCENE 15 4.2 Принципиальный анализ LUCENE 15 4.2.1 Механизм реализации полнотекстового поиска 15 4.2.2 Эффективность индексации Lucene 15 4.2.3 Механизм сегментации китайских слов 17 4.3 Комбинация LUCENE и SPIDER 18 Раздел 4.4 21 Глава 5 Веб-сервер на базе TOMCAT 22 5.1 Что такое веб-сервер на базе TOMCAT 22 5.2 Дизайн пользовательского интерфейса 22 5.3.1 Дизайн клиента 22 5.3.2 Конструкция сервера 23 5.3 Развертывание проекта на TOMCAT 25 Раздел 5.4 25 Глава 6. Стратегия поисковых систем 26 6.1 Введение 26 6.2 Стратегия тематического поиска 26 6.2.1 Руководящие слова 26 6.2.3 Авторитетные веб-страницы и центральные веб-страницы 27 Раздел 6.3 27 Ссылка 28