С быстрым развитием сетевой науки и техники люди становятся все более зависимыми от сетевых поисковых систем. Особенно в 21 веке, когда сетевые ресурсы изобилуют, а спрос на сетевую информацию растет, технологии поиска занимают очень важную часть. Интернет — командные высоты. В настоящее время люди часто используют поисковые системы для поиска различной информации, такой как мультимедийные материалы, новейшая информация и карты.
Во-первых, основные принципы работы поисковых систем
Поисковая система — это система, которая может получать информацию о веб-страницах веб-сайта, создавать базу данных и предоставлять запросы.
1.1 Структура поисковых систем
Сбор веб-страниц заключается в сканировании веб-страниц с помощью веб-пауков и обходе других веб-страниц по ссылкам на каждой веб-странице. В конечном итоге можно просканировать множество веб-страниц, а затем сжать их и сохранить в базе знаний. Программы-пауки будут постоянно сканировать всю сеть, чтобы обеспечить своевременность и эффективность информации.
Предварительная обработка заключается в проведении анализа ссылок на собранных веб-страницах, расчете важности веб-страницы и извлечении ключевых слов, а также создании индексной базы данных. Архитектура этой базы данных должна способствовать поиску, а содержащаяся информация должна быть максимально полной.
Под услугой подразумевается предоставление услуг пользователям. Когда пользователь вводит ключевое слово, соответствующая информация быстро находится в базе данных индексов по ключевому слову и возвращается пользователю.
1.2 Классификация поисковых систем
Поисковые системы можно разделить на три категории: полнотекстовые поисковые системы, поисковые системы по каталогам и метапоисковые системы.
Системы полнотекстового поиска используют веб-пауков для сканирования различных веб-страниц, извлечения их информации и сохранения в базе данных. Когда пользователь их использует, они сопоставляют введенные пользователем ключевые слова и возвращают информацию пользователю. Это наиболее часто используемые поисковые системы. Google и Baidu попадают в эту категорию.
Поисковые системы каталогов определенным образом классифицируют искомые ресурсы и в конечном итоге создают большую систему каталогов. Когда пользователи запрашивают, они могут открывать и просматривать каталог слой за слоем и, наконец, находить нужную информацию. Строго говоря, это поисковые системы каталогов. не настоящая поисковая система. Yahoo и Sina, которые мы используем, попадают в эту категорию.
Метапоисковая система — это система, которая обращается к другим поисковым системам. Она может охватывать больше ресурсов и предоставлять более комплексные услуги. Наиболее часто используемые из них — Dogpile, Vivisimo и отечественный звездопоиск.
Вышеупомянутые три различные поисковые системы могут использоваться в разных ситуациях и имеют свои преимущества и недостатки. Полнотекстовые поисковые системы обычно используются для комплексного поиска. Его преимуществами являются большие объемы информации, своевременное обновление и отсутствие необходимости ручного вмешательства. Его недостатки заключаются в том, что он обрабатывает большие объемы информации и затрудняет фильтрацию информации. Поисковые системы каталогов в основном ориентированы на веб-сайты, предоставляя услуги просмотра каталогов и услуги прямого поиска. Их преимущество заключается в том, что ручное вмешательство помогает повысить точность поиска информации, но их недостатки заключаются в том, что они требуют ручного вмешательства, требуют высоких затрат на обслуживание, работают медленно. обновления и небольшое количество информации. Поскольку метапоисковые системы могут запрашивать несколько других поисковых систем, они особенно подходят для ситуаций, требующих высокой скорости отзыва. Однако в настоящее время конкретные методы или правила создания индексных баз данных и выполнения поиска по запросам различаются в разных поисковых системах. поисковый эффект инструментов метапоиска.
Во-вторых, несколько ключевых технологий для реализации поисковых систем.
2.1 Пауки
Веб-пауки могут быть реализованы следующими способами:
(1) В первую очередь исходя из ширины. Алгоритм, основанный на принципе широты, осуществляет доступ к ссылкам в том порядке, в котором они встречаются. Это самая простая стратегия из всех веб-пауков.
(2) В первую очередь на основе глубины. Основываясь на идее приоритета глубины, сходство между веб-страницей и темой поиска рассчитывается в соответствии с выбранными условиями, и для поиска выбирается ссылка с наибольшим сходством. В процессе расчета сходства обычно используется косинус. используется для расчета.
(3) На основе рейтингов страниц. На основе рейтинга веб-страницы рейтинг веб-страницы используется в сочетании с содержимым для оценки коллекции искомых документов, а рассчитанные результаты используются для выбора ссылки с наивысшим рейтингом в качестве следующего объекта поиска.
(4) ИнфоПаук. InfoSpider использует развитые таблицы ключевых слов и методы нейронной сети для расчета сходства веб-страниц, связанных с темой, и определяет следующий объект для поиска на основе результатов вычислений. Стоимость, затраченная на получение документа, изменяет энергию агента и определяет, влияет ли стоимость документа на получение документа. отменить, регенерировать или пережить агента в зависимости от его уровня энергии.
2.2 Оценка важности веб-страниц
Существует два основных метода оценки важности веб-страниц: один основан на ссылках.
метод, а другой основан на сходстве.
Между информацией о ссылке и связанным объектом должна существовать некоторая достоверная взаимосвязь сопоставления, основанная на расчетах, основанных на методе ссылки. При применении часто используются:
(1) В степени: количество веб-страниц, содержащих целевые ссылки, указывающие на эту веб-страницу;
(2) Исходящая степень: количество ссылок на веб-страницы, связанных с этой веб-страницей;
(3) Рейтинг страницы: означает возможность посещения пользователем веб-страницы в любое время.
Этот метод широко используется и очень эффективен.
Для вычислений, основанных на сходстве, обычно используется модель векторного пространства для преобразования строки запроса и текста в векторы, а затем оценивается сходство между текстом и строкой запроса.
2.3 Создание аппаратного комплекса поисковой системы
Аппаратная система поисковой системы является основой всей системы. Чтобы обеспечить более высокую скорость запросов, аппаратная система обычно имеет распределенную структуру, серверы Google распределены по всему миру, а для ускорения обработки также используется параллельная технология. скорость выполнения. Кроме того, аппаратное обеспечение индексной базы данных также очень важно и имеет решающее значение для повышения скорости доступа к данным.
В-третьих, тенденция противодействия развитию поисковых систем.
Поисковые системы будущего будут иметь следующие характеристики:
(1) Способен собирать практически всю информацию в Интернете;
(2) Некоторая незаконная информация может быть заблокирована;
(3) Улучшение скорости отзыва и точности
(4) Он может не только распознавать условия текстового поиска, но также распознавать изображения, аудио, видео и т. д.;
(5) Информация обновляется быстрее;
(6) Удобное введение в запросы между базами данных;
(7) Интерактивный интерфейс гуманизирован и персонализирован;
(8) Можно реализовать интеллектуальный поиск.
(9) Мобильный поиск достигнет большого прогресса.
В-четвёртых, резюме
В этой статье подробно объясняется поисковая система, анализируется реализация ее ключевых технологий и предлагаются тенденции будущего развития. С развитием технологий и улучшением потребностей людей поисковые системы будут становиться все более интеллектуальными, становясь все более эффективными. и практично.