-
Несмотря на то, что поисковые системы развиваются очень хорошо, они по-прежнему сталкиваются со многими техническими проблемами, в том числе:
1. Сканирование страниц должно быть быстрым и всеобъемлющим.
Мы знаем, что Интернет представляет собой динамическое обновление контента. Каждый день многие люди публикуют в Интернете новый контент или обновляют старый контент. Поисковая система из этого огромного объема информации сканирует веб-страницы, которые лучше всего соответствуют поисковым намерениям. Столкнувшись с огромным количеством информации, которая уже существует, и объемом информации, растущим в геометрической прогрессии каждую секунду, нагрузка на поисковую систему очень велика. На обновление программы поисковой системы уходит много времени, особенно когда она только зарождается. Цикл иногда может обновляться каждые несколько месяцев. Представьте себе, сколько обновлений и новых веб-страниц будет создано за несколько месяцев? Такие результаты поиска имеют тенденцию отставать. Чтобы получить наилучшие результаты поиска, поисковые пауки должны сканировать веб-страницу как можно более подробно, что требует от поисковых систем решения многих технических проблем. Это также основная проблема, с которой он сталкивается.
2. Массовое хранение данных
Информация в Интернете огромна, почти невообразима, и каждый день генерируется много новой информации. После того, как поисковые системы сканируют эти страницы, они должны храниться в определенном формате данных, а структура данных требует разумной, и она должна быть разумной. очень высокая масштабируемость. Скорость записи данных должна быть высокой, а скорость доступа — достаточно высокой. Помимо хранения большого объема информации на самой странице, поисковые системы также должны хранить связи между страницами, исторические данные на странице и большой объем индексной информации, чтобы лучше индексировать и сортировать. Объем этих данных очень огромен. Определенно существует множество технических проблем при хранении и чтении таких крупномасштабных данных.
3. Обработка индексов должна быть быстрой, эффективной и масштабируемой.
После того как поисковая система просканирует и сохранит данные страницы, ей также необходимо проиндексировать множество страниц. Например, расчет связей ссылок между страницами, прямой индекс, обратный индекс и т. д. Например, есть расчет PR Google и т. д. Поисковые системы должны выполнить большую работу по индексированию, чтобы быстро вернуть результаты поиска. Более того, в процессе индексации генерируется большое количество новых страниц, и для этого требуется программа обработки индекса поисковой системы. Хорошая масштабируемость.
4. Обработка запросов быстрая и точная.
Все предыдущие шаги выполняются в фоновой программе поисковой системы, а этап запроса — это шаг, на котором пользователи могут видеть результаты. После того, как мы вводим ключевые слова в поле поиска поисковой системы и нажимаем «Поиск», поисковая система часто может вернуть нам результаты менее чем за секунду. Хотя на первый взгляд это выглядит просто, для поисковых систем на самом деле это очень сложно. процесс. Здесь задействовано множество алгоритмов. Ему необходимо быстро находить подходящие страницы среди веб-страниц, которые отвечают основным условиям менее чем за секунду и занимают первые места в поисковых системах. Мы знаем, что Baidu может видеть до 76 страниц результатов, а Google немного больше и может видеть до 100 страниц результатов.
Источник статьи: http://www.suptb.cn/ При перепечатке указывайте источник, спасибо.
Спасибо danieldu2008 за его вклад.