Улучшения SP1: исправлено автоматическое распознавание кодировки веб-страниц, улучшено хеширование, чтобы сделать сканирование пауком более полным, исправлены ошибки складирования в особых обстоятельствах и т. д.;
K-PageSearch — это профессиональная система веб-поиска, независимо разработанная Kwindsoft. Она включает в себя передовую технологию интеллектуального анализа и массового поиска данных. Ее ядро состоит из четырех частей: многопоточной системы сбора, системы интеллектуального анализа, системы массивной индексации и полнофункциональной системы. текстовая поисковая система. Система использует архитектуру поисковой системы профессионального уровня и поддерживает полнотекстовый поиск больших объемов данных за миллисекунды. Это профессиональный продукт полнотекстового поиска, предназначенный в основном для крупных и средних отраслевых поисковых систем, локальных поисковых систем, специализированных поисковых систем информации и других областей применения, предоставляющий пользователям идеальные решения для приложений полнотекстового поиска больших объемов данных.
Основные улучшения версии V2.1: использование технологии .NET для разработки программ веб-интерфейса, использование кодировки веб-страниц UTF-8, новая система индексирования и открытие исходного кода инструментов управления;
Функциональные возможности: многопоточный сетевой паук, направленный сбор веб-страниц, многоязычное кодирование веб-страниц, автоматическое распознавание, хеш-таблица, дедупликация веб-страниц, интеллектуальное извлечение текста веб-страницы, интеллектуальная сегментация китайских слов на основе лексикона, сегментация китайских слов, лексикон. управление, большие объемы данных, полнотекстовое извлечение на уровне миллисекунд, технология кэширования, снимок веб-страницы, расширенные поисковые ставки. Рейтинг веб-пауков
Веб-пауки используют многопоточность для одновременного сбора веб-страниц в сочетании с эффективными механизмами сбора и стратегическим развертыванием, чтобы максимизировать эффективность сбора веб-страниц. Поддерживает целевой сбор веб-страниц — ключевую технологию для систем вертикального поиска, позволяющую повысить качество и релевантность данных. Пользователи могут настраивать правила сбора для сбора конкретных веб-страниц. Поддерживает сбор нескольких динамических и статических типов веб-страниц, а также автоматическую идентификацию многоязычных кодировок веб-страниц. Он использует технологию дедупликации веб-страниц хеш-таблиц, которая отличается высокой производительностью и низким использованием системы, что позволяет веб-паукам работать эффективно и стабильно. Поддерживает одиночный или пакетный сбор веб-сайтов, автоматический сбор и функции автоматического обновления.
Извлечение текста
Интеллектуальная технология извлечения текста веб-страницы, ее функция заключается в извлечении основного содержимого темы веб-страницы и фильтрации информации, не связанной с темой веб-страницы (реклама, навигация, авторские права и другая информация, не относящаяся к содержанию веб-страницы). Эта технология эффективно повышает качество сбора и актуальности информации на веб-страницах, интеллектуальную автоматическую идентификацию, точное извлечение текста веб-страницы и точность более 95%.
Сегментация китайских слов
Интеллектуальная технология сегментации китайских слов, основанная на тезаурусе, поддерживает множество технологий интеллектуального анализа, таких как сегментация китайского и английского языков, преобразование китайских упрощенных и традиционных шрифтов, преобразование полной ширины и половинной ширины, а также распознавание китайских имен. Пользователи могут расширять и поддерживать библиотеку словаря в соответствии с потребностями своего приложения для достижения наилучшего эффекта сегментации слов.
Полнотекстовый поиск
Он использует архитектуру системы массового индексирования данных и усовершенствованную технологию алгоритма полнотекстового поиска в сочетании с эффективными стратегиями оптимизации поиска для поддержки скорости извлечения больших объемов данных на миллисекундном уровне и одновременного извлечения несколькими пользователями. Расширенный поиск поддерживает настраиваемые методы поиска для удовлетворения различных потребностей пользователей в поиске. Внедрите эффективные стратегии технологии кэширования, чтобы повысить стабильность системы и ее нагрузочную способность, снизить нагрузку на систему, а данные кэша автоматически обновляются в соответствии с конкретными условиями.
Применимые объекты
Подходит для внутренних групп веб-сайтов или групп веб-сайтов в Интернете, таких как предприятия, государственные учреждения, школы и т. д., для создания поисковых систем в Интернете;
Подходит для групп веб-сайтов в различных отраслях и областях для создания отраслевых поисковых систем;
Подходит для местных групп веб-сайтов, таких как провинции, города и районы, для создания локальных поисковых систем в Интернете;
Расширять