Общая версия системы сбора данных веб-сайтов Yide — это система, которая собирает данные с выбранных веб-сайтов путем написания или загрузки правил. Она может собирать данные с большинства веб-сайтов и сохранять файлы изображений. Это незаменимый инструмент сбора данных для создания веб-сайтов. Более того, сборщик представляет собой открытый исходный код с китайскими аннотациями, что позволяет легко модифицировать и изучать его. Система сбора имеет следующие характеристики:
Основной язык - написан на php+mysql, достаточно установить соответствующий сервер.
Полностью открытый исходный код — открытый исходный код, код имеет комментарии на китайском языке для облегчения управления, обучения и общения.
Настройка правил — можно настроить правила сбора и собрать большую часть контента веб-сайта.
Модификация данных. Настраивайте правила модификации и оптимизируйте содержимое данных.
Сохранение данных. В форме массива сериализованные данные сохраняются в файлах или базах данных для удобства загрузки и вызова.
Чтение изображений — может читать изображения контента и сохранять их локально.
Управление кодировкой. Преобразуйте кодировку, вы можете сохранить gb2312, gbk и другие кодировки в utf-8.
Очистка тегов — вы можете настроить сохраненные теги и очистить ненужные теги.
Безопасность: чтение контролируется паролем, удаленное чтение также безопасно.
Простая операция - операция чтения в один клик, вы можете читать группами в соответствии с правилами или читать, указав идентификатор правила, и читать с одним идентификатором.
Группировка правил. Считывайте данные в соответствии с группами правил и своевременно обновляйте собранные данные.
Индивидуальное чтение — чтение данных в соответствии с идентификаторами пользовательских правил, что более эффективно и своевременно.
Чтение JS. Используйте js для контроля времени чтения и снижения нагрузки на сервер.
Управление тайм-аутом. Можно установить время выполнения страницы, чтобы уменьшить количество ошибок тайм-аута.
Множественное чтение. Вы можете установить несколько элементов управления чтением для веб-страниц, чтобы считывать данные более эффективно.
Контроль ошибок. Если ошибки возникают несколько раз, чтение можно остановить, чтобы уменьшить использование ресурсов сервера.
Контроль нагрузки. Сохраняйте данные в нескольких папках, что позволяет эффективно решить проблему нагрузки на сервер несколькими файлами.
Модификация данных. Вы можете не только просматривать данные, но и изменять основные данные.
Анализ правил. Вы можете поделиться своими правилами с другими, чтобы больше людей могли их использовать.
Загрузка правил. Загрузите правила общего доступа и быстро получите нужный вам контент.
Расширять