призрак-скряга
Используйте на свой страх и риск. Эта библиотека выполняет значительно дорогие вызовы (0,36 доллара США за вызов GPT-4 на странице среднего размера). Оценки затрат основаны на странице цен OpenAI и не гарантируют точности.
Функции
Цель этой библиотеки — предоставить удобный интерфейс для изучения веб-скрапинга с помощью GPT.
Хотя основная часть работы выполняется моделью GPT, scrapeghost
предоставляет ряд функций, упрощающих использование.
Определение схемы на основе Python . Определите форму данных, которые вы хотите извлечь, как любой объект Python, с любой необходимой вам детализацией.
Предварительная обработка
- Очистка HTML . Удалите ненужный HTML, чтобы уменьшить размер и стоимость запросов API.
- Селекторы CSS и XPath . Предварительная фильтрация HTML путем написания одного селектора CSS или XPath.
- Автоматическое разделение . При необходимости можно разделить HTML-код на несколько вызовов модели, что позволяет очищать страницы большего размера.
Постобработка
- Проверка JSON . Убедитесь, что ответ является действительным JSON. (С возможностью вернуть его в GPT для исправлений, если это не так.)
- Проверка схемы . Сделайте еще один шаг: используйте схему
pydantic
для проверки ответа. - Проверка галлюцинаций . Действительно ли данные в ответе существуют на странице?
Контроль затрат
- Скребки продолжают подсчитывать количество отправленных и полученных токенов, что позволяет отслеживать затраты.
- Поддержка автоматических откатов (например, по умолчанию используйте экономичный GPT-3.5-Turbo, при необходимости вернитесь к GPT-4).
- Позволяет установить бюджет и останавливает парсер, если бюджет превышен.