Английский | 中文 | 日本語 | 한국어 | Ррусский | Тюркч
ScrapeGraphai - это библиотека Python , которая использует LLM и прямую логику графика для создания скребки трубопроводов для веб -сайтов и локальных документов (XML, HTML, JSON, Markdown и т. Д.).
Просто скажите, какую информацию вы хотите извлечь, и библиотека сделает это за вас!
Справочная страница для ScrapeGraph-AI доступна на официальной странице PYPI: PYPI.
PIP установить ScrapeGraphai Playwright Install
Примечание : рекомендуется установить библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками?
Больше языковых моделей : установлены дополнительные языковые модели, такие как фейерверки, Groq, Anpropic, обнимающее лицо и конечные точки NVIDIA AI.
Эта группа позволяет вам использовать дополнительные языковые модели, такие как фейерверки, Groq, Anpropic, вместе AI, обнимающееся лицо и конечные точки NVIDIA AI.
PIP установить ScrapeGraphai [Модель других языков]
Семантические варианты : эта группа включает в себя инструменты для продвинутой семантической обработки, такие как Graphviz.
PIP установить ScrapeGraphai [более сходные опции]
Параметры браузеров : эта группа включает в себя дополнительные инструменты/услуги управления браузером, такие как BrowerBase.
PIP установить ScrapeGraphai [больше браузера-опций]
Существуют несколько стандартных скребковых трубопроводов, которые можно использовать для извлечения информации с веб -сайта (или локального файла).
Наиболее распространенным является SmartScraperGraph
, который извлекает информацию с одной страницы с учетом подсказки пользователя и URL -адреса источника.
Импортируйте JSONFROM SCRAPEGRAPHAI.GRAPHS Import SmartScrapergraph# Определите конфигурацию для скребки PipelineGraph_Config = {"llm": {"api_key": "your_openai_apikey", "Модель": "openai/gpt-4o-mini", }, "Verbose": true, "без головы": ложь, }# Создать SmartScraperGraph Enmentancesmart_scraper_graph = SmartScraperGraph (reffice = "Найдите некоторую информацию о том, что делает компания, имя и контактное письмо.", Source = "https://scrapegraphai.com/", config = graph_config)# запустить. PipelinerSult = smart_scraper_graph.run () print (json.dumps (result, odent = 4))
Вывод будет как словарь, подобный следующему:
{"Компания": "ScrapeGraphai", "name": "ScrapeGraphai Извлечение контента с веб -сайтов и местных документов с использованием LLM", "contact_email": "[email protected]"}
Существуют другие трубопроводы, которые можно использовать для извлечения информации с нескольких страниц, генерации сценариев Python или даже генерации аудиофайлов.
Название трубопровода | Описание |
---|---|
SmartScrapergraph | Одностраничный скребок, который нуждается только в подсказке пользователя и источником ввода. |
Поисковый граф | Многостраничный скребок, который извлекает информацию из лучших результатов поисковой системы. |
Речевой граф | Одностраничный скребок, который извлекает информацию с веб-сайта и генерирует аудиофайл. |
ScriptCreatorGraph | Одностраничный скребок, который извлекает информацию с веб-сайта и генерирует сценарий Python. |
SmartScrapermultigraph | Многостраничный скребок, который извлекает информацию с нескольких страниц, с учетом одной подсказки и списка источников. |
ScriptCreatormultigraph | Многостраничный скребок, который генерирует сценарий Python для извлечения информации с нескольких страниц и источников. |
Для каждого из этих графиков есть многоуровневая версия. Это позволяет сделать вызовы LLM параллельно.
Можно использовать различные LLM через API, такие как OpenAI , Groq , Azure и Gemini , или локальные модели с использованием Ollama .
Не забудьте установить Ollama и загрузить модели, используя команду Ollama Pull , если вы хотите использовать локальные модели.
Официальная демо -демоверсия:
Попробуйте это прямо в Интернете, используя Google Colab:
Документацию для ScrapeGraphai можно найти здесь.
Проверьте также Docusaurus здесь.
Мы собираем анонимные показатели использования для повышения качества нашего пакета и пользовательского опыта. Данные помогают нам определить приоритеты улучшений и обеспечить совместимость. Если вы хотите отказаться, установите переменную среды scrapegraphai_telemetry_enabled = false. Для получения дополнительной информации, пожалуйста, обратитесь к документации здесь.
Если вы использовали нашу библиотеку для исследовательских целей, пожалуйста, процитируйте нам следующую ссылку:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}