Скачать Scrapegraph ai - Scrapegraph ai Source Code Скачать

Scrapegraph ai

Другой исходный код

v1.31.0

Скачать

ScrapeGraphai: вы только один раз скрепите

Английский | 中文 | 日本語 | 한국어 | Ррусский | Тюркч

ScrapeGraphai - это библиотека Python , которая использует LLM и прямую логику графика для создания скребки трубопроводов для веб -сайтов и локальных документов (XML, HTML, JSON, Markdown и т. Д.).

Просто скажите, какую информацию вы хотите извлечь, и библиотека сделает это за вас!

Быстрая установка

Справочная страница для ScrapeGraph-AI доступна на официальной странице PYPI: PYPI.

 PIP установить ScrapeGraphai

Playwright Install

Примечание : рекомендуется установить библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками?

Необязательные зависимости

При установке библиотеки можно добавить дополнительные зависимости:

Больше языковых моделей : установлены дополнительные языковые модели, такие как фейерверки, Groq, Anpropic, обнимающее лицо и конечные точки NVIDIA AI.
Эта группа позволяет вам использовать дополнительные языковые модели, такие как фейерверки, Groq, Anpropic, вместе AI, обнимающееся лицо и конечные точки NVIDIA AI.
```
 PIP установить ScrapeGraphai [Модель других языков]
```
Семантические варианты : эта группа включает в себя инструменты для продвинутой семантической обработки, такие как Graphviz.
```
 PIP установить ScrapeGraphai [более сходные опции]
```
Параметры браузеров : эта группа включает в себя дополнительные инструменты/услуги управления браузером, такие как BrowerBase.
```
 PIP установить ScrapeGraphai [больше браузера-опций]
```

Использование

Существуют несколько стандартных скребковых трубопроводов, которые можно использовать для извлечения информации с веб -сайта (или локального файла).

Наиболее распространенным является SmartScraperGraph , который извлекает информацию с одной страницы с учетом подсказки пользователя и URL -адреса источника.

 Импортируйте JSONFROM SCRAPEGRAPHAI.GRAPHS Import SmartScrapergraph# Определите конфигурацию для скребки PipelineGraph_Config = {"llm": {"api_key": "your_openai_apikey", "Модель": "openai/gpt-4o-mini",
    }, "Verbose": true, "без головы": ложь,
}# Создать SmartScraperGraph Enmentancesmart_scraper_graph = SmartScraperGraph (reffice = "Найдите некоторую информацию о том, что делает компания, имя и контактное письмо.", Source = "https://scrapegraphai.com/", config = graph_config)# запустить. PipelinerSult = smart_scraper_graph.run () print (json.dumps (result, odent = 4))

Вывод будет как словарь, подобный следующему:

 {"Компания": "ScrapeGraphai", "name": "ScrapeGraphai Извлечение контента с веб -сайтов и местных документов с использованием LLM", "contact_email": "[email protected]"}

Существуют другие трубопроводы, которые можно использовать для извлечения информации с нескольких страниц, генерации сценариев Python или даже генерации аудиофайлов.

Название трубопровода	Описание
SmartScrapergraph	Одностраничный скребок, который нуждается только в подсказке пользователя и источником ввода.
Поисковый граф	Многостраничный скребок, который извлекает информацию из лучших результатов поисковой системы.
Речевой граф	Одностраничный скребок, который извлекает информацию с веб-сайта и генерирует аудиофайл.
ScriptCreatorGraph	Одностраничный скребок, который извлекает информацию с веб-сайта и генерирует сценарий Python.
SmartScrapermultigraph	Многостраничный скребок, который извлекает информацию с нескольких страниц, с учетом одной подсказки и списка источников.
ScriptCreatormultigraph	Многостраничный скребок, который генерирует сценарий Python для извлечения информации с нескольких страниц и источников.

Для каждого из этих графиков есть многоуровневая версия. Это позволяет сделать вызовы LLM параллельно.

Можно использовать различные LLM через API, такие как OpenAI , Groq , Azure и Gemini , или локальные модели с использованием Ollama .

Не забудьте установить Ollama и загрузить модели, используя команду Ollama Pull , если вы хотите использовать локальные модели.

Демо

Официальная демо -демоверсия:

Попробуйте это прямо в Интернете, используя Google Colab:

Документация

Документацию для ScrapeGraphai можно найти здесь.

Проверьте также Docusaurus здесь.

Телеметрия

Мы собираем анонимные показатели использования для повышения качества нашего пакета и пользовательского опыта. Данные помогают нам определить приоритеты улучшений и обеспечить совместимость. Если вы хотите отказаться, установите переменную среды scrapegraphai_telemetry_enabled = false. Для получения дополнительной информации, пожалуйста, обратитесь к документации здесь.

Цитаты

Если вы использовали нашу библиотеку для исследовательских целей, пожалуйста, процитируйте нам следующую ссылку:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Расширять

Дополнительная информация