Scrapegraph ai Téléchargement - Scrapegraph ai Code source Téléchargement

Scrapegraph ai

Autre code source

v1.31.0

Télécharger

Scraphaphai: vous ne grattez qu'une seule fois

Anglais | 中文 | 日本語 | 한국어 | Русский | Türkçe

ScraphaPhai est une bibliothèque Python de grattage Web qui utilise LLM et la logique graphique directe pour créer des pipelines de grattage pour les sites Web et les documents locaux (XML, HTML, JSON, Markdown, etc.).

Dites simplement quelles informations vous souhaitez extraire et la bibliothèque le fera pour vous!

Installation rapide

La page de référence de Scraphaph-AI est disponible sur la page officielle de PYPI: PYPI.

 pip install scraphai

Installation du dramaturge

Remarque : il est recommandé d'installer la bibliothèque dans un environnement virtuel pour éviter les conflits avec d'autres bibliothèques?

Dépendances facultatives

Des dépendances supplémentaires peuvent être ajoutées lors de l'installation de la bibliothèque:

Plus de modèles de langage : des modèles de langage supplémentaires sont installés, tels que des feux d'artifice, du grooq, des points de terminaison anthropiques, des étreintes et des points de terminaison NVIDIA AI.
Ce groupe vous permet d'utiliser des modèles linguistiques supplémentaires comme les feux d'artifice, le grooq, l'anthropique, l'ensemble de l'IA, le visage étreint et les points de terminaison NVIDIA AI.
```
 pip install scraphai [autre-langage-modèles]
```
Options sémantiques : ce groupe comprend des outils de traitement sémantique avancé, comme Graphviz.
```
 PIP installe ScraphaPhai [Options plus sémantiques]
```
Options de navigateurs : ce groupe comprend des outils / services de gestion des navigateurs supplémentaires, tels que BrowserBase.
```
 PIP installe ScrapeGraphai [More-Browser-Options]
```

Usage

Il existe plusieurs pipelines de grattage standard qui peuvent être utilisés pour extraire des informations d'un site Web (ou d'un fichier local).

Le plus courant est le SmartScraperGraph , qui extrait les informations d'une seule page compte tenu d'une invite utilisateur et d'une URL source.

 Importer JSONFrom scrapegraphai.graphs Importer SmartScrapraphraph # Définissez la configuration de la grattement PipelineGraph_Config = {"llm": {"api_key": "your_openai_apikey", "modèle": "openai / gpt-4o-mini",
    }, "Verbose": true, "sans tête": false,
} # Créez les instances SmartScrapergraphSMART_SCRACER_GRAPH = SMARTSCRACTERGRAPH (INCVOYE = "Trouvez des informations sur ce que l'entreprise fait, le nom et un e-mail de contact.", Source = "https://scraphai.com/", config = graph_config) # run) le pipelineresult = smart_scraper_graph.run () imprimer (json.dumps (résultat, indent = 4))

La sortie sera un dictionnaire comme ce qui suit:

 {"Company": "

Il existe d'autres pipelines qui peuvent être utilisés pour extraire des informations à partir de plusieurs pages, générer des scripts Python ou même générer des fichiers audio.

Nom de pipeline	Description
Smartscrapraph	Scraper à une seule page qui n'a besoin qu'une invite utilisateur et une source d'entrée.
Graphique de recherche	Scraper de plusieurs pages qui extrait les informations des N supérieurs de la recherche des résultats d'un moteur de recherche.
Parole	Scraper à une seule page qui extrait les informations d'un site Web et génère un fichier audio.
Scriptcreatorgraph	Scraper à une seule page qui extrait les informations d'un site Web et génère un script Python.
Smartscrapmultigraph	Scraper de plusieurs pages qui extrait les informations de plusieurs pages compte tenu d'une seule invite et d'une liste de sources.
Scriptcreatormultigraph	Scraper de plusieurs pages qui génère un script Python pour extraire des informations à partir de plusieurs pages et sources.

Pour chacun de ces graphiques, il y a la multi-versions multiples. Il permet de passer des appels du LLM en parallèle.

Il est possible d'utiliser différents LLM via des API, tels que OpenAI , Groq , Azure et Gemini , ou des modèles locaux en utilisant Olllama .

N'oubliez pas que Olllama soit installé et téléchargez les modèles à l'aide de la commande Olllama Pull , si vous souhaitez utiliser des modèles locaux.

Démo

Démo rationalisé officiel:

Essayez-le directement sur le Web à l'aide de Google Colab:

Documentation

La documentation de Scraphaphai peut être trouvée ici.

Découvrez également le Docusaurus ici.

Télémétrie

Nous collectons des mesures d'utilisation anonymes pour améliorer la qualité et l'expérience utilisateur de notre package. Les données nous aident à hiérarchiser les améliorations et à assurer la compatibilité. Si vous souhaitez vous désinscrire, définissez la variable d'environnement ScraphaThai_telemetry_enabled = false. Pour plus d'informations, veuillez vous référer à la documentation ici.

Citations

Si vous avez utilisé notre bibliothèque à des fins de recherche, veuillez nous citer avec la référence suivante:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Développer

Informations supplémentaires

Version v1.31.0
Type Autre code source
Date de mise à jour 2025-02-13
taille 3.74MB
Provenant de Github

Applications connexes

Devant lui

2024-07-08
Application Libu Libu ai

2024-06-28
Créateur d'IA

2023-04-23
IA de Jasper

2023-04-12
Oui, l'IA

2022-08-16
Alien AI

2022-07-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout