Anglais | 中文 | 日本語 | 한국어 | Русский | Türkçe
ScraphaPhai est une bibliothèque Python de grattage Web qui utilise LLM et la logique graphique directe pour créer des pipelines de grattage pour les sites Web et les documents locaux (XML, HTML, JSON, Markdown, etc.).
Dites simplement quelles informations vous souhaitez extraire et la bibliothèque le fera pour vous!
La page de référence de Scraphaph-AI est disponible sur la page officielle de PYPI: PYPI.
pip install scraphai Installation du dramaturge
Remarque : il est recommandé d'installer la bibliothèque dans un environnement virtuel pour éviter les conflits avec d'autres bibliothèques?
Plus de modèles de langage : des modèles de langage supplémentaires sont installés, tels que des feux d'artifice, du grooq, des points de terminaison anthropiques, des étreintes et des points de terminaison NVIDIA AI.
Ce groupe vous permet d'utiliser des modèles linguistiques supplémentaires comme les feux d'artifice, le grooq, l'anthropique, l'ensemble de l'IA, le visage étreint et les points de terminaison NVIDIA AI.
pip install scraphai [autre-langage-modèles]
Options sémantiques : ce groupe comprend des outils de traitement sémantique avancé, comme Graphviz.
PIP installe ScraphaPhai [Options plus sémantiques]
Options de navigateurs : ce groupe comprend des outils / services de gestion des navigateurs supplémentaires, tels que BrowserBase.
PIP installe ScrapeGraphai [More-Browser-Options]
Il existe plusieurs pipelines de grattage standard qui peuvent être utilisés pour extraire des informations d'un site Web (ou d'un fichier local).
Le plus courant est le SmartScraperGraph
, qui extrait les informations d'une seule page compte tenu d'une invite utilisateur et d'une URL source.
Importer JSONFrom scrapegraphai.graphs Importer SmartScrapraphraph # Définissez la configuration de la grattement PipelineGraph_Config = {"llm": {"api_key": "your_openai_apikey", "modèle": "openai / gpt-4o-mini", }, "Verbose": true, "sans tête": false, } # Créez les instances SmartScrapergraphSMART_SCRACER_GRAPH = SMARTSCRACTERGRAPH (INCVOYE = "Trouvez des informations sur ce que l'entreprise fait, le nom et un e-mail de contact.", Source = "https://scraphai.com/", config = graph_config) # run) le pipelineresult = smart_scraper_graph.run () imprimer (json.dumps (résultat, indent = 4))
La sortie sera un dictionnaire comme ce qui suit:
{"Company": "
Il existe d'autres pipelines qui peuvent être utilisés pour extraire des informations à partir de plusieurs pages, générer des scripts Python ou même générer des fichiers audio.
Nom de pipeline | Description |
---|---|
Smartscrapraph | Scraper à une seule page qui n'a besoin qu'une invite utilisateur et une source d'entrée. |
Graphique de recherche | Scraper de plusieurs pages qui extrait les informations des N supérieurs de la recherche des résultats d'un moteur de recherche. |
Parole | Scraper à une seule page qui extrait les informations d'un site Web et génère un fichier audio. |
Scriptcreatorgraph | Scraper à une seule page qui extrait les informations d'un site Web et génère un script Python. |
Smartscrapmultigraph | Scraper de plusieurs pages qui extrait les informations de plusieurs pages compte tenu d'une seule invite et d'une liste de sources. |
Scriptcreatormultigraph | Scraper de plusieurs pages qui génère un script Python pour extraire des informations à partir de plusieurs pages et sources. |
Pour chacun de ces graphiques, il y a la multi-versions multiples. Il permet de passer des appels du LLM en parallèle.
Il est possible d'utiliser différents LLM via des API, tels que OpenAI , Groq , Azure et Gemini , ou des modèles locaux en utilisant Olllama .
N'oubliez pas que Olllama soit installé et téléchargez les modèles à l'aide de la commande Olllama Pull , si vous souhaitez utiliser des modèles locaux.
Démo rationalisé officiel:
Essayez-le directement sur le Web à l'aide de Google Colab:
La documentation de Scraphaphai peut être trouvée ici.
Découvrez également le Docusaurus ici.
Nous collectons des mesures d'utilisation anonymes pour améliorer la qualité et l'expérience utilisateur de notre package. Les données nous aident à hiérarchiser les améliorations et à assurer la compatibilité. Si vous souhaitez vous désinscrire, définissez la variable d'environnement ScraphaThai_telemetry_enabled = false. Pour plus d'informations, veuillez vous référer à la documentation ici.
Si vous avez utilisé notre bibliothèque à des fins de recherche, veuillez nous citer avec la référence suivante:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}