Englisch | 中文 | 日本語 | 한국어 | Русский | Türkçe
CRAPEGRAPHAI ist eine Web -Scraping -Python -Bibliothek, die LLM- und Direct -Graph -Logik verwendet, um Scraping -Pipelines für Websites und lokale Dokumente zu erstellen (XML, HTML, JSON, Markdown usw.).
Sagen Sie einfach, welche Informationen Sie extrahieren möchten und die Bibliothek werden dies für Sie tun!
Die Referenzseite für Scrapegraph-AI ist auf der offiziellen Seite von PYPI: PYPI verfügbar.
PIP Installieren Sie Scrapegraphai Dramatiker Installation
Hinweis : Es wird empfohlen, die Bibliothek in einer virtuellen Umgebung zu installieren, um Konflikte mit anderen Bibliotheken zu vermeiden?
Weitere Sprachmodelle : Zusätzliche Sprachmodelle werden installiert, wie Feuerwerkskörper, GROQ, Anthropic, Umarmung und Nvidia -AI -Endpunkte.
Mit dieser Gruppe können Sie zusätzliche Sprachmodelle wie Fireworks, CREQ, Anthropic, zusammen AI, Umarmung und Nvidia -AI -Endpunkte verwenden.
PIP Installieren Sie Scrapegraphai [andere Sprachmodelle]
Semantische Optionen : Diese Gruppe enthält Tools für die erweiterte semantische Verarbeitung, wie z. B. GraphViz.
PIP Installieren Sie Scrapegraphai [Semantischere Optionen]
Browseroptionen : Diese Gruppe enthält zusätzliche Tools/Dienste für Browser -Management, wie z. B. Browserbase.
PIP Installieren Sie Scrapegraphai [mehr Browser-Optionen]
Es gibt mehrere Standard -Scraping -Pipelines, mit denen Informationen aus einer Website (oder lokalen Datei) extrahiert werden können.
Am häufigsten ist der SmartScraperGraph
, der Informationen aus einer einzelnen Seite mit einer Benutzeraufforderung und einer Quell -URL extrahiert.
Importieren Sie JSONFROM CRAPEGRAPHAI.GRAPHS Import SmartScraperGraph# Definieren Sie die Konfiguration für das Scraping pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "modell": "openai/gpt-4o-mini",,,,,,,,,, }, "wörtlich": wahr, "kopflos": Falsch, }# Erstellen Sie die SmartScraperGraph InstancesMart_Scraper_Graph = SmartScraperGraph (fordert = "Finden Sie einige Informationen darüber, was das Unternehmen tut, der Name und eine Kontakt -E -Mail. Das Pipelineresult = Smart_Scraper_Graph.run () Print (json.dumps (Ergebnis, Einklebung = 4))
Die Ausgabe wird ein Wörterbuch wie folgt sein:
{"Company": "Scrapegraphai", "Name": "Scrapegraphai extrahieren Inhalte aus Websites und lokalen Dokumenten mit LLM", "contact_email": "[email protected]"}
Es gibt andere Pipelines, mit denen Informationen auf mehreren Seiten extrahieren, Python -Skripte generiert oder sogar Audiodateien generiert werden können.
Pipeline -Name | Beschreibung |
---|---|
SmartScrapergraph | Einseitiger Schaber, der nur eine Benutzeraufforderung und eine Eingangsquelle benötigt. |
Searchgraph | Multi-Page-Schaber, der Informationen aus den oberen N-Suchergebnissen einer Suchmaschine extrahiert. |
Sprache | Einseitiger Schaber, der Informationen von einer Website extrahiert und eine Audiodatei generiert. |
SkriptCreatorgraph | Einseitiger Schaber, der Informationen von einer Website extrahiert und ein Python-Skript generiert. |
SmartScrapermultigraph | Multi-Page-Schaber, der Informationen auf mehreren Seiten mit einer einzigen Eingabeaufforderung und einer Liste von Quellen extrahiert. |
SkriptCreaturormultigraph | Mehrseitiger Schaber, der ein Python-Skript zum Extrahieren von Informationen auf mehreren Seiten und Quellen erzeugt. |
Für jede dieser Grafiken gibt es die Multi -Version. Es ermöglicht parallele Anrufe des LLM.
Es ist möglich, verschiedene LLM durch APIs wie OpenAI , GREQ , Azure und Gemini oder lokale Modelle mit OLLAMA zu verwenden.
Denken Sie daran, dass OLLAMA die Modelle mit dem OLLAMA TILL -Befehl installiert und heruntergeladen wird, wenn Sie lokale Modelle verwenden möchten.
Offizielle stromlitische Demo:
Probieren Sie es direkt im Web mit Google Colab aus:
Die Dokumentation für Scrapegraphai finden Sie hier.
Schauen Sie sich hier auch den Docusaurus an.
Wir sammeln anonyme Verwendungsmetriken, um die Qualität und Benutzererfahrung unseres Pakets zu verbessern. Die Daten helfen uns, Verbesserungen zu priorisieren und die Kompatibilität sicherzustellen. Wenn Sie sich abmelden möchten, legen Sie die Umgebungsvariable crapeGraphai_telemetry_enabled = false fest. Weitere Informationen finden Sie in der Dokumentation hier.
Wenn Sie unsere Bibliothek zu Forschungszwecken verwendet haben, zitieren Sie uns bitte mit der folgenden Referenz:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}