英語| 中文| 日本語| 한국어| n Türkçe
ScrapeGraphai是一個使用LLM和Direct Graph Logic的Web刮擦Python庫來創建用於網站和本地文檔的刮擦管道(XML,HTML,JSON,MARKDOWN等)。
只需說您要提取哪些信息,圖書館就會為您完成!
ScrapeGraph-ai的參考頁面可在PYPI:PYPI的官方頁面上找到。
PIP安裝ScrapeGraphai 劇作家安裝
注意:建議在虛擬環境中安裝庫以避免與其他庫發生衝突?
更多語言模型:安裝了其他語言模型,例如煙花,groq,人類,擁抱的臉和NVIDIA AI端點。
該小組允許您使用其他語言模型,例如煙火,groq,人類,同時AI,擁抱的臉和NVIDIA AI端點。
PIP安裝ScrapeGraphai [其他語言模型]
語義選項:此組包括用於高級語義處理的工具,例如GraphViz。
PIP安裝ScrapeGraphai [更語義的選項]
瀏覽器選項:此組包括其他瀏覽器管理工具/服務,例如BrowserBase。
PIP安裝ScrapeGraphai [More-browser-Options]
有多種標準刮擦管道可用於從網站(或本地文件)中提取信息。
最常見的是SmartScraperGraph
,它從給定用戶提示和源URL的單個頁面中提取信息。
導入jsonfrom scrapegraphai.graphs導入smartscrapergraph#定義刮擦pipelinegraph_config = {“ llm”:{“ api_key”:“ your_openai_apikey”,“ openai/gpt-4o-mini”, },“ verbose”:true,“ headless”:false, }#創建SmartScrapergraph Instancesmart_scraper_graph = smartscrapergraph(提示=“找到有關公司所做的事情,名稱和聯繫電子郵件的一些信息。”,source =“ https://scrapegraphai.com/” pipelineresult = smart_scraper_graph.run()print (json.dumps(結果,縮進= 4))
輸出將是如下的字典:
{“ Company”:“ ScrapeGraphai”,“名稱”:“ ScrapeGraphai使用llm”,“ Contact_email”從網站和本地文檔中提取內容:“ [email protected]”}
還有其他管道可用於從多個頁面中提取信息,生成python腳本,甚至生成音頻文件。
管道名稱 | 描述 |
---|---|
SmartScrapergraph | 僅需要用戶提示和輸入源的單頁刮板。 |
搜索圖 | 多頁刮板從搜索引擎的頂部搜索結果中提取信息。 |
語音圖 | 單頁刮板從網站提取信息並生成音頻文件。 |
ScriptCreatorGraph | 單頁刮板從網站提取信息並生成Python腳本。 |
Smartscrapersultraph | 多頁刮板,從一個提示和一個來源列表中提取多個頁面中的信息。 |
ScriptCreatormultaph | 多頁刮板生成一個Python腳本,用於從多個頁面和來源中提取信息。 |
對於這些圖,都有多版本。它允許並行呼叫LLM。
可以通過API(例如OpenAI , Groq , Azure和Gemini )或使用Ollama的本地模型使用不同的LLM。
請記住,如果要使用本地型號,請安裝Ollama並使用Ollama Pull命令下載模型。
官方精簡演示:
使用Google Colab直接在網絡上嘗試它:
Scrapegraphai的文檔可以在此處找到。
還在這裡查看紀錄片。
我們收集匿名用法指標,以增強包裝的質量和用戶體驗。數據有助於我們確定改進的優先級並確保兼容性。如果您想選擇退出,請設置環境變量ScrapeGraphai_telemetry_enabled = false。有關更多信息,請參考此處的文檔。
如果您將我們的圖書館用於研究目的,請引用我們以下參考:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}