英語| 中文| 日本語| 한국어|陶芸| Türkçe
Scrapegraphaiは、LLMとDirect Graph Logicを使用してWebサイトやローカルドキュメント(XML、HTML、JSON、MarkDownなど)のスクレイピングパイプラインを作成するWebスクレイピングPythonライブラリです。
どの情報を抽出したいかと言ってください。図書館はあなたのためにそれを行うでしょう!
Scrapegraph-AIのリファレンスページは、Pypi:Pypiの公式ページで入手できます。
ピップインストールScrapegraphai 劇作家インストール
注:他のライブラリとの競合を回避するために、仮想環境にライブラリをインストールすることをお勧めしますか?
その他の言語モデル:花火、Groq、人類、抱き合った顔、Nvidia AIのエンドポイントなど、追加の言語モデルがインストールされます。
このグループを使用すると、花火、Groq、人類、一緒にAI、ハグ、Face、Nvidia AIのエンドポイントなどの追加の言語モデルを使用できます。
ピップインストールScrapegraphai [その他言語モデル]
セマンティックオプション:このグループには、GraphVizなどの高度なセマンティック処理のためのツールが含まれています。
PIPインストールScrapegraphai [よりセマントなオプション]
ブラウザオプション:このグループには、ブラウザーベースなどの追加のブラウザ管理ツール/サービスが含まれています。
PIPインストールScrapegraphai [More-Browser-Options]
Webサイト(またはローカルファイル)から情報を抽出するために使用できる複数の標準削減パイプラインがあります。
最も一般的なのはSmartScraperGraph
です。これは、ユーザープロンプトとソースURLを与えられた単一ページから情報を抽出します。
scrapegraphai.graphsのインポートjsonfrom smartscrapergraph#scraping pipelinegraph_config = {"llm"の構成を定義します。 }、 "verbose":true、 "headless":false、 }#smartscrapergraph instancesmart_scraper_graph = smartscrapergraph(smartscrapergraph(smartscrapergraph)を作成します(prompt = "会社が何をしているのか、名前と連絡先電子メールを見つけます。"、source = "https://scrapegraphai.com/"、config = graph_config) pipelineresult = smart_scraper_graph.run()print(json.dumps(result、indent = 4))
出力は、次のような辞書になります。
{"company": "scrapegraphai"、 "name": "scrapegraphai llmを使用したウェブサイトやローカルドキュメントからコンテンツを抽出する"、 "contact_email": "[email protected]"}
複数のページから情報を抽出したり、Pythonスクリプトを生成したり、オーディオファイルを生成したりするために使用できる他のパイプラインがあります。
パイプライン名 | 説明 |
---|---|
smartscrapergraph | ユーザープロンプトと入力ソースのみが必要なシングルページスクレーパー。 |
SearchGraph | 検索エンジンの上部N検索結果から情報を抽出するマルチページスクレーパー。 |
Speechgraph | Webサイトから情報を抽出し、オーディオファイルを生成するシングルページスクレーパー。 |
Scriptcreatorgraph | Webサイトから情報を抽出し、Pythonスクリプトを生成するシングルページスクレーパー。 |
Smartscrapermultigraph | 単一のプロンプトとソースのリストが与えられた複数のページから情報を抽出するマルチページスクレーパー。 |
ScriptCreatormultigraph | 複数のページとソースから情報を抽出するためのPythonスクリプトを生成するマルチページスクレーパー。 |
これらの各グラフには、マルチバージョンがあります。 LLMの呼び出しを並行して行うことができます。
Openai 、 Groq 、 Azure 、 Geminiなど、APIを介して異なるLLMを使用したり、 Ollamaを使用したローカルモデルを使用することができます。
ローカルモデルを使用したい場合は、 Ollama Pullコマンドを使用してモデルをインストールしてダウンロードすることを忘れないでください。
公式の流れのデモ:
Google Colabを使用してWebで直接試してみてください:
Scrapegraphaiのドキュメントはここにあります。
Docusaurusもこちらをご覧ください。
匿名の使用法を収集して、パッケージの品質とユーザーエクスペリエンスを向上させます。このデータは、改善を優先し、互換性を確保するのに役立ちます。オプトアウトする場合は、環境変数Scrapegraphai_telemetry_enabled = falseを設定します。詳細については、こちらのドキュメントを参照してください。
研究目的でライブラリを使用した場合は、次のリファレンスで私たちを引用してください。
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}