Bahasa Inggris | 中文 | 日本語 | 한국어 | Рский | Türkçe
Scrapegraphai adalah perpustakaan Python yang menggosok web yang menggunakan LLM dan logika grafik langsung untuk membuat pipa pengikis untuk situs web dan dokumen lokal (XML, HTML, JSON, Markdown, dll.).
Katakan saja informasi mana yang ingin Anda ekstrak dan perpustakaan akan melakukannya untuk Anda!
Halaman referensi untuk Scrapegraph-AI tersedia di halaman resmi PYPI: PYPI.
Pip Instal scrapegraphai Instalasi Playwright
Catatan : Disarankan untuk menginstal perpustakaan di lingkungan virtual untuk menghindari konflik dengan perpustakaan lain?
Lebih banyak model bahasa : Model bahasa tambahan dipasang, seperti kembang api, GROQ, antropik, wajah pelukan, dan titik akhir NVIDIA AI.
Grup ini memungkinkan Anda untuk menggunakan model bahasa tambahan seperti kembang api, GROQ, antropik, AI bersama -sama, memeluk wajah, dan titik akhir Nvidia AI.
PIP menginstal scrapegraphai [model bahasa lain]
Opsi Semantik : Grup ini mencakup alat untuk pemrosesan semantik canggih, seperti GraphViz.
PIP menginstal scrapegraphai [opsi-semantik]
Opsi Browser : Grup ini mencakup alat/layanan manajemen browser tambahan, seperti Browserbase.
PIP menginstal scrapegraphai [lebih banyak browser-options]
Ada beberapa pipa pengikisan standar yang dapat digunakan untuk mengekstrak informasi dari situs web (atau file lokal).
Yang paling umum adalah SmartScraperGraph
, yang mengekstraksi informasi dari satu halaman yang diberikan prompt pengguna dan URL sumber.
Impor jsonfrom scrapegraphai.graphs impor smartscrapergraph# tentukan konfigurasi untuk pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini", your_openai_apey "," }, "verbose": true, "headless": false, }# Buat SmartScraperGraph InstancesMart_scraper_graph = smartscrapergraph (prompt = "Temukan beberapa informasi tentang apa yang dilakukan perusahaan, nama dan email kontak.", Sumber = "https://scrapegraphai.com/", config = graph_config)# run)# run Pipelineresult = Smart_scraper_graph.run () print (json.dumps (hasil, indent = 4))
Output akan menjadi kamus seperti berikut:
{"Perusahaan": "Scrapegraphai", "Name": "Scrapegraphai Mengekstrak Konten dari Situs Web dan Dokumen Lokal Menggunakan LLM", "Contact_email": "[email protected]"}
Ada pipa lain yang dapat digunakan untuk mengekstrak informasi dari beberapa halaman, menghasilkan skrip python, atau bahkan menghasilkan file audio.
Nama pipa | Keterangan |
---|---|
SmartScrapergraph | Scraper satu halaman yang hanya membutuhkan prompt pengguna dan sumber input. |
SearchGraph | Scraper multi-halaman yang mengekstraksi informasi dari hasil pencarian N teratas dari mesin pencari. |
Pidato | Scraper satu halaman yang mengekstraksi informasi dari situs web dan menghasilkan file audio. |
ScriptCreateGraph | Scraper satu halaman yang mengekstraksi informasi dari situs web dan menghasilkan skrip Python. |
SmartScrapermultigraph | Scraper multi-halaman yang mengekstraksi informasi dari beberapa halaman yang diberikan satu prompt dan daftar sumber. |
ScriptCreateMultigraph | Scraper multi-halaman yang menghasilkan skrip Python untuk mengekstraksi informasi dari beberapa halaman dan sumber. |
Untuk masing -masing grafik ini ada versi multi. Ini memungkinkan untuk melakukan panggilan LLM secara paralel.
Dimungkinkan untuk menggunakan LLM yang berbeda melalui API, seperti Openai , Groq , Azure dan Gemini , atau model lokal menggunakan Ollama .
Ingatlah untuk menginstal Ollama dan unduh model menggunakan perintah tarik Ollama , jika Anda ingin menggunakan model lokal.
Demo Streamlit Resmi:
Cobalah langsung di web menggunakan Google Colab:
Dokumentasi untuk Scrapegraphai dapat ditemukan di sini.
Lihat juga Docusaurus di sini.
Kami mengumpulkan metrik penggunaan anonim untuk meningkatkan kualitas dan pengalaman pengguna paket kami. Data membantu kami memprioritaskan peningkatan dan memastikan kompatibilitas. Jika Anda ingin memilih keluar, atur variabel lingkungan scrapegraphai_telemetry_enabled = false. Untuk informasi lebih lanjut, silakan merujuk ke dokumentasi di sini.
Jika Anda telah menggunakan perpustakaan kami untuk tujuan penelitian, silakan kutip dengan referensi berikut:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}