Unduh Scrapegraph ai - Unduh Kode Sumber Scrapegraph ai

Scrapegraph ai

Kode sumber lainnya

v1.31.0

Unduh

Scrapegraphai: Anda hanya mengikis sekali

Bahasa Inggris | 中文 | 日本語 | 한국어 | Рский | Türkçe

Scrapegraphai adalah perpustakaan Python yang menggosok web yang menggunakan LLM dan logika grafik langsung untuk membuat pipa pengikis untuk situs web dan dokumen lokal (XML, HTML, JSON, Markdown, dll.).

Katakan saja informasi mana yang ingin Anda ekstrak dan perpustakaan akan melakukannya untuk Anda!

Instalasi cepat

Halaman referensi untuk Scrapegraph-AI tersedia di halaman resmi PYPI: PYPI.

 Pip Instal scrapegraphai

Instalasi Playwright

Catatan : Disarankan untuk menginstal perpustakaan di lingkungan virtual untuk menghindari konflik dengan perpustakaan lain?

Dependensi opsional

Dependecies tambahan dapat ditambahkan saat menginstal perpustakaan:

Lebih banyak model bahasa : Model bahasa tambahan dipasang, seperti kembang api, GROQ, antropik, wajah pelukan, dan titik akhir NVIDIA AI.
Grup ini memungkinkan Anda untuk menggunakan model bahasa tambahan seperti kembang api, GROQ, antropik, AI bersama -sama, memeluk wajah, dan titik akhir Nvidia AI.
```
 PIP menginstal scrapegraphai [model bahasa lain]
```
Opsi Semantik : Grup ini mencakup alat untuk pemrosesan semantik canggih, seperti GraphViz.
```
 PIP menginstal scrapegraphai [opsi-semantik]
```
Opsi Browser : Grup ini mencakup alat/layanan manajemen browser tambahan, seperti Browserbase.
```
 PIP menginstal scrapegraphai [lebih banyak browser-options]
```

Penggunaan

Ada beberapa pipa pengikisan standar yang dapat digunakan untuk mengekstrak informasi dari situs web (atau file lokal).

Yang paling umum adalah SmartScraperGraph , yang mengekstraksi informasi dari satu halaman yang diberikan prompt pengguna dan URL sumber.

 Impor jsonfrom scrapegraphai.graphs impor smartscrapergraph# tentukan konfigurasi untuk pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini", your_openai_apey ","
    }, "verbose": true, "headless": false,
}# Buat SmartScraperGraph InstancesMart_scraper_graph = smartscrapergraph (prompt = "Temukan beberapa informasi tentang apa yang dilakukan perusahaan, nama dan email kontak.", Sumber = "https://scrapegraphai.com/", config = graph_config)# run)# run Pipelineresult = Smart_scraper_graph.run () print (json.dumps (hasil, indent = 4))

Output akan menjadi kamus seperti berikut:

 {"Perusahaan": "Scrapegraphai", "Name": "Scrapegraphai Mengekstrak Konten dari Situs Web dan Dokumen Lokal Menggunakan LLM", "Contact_email": "[email protected]"}

Ada pipa lain yang dapat digunakan untuk mengekstrak informasi dari beberapa halaman, menghasilkan skrip python, atau bahkan menghasilkan file audio.

Nama pipa	Keterangan
SmartScrapergraph	Scraper satu halaman yang hanya membutuhkan prompt pengguna dan sumber input.
SearchGraph	Scraper multi-halaman yang mengekstraksi informasi dari hasil pencarian N teratas dari mesin pencari.
Pidato	Scraper satu halaman yang mengekstraksi informasi dari situs web dan menghasilkan file audio.
ScriptCreateGraph	Scraper satu halaman yang mengekstraksi informasi dari situs web dan menghasilkan skrip Python.
SmartScrapermultigraph	Scraper multi-halaman yang mengekstraksi informasi dari beberapa halaman yang diberikan satu prompt dan daftar sumber.
ScriptCreateMultigraph	Scraper multi-halaman yang menghasilkan skrip Python untuk mengekstraksi informasi dari beberapa halaman dan sumber.

Untuk masing -masing grafik ini ada versi multi. Ini memungkinkan untuk melakukan panggilan LLM secara paralel.

Dimungkinkan untuk menggunakan LLM yang berbeda melalui API, seperti Openai , Groq , Azure dan Gemini , atau model lokal menggunakan Ollama .

Ingatlah untuk menginstal Ollama dan unduh model menggunakan perintah tarik Ollama , jika Anda ingin menggunakan model lokal.

Demo

Demo Streamlit Resmi:

Cobalah langsung di web menggunakan Google Colab:

Dokumentasi

Dokumentasi untuk Scrapegraphai dapat ditemukan di sini.

Lihat juga Docusaurus di sini.

Telemetri

Kami mengumpulkan metrik penggunaan anonim untuk meningkatkan kualitas dan pengalaman pengguna paket kami. Data membantu kami memprioritaskan peningkatan dan memastikan kompatibilitas. Jika Anda ingin memilih keluar, atur variabel lingkungan scrapegraphai_telemetry_enabled = false. Untuk informasi lebih lanjut, silakan merujuk ke dokumentasi di sini.

Kutipan

Jika Anda telah menggunakan perpustakaan kami untuk tujuan penelitian, silakan kutip dengan referensi berikut:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Memperluas

Informasi Tambahan

Versi v1.31.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-13
ukuran 3.74MB
Berasal dari Github

Aplikasi Terkait

Di depannya

2024-07-08
Aplikasi Libu Libu ai

2024-06-28
Pencipta AI

2023-04-23
Jasper AI

2023-04-12
Ya, AI

2022-08-16
AI asing

2022-07-29

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua