Unduh crawl4ai - unduh kode sumber crawl4ai

?️ Crawl4AI: Perayap & Pengikis Web Ramah LLM

Crawl4AI menyederhanakan perayapan web asinkron dan ekstraksi data, sehingga dapat diakses oleh model bahasa besar (LLM) dan aplikasi AI. ?

Baru di 0.3.74

Blazing Fast Scraping : Kecepatan pengikisan yang ditingkatkan secara signifikan.
? Pengelola Unduhan : Perayapan, pengunduhan, dan pelacakan file terintegrasi dalam CrawlResult .
Strategi Penurunan Harga : Sistem fleksibel untuk pembuatan dan format penurunan harga khusus.
? Kutipan Ramah LLM : Mengonversi tautan secara otomatis ke kutipan bernomor dengan daftar referensi.
? Filter Penurunan Harga : Ekstraksi konten berbasis BM25 untuk penurunan harga yang lebih bersih dan relevan.
?️ Ekstraksi Gambar : Mendukung format gambar srcset , picture , dan responsif.
Lokal/HTML Mentah : Merayapi file:// jalur dan HTML mentah ( raw: ) secara langsung.
? Kontrol Browser : Pengaturan browser khusus dengan integrasi tersembunyi untuk melewati bot.
☁️ Peningkatan API & Cache : CORS, penyajian statis, dan caching berbasis sistem file yang ditingkatkan.
? API Gateway : Jalankan sebagai layanan API dengan otentikasi token aman.
Peningkatan Basis Data : Dioptimalkan untuk kumpulan konten yang lebih besar dengan cache yang lebih cepat.
? Perbaikan Bug : Mengatasi masalah konteks browser, kebocoran memori, dan meningkatkan penanganan kesalahan.

Cobalah Sekarang!

Bermain-main dengan ini

Kunjungi Situs Web Dokumentasi kami

Fitur

? Sepenuhnya gratis dan bersumber terbuka
Performa sangat cepat, mengungguli banyak layanan berbayar
? Format keluaran ramah LLM (JSON, HTML yang dibersihkan, penurunan harga)
Dukungan multi-browser (Chromium, Firefox, WebKit)
? Mendukung perayapan beberapa URL secara bersamaan
? Ekstrak dan kembalikan semua tag media (Gambar, Audio, dan Video)
? Ekstrak semua tautan eksternal dan internal
Mengekstrak metadata dari halaman
Kait khusus untuk autentikasi, header, dan modifikasi halaman
Kustomisasi agen pengguna
?️ Mengambil tangkapan layar halaman dengan penanganan kesalahan yang ditingkatkan
Jalankan beberapa JavaScript khusus sebelum dirayapi
Menghasilkan keluaran terstruktur tanpa LLM menggunakan JsonCssExtractionStrategy
Berbagai strategi chunking: berbasis topik, regex, kalimat, dan banyak lagi
? Strategi ekstraksi tingkat lanjut: pengelompokan kosinus, LLM, dan banyak lagi
Dukungan pemilih CSS untuk ekstraksi data yang tepat
Melewati instruksi/kata kunci untuk menyempurnakan ekstraksi
Dukungan proxy dengan otentikasi untuk meningkatkan akses
Manajemen sesi untuk perayapan multi-halaman yang kompleks
Arsitektur asinkron untuk meningkatkan kinerja
?️ Peningkatan pemrosesan gambar dengan deteksi pemuatan lambat
?️ Peningkatan penanganan pemuatan konten yang tertunda
? Dukungan header khusus untuk interaksi LLM
?️ ekstraksi konten iframe untuk analisis komprehensif
⏱️ Batas waktu fleksibel dan opsi pengambilan konten tertunda

Instalasi

Crawl4AI menawarkan opsi instalasi yang fleksibel untuk disesuaikan dengan berbagai kasus penggunaan. Anda dapat menginstalnya sebagai paket Python atau menggunakan Docker.

Menggunakan pip?

Pilih opsi instalasi yang paling sesuai dengan kebutuhan Anda:

Instalasi Dasar

Untuk tugas perayapan dan pengikisan web dasar:

pip install crawl4ai

Secara default, ini akan menginstal versi Crawl4AI yang tidak sinkron, menggunakan Playwright untuk perayapan web.

Catatan: Saat Anda menginstal Crawl4AI, skrip pengaturan akan secara otomatis menginstal dan mengatur Playwright. Namun, jika Anda menemukan kesalahan terkait Penulis Drama, Anda dapat menginstalnya secara manual menggunakan salah satu metode berikut:

Melalui baris perintah:
```
playwright install
```
Jika cara di atas tidak berhasil, coba perintah yang lebih spesifik ini:
```
python -m playwright install chromium
```

Cara kedua ini terbukti lebih dapat diandalkan dalam beberapa kasus.

Instalasi dengan Versi Sinkron

Jika Anda memerlukan versi sinkron menggunakan Selenium:

pip install crawl4ai[sync]

Instalasi Pembangunan

Bagi kontributor yang berencana mengubah kode sumber:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

Penerapan Sekali Klik

Terapkan instance Crawl4AI Anda sendiri dengan satu klik:

Spesifikasi yang disarankan : minimal RAM 4GB. Pilih "profesional-xs" atau lebih tinggi saat menerapkan untuk operasi yang stabil.

Penerapannya akan:

Siapkan wadah Docker dengan Crawl4AI
Konfigurasikan Penulis Drama dan semua dependensi
Mulai server FastAPI pada port 11235
Siapkan pemeriksaan kondisi dan penerapan otomatis

Menggunakan Docker?

Crawl4AI tersedia sebagai image Docker untuk kemudahan penerapan. Anda dapat menarik langsung dari Docker Hub (disarankan) atau membangun dari repositori.

Opsi 1: Docker Hub (Disarankan)

 # Pull and run from Docker Hub (choose one):
docker pull unclecode/crawl4ai:basic    # Basic crawling features
docker pull unclecode/crawl4ai:all      # Full installation (ML, LLM support)
docker pull unclecode/crawl4ai:gpu      # GPU-enabled version

# Run the container
docker run -p 11235:11235 unclecode/crawl4ai:basic  # Replace 'basic' with your chosen version

# In case you want to set platform to arm64
docker run --platform linux/arm64 -p 11235:11235 unclecode/crawl4ai:basic

# In case to allocate more shared memory for the container
docker run --shm-size=2gb -p 11235:11235 unclecode/crawl4ai:basic

Opsi 2: Bangun dari Repositori

 # Clone the repository
git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai

# Build the image
docker build -t crawl4ai:local 
  --build-arg INSTALL_TYPE=basic   # Options: basic, all
  .

# In case you want to set platform to arm64
docker build -t crawl4ai:local 
  --build-arg INSTALL_TYPE=basic   # Options: basic, all
  --platform linux/arm64 
  .

# Run your local build
docker run -p 11235:11235 crawl4ai:local

Tes cepat (berfungsi untuk kedua opsi):

 import requests

# Submit a crawl job
response = requests . post (
    "http://localhost:11235/crawl" ,
    json = { "urls" : "https://example.com" , "priority" : 10 }
)
task_id = response . json ()[ "task_id" ]

# Get results
result = requests . get ( f"http://localhost:11235/task/ { task_id } " )

Untuk konfigurasi tingkat lanjut, variabel lingkungan, dan contoh penggunaan, lihat Panduan Penerapan Docker kami.

Mulai Cepat

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun ( url = "https://www.nbcnews.com/business" )
        print ( result . markdown )

if __name__ == "__main__" :
    asyncio . run ( main ())

Penggunaan Tingkat Lanjut?

Menjalankan JavaScript dan Menggunakan Selector CSS

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        js_code = [ "const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More')); loadMoreButton && loadMoreButton.click();" ]
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            js_code = js_code ,
            css_selector = ".wide-tease-item__description" ,
            bypass_cache = True
        )
        print ( result . extracted_content )

if __name__ == "__main__" :
    asyncio . run ( main ())

Menggunakan Proksi

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True , proxy = "http://127.0.0.1:7890" ) as crawler :
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            bypass_cache = True
        )
        print ( result . markdown )

if __name__ == "__main__" :
    asyncio . run ( main ())

Mengekstraksi Data Terstruktur tanpa LLM

JsonCssExtractionStrategy memungkinkan ekstraksi data terstruktur secara tepat dari halaman web menggunakan pemilih CSS.

 import asyncio
import json
from crawl4ai import AsyncWebCrawler
from crawl4ai . extraction_strategy import JsonCssExtractionStrategy

async def extract_news_teasers ():
    schema = {
        "name" : "News Teaser Extractor" ,
        "baseSelector" : ".wide-tease-item__wrapper" ,
        "fields" : [
            {
                "name" : "category" ,
                "selector" : ".unibrow span[data-testid='unibrow-text']" ,
                "type" : "text" ,
            },
            {
                "name" : "headline" ,
                "selector" : ".wide-tease-item__headline" ,
                "type" : "text" ,
            },
            {
                "name" : "summary" ,
                "selector" : ".wide-tease-item__description" ,
                "type" : "text" ,
            },
            {
                "name" : "time" ,
                "selector" : "[data-testid='wide-tease-date']" ,
                "type" : "text" ,
            },
            {
                "name" : "image" ,
                "type" : "nested" ,
                "selector" : "picture.teasePicture img" ,
                "fields" : [
                    { "name" : "src" , "type" : "attribute" , "attribute" : "src" },
                    { "name" : "alt" , "type" : "attribute" , "attribute" : "alt" },
                ],
            },
            {
                "name" : "link" ,
                "selector" : "a[href]" ,
                "type" : "attribute" ,
                "attribute" : "href" ,
            },
        ],
    }

    extraction_strategy = JsonCssExtractionStrategy ( schema , verbose = True )

    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            extraction_strategy = extraction_strategy ,
            bypass_cache = True ,
        )

        assert result . success , "Failed to crawl the page"

        news_teasers = json . loads ( result . extracted_content )
        print ( f"Successfully extracted { len ( news_teasers ) } news teasers" )
        print ( json . dumps ( news_teasers [ 0 ], indent = 2 ))

if __name__ == "__main__" :
    asyncio . run ( extract_news_teasers ())

Untuk contoh penggunaan lebih lanjut, lihat bagian Contoh kami di dokumentasi.

Mengekstraksi Data Terstruktur dengan OpenAI

 import os
import asyncio
from crawl4ai import AsyncWebCrawler
from crawl4ai . extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel , Field

class OpenAIModelFee ( BaseModel ):
    model_name : str = Field (..., description = "Name of the OpenAI model." )
    input_fee : str = Field (..., description = "Fee for input token for the OpenAI model." )
    output_fee : str = Field (..., description = "Fee for output token for the OpenAI model." )

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun (
            url = 'https://openai.com/api/pricing/' ,
            word_count_threshold = 1 ,
            extraction_strategy = LLMExtractionStrategy (
                provider = "openai/gpt-4o" , api_token = os . getenv ( 'OPENAI_API_KEY' ), 
                schema = OpenAIModelFee . schema (),
                extraction_type = "schema" ,
                instruction = """From the crawled content, extract all mentioned model names along with their fees for input and output tokens. 
                Do not miss any models in the entire content. One extracted model JSON format should look like this: 
                {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
            ),            
            bypass_cache = True ,
        )
        print ( result . extracted_content )

if __name__ == "__main__" :
    asyncio . run ( main ())

Manajemen Sesi dan Perayapan Konten Dinamis

Crawl4AI unggul dalam menangani skenario kompleks, seperti merayapi beberapa halaman dengan konten dinamis yang dimuat melalui JavaScript. Berikut ini contoh perayapan komitmen GitHub di beberapa halaman:

 import asyncio
import re
from bs4 import BeautifulSoup
from crawl4ai import AsyncWebCrawler

async def crawl_typescript_commits ():
    first_commit = ""
    async def on_execution_started ( page ):
        nonlocal first_commit 
        try :
            while True :
                await page . wait_for_selector ( 'li.Box-sc-g0xbh4-0 h4' )
                commit = await page . query_selector ( 'li.Box-sc-g0xbh4-0 h4' )
                commit = await commit . evaluate ( '(element) => element.textContent' )
                commit = re . sub ( r's+' , '' , commit )
                if commit and commit != first_commit :
                    first_commit = commit
                    break
                await asyncio . sleep ( 0.5 )
        except Exception as e :
            print ( f"Warning: New content didn't appear after JavaScript execution: { e } " )

    async with AsyncWebCrawler ( verbose = True ) as crawler :
        crawler . crawler_strategy . set_hook ( 'on_execution_started' , on_execution_started )

        url = "https://github.com/microsoft/TypeScript/commits/main"
        session_id = "typescript_commits_session"
        all_commits = []

        js_next_page = """
        const button = document.querySelector('a[data-testid="pagination-next-button"]');
        if (button) button.click();
        """

        for page in range ( 3 ):  # Crawl 3 pages
            result = await crawler . arun (
                url = url ,
                session_id = session_id ,
                css_selector = "li.Box-sc-g0xbh4-0" ,
                js = js_next_page if page > 0 else None ,
                bypass_cache = True ,
                js_only = page > 0
            )

            assert result . success , f"Failed to crawl page { page + 1 } "

            soup = BeautifulSoup ( result . cleaned_html , 'html.parser' )
            commits = soup . select ( "li" )
            all_commits . extend ( commits )

            print ( f"Page { page + 1 } : Found { len ( commits ) } commits" )

        await crawler . crawler_strategy . kill_session ( session_id )
        print ( f"Successfully crawled { len ( all_commits ) } commits across 3 pages" )

if __name__ == "__main__" :
    asyncio . run ( crawl_typescript_commits ())

Contoh ini menunjukkan kemampuan Crawl4AI untuk menangani skenario kompleks di mana konten dimuat secara asinkron. Itu merayapi beberapa halaman komitmen GitHub, mengeksekusi JavaScript untuk memuat konten baru dan menggunakan kait khusus untuk memastikan data dimuat sebelum melanjutkan.

Untuk contoh penggunaan lebih lanjut, lihat bagian Contoh kami di dokumentasi.

Perbandingan Kecepatan

Crawl4AI dirancang dengan kecepatan sebagai fokus utama. Tujuan kami adalah memberikan respons secepat mungkin dengan ekstraksi data berkualitas tinggi, meminimalkan abstraksi antara data dan pengguna.

Kami telah melakukan perbandingan kecepatan antara Crawl4AI dan Firecrawl, layanan berbayar. Hasilnya menunjukkan kinerja unggul Crawl4AI:

Firecrawl:
Time taken: 7.02 seconds
Content length: 42074 characters
Images found: 49

Crawl4AI (simple crawl):
Time taken: 1.60 seconds
Content length: 18238 characters
Images found: 49

Crawl4AI (with JavaScript execution):
Time taken: 4.64 seconds
Content length: 40869 characters
Images found: 89

Seperti yang Anda lihat, Crawl4AI mengungguli Firecrawl secara signifikan:

Perayapan sederhana: Crawl4AI 4 kali lebih cepat dari Firecrawl.
Dengan eksekusi JavaScript: Bahkan ketika mengeksekusi JavaScript untuk memuat lebih banyak konten (menggandakan jumlah gambar yang ditemukan), Crawl4AI masih lebih cepat daripada perayapan sederhana Firecrawl.

Anda dapat menemukan kode perbandingan lengkap di repositori kami di docs/examples/crawl4ai_vs_firecrawl.py .

Dokumentasi

Untuk dokumentasi terperinci, termasuk petunjuk instalasi, fitur lanjutan, dan referensi API, kunjungi Situs Web Dokumentasi kami.

Peta Jalan Crawl4AI ?️

Untuk informasi mendetail tentang rencana pengembangan dan fitur mendatang kami, lihat Peta Jalan kami.

Sistem Perayapan Tingkat Lanjut?

0. Perayap Grafik: Penjelajahan situs web cerdas menggunakan algoritma pencarian grafik untuk ekstraksi halaman bersarang yang komprehensif
1. Perayap Berbasis Pertanyaan: Penemuan web dan ekstraksi konten berbasis bahasa alami
2. Perayap Optimal Pengetahuan: Perayapan cerdas yang memaksimalkan pengetahuan sekaligus meminimalkan ekstraksi data
3. Perayap Agen: Sistem otonom untuk operasi perayapan multi-langkah yang kompleks

Fitur Khusus

4. Generator Skema Otomatis: Mengubah bahasa alami menjadi skema ekstraksi
5. Scraper Khusus Domain: Ekstraktor yang telah dikonfigurasi sebelumnya untuk platform umum (akademik, e-niaga)
6. Indeks Penyematan Web: Infrastruktur pencarian semantik untuk konten yang dirayapi

Alat Pengembangan?

7. Taman Bermain Interaktif: UI Web untuk pengujian, membandingkan strategi dengan bantuan AI
8. Monitor Kinerja: Wawasan waktu nyata mengenai operasi perayap
9. Integrasi Cloud: Solusi penerapan sekali klik di seluruh penyedia cloud

Komunitas & Pertumbuhan?

10. Program Sponsor: Sistem pendukung terstruktur dengan manfaat berjenjang
11. Konten Edukasi: Seri video "Cara Merangkak" dan tutorial interaktif

Berkontribusi?

Kami menyambut kontribusi dari komunitas sumber terbuka. Lihat pedoman kontribusi kami untuk informasi lebih lanjut.

Lisensi?

Crawl4AI dirilis di bawah Lisensi Apache 2.0.

Kontak?

Untuk pertanyaan, saran, atau masukan, silakan menghubungi:

GitHub: kode paman
Twitter: @unclecode
Situs web: crawl4ai.com

Selamat Merangkak! ?️

Misi

Misi kami adalah membuka potensi data pribadi dan perusahaan yang belum dimanfaatkan di era digital. Di dunia saat ini, individu dan organisasi menghasilkan banyak sekali jejak digital yang berharga, namun sebagian besar data tersebut masih belum dimanfaatkan sebagai aset yang sebenarnya.

Solusi sumber terbuka kami memberdayakan pengembang dan inovator untuk membangun alat untuk ekstraksi dan penataan data, sehingga meletakkan dasar bagi era baru kepemilikan data. Dengan mengubah data pribadi dan perusahaan menjadi aset terstruktur dan dapat diperdagangkan, kami menciptakan peluang bagi individu untuk memanfaatkan jejak digital mereka dan bagi organisasi untuk membuka nilai pengetahuan kolektif mereka.

Demokratisasi data ini mewakili langkah pertama menuju ekonomi data bersama, di mana kesediaan berpartisipasi dalam berbagi data mendorong kemajuan AI sekaligus memastikan manfaatnya mengalir kembali ke pembuat data. Melalui pendekatan ini, kami membangun masa depan di mana pengembangan AI didukung oleh pengetahuan asli manusia, bukan alternatif sintetis.

Untuk eksplorasi rinci tentang visi, peluang, dan jalur ke depan kami, silakan lihat pernyataan misi lengkap kami.

Peluang Utama

Kapitalisasi Data : Mengubah jejak digital menjadi aset berharga yang dapat muncul di neraca pribadi dan perusahaan
Data Otentik : Membuka sumber wawasan dan pengetahuan manusia yang luas untuk kemajuan AI
Ekonomi Bersama : Menciptakan aliran nilai baru di mana pembuat data mendapat manfaat langsung dari kontribusi mereka

Jalur Pembangunan

Open-Source Foundation : Membangun alat ekstraksi data yang transparan dan berbasis komunitas
Platform Kapitalisasi Data : Menciptakan alat untuk menyusun dan menilai aset digital
Pasar Data Bersama : Membangun platform ekonomi untuk pertukaran data yang etis

Untuk eksplorasi rinci tentang visi, tantangan, dan solusi kami, silakan lihat pernyataan misi lengkap kami.

Sejarah Bintang

Memperluas