crawl4ai Télécharger - crawl4ai Téléchargement du code source

?️ Crawl4AI : robot d'exploration et grattoir Web convivial pour LLM

Crawl4AI simplifie l'exploration Web asynchrone et l'extraction de données, les rendant accessibles aux grands modèles de langage (LLM) et aux applications d'IA. ?

Nouveau dans la version 0.3.74

Grattage ultra-rapide : vitesse de grattage considérablement améliorée.
? Gestionnaire de téléchargement : exploration, téléchargement et suivi de fichiers intégrés dans CrawlResult .
Stratégie de démarque : système flexible pour la génération et les formats de démarques personnalisés.
? Citations adaptées au LLM : convertit automatiquement les liens en citations numérotées avec des listes de références.
? Filtre Markdown : extraction de contenu basée sur BM25 pour une démarque plus propre et pertinente.
?️ Extraction d'images : prend en charge les formats d'image srcset , picture et responsive.
HTML local/brut : explorez directement les chemins file:// et le HTML brut ( raw: ).
? Contrôle du navigateur : configurations de navigateur personnalisées avec intégration furtive pour contourner les robots.
☁️ API & Cache Boost : CORS, service statique et mise en cache améliorée basée sur le système de fichiers.
? API Gateway : exécuté en tant que service API avec authentification par jeton sécurisé.
Mises à niveau de la base de données : optimisées pour des ensembles de contenu plus volumineux avec une mise en cache plus rapide.
? Corrections de bugs : résolution des problèmes de contexte du navigateur, des fuites de mémoire et amélioration de la gestion des erreurs.

Essayez-le maintenant !

Jouez avec ça

Visitez notre site Web de documentation

Caractéristiques

? Entièrement gratuit et open source
Des performances ultra rapides, surpassant de nombreux services payants
? Formats de sortie compatibles LLM (JSON, HTML nettoyé, markdown)
Prise en charge de plusieurs navigateurs (Chromium, Firefox, WebKit)
? Prend en charge l'exploration de plusieurs URL simultanément
? Extrait et renvoie toutes les balises multimédias (images, audio et vidéo)
? Extrait tous les liens externes et internes
Extrait les métadonnées de la page
Hooks personnalisés pour l’authentification, les en-têtes et les modifications de page
Personnalisation de l'agent utilisateur
?️ Prend des captures d'écran des pages avec une gestion améliorée des erreurs
Exécute plusieurs JavaScripts personnalisés avant l'exploration
Génère une sortie structurée sans LLM à l'aide de JsonCssExtractionStrategy
Diverses stratégies de segmentation : thématiques, regex, phrases, etc.
? Stratégies d'extraction avancées : clustering cosinus, LLM, etc.
Prise en charge du sélecteur CSS pour une extraction précise des données
Transmet des instructions/mots-clés pour affiner l’extraction
Prise en charge du proxy avec authentification pour un accès amélioré
Gestion de session pour une exploration complexe de plusieurs pages
Architecture asynchrone pour des performances améliorées
?️ Traitement d'image amélioré avec détection de chargement paresseux
?️ Gestion améliorée du chargement retardé du contenu
? Prise en charge des en-têtes personnalisés pour les interactions LLM
?️ Extraction de contenu iframe pour une analyse complète
⏱️ Options de délai d'attente flexible et de récupération de contenu retardée

Installation

Crawl4AI propose des options d'installation flexibles pour s'adapter à différents cas d'utilisation. Vous pouvez l'installer en tant que package Python ou utiliser Docker.

Vous utilisez pip ?

Choisissez l'option d'installation qui correspond le mieux à vos besoins :

Installation de base

Pour les tâches de base d’exploration et de scraping Web :

pip install crawl4ai

Par défaut, cela installera la version asynchrone de Crawl4AI, en utilisant Playwright pour l'exploration du Web.

Remarque : lorsque vous installez Crawl4AI, le script d'installation doit automatiquement installer et configurer Playwright. Cependant, si vous rencontrez des erreurs liées à Playwright, vous pouvez l'installer manuellement en utilisant l'une de ces méthodes :

Via la ligne de commande :
```
playwright install
```
Si ce qui précède ne fonctionne pas, essayez cette commande plus spécifique :
```
python -m playwright install chromium
```

Cette seconde méthode s’est avérée plus fiable dans certains cas.

Installation avec version synchrone

Si vous avez besoin de la version synchrone utilisant Selenium :

pip install crawl4ai[sync]

Installation de développement

Pour les contributeurs qui envisagent de modifier le code source :

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

Déploiement en un clic

Déployez votre propre instance de Crawl4AI en un seul clic :

Spécifications recommandées : 4 Go de RAM minimum. Sélectionnez « professional-xs » ou supérieur lors du déploiement pour un fonctionnement stable.

Le déploiement va :

Configurer un conteneur Docker avec Crawl4AI
Configurer Playwright et toutes les dépendances
Démarrez le serveur FastAPI sur le port 11235
Configurer les vérifications de l'état et le déploiement automatique

Vous utilisez Docker ?

Crawl4AI est disponible sous forme d'images Docker pour un déploiement facile. Vous pouvez soit extraire directement depuis Docker Hub (recommandé), soit créer à partir du référentiel.

Option 1 : Docker Hub (recommandé)

 # Pull and run from Docker Hub (choose one):
docker pull unclecode/crawl4ai:basic    # Basic crawling features
docker pull unclecode/crawl4ai:all      # Full installation (ML, LLM support)
docker pull unclecode/crawl4ai:gpu      # GPU-enabled version

# Run the container
docker run -p 11235:11235 unclecode/crawl4ai:basic  # Replace 'basic' with your chosen version

# In case you want to set platform to arm64
docker run --platform linux/arm64 -p 11235:11235 unclecode/crawl4ai:basic

# In case to allocate more shared memory for the container
docker run --shm-size=2gb -p 11235:11235 unclecode/crawl4ai:basic

Option 2 : Construire à partir du référentiel

 # Clone the repository
git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai

# Build the image
docker build -t crawl4ai:local 
  --build-arg INSTALL_TYPE=basic   # Options: basic, all
  .

# In case you want to set platform to arm64
docker build -t crawl4ai:local 
  --build-arg INSTALL_TYPE=basic   # Options: basic, all
  --platform linux/arm64 
  .

# Run your local build
docker run -p 11235:11235 crawl4ai:local

Test rapide (fonctionne pour les deux options) :

 import requests

# Submit a crawl job
response = requests . post (
    "http://localhost:11235/crawl" ,
    json = { "urls" : "https://example.com" , "priority" : 10 }
)
task_id = response . json ()[ "task_id" ]

# Get results
result = requests . get ( f"http://localhost:11235/task/ { task_id } " )

Pour une configuration avancée, des variables d'environnement et des exemples d'utilisation, consultez notre Guide de déploiement Docker.

Démarrage rapide

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun ( url = "https://www.nbcnews.com/business" )
        print ( result . markdown )

if __name__ == "__main__" :
    asyncio . run ( main ())

Utilisation avancée ?

Exécution de JavaScript et utilisation des sélecteurs CSS

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        js_code = [ "const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More')); loadMoreButton && loadMoreButton.click();" ]
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            js_code = js_code ,
            css_selector = ".wide-tease-item__description" ,
            bypass_cache = True
        )
        print ( result . extracted_content )

if __name__ == "__main__" :
    asyncio . run ( main ())

Utiliser un proxy

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True , proxy = "http://127.0.0.1:7890" ) as crawler :
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            bypass_cache = True
        )
        print ( result . markdown )

if __name__ == "__main__" :
    asyncio . run ( main ())

Extraire des données structurées sans LLM

Le JsonCssExtractionStrategy permet une extraction précise des données structurées des pages Web à l'aide de sélecteurs CSS.

 import asyncio
import json
from crawl4ai import AsyncWebCrawler
from crawl4ai . extraction_strategy import JsonCssExtractionStrategy

async def extract_news_teasers ():
    schema = {
        "name" : "News Teaser Extractor" ,
        "baseSelector" : ".wide-tease-item__wrapper" ,
        "fields" : [
            {
                "name" : "category" ,
                "selector" : ".unibrow span[data-testid='unibrow-text']" ,
                "type" : "text" ,
            },
            {
                "name" : "headline" ,
                "selector" : ".wide-tease-item__headline" ,
                "type" : "text" ,
            },
            {
                "name" : "summary" ,
                "selector" : ".wide-tease-item__description" ,
                "type" : "text" ,
            },
            {
                "name" : "time" ,
                "selector" : "[data-testid='wide-tease-date']" ,
                "type" : "text" ,
            },
            {
                "name" : "image" ,
                "type" : "nested" ,
                "selector" : "picture.teasePicture img" ,
                "fields" : [
                    { "name" : "src" , "type" : "attribute" , "attribute" : "src" },
                    { "name" : "alt" , "type" : "attribute" , "attribute" : "alt" },
                ],
            },
            {
                "name" : "link" ,
                "selector" : "a[href]" ,
                "type" : "attribute" ,
                "attribute" : "href" ,
            },
        ],
    }

    extraction_strategy = JsonCssExtractionStrategy ( schema , verbose = True )

    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            extraction_strategy = extraction_strategy ,
            bypass_cache = True ,
        )

        assert result . success , "Failed to crawl the page"

        news_teasers = json . loads ( result . extracted_content )
        print ( f"Successfully extracted { len ( news_teasers ) } news teasers" )
        print ( json . dumps ( news_teasers [ 0 ], indent = 2 ))

if __name__ == "__main__" :
    asyncio . run ( extract_news_teasers ())

Pour des exemples d'utilisation plus avancés, consultez notre section Exemples dans la documentation.

Extraire des données structurées avec OpenAI

 import os
import asyncio
from crawl4ai import AsyncWebCrawler
from crawl4ai . extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel , Field

class OpenAIModelFee ( BaseModel ):
    model_name : str = Field (..., description = "Name of the OpenAI model." )
    input_fee : str = Field (..., description = "Fee for input token for the OpenAI model." )
    output_fee : str = Field (..., description = "Fee for output token for the OpenAI model." )

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun (
            url = 'https://openai.com/api/pricing/' ,
            word_count_threshold = 1 ,
            extraction_strategy = LLMExtractionStrategy (
                provider = "openai/gpt-4o" , api_token = os . getenv ( 'OPENAI_API_KEY' ), 
                schema = OpenAIModelFee . schema (),
                extraction_type = "schema" ,
                instruction = """From the crawled content, extract all mentioned model names along with their fees for input and output tokens. 
                Do not miss any models in the entire content. One extracted model JSON format should look like this: 
                {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
            ),            
            bypass_cache = True ,
        )
        print ( result . extracted_content )

if __name__ == "__main__" :
    asyncio . run ( main ())

Gestion de session et exploration de contenu dynamique

Crawl4AI excelle dans la gestion de scénarios complexes, tels que l'exploration de plusieurs pages avec du contenu dynamique chargé via JavaScript. Voici un exemple d'exploration des commits GitHub sur plusieurs pages :

 import asyncio
import re
from bs4 import BeautifulSoup
from crawl4ai import AsyncWebCrawler

async def crawl_typescript_commits ():
    first_commit = ""
    async def on_execution_started ( page ):
        nonlocal first_commit 
        try :
            while True :
                await page . wait_for_selector ( 'li.Box-sc-g0xbh4-0 h4' )
                commit = await page . query_selector ( 'li.Box-sc-g0xbh4-0 h4' )
                commit = await commit . evaluate ( '(element) => element.textContent' )
                commit = re . sub ( r's+' , '' , commit )
                if commit and commit != first_commit :
                    first_commit = commit
                    break
                await asyncio . sleep ( 0.5 )
        except Exception as e :
            print ( f"Warning: New content didn't appear after JavaScript execution: { e } " )

    async with AsyncWebCrawler ( verbose = True ) as crawler :
        crawler . crawler_strategy . set_hook ( 'on_execution_started' , on_execution_started )

        url = "https://github.com/microsoft/TypeScript/commits/main"
        session_id = "typescript_commits_session"
        all_commits = []

        js_next_page = """
        const button = document.querySelector('a[data-testid="pagination-next-button"]');
        if (button) button.click();
        """

        for page in range ( 3 ):  # Crawl 3 pages
            result = await crawler . arun (
                url = url ,
                session_id = session_id ,
                css_selector = "li.Box-sc-g0xbh4-0" ,
                js = js_next_page if page > 0 else None ,
                bypass_cache = True ,
                js_only = page > 0
            )

            assert result . success , f"Failed to crawl page { page + 1 } "

            soup = BeautifulSoup ( result . cleaned_html , 'html.parser' )
            commits = soup . select ( "li" )
            all_commits . extend ( commits )

            print ( f"Page { page + 1 } : Found { len ( commits ) } commits" )

        await crawler . crawler_strategy . kill_session ( session_id )
        print ( f"Successfully crawled { len ( all_commits ) } commits across 3 pages" )

if __name__ == "__main__" :
    asyncio . run ( crawl_typescript_commits ())

Cet exemple démontre la capacité de Crawl4AI à gérer des scénarios complexes où le contenu est chargé de manière asynchrone. Il explore plusieurs pages de commits GitHub, exécute JavaScript pour charger du nouveau contenu et utilise des hooks personnalisés pour garantir que les données sont chargées avant de continuer.

Pour des exemples d'utilisation plus avancés, consultez notre section Exemples dans la documentation.

Comparaison de vitesse

Crawl4AI est conçu avec la vitesse comme objectif principal. Notre objectif est de fournir la réponse la plus rapide possible avec une extraction de données de haute qualité, en minimisant les abstractions entre les données et l'utilisateur.

Nous avons effectué une comparaison de vitesse entre Crawl4AI et Firecrawl, un service payant. Les résultats démontrent les performances supérieures de Crawl4AI :

Firecrawl:
Time taken: 7.02 seconds
Content length: 42074 characters
Images found: 49

Crawl4AI (simple crawl):
Time taken: 1.60 seconds
Content length: 18238 characters
Images found: 49

Crawl4AI (with JavaScript execution):
Time taken: 4.64 seconds
Content length: 40869 characters
Images found: 89

Comme vous pouvez le constater, Crawl4AI surpasse considérablement Firecrawl :

Exploration simple : Crawl4AI est plus de 4 fois plus rapide que Firecrawl.
Avec l'exécution de JavaScript : même lors de l'exécution de JavaScript pour charger plus de contenu (doubler le nombre d'images trouvées), Crawl4AI est toujours plus rapide que le simple crawl de Firecrawl.

Vous pouvez trouver le code de comparaison complet dans notre référentiel à l' docs/examples/crawl4ai_vs_firecrawl.py .

Documentation

Pour une documentation détaillée, y compris des instructions d'installation, des fonctionnalités avancées et une référence API, visitez notre site Web de documentation.

Feuille de route Crawl4AI ?️

Pour des informations détaillées sur nos plans de développement et les fonctionnalités à venir, consultez notre feuille de route.

Systèmes d'exploration avancés ?

0. Graph Crawler : parcours intelligent de sites Web utilisant des algorithmes de recherche de graphiques pour une extraction complète de pages imbriquées
1. Crawler basé sur des questions : découverte Web et extraction de contenu basées sur le langage naturel
2. Knowledge-Optimal Crawler : une exploration intelligente qui maximise les connaissances tout en minimisant l'extraction de données
3. Agentic Crawler : système autonome pour les opérations d'exploration complexes en plusieurs étapes

Fonctionnalités spécialisées

4. Générateur de schémas automatisé : convertissez le langage naturel en schémas d'extraction
5. Scrapers spécifiques au domaine : extracteurs préconfigurés pour les plateformes communes (universitaires, e-commerce)
6. Web Embedding Index : infrastructure de recherche sémantique pour le contenu exploré

Outils de développement ?

7. Terrain de jeu interactif : interface utilisateur Web pour tester, comparer les stratégies avec l'assistance de l'IA
8. Analyseur de performances : informations en temps réel sur les opérations du robot d'exploration
9. Intégration cloud : solutions de déploiement en un clic parmi les fournisseurs de cloud

Communauté et croissance ?

10. Programme de parrainage : système de soutien structuré avec des avantages progressifs
11. Contenu éducatif : série de vidéos « Comment explorer » et didacticiels interactifs

Contribuer ?

Nous apprécions les contributions de la communauté open source. Consultez nos directives de contribution pour plus d’informations.

Permis ?

Crawl4AI est publié sous la licence Apache 2.0.

Contact ?

Pour des questions, des suggestions ou des commentaires, n'hésitez pas à nous contacter :

GitHub : code oncle
Twitter : @onclecode
Site Web : crawl4ai.com

Bonne exploration ! ?️

Mission

Notre mission est de libérer le potentiel inexploité des données personnelles et d’entreprise à l’ère numérique. Dans le monde d'aujourd'hui, les individus et les organisations génèrent de grandes quantités d'empreintes numériques précieuses, mais ces données restent largement sous-exploitées en tant que véritable atout.

Notre solution open source permet aux développeurs et aux innovateurs de créer des outils d'extraction et de structuration des données, jetant ainsi les bases d'une nouvelle ère de propriété des données. En transformant les données personnelles et d'entreprise en actifs structurés et négociables, nous créons des opportunités permettant aux individus de capitaliser sur leurs empreintes numériques et aux organisations de libérer la valeur de leurs connaissances collectives.

Cette démocratisation des données représente la première étape vers une économie de données partagées, dans laquelle la participation volontaire au partage des données stimule les progrès de l'IA tout en garantissant que les bénéfices reviennent aux créateurs de données. Grâce à cette approche, nous construisons un avenir dans lequel le développement de l’IA s’appuie sur des connaissances humaines authentiques plutôt que sur des alternatives synthétiques.

Pour une exploration détaillée de notre vision, de nos opportunités et de notre voie à suivre, veuillez consulter notre énoncé de mission complet.

Opportunités clés

Capitalisation des données : transformez les empreintes numériques en actifs précieux pouvant apparaître dans les bilans personnels et des entreprises
Données authentiques : débloquez le vaste réservoir d’informations et de connaissances humaines réelles pour faire progresser l’IA
Économie partagée : Créer de nouvelles chaînes de valeur où les créateurs de données bénéficient directement de leurs contributions

Parcours de développement

Open-Source Foundation : Créer des outils d'extraction de données transparents et pilotés par la communauté
Plateforme de Capitalisation de Données : Créer des outils pour structurer et valoriser les actifs numériques
Shared Data Marketplace : Mettre en place une plateforme économique pour l'échange éthique de données

Pour une exploration détaillée de notre vision, de nos défis et de nos solutions, veuillez consulter notre énoncé de mission complet.

Histoire des étoiles

Développer