crawl4ai 다운로드 - crawl4ai 소스코드 다운로드

?️ Crawl4AI: LLM 친화적인 웹 크롤러 및 스크레이퍼

Crawl4AI는 비동기식 웹 크롤링 및 데이터 추출을 단순화하여 LLM(대형 언어 모델) 및 AI 애플리케이션에 액세스할 수 있도록 합니다. ?

0.3.74의 새로운 기능

Blazing Fast Scraping : 스크래핑 속도가 대폭 향상되었습니다.
? 다운로드 관리자 : CrawlResult 내에서 통합된 파일 크롤링, 다운로드 및 추적.
마크다운 전략 : 맞춤형 마크다운 생성 및 형식을 위한 유연한 시스템입니다.
? LLM 친화적 인용 : 참조 목록을 사용하여 링크를 번호가 매겨진 인용으로 자동 변환합니다.
? 마크다운 필터 : 보다 명확하고 관련성이 높은 마크다운을 위한 BM25 기반 콘텐츠 추출입니다.
?️ 이미지 추출 : srcset , picture 및 반응형 이미지 형식을 지원합니다.
로컬/원시 HTML : file:// 경로 및 원시 HTML( raw: )을 직접 크롤링합니다.
? 브라우저 제어 : 봇을 우회하기 위한 스텔스 통합 기능을 갖춘 사용자 정의 브라우저 설정입니다.
☁️ API 및 캐시 부스트 : CORS, 정적 서비스 및 향상된 파일 시스템 기반 캐싱.
? API Gateway : 보안 토큰 인증을 통해 API 서비스로 실행됩니다.
데이터베이스 업그레이드 : 더 빠른 캐싱으로 더 큰 콘텐츠 세트에 최적화되었습니다.
? 버그 수정 : 브라우저 컨텍스트 문제, 메모리 누수 문제가 해결되고 오류 처리가 개선되었습니다.

지금 사용해 보세요!

이것저것 가지고 놀아보세요

문서 웹사이트 방문

특징

? 완전 무료 및 오픈 소스
수많은 유료 서비스를 능가하는 눈부시게 빠른 성능
? LLM 친화적인 출력 형식(JSON, 정리된 HTML, 마크다운)
다중 브라우저 지원(Chromium, Firefox, WebKit)
? 여러 URL을 동시에 크롤링 지원
? 모든 미디어 태그(이미지, 오디오 및 비디오)를 추출하고 반환합니다.
? 모든 외부 및 내부 링크를 추출합니다.
페이지에서 메타데이터를 추출합니다.
인증, 헤더 및 페이지 수정을 위한 사용자 정의 후크
사용자 에이전트 사용자 정의
?️ 향상된 오류 처리 기능으로 페이지의 스크린샷을 찍습니다.
크롤링하기 전에 여러 사용자 정의 JavaScript를 실행합니다.
JsonCssExtractionStrategy를 사용하여 LLM 없이 구조화된 출력을 생성합니다.
다양한 청킹 전략: 주제 기반, 정규식, 문장 등
? 고급 추출 전략: 코사인 클러스터링, LLM 등
정확한 데이터 추출을 위한 CSS 선택기 지원
추출을 구체화하기 위한 지침/키워드를 전달합니다.
향상된 액세스를 위한 인증을 통한 프록시 지원
복잡한 다중 페이지 크롤링을 위한 세션 관리
성능 향상을 위한 비동기 아키텍처
?️ 지연 로딩 감지로 이미지 처리 개선
?️ 지연된 콘텐츠 로딩 처리 강화
? LLM 상호 작용을 위한 사용자 정의 헤더 지원
?️ 종합적인 분석을 위한 iframe 콘텐츠 추출
⏱️ 유연한 시간 초과 및 지연된 콘텐츠 검색 옵션

설치

Crawl4AI는 다양한 사용 사례에 적합한 유연한 설치 옵션을 제공합니다. Python 패키지로 설치하거나 Docker를 사용할 수 있습니다.

핍을 사용하시나요?

귀하의 필요에 가장 적합한 설치 옵션을 선택하십시오:

기본 설치

기본적인 웹 크롤링 및 스크래핑 작업의 경우:

pip install crawl4ai

기본적으로 웹 크롤링을 위해 Playwright를 사용하여 Crawl4AI의 비동기 버전을 설치합니다.

참고: Crawl4AI를 설치하면 설정 스크립트가 자동으로 Playwright를 설치하고 설정해야 합니다. 그러나 Playwright 관련 오류가 발생하는 경우 다음 방법 중 하나를 사용하여 수동으로 설치할 수 있습니다.

명령줄을 통해:
```
playwright install
```
위의 방법이 작동하지 않으면 다음과 같은 보다 구체적인 명령을 시도해 보십시오.
```
python -m playwright install chromium
```

이 두 번째 방법은 어떤 경우에는 더 신뢰할 수 있는 것으로 입증되었습니다.

동기 버전으로 설치

Selenium을 사용하는 동기 버전이 필요한 경우:

pip install crawl4ai[sync]

개발 설치

소스 코드를 수정하려는 기여자의 경우:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

원클릭 배포

한 번의 클릭으로 Crawl4AI의 자체 인스턴스를 배포하십시오.

권장 사양 : 최소 4GB RAM. 안정적인 운영을 위해 배포 시 "professional-xs" 이상을 선택하세요.

배포는 다음을 수행합니다.

Crawl4AI로 Docker 컨테이너 설정
Playwright 및 모든 종속성 구성
포트 11235에서 FastAPI 서버를 시작합니다.
상태 확인 및 자동 배포 설정

도커를 사용하시나요?

Crawl4AI는 간편한 배포를 위해 Docker 이미지로 제공됩니다. Docker Hub에서 직접 가져오거나(권장) 리포지토리에서 빌드할 수 있습니다.

옵션 1: Docker 허브(권장)

 # Pull and run from Docker Hub (choose one):
docker pull unclecode/crawl4ai:basic    # Basic crawling features
docker pull unclecode/crawl4ai:all      # Full installation (ML, LLM support)
docker pull unclecode/crawl4ai:gpu      # GPU-enabled version

# Run the container
docker run -p 11235:11235 unclecode/crawl4ai:basic  # Replace 'basic' with your chosen version

# In case you want to set platform to arm64
docker run --platform linux/arm64 -p 11235:11235 unclecode/crawl4ai:basic

# In case to allocate more shared memory for the container
docker run --shm-size=2gb -p 11235:11235 unclecode/crawl4ai:basic

옵션 2: 리포지토리에서 빌드

 # Clone the repository
git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai

# Build the image
docker build -t crawl4ai:local 
  --build-arg INSTALL_TYPE=basic   # Options: basic, all
  .

# In case you want to set platform to arm64
docker build -t crawl4ai:local 
  --build-arg INSTALL_TYPE=basic   # Options: basic, all
  --platform linux/arm64 
  .

# Run your local build
docker run -p 11235:11235 crawl4ai:local

빠른 테스트(두 옵션 모두에서 작동):

 import requests

# Submit a crawl job
response = requests . post (
    "http://localhost:11235/crawl" ,
    json = { "urls" : "https://example.com" , "priority" : 10 }
)
task_id = response . json ()[ "task_id" ]

# Get results
result = requests . get ( f"http://localhost:11235/task/ { task_id } " )

고급 구성, 환경 변수 및 사용 예는 Docker 배포 가이드를 참조하세요.

빠른 시작

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun ( url = "https://www.nbcnews.com/business" )
        print ( result . markdown )

if __name__ == "__main__" :
    asyncio . run ( main ())

고급 사용법?

JavaScript 실행 및 CSS 선택기 사용

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        js_code = [ "const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More')); loadMoreButton && loadMoreButton.click();" ]
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            js_code = js_code ,
            css_selector = ".wide-tease-item__description" ,
            bypass_cache = True
        )
        print ( result . extracted_content )

if __name__ == "__main__" :
    asyncio . run ( main ())

프록시 사용

 import asyncio
from crawl4ai import AsyncWebCrawler

async def main ():
    async with AsyncWebCrawler ( verbose = True , proxy = "http://127.0.0.1:7890" ) as crawler :
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            bypass_cache = True
        )
        print ( result . markdown )

if __name__ == "__main__" :
    asyncio . run ( main ())

LLM 없이 구조화된 데이터 추출

JsonCssExtractionStrategy 를 사용하면 CSS 선택기를 사용하여 웹 페이지에서 구조화된 데이터를 정확하게 추출할 수 있습니다.

 import asyncio
import json
from crawl4ai import AsyncWebCrawler
from crawl4ai . extraction_strategy import JsonCssExtractionStrategy

async def extract_news_teasers ():
    schema = {
        "name" : "News Teaser Extractor" ,
        "baseSelector" : ".wide-tease-item__wrapper" ,
        "fields" : [
            {
                "name" : "category" ,
                "selector" : ".unibrow span[data-testid='unibrow-text']" ,
                "type" : "text" ,
            },
            {
                "name" : "headline" ,
                "selector" : ".wide-tease-item__headline" ,
                "type" : "text" ,
            },
            {
                "name" : "summary" ,
                "selector" : ".wide-tease-item__description" ,
                "type" : "text" ,
            },
            {
                "name" : "time" ,
                "selector" : "[data-testid='wide-tease-date']" ,
                "type" : "text" ,
            },
            {
                "name" : "image" ,
                "type" : "nested" ,
                "selector" : "picture.teasePicture img" ,
                "fields" : [
                    { "name" : "src" , "type" : "attribute" , "attribute" : "src" },
                    { "name" : "alt" , "type" : "attribute" , "attribute" : "alt" },
                ],
            },
            {
                "name" : "link" ,
                "selector" : "a[href]" ,
                "type" : "attribute" ,
                "attribute" : "href" ,
            },
        ],
    }

    extraction_strategy = JsonCssExtractionStrategy ( schema , verbose = True )

    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun (
            url = "https://www.nbcnews.com/business" ,
            extraction_strategy = extraction_strategy ,
            bypass_cache = True ,
        )

        assert result . success , "Failed to crawl the page"

        news_teasers = json . loads ( result . extracted_content )
        print ( f"Successfully extracted { len ( news_teasers ) } news teasers" )
        print ( json . dumps ( news_teasers [ 0 ], indent = 2 ))

if __name__ == "__main__" :
    asyncio . run ( extract_news_teasers ())

더 많은 고급 사용 예를 보려면 설명서의 예 섹션을 확인하세요.

OpenAI로 구조화된 데이터 추출

 import os
import asyncio
from crawl4ai import AsyncWebCrawler
from crawl4ai . extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel , Field

class OpenAIModelFee ( BaseModel ):
    model_name : str = Field (..., description = "Name of the OpenAI model." )
    input_fee : str = Field (..., description = "Fee for input token for the OpenAI model." )
    output_fee : str = Field (..., description = "Fee for output token for the OpenAI model." )

async def main ():
    async with AsyncWebCrawler ( verbose = True ) as crawler :
        result = await crawler . arun (
            url = 'https://openai.com/api/pricing/' ,
            word_count_threshold = 1 ,
            extraction_strategy = LLMExtractionStrategy (
                provider = "openai/gpt-4o" , api_token = os . getenv ( 'OPENAI_API_KEY' ), 
                schema = OpenAIModelFee . schema (),
                extraction_type = "schema" ,
                instruction = """From the crawled content, extract all mentioned model names along with their fees for input and output tokens. 
                Do not miss any models in the entire content. One extracted model JSON format should look like this: 
                {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
            ),            
            bypass_cache = True ,
        )
        print ( result . extracted_content )

if __name__ == "__main__" :
    asyncio . run ( main ())

세션 관리 및 동적 콘텐츠 크롤링

Crawl4AI는 JavaScript를 통해 로드된 동적 콘텐츠가 포함된 여러 페이지를 크롤링하는 등 복잡한 시나리오를 처리하는 데 탁월합니다. 다음은 여러 페이지에 걸쳐 GitHub 커밋을 크롤링하는 예입니다.

 import asyncio
import re
from bs4 import BeautifulSoup
from crawl4ai import AsyncWebCrawler

async def crawl_typescript_commits ():
    first_commit = ""
    async def on_execution_started ( page ):
        nonlocal first_commit 
        try :
            while True :
                await page . wait_for_selector ( 'li.Box-sc-g0xbh4-0 h4' )
                commit = await page . query_selector ( 'li.Box-sc-g0xbh4-0 h4' )
                commit = await commit . evaluate ( '(element) => element.textContent' )
                commit = re . sub ( r's+' , '' , commit )
                if commit and commit != first_commit :
                    first_commit = commit
                    break
                await asyncio . sleep ( 0.5 )
        except Exception as e :
            print ( f"Warning: New content didn't appear after JavaScript execution: { e } " )

    async with AsyncWebCrawler ( verbose = True ) as crawler :
        crawler . crawler_strategy . set_hook ( 'on_execution_started' , on_execution_started )

        url = "https://github.com/microsoft/TypeScript/commits/main"
        session_id = "typescript_commits_session"
        all_commits = []

        js_next_page = """
        const button = document.querySelector('a[data-testid="pagination-next-button"]');
        if (button) button.click();
        """

        for page in range ( 3 ):  # Crawl 3 pages
            result = await crawler . arun (
                url = url ,
                session_id = session_id ,
                css_selector = "li.Box-sc-g0xbh4-0" ,
                js = js_next_page if page > 0 else None ,
                bypass_cache = True ,
                js_only = page > 0
            )

            assert result . success , f"Failed to crawl page { page + 1 } "

            soup = BeautifulSoup ( result . cleaned_html , 'html.parser' )
            commits = soup . select ( "li" )
            all_commits . extend ( commits )

            print ( f"Page { page + 1 } : Found { len ( commits ) } commits" )

        await crawler . crawler_strategy . kill_session ( session_id )
        print ( f"Successfully crawled { len ( all_commits ) } commits across 3 pages" )

if __name__ == "__main__" :
    asyncio . run ( crawl_typescript_commits ())

이 예는 콘텐츠가 비동기적으로 로드되는 복잡한 시나리오를 처리하는 Crawl4AI의 능력을 보여줍니다. GitHub 커밋의 여러 페이지를 크롤링하고 JavaScript를 실행하여 새 콘텐츠를 로드하고 사용자 지정 후크를 사용하여 진행하기 전에 데이터가 로드되었는지 확인합니다.

더 많은 고급 사용 예를 보려면 설명서의 예 섹션을 확인하세요.

속도 비교

Crawl4AI는 속도를 주요 초점으로 설계되었습니다. 우리의 목표는 고품질 데이터 추출을 통해 가장 빠른 응답을 제공하고 데이터와 사용자 간의 추상화를 최소화하는 것입니다.

Crawl4AI와 유료 서비스인 Firecrawl의 속도 비교를 진행해보았습니다. 결과는 Crawl4AI의 뛰어난 성능을 보여줍니다.

Firecrawl:
Time taken: 7.02 seconds
Content length: 42074 characters
Images found: 49

Crawl4AI (simple crawl):
Time taken: 1.60 seconds
Content length: 18238 characters
Images found: 49

Crawl4AI (with JavaScript execution):
Time taken: 4.64 seconds
Content length: 40869 characters
Images found: 89

보시다시피 Crawl4AI는 Firecrawl보다 성능이 훨씬 뛰어납니다.

간단한 크롤링: Crawl4AI는 Firecrawl보다 4배 이상 빠릅니다.
JavaScript 실행 사용: 더 많은 콘텐츠를 로드하기 위해 JavaScript를 실행하는 경우에도(발견된 이미지 수를 두 배로 늘림) Crawl4AI는 Firecrawl의 단순 크롤링보다 여전히 빠릅니다.

docs/examples/crawl4ai_vs_firecrawl.py 저장소에서 전체 비교 코드를 찾을 수 있습니다.

선적 서류 비치

설치 지침, 고급 기능, API 참조를 포함한 자세한 문서를 보려면 문서 웹사이트를 방문하세요.

Crawl4AI 로드맵 ?️

개발 계획 및 향후 기능에 대한 자세한 내용은 로드맵을 확인하세요.

고급 크롤링 시스템?

0. 그래프 크롤러: 포괄적인 중첩 페이지 추출을 위해 그래프 검색 알고리즘을 사용하는 스마트 웹사이트 탐색
1. 질문 기반 크롤러: 자연어 기반 웹 검색 및 콘텐츠 추출
2. 지식 최적 크롤러: 데이터 추출을 최소화하면서 지식을 극대화하는 스마트 크롤링
3. Agentic Crawler: 복잡한 다단계 크롤링 작업을 위한 자율 시스템

특화된 기능

4. 자동화된 스키마 생성기: 자연어를 추출 스키마로 변환
5. 도메인별 스크레이퍼: 공통 플랫폼(학술, 전자상거래)을 위해 사전 구성된 추출기
6. 웹 임베딩 인덱스: 크롤링된 콘텐츠에 대한 의미 검색 인프라

개발 도구?

7. Interactive Playground: 테스트를 위한 웹 UI, AI 지원과 전략 비교
8. 성능 모니터: 크롤러 작업에 대한 실시간 통찰력
9. 클라우드 통합: 클라우드 제공업체 전반에 걸친 원클릭 배포 솔루션

커뮤니티 및 성장 ?

10. 후원 프로그램: 계층화된 혜택을 제공하는 체계적인 지원 시스템
11. 교육 콘텐츠: "크롤링 방법" 비디오 시리즈 및 대화형 튜토리얼

기여?

우리는 오픈 소스 커뮤니티의 기여를 환영합니다. 자세한 내용은 기여 가이드라인을 확인하세요.

라이센스 ?

Crawl4AI는 Apache 2.0 라이센스에 따라 출시됩니다.

연락하다 ?

질문, 제안 또는 피드백이 있는 경우 언제든지 다음 연락처로 문의하세요.

GitHub: 삼촌코드
트위터: @unclecode
웹사이트:crawl4ai.com

즐거운 크롤링을 즐기세요! ?️

사명

우리의 임무는 디지털 시대에 개인 및 기업 데이터의 아직 개발되지 않은 잠재력을 활용하는 것입니다. 오늘날의 세계에서 개인과 조직은 막대한 양의 귀중한 디지털 발자국을 생성하지만 이 데이터는 진정한 자산으로 활용되지 않는 경우가 많습니다.

우리의 오픈 소스 솔루션은 개발자와 혁신가가 데이터 추출 및 구조화를 위한 도구를 구축하여 데이터 소유권의 새로운 시대를 위한 기반을 마련할 수 있도록 지원합니다. 개인 및 기업 데이터를 구조화되고 거래 가능한 자산으로 변환함으로써 개인이 디지털 발자국을 활용하고 조직이 집단 지식의 가치를 실현할 수 있는 기회를 만들고 있습니다.

이러한 데이터의 민주화는 데이터 공유에 대한 자발적인 참여가 AI 발전을 주도하는 동시에 데이터 작성자에게 혜택이 돌아가도록 보장하는 공유 데이터 경제를 향한 첫 번째 단계를 나타냅니다. 이러한 접근 방식을 통해 우리는 AI 개발이 합성 대안이 아닌 진정한 인간 지식을 기반으로 하는 미래를 구축하고 있습니다.

우리의 비전, 기회 및 향후 진로에 대한 자세한 내용은 전체 사명 선언문을 참조하세요.

주요 기회

데이터 자본화 : 디지털 발자국을 개인 및 기업 대차대조표에 나타날 수 있는 귀중한 자산으로 전환합니다.
실제 데이터 : AI 발전을 위한 실제 인간 통찰력과 지식의 방대한 저장소를 잠금 해제합니다.
공유경제 : 데이터 작성자가 기여를 통해 직접 이익을 얻을 수 있는 새로운 가치 흐름을 창출합니다.

개발 경로

오픈 소스 기반 : 투명한 커뮤니티 기반 데이터 추출 도구 구축
데이터 자본화 플랫폼 : 디지털 자산을 구조화하고 가치를 평가하는 도구 만들기
공유 데이터 마켓플레이스 : 윤리적인 데이터 교환을 위한 경제 플랫폼 구축

우리의 비전, 과제 및 솔루션에 대한 자세한 내용을 알아보려면 전체 사명 선언문을 참조하세요.

스타의 역사

확장하다