Scrapegraph ai 다운로드 - Scrapegraph ai 소스 코드 다운로드

Scrapegraph ai

기타 소스코드

v1.31.0

다운로드

Scrapegraphai : 한 번만 긁어냅니다

영어 | 中文 | 日本語 | 한국어 | 초 русск고 | Türkçe

Scrapegrapai는 LLM 및 직접 그래프 로직을 사용하여 웹 사이트 및 로컬 문서 (XML, HTML, JSON, Markdown 등)를 스크래핑 파이프 라인을 만드는 웹 스크래핑 파이썬 라이브러리입니다.

어떤 정보를 추출하고자하는지 말하면 도서관이 당신을 위해 그것을 할 것입니다!

빠른 설치

ScrapeGraph-AI의 참조 페이지는 PYPI : PYPI의 공식 페이지에서 확인할 수 있습니다.

 PIP 설치 ScrapeGraphai

극작가 설치

참고 : 다른 라이브러리와의 충돌을 피하기 위해 가상 환경에 라이브러리를 설치하는 것이 좋습니다.

선택적 종속성

라이브러리를 설치하는 동안 추가 부양 가족을 추가 할 수 있습니다.

더 많은 언어 모델 : 불꽃 놀이, Groq, Anthropic, Hugging Face 및 Nvidia AI 엔드 포인트와 같은 추가 언어 모델이 설치됩니다.
이 그룹을 사용하면 불꽃 놀이, Groq, Anthropic, Together AI, Hugging Face 및 Nvidia AI 엔드 포인트와 같은 추가 언어 모델을 사용할 수 있습니다.
```
 PIP 설치 ScrapeGraphai [다른 언어 모델]
```
시맨틱 옵션 :이 그룹에는 GraphViz와 같은 고급 시맨틱 처리 도구가 포함되어 있습니다.
```
 PIP 설치 ScrapeGraphai [더 심각한 옵션]
```
브라우저 옵션 :이 그룹에는 Browserbase와 같은 추가 브라우저 관리 도구/서비스가 포함되어 있습니다.
```
 PIP 설치 ScrapeGraphai [더 많은 브라우저 옵션]
```

용법

웹 사이트 (또는 로컬 파일)에서 정보를 추출하는 데 사용할 수있는 여러 표준 스크래핑 파이프 라인이 있습니다.

가장 일반적인 것은 SmartScraperGraph 로, 사용자 프롬프트와 소스 URL이 주어진 단일 페이지에서 정보를 추출합니다.

 jsonfrom scrapegraphai.graph import smartscrapergraph# 스크래핑 파이프 라인 그라프 _config = { "llm": { "api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini", "model"에 대한 구성을 정의합니다.
    }, "Verbose": True, "Headless": False,
}# smartscrapergraph instancesmart_scraper_graph = smartscrapergraph (prompt = "회사가 무엇을하는지, 이름 및 연락처 이메일에 대한 정보를 찾으십시오. Pipelineresult = smart_scraper_graph.run () print (json.dumps (result, indent = 4))

출력은 다음과 같은 사전입니다.

 { "Company": "ScrapeGraphai", "Name": "LLM을 사용하여 웹 사이트 및 로컬 문서에서 콘텐츠 추출", "Contact_Email": "[email protected]"}}

여러 페이지에서 정보를 추출하거나 파이썬 스크립트를 생성하거나 오디오 파일을 생성하는 데 사용할 수있는 다른 파이프 라인이 있습니다.

파이프 라인 이름	설명
SmartScraperGraph	사용자 프롬프트와 입력 소스 만 있으면 단일 페이지 스크레이퍼.
searchGraph	검색 엔진의 상단 N 검색 결과에서 정보를 추출하는 다중 페이지 스크레이퍼.
SpeechGraph	웹 사이트에서 정보를 추출하고 오디오 파일을 생성하는 단일 페이지 스크레이퍼.
ScriptReatorGraph	웹 사이트에서 정보를 추출하고 파이썬 스크립트를 생성하는 단일 페이지 스크레이퍼.
SmartScraperMultigraph	단일 프롬프트와 소스 목록이 주어진 여러 페이지에서 정보를 추출하는 다중 페이지 스크레이퍼.
ScriptReatorMultigraph	여러 페이지와 소스에서 정보를 추출하기위한 파이썬 스크립트를 생성하는 다중 페이지 스크레이퍼.

이 각 그래프에는 멀티 버전이 있습니다. LLM을 동시에 호출 할 수 있습니다.

Openai , Groq , Azure 및 Gemini 와 같은 API를 통해 다른 LLM 또는 Ollama를 사용하는 로컬 모델을 사용할 수 있습니다.

로컬 모델을 사용하려면 Ollama를 설치하고 Ollama Pull 명령을 사용하여 모델을 다운로드해야합니다.

데모

공식 유선형 데모 :

Google Colab을 사용하여 웹에서 직접 사용해보십시오.

선적 서류 비치

Scrapegrapai에 대한 문서는 여기에서 찾을 수 있습니다.

Docusaurus도 여기에서 확인하십시오.

원격 측정

패키지의 품질 및 사용자 경험을 향상시키기 위해 익명 사용 메트릭을 수집합니다. 이 데이터는 개선의 우선 순위를 정하고 호환성을 보장하는 데 도움이됩니다. 옵트 아웃하려면 환경 변수 scrapegraphai_telemetry_enabled = false를 설정하십시오. 자세한 내용은 문서를 참조하십시오.

인용

연구 목적으로 우리의 도서관을 사용한 경우 다음 참조를 통해 우리를 인용하십시오.

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

확장하다

추가 정보