영어 | 中文 | 日本語 | 한국어 | 초 русск고 | Türkçe
Scrapegrapai는 LLM 및 직접 그래프 로직을 사용하여 웹 사이트 및 로컬 문서 (XML, HTML, JSON, Markdown 등)를 스크래핑 파이프 라인을 만드는 웹 스크래핑 파이썬 라이브러리입니다.
어떤 정보를 추출하고자하는지 말하면 도서관이 당신을 위해 그것을 할 것입니다!
ScrapeGraph-AI의 참조 페이지는 PYPI : PYPI의 공식 페이지에서 확인할 수 있습니다.
PIP 설치 ScrapeGraphai 극작가 설치
참고 : 다른 라이브러리와의 충돌을 피하기 위해 가상 환경에 라이브러리를 설치하는 것이 좋습니다.
더 많은 언어 모델 : 불꽃 놀이, Groq, Anthropic, Hugging Face 및 Nvidia AI 엔드 포인트와 같은 추가 언어 모델이 설치됩니다.
이 그룹을 사용하면 불꽃 놀이, Groq, Anthropic, Together AI, Hugging Face 및 Nvidia AI 엔드 포인트와 같은 추가 언어 모델을 사용할 수 있습니다.
PIP 설치 ScrapeGraphai [다른 언어 모델]
시맨틱 옵션 :이 그룹에는 GraphViz와 같은 고급 시맨틱 처리 도구가 포함되어 있습니다.
PIP 설치 ScrapeGraphai [더 심각한 옵션]
브라우저 옵션 :이 그룹에는 Browserbase와 같은 추가 브라우저 관리 도구/서비스가 포함되어 있습니다.
PIP 설치 ScrapeGraphai [더 많은 브라우저 옵션]
웹 사이트 (또는 로컬 파일)에서 정보를 추출하는 데 사용할 수있는 여러 표준 스크래핑 파이프 라인이 있습니다.
가장 일반적인 것은 SmartScraperGraph
로, 사용자 프롬프트와 소스 URL이 주어진 단일 페이지에서 정보를 추출합니다.
jsonfrom scrapegraphai.graph import smartscrapergraph# 스크래핑 파이프 라인 그라프 _config = { "llm": { "api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini", "model"에 대한 구성을 정의합니다. }, "Verbose": True, "Headless": False, }# smartscrapergraph instancesmart_scraper_graph = smartscrapergraph (prompt = "회사가 무엇을하는지, 이름 및 연락처 이메일에 대한 정보를 찾으십시오. Pipelineresult = smart_scraper_graph.run () print (json.dumps (result, indent = 4))
출력은 다음과 같은 사전입니다.
{ "Company": "ScrapeGraphai", "Name": "LLM을 사용하여 웹 사이트 및 로컬 문서에서 콘텐츠 추출", "Contact_Email": "[email protected]"}}
여러 페이지에서 정보를 추출하거나 파이썬 스크립트를 생성하거나 오디오 파일을 생성하는 데 사용할 수있는 다른 파이프 라인이 있습니다.
파이프 라인 이름 | 설명 |
---|---|
SmartScraperGraph | 사용자 프롬프트와 입력 소스 만 있으면 단일 페이지 스크레이퍼. |
searchGraph | 검색 엔진의 상단 N 검색 결과에서 정보를 추출하는 다중 페이지 스크레이퍼. |
SpeechGraph | 웹 사이트에서 정보를 추출하고 오디오 파일을 생성하는 단일 페이지 스크레이퍼. |
ScriptReatorGraph | 웹 사이트에서 정보를 추출하고 파이썬 스크립트를 생성하는 단일 페이지 스크레이퍼. |
SmartScraperMultigraph | 단일 프롬프트와 소스 목록이 주어진 여러 페이지에서 정보를 추출하는 다중 페이지 스크레이퍼. |
ScriptReatorMultigraph | 여러 페이지와 소스에서 정보를 추출하기위한 파이썬 스크립트를 생성하는 다중 페이지 스크레이퍼. |
이 각 그래프에는 멀티 버전이 있습니다. LLM을 동시에 호출 할 수 있습니다.
Openai , Groq , Azure 및 Gemini 와 같은 API를 통해 다른 LLM 또는 Ollama를 사용하는 로컬 모델을 사용할 수 있습니다.
로컬 모델을 사용하려면 Ollama를 설치하고 Ollama Pull 명령을 사용하여 모델을 다운로드해야합니다.
공식 유선형 데모 :
Google Colab을 사용하여 웹에서 직접 사용해보십시오.
Scrapegrapai에 대한 문서는 여기에서 찾을 수 있습니다.
Docusaurus도 여기에서 확인하십시오.
패키지의 품질 및 사용자 경험을 향상시키기 위해 익명 사용 메트릭을 수집합니다. 이 데이터는 개선의 우선 순위를 정하고 호환성을 보장하는 데 도움이됩니다. 옵트 아웃하려면 환경 변수 scrapegraphai_telemetry_enabled = false를 설정하십시오. 자세한 내용은 문서를 참조하십시오.
연구 목적으로 우리의 도서관을 사용한 경우 다음 참조를 통해 우리를 인용하십시오.
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}