Inglês | 中文 | 日本語 | 한국어 | Р рйий | Türkçe
StrapeGraphai é uma biblioteca Python raspando a Web que usa LLM e lógica direta do gráfico para criar pipelines de raspagem para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).
Basta dizer quais informações você deseja extrair e a biblioteca fará isso por você!
A página de referência para ScrapeGraph-AI está disponível na página oficial de Pypi: Pypi.
pip install scrapeGraphai Dramaturgo de instalação
Nota : é recomendável instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas?
Mais modelos de idiomas : modelos de idiomas adicionais são instalados, como fogos de artifício, GROQ, Face Anthropic, abraçando e nvidia AI terminais.
Este grupo permite que você use modelos de idiomas adicionais, como fogos de artifício, groq, antropic, AI juntos, abraçando o rosto e os pontos de extremidade da NVIDIA AI.
PIP Install SwrapeGraphai [Modelos em outros idiomas]
Opções semânticas : Este grupo inclui ferramentas para processamento semântico avançado, como o GraphViz.
PIP Install SwrapeGraphai [Options mais semânticas]
Opções dos navegadores : Este grupo inclui ferramentas/serviços adicionais de gerenciamento de navegador, como o BrowserBase.
PIP Install SwrapeGraphai [mais opções de navegador]
Existem vários pipelines de raspagem padrão que podem ser usados para extrair informações de um site (ou arquivo local).
O mais comum é o SmartScraperGraph
, que extrai informações de uma única página, dado um prompt de usuário e um URL de origem.
importar jsonfrom sgapeGraphai.graphs importar smartScraperGraph# Defina a configuração para o cenário pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini", }, "verbose": true, "sem cabeça": false, }# Crie o SmartScraperGraph Instâmbiasmart_scraper_graph = SmartScraperGraph (Prompt = "Encontre algumas informações sobre o que a empresa faz, o nome e um email de contato.", Source = "https://scrapegrafai.com/", config = graph_config)# run) o pipelineResult = smart_scraper_graph.run () print (json.dumps (resultado, indent = 4))
A saída será um dicionário como o seguinte:
{"Company": "ScrapeGraphai", "Nome": "ScrapeGraphai Extraindo conteúdo de sites e documentos locais usando LLM", "Contact_Email": "[email protected]"}}
Existem outros pipelines que podem ser usados para extrair informações de várias páginas, gerar scripts Python ou até gerar arquivos de áudio.
Nome do pipeline | Descrição |
---|---|
SmartscraperGraph | Raspador de página única que precisa apenas de um prompt de usuário e uma fonte de entrada. |
Searchgraph | Raspador de várias páginas que extrai informações dos principais resultados de pesquisa de um mecanismo de pesquisa. |
Discurso | Raspador de página única que extrai informações de um site e gera um arquivo de áudio. |
ScriptcretorGraph | Raspador de página única que extrai informações de um site e gera um script python. |
Smartscrapermultigraph | Raspador de várias páginas que extrai informações de várias páginas, com um único prompt e uma lista de fontes. |
ScriptCreatorMultigraph | Raspador de várias páginas que gera um script Python para extrair informações de várias páginas e fontes. |
Para cada um desses gráficos, existe a versão multi. Permite fazer chamadas do LLM em paralelo.
É possível usar LLM diferente através de APIs, como OpenAi , Groq , Azure e Gêmeos ou modelos locais usando Ollama .
Lembre -se de instalar o Ollama e baixar os modelos usando o Comando Ollama Pull , se você quiser usar modelos locais.
Demonstração oficial do streamlit:
Experimente diretamente na web usando o Google Colab:
A documentação para ScrapeGraphai pode ser encontrada aqui.
Confira também o docusaurus aqui.
Coletamos métricas de uso anônimo para aprimorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir a compatibilidade. Se você deseja desativar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED = FALSE. Para mais informações, consulte a documentação aqui.
Se você usou nossa biblioteca para fins de pesquisa, cite -nos com a seguinte referência:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}