Download Scrapegraph ai - Scrapegraph ai Download do código -fonte

Scrapegraph ai

Outro código-fonte

v1.31.0

Baixar

ScrapeGraphai: você só raspa uma vez

Inglês | 中文 | 日本語 | 한국어 | Р рйий | Türkçe

StrapeGraphai é uma biblioteca Python raspando a Web que usa LLM e lógica direta do gráfico para criar pipelines de raspagem para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).

Basta dizer quais informações você deseja extrair e a biblioteca fará isso por você!

Instalação rápida

A página de referência para ScrapeGraph-AI está disponível na página oficial de Pypi: Pypi.

 pip install scrapeGraphai

Dramaturgo de instalação

Nota : é recomendável instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas?

Dependências opcionais

Dependentes adicionais podem ser adicionados ao instalar a biblioteca:

Mais modelos de idiomas : modelos de idiomas adicionais são instalados, como fogos de artifício, GROQ, Face Anthropic, abraçando e nvidia AI terminais.
Este grupo permite que você use modelos de idiomas adicionais, como fogos de artifício, groq, antropic, AI juntos, abraçando o rosto e os pontos de extremidade da NVIDIA AI.
```
 PIP Install SwrapeGraphai [Modelos em outros idiomas]
```
Opções semânticas : Este grupo inclui ferramentas para processamento semântico avançado, como o GraphViz.
```
 PIP Install SwrapeGraphai [Options mais semânticas]
```
Opções dos navegadores : Este grupo inclui ferramentas/serviços adicionais de gerenciamento de navegador, como o BrowserBase.
```
 PIP Install SwrapeGraphai [mais opções de navegador]
```

Uso

Existem vários pipelines de raspagem padrão que podem ser usados para extrair informações de um site (ou arquivo local).

O mais comum é o SmartScraperGraph , que extrai informações de uma única página, dado um prompt de usuário e um URL de origem.

 importar jsonfrom sgapeGraphai.graphs importar smartScraperGraph# Defina a configuração para o cenário pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini",
    }, "verbose": true, "sem cabeça": false,
}# Crie o SmartScraperGraph Instâmbiasmart_scraper_graph = SmartScraperGraph (Prompt = "Encontre algumas informações sobre o que a empresa faz, o nome e um email de contato.", Source = "https://scrapegrafai.com/", config = graph_config)# run) o pipelineResult = smart_scraper_graph.run () print (json.dumps (resultado, indent = 4))

A saída será um dicionário como o seguinte:

 {"Company": "ScrapeGraphai", "Nome": "ScrapeGraphai Extraindo conteúdo de sites e documentos locais usando LLM", "Contact_Email": "[email protected]"}}

Existem outros pipelines que podem ser usados para extrair informações de várias páginas, gerar scripts Python ou até gerar arquivos de áudio.

Nome do pipeline	Descrição
SmartscraperGraph	Raspador de página única que precisa apenas de um prompt de usuário e uma fonte de entrada.
Searchgraph	Raspador de várias páginas que extrai informações dos principais resultados de pesquisa de um mecanismo de pesquisa.
Discurso	Raspador de página única que extrai informações de um site e gera um arquivo de áudio.
ScriptcretorGraph	Raspador de página única que extrai informações de um site e gera um script python.
Smartscrapermultigraph	Raspador de várias páginas que extrai informações de várias páginas, com um único prompt e uma lista de fontes.
ScriptCreatorMultigraph	Raspador de várias páginas que gera um script Python para extrair informações de várias páginas e fontes.

Para cada um desses gráficos, existe a versão multi. Permite fazer chamadas do LLM em paralelo.

É possível usar LLM diferente através de APIs, como OpenAi , Groq , Azure e Gêmeos ou modelos locais usando Ollama .

Lembre -se de instalar o Ollama e baixar os modelos usando o Comando Ollama Pull , se você quiser usar modelos locais.

Demonstração

Demonstração oficial do streamlit:

Experimente diretamente na web usando o Google Colab:

Documentação

A documentação para ScrapeGraphai pode ser encontrada aqui.

Confira também o docusaurus aqui.

Telemetria

Coletamos métricas de uso anônimo para aprimorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir a compatibilidade. Se você deseja desativar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED = FALSE. Para mais informações, consulte a documentação aqui.

Citações

Se você usou nossa biblioteca para fins de pesquisa, cite -nos com a seguinte referência:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Expandir

Informações adicionais

Versão v1.31.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-13
tamanho 3.74MB
Vindo de Github

Aplicativos Relacionados

Na frente dele

2024-07-08
Aplicativo Libu Libu ai

2024-06-28
Criador de IA

2023-04-23
Jaspe IA

2023-04-12
Sim, IA

2022-08-16
IA alienígena

2022-07-29

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos