Descargar Scrapegraph ai - descarga de código fuente Scrapegraph ai

Scrapegraph ai

Otro código fuente

v1.31.0

Descargar

Scrapegraphai: solo raspas una vez

Inglés | 中文 | 日本語 | 한국어 | Русий | Türkçe

SCRAPEGRAPHAI es una biblioteca de Python de raspado web que utiliza LLM y la lógica de gráficos directos para crear tuberías de raspado para sitios web y documentos locales (XML, HTML, JSON, Markdown, etc.).

¡Solo diga qué información desea extraer y la biblioteca lo hará por usted!

Instalación rápida

La página de referencia para Srapegraph-AI está disponible en la página oficial de Pypi: Pypi.

 PIP install scrapegraphai

Instalación de dramaturgo

Nota : ¿Se recomienda instalar la biblioteca en un entorno virtual para evitar conflictos con otras bibliotecas?

Dependencias opcionales

Se pueden agregar dependientes adicionales al instalar la biblioteca:

Más modelos de idiomas : se instalan modelos de idiomas adicionales, como fuegos artificiales, Groq, antrópico, cara de abrazo y puntos finales NVIDIA AI.
Este grupo le permite usar modelos de idiomas adicionales como fuegos artificiales, Groq, antrópico, IA juntos, abrazaderas y puntos finales de IA Nvidia.
```
 PIP Instale scrapegraphai [otro modelos de lenguaje]
```
Opciones semánticas : este grupo incluye herramientas para el procesamiento semántico avanzado, como GraphViz.
```
 PIP Instale scrapegraphai [Opciones más semánticas]
```
Opciones de navegadores : este grupo incluye herramientas/servicios de gestión de navegadores adicionales, como BrowserBase.
```
 PIP Instale scrapegraphai [más navegador-opciones]
```

Uso

Existen múltiples tuberías de raspado estándar que se pueden usar para extraer información de un sitio web (o archivo local).

El más común es el SmartScraperGraph , que extrae información de una sola página dado un mensaje de usuario y una URL de origen.

 import jsonfrom scrapegraphai.Graphs import smartScrapergraph# Definir la configuración para el raspado PipelineGraph_config = {"llm": {"API_KEY": "Your_openai_apikey", "Model": "OpenAi/GPT-4O-Mini",,,
    }, "verboso": verdadero, "sin cabeza": falso,
}# Crear el SmartSCraperGraph instanciasMart_Scraper_Graph = SmartSCraperGraph (pronto indicador = "Encuentre información sobre lo que hace la empresa, el nombre y un correo electrónico de contacto.", Source = "https://scrapegraphai.com/", config = graph_config)# ejecutar) PipeLineSult = smart_scraper_graph.run () print (json.dumps (resultado, sangría = 4))

La salida será un diccionario como el siguiente:

 {"Compañía": "RapeGraphai", "Nombre": "RapeGraphai extrayendo contenido de sitios web y documentos locales usando LLM", "Contact_Email": "[email protected]"}

Hay otras tuberías que se pueden usar para extraer información de varias páginas, generar scripts de Python o incluso generar archivos de audio.

Nombre de la tubería	Descripción
SmartScraperGraph	Raspador de una sola página que solo necesita un indicador de usuario y una fuente de entrada.
Searchgraph	Raspador de múltiples páginas que extrae información de los mejores resultados de búsqueda de un motor de búsqueda.
Graph	Rabraper de una sola página que extrae información de un sitio web y genera un archivo de audio.
ScriptCreatorgraph	Rabraper de una sola página que extrae información de un sitio web y genera un script de Python.
SmartScrapermultigraph	Raspador de varias páginas que extrae información de múltiples páginas dado un solo mensaje y una lista de fuentes.
ScriptCreatormultigraph	Rabraper de varias páginas que genera un script de Python para extraer información de múltiples páginas y fuentes.

Para cada uno de estos gráficos está la versión múltiple. Permite hacer llamadas del LLM en paralelo.

Es posible usar diferentes LLM a través de API, como OpenAi , Groq , Azure y Gemini , o modelos locales que usan ollama .

Recuerde que Ollama instale y descargue los modelos utilizando el comando Ollama Pull , si desea usar modelos locales.

Manifestación

Demo oficial de transmisión:

Pruébelo directamente en la web usando Google Colab:

Documentación

La documentación de RapeGraphai se puede encontrar aquí.

Mira también el Docusaurus aquí.

Telemetría

Recopilamos métricas de uso anónimo para mejorar la calidad y la experiencia del usuario de nuestro paquete. Los datos nos ayudan a priorizar mejoras y garantizar la compatibilidad. Si desea optar por no participar, establezca la variable de entorno scrapegraphai_telemetry_enabled = false. Para obtener más información, consulte la documentación aquí.

Citas

Si ha utilizado nuestra biblioteca para fines de investigación, cíennos con la siguiente referencia:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Expandir

Información adicional

Versión v1.31.0
Tipo Otro código fuente
Fecha de actualización 2025-02-13
tamaño 3.74MB
Proviene de Github

Aplicaciones relacionadas

frente a eso

2024-07-08
Aplicación Libu Libu ai

2024-06-28
Creador de IA

2023-04-23
Jaspe IA

2023-04-12
Sí, IA

2022-08-16
IA alienígena

2022-07-29

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
Sunamu

Otro código fuente

Release 2.2.0
MySchedule.py

Otro código fuente

Updates to the fetching of week codes
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo