Inglés | 中文 | 日本語 | 한국어 | Русий | Türkçe
SCRAPEGRAPHAI es una biblioteca de Python de raspado web que utiliza LLM y la lógica de gráficos directos para crear tuberías de raspado para sitios web y documentos locales (XML, HTML, JSON, Markdown, etc.).
¡Solo diga qué información desea extraer y la biblioteca lo hará por usted!
La página de referencia para Srapegraph-AI está disponible en la página oficial de Pypi: Pypi.
PIP install scrapegraphai Instalación de dramaturgo
Nota : ¿Se recomienda instalar la biblioteca en un entorno virtual para evitar conflictos con otras bibliotecas?
Más modelos de idiomas : se instalan modelos de idiomas adicionales, como fuegos artificiales, Groq, antrópico, cara de abrazo y puntos finales NVIDIA AI.
Este grupo le permite usar modelos de idiomas adicionales como fuegos artificiales, Groq, antrópico, IA juntos, abrazaderas y puntos finales de IA Nvidia.
PIP Instale scrapegraphai [otro modelos de lenguaje]
Opciones semánticas : este grupo incluye herramientas para el procesamiento semántico avanzado, como GraphViz.
PIP Instale scrapegraphai [Opciones más semánticas]
Opciones de navegadores : este grupo incluye herramientas/servicios de gestión de navegadores adicionales, como BrowserBase.
PIP Instale scrapegraphai [más navegador-opciones]
Existen múltiples tuberías de raspado estándar que se pueden usar para extraer información de un sitio web (o archivo local).
El más común es el SmartScraperGraph
, que extrae información de una sola página dado un mensaje de usuario y una URL de origen.
import jsonfrom scrapegraphai.Graphs import smartScrapergraph# Definir la configuración para el raspado PipelineGraph_config = {"llm": {"API_KEY": "Your_openai_apikey", "Model": "OpenAi/GPT-4O-Mini",,, }, "verboso": verdadero, "sin cabeza": falso, }# Crear el SmartSCraperGraph instanciasMart_Scraper_Graph = SmartSCraperGraph (pronto indicador = "Encuentre información sobre lo que hace la empresa, el nombre y un correo electrónico de contacto.", Source = "https://scrapegraphai.com/", config = graph_config)# ejecutar) PipeLineSult = smart_scraper_graph.run () print (json.dumps (resultado, sangría = 4))
La salida será un diccionario como el siguiente:
{"Compañía": "RapeGraphai", "Nombre": "RapeGraphai extrayendo contenido de sitios web y documentos locales usando LLM", "Contact_Email": "[email protected]"}
Hay otras tuberías que se pueden usar para extraer información de varias páginas, generar scripts de Python o incluso generar archivos de audio.
Nombre de la tubería | Descripción |
---|---|
SmartScraperGraph | Raspador de una sola página que solo necesita un indicador de usuario y una fuente de entrada. |
Searchgraph | Raspador de múltiples páginas que extrae información de los mejores resultados de búsqueda de un motor de búsqueda. |
Graph | Rabraper de una sola página que extrae información de un sitio web y genera un archivo de audio. |
ScriptCreatorgraph | Rabraper de una sola página que extrae información de un sitio web y genera un script de Python. |
SmartScrapermultigraph | Raspador de varias páginas que extrae información de múltiples páginas dado un solo mensaje y una lista de fuentes. |
ScriptCreatormultigraph | Rabraper de varias páginas que genera un script de Python para extraer información de múltiples páginas y fuentes. |
Para cada uno de estos gráficos está la versión múltiple. Permite hacer llamadas del LLM en paralelo.
Es posible usar diferentes LLM a través de API, como OpenAi , Groq , Azure y Gemini , o modelos locales que usan ollama .
Recuerde que Ollama instale y descargue los modelos utilizando el comando Ollama Pull , si desea usar modelos locales.
Demo oficial de transmisión:
Pruébelo directamente en la web usando Google Colab:
La documentación de RapeGraphai se puede encontrar aquí.
Mira también el Docusaurus aquí.
Recopilamos métricas de uso anónimo para mejorar la calidad y la experiencia del usuario de nuestro paquete. Los datos nos ayudan a priorizar mejoras y garantizar la compatibilidad. Si desea optar por no participar, establezca la variable de entorno scrapegraphai_telemetry_enabled = false. Para obtener más información, consulte la documentación aquí.
Si ha utilizado nuestra biblioteca para fines de investigación, cíennos con la siguiente referencia:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}