Smart & Universal Web Scrapper es una herramienta inteligente de extracción de datos impulsada por IA generativa. Simplifica el proceso de extracción de datos de cualquier sitio web al permitir a los usuarios proporcionar el enlace del sitio web y los campos de datos requeridos. Con sus capacidades versátiles, esta herramienta puede extraer datos sin problemas y presentarlos en formato tabular, que se puede descargar en varios formatos como Excel, JSON o Markdown. Su interfaz inteligente y fácil de usar garantiza una extracción de datos eficiente y precisa para todas sus necesidades de web scraping.
Python:
Python es un lenguaje de programación popular y versátil conocido por su simplicidad y legibilidad. Se utiliza ampliamente para diversas aplicaciones, incluido el desarrollo web, el análisis de datos, el aprendizaje automático y las tareas de automatización. El extenso ecosistema de bibliotecas y marcos de Python lo convierte en una herramienta poderosa para los desarrolladores.
LLaMA 3.1 (70b):
LLaMA (Lean Large-Language Model) es una familia de modelos de lenguaje grande desarrollado por Meta AI. La versión 3.1 (70b) se refiere a una variante de modelo específica con 70 mil millones de parámetros. Los modelos de lenguaje grandes como LLaMA se entrenan con grandes cantidades de datos de texto, lo que les permite comprender y generar texto similar al humano para diversas tareas de procesamiento del lenguaje natural.
Groq API:
la API de Groq proporciona acceso a la potente plataforma de inferencia de IA de Groq. Permite a los desarrolladores aprovechar su hardware y software avanzados para una ejecución rápida y eficiente del modelo de IA.
Streamlit:
Streamlit es una biblioteca Python de código abierto que simplifica el proceso de creación de aplicaciones web interactivas de visualización de datos y aprendizaje automático. Permite a los desarrolladores crear interfaces de usuario escribiendo scripts de Python, lo que facilita compartir aplicaciones basadas en datos con otros.
Bifurca o clona este repositorio en tu máquina local usando Git.
Instale las bibliotecas necesarias.
pip install -r requirements.txt
Cree un archivo .env
en el directorio de su proyecto y agregue las claves API necesarias (por ejemplo, clave API de Google, CLAVE API de Groq).
streamlit run app.py
Licencia pública general GNU v3.0