Descargar lida - Descargar el código fuente de lida

lida

Otro código fuente

1.0.0

Descargar

LIDA: Generación automática de visualizaciones e infografías utilizando modelos de idiomas grandes

LIDA es una biblioteca para generar visualizaciones de datos e infografías de fe de datos. LIDA es gramatical agnóstico (funcionará con cualquier lenguaje de programación y bibliotecas de visualización, por ejemplo, matplotlib, seaborn, altair, d3, etc.) y trabaja con múltiples proveedores de modelos de idiomas grandes (OpenAi, Azure OpenAi, Palm, Cohere, Huggingface). Los detalles sobre los componentes de LIDA se describen en el documento aquí y en este cuaderno tutorial. ¡Vea la página del proyecto aquí para obtener actualizaciones!.

Nota sobre la ejecución del código: para crear visualizaciones, LIDA genera y ejecuta código. Asegúrese de ejecutar LIDA en un entorno seguro.

Características

componentes LIDA

LIDA trata las visualizaciones como código y proporciona una API limpia para generar, ejecutar, editar, explicar, evaluar y reparar el código de visualización.

Resumen de datos
Generación de goles
Generación de visualización
Edición de visualización
Explicación de visualización
Evaluación y reparación de visualización
Recomendación de visualización
Generación infográfica (Beta) # PIP Install Lida [Infografía]

 from lida import Manager , llm

lida = Manager ( text_gen = llm ( "openai" )) # palm, cohere ..
summary = lida . summarize ( "data/cars.csv" )
goals = lida . goals ( summary , n = 2 ) # exploratory data analysis
charts = lida . visualize ( summary = summary , goal = goals [ 0 ]) # exploratory data analysis

Empezando

Configure y verifique que su entorno de Python sea python 3.10 o superior (preferiblemente, use conda). Instale la biblioteca a través de PIP.

pip install -U lida

LIDA depende de llmx y openai . Si tenía estas bibliotecas instaladas anteriormente, considere actualizarlas.

pip install -U llmx openai

Una vez que se cumplan los requisitos, configure su clave API. Obtenga más información sobre cómo configurar las claves para otros proveedores de LLM aquí.

 export OPENAI_API_KEY= < your key >

Alternativamente, puede instalar la biblioteca en el modelo Dev clonando este repositorio y ejecutando pip install -e . En la raíz del repositorio.

API web y UI

LIDA viene con una UI y una API web agrupada opcional que puede explorar ejecutando el siguiente comando:

lida ui  --port=8080 --docs

Luego navegue a http: // localhost: 8080/en su navegador. Para ver la especificación de la API web, agregue la opción --docs al comando CLI y navegue a http://localhost:8080/api/docs en su navegador.

La forma más rápida y recomendada de comenzar después de la instalación será probar la interfaz de usuario web anterior o ejecutar el cuaderno de tutorial.

Construyendo la API web y la interfaz de usuario con Docker

La API web de LIDA y la UI se pueden configurar utilizando Docker y el comando a continuación (asegúrese de que tenga instalado Docker, y ha establecido su variable de entorno OPENAI_API_KEY ).

docker compose up

Resumen de datos

Dado un conjunto de datos, genere un resumen compacto de los datos.

 from lida import Manager

lida = Manager ()
summary = lida . summarize ( "data/cars.json" ) # generate data summary

Generación de goles

Genere un conjunto de objetivos de visualización dado un resumen de datos.

 goals = lida . goals ( summary , n = 5 , persona = "ceo with aerodynamics background" ) # generate goals

Agregue un parámetro persona para generar objetivos basados en esa persona.

Generación de visualización

Generar, refinar, ejecutar y filtrar el código de visualización dado un objetivo de resumen y visualización de datos. Tenga en cuenta que LIDA representa visualizaciones como código .

 # generate charts (generate and execute visualization code)
charts = lida . visualize ( summary = summary , goal = goals [ 0 ], library = "matplotlib" ) # seaborn, ggplot ..

Edición de visualización

Dada una visualización, edite la visualización utilizando el lenguaje natural.

 # modify chart using natural language
instructions = [ "convert this to a bar chart" , "change the color to red" , "change y axes label to Fuel Efficiency" , "translate the title to french" ]
edited_charts = lida . edit ( code = code ,  summary = summary , instructions = instructions , library = library , textgen_config = textgen_config )

Explicación de visualización

Dada una visualización, genere una explicación del lenguaje natural del código de visualización (accesibilidad, transformaciones de datos aplicadas, código de visualización)

 # generate explanation for chart
explanation = lida . explain ( code = charts [ 0 ]. code , summary = summary )

Evaluación y reparación de visualización

Dada una visualización, evalúe para encontrar instrucciones de reparación (que pueden ser escritas o generadas por humanos), repare la visualización.

 evaluations = lida . evaluate ( code = code ,  goal = goals [ i ], library = library )

Recomendación de visualización

Dado un conjunto de datos, genere un conjunto de visualizaciones recomendadas.

 recommendations = lida . recommend ( code = code , summary = summary , n = 2 ,  textgen_config = textgen_config )

Generación infográfica [WIP]

Dada una visualización, genere una infografía de fijación de datos. Estos métodos deben considerarse experimentales y utiliza modelos de difusión estables de la biblioteca de Peacasso. Deberá ejecutar pip install lida[infographics] para instalar las dependencias requeridas.

 infographics = lida . infographics ( visualization = charts [ 0 ]. raster , n = 3 , style_prompt = "line art" )

Uso de LIDA con LLMS alojados localmente (Huggingface)

LIDA utiliza la biblioteca LLMX como su interfaz para la generación de texto. LLMX admite múltiples modelos locales, incluidos los modelos Huggingface. Puede usar los modelos Huggingface directamente (suponiendo que tenga una GPU) o conectarse a un punto final de modelo local compatible con OpenAI, por ejemplo, utilizando la excelente biblioteca VLLM.

Uso de los modelos de Huggingface directamente

!p ip3 install - - upgrade llmx == 0.0 . 17 a0

# Restart the colab session

from lida import Manager
from llmx import  llm
text_gen = llm ( provider = "hf" , model = "uukuguy/speechless-llama2-hermes-orca-platypus-13b" , device_map = "auto" )
lida = Manager ( text_gen = text_gen )
# now you can call lida methods as above e.g.
sumamry = lida . summarize ( "data/cars.csv" ) # ....

Uso de un punto final compatible de OpenAI EG VLLM Servidor

 from lida import Manager , TextGenerationConfig , llm

model_name = "uukuguy/speechless-llama2-hermes-orca-platypus-13b"
model_details = [{ 'name' : model_name , 'max_tokens' : 2596 , 'model' : { 'provider' : 'openai' , 'parameters' : { 'model' : model_name }}}]

# assuming your vllm endpoint is running on localhost:8000
text_gen = llm ( provider = "openai" ,  api_base = "http://localhost:8000/v1" , api_key = "EMPTY" , models = model_details )
lida = Manager ( text_gen = text_gen )

Notas importantes / advertencias / preguntas frecuentes

LIDA genera y ejecuta código basado en la entrada proporcionada. Asegúrese de ejecutar LIDA en un entorno seguro con los permisos apropiados.
Lida actualmente funciona mejor con conjuntos de datos que tienen un pequeño número de columnas (<= 10). Esto se debe principalmente al tamaño de contexto limitado para la mayoría de los modelos. Para conjuntos de datos más grandes, considere preprocesar su conjunto de datos para usar un subconjunto de las columnas.
LIDA asume que el conjunto de datos existe y está en un formato que se puede cargar en un marco de datos PANDAS. Por ejemplo, un archivo CSV o un archivo JSON con una lista de objetos. En las prácticas, el conjunto de datos correctos puede necesitar ser curado y preprocesado para asegurarse de que sea adecuado para la tarea en cuestión.
Los LLM más pequeños (por ejemplo, OSS LLMS en Huggingface) tienen capacidades limitadas de la siguiente instrucción y pueden no funcionar bien con LIDA. LIDA funciona mejor con LLMS más grandes (por ejemplo, Openai GPT 3.5, GPT 4).
¿Qué tan confiable es el enfoque LIDA? El artículo LIDA describe experimentos que evalúan la confiabilidad de LIDA utilizando una métrica de tasa de error de visualización. Con la versión actual de las indicaciones, las técnicas de resumen de datos, la lógica de preprocesamiento/posprocesamiento y LLM, LIDA tiene una tasa de error de <3.5% en más de 2200 visualizaciones generadas (en comparación con una línea de base de más del 10% de la tasa de error). Esta área es trabajo en progreso.
¿Puedo construir mis propias aplicaciones con Lida? ¡Sí! Puede usar la API de Python directamente en su aplicación o configurar un punto final de la API web y usar la API web en su aplicación. Consulte la sección API web para obtener más detalles.
¿Cómo se relaciona LIDA con el intérprete de código OpenAI: LIDA comparte varias similitudes con el intérprete de código en el sentido de que tanto implican escribir y ejecutar código para abordar la intención del usuario? LIDA difiere en su enfoque en la visualización, proporcionando una API modular para la reutilización del desarrollador y proporciona métricas de evaluación en el caso de uso de visualización.

Naturalmente, algunas de las limitaciones anteriores podrían abordarse mediante un PR muy bienvenido.

Ejemplos comunitarios construidos con LIDA

Lida + Streamlit: Lida-StreamLit,

Documentación y cita

Un documento corto que describe LIDA (aceptado en la conferencia ACL 2023) está disponible aquí.

 @inproceedings { dibia2023lida ,
    title = " {LIDA}: A Tool for Automatic Generation of Grammar-Agnostic Visualizations and Infographics using Large Language Models " ,
    author = " Dibia, Victor " ,
    booktitle = " Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) " ,
    month = jul,
    year = " 2023 " ,
    address = " Toronto, Canada " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2023.acl-demo.11 " ,
    doi = " 10.18653/v1/2023.acl-demo.11 " ,
    pages = " 113--126 " ,
}

LIDA se basa en ideas en la generación automática de visualización a partir de un documento anterior: Data2Vis: generación automática de visualizaciones de datos utilizando redes neuronales recurrentes de secuencia de secuencia.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-01
tamaño 8.05MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
chat.petals.dev

Otro código fuente

1.0.0
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo