El último asistente de ciencia de datos de IA de Alibaba, DS Assistant, tiene como objetivo simplificar y acelerar el proceso de ciencia de datos. Automatiza todo el proceso, desde la exploración de datos hasta la evaluación del modelo, lo que facilita su uso incluso para usuarios sin una sólida formación en ciencia de datos. DS Assistant se basa en el marco Modelscope-Agent de código abierto de Alibaba, que tiene un rico ecosistema de herramientas y un diseño de módulo flexible. Admite el acceso a los principales modelos de código abierto y proporciona componentes RAG, lo que mejora enormemente la eficiencia y la facilidad de uso. Su principal ventaja radica en el flujo de trabajo automatizado. Los usuarios solo necesitan proporcionar requisitos y DS Assistant puede realizar varios pasos automáticamente, lo que reduce considerablemente el umbral para la ciencia de datos.
Recientemente, Alibaba lanzó un asistente de ciencia de datos de IA llamado DS Assistant, que puede automatizar todo el proceso, desde la exploración de datos hasta la evaluación de modelos, haciendo que el trabajo de la ciencia de datos sea más fácil y eficiente.
DS Assistant se desarrolla en base al marco Modelscope-Agent, que es de código abierto de Alibaba y tiene un rico ecosistema de herramientas y un diseño de módulo flexible. El lanzamiento de DS Assistant marca que incluso los usuarios sin una formación profunda en ciencia de datos pueden manejar fácilmente problemas complejos de ciencia de datos.
La principal fortaleza de DS Assistant es su flujo de trabajo automatizado. Los usuarios solo necesitan proporcionar requisitos y DS Assistant puede realizar automáticamente pasos como análisis de datos exploratorios, preprocesamiento de datos, ingeniería de funciones, capacitación y evaluación de modelos. Este proceso no solo mejora la eficiencia del trabajo, sino que también reduce el umbral para el trabajo de ciencia de datos.
El marco Modelscope-Agent es el poderoso soporte detrás de DS Assistant. Tiene las siguientes características:
Admite el acceso a varios modelos convencionales de código abierto, como vllm, ollama, etc.;
Proporcione componentes RAG y acceda rápidamente a la base de conocimientos;
Ecosistema de herramientas enriquecido, compatible con el modelo comunitario Modelscope y las herramientas langchain.
DS Assistant adopta el marco emergente de planificación y ejecución para completar de manera eficiente tareas complejas a través de pasos claros de planificación y ejecución. Su flujo de trabajo incluye planificación de tareas, programación de subtareas, ejecución de tareas e integración de resultados, lo que mejora enormemente la eficiencia y controlabilidad de la ejecución de tareas.
En términos de arquitectura del sistema, DS Assistant consta de cuatro módulos principales: el propio DS Assistant sirve como cerebro del sistema y es responsable de la programación general; el módulo de Planificación es responsable de generar listas de tareas y realizar la clasificación topológica; el módulo de Ejecución es responsable de tareas específicas; ejecución y guardado de resultados; el módulo de gestión de memoria registra las tareas en curso Resultados de ejecución.
En un caso práctico, DS Assistant se aplicó con éxito a la tarea de competencia ICR: Identificación de condiciones relacionadas con la edad en Kaggle. A través de procesos automatizados de procesamiento y análisis de datos, DS Assistant no solo mejora la tasa de éxito de la ejecución de tareas, sino que también genera registros de procesamiento detallados para los usuarios.
El efecto de DS Assistant se evaluó a través de ML-Benchmark. A partir de las tres dimensiones de puntuación de rendimiento normalizado (NPS), tiempo total y número total de tokens, DS Assistant ha logrado mejores resultados que SOTA de código abierto en algunas tareas complejas de ciencia de datos.
El valor de aplicación de DS Assistant radica en:
Para los usuarios que no están familiarizados con el proceso de análisis de datos, DS Assistant proporciona una manera de comprender rápidamente las ideas y los puntos técnicos del procesamiento de datos;
Para los usuarios que comprenden el proceso de análisis de datos, DS Assistant proporciona una descripción detallada del método de procesamiento para facilitar la comparación de referencias experimentales;
Para todos, DS Assistant automatiza y logra rápidamente una comprensión más profunda del archivo actual.
En el futuro, DS Assistant se optimizará en tres direcciones: mejorar la tasa de éxito de la ejecución de tareas, admitir el avance de tareas interactivas conversacionales y admitir el procesamiento por lotes de múltiples lotes de archivos para la misma tarea para mejorar aún más la experiencia del usuario.
Esta innovadora herramienta de Alibaba no sólo reduce la barrera de entrada a la ciencia de datos, sino que también proporciona a los científicos de datos un potente asistente automatizado, presagiando nuevos cambios en el campo de la ciencia de datos.
Repositorio oficial: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
Referencia: https://blog.langchain.dev/planning-agents/
En definitiva, DS Assistant ha aportado importantes mejoras de eficiencia y comodidad al campo de la ciencia de datos con sus procesos automatizados y su potente marco Modelscope-Agent, y tiene un enorme potencial para el desarrollo futuro. No sólo es un poderoso asistente para los científicos de datos, sino que también abre la puerta a la ciencia de datos para más personas.