Le dernier assistant de science des données d’Alibaba, DS Assistant, vise à simplifier et à accélérer le processus de science des données. Il automatise l'ensemble du processus, de l'exploration des données à l'évaluation du modèle, ce qui le rend facile à utiliser même pour les utilisateurs sans solide expérience en science des données. DS Assistant est basé sur le framework open source Modelscope-Agent d'Alibaba, qui dispose d'un riche écosystème d'outils et d'une conception de modules flexible. Il prend en charge l'accès aux modèles open source grand public et fournit des composants RAG, ce qui améliore considérablement l'efficacité et la facilité d'utilisation. Son principal avantage réside dans le flux de travail automatisé. Les utilisateurs n'ont qu'à fournir des exigences, et DS Assistant peut effectuer automatiquement diverses étapes, abaissant considérablement le seuil de la science des données.
Récemment, Alibaba a lancé un assistant de science des données IA appelé DS Assistant, qui peut automatiser l'ensemble du processus, de l'exploration des données à l'évaluation des modèles, rendant ainsi le travail de science des données plus facile et plus efficace.
DS Assistant est développé sur la base du framework Modelscope-Agent, qui est open source par Alibaba et dispose d'un riche écosystème d'outils et d'une conception de modules flexible. Le lancement de DS Assistant montre que même les utilisateurs sans expérience approfondie en science des données peuvent facilement gérer des problèmes complexes en science des données.
La principale force de DS Assistant réside dans son flux de travail automatisé. Les utilisateurs doivent uniquement fournir des exigences et DS Assistant peut effectuer automatiquement des étapes telles que l'analyse exploratoire des données, le prétraitement des données, l'ingénierie des fonctionnalités, la formation et l'évaluation des modèles. Ce processus améliore non seulement l'efficacité du travail, mais abaisse également le seuil du travail en science des données.
Le framework Modelscope-Agent est le puissant support derrière DS Assistant. Il présente les caractéristiques suivantes :
Prend en charge l'accès à divers modèles open source grand public, tels que vllm, ollama, etc. ;
Fournir des composants RAG et accéder rapidement à la base de connaissances ;
Écosystème d'outils riche, prenant en charge le modèle communautaire Modelscope et les outils Langchain.
DS Assistant adopte le nouveau cadre de planification et d'exécution pour accomplir efficacement des tâches complexes grâce à des étapes de planification et d'exécution claires. Son flux de travail comprend la planification des tâches, la planification des sous-tâches, l'exécution des tâches et l'intégration des résultats, ce qui améliore considérablement l'efficacité et la contrôlabilité de l'exécution des tâches.
En termes d'architecture système, DS Assistant se compose de quatre modules principaux : DS Assistant lui-même sert de cerveau du système et est responsable de la planification globale ; le module Plan est responsable de la génération des listes de tâches et d'effectuer le tri topologique ; résultats d'exécution et de sauvegarde ; le module de gestion de la mémoire enregistre les tâches en cours Résultats d'exécution.
Dans un cas pratique, DS Assistant a été appliqué avec succès à la tâche du concours ICR - Identification des conditions liées à l'âge sur Kaggle. Grâce à des processus automatisés de traitement et d'analyse des données, DS Assistant améliore non seulement le taux de réussite de l'exécution des tâches, mais génère également des enregistrements de traitement détaillés pour les utilisateurs.
L'effet de DS Assistant a été évalué via ML-Benchmark À partir des trois dimensions du score de performance normalisé (NPS), du temps total et du nombre total de jetons, DS Assistant a obtenu de meilleurs résultats que SOTA open source sur certaines tâches complexes de science des données.
La valeur applicative de DS Assistant réside dans :
Pour les utilisateurs qui ne sont pas familiers avec le processus d'analyse des données, DS Assistant offre un moyen de comprendre rapidement les idées et les points techniques en matière de traitement des données ;
Pour les utilisateurs qui comprennent le processus d'analyse des données, DS Assistant fournit une description détaillée de la méthode de traitement pour faciliter la comparaison de références expérimentales ;
Pour tout le monde, DS Assistant automatise et permet d'obtenir rapidement une compréhension plus approfondie du fichier en cours.
À l'avenir, DS Assistant sera optimisé dans trois directions : améliorer le taux de réussite de l'exécution des tâches, prendre en charge l'avancement des tâches interactives conversationnelles et prendre en charge le traitement par lots de plusieurs lots de fichiers pour la même tâche afin d'améliorer encore l'expérience utilisateur.
Cet outil innovant d'Alibaba abaisse non seulement les barrières à l'entrée dans la science des données, mais fournit également aux data scientists un puissant assistant automatisé, annonçant de nouveaux changements dans le domaine de la science des données.
Dépôt officiel : https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
Référence : https://blog.langchain.dev/planning-agents/
Dans l'ensemble, DS Assistant a apporté des améliorations significatives en termes d'efficacité et de commodité dans le domaine de la science des données grâce à ses processus automatisés et à son puissant framework Modelscope-Agent, et présente un énorme potentiel de développement futur. Il s’agit non seulement d’un assistant puissant pour les data scientists, mais il ouvre également la porte à la science des données à un plus grand nombre de personnes.