阿里巴巴最新推出的AI資料科學助理DS Assistant,旨在簡化並加速資料科學流程。它自動化了從數據探索到模型評估的整個過程,即使沒有深厚數據科學背景的用戶也能輕鬆使用。 DS Assistant基於阿里巴巴開源的Modelscope-Agent框架,該框架擁有豐富的工俱生態和靈活的模組設計,支援接入主流開源模型並提供RAG元件,極大提升了效率和易用性。其核心優勢在於自動化工作流程,使用者只需提供需求,DS Assistant便能自動執行各項步驟,大幅降低了資料科學的門檻。
近日,阿里巴巴推出了一款名為DS Assistant的AI資料科學助手,它能夠自動化地完成從資料探索到模型評估的全流程,讓資料科學工作變得更加簡單、有效率。
DS Assistant基於Modelscope-Agent框架開發,此框架由阿里巴巴開源,具有豐富的工俱生態和靈活的模組設計。 DS Assistant的推出,標誌著即使是沒有深厚數據科學背景的用戶,也能夠輕鬆地處理複雜的數據科學問題。
DS Assistant的核心優勢在於其自動化的工作流程。使用者只需提供需求,DS Assistant便能夠自動執行探索性資料分析、資料預處理、特徵工程、模型訓練和評估等步驟。這個過程不僅提高了工作效率,也降低了資料科學工作的門檻。
Modelscope-Agent框架是DS Assistant背後的強大支撐,它具備以下特點:
支援接取各主流開源模型,如vllm、ollama等;
提供RAG元件,快速接取知識庫;
豐富的工俱生態,支援Modelscope社群模型和langchain工具。
DS Assistant採用了新興的plan-and-execute框架,透過明確規劃和執行步驟,有效率地完成複雜任務。其工作流程包括任務計畫、子任務調度、任務執行和結果整合,大幅提高了任務執行的效率和可控性。
系統架構方面,DS Assistant由四個主要模組組成:DS Assistant本身作為系統大腦,負責整體調度;Plan模組負責產生任務清單並進行拓撲排序;Execution模組負責具體執行和保存結果;Memory management模組記錄任務中間執行結果。
在實戰案例中,DS Assistant成功應用於Kaggle上的ICR - Identifying Age-Related Conditions比賽任務。透過自動化的資料處理和分析流程,DS Assistant不僅提高了任務執行的成功率,還為使用者產生了詳細的處理過程記錄。
DS Assistant的效果透過ML-Benchmark進行了評估,從Normalized Performance Score (NPS)、總時間和總token數三個維度來看,DS Assistant在部分複雜數據科學任務上取得了超越開源SOTA的效果。
DS Assistant的應用價值在於:
對於不熟悉資料分析流程的用戶,DS Assistant提供了快速了解資料處理思路和技術點的途徑;
對於了解資料分析流程的用戶,DS Assistant提供了詳細的處理方法描述,方便進行實驗參考比較;
對於所有人,DS Assistant都能自動化地快速實現對目前文件的更深層理解。
未來,DS Assistant將從提高任務執行成功率、支援對話互動式任務推進和支援批次相同任務多批次檔案的場景三個方向進行最佳化,以進一步提升使用者體驗。
阿里巴巴的這項創新工具,不僅降低了資料科學領域的入門門檻,也為資料科學家提供了強大的自動化助手,預示著資料科學領域的新變革。
官方倉庫:https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
參考資料:https://blog.langchain.dev/planning-agents/
總而言之,DS Assistant 憑藉其自動化流程和強大的Modelscope-Agent 框架,為資料科學領域帶來了顯著的效率提升和便利性,未來發展潛力巨大。 它不僅是資料科學家的有力助手,也為更多人打開了資料科學的大門。