يهدف أحدث مساعد لعلوم بيانات الذكاء الاصطناعي من Alibaba، DS Assistant، إلى تبسيط وتسريع عملية علم البيانات. فهو يعمل على أتمتة العملية بأكملها بدءًا من استكشاف البيانات وحتى تقييم النماذج، مما يجعل من السهل استخدامها حتى بالنسبة للمستخدمين الذين ليس لديهم خلفية قوية في علم البيانات. يعتمد DS Assistant على إطار عمل Modelscope-Agent مفتوح المصدر من Alibaba، والذي يحتوي على نظام بيئي غني بالأدوات وتصميم مرن للوحدات، وهو يدعم الوصول إلى النماذج مفتوحة المصدر السائدة ويوفر مكونات RAG، مما يحسن الكفاءة وسهولة الاستخدام بشكل كبير. تكمن ميزته الأساسية في سير العمل الآلي، حيث يحتاج المستخدمون فقط إلى توفير المتطلبات، ويمكن لـ DS Assistant تنفيذ خطوات مختلفة تلقائيًا، مما يخفض عتبة علم البيانات بشكل كبير.
أطلقت شركة علي بابا مؤخرًا مساعدًا لعلوم البيانات يعمل بالذكاء الاصطناعي يسمى DS Assistant، والذي يمكنه أتمتة العملية برمتها بدءًا من استكشاف البيانات وحتى تقييم النماذج، مما يجعل عمل علم البيانات أسهل وأكثر كفاءة.
تم تطوير DS Assistant استنادًا إلى إطار عمل Modelscope-Agent، وهو مفتوح المصدر بواسطة Alibaba ويحتوي على نظام بيئي غني بالأدوات وتصميم مرن للوحدات. يشير إطلاق DS Assistant إلى أنه حتى المستخدمين الذين ليس لديهم خلفية عميقة في علم البيانات يمكنهم بسهولة التعامل مع مشكلات علم البيانات المعقدة.
القوة الأساسية لـ DS Assistant هي سير العمل الآلي. يحتاج المستخدمون فقط إلى توفير المتطلبات، ويمكن لـ DS Assistant تنفيذ خطوات تلقائيًا مثل تحليل البيانات الاستكشافية والمعالجة المسبقة للبيانات وهندسة الميزات والتدريب النموذجي والتقييم. لا تعمل هذه العملية على تحسين كفاءة العمل فحسب، بل تقلل أيضًا من عتبة العمل في علم البيانات.
يعد إطار عمل Modelscope-Agent بمثابة الدعم القوي لـ DS Assistant، ويتميز بالخصائص التالية:
يدعم الوصول إلى العديد من النماذج مفتوحة المصدر السائدة، مثل vllm وollama وما إلى ذلك؛
توفير مكونات RAG والوصول بسرعة إلى قاعدة المعرفة؛
نظام بيئي غني بالأدوات، يدعم نموذج مجتمع Modelscope وأدوات langchain.
يعتمد DS Assistant إطار التخطيط والتنفيذ الناشئ لإكمال المهام المعقدة بكفاءة من خلال خطوات التخطيط والتنفيذ الواضحة. يتضمن سير العمل الخاص به تخطيط المهام وجدولة المهام الفرعية وتنفيذ المهام وتكامل النتائج، مما يحسن بشكل كبير من الكفاءة وإمكانية التحكم في تنفيذ المهام.
فيما يتعلق ببنية النظام، يتكون DS Assistant من أربع وحدات رئيسية: DS Assistant نفسه بمثابة عقل النظام وهو مسؤول عن الجدولة الشاملة؛ ووحدة الخطة مسؤولة عن إنشاء قوائم المهام وإجراء الفرز الطوبولوجي؛ ووحدة التنفيذ مسؤولة عن مهام محددة نتائج التنفيذ وحفظها؛ تسجل وحدة إدارة الذاكرة المهام الجارية ونتائج التنفيذ.
في حالة عملية، تم تطبيق DS Assistant بنجاح على مهمة مسابقة ICR - تحديد الظروف المرتبطة بالعمر في Kaggle. من خلال عمليات معالجة البيانات وتحليلها تلقائيًا، لا يعمل DS Assistant على تحسين معدل نجاح تنفيذ المهام فحسب، بل يقوم أيضًا بإنشاء سجلات معالجة مفصلة للمستخدمين.
تم تقييم تأثير DS Assistant من خلال ML-Benchmark من خلال الأبعاد الثلاثة لنقاط الأداء المعيارية (NPS)، والوقت الإجمالي والعدد الإجمالي للرموز، وقد حقق DS Assistant نتائج أفضل من SOTA مفتوحة المصدر في بعض مهام علوم البيانات المعقدة.
تكمن قيمة تطبيق DS Assistant في:
بالنسبة للمستخدمين الذين ليسوا على دراية بعملية تحليل البيانات، يوفر DS Assistant طريقة لفهم أفكار معالجة البيانات والنقاط الفنية بسرعة؛
بالنسبة للمستخدمين الذين يفهمون عملية تحليل البيانات، يوفر DS Assistant وصفًا تفصيليًا لطريقة المعالجة لتسهيل المقارنة المرجعية التجريبية؛
للجميع، يقوم DS Assistant بأتمتة وتحقيق فهم أعمق للملف الحالي بسرعة.
في المستقبل، سيتم تحسين DS Assistant في ثلاثة اتجاهات: تحسين معدل نجاح تنفيذ المهمة، ودعم تقدم المهام التفاعلية التحادثية، ودعم المعالجة المجمعة لدفعات متعددة من الملفات لنفس المهمة لزيادة تعزيز تجربة المستخدم.
لا تعمل هذه الأداة المبتكرة من Alibaba على تقليل حاجز الدخول إلى علم البيانات فحسب، بل توفر أيضًا لعلماء البيانات مساعدًا آليًا قويًا، مما يبشر بتغييرات جديدة في مجال علم البيانات.
المستودع الرسمي: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
المرجع: https://blog.langchain.dev/planning-agents/
بشكل عام، جلب DS Assistant تحسينات كبيرة في الكفاءة والراحة في مجال علوم البيانات من خلال عملياته الآلية وإطار عمل Modelscope-Agent القوي، ولديه إمكانات هائلة للتطوير المستقبلي. إنه ليس مساعدًا قويًا لعلماء البيانات فحسب، بل يفتح الباب أيضًا لعلم البيانات لمزيد من الأشخاص.