DS Assistant ผู้ช่วยวิทยาศาสตร์ข้อมูล AI คนล่าสุดของอาลีบาบา มีเป้าหมายเพื่อลดความซับซ้อนและเร่งกระบวนการวิทยาศาสตร์ข้อมูล โดยทำให้กระบวนการทั้งหมดเป็นอัตโนมัติตั้งแต่การสำรวจข้อมูลไปจนถึงการประเมินแบบจำลอง ทำให้ใช้งานง่ายแม้กับผู้ใช้ที่ไม่มีพื้นฐานด้านวิทยาศาสตร์ข้อมูลที่แข็งแกร่งก็ตาม DS Assistant ใช้เฟรมเวิร์ก Modelscope-Agent แบบโอเพ่นซอร์สของ Alibaba ซึ่งมีระบบนิเวศของเครื่องมือที่หลากหลายและการออกแบบโมดูลที่ยืดหยุ่น โดยรองรับการเข้าถึงโมเดลโอเพ่นซอร์สกระแสหลักและมีส่วนประกอบ RAG ซึ่งปรับปรุงประสิทธิภาพและความสะดวกในการใช้งานอย่างมาก ข้อได้เปรียบหลักอยู่ที่เวิร์กโฟลว์อัตโนมัติ ผู้ใช้เพียงแค่ระบุข้อกำหนด และ DS Assistant ก็สามารถดำเนินการขั้นตอนต่างๆ ได้โดยอัตโนมัติ ซึ่งช่วยลดเกณฑ์ด้านวิทยาศาสตร์ข้อมูลลงอย่างมาก
เมื่อเร็วๆ นี้ อาลีบาบาได้เปิดตัวผู้ช่วยวิทยาศาสตร์ข้อมูล AI ชื่อ DS Assistant ซึ่งสามารถทำให้กระบวนการทั้งหมดตั้งแต่การสำรวจข้อมูลไปจนถึงการประเมินแบบจำลองเป็นไปโดยอัตโนมัติ ทำให้วิทยาศาสตร์ข้อมูลทำงานง่ายและมีประสิทธิภาพมากขึ้น
DS Assistant ได้รับการพัฒนาโดยใช้กรอบงาน Modelscope-Agent ซึ่งเป็นโอเพ่นซอร์สที่จัดทำโดย Alibaba และมีระบบนิเวศของเครื่องมือที่หลากหลายและการออกแบบโมดูลที่ยืดหยุ่น การเปิดตัว DS Assistant แสดงให้เห็นว่าแม้แต่ผู้ใช้ที่ไม่มีพื้นฐานด้านวิทยาศาสตร์ข้อมูลเชิงลึกก็สามารถจัดการกับปัญหาด้านวิทยาศาสตร์ข้อมูลที่ซับซ้อนได้อย่างง่ายดาย
จุดแข็งหลักของ DS Assistant คือขั้นตอนการทำงานแบบอัตโนมัติ ผู้ใช้จำเป็นต้องระบุข้อกำหนดเท่านั้น และ DS Assistant ก็สามารถดำเนินการตามขั้นตอนต่างๆ ได้โดยอัตโนมัติ เช่น การวิเคราะห์ข้อมูลเชิงสำรวจ การประมวลผลข้อมูลล่วงหน้า วิศวกรรมฟีเจอร์ การฝึกโมเดล และการประเมินผล กระบวนการนี้ไม่เพียงแต่ปรับปรุงประสิทธิภาพการทำงานเท่านั้น แต่ยังลดเกณฑ์สำหรับงานวิทยาศาสตร์ข้อมูลอีกด้วย
กรอบงาน Modelscope-Agent คือการสนับสนุนอันทรงพลังเบื้องหลัง DS Assistant โดยมีลักษณะดังต่อไปนี้:
รองรับการเข้าถึงโมเดลโอเพ่นซอร์สกระแสหลักต่างๆ เช่น vllm, ollama ฯลฯ
จัดเตรียมส่วนประกอบ RAG และเข้าถึงฐานความรู้ได้อย่างรวดเร็ว
ระบบนิเวศของเครื่องมือที่หลากหลาย รองรับโมเดลชุมชน Modelscope และเครื่องมือ langchain
DS Assistant ใช้กรอบงานการวางแผนและดำเนินการที่เกิดขึ้นใหม่เพื่อทำงานที่ซับซ้อนให้สำเร็จอย่างมีประสิทธิภาพผ่านขั้นตอนการวางแผนและการดำเนินการที่ชัดเจน ขั้นตอนการทำงานประกอบด้วยการวางแผนงาน การจัดตารางงานย่อย การปฏิบัติงาน และการรวมผลลัพธ์ ซึ่งช่วยปรับปรุงประสิทธิภาพและความสามารถในการควบคุมการดำเนินงานได้อย่างมาก
ในแง่ของสถาปัตยกรรมระบบ DS Assistant ประกอบด้วยสี่โมดูลหลัก: DS Assistant ทำหน้าที่เป็นสมองของระบบและรับผิดชอบในการกำหนดเวลาโดยรวม โมดูล Plan มีหน้าที่ในการสร้างรายการงานและดำเนินการเรียงลำดับโทโพโลยีโดยเฉพาะ การดำเนินการและการบันทึกผลลัพธ์ โมดูลการจัดการหน่วยความจำจะบันทึกงานที่อยู่ระหว่างดำเนินการผลการดำเนินการ
ในกรณีที่ใช้งานได้จริง DS Assistant ได้รับการนำไปใช้กับงานการแข่งขัน ICR - การระบุเงื่อนไขที่เกี่ยวข้องกับอายุบน Kaggle ได้สำเร็จ ด้วยกระบวนการประมวลผลและวิเคราะห์ข้อมูลอัตโนมัติ DS Assistant ไม่เพียงแต่ปรับปรุงอัตราความสำเร็จของการดำเนินงานเท่านั้น แต่ยังสร้างบันทึกการประมวลผลโดยละเอียดสำหรับผู้ใช้อีกด้วย
ผลกระทบของ DS Assistant ได้รับการประเมินผ่าน ML-Benchmark จากสามมิติของคะแนนประสิทธิภาพปกติ (NPS) เวลาทั้งหมดและจำนวนโทเค็นทั้งหมด DS Assistant ได้รับผลลัพธ์ที่ดีกว่า SOTA แบบโอเพ่นซอร์สในงานวิทยาศาสตร์ข้อมูลที่ซับซ้อนบางงาน
ค่าแอปพลิเคชันของ DS Assistant อยู่ที่:
สำหรับผู้ใช้ที่ไม่คุ้นเคยกับกระบวนการวิเคราะห์ข้อมูล DS Assistant มอบวิธีทำความเข้าใจแนวคิดการประมวลผลข้อมูลและประเด็นทางเทคนิคได้อย่างรวดเร็ว
สำหรับผู้ใช้ที่เข้าใจกระบวนการวิเคราะห์ข้อมูล DS Assistant จะให้คำอธิบายโดยละเอียดเกี่ยวกับวิธีการประมวลผล เพื่ออำนวยความสะดวกในการเปรียบเทียบข้อมูลอ้างอิงเชิงทดลอง
สำหรับทุกคน DS Assistant จะทำให้เข้าใจไฟล์ปัจจุบันได้โดยอัตโนมัติและรวดเร็วยิ่งขึ้น
ในอนาคต DS Assistant จะได้รับการปรับให้เหมาะสมในสามทิศทาง ได้แก่ การปรับปรุงอัตราความสำเร็จในการปฏิบัติงาน รองรับความก้าวหน้าของงานแบบโต้ตอบเชิงสนทนา และรองรับการประมวลผลไฟล์หลายชุดสำหรับงานเดียวกันเป็นชุด เพื่อปรับปรุงประสบการณ์ผู้ใช้ให้ดียิ่งขึ้น
เครื่องมือที่เป็นนวัตกรรมจากอาลีบาบานี้ไม่เพียงแต่ช่วยลดอุปสรรคในการเข้าสู่วิทยาศาสตร์ข้อมูลเท่านั้น แต่ยังช่วยให้นักวิทยาศาสตร์ข้อมูลมีผู้ช่วยอัตโนมัติอันทรงพลัง ซึ่งเป็นการประกาศถึงการเปลี่ยนแปลงใหม่ๆ ในสาขาวิทยาศาสตร์ข้อมูล
พื้นที่เก็บข้อมูลอย่างเป็นทางการ: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
อ้างอิง: https://blog.langchain.dev/planning-agents/
โดยรวมแล้ว DS Assistant ได้นำการปรับปรุงประสิทธิภาพและความสะดวกสบายที่สำคัญมาสู่สาขาวิทยาศาสตร์ข้อมูลด้วยกระบวนการอัตโนมัติและเฟรมเวิร์ก Modelscope-Agent อันทรงพลัง และมีศักยภาพมหาศาลสำหรับการพัฒนาในอนาคต ไม่เพียงแต่เป็นผู้ช่วยที่ทรงพลังสำหรับนักวิทยาศาสตร์ข้อมูลเท่านั้น แต่ยังเปิดประตูสู่วิทยาศาสตร์ข้อมูลให้กับผู้คนจำนวนมากขึ้นอีกด้วย