ทีมวิจัยของ Microsoft ได้เปิดตัวเทคโนโลยีปัญญาประดิษฐ์ใหม่ - Large Action Model (LAM) ซึ่งสามารถใช้งานโปรแกรม Windows ได้โดยอัตโนมัติ ถือเป็นก้าวใหม่ของ AI ที่เปลี่ยนจากบทสนทนาและข้อเสนอแนะที่เรียบง่ายไปสู่การปฏิบัติงานจริง ต่างจากโมเดลภาษาแบบดั้งเดิม LAM สามารถเข้าใจอินพุตที่หลากหลาย เช่น ข้อความ เสียง และรูปภาพ และแปลงเป็นแผนปฏิบัติการโดยละเอียด นอกจากนี้ยังสามารถปรับกลยุทธ์ตามสถานการณ์แบบเรียลไทม์เพื่อแก้ไขปัญหาบางอย่างที่ระบบ AI อื่นไม่สามารถรับมือได้ กับ. เทคโนโลยีที่ก้าวล้ำนี้มอบความเป็นไปได้ที่กว้างขึ้นสำหรับ AI ในการใช้งานจริง และชี้ทางในการพัฒนาผู้ช่วยด้านปัญญาประดิษฐ์ในอนาคต
ทีมวิจัยของ Microsoft เพิ่งเปิดตัวเทคโนโลยีปัญญาประดิษฐ์ที่เรียกว่า "Large Action Model" (LAM) ซึ่งถือเป็นก้าวใหม่ในการพัฒนา AI ต่างจากโมเดลภาษาแบบดั้งเดิม เช่น GPT-4o ตรงที่ LAM สามารถใช้งานโปรแกรม Windows ได้โดยอัตโนมัติ ซึ่งหมายความว่า AI ไม่เพียงแต่สามารถพูดหรือให้คำแนะนำเท่านั้น แต่ยังสามารถทำงานได้จริงอีกด้วย
จุดแข็งของ LAM คือความสามารถในการเข้าใจอินพุตของผู้ใช้ที่หลากหลาย รวมถึงข้อความ คำพูด และรูปภาพ จากนั้นจึงแปลคำขอเหล่านี้เป็นแผนทีละขั้นตอนโดยละเอียด LAM ไม่เพียงแต่พัฒนาแผนเท่านั้น แต่ยังปรับกลยุทธ์การดำเนินการตามเงื่อนไขแบบเรียลไทม์อีกด้วย กระบวนการสร้าง LAM ส่วนใหญ่แบ่งออกเป็นสี่ขั้นตอน ขั้นแรก โมเดลเรียนรู้ที่จะแบ่งงานออกเป็นขั้นตอนเชิงตรรกะ จากนั้น เรียนรู้วิธีการแปลแผนเหล่านี้ผ่านระบบ AI ขั้นสูงเพิ่มเติม (เช่น GPT-4o) การดำเนินการเฉพาะนั้น LAM จะสำรวจโซลูชันใหม่อย่างอิสระและแม้แต่แก้ไขปัญหาที่ระบบ AI อื่น ๆ ไม่สามารถรับมือได้ สุดท้ายคือปรับแต่งการฝึกอบรมผ่านกลไกการให้รางวัล
ในการทดลอง ทีมวิจัยได้สร้างแบบจำลอง LAM โดยใช้ Mistral-7B และทดสอบในสภาพแวดล้อมการทดสอบ Word ผลลัพธ์แสดงให้เห็นว่าโมเดลทำงานสำเร็จได้ 71% ของเวลา เทียบกับ 63% ของ GPT-4o ที่ไม่มีข้อมูลภาพ
นอกจากนี้ LAM ยังทำงานได้ดีในด้านความเร็วในการดำเนินการ โดยแต่ละงานใช้เวลาเพียง 30 วินาที ในขณะที่ GPT-4o ใช้เวลา 86 วินาที แม้ว่าอัตราความสำเร็จของ GPT-4o จะเพิ่มขึ้นเป็น 75.5% เมื่อประมวลผลข้อมูลภาพ แต่โดยรวมแล้ว LAM มีข้อได้เปรียบที่สำคัญในด้านความเร็วและเอฟเฟกต์
ในการสร้างข้อมูลการฝึกอบรม ทีมวิจัยได้รวบรวมตัวอย่างงานและแผนงานจำนวน 29,000 ตัวอย่างจากเอกสาร Microsoft บทความ wikiHow และการค้นหา Bing จากนั้นพวกเขาใช้ GPT-4o เพื่อเปลี่ยนงานง่ายๆ ให้เป็นงานที่ซับซ้อน ดังนั้นจึงขยายชุดข้อมูลเป็น 76,000 คู่ เพิ่มขึ้น 150% ในที่สุด ฉากแอ็กชันที่ประสบความสำเร็จประมาณ 2,000 ฉากก็รวมอยู่ในชุดการฝึกขั้นสุดท้าย
แม้ว่า LAM ได้แสดงให้เห็นถึงศักยภาพในการพัฒนา AI แล้ว แต่ทีมวิจัยยังคงเผชิญกับความท้าทายบางอย่าง เช่น ปัญหาข้อผิดพลาดที่อาจเกิดขึ้นในการดำเนินการของ AI ปัญหาที่เกี่ยวข้องกับกฎระเบียบ และข้อจำกัดทางเทคนิคในการปรับขนาดและปรับใช้ในการใช้งานต่างๆ อย่างไรก็ตาม นักวิจัยเชื่อว่า LAM แสดงถึงการเปลี่ยนแปลงที่สำคัญในการพัฒนา AI ซึ่งบ่งชี้ว่าผู้ช่วยด้านปัญญาประดิษฐ์จะสามารถช่วยมนุษย์ในการทำงานภาคปฏิบัติได้อย่างแข็งขันมากขึ้น
ไฮไลท์:
LAM สามารถรันโปรแกรม Windows ได้โดยอัตโนมัติ ทำลายข้อจำกัดของ AI แบบดั้งเดิมที่สามารถพูดคุยได้เท่านั้น
⏱ ในการทดสอบ Word ความน่าจะเป็นของ LAM ในการทำงานให้สำเร็จถึง 71% ซึ่งสูงกว่า GPT-4o ที่ 63% และความเร็วในการดำเนินการก็เร็วขึ้น
ทีมวิจัยใช้กลยุทธ์การขยายข้อมูลเพื่อเพิ่มจำนวนคู่แผนภารกิจเป็น 76,000 คู่ ซึ่งช่วยปรับปรุงผลการฝึกอบรมของแบบจำลองให้ดียิ่งขึ้น
การเกิดขึ้นของ LAM ถือเป็นการประกาศการเปลี่ยนแปลงของปัญญาประดิษฐ์จากผู้ให้บริการข้อมูลไปสู่ผู้ดำเนินการจริง นำมาซึ่งการเปลี่ยนแปลงเชิงปฏิวัติในการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์และสำนักงานอัตโนมัติในอนาคต แม้ว่าจะยังคงเผชิญกับความท้าทาย แต่ LAM ก็มีศักยภาพที่ยอดเยี่ยม และมันก็คุ้มค่าที่จะรอคอยการใช้งานที่กว้างขวางและการพัฒนาเพิ่มเติมในสาขาต่างๆ