Apple ได้เปิดตัวการอัพเกรดครั้งใหญ่สำหรับรุ่นปัญญาประดิษฐ์หลายรูปแบบ MM1 - MM1.5 การอัพเกรดนี้ไม่ใช่การวนซ้ำเวอร์ชันธรรมดา แต่เป็นการปรับปรุงความสามารถของโมเดลโดยรวม ซึ่งเพิ่มประสิทธิภาพในการทำความเข้าใจรูปภาพ การจดจำข้อความ และการดำเนินการคำสั่งด้วยภาพอย่างมาก บรรณาธิการของ Downcodes จะอธิบายรายละเอียดเกี่ยวกับการปรับปรุง MM1.5 และความสำคัญของมันในด้านปัญญาประดิษฐ์หลายรูปแบบ
Apple เพิ่งเปิดตัวการอัปเดตครั้งใหญ่สำหรับโมเดลปัญญาประดิษฐ์หลายรูปแบบ MM1 โดยอัปเกรดเป็นเวอร์ชัน MM1.5 การอัปเกรดนี้ไม่ใช่แค่การเปลี่ยนหมายเลขเวอร์ชันธรรมดา แต่เป็นการปรับปรุงความสามารถที่ครอบคลุม ทำให้โมเดลสามารถแสดงประสิทธิภาพที่ทรงพลังมากขึ้นในด้านต่างๆ
การอัพเกรดหลักของ MM1.5 อยู่ที่วิธีการประมวลผลข้อมูลที่เป็นนวัตกรรมใหม่ โมเดลดังกล่าวใช้วิธีการฝึกอบรมที่เน้นข้อมูลเป็นศูนย์กลาง และชุดข้อมูลการฝึกอบรมได้รับการคัดกรองและปรับให้เหมาะสมอย่างรอบคอบ โดยเฉพาะอย่างยิ่ง MM1.5 ใช้ข้อมูล OCR ความละเอียดสูงและคำอธิบายรูปภาพสังเคราะห์ รวมถึงคำแนะนำด้วยภาพที่ได้รับการปรับปรุงเพื่อปรับแต่งการผสมข้อมูลอย่างละเอียด การแนะนำข้อมูลเหล่านี้ได้ปรับปรุงประสิทธิภาพของแบบจำลองอย่างมากในการจดจำข้อความ การทำความเข้าใจรูปภาพ และการดำเนินการตามคำสั่งด้วยภาพ
ในแง่ของขนาดโมเดล MM1.5 ครอบคลุมหลายเวอร์ชันตั้งแต่ 1 พันล้านถึง 30 พันล้านพารามิเตอร์ รวมถึงรุ่นเข้มข้นและแบบผสมของผู้เชี่ยวชาญ (MoE) เป็นที่น่าสังเกตว่าแม้แต่แบบจำลองพารามิเตอร์ที่มีขนาดเล็กกว่า 1 พันล้านและ 3 พันล้านก็สามารถบรรลุระดับประสิทธิภาพที่น่าประทับใจด้วยข้อมูลและกลยุทธ์การฝึกอบรมที่ออกแบบมาอย่างระมัดระวัง
การปรับปรุงความสามารถของ MM1.5 ส่วนใหญ่จะสะท้อนให้เห็นในด้านต่างๆ ต่อไปนี้: การทำความเข้าใจภาพที่เน้นข้อความมาก การอ้างอิงและการวางตำแหน่งด้วยภาพ การใช้เหตุผลหลายภาพ ความเข้าใจในวิดีโอ และความเข้าใจ UI บนมือถือ ความสามารถเหล่านี้ช่วยให้ MM1.5 สามารถนำไปใช้กับสถานการณ์ได้หลากหลายขึ้น เช่น การระบุนักแสดงและเครื่องดนตรีจากภาพถ่ายคอนเสิร์ต การทำความเข้าใจข้อมูลแผนภูมิ และการตอบคำถามที่เกี่ยวข้อง การค้นหาวัตถุเฉพาะในฉากที่ซับซ้อน เป็นต้น
เพื่อประเมินประสิทธิภาพของ MM1.5 นักวิจัยได้เปรียบเทียบกับโมเดลมัลติโมดัลขั้นสูงอื่นๆ ผลลัพธ์แสดงให้เห็นว่า MM1.5-1B ทำงานได้ดีในรุ่นที่มีสเกลพารามิเตอร์ 1 พันล้านพารามิเตอร์ ซึ่งดีกว่ารุ่นอื่นๆ ในระดับเดียวกันอย่างมาก MM1.5-3B มีประสิทธิภาพเหนือกว่า MiniCPM-V2.0 และทัดเทียมกับ InternVL2 และ Phi-3-Vision นอกจากนี้ การศึกษายังพบว่า ไม่ว่าจะเป็นแบบจำลองหนาแน่นหรือแบบจำลอง MoE ประสิทธิภาพจะดีขึ้นอย่างมากเมื่อขนาดเพิ่มขึ้น
ความสำเร็จของ MM1.5 ไม่เพียงสะท้อนถึงความแข็งแกร่งด้านการวิจัยและพัฒนาของ Apple ในด้านปัญญาประดิษฐ์เท่านั้น แต่ยังชี้ทางไปสู่การพัฒนาโมเดลหลายรูปแบบในอนาคตอีกด้วย ด้วยการเพิ่มประสิทธิภาพวิธีการประมวลผลข้อมูลและสถาปัตยกรรมโมเดล แม้แต่โมเดลขนาดเล็กก็สามารถบรรลุประสิทธิภาพที่แข็งแกร่งได้ ซึ่งมีความสำคัญอย่างยิ่งในการปรับใช้โมเดล AI ประสิทธิภาพสูงบนอุปกรณ์ที่มีทรัพยากรจำกัด
ที่อยู่กระดาษ: https://arxiv.org/pdf/2409.20566
โดยรวมแล้ว การเปิดตัว MM1.5 ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีปัญญาประดิษฐ์หลายรูปแบบ นวัตกรรมด้านการประมวลผลข้อมูลและสถาปัตยกรรมแบบจำลองของบริษัทให้แนวคิดและทิศทางใหม่สำหรับการพัฒนาแบบจำลอง AI ในอนาคต เราหวังว่า Apple จะสร้างผลลัพธ์ที่ก้าวล้ำยิ่งขึ้นในด้านปัญญาประดิษฐ์ต่อไป