เฟรมเวิร์ก 4M พัฒนาโดย Ecole Polytechnique Fédérale de Lausanne (EPFL) ในสวิตเซอร์แลนด์และ Apple มอบโซลูชันที่มีประสิทธิภาพและปรับขนาดได้สำหรับการฝึกอบรมโมเดลพื้นฐานการมองเห็นหลายรูปแบบ เฟรมเวิร์กใช้เทคโนโลยี Transformer อย่างชาญฉลาด และประมวลผลข้อมูลอินพุตประเภทต่างๆ ผ่านแท็กเกอร์เฉพาะรูปแบบ ซึ่งเอาชนะความท้าทายมากมายของการฝึกอบรมแบบข้ามโมดัลได้อย่างมีประสิทธิภาพ นวัตกรรมอยู่ที่การใช้มาสก์อินพุตและเป้าหมายสำหรับการฝึกอบรม ซึ่งแสดงให้เห็นประสิทธิภาพที่ยอดเยี่ยมในงานด้านภาพที่หลากหลาย
กรอบงาน 4M ที่เปิดตัวร่วมกันโดย Ecole Polytechnique Fédérale de Lausanne ในสวิตเซอร์แลนด์และ Apple แก้ปัญหาความท้าทายในการฝึกอบรมโมเดลพื้นฐานของการมองเห็นในรูปแบบต่างๆ เฟรมเวิร์กใช้เทคโนโลยี Transformer เพื่อประมวลผลรูปแบบอินพุตหลายรูปแบบผ่านแท็กเกอร์เฉพาะรูปแบบ ซึ่งปรับปรุงความสามารถในการปรับขนาดและประสิทธิภาพ ด้วยการฝึกอบรมเกี่ยวกับมาสก์อินพุตและมาสก์เป้าหมาย 4M จึงทำงานได้ดีกับงานวิชันซิสเต็มหลายงาน ซึ่งแสดงศักยภาพที่ยอดเยี่ยม
การเกิดขึ้นของกรอบการทำงาน 4M ถือเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการฝึกโมเดลพื้นฐานด้านการมองเห็นหลายรูปแบบ และมอบรากฐานที่มั่นคงสำหรับการขยายการใช้งานปัญญาประดิษฐ์ในอนาคต ประสิทธิภาพและความสามารถในการปรับขนาดจะส่งเสริมให้เกิดแอปพลิเคชันที่เป็นนวัตกรรมมากขึ้นและสมควรได้รับความสนใจและการวิจัยเชิงลึกอย่างต่อเนื่อง