Kerangka kerja 4M, yang dikembangkan oleh Ecole Polytechnique Fédérale de Lausanne (EPFL) di Swiss dan Apple, memberikan solusi yang efisien dan terukur untuk pelatihan model dasar visi multi-modal. Kerangka kerja ini secara cerdik memanfaatkan teknologi Transformer dan memproses berbagai jenis data masukan melalui penanda khusus modalitas, sehingga secara efektif mengatasi banyak tantangan pelatihan lintas-modal. Inovasinya terletak pada penggunaan masker masukan dan target untuk pelatihan, menunjukkan kinerja luar biasa dalam berbagai tugas visual.
Kerangka kerja 4M yang diluncurkan bersama oleh Ecole Polytechnique Fédérale de Lausanne di Swiss dan Apple memecahkan tantangan dalam melatih model dasar visi dalam berbagai modalitas. Kerangka kerja ini menggunakan teknologi Transformer untuk memproses berbagai modalitas masukan melalui penanda khusus modalitas, sehingga meningkatkan skalabilitas dan efisiensi. Dilatih dengan masukan dan masker target, 4M bekerja dengan baik dalam berbagai tugas penglihatan, menunjukkan potensi besar.
Munculnya kerangka 4M menandai kemajuan signifikan dalam teknologi pelatihan model dasar visi multi-modal dan memberikan landasan yang kuat untuk perluasan aplikasi kecerdasan buatan di masa depan. Efisiensi dan skalabilitasnya akan mendorong munculnya aplikasi yang lebih inovatif dan memerlukan perhatian berkelanjutan serta penelitian mendalam.