Le framework 4M, développé par l'Ecole Polytechnique Fédérale de Lausanne (EPFL) en Suisse et Apple, fournit une solution efficace et évolutive pour la formation de modèles de base de vision multimodale. Le framework utilise intelligemment la technologie Transformer et traite différents types de données d'entrée via des balises spécifiques aux modalités, surmontant ainsi efficacement de nombreux défis de la formation intermodale. Son innovation réside dans l'utilisation de masques de saisie et de cibles pour la formation, montrant d'excellentes performances dans plusieurs tâches visuelles.
Le cadre 4M lancé conjointement par l'École Polytechnique Fédérale de Lausanne en Suisse et Apple résout le défi de la formation de modèles de vision de base selon de multiples modalités. Le framework utilise la technologie Transformer pour traiter plusieurs modalités d'entrée via des balises spécifiques aux modalités, améliorant ainsi l'évolutivité et l'efficacité. Formé avec des masques de saisie et de cible, 4M fonctionne bien sur plusieurs tâches de vision, montrant un grand potentiel.
L'émergence du cadre 4M marque un progrès significatif dans la technologie de formation de modèles de base de vision multimodale et fournit une base solide pour l'expansion des futures applications d'intelligence artificielle. Son efficacité et son évolutivité favoriseront l’émergence d’applications plus innovantes et méritent une attention continue et des recherches approfondies.