A estrutura 4M, desenvolvida pela Ecole Polytechnique Fédérale de Lausanne (EPFL) na Suíça e pela Apple, fornece uma solução eficiente e escalável para o treinamento de modelos básicos de visão multimodal. A estrutura utiliza de forma inteligente a tecnologia Transformer e processa diferentes tipos de dados de entrada por meio de etiquetadores específicos da modalidade, superando efetivamente muitos desafios do treinamento intermodal. Sua inovação está na utilização de máscaras de entrada e alvo para treinamento, apresentando excelente desempenho em múltiplas tarefas visuais.
A estrutura 4M lançada conjuntamente pela Ecole Polytechnique Fédérale de Lausanne na Suíça e pela Apple resolve o desafio de treinar modelos básicos de visão em múltiplas modalidades. A estrutura usa a tecnologia Transformer para processar múltiplas modalidades de entrada por meio de etiquetadores específicos de modalidade, melhorando a escalabilidade e a eficiência. Treinado com máscaras de entrada e alvo, o 4M tem um bom desempenho em múltiplas tarefas de visão, mostrando grande potencial.
O surgimento da estrutura 4M marca um progresso significativo na tecnologia de treinamento de modelos básicos de visão multimodal e fornece uma base sólida para a expansão de futuras aplicações de inteligência artificial. A sua eficiência e escalabilidade promoverão o surgimento de aplicações mais inovadoras e merecerão atenção contínua e investigação aprofundada.