El marco 4M, desarrollado por la Ecole Polytechnique Fédérale de Lausanne (EPFL) en Suiza y Apple, proporciona una solución eficiente y escalable para el entrenamiento de modelos básicos de visión multimodal. El marco utiliza inteligentemente la tecnología Transformer y procesa diferentes tipos de datos de entrada a través de etiquetas específicas de modalidad, superando de manera efectiva muchos desafíos del entrenamiento intermodal. Su innovación radica en el uso de máscaras de entrada y objetivo para el entrenamiento, mostrando un excelente desempeño en múltiples tareas visuales.
El marco 4M lanzado conjuntamente por la Ecole Polytechnique Fédérale de Lausanne en Suiza y Apple resuelve el desafío de entrenar modelos básicos de visión en múltiples modalidades. El marco utiliza la tecnología Transformer para procesar múltiples modalidades de entrada a través de etiquetas específicas de modalidad, mejorando la escalabilidad y la eficiencia. Entrenado con máscaras de entrada y objetivo, 4M se desempeña bien en múltiples tareas de visión, mostrando un gran potencial.
La aparición del marco 4M marca un progreso significativo en la tecnología de entrenamiento de modelos básicos de visión multimodal y proporciona una base sólida para la expansión de futuras aplicaciones de inteligencia artificial. Su eficiencia y escalabilidad promoverán el surgimiento de aplicaciones más innovadoras y merecen atención continua e investigación en profundidad.