Apple lanzó recientemente su modelo básico multimodal MM1 a gran escala, con un tamaño de parámetros de 30 mil millones y una arquitectura híbrida experta (MoE). Vale la pena señalar que más de la mitad de los miembros del equipo de investigación y desarrollo del modelo son chinos, lo que refleja la importante contribución de los científicos chinos en el campo de la inteligencia artificial. MM1 obtuvo buenos resultados en las pruebas comparativas multimodales, lo que indica que Apple ha logrado un gran avance en el campo de la inteligencia artificial generativa y puede sentar una base sólida para el desarrollo futuro de productos. Utiliza una variante de MoE y lidera los indicadores de preentrenamiento y múltiples pruebas de referencia multimodales. Los investigadores también han verificado la importancia de la arquitectura del modelo y la selección de datos de preentrenamiento a través de múltiples experimentos de ablación.
Apple lanzó un modelo básico multimodal a gran escala llamado MM1 con 30 mil millones de parámetros, utilizando arquitectura MoE, y más de la mitad de los autores son chinos. Este modelo es de gran importancia en el campo multimodal y puede presagiar el lanzamiento de productos relacionados por parte de Apple en el futuro. Apple ha aumentado su inversión en el campo de la inteligencia artificial generativa, demostrando su determinación de lograr avances significativos. MM1 adopta la variante MoE y lidera los indicadores previos al entrenamiento y múltiples pruebas de referencia multimodales. Los investigadores exploraron la importancia de la arquitectura del modelo y la selección de datos previos al entrenamiento a través de múltiples experimentos de ablación.El lanzamiento de MM1 marca un paso importante para Apple en el campo de la inteligencia artificial. Su potente rendimiento y la contribución del equipo chino son dignos de atención. En el futuro, podemos esperar que Apple lance productos y servicios más innovadores basados en MM1 para promover aún más el desarrollo y la aplicación de tecnología de inteligencia artificial multimodal.