El Instituto de Investigación Zhiyuan lanzó recientemente una nueva generación del modelo básico multimodal Emu2, que ha logrado avances significativos en las capacidades de aprendizaje en contexto multimodal. A través del preentrenamiento multimodal generativo autorregresivo a gran escala, Emu2 tiene un buen desempeño en tareas de comprensión multimodal de pocas muestras, superando los modelos convencionales como Flamingo-80B e IDEFICS-80B, y ha tenido un buen desempeño en múltiples comprensión de pocas muestras. respuesta visual a preguntas y lograr un rendimiento óptimo en tareas de generación de imágenes. Emu2 contiene dos aplicaciones principales: Emu2-Chat y Emu2-Gen, que se centran en la comprensión de instrucciones de imágenes y textos y en la generación de imágenes/videos, respectivamente.
El Instituto de Investigación Zhiyuan ha lanzado una nueva generación del modelo básico multimodal Emu2, que promueve significativamente avances en las capacidades de aprendizaje de contexto multimodal a través de un preentrenamiento multimodal generativo autorregresivo a gran escala. Emu2 funciona bien en tareas de comprensión multimodal de pocas muestras, superando a los grandes modelos pre-entrenados multimodales convencionales Flamingo-80B e IDEFICS-80B. Emu2 ha logrado un rendimiento óptimo en múltiples tareas de comprensión de pocos disparos, respuesta visual a preguntas y generación de imágenes. Emu2-Chat puede comprender con precisión instrucciones gráficas y de texto para lograr una mejor percepción de la información, comprensión de intenciones y planificación de la toma de decisiones. Emu2-Gen puede aceptar imágenes, texto y secuencias de posición entrelazadas como entrada para lograr una generación de imágenes y videos flexible, controlable y de alta calidad. Emu2 adopta un marco de modelado más simple y escala el modelo a 37B parámetros. Para obtener más información, consulte el enlace del proyecto publicado por el Instituto de Investigación Zhiyuan.Con su potente rendimiento y su marco conciso, Emu2 demuestra los últimos avances en el campo de la inteligencia artificial multimodal y proporciona una base sólida para el desarrollo de futuras aplicaciones multimodales. Vale la pena esperar con ansias la innovación continua del Instituto de Investigación Zhiyuan.