La compañía nacional de IA Deepseek lanzó el modelo multimodal Janus-Pro, ingresando oficialmente al campo de los gráficos literarios y biográficos y logrando resultados notables. Este producto, basado en la actualización del modelo Janusflow, superó a los modelos conocidos como Dall-E3 de OpenAi en múltiples puntos de referencia. El movimiento de Deepseek marca un avance significativo en la tecnología de IA multimodal e inyecta una nueva vitalidad en el desarrollo de la IA nacional.
El gran modelo doméstico Deepseek ha lanzado el nuevo modelo multimodal Janus-Pro Multimodal, que ingresa oficialmente al campo de los gráficos literarios y biográficos. Este movimiento marca un gran avance en Deepseek en la tecnología de IA multimodal.
En los puntos de referencia de Bench Gineval y DPG, Janus-Pro-7B no solo supera a Dall-E3 de OpenAI, sino que también supera los modelos populares como la difusión estable y la generación EMU3. Janus-Pro adopta el protocolo de código abierto del MIT, lo que significa que se puede usar en escenarios comerciales sin limitaciones. Deepseek dijo que Janus-Pro es una versión premium de la maqueta Janusflow lanzada el 13 de noviembre de 2024.
En comparación con los modelos de generación anterior, Janus-Pro optimizó la estrategia de entrenamiento, amplió los datos de capacitación y la escala del modelo fue mayor. Estas mejoras han permitido a Janus-Pro progresar significativamente en la comprensión multimodal y las capacidades de seguimiento de instrucciones de texto a imagen, al tiempo que mejoran la estabilidad de la generación de texto a imagen.
Aunque Janus-Pro solo puede procesar imágenes con una resolución 384x384, ya es sorprendente poder alcanzar ese nivel dado el tamaño de su modelo compacto.
Como modelo multimodal, Janus-Pro no solo puede generar imágenes, sino también describir imágenes, identificar atracciones históricas, identificar texto en imágenes e introducir conocimiento en las imágenes.
Agujas:
Deepseek libera el modelo multimodal Janus-Pro para ingresar al campo de los gráficos literarios y biográficos.
En los puntos de referencia, la actuación Janus-Pro-7b supera a los modelos populares como Dall-E3 de OpenAi.
Janus-Pro utiliza el protocolo de código abierto del MIT y puede usarse en escenarios comerciales sin restricciones.
La aparición de Janus-Pro indica que la fuerza tecnológica de los grandes modelos domésticos en el campo de las imágenes literarias y biográficas está aumentando rápidamente. ¡a!