¡Sólo mil millones de parámetros! Modelo de generación de imágenes de IA Meissonic AI puede generar imágenes de alta calidad en teléfonos móviles

Autor：Eve Cole Fecha de actualización：2024-12-10 10:48:01

El editor de Downcodes informa: Ha surgido un modelo de generación de imágenes de IA de código abierto llamado Meissonic. Puede generar imágenes de alta calidad utilizando solo mil millones de parámetros. ¡Se le puede llamar un gigante liviano en el campo de la generación de imágenes de IA! Esto se debe a la arquitectura de convertidor única y a los novedosos métodos de capacitación adoptados por el equipo de I+D (investigadores de Alibaba, Skywork AI y varias universidades). Meissonic no solo puede ejecutarse en PC para juegos comunes, sino que también se espera que en el futuro implemente aplicaciones localizadas de conversión de texto a imagen en teléfonos móviles, lo que reducirá en gran medida el umbral de entrada para la generación de imágenes de IA.

Recientemente, el equipo de investigación científica lanzó conjuntamente un modelo de generación de imágenes de IA de código abierto llamado Meissonic. Sorprendentemente, este modelo puede generar imágenes de alta calidad utilizando sólo mil millones de parámetros. Este diseño compacto le da a Meissonic la posibilidad de localizar aplicaciones de texto a imagen en dispositivos móviles.

El equipo de I+D detrás de esta tecnología incluye investigadores de Alibaba, Skywork AI y varias universidades. Utilizaron una arquitectura de convertidor única y métodos de entrenamiento novedosos para permitir que Meissonic se ejecutara en PC para juegos normales y posiblemente incluso en teléfonos móviles en el futuro.

El método de entrenamiento de Meissonic utiliza una técnica llamada “modelado de imágenes enmascaradas”, que simplemente significa que parte de la imagen queda oculta durante el proceso de entrenamiento. El modelo aprende a reconstruir partes faltantes basándose en regiones visibles y descripciones textuales. Este enfoque ayuda al modelo a comprender la relación entre los elementos de la imagen y el texto.

La arquitectura de Meissonic le permite generar imágenes de alta resolución de 1024x1024 píxeles, ya sean escenas realistas o texto estilizado, emoticones o incluso pegatinas de dibujos animados.

A diferencia de los modelos autorregresivos tradicionales que generan imágenes gradualmente, Meissonic predice toda la información de la imagen al mismo tiempo mediante una optimización iterativa paralela. Esta innovación reduce significativamente los pasos de decodificación, reduciendo el tiempo en aproximadamente un 99% y mejora en gran medida la velocidad de generación de imágenes.

En el proceso de construcción del modelo, los investigadores siguieron cuatro pasos:

Primero, utilizaron 200 millones de imágenes de 256x256 píxeles para enseñarle los conceptos básicos al modelo; luego, utilizaron 10 millones de pares de imagen-texto estrictamente seleccionados para mejorar sus capacidades de comprensión de texto y luego, al agregar una capa de compresión especial, el modelo pudo generar; Imágenes de 1024x1024 píxel por píxel; finalmente, realizaron ajustes que incorporaron datos sobre las preferencias humanas para mejorar el rendimiento del modelo.

Curiosamente, a pesar de tener una menor cantidad de parámetros, Meissonic superó a algunos modelos más grandes, como SDXL y DeepFloyd-XL, en múltiples puntos de referencia, logrando una alta "Puntuación de preferencia humana" de 28,83. Además, Meissonic es capaz de parchear y expandir imágenes sin capacitación adicional, lo que permite a los usuarios agregar fácilmente partes de imágenes faltantes o mejorar creativamente las imágenes existentes.

El equipo de investigación cree que este método puede promover el desarrollo rápido y de bajo costo de generadores de imágenes de IA personalizados, y también se espera que promueva el desarrollo de aplicaciones de conversión de texto a imagen en dispositivos móviles. Los amigos interesados pueden encontrar la versión de demostración en Hugging Face y ver el código del modelo en GitHub, que se puede ejecutar fácilmente en una GPU de consumo con 8 GB de memoria de video normal.

demostración: https://huggingface.co/spaces/MeissonFlow/meissonic

Proyecto: https://github.com/viiika/Meissonic

Destacar:

Meissonic es un modelo de inteligencia artificial de código abierto que puede generar imágenes de alta calidad con solo mil millones de parámetros, adecuado para su uso en PC para juegos comunes y futuros dispositivos móviles.

Utilizando un método de entrenamiento de optimización iterativa paralela, Meissonic puede generar imágenes un 99% más rápido que los modelos tradicionales.

A pesar de su pequeño tamaño de parámetro, Meissonic supera a los modelos más grandes en múltiples pruebas y permite pintar y expandir imágenes sin entrenamiento.

Con todo, la aparición de Meissonic ha traído nuevas posibilidades al campo de la generación de imágenes de IA. ¡Vale la pena esperar su diseño liviano y su rendimiento eficiente! El editor de Downcodes recomienda que todos vayan a Hugging Face y GitHub para experimentar y explorar este poderoso modelo de IA.