Se han realizado un progreso significativo en el campo de la generación de imágenes, pero las limitaciones de los modelos existentes han obstaculizado la unidad de los modelos de visión del lenguaje. Este artículo presenta un nuevo modelo de texto a imagen llamado Meissonic, que utiliza la tecnología de modelado de imágenes enmascarado (MIM) no autorregresivo para lograr modelos de difusión de última generación (como SDXL) con solo 1 mil millones de parámetros requeridos. Una considerable calidad de generación de imágenes. Meissonic mejora significativamente el rendimiento y la eficiencia de MIM con su innovación arquitectónica, estrategias de codificación de ubicación y condiciones de muestreo optimizadas, y logra la generación de imágenes de resolución de 1024 × 1024 en GPU del consumidor.
En el corazón de Meissonic hay una variedad de innovaciones arquitectónicas, estrategias de codificación de posición avanzadas y condiciones de muestreo optimizadas que mejoran significativamente el rendimiento y la eficiencia de MIM. Además, Meissonic también utiliza datos de entrenamiento de alta calidad, integra microcondiciones basadas en puntajes de preferencias humanas y adopta capas de compresión de características para mejorar aún más la fidelidad y la resolución de la imagen.
A diferencia de los grandes modelos de difusión como SDXL y Deepfloyd-XL, Meissonic tiene solo 1 mil millones de parámetros, pero puede generar imágenes de alta calidad con resolución de 1024 × 1024 y puede ejecutarse en GPU de grado de consumo con solo 8 GB de memoria de video sin ningún modelo adicional mejoramiento. Además, Meissonic facilita la generación de imágenes con fondos de color sólido, que a menudo requieren un ajuste de ajuste fino o ajuste de desplazamiento de ruido en los modelos de difusión.
Para lograr una capacitación eficiente, el proceso de entrenamiento de Meissonic se divide en cuatro etapas cuidadosamente diseñadas:
La primera etapa: comprender los conceptos básicos de los datos masivos. Meissonic utiliza el conjunto de datos LAion-2B filtrado para entrenar a 256 × 256 resolución para aprender conceptos básicos.
Etapa 2: Alinear texto e imágenes con largas indicaciones. La resolución de entrenamiento se mejora a 512 × 512, y se utilizan pares de texto de imagen sintética de alta calidad y conjuntos de datos internos para mejorar la capacidad del modelo para comprender las señales descriptivas largas.
Etapa 3: compresión de características maestras para lograr una generación de resolución más alta. Al introducir capas de compresión de características, Meissonic puede hacer una transición sin problemas de 512 × 512 a 1024 × 1024 de generación y entrenado con pares seleccionados de texto de imagen de alta resolución de alta calidad.
Etapa 4: optimizar la generación de imágenes estéticas de alta resolución. En esta etapa, el modelo utiliza una tasa de aprendizaje más pequeña para el ajuste y agrega puntajes de preferencia humana como microcondiciones para mejorar el rendimiento del modelo en la generación de imágenes de alta calidad.
Meissonic demuestra un rendimiento y eficiencia superiores a través de una gama de métricas cuantitativas y cualitativas, incluidos HPS, MPS, Benchmarking Gineval y evaluación GPT4O. En comparación con Dall-E2 y SDXL, Meissonic ha logrado un rendimiento competitivo tanto en el rendimiento humano como en la alineación del texto, al tiempo que muestra su eficiencia.
Además, Meissonic ha funcionado bien en la edición de imagen a imagen de muestra cero. En el conjunto de datos EMU-edit, Meissonic ha logrado resultados principales en siete operaciones diferentes, incluidos cambios de fondo, cambios de contenido de imagen, cambios de estilo, eliminación de objetos, adiciones de objetos, modificaciones locales y cambios de color/textura, todo lo que ninguno de ellos necesita Para entrenar o ajustar en los datos o conjuntos de instrucciones específicos de edición de imágenes.
Dirección del proyecto: https://github.com/viiika/meissonic
Dirección en papel: https://arxiv.org/pdf/2410.08261
En resumen, los modelos Meissonic han realizado avances significativos en la eficiencia y la calidad de la generación de imágenes, proporcionando nuevas direcciones para el desarrollo de modelos futuros de visión del lenguaje. Sus características livianas le permiten ejecutarse en el hardware del consumidor y demostrar sus potentes capacidades en la edición de imágenes de muestras cero, con amplias perspectivas de aplicaciones.