El editor de Downcodes lo llevará a conocer Meissonic, un modelo de generación de texto a imagen con solo mil millones de parámetros que puede generar imágenes de alta definición de 1024 × 1024. Rompe las limitaciones de modelos como Stable Diffusion y eleva la tecnología de modelado de imágenes de máscara (MIM) no autorregresiva a un nuevo nivel. Su rendimiento y eficiencia son comparables a los mejores modelos de difusión como SDXL. La innovación de Meissonic radica en su diseño arquitectónico único, su estrategia avanzada de codificación posicional y sus condiciones de muestreo optimizadas, que le permiten ejecutarse en GPU de consumo sin optimización adicional. Aún más sorprendente es que puede generar fácilmente imágenes con fondos de colores sólidos, que normalmente requieren ajustes complejos en los modelos de difusión.
El núcleo de Meissonic radica en una serie de innovaciones arquitectónicas, estrategias avanzadas de codificación de posición y condiciones de muestreo optimizadas. Estas mejoras mejoran significativamente el rendimiento y la eficiencia de MIM. Además, Meissonic aprovecha datos de entrenamiento de alta calidad, integra microcondicionamiento basado en puntuaciones de preferencia humana y emplea capas de compresión de características para mejorar aún más la fidelidad y resolución de la imagen.
A diferencia de los modelos de gran difusión como SDXL y DeepFloyd-XL, Meissonic solo tiene mil millones de parámetros, pero puede generar imágenes de alta calidad con una resolución de 1024×1024 y puede ejecutarse en GPU de consumo con solo 8 GB de memoria de video sin ningún modelo adicional. mejoramiento. Además, Meissonic puede generar fácilmente imágenes con fondos de colores sólidos, lo que en los modelos de difusión a menudo requiere un ajuste fino del modelo o ajustes de compensación de ruido.
Para lograr una formación eficiente, el proceso de formación de Meissonic se divide en cuatro etapas cuidadosamente diseñadas:
La primera etapa: comprender conceptos básicos a partir de datos masivos. Meissonic utiliza el conjunto de datos filtrados de LAION-2B para entrenar con una resolución de 256 × 256 para aprender conceptos básicos.
Fase 2: Alinear texto e imágenes usando puntas largas. La resolución de entrenamiento aumenta a 512 × 512 y se utilizan pares de imágenes y texto sintéticos de alta calidad y conjuntos de datos internos para mejorar la capacidad del modelo para comprender señales descriptivas largas.
Etapa 3: Dominar la compresión de funciones para lograr una generación de mayor resolución. Al introducir una capa de compresión de características, Meissonic puede pasar sin problemas de la generación de 512 × 512 a 1024 × 1024 y entrenar con una selección de pares de imagen y texto de alta resolución y alta calidad.
Etapa 4: Optimización de la generación de imágenes estéticas de alta resolución. En esta etapa, el modelo se afina utilizando una tasa de aprendizaje más pequeña y se agregan puntuaciones de preferencia humana como microcondiciones para mejorar el rendimiento del modelo en la generación de imágenes de alta calidad.
Meissonic demuestra un rendimiento y una eficiencia superiores en una variedad de métricas cuantitativas y cualitativas, incluidas HPS, MPS, puntos de referencia GenEval y evaluaciones GPT4o. En comparación con DALL-E2 y SDXL, Meissonic logra un rendimiento competitivo tanto en rendimiento humano como en alineación de texto, al tiempo que demuestra su alta eficiencia.
Además, Meissonic destaca en la edición de imagen a imagen con muestra cero. En el conjunto de datos EMU-Edit, Meissonic logró resultados líderes en siete operaciones diferentes, incluido el cambio de fondo, el cambio de contenido de la imagen, el cambio de estilo, la eliminación de objetos, la adición de objetos, la modificación local y el cambio de color/textura, todos los cuales no requieren capacitación ni precisión. -Ajuste de datos o conjuntos de instrucciones específicos de edición de imágenes.
Dirección del proyecto: https://github.com/viiika/Meissonic
Dirección del artículo: https://arxiv.org/pdf/2410.08261
Con su eficiencia y alto rendimiento, Meissonic aporta nuevas posibilidades al campo de la generación de imágenes. Su diseño liviano facilita su uso por parte de usuarios masivos y también proporciona nuevas ideas para futuras direcciones de investigación. Los amigos interesados pueden visitar la dirección del proyecto y la dirección de la tesis para obtener más información.