Un equipo de investigación de la Universidad Nacional de Singapur ha desarrollado un nuevo marco de generación de imágenes llamado OminiControl, que mejora significativamente la flexibilidad y eficiencia de la generación de imágenes. Combina inteligentemente el acondicionamiento de imágenes y un modelo de transformador de difusión (DiT) previamente entrenado para lograr capacidades de control sin precedentes; incluso se puede lograr fácilmente una integración de sujetos complejos. El editor de Downcodes le brindará una comprensión profunda de la singularidad de OminiControl y los cambios que aporta al campo de la generación de imágenes.
En pocas palabras, siempre que proporcione una imagen del material, puede utilizar OminiControl para integrar el tema de la imagen del material en la imagen generada. Por ejemplo, el editor de Downcodes subió la imagen del material a la izquierda e ingresó la palabra clave "El hombre del chip se coloca al lado de la mesa en el consultorio de un médico, con un estetoscopio colocado sobre la mesa, el efecto generado es relativamente general". como sigue:
El núcleo de OminiControl radica en su "mecanismo de reutilización de parámetros". Este mecanismo permite que el modelo DiT maneje eficazmente las condiciones de la imagen con menos parámetros adicionales. Esto significa que, en comparación con los métodos existentes, OminiControl solo necesita entre un 0,1% y un 0,1% más de parámetros para lograr funciones potentes. Además, es capaz de manejar de manera uniforme múltiples tareas de acondicionamiento de imágenes, como la generación basada en sujetos y la aplicación de condiciones de alineación espacial, como bordes, mapas de profundidad, etc. Esta flexibilidad es particularmente útil para tareas de generación basadas en temas.
El equipo de investigación también enfatizó que OminiControl logra estas capacidades entrenando imágenes generadas, lo cual es particularmente importante para la generación basada en temas. Después de una evaluación exhaustiva, OminiControl supera significativamente a los modelos UNet existentes y a los modelos de adaptación DiT tanto en tareas de generación basada en temas como en tareas de generación condicional alineadas espacialmente. El resultado de esta investigación aporta nuevas posibilidades al campo creativo.
Para respaldar una investigación más amplia, el equipo también publicó un conjunto de datos de entrenamiento llamado Subjects200K, que contiene más de 200.000 imágenes de identidad consistente y proporciona un proceso de síntesis de datos eficiente. Este conjunto de datos proporcionará a los investigadores un recurso valioso para ayudarlos a explorar más a fondo la tarea de generación de consenso sobre el tema.
El lanzamiento de Omini no sólo mejora la eficiencia y el efecto de la generación de imágenes, sino que también brinda más posibilidades para la creación artística.
Experiencia en línea: https://huggingface.co/spaces/Yuanshi/OminiControl
github: https://github.com/Yuanshi9815/OminiControl
Documento: https://arxiv.org/html/2411.15098v2
La aparición de OminiControl marca un salto significativo en la tecnología de generación de imágenes. Su eficiente mecanismo de reutilización de parámetros y sus poderosas capacidades de control han abierto nuevos caminos para la creación artística y la investigación científica. En el futuro, con el desarrollo continuo de la tecnología, creo que OminiControl desempeñará un papel importante en más campos y nos brindará una experiencia de generación de imágenes más sorprendente.