Un equipo de investigación de la Universidad Nacional de Singapur ha desarrollado un nuevo marco de generación de imágenes llamado OminiControl, que mejora significativamente la flexibilidad y eficiencia de la generación de imágenes mediante un ingenioso mecanismo de reutilización de parámetros. OminiControl utiliza el modelo de transformador de difusión (DiT) previamente entrenado, combinado con condiciones de imagen, para lograr poderosas capacidades de integración de temas y alineación espacial. Incluso con solo unos pocos parámetros adicionales, puede lograr resultados sorprendentes. Es capaz de manejar una variedad de tareas de acondicionamiento de imágenes, como la generación basada en sujetos y la alineación espacial utilizando información como bordes, mapas de profundidad, etc., lo que muestra grandes ventajas en las tareas de generación de imágenes basadas en sujetos.
En la era digital actual, la tecnología de generación de imágenes avanza a un ritmo asombroso. Recientemente, un equipo de investigación de la Universidad Nacional de Singapur propuso un nuevo marco, OminiControl, con el objetivo de mejorar la flexibilidad y eficiencia de la generación de imágenes. Este marco ofrece capacidades de control sin precedentes al combinar condiciones de imagen y hacer un uso completo del modelo de transformador de difusión (DiT) ya entrenado.
En pocas palabras, siempre que proporcione una imagen del material, puede utilizar OminiControl para integrar el tema de la imagen del material en la imagen generada. Por ejemplo, el editor cargó la imagen del material a la izquierda e ingresó la palabra clave "El hombre del chip se coloca al lado de la mesa en el consultorio de un médico, con un estetoscopio colocado sobre la mesa, el efecto generado es relativamente general, como se muestra a continuación". :
El núcleo de OminiControl radica en su "mecanismo de reutilización de parámetros". Este mecanismo permite que el modelo DiT maneje eficazmente las condiciones de la imagen con menos parámetros adicionales. Esto significa que, en comparación con los métodos existentes, OminiControl sólo necesita entre un 0,1% y un 0,1% más de parámetros para lograr funciones potentes. Además, es capaz de manejar de manera uniforme múltiples tareas de acondicionamiento de imágenes, como la generación basada en sujetos y la aplicación de condiciones de alineación espacial, como bordes, mapas de profundidad, etc. Esta flexibilidad es particularmente útil para tareas de generación basadas en temas.
El equipo de investigación también enfatizó que OminiControl logra estas capacidades entrenando imágenes generadas, lo cual es particularmente importante para la generación basada en temas. Después de una evaluación exhaustiva, OminiControl supera significativamente a los modelos UNet existentes y a los modelos de adaptación DiT tanto en tareas de generación basada en temas como en tareas de generación condicional alineadas espacialmente. El resultado de esta investigación aporta nuevas posibilidades al campo creativo.
Para respaldar una investigación más amplia, el equipo también publicó un conjunto de datos de entrenamiento llamado Subjects200K, que contiene más de 200.000 imágenes de identidad consistente y proporciona un proceso de síntesis de datos eficiente. Este conjunto de datos proporcionará a los investigadores un recurso valioso para ayudarlos a explorar más a fondo la tarea de generación de consenso sobre el tema.
El lanzamiento de Omini no sólo mejora la eficiencia y el efecto de la generación de imágenes, sino que también brinda más posibilidades para la creación artística. A medida que la tecnología siga avanzando, la generación de imágenes en el futuro será más inteligente y personalizada.
Experiencia en línea: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
Documento: https://arxiv.org/html/2411.15098v2
Destacar:
OminiControl utiliza un mecanismo de reutilización de parámetros para hacer que el control de generación de imágenes sea más potente y eficiente.
El marco puede manejar múltiples tareas de condición de imagen al mismo tiempo, como bordes, mapas de profundidad, etc., para adaptarse a diferentes necesidades creativas.
El equipo publicó Subjects200K, un conjunto de datos de más de 200.000 imágenes, para facilitar una mayor investigación y exploración.
La aparición de OminiControl marca un nuevo hito en la tecnología de generación de imágenes. Su eficiente mecanismo de reutilización de parámetros y sus poderosas capacidades multitarea brindan a los artistas e investigadores herramientas poderosas y también presagian el potencial ilimitado de la futura tecnología de generación de imágenes. No dude en visitar el enlace proporcionado para conocer más detalles y experimentar OminiControl.