Исследовательская группа из Национального университета Сингапура разработала новую систему генерации изображений под названием OminiControl, которая значительно повышает гибкость и эффективность генерации изображений. Он умело сочетает в себе кондиционирование изображения и предварительно обученную модель диффузионного преобразователя (DiT) для достижения беспрецедентных возможностей управления; даже сложная интеграция объектов может быть легко достигнута. Редактор Downcodes даст вам более глубокое понимание уникальности OminiControl и тех изменений, которые он вносит в область создания изображений.
Проще говоря, если вы предоставили изображение материала, вы можете использовать OminiControl для интеграции темы из изображения материала в созданное изображение. Например, редактор Downcodes загрузил изображение материала слева и ввел слово-подсказку: «Человек-чип расположен рядом со столом в кабинете врача, на столе лежит стетоскоп». Создаваемый эффект является относительно общим. следующее:
Суть OminiControl заключается в «механизме повторного использования параметров». Этот механизм позволяет модели DiT эффективно обрабатывать условия изображения с меньшим количеством дополнительных параметров. Это означает, что по сравнению с существующими методами OminiControl требуется всего на 0,1–0,1% больше параметров для достижения мощных функций. Кроме того, он способен единообразно решать множество задач по обработке изображений, таких как генерация на основе объекта и применение условий пространственного выравнивания, таких как края, карты глубины и т. д. Такая гибкость особенно полезна для задач генерации по темам.
Исследовательская группа также подчеркнула, что OminiControl достигает этих возможностей путем обучения сгенерированных изображений, что особенно важно для создания тематических изображений. После тщательной оценки OminiControl значительно превосходит существующие модели UNet и модели адаптации DiT как в задачах тематической генерации, так и в задачах условной генерации с пространственным выравниванием. Этот результат исследования открывает новые возможности в творческой сфере.
Для поддержки более широких исследований команда также выпустила набор обучающих данных под названием «Subjects200K», который содержит более 200 000 идентичных изображений и обеспечивает эффективный конвейер синтеза данных. Этот набор данных предоставит исследователям ценный ресурс, который поможет им глубже изучить задачу достижения консенсуса по теме.
Запуск Omini не только повышает эффективность и эффект создания изображений, но и предоставляет больше возможностей для художественного творчества.
Онлайн-опыт: https://huggingface.co/spaces/Yuanshi/OminiControl
github: https://github.com/Yuanshi9815/OminiControl
Документ: https://arxiv.org/html/2411.15098v2.
Появление OminiControl знаменует собой значительный скачок в технологии создания изображений. Его эффективный механизм повторного использования параметров и мощные возможности управления открыли новые пути для художественного творчества и научных исследований. Я считаю, что в будущем, благодаря постоянному развитию технологий, OminiControl будет играть важную роль во многих областях и предоставит нам еще более удивительные возможности создания изображений.