新加坡国立大学的研究团队开发了一种名为OminiControl的全新图像生成框架,该框架显著提升了图像生成的灵活性和效率。它巧妙地结合了图像条件和预训练的扩散变换器模型(DiT),实现了前所未有的控制能力,即使是复杂的主题融入也能够轻松实现。Downcodes小编将带你深入了解OminiControl的独特之处以及它为图像生成领域带来的变革。
简单的说,只要提供素材图,利用OminiControl就能将素材图中的主题融入到生成的图片中。比如Downcodes小编上传了左边的素材图,输入提示词“芯片人放置在一个医生办公室的桌子旁边,桌子上放着听诊器”,生成效果比较一般,如下:
OminiControl 的核心在于其 “参数重用机制”。这种机制使得 DiT 模型能够以更少的额外参数有效地处理图像条件。这意味着,相较于现有的方法,OminiControl 仅需增加0.1% 到0.1% 的参数就能实现强大的功能。此外,它能够统一处理多种图像条件任务,比如基于主题的生成和空间对齐条件的应用,比如边缘、深度图等。这种灵活性特别适用于主题驱动的生成任务。
研究团队还特别强调,OminiControl 是通过训练生成的图像来实现这些能力的,这对于主题驱动的生成尤为重要。经过广泛的评估,OminiControl 在主题驱动生成和空间对齐条件生成的任务中,都显著超过了现有的 UNet 模型和 DiT 适应模型。这一研究成果为创作领域带来了新的可能性。
为了支持更广泛的研究,团队还发布了一个名为 Subjects200K 的训练数据集,包含了超过20万张身份一致的图像,并提供了高效的数据合成管道。这个数据集将为研究人员提供宝的资源,帮助他们进一步探索主题一致生成任务。
Omini 的推出不仅提升了图像生成的效率与效果,也为艺术创作提供了更多可能性。
在线体验:https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
论文:https://arxiv.org/html/2411.15098v2
OminiControl的出现标志着图像生成技术的一次显著飞跃,其高效的参数重用机制和强大的控制能力为艺术创作和科学研究开辟了新的道路。 未来,随着技术的不断发展,相信OminiControl将会在更多领域发挥重要作用,为我们带来更加惊艳的图像生成体验。