北京人工智能学院的研究团队发布了全新图像生成模型OmniGen,它打破了传统图像生成工具的单一功能局限。不同于Stable Diffusion等模型,OmniGen在一个统一框架下整合了文本到图像生成和图像编辑等多种功能,堪称“全能型选手”。Downcodes小编将为您详细解读OmniGen的强大之处及其应用前景。
近日,北京人工智能学院的研究团队推出了一款名为 OmniGen 的全新图像生成模型。
全能型图片生成编辑选手
与以往的图像生成工具如 Stable Diffusion ,OmniGen 最大的亮点是,它不再只是专注于单一任务,它具备了多种能力:
能在一个统一的框架下处理多种图像生成任务能:包括从文本到图像生成、图像编辑,可以说是个全能选手。
这意味着,用户只需提供简单提示词,就能控制图像生成与精细编辑,而不再需要再使用 ControlNet、IP-Adapter 这样的插件对图片进行细节调整!
这里AIbase基于给出一个详细老式相机创意拍照的效果提示词,整体生成的效果细节感,满满,效果如下:
在多项测试中,OmniGen 的表现让人惊艳,其在文本到图像生成方面,它与市面上最先进的模型表现相当。在 GenEval 基准测试中, OmniGen 仅使用了0.1亿张图像进行训练,而 SD3使用了超过10亿张图像。
图像编辑能力也同样优秀,能够精准把控源图像和编辑指令。比如在 EMU-Edit 测试集上,超越了 InstructPix2Pix 等知名模型,甚至与当前最先进的 EMU-Edit 模型相当。
而在主体驱动生成的任务中,OmniGen 更是展示出了超凡的个性化能力,适合艺术创作和广告设计等多个领域。
试玩地址:https://huggingface.co/spaces/Shitao/OmniGen
论文:https://arxiv.org/html/2409.11340v1
OmniGen凭借其强大的功能和高效的性能,为图像生成领域带来了新的突破。其简洁易用的操作方式,也降低了图像生成的门槛,为更多用户提供了便捷的创作工具。期待OmniGen在未来能够有更广泛的应用,推动人工智能图像生成技术的进一步发展。