吊打ControlNe？全能型影像生成模型OmniGen問世，簡單提示實現影像生成與精細編輯

作者：Eve Cole 更新時間：2024-12-03 19:00:02

北京人工智慧學院的研究團隊發布了全新圖像生成模型OmniGen，它打破了傳統圖像生成工具的單一功能限制。不同於Stable Diffusion等模型，OmniGen在一個統一框架下整合了文本到圖像生成和圖像編輯等多種功能，堪稱「全能型選手」。 Downcodes小編將為您詳細解讀OmniGen的強大之處及其應用前景。

近日，北京人工智慧學院的研究團隊推出了一款名為OmniGen 的全新影像生成模型。

全能型圖片生成編輯選手

與以往的影像產生工具如Stable Diffusion ，OmniGen 最大的亮點是，它不再只是專注於單一任務，它具備了多種能力:

能在一個統一的框架下處理多種圖像生成任務能:包括從文本到圖像生成、圖像編輯，可以說是個全能選手。

這意味著，使用者只需提供簡單提示詞，就能控製圖像生成與精細編輯，而不再需要再使用ControlNet、IP-Adapter 這樣的插件對圖片進行細節調整!

這裡AIbase基於給出一個詳細老式相機創意拍照的效果提示詞，整體生成的效果細節感，滿滿，效果如下：

在多項測試中，OmniGen 的表現讓人驚艷，其在文字到圖像生成方面，它與市面上最先進的模型表現相當。在GenEval 基準測試中， OmniGen 僅使用了0.1億張影像進行訓練，而SD3使用了超過10億張影像。

影像編輯能力也同樣優秀，能夠精準把控源影像和編輯指令。例如在EMU-Edit 測試集上，超越了InstructPix2Pix 等知名模型，甚至與目前最先進的EMU-Edit 模型相當。

而在主體驅動生成的任務中，OmniGen 更是展現了超凡的個人化能力，適合藝術創作和廣告設計等多個領域。

試玩網址:https://huggingface.co/spaces/Shitao/OmniGen

論文:https://arxiv.org/html/2409.11340v1

OmniGen憑藉其強大的功能和高效的性能，為影像生成領域帶來了新的突破。其簡潔易用的操作方式，也降低了影像產生的門檻，為更多用戶提供了便利的創作工具。期待OmniGen在未來能有更廣泛的應用，推動人工智慧影像生成技術的進一步發展。