英偉達最新開源的圖像生成模型Sana,以其小巧的身軀和強大的性能,在AI圖像生成領域掀起了一股浪潮。 Sana僅擁有0.6億個參數,卻能生成高達4096×4096像素的高清圖像,並在16GB顯卡上實現亞秒級生成速度。這得益於其創新的深度壓縮自編碼器和線性擴散變換器,以及對文本編碼和推理策略的優化。其性能在同類模型中表現突出,甚至與參數量更大的模型相比也毫不遜色。
近日,英偉達開源了一款名為Sana 的圖像生成模型,這一模型僅有0.6億個參數,極大降低了運行門檻。
據了解,Sana 能夠生成4096×4096分辨率的圖像,並且可以在16GB 的顯卡上運行,不到1秒的時間內生成1024×1024分辨率的高質量圖片,這一速度在同類模型中表現突出。
研究團隊引入了一種深度壓縮自編碼器(DC-AE),相比於傳統的自編碼器,Sana 的壓縮比高達32倍,大大減少了潛在標記的數量,這對於生成超高分辨率圖像至關重要。其次,Sana 採用了線性擴散變換器(DiT),用線性注意力取代了傳統的二次注意力,從而將復雜度降低到O (N),並通過3×3深度卷積提升了局部信息的捕捉能力。這樣的設計使得Sana 在生成4K 圖像時延遲提高了1.7倍。
在文本編碼方面,Sana 選擇了小型的解碼器專用大語言模型Gemma,取代了傳統的T5模型。 Gemma 在理解和執行複雜指令方面表現更為出色,增強了圖像與文本之間的對齊能力。此外,Sana 還優化了訓練和推理策略,通過自動標記和選擇高CLIP 評分的描述,提升了文本與圖像的一致性。新提出的Flow-DPM-Solver 算法將推理步驟減少到了14-20步,顯著提高了性能。
綜合性能方面,Sana 在多個先進的文本到圖像擴散模型中表現優異。在512×512分辨率下,Sana-0.6的吞吐量是PixArt-Σ 的5倍,並且在圖像生成質量方面表現出色。而在1024×1024分辨率下,Sana-0.6B 在小於3億參數的模型中也有著顯著的優勢。
Sana-0.6B 不僅性能強勁,還可以在16GB 的筆記本GPU 上快速生成圖像,助力內容創作者高效地實現創作目標。據稱,Sana0.6B性能上和Flux-12B也具備競爭力,參數量只有其1/20,速度卻是整整快100倍。
有趣的是,Sana提示詞支持英文、中文和emoji。用戶可以輸入中文詩句,生成與之相關的藝術圖像。此外,Sana 還具有一定的安全性,當用戶輸入不當詞彙時,系統會自動用紅心圖案替代,從而避免不適內容的生成。
比如AIbase輸入提示詞“一隻貓咪在草地玩耍,星星”,生成速度很快,效果也特備不錯。
又比如給出提示詞“一隻可愛的在吃, 水墨畫風格”,可以看到模型能精準識別emoji。
值得一提的是,Sana 已獲得官方對ComfyUI 的支持,並配備了Lora 訓練工具。這使得用戶在使用過程中更加便捷,實用性也大幅提升,感興趣的朋友可以自己試試。
項目入口:https://nv-sana.mit.edu/
劃重點:
** 高效生成**:Sana 能夠快速生成高達4096×4096分辨率的高質量圖像,適合在普通筆記本GPU 上使用。
** 創新設計**:深度壓縮自編碼器和線性擴散變換器大幅提升了生成速度和質量。
** 卓越性能**:Sana 在多項測試中表現優異,吞吐量顯著高於其他先進模型,支持快速內容創作。
總而言之,Sana憑藉其高效的生成速度、高質量的圖像輸出以及便捷的使用方式,為用戶帶來了全新的AI圖像生成體驗,值得期待其未來發展。