Stability AI 宣布推出Stable Diffusion 3.5,這是一個包含三個不同版本的大型文本到圖像生成模型的系列。該系列旨在滿足從研究人員到企業客戶再到愛好者的廣泛需求,通過提供不同參數規模和性能特徵的模型,以適應不同的計算能力和應用場景。此次更新旨在回應此前Stable Diffusion 3.0 的不足,並與市場上其他領先的AI 圖像生成工具競爭。
Stability AI近日推出了其最新的深度學習文本到圖像生成模型——Stable Diffusion3.5。這一版本包括三種改進的開源模型,旨在滿足不同用戶的需求,包括研究人員、企業客戶和愛好者。
其中,Stable Diffusion3.5Large 是整個系列中最強大的模型,參數高達81億。該模型以其卓越的圖像質量和對提示的高度響應能力,成為專業用戶的理想選擇,能夠生成分辨率達到1兆像素的高質量圖像。
此外,Stable Diffusion3.5Large Turbo 是Stable Diffusion3.5Large 的簡化版。它在生成高質量圖像的同時,極大地提升了速度,僅需4個步驟便能完成圖像生成,相比前一版本更加高效,適合需要快速創作的用戶。
另一款新模型是Stable Diffusion3.5Medium,它具有25億的參數。該模型採用了改進的MMDiT-X 架構和訓練方法,設計上能夠“開箱即用”,即使在消費級硬件上也能順暢運行。它在圖像生成質量和易於定制之間達成了良好的平衡,可以生成0.25至2兆像素的圖像。
這次發布的背景是,在6月發布的Stable Diffusion3Medium 未能達到預期之後,Stability AI 決定推出一個更具變革性的解決方案。公司表示,他們希望通過這一更新重新贏得市場競爭力,以應對OpenAI 的DALL-E 和Midjourney 等平台的挑戰。
新模型的一個重要技術創新是引入了查詢- 鍵歸一化(Query-Key Normalization)技術。這一創新增強了模型的定制性和對提示的響應能力,用戶可以通過明確的提示獲得更一致的結果,同時在使用更寬泛的提示時也能獲得更豐富的圖像解釋。
Stable Diffusion3.5系列模型將在Stability AI 的社區許可證下發布,允許用戶免費進行非商業使用。同時,年收入低於100萬美元的實體也可以免費進行商業使用,超過此收入的用戶則需申請企業許可證。
所有模型及其自託管所需的權重將在Hugging Face 和Stability AI 的API 上提供。此外,預計在未來幾天內將推出提供高級圖像自定義選項的ControlNets 功能。
官方入口:
https://stability.ai/stable-image
三個版本Hugging Face入口:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
劃重點:
新推出的Stable Diffusion3.5提供三種模型版本,適應不同用戶需求。
Stable Diffusion3.5Large Turbo 具備更快的圖像生成速度,適合快速創作。
新模型引入查詢- 鍵歸一化技術,提高了定制性和響應能力。
總而言之,Stable Diffusion 3.5 系列模型的推出,標誌著Stability AI 在文本到圖像生成領域的一次重大升級,其多版本策略和技術創新有望進一步提升用戶體驗,並在激烈的市場競爭中佔據一席之地。 訪問提供的鏈接,體驗全新的圖像生成技術吧!