Downcodes小编获悉,Stability AI 最新发布了其文本到图像生成模型Stable Diffusion 3.5,包含三个版本:Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo 和 Stable Diffusion 3.5 Medium,旨在满足不同用户的需求,从专业人士到普通爱好者。此次更新是 Stability AI 对此前版本不足的回应,旨在提升竞争力,与 OpenAI 的 DALL-E 和 Midjourney 等平台抗衡。新模型在图像质量、生成速度和易用性方面都有显著提升,并引入了查询-键归一化技术,增强了模型的定制性和对提示的响应能力。
Stability AI近日推出了其最新的深度学习文本到图像生成模型 ——Stable Diffusion3.5。这一版本包括三种改进的开源模型,旨在满足不同用户的需求,包括研究人员、企业客户和爱好者。
其中,Stable Diffusion3.5Large 是整个系列中最强大的模型,参数高达81亿。该模型以其卓越的图像质量和对提示的高度响应能力,成为专业用户的理想选择,能够生成分辨率达到1兆像素的高质量图像。
此外,Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的简化版。它在生成高质量图像的同时,极大地提升了速度,仅需4个步骤便能完成图像生成,相比前一版本更加高效,适合需要快速创作的用户。
另一款新模型是 Stable Diffusion3.5Medium,它具有25亿的参数。该模型采用了改进的 MMDiT-X 架构和训练方法,设计上能够 “开箱即用”,即使在消费级硬件上也能顺畅运行。它在图像生成质量和易于定制之间达成了良好的平衡,可以生成0.25至2兆像素的图像。
这次发布的背景是,在6月发布的 Stable Diffusion3Medium 未能达到预期之后,Stability AI 决定推出一个更具变革性的解决方案。公司表示,他们希望通过这一更新重新赢得市场竞争力,以应对 OpenAI 的 DALL-E 和 Midjourney 等平台的挑战。
新模型的一个重要技术创新是引入了查询 - 键归一化(Query-Key Normalization)技术。这一创新增强了模型的定制性和对提示的响应能力,用户可以通过明确的提示获得更一致的结果,同时在使用更宽泛的提示时也能获得更丰富的图像解释。
Stable Diffusion3.5系列模型将在Stability AI 的社区许可证下发布,允许用户免费进行非商业使用。同时,年收入低于100万美元的实体也可以免费进行商业使用,超过此收入的用户则需申请企业许可证。
所有模型及其自托管所需的权重将在 Hugging Face 和Stability AI 的 API 上提供。此外,预计在未来几天内将推出提供高级图像自定义选项的 ControlNets 功能。
官方入口:
https://stability.ai/stable-image
三个版本Hugging Face入口:
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
总而言之,Stable Diffusion 3.5 系列的推出标志着文本到图像生成技术的一次重要进步,为用户提供了更多选择和更强大的功能。 Downcodes小编期待未来更多创新功能的出现。