Stability AI發表全新Stable Diffusion 3.5生成模型，三個版本、速度大提升

作者：Eve Cole 更新時間：2024-11-27 20:36:01

Downcodes小编获悉，Stability AI 最新发布了其文本到图像生成模型Stable Diffusion 3.5，包含三个版本：Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo 和 Stable Diffusion 3.5 Medium，旨在满足不同用户的需求，从专业人士到普通爱好者。此次更新是 Stability AI 对此前版本不足的回应，旨在提升竞争力，与 OpenAI 的 DALL-E 和 Midjourney 等平台抗衡。新模型在图像质量、生成速度和易用性方面都有显著提升，并引入了查询-键归一化技术，增强了模型的定制性和对提示的响应能力。

Stability AI近日推出了其最新的深度学习文本到图像生成模型 ——Stable Diffusion3.5。这一版本包括三种改进的开源模型，旨在满足不同用户的需求，包括研究人员、企业客户和爱好者。

其中，Stable Diffusion3.5Large 是整个系列中最强大的模型，参数高达81亿。该模型以其卓越的图像质量和对提示的高度响应能力，成为专业用户的理想选择，能够生成分辨率达到1兆像素的高质量图像。

此外，Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的简化版。它在生成高质量图像的同时，极大地提升了速度，仅需4个步骤便能完成图像生成，相比前一版本更加高效，适合需要快速创作的用户。

另一款新模型是 Stable Diffusion3.5Medium，它具有25亿的参数。该模型采用了改进的 MMDiT-X 架构和训练方法，设计上能够 “开箱即用”，即使在消费级硬件上也能顺畅运行。它在图像生成质量和易于定制之间达成了良好的平衡，可以生成0.25至2兆像素的图像。

这次发布的背景是，在6月发布的 Stable Diffusion3Medium 未能达到预期之后，Stability AI 决定推出一个更具变革性的解决方案。公司表示，他们希望通过这一更新重新赢得市场竞争力，以应对 OpenAI 的 DALL-E 和 Midjourney 等平台的挑战。

新模型的一个重要技术创新是引入了查询 - 键归一化（Query-Key Normalization）技术。这一创新增强了模型的定制性和对提示的响应能力，用户可以通过明确的提示获得更一致的结果，同时在使用更宽泛的提示时也能获得更丰富的图像解释。

Stable Diffusion3.5系列模型将在Stability AI 的社区许可证下发布，允许用户免费进行非商业使用。同时，年收入低于100万美元的实体也可以免费进行商业使用，超过此收入的用户则需申请企业许可证。

所有模型及其自托管所需的权重将在 Hugging Face 和Stability AI 的 API 上提供。此外，预计在未来几天内将推出提供高级图像自定义选项的 ControlNets 功能。

官方入口:

https://stability.ai/stable-image

三个版本Hugging Face入口:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

总而言之，Stable Diffusion 3.5 系列的推出标志着文本到图像生成技术的一次重要进步，为用户提供了更多选择和更强大的功能。 Downcodes小编期待未来更多创新功能的出现。