Stable Diffusion 3来了！Sora同源技术，100%理解提示词

AI每日新闻1年前 (2024)发布 okay

684 0 0

在文生图领域，Midjourney像是玩具，而Stable Diffusion凭借稳定、可控和高效的能力，一直是最接近可用工具的一款文生图模型。

2024年2月22日，stability.ai发布了 Stable Diffusion 3 早期预览版。这款模型暂时还没开放测试，但一些stability.ai的员工已经开始在社交媒体晒图了。

目前展现出的Stable Diffusion 3的表现基本上可以100%的还原提示词，以及一定程度的物理理解能力，Stable Diffusion 3已经完全可以当做日常的作图使用。

根据官方透露，其一，Stable Diffusion 3 模型的参数范围从 800M（小于常用 Stable Diffusion 1.5 版本）到 8B （大于 Stable Diffusion XL 版本）不等。

这一尺寸范围允许模型的不同版本在各个设备譬如从智能手机到服务器上本地运行。要想使用，你可能仍然需要一个强大的 GPU 和一个用于机器学习工作的设置。

其二，Stable Diffusion 3 之所以被称之为“最强大的文本到图像模型”，是因为自 Stable Diffusion 3 使用了类似 OpenAI Sora 的技术，即扩散 Transformer 架构。

其中，“基于 Transformer 的可扩展扩散模型 DiT”由领导 Sora 项目成员之一的 Will Peebles 和纽约大学任助理教授谢赛宁二人于 2022 年首创，但是于 2023 年进行了修订，现在已经达到可扩展性。通过增加 Transformer 的深度和宽度，以及改变输入图像的分块方式，DiT 模型能够生成具有高质量和细节的图像。

基于此，Stable Diffusion 3 大大提高了多主题提示、图像质量和拼写能力（文字渲染）的性能。

除此之外，该模型还采用了“flow matching”技术。该模型可以通过学习如何从随机噪音顺利过渡到结构化图像来生成图像。它不需要模拟流程中的每一步，而是专注于图像创建应遵循的整体方向或流程，同样可以在不增加太多开销的情况下提高质量。

排队链接：https://stability.ai/stablediffusion3