今天小编分享的互联网经验:Stable Diffusion 3 API发布,号称性能碾压碾压Midjourney DALL·E,普通用户免费用,欢迎阅读。
文|李然
编辑|苏建勋
虽然总裁辞职了,核心团队跳槽了,但是 Stability AI 仍然在发货。
图源:X
昨天夜里,Stability AI 正式发布了 Stable Diffusion 3 API,在 SD3 的技术报告公布几个月之后,用户终于可以上手试用了。
但可惜的是,完全开源的 SD3 模型依然还在路上,不过他们承诺,对于普通用户,SD3 模型不会收费。
现在,用户可以通过 Fireworks AI 访问 SD3 的 API。
根据 SD3 技术报告,SD3 相比 DALL · E 3 和 Midjourney,能够更好地遵循用户提示。
来源:官网
SD 3 新的多模态扩散变压器 ( MMDiT ) 架构对影像和语言表示使用单独的权重集,与之前版本的稳定扩散相比,它提高了文本理解和拼写能力。
可以看到,用户可以非常精准地控制需要出现在图片中地文字内容。
新模型生成的逼真图片,足以以假乱真。
Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train. 图源:X
对于完全虚构的图片也能做到美学和细节真实度的统一。
Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo. 图源:X
调用 API,网友用 SD 和 ChatGPT 做了一个小游戏。
在他看来,SD3 能比 DALL · E 有更好的风格一致性,对于生成一个系统工程中的美术素材表现得更好。
网友也分享更多用 SD3 生成的作品。
可以看到,如果对于图片内容中的文字有明确要求,SD3 是为数不多能满足要求的模型。
机器人的手似乎也没有瑕疵了。
人物面部的细节非常真实。
狮头机器人。
机械风的中国龙造型也是细节满满,惟妙惟肖。
很多调用 SD3 API 的 APP 也在 Stability AI 官推下面,用 SD3 生成的图片给自己的 API 打起了广告。
模型核心构架
SD3 的核心技术在于 StabilityAI 开发的 MMDiT 技术。
模型使用三种不同的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码影像 token。
而这个构架的核心,采用的是和 Sora 一样的 DiT 技术。
由于文本和影像嵌入在概念上完全不同,因此他们对这两种模式使用两组独立的权重。如上图所示,这相当于每种模态都有两个独立的转换器,但是将两种模态的序列连接起来进行注意力操作,这样两种表征都可以在自己的空间中工作,同时考虑另一种表征。
在这样的特殊安排之下,MMDiT 的性能超越了传统的 UViT 或者 DiT 本身。
通过使用这种方法,信息可以在影像和文本标记之间流动,以提高生成的输出中的整体理解和排版。这种架构还可以轻松扩展到视频等多种模式。
得益于 SD3 改进的提示跟随功能,模型能够创建专注于各种不同主题和质量的影像,同时对影像本身的风格保持高度灵活性。