今天小编分享的科学经验:更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘,欢迎阅读。
具备原生中文理解能力,还兼容 Stable Diffusion 生态。
最新模型结构Bridge Diffusion Model来了。
与 Dreambooth 模型结合,它生成的穿中式婚礼礼服的歪国明星长这样。
它由 360 人工智能研究院提出,最近刚被 AAAI 接收,并已开源。
类似 ControlNet 的分支网络思路
文生图模型的中文原生问题,一直是一个重点研究问题。
受算力和数据因素的限制,国内大量的中文 AI 绘画产品背后,实际上很多是以开源的英文模型及其微调模型为能力基座,但是,英文模型包括且不限于 SD1.4/1.5/2.1/3.5 以及 DALLE、Midjourney、Flux 等,因为这些模型的训练数据以英文数据为主,因此在生成影像时,主体形象包括人物、物品、建筑、车辆、服饰、标志等,都存在非常普遍和明显的英文世界观偏见。
BDM 是我们在多模态生成方向比较早期的工作,关注两个关键问题:
1)原生中文及生成模型的世界观偏见
2)与 SD 生态的兼容性
冷大炜博士对 BDM 工作的主要着眼点做了如上的精炼概括。
" 原生中文 " 问题指的不仅仅是文生图模型支持中文输入,更核心的是要求模型生成的人、物形象应该符合中文文化的认知。
下图是 AI 绘画模型的世界观偏见实例,从左到右分别是 SDXL,Midjourney,国内友商 B*,国内友商 V*:
中文 AI 绘画模型,从实现的路线选择上,从易到难大致有以下几种方式:
英文模型 + 翻译。
简单直接,除了翻译外几无成本。这种方式只能解决表面上的中文输入问题,并不能解决英文模型因为模型偏见而无法生成符合中文文化认知形象的问题。
英文模型 + 隐式翻译。
与显式调用翻译服务不同,这种方式是将英文模型的 text encoder 替换为中文 text encoder,并利用中英文平行语料对中文 text encoder 进行训练,使其输出的 embedding 空间与原来的英文 text encoder 对齐。本质上属于一种隐式翻译,也是成本非常低的一种方案,同样无法解决模型的世界观偏见问题。
英文模型 + 隐式翻译 + 微调。
在上面方法基础上,将对齐了 text encoder 的模型使用中文图文数据进一步整体微调以提升模型对中文形象的输出能力。可以在一定程度上缓解英文基底模型带来的模型偏见问题。
中文数据从头训练。
这是最彻底的一种中文化方案:理解中文输入,并能给出符合中文文化认知的影像输出结果,可以完美解决模型的世界观偏见问题。
上述四种路线,第 4 种路线看上去非常完美,但仍有一点值得额外的研发努力:在基座模型之外,我们需要进一步考虑的是大模型时代的模型生态问题。
围绕着以 SD 为代表的开源模型,已形成了非常庞大的开源社区生态,这个生态中大量衍生风格模型、插件模型等积累了非常宝贵的群体智力资产。
在克服 AI 绘画模型世界观偏见的基础上,进一步实现对开源社区的兼容,就是我们的 BDM 工作所要解决的第二个关键问题。
BDM 从模型结构上是一种类似 ControlNet 的分支网络思路,以不同的网络分支学习不同语言的数据,因此从原理上 BDM 不仅可以实现原生中文影像生成,也可以实现任意 X 语言的影像生成,并保证生成的影像符合对应语言文化的认知。
英文部分可以直接复用已有的开源模型,从而实现与开源社区的无缝兼容。注意 BDM 在使用时只需要输入一种语言,比如输入中文时,英文分支是以空文本作为输入的。
BDM v1 版本使用 10 亿量级的中文图文数据进行训练,并兼容 SD1.5 社区生态。
下图展示了 BDM 在生成中文特有概念的能力和翻译无法应对的中英多义情况下的生成效果:
下图则展示了 BDM 在 SD1.5 社区生态兼容性上的情况,可以看到 BDM 对不同的 SD1.5 风格微调模型具有很好的兼容性,特别是 BDM 同时保持了中文形象的输出能力,更多案例请详见 AAAI 论文。
关于 360 人工智能研究院
在 360 集团 All in AI 的大背景下,360 人工智能研究院发挥自身的智力优势,承担多模态理解和多模态生成大模型(俗称图生文和文生图)的战略研发任务,并在两个方向上持续发力,陆续研发了 360VL 多模态大模型,BDM 文生图模型,可控布局 HiCo 模型,以及新一代 DiT 架构 Qihoo-T2X 等一系列工作。
近日,研究院在多模态理解方向的工作 IAA 和在多模态生成方向的工作 BDM 分别被 AI 领網域的 top 会议 AAAI 接收,这两项工作的研发负责人为冷大炜博士。
据悉本届 AAAI 2025 会议收到近 1.3 万份投稿,接收 3032 份工作,接收率仅为 23.4%。
Arxiv: https://arxiv.org/abs/2309.00952
Github: https://github.com/360CVGroup/Bridge_Diffusion_Model
— 完 —
投稿请发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>