大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘

2024-12-19 简体 HK SG TW

今天小编分享的科学经验:更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘,欢迎阅读。

具备原生中文理解能力,还兼容 Stable Diffusion 生态。

最新模型结构Bridge Diffusion Model来了。

与 Dreambooth 模型结合,它生成的穿中式婚礼礼服的歪国明星长这样。

它由 360 人工智能研究院提出,最近刚被 AAAI 接收,并已开源。

类似 ControlNet 的分支网络思路

文生图模型的中文原生问题,一直是一个重点研究问题。

受算力和数据因素的限制,国内大量的中文 AI 绘画产品背后,实际上很多是以开源的英文模型及其微调模型为能力基座,但是,英文模型包括且不限于 SD1.4/1.5/2.1/3.5 以及 DALLE、Midjourney、Flux 等,因为这些模型的训练数据以英文数据为主,因此在生成影像时,主体形象包括人物、物品、建筑、车辆、服饰、标志等,都存在非常普遍和明显的英文世界观偏见。

BDM 是我们在多模态生成方向比较早期的工作,关注两个关键问题:

1)原生中文及生成模型的世界观偏见

2)与 SD 生态的兼容性

冷大炜博士对 BDM 工作的主要着眼点做了如上的精炼概括。

" 原生中文 " 问题指的不仅仅是文生图模型支持中文输入,更核心的是要求模型生成的人、物形象应该符合中文文化的认知。

下图是 AI 绘画模型的世界观偏见实例,从左到右分别是 SDXL,Midjourney,国内友商 B*,国内友商 V*:

中文 AI 绘画模型,从实现的路线选择上,从易到难大致有以下几种方式:

英文模型 + 翻译。

简单直接,除了翻译外几无成本。这种方式只能解决表面上的中文输入问题,并不能解决英文模型因为模型偏见而无法生成符合中文文化认知形象的问题。

英文模型 + 隐式翻译。

与显式调用翻译服务不同,这种方式是将英文模型的 text encoder 替换为中文 text encoder,并利用中英文平行语料对中文 text encoder 进行训练,使其输出的 embedding 空间与原来的英文 text encoder 对齐。本质上属于一种隐式翻译,也是成本非常低的一种方案,同样无法解决模型的世界观偏见问题。

英文模型 + 隐式翻译 + 微调。

在上面方法基础上,将对齐了 text encoder 的模型使用中文图文数据进一步整体微调以提升模型对中文形象的输出能力。可以在一定程度上缓解英文基底模型带来的模型偏见问题。

中文数据从头训练。

这是最彻底的一种中文化方案:理解中文输入,并能给出符合中文文化认知的影像输出结果,可以完美解决模型的世界观偏见问题。

上述四种路线,第 4 种路线看上去非常完美,但仍有一点值得额外的研发努力:在基座模型之外,我们需要进一步考虑的是大模型时代的模型生态问题。

围绕着以 SD 为代表的开源模型,已形成了非常庞大的开源社区生态,这个生态中大量衍生风格模型、插件模型等积累了非常宝贵的群体智力资产。

在克服 AI 绘画模型世界观偏见的基础上,进一步实现对开源社区的兼容,就是我们的 BDM 工作所要解决的第二个关键问题。

BDM 从模型结构上是一种类似 ControlNet 的分支网络思路,以不同的网络分支学习不同语言的数据,因此从原理上 BDM 不仅可以实现原生中文影像生成,也可以实现任意 X 语言的影像生成,并保证生成的影像符合对应语言文化的认知。

英文部分可以直接复用已有的开源模型,从而实现与开源社区的无缝兼容。注意 BDM 在使用时只需要输入一种语言,比如输入中文时,英文分支是以空文本作为输入的。

BDM v1 版本使用 10 亿量级的中文图文数据进行训练,并兼容 SD1.5 社区生态。

下图展示了 BDM 在生成中文特有概念的能力和翻译无法应对的中英多义情况下的生成效果:

下图则展示了 BDM 在 SD1.5 社区生态兼容性上的情况,可以看到 BDM 对不同的 SD1.5 风格微调模型具有很好的兼容性,特别是 BDM 同时保持了中文形象的输出能力,更多案例请详见 AAAI 论文。

关于 360 人工智能研究院

在 360 集团 All in AI 的大背景下,360 人工智能研究院发挥自身的智力优势,承担多模态理解和多模态生成大模型(俗称图生文和文生图)的战略研发任务,并在两个方向上持续发力,陆续研发了 360VL 多模态大模型,BDM 文生图模型,可控布局 HiCo 模型,以及新一代 DiT 架构 Qihoo-T2X 等一系列工作。

近日,研究院在多模态理解方向的工作 IAA 和在多模态生成方向的工作 BDM 分别被 AI 领網域的 top 会议 AAAI 接收,这两项工作的研发负责人为冷大炜博士。

据悉本届 AAAI 2025 会议收到近 1.3 万份投稿,接收 3032 份工作,接收率仅为 23.4%。

Arxiv:   https://arxiv.org/abs/2309.00952

Github:   https://github.com/360CVGroup/Bridge_Diffusion_Model

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們