大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​

2025-04-10 简体 HK SG TW

今天小编分享的科学经验:字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​,欢迎阅读。

利用字节团队魔改的 FLUX 模型,可以直接把多个参考主体放进一张图了。

字节团队以 FLUX 为基础模型,提出了新的生图模型 UNO,统一了影像生成任务中不同输入条件的处理。

无论是单主体进行风格变换,还是不同物体的融合,UNO 都能直接搞定。

字节团队认为,UNO 主要解决的是参考驱动的影像生成中的两个主要挑战——数据可扩展性和主体可扩展性。

传统方法在从单主体数据集扩展到多主体数据集时面临困难,且大多数方法仅关注单主体生成,难以应用于多主体场景。

为了解决这一问题,团队提出了 " 模型 - 数据共同进化 " 的新范式,能够在增强模型能力的同时,不断丰富可用的训练数据。

多主体参考生图测试中,UNO 的 DINO 和 CLIP 得分均达到了 SOTA 水平。

网友评价说,UNO 看上去是一个巨大的飞跃,如果真的能搞定多主体参考,将会大幅激发定制化 AI 智能体的潜力。

另外,团队还在 HuggingFace 上提供了在线试玩,但前提是拥有 HF 的 GPU 额度。

一个模型搞定单 / 多主体参考

如开头所述,UNO 将单纯的文生图,以及单 / 多主体参考这些不同的任务都整合到了一个模型当中。

具体来说,除了直接的文生图之外,它可以把多张参考图当中的物体进行组合。

当然三个物体也照样能很好地组合,官方提供的在线 Demo 当中最多可以上传四张参考图。

也可以对参考主体中的人物特征进行保持,生成不同场景的人物影像。

同时对于人物而言,也可以在保留基本特征的条件下进行风格转换,包括被 GPT-4o 带火的吉卜力风也能拿捏。

应用场景方面,官方给出了虚拟试穿和产品设计这两组示例。

对于 UNO 的单主体生成能力,团队使用了 DreamBench 进行了测试,使用了三个主要指标——

DINO 分数、CLIP-I 分数(这两个用于评估主体相似度)和 CLIP-T 分数(用于评估文本忠实度)。

多主体生成测试则采用了一个特别设计的测试集——从 DreamBench 中选取了 30 种不同的双主体组合,包括非生物体和生物体的组合。

最终,UNO 的测试成绩无论在单主体还是多主体任务中都处于领先水平。

研究团队还进行了用户研究,邀请了 30 位评估者(包括领網域专家和非专家)对 300 个影像组合进行评估。

结果,UNO 在所有评估维度上都获得了较高评分,特别是在主体相似度和文本忠实度方面的表现最为突出。

此外,团队还展示了 UNO 和一些 SOTA 级模型的效果对比,可以直观感受一下区别。

模型 - 数据共同进化

UNO 采用了这一种 " 模型 - 数据共同进化 " 的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。

在模型架构方面,UNO 以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。

具体来说,该框架采用渐进式跨模态对齐策略,将训练过程分为两个连续阶段——

首先使用单主体数据对预训练的文生图(T2I)模型进行微调,使其获得基本的主体到影像转换(S2I)能力;

随后引入多主体数据继续训练,增强模型处理复杂场景的能力。

此外研究团队提出了通用旋转位置嵌入(UnoPE)技术,通过为文本和影像标记分配特定的位置索引,来调控多模态标记之间的互動。

UnoPE 采用从噪声影像标记最大维度开始的对角线位置编码方式,并通过调整位置索引范围来防止生成影像过度依赖参考影像的空间结构,有效缓解了在扩展视觉主体控制时容易出现的属性混淆问题。

数据方面,团队利用 Diffusion Transformer 固有的上下文生成能力构建了数据合成框架。

团队首先构建了一个包含 365 个顶层类别的分类树,这些类别来自 Object365 数据集。

在每个类别下,还包含了更细粒度的分类,涵盖年龄、职业和着装风格等维度。

然后利用大模型在每个类别中生成丰富多样的主体和场景描述,这些输出与预定义的文本模板结合,可以为文生图模型生成数百万个文本提示。

最终,研究团队设计了一个渐进式的合成管道,从单主体生成开始,逐步过渡到多主体上下文生成。

来自字节智能创作团队

论文显示,UNO 的作者字节智能创作团队。

据介绍,该团队是字节的 AI& 多媒体技术中台,研究方向包括计算机视觉、音视频编辑、特效处理等技术。

之前字节提出的用于提升影像生成模型 " 美感 " 的 VMix,也是来自智能创作团队,并且作者与这次的 UNO 基本相同。

本次 UNO 的项目负责人是 Fei Ding,是 Vmix 的通讯作者,之前还参与过 Realcustom++、Dreamtuner 等项目的工作。

UNO 的第一作者 Shaojin Wu、通讯作者黄梦琪,之前也都参与过 Vmix。

黄梦琪目前是中科大博士在读,2023 年起至今一直在字节实习,预计今年毕业,导师是毛震东教授。

另外,字节招聘网站显示,智能创作团队目前正在招聘 AIGC 技术专家、多模态算法专家等岗位。

论文地址:

https://arxiv.org/abs/2504.02160

项目主页:

https://bytedance.github.io/UNO/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

不到一周!中国 AIGC 产业峰会观众正在火热报名中  ‍♀️

全部嘉宾已就位   百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领網域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~

4 月 16 日周三,就在北京,一起来深度求索 AI 怎么用  

一键星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們