大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与影像生成!

2025-04-25 简体 HK SG TW

今天小编分享的科学经验:UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与影像生成!,欢迎阅读。

首次在统一框架内实现理解与生成的 " 双优表现 ",打破了多模态统一建模的僵局!

复旦大学和美团的研究者们提出了 UniToken ——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与影像生成任务,并在多个权威评测中取得了领先的性能表现。

UniToken 通过融合连续和离散视觉表征,有效缓解了以往方法中 " 任务干扰 " 和 " 表示割裂 " 的问题,为多模态统一建模提供了新的范式。

为了便于社区内研究者们复现与进一步开发,UniToken 团队已将代码与模型全部开源。

任务背景:统一建模的挑战

在传统图文理解或影像生成模型中,其视觉编码的底层特性差异较大。

譬如图文理解模型(如 LLaVA、Qwen-VL 等)要求从影像中抽取高层语义,从而进一步结合文本进行协同理解;而影像生成模型(如 DALL-E、Stable Diffusion 等)则要求保留充分的底层细节以高保真影像的生成。

由此,开发理解生成一体化的多模态大模型面临着以下几大难题:

视觉编码割裂:理解任务偏好具有高层语义的连续视觉特征(如 CLIP),而生成任务依赖保留底层细节的离散视觉特征(如 VQ-GAN 编码的 codebook);

联合训练干扰:理解与生成任务差异而带来的冲突性使得在统一模型中训练时难以兼顾两个任务的性能,存在 " 一个优化,另一个退化 " 的现象。

为了应对上述挑战,领網域内的相关工作通常采取两类范式:以 VILA-U 等为代表的工作通过结合影像重建与图文对比学习的训练目标,来提升离散视觉编码的语义丰富度;以 Janus 等为代表的工作通过为理解和生成任务分别定制相应的视觉编码器与预测头,来实现两个任务之间的解耦。

然而,前者在理解任务上目前依旧难以与连续视觉编码驱动的多模态大模型匹敌;后者则在应对更复杂的多模任务(例如多轮影像编辑等)时面临严重的上下文切换开销及单边信息缺失等问题。

UniToken:统一视觉表示,融合两种世界核心设计:连续 + 离散双编码器

不同于 Janus 的多任务解耦的设计思路,UniToken 为所有下游任务均提供一套完备的视觉信息,促使多模态大模型以指令驱动的形式从中吸收相应的知识。

具体而言,UniToken 采取统一的双边视觉编码器,其中将 VQ-GAN 的离散编码与 SigLIP 的连续表征以下述方式进行拼接,从而得到一套兼备高层语义与底层细节的视觉编码:

[ BOS ] [ BOI ] { 离散影像 token} [ SEP ] { 连续影像 embedding} [ EOI ] { 文本 } [ EOS ]

多阶段训练策略

为了协调理解与生成任务的特性,UniToken 采用三阶段训练流程:

阶段一:视觉语义空间对齐:

基于 Chameleon 作为基座,本阶段旨在为 LLM 接入 SigLIP 的连续视觉编码。为此,在训练时冻结 LLM,仅训练 SigLIP ViT 和 Adapter,使其输出与语言空间对齐。

阶段二:多任务联合训练:

基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与影像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。

阶段三:指令强化微调:

通过测试发现,第二阶段训练后的模型在指令跟随、布局影像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化影像生成数据(100K),进一步增强模型对复杂指令的跟随能力。

细粒度视觉增强

得益于保存了双边视觉编码的完备性,UniToken 可无缝衔接现有的细粒度视觉增强技术。

具体而言,UniToken 在连续视觉编码侧引入两项增强策略:

AnyRes:将高分辨率影像划分为多个子图,分别提取特征后进行相应空间位置的拼接,以提升对影像的细粒度感知;

ViT 端到端微调:在模型的全训练流程中,动态微调连续视觉编码器的权重,结合精细的学习率控制策略以避免模型崩溃,进而适应广泛的任务场景。

实验结果:超越 SOTA,多模态统一的 " 优等生 "

在多个主流多模态基准(图文理解 + 影像生成)上,UniToken 均取得了媲美甚至领先于领網域内专用模型的性能:

与此同时,研究者们对于训练策略及视觉编码的影响进行了进一步深入的消融分析:

在大规模数据场景下(>15M),1:1 的理解 + 生成数据比例能够兼顾理解与生成任务的性能

在应对理解与生成的任务冲突时,统一的连续 + 离散的视觉编码相较于仅采用离散编码的方案具有较强的鲁棒性。

总结:迈向通用理解生成一体化的多模态大模型

从发展趋势上来看,目前图文理解模型在通用性上远远领先于影像生成模型。

而 Gemini-2.0-Flash 与 GPT-4o 在指令跟随的影像生成方面的惊艳表现,带来了通用影像生成模型未来的曙光。

在这样的时代背景下,UniToken 仅是初步的尝试,而其信息完备的特性也为进一步挖掘其更深层次的潜力提供了更多信心:

模型规模扩展:借助更大的语言模型,进一步探索统一模型在理解与生成上的 " 涌现能力 ";

数据规模扩展:引入更大规模的训练数据(如 Janus-Pro 使用的近 2 亿样本),推动模型性能极限;

任务类型扩展:从传统的理解与生成拓展至影像编辑、故事生成等图文交错的任务,追逐通用生成能力的上限。

论文链接:

https://arxiv.org/pdf/2504.04423

代码地址:

https://github.com/SxJyJay/UniToken

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們