大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

GPT-4o影像生成架构被“破解”了?自回归主干+扩散解码器,还有4o影像生成全面测评基准

2025-04-09 简体 HK SG TW

今天小编分享的科学经验:GPT-4o影像生成架构被“破解”了?自回归主干+扩散解码器,还有4o影像生成全面测评基准,欢迎阅读。

GPT-4o 影像生成架构被 " 破解 " 了!

最近一阵,,人们随之好奇:

4o 影像生成的架构底层逻辑到底是什么?GPT-4o 究竟强在哪?存在哪些短板?

作为解答,北京大学、中山大学等多家科研机构共同推出GPT-ImgEval,首次系统评估了 GPT-4o 在影像生成上的真实表现。

这份量化评估基准不仅囊括了生成质量、编辑能力和知识推理,还尝试揭示GPT-4o 背后的可能架构,还探讨了它生成影像的可检测性问题。

下面具体来看。

GPT-4o 架构揭秘:可能使用了扩散 + 自回归混合方案

GPT-ImgEval 团队尝试" 反向破解 "GPT-4o 的影像生成架构。

研究团队在论文中提出了 4 种候选架构方案(见下图),尽管细节略有不同,但有一点是一致的:GPT-4o 很可能采用的是自回归主干 + 扩散头的混合结构。

通俗来说,它的工作流程可能是这样的:文本或指令→ 自回归模块理解语义 → 生成中间视觉 Token → 扩散模型将这些 Token 解码成影像。

当然,架构猜测不能仅靠想象。为此,研究团队设计了一套严谨的实证方法:

先选取一组统一的文本提示(prompt),分别使用自回归模型(VAR)和扩散模型(Diffusion)各自生成 1 万张影像作为对比样本;

利用这些影像训练一个二分类器,让它学会识别影像是 "AR 风格 " 还是 "Diffusion 风格 ";

然后,用同样的 Prompt 交给 GPT-4o 生成影像,将这些影像输入该分类器进行识别。

也就是说,整个过程中,提示词保持完全一致,只看不同模型生成的影像 " 长得像谁 ",以此判断 GPT-4o 的生成方式更接近哪类结构。

结果很直接:GPT-4o 生成的影像几乎全部被识别为 " 扩散风格 ",这就从影像风格维度验证了 GPT-4o 的确可能用了扩散模型作为解码器。

除了对视觉解码器的分析,研究人员也深入探讨了视觉编码方式。他们指出,一些研究(如 UniTok)认为基于向量量化(VQ)的编码器可能会削弱模型的语义理解能力。

因此,作者认为如果采用了 pixel encoder,其大概率是连续(非 VQ)的而不是离散(VQ)的,并基于此提出了四种可能的完整架构示意图。

三大维度全面评估 GPT-4o 影像能力

GPT-ImgEval 聚焦三类核心任务,对 GPT-4o 进行了系统评估:

文本生成影像(GenEval):通过对物体数量、颜色、位置、组合属性等细粒度维度进行测评,验证模型对文本的理解与影像的构造能力。

指令编辑影像(Reason-Edit):模拟用户给出修改指令后,模型在保留影像语义基础上进行局部编辑的能力,如替换、删除、变色等。

基于世界知识的语义合成(WISE):考察模型是否能将对世界常识、文化背景、科学原理等知识真正 " 显性化 " 为影像输出。

为了支持这一系统评估,研究团队开发了一套针对 GPT-4o 的自动化互動脚本,解决了当前该模型尚未开放影像生成 API 的现实问题。

这套脚本直接与 GPT-4o 网页界面互動,模拟真实用户行为:

自动输入提示词(Prompt)、点击提交

自动抓取生成影像并存储归档

每次请求会新开浏览器視窗,确保不同任务之间上下文不相互干扰

支持任务批量运行,可实现大规模、可重复的影像生成任务调度

最终,GPT-ImgEval 的整体工作流如下图所示:

在文本生成影像(GenEval)任务中,GPT-4o 取得了0.84 的总得分,超越目前所有扩散类与自回归类影像生成模型。

尤其在以下几项中表现突出:数量控制(0.85)、颜色绑定(0.92)、空间位置(0.75)、属性组合(0.61)。

下图是一些 GPT-4o 使用 GenEval 基准中的 prompt 生图的具体例子:

而在影像编辑任务(Reason-Edit)中,GPT-4o 得分高达0.929,领先第二名超过 0.35,说明其在指令理解和局部控制上表现极其稳定。

在知识合成(WISE)任务中,GPT-4o 同样大放异彩,多个子维度(生物、文化、物理等)得分均超过 0.9,总分 0.89,远高于当前开源模型(普遍在 0.4~0.5 之间)。

这说明 GPT-4o 具有强大的世界知识和推理能力,这应该是得益于 GPT-4o 这种统一多模态框架。

更多研究结论 GPT-4o vs Gemini 2.0 Flash:多轮编辑对比

研究团队还对 GPT-4o 与 Google 的 Gemini 2.0 Flash 进行了多轮影像编辑对比。

除了性能与架构机制,GPT-4o 在实际的使用体验中也展现出了强劲的竞争力。研究团队对其与 Google 最新发布的 Gemini 2.0 Flash 进行了多轮编辑任务的实测对比。

GPT-4o 支持完整的多轮对话式编辑流程,上下文一致性强

Gemini 响应速度更快,但每轮需重新上传影像,缺乏连续性

在连续修改、复杂指令理解、影像语义保持方面,GPT-4o 表现出更高的稳定性

从整体趋势来看,两者在编辑轮数增加后均出现一致性下降,但 GPT-4o 下降更缓,保持更稳。

GPT-4o 与 Gemini 2.0 Flash 多轮编辑一致性对比如下图所示:

这一对比结果也进一步验证了:融合大模型语义理解能力的影像生成系统,在互動式创作任务中,正在展现出压倒性优势。

GPT-4o 仍存五大问题,影像量化评估并非无解

研究团队总结出 GPT-4o 当前的五个常见生成难点:

无法严格保持原图尺寸与边框比例,有时会自动裁切或缩放

强制锐化,即使用户要求生成模糊图,也会被模型 " 优化 " 成高清

编辑偏暖、全图色调变化,即使只修改小部分,可能全图色调甚至是全局都会被一定程度修改

复杂场景失真,多人或人 - 物体互動场景易出现姿态不自然或结构错乱

非英文文本支持较弱,如中文标识常出错,难以在复杂背景准确生成

这些问题不仅影响使用体验,也提示我们—— GPT-4o 仍在追求 " 自然感 " 与 " 精确控制 " 之间寻找平衡。

这些影像能被检测出来吗?

除了感知层面的观察和评估,研究团队进一步思考一个关键问题:GPT-4o 生成的影像,是否真的可以 " 以假乱真 "?

为此,研究者使用多个主流影像取证模型,对 GPT-4o 生成的影像进行了系统性评估。

结果显示,包括 Effort、FakeVLM 在内的多种检测器,对 GPT-4o 影像的识别准确率普遍超过 95%,最高接近 99.6%。

不仅仅停留在数值层面,研究团队还对量化评估成功的原因进行了机制层面的归因分析:

GPT-4o 可能在影像生成过程中引入了超分辨率模块,通过上采样插值导致明显伪影

模型有过度锐化与细节增强倾向,视觉效果虽然 " 精致 ",却留下了被取证模型捕捉的痕迹

在用户未要求修改时,仍可能出现尺寸、色彩的隐性变化,破坏了影像一致性

GPT-4o 生成影像色调普遍偏暖,整体风格趋同,易被量化评估模型建立 " 风格识别模式 "

可量化评估,并非弱点,而是 AIGC 安全设计的基线能力

研究团队认为,是否可量化评估,不应成为衡量生成模型能力强弱的标准,而应被视为评估其可控性与安全性的重要指标。

在未来的 AIGC 系统设计中," 逼真 " 固然重要,但 " 可识别 "、" 可追踪 " 同样不可或缺。GPT-4o 生成影像中的伪影、色彩偏好等特征,也正是推动生成量化评估研究的重要突破口。

这也正是 GPT-ImgEval 的差异化亮点之一:不仅做量化评估,更从安全机制的角度进行深入诊断和前瞻探索。

GPT-4o 很强,但 " 终局 " 远未到来

GPT-ImgEval 不仅验证了 GPT-4o 在影像生成上的优势,更指出了它仍需突破的短板。尤其是在可控性、多语种处理、局部编辑稳定性等方面,仍有不少提升空间。

GPT-ImgEval 不仅系统性验证了 GPT-4o 在影像生成、影像编辑与知识合成三大任务中的领先表现,更进一步揭示了其架构特征、失败模式与安全边界。

该研究不仅在评测维度上实现了覆盖广泛、量化精准,也从架构判别、编辑可控性、多轮理解能力和伪影检测等多个层面,对 GPT-4o 进行了技术全景式诊断。

研究团队认为,该工作的重要意义在于:

1、提供系统化多模态评估范式:首次从 " 生成 - 编辑 - 推理 " 全流程出发,建立综合影像能力测试框架;

2、推动闭源模型的 " 可解释评测 " 研究:在无法访问模型细节的前提下,建立架构猜测和行为归因机制;

3、强调通用多轮编辑场景的实用价值:用用户视角验证语义理解一致性与细节保真性,为互動设计落地提供参考;

4、补齐影像生成安全性研究缺口:通过可检测性实证,发现影像中的上采样 / 超分伪影、色彩特征,推动 AIGC 取证技术演进。

更多细节欢迎查阅原论文。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們