大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025

2025-04-22 简体 HK SG TW

今天小编分享的科学经验:多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025,欢迎阅读。

近年来,人脸合成技术在快速发展,相关检测任务也逐渐从 " 看得出来 " 向 " 说明白为什么 " 演进。除了判断一张脸是真还是假,更需要模型能 " 说出个所以然 "。

在 CVPR 2025 的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究团队尝试从视觉 + 语言的多模态视角来改进伪造检测方法。

本文提出了一种简单有效的训练范式,并围绕数据标注问题,构建了一个高质量的文本生成流程。

为什么要引入语言模态?

在伪造检测任务中加入语言,有两个直接的好处:

第一,提升可解释性。比起真和假的这种二元黑盒输出,如果模型能进一步说明 " 假在哪里 "" 怎么假 ",无论是用于分析溯源,还是辅助下游任务,都更有价值;

第二,激活预训练知识。现有的一些视觉 backbone(如 CLIP、LLaVA)等被证明能力已经高于很多纯视觉预训练模型,而这些模型在下游任务的潜在的知识需要语言模态来激活。所以我们希望它们的语言模态不仅能辅助理解影像细节,还能提高模型的迁移能力和泛化表现。

因此,团队提出了如图所示的一个新的多模态训练框架:

△图 1:视觉语言伪造检测训练范式

该方法的关键在于:不再直接用影像做二分类判断,而是先为伪造影像生成文本描述,再通过这些图文对来联合微调多模态模型,比如 CLIP 或 mLLM。这样训练后的模型不仅能判断伪造,还能在语言中 " 指出问题所在 "。

但问题也随之而来——

数据从哪里来?

多模态任务的关键是高质量标注数据。而伪造检测任务相比于传统的图文匹配,难度在于:

它是一种更偏底层的任务,涉及的伪造往往是非常微妙的局部特征(比如鼻梁稍微歪了一点、嘴角颜色糊了一点);

要准确地用语言描述这些细节,远没有那么容易。

目前社区主流的做法大概有两类:

人工众包标注(如 DD-VQA);

利用大模型(如 GPT-4o)生成伪造描述。

但实验发现,两种方式都存在较明显的问题,尤其在高质量伪造影像中,容易出现 " 看花眼 " 的情况——模型或者标注人可能会误判没有问题的区網域,产生所谓的 " 语言幻觉 "。

如下图所示,仅嘴部被修改的伪造图,GPT 和人工标注都错误地指出了鼻子区網域:

△图 2:现有伪造文本标注容易出现幻觉

此外,真实影像该怎么标注?要不要也写一段文字描述?怎么写才不误导模型?这些问题都说明:需要一个系统化的、高可信度的标注流程。

FFTG 伪造文本生成流程

针对上述挑战,研究团队提出了 FFTG(人脸伪造文本生成器),这是一种新颖的标注流程,通过结合伪造掩码指导和结构化提示策略,生成高精度的文本标注。

△图 3:FFTG 标注流程

FFTG 标注流程主要分为两个核心阶段:原始标注生成 ( Raw Annotation Generation ) 和 标注优化 ( Annotation Refinement ) 。

第一阶段:原始标注生成

在这一阶段,FFTG 利用真实影像和对应的伪造影像,通过精确的计算分析生成高准确度的初始标注:

1、掩码生成 ( Mask Generation ) :

通过计算真实影像和伪造影像之间的像素级差异,生成伪造掩码 M

掩码值被归一化到 [ 0,1 ] 范围,突显操作强度较大的区網域

2、伪造区網域提取 ( Forgery Region Extraction ) :

基于面部特征点将人脸划分为四个关键区網域:嘴部、鼻子、眼睛和整个脸部

计算每个区網域内掩码 M 的平均值,并設定阈值 θ 判断该区網域是否被篡改

形成伪造区網域列表,并从中随机选择一个区網域进行下一步分析

3、伪造类型判定 ( Forgery Type Decision ) : 设计了五种典型的伪造类型判断标准:

颜色差异 ( Color Difference ) :通过 Lab 色彩空间中的均值和方差差异检测

模糊 ( Blur ) :使用拉普拉斯算子量化局部模糊程度

结构异常 ( Structure Abnormal ) :使用 SSIM 指数衡量结构变形

纹理异常 ( Texture Abnormal ) :通过灰度共生矩阵 ( GLCM ) 对比度衡量纹理清晰度

边界融合 ( Blend Boundary ) :分析融合边界的梯度变化、边缘过渡和频網域特征

4、自然语言描述转换:

将识别出的伪造区網域和类型转换为自然语言表达

如 "Texture Abnormal" 转换为 "lacks natural texture","Color Difference" 转换为 "has inconsistent colors"

此阶段生成的原始标注虽然结构相对固定,但准确度极高,为后续优化提供了可靠基础。

第二阶段:标注优化

为增加标注的多样性和自然流畅性,FFTG 使用多模态大语言模型(如 GPT-4o-mini)进行标注优化,同时设计了全面的提示策略防止幻觉:

1、视觉提示 ( Visual Prompt ) :

将真实和伪造人脸影像作为配对输入提供给大模型

这种对比方式使模型能通过直接比较识别伪造痕迹,减少幻觉

保持伪造检测视角,避免生成与伪造无关的描述

2、指导提示 ( Guide Prompt ) :

将前一阶段生成的原始标注作为指导提供给大模型

附带详细解释每种伪造类型的判定标准(如纹理异常是如何通过 GLCM 分析确定的)

强化技术依据,减少主观臆断

3、任务描述提示 ( Task Description Prompt ) :

设定专家级伪造检测任务情境

提供分析视觉证据和生成综合描述的具体要求

引导模型进行逐步推理

4、预定义提示 ( Pre-defined Prompt ) :

规定输出格式(如 JSON 结构)

要求包含特定短语(如 "This is a real/fake face")

确保不同样本的标注格式一致

下游微调:双路模型训练策略

有了高质量的图文标注数据,接下来的问题是:如何充分利用这些数据来训练模型?研究团队提出了两种不同的训练策略,分别针对 CLIP 架构和多模态大语言模型(MLLM),注意本文的目的主要是验证数据的有效性,所以才去了相对简单的微调方式:

CLIP 三分支训练架构

对于 CLIP 这类经典的双塔结构模型,团队设计了一种三分支联合训练框架,如图 4 所示。

这种训练方法结合了单模态和多模态的学习目标:

1、影像特征分类(Image Feature Classification):直接使用影像编码器提取的特征进行真伪二分类,保证模型在纯视觉输入下的基本检测能力。

2、多模态特征对齐(Multimodal Feature Alignment):通过对比学习,使影像特征和对应的文本特征在表示空间中对齐,并且激活 CLIP 预训练时获得的跨模态理解能力。

3、多模态特征融合分类(Multimodal Feature Classification):通过注意力机制融合视觉和文本特征,引导模型学习跨模态的伪造证据整合能力

这三个分支的损失函数共同优化,使模型既能独立运行,又能充分利用文本信息来增强检测能力。

MLLM 微调方法

对于如 LLaVA 这类多模态大语言模型,采用了一种更为直接的微调方法:

△图 4:MLLM 微调架构

MLLM 通常由三部分组成:视觉编码器、对齐投影器和大语言模型。策略是:

固定预训练好的视觉编码器参数,专注于微调对齐投影器和大语言模型部分

设计简洁有效的提示模板:"Do you think this image is of a real face or a fake one? Please provide your reasons."

这种双部分提示不仅引导模型做出二分判断,还要求提供可解释的理由。

实验:多维度验证 FFTG 的有效性

为了全面评估提出的方法,团队在多个伪造检测基准数据集上进行了广泛实验,包括 FaceForensics++、DFDC-P、DFD、CelebDF 等。

标注质量评估

首先,比较了不同标注方法的质量:

△表 1:不同标注方法的质量对比

结果表明,FFTG 在所有指标上都显著优于现有方法。特别是在精度上,FFTG 比人工标注高出 27 个百分点,比直接使用 GPT-4o-mini 高出 28 个百分点,证明了该研究的掩码引导和结构化提示策略能有效减少 " 幻觉 " 问题。

跨数据集泛化能力评估

在 FF++ 数据集上训练模型,并在其他四个未见过的数据集上测试,评估方法的泛化能力:

△表 2:跨数据集泛化性能对比

在所有未见过的数据集上,该研究的方法都取得了性能提升。

可视化分析

团队对模型的注意力机制进行了可视化分析,进一步验证了 FFTG 的有效性:

△图 5:不同方法的注意力可视化对比

可以看到,使用 FFTG 标注训练的模型能够更精确地关注真正的伪造区網域,而基线方法的注意力更为分散或错位。例如,在 NeuralTextures 的例子中,该方法准确聚焦在嘴部区網域的微妙变化,而其他方法则在未被篡改的区網域产生错误激活。

总结

语言模态让伪造检测任务不止停留在 " 看得见 ",更能 " 讲得清 "。

如果你也关注伪造检测的可解释性和泛化性,欢迎进一步了解。为了方便社区复现与研究,团队已经将标注流程和生成数据集开放:https://github.com/skJack/VLFFD

文章链接:

https://arxiv.org/pdf/2502.20698

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們