今天小编分享的科学经验:多模态大模型改造人脸防伪检测,厦大腾讯优图等研究入选CVPR 2025,欢迎阅读。
近年来,人脸合成技术在快速发展,相关检测任务也逐渐从 " 看得出来 " 向 " 说明白为什么 " 演进。除了判断一张脸是真还是假,更需要模型能 " 说出个所以然 "。
在 CVPR 2025 的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究团队尝试从视觉 + 语言的多模态视角来改进伪造检测方法。
本文提出了一种简单有效的训练范式,并围绕数据标注问题,构建了一个高质量的文本生成流程。
为什么要引入语言模态?
在伪造检测任务中加入语言,有两个直接的好处:
第一,提升可解释性。比起真和假的这种二元黑盒输出,如果模型能进一步说明 " 假在哪里 "" 怎么假 ",无论是用于分析溯源,还是辅助下游任务,都更有价值;
第二,激活预训练知识。现有的一些视觉 backbone(如 CLIP、LLaVA)等被证明能力已经高于很多纯视觉预训练模型,而这些模型在下游任务的潜在的知识需要语言模态来激活。所以我们希望它们的语言模态不仅能辅助理解影像细节,还能提高模型的迁移能力和泛化表现。
因此,团队提出了如图所示的一个新的多模态训练框架:
△图 1:视觉语言伪造检测训练范式
该方法的关键在于:不再直接用影像做二分类判断,而是先为伪造影像生成文本描述,再通过这些图文对来联合微调多模态模型,比如 CLIP 或 mLLM。这样训练后的模型不仅能判断伪造,还能在语言中 " 指出问题所在 "。
但问题也随之而来——
数据从哪里来?
多模态任务的关键是高质量标注数据。而伪造检测任务相比于传统的图文匹配,难度在于:
它是一种更偏底层的任务,涉及的伪造往往是非常微妙的局部特征(比如鼻梁稍微歪了一点、嘴角颜色糊了一点);
要准确地用语言描述这些细节,远没有那么容易。
目前社区主流的做法大概有两类:
人工众包标注(如 DD-VQA);
利用大模型(如 GPT-4o)生成伪造描述。
但实验发现,两种方式都存在较明显的问题,尤其在高质量伪造影像中,容易出现 " 看花眼 " 的情况——模型或者标注人可能会误判没有问题的区網域,产生所谓的 " 语言幻觉 "。
如下图所示,仅嘴部被修改的伪造图,GPT 和人工标注都错误地指出了鼻子区網域:
△图 2:现有伪造文本标注容易出现幻觉
此外,真实影像该怎么标注?要不要也写一段文字描述?怎么写才不误导模型?这些问题都说明:需要一个系统化的、高可信度的标注流程。
FFTG 伪造文本生成流程
针对上述挑战,研究团队提出了 FFTG(人脸伪造文本生成器),这是一种新颖的标注流程,通过结合伪造掩码指导和结构化提示策略,生成高精度的文本标注。
△图 3:FFTG 标注流程
FFTG 标注流程主要分为两个核心阶段:原始标注生成 ( Raw Annotation Generation ) 和 标注优化 ( Annotation Refinement ) 。
第一阶段:原始标注生成
在这一阶段,FFTG 利用真实影像和对应的伪造影像,通过精确的计算分析生成高准确度的初始标注:
1、掩码生成 ( Mask Generation ) :
通过计算真实影像和伪造影像之间的像素级差异,生成伪造掩码 M
掩码值被归一化到 [ 0,1 ] 范围,突显操作强度较大的区網域
2、伪造区網域提取 ( Forgery Region Extraction ) :
基于面部特征点将人脸划分为四个关键区網域:嘴部、鼻子、眼睛和整个脸部
计算每个区網域内掩码 M 的平均值,并設定阈值 θ 判断该区網域是否被篡改
形成伪造区網域列表,并从中随机选择一个区網域进行下一步分析
3、伪造类型判定 ( Forgery Type Decision ) : 设计了五种典型的伪造类型判断标准:
颜色差异 ( Color Difference ) :通过 Lab 色彩空间中的均值和方差差异检测
模糊 ( Blur ) :使用拉普拉斯算子量化局部模糊程度
结构异常 ( Structure Abnormal ) :使用 SSIM 指数衡量结构变形
纹理异常 ( Texture Abnormal ) :通过灰度共生矩阵 ( GLCM ) 对比度衡量纹理清晰度
边界融合 ( Blend Boundary ) :分析融合边界的梯度变化、边缘过渡和频網域特征
4、自然语言描述转换:
将识别出的伪造区網域和类型转换为自然语言表达
如 "Texture Abnormal" 转换为 "lacks natural texture","Color Difference" 转换为 "has inconsistent colors"
此阶段生成的原始标注虽然结构相对固定,但准确度极高,为后续优化提供了可靠基础。
第二阶段:标注优化
为增加标注的多样性和自然流畅性,FFTG 使用多模态大语言模型(如 GPT-4o-mini)进行标注优化,同时设计了全面的提示策略防止幻觉:
1、视觉提示 ( Visual Prompt ) :
将真实和伪造人脸影像作为配对输入提供给大模型
这种对比方式使模型能通过直接比较识别伪造痕迹,减少幻觉
保持伪造检测视角,避免生成与伪造无关的描述
2、指导提示 ( Guide Prompt ) :
将前一阶段生成的原始标注作为指导提供给大模型
附带详细解释每种伪造类型的判定标准(如纹理异常是如何通过 GLCM 分析确定的)
强化技术依据,减少主观臆断
3、任务描述提示 ( Task Description Prompt ) :
设定专家级伪造检测任务情境
提供分析视觉证据和生成综合描述的具体要求
引导模型进行逐步推理
4、预定义提示 ( Pre-defined Prompt ) :
规定输出格式(如 JSON 结构)
要求包含特定短语(如 "This is a real/fake face")
确保不同样本的标注格式一致
下游微调:双路模型训练策略
有了高质量的图文标注数据,接下来的问题是:如何充分利用这些数据来训练模型?研究团队提出了两种不同的训练策略,分别针对 CLIP 架构和多模态大语言模型(MLLM),注意本文的目的主要是验证数据的有效性,所以才去了相对简单的微调方式:
CLIP 三分支训练架构
对于 CLIP 这类经典的双塔结构模型,团队设计了一种三分支联合训练框架,如图 4 所示。
这种训练方法结合了单模态和多模态的学习目标:
1、影像特征分类(Image Feature Classification):直接使用影像编码器提取的特征进行真伪二分类,保证模型在纯视觉输入下的基本检测能力。
2、多模态特征对齐(Multimodal Feature Alignment):通过对比学习,使影像特征和对应的文本特征在表示空间中对齐,并且激活 CLIP 预训练时获得的跨模态理解能力。
3、多模态特征融合分类(Multimodal Feature Classification):通过注意力机制融合视觉和文本特征,引导模型学习跨模态的伪造证据整合能力
这三个分支的损失函数共同优化,使模型既能独立运行,又能充分利用文本信息来增强检测能力。
MLLM 微调方法
对于如 LLaVA 这类多模态大语言模型,采用了一种更为直接的微调方法:
△图 4:MLLM 微调架构
MLLM 通常由三部分组成:视觉编码器、对齐投影器和大语言模型。策略是:
固定预训练好的视觉编码器参数,专注于微调对齐投影器和大语言模型部分
设计简洁有效的提示模板:"Do you think this image is of a real face or a fake one? Please provide your reasons."
这种双部分提示不仅引导模型做出二分判断,还要求提供可解释的理由。
实验:多维度验证 FFTG 的有效性
为了全面评估提出的方法,团队在多个伪造检测基准数据集上进行了广泛实验,包括 FaceForensics++、DFDC-P、DFD、CelebDF 等。
标注质量评估
首先,比较了不同标注方法的质量:
△表 1:不同标注方法的质量对比
结果表明,FFTG 在所有指标上都显著优于现有方法。特别是在精度上,FFTG 比人工标注高出 27 个百分点,比直接使用 GPT-4o-mini 高出 28 个百分点,证明了该研究的掩码引导和结构化提示策略能有效减少 " 幻觉 " 问题。
跨数据集泛化能力评估
在 FF++ 数据集上训练模型,并在其他四个未见过的数据集上测试,评估方法的泛化能力:
△表 2:跨数据集泛化性能对比
在所有未见过的数据集上,该研究的方法都取得了性能提升。
可视化分析
团队对模型的注意力机制进行了可视化分析,进一步验证了 FFTG 的有效性:
△图 5:不同方法的注意力可视化对比
可以看到,使用 FFTG 标注训练的模型能够更精确地关注真正的伪造区網域,而基线方法的注意力更为分散或错位。例如,在 NeuralTextures 的例子中,该方法准确聚焦在嘴部区網域的微妙变化,而其他方法则在未被篡改的区網域产生错误激活。
总结
语言模态让伪造检测任务不止停留在 " 看得见 ",更能 " 讲得清 "。
如果你也关注伪造检测的可解释性和泛化性,欢迎进一步了解。为了方便社区复现与研究,团队已经将标注流程和生成数据集开放:https://github.com/skJack/VLFFD
文章链接:
https://arxiv.org/pdf/2502.20698
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点亮星标
科技前沿进展每日见