今天小编分享的科学经验:评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024,欢迎阅读。
能够深入大模型内部的新评测指标来了!
上交大 MIFA 实验室提出了全新的大模型评估指标Diff-eRank。
不同于传统评测方法,Diff-eRank不研究模型输出,而是选择了分析其背后的隐藏表征。
该方法从信息论和几何的视角,分析大模型的隐藏表征,量化大语言模型在训练前后如何剔除数据中的冗余信息,并以此作为衡量模型性能的指标。
对于多模态大模型,研究团队也设计了基于秩的评估方法,用于衡量不同模态之间的对齐程度。
目前,本工作已被 NeurIPS 2024 接收。
将评估深入到大模型内部
在进行 Diff-eRank 的相关工作之前,作者首先提出了这样一个问题——
一个语言模型是如何从海量的训练数据中「学习」到知识的?
对于这个问题,前 OpenAI 科学家Ilya Sutskever在 2023 年的演讲中曾经这样说:
大语言模型海量数据中训练时,会逐步消除其表征空间中的冗余信息,使得数据的表征变得更加规整、结构化。
这个过程类似于「去噪」,即模型逐渐剔除数据中的雜訊,同时提取出更重要的模式和特征。
传统的评估方法多集中于模型在下游任务上的表现,例如准确率 ( Accuracy ) 、交叉熵损失 ( Cross-Entropy Loss ) 等指标。
但这些方法只关注模型的预测结果与标注标签之间的比较,无法深入探究模型内部的信息处理过程。
换言之,之前并没有研究提出可靠的指标来定义和量化这个「去噪」过程。
在此背景下,研究团队引入了有效秩的概念(Effective Rank,简写为 eRank),用于反应大模型表征空间的不确定性或混乱程度。
这是一种基于模型表征的「有效秩」的评估指标,从信息论和几何学的角度分析并量化大语言模型在训练前后如何剔除冗余信息,并以此衡量模型性能。
大模型在训练时去除数据中的冗余信息,eRank 减小,模型的表征变得更加结构化和紧凑。
因此,研究团队提出了 Diff-eRank,通过分析大语言模型的表征的有效秩在训练前后的变化幅度,来评估大模型的「去噪能力」。
Diff-eRank 提供了一个基于模型表征的全新评估方法,并且具有良好的理论基础与可解释性,为理解大模型的工作原理提供了独特的视角。
Diff-eRank 的构造过程
大模型在处理一系列输入时,它会为每个 token 生成一个高维表征。
这些表征通常可以捕捉输入的语义和句法信息。
因此,研究团队考虑分析这些表征来评估大模型的性能。
具体而言,团队选择从几何和信息论的角度研究这些表征的秩。
秩可以衡量它们这些表征的线性相关程度,对应于表征空间的有效维度(即几何结构)。
此外,秩还与这些表征所包含的信息量有关:较低的秩代表信息已被结构化或压缩。
因此,作者通过分析大模型表征的秩来进行模型评估。
协方差矩阵的构建
给定一个句子中 tokens 的表征集,协方差矩阵构建如下:
其中 是表征的均值。
有效秩 ( eRank )
由于秩对异常值非常敏感,因此研究团队使用秩的一种连续形式,称为有效秩(eRank)。
给定任何非零矩阵,其有效秩定义为:
其中,是矩阵的奇异值。
值得注意的是,eRank 与信息论中的熵的概念有着紧密的联系。
上面构造的协方差实际上就是一个标准的「概率密度矩阵」。
从信息论的角度,此处的有效秩可以理解为表征空间中的不确定性(具体解释可阅读原论文)。
Diff-eRank 的定义
给定一个句子,一个未训练的语言模型和一个训练完毕的语言模型,可以得到这两个模型的表征和。
对于句子,这两个模型之间的有效秩差异(Diff-eRank)定义如下:
其中是模型在句子上的表征的协方差矩阵,其中。
进一步,当给定一个数据集及其包含的句子,一个未训练的语言模型和一个训练完毕的语言模型时,数据集上的 Diff-eRank 可以被定义为和在所有句子上的有效秩的平均值之差。
由此可以看出,Diff-eRank 反映了模型表征空间的降维,也可以用于衡量大语言模型去除数据中冗余信息的程度。
较高的 Diff-eRank 表明模型的内部表征更加有序和结构化,体现了模型可以有效提取数据中的模式和规律。
用 Diff-eRank 评估大模型可有效评估语言模型
研究团队使用 OPT 模型家族,在多个数据集上计算了 Diff-eRank。
由于损失(Loss)是最常用于观测预训练模型的指标,因此团队采用模型在训练前后交叉熵损失的减小量 ( Reduced Loss ) 作为对比。
作者在不同类型的数据集(如 Wikipedia、openwebtext2、dolly-15k 和 hh-rlhf)上使用 Diff-eRank 和 Reduced Loss 对 OPT 模型家族进行了评估。
实验结果发现,Diff-eRank 和 Reduced Loss 都随着模型规模的扩大而上升。
这一趋势说明更大规模的模型在信息压缩和冗余消除方面表现得更加出色。
这也体现了 Diff-eRank 可以从「去噪」角度为语言模型提供新的评估方法。
为了进一步验证 Diff-eRank 的有效性,作者在基准测试数据集上,引入准确率作为比较指标。
实验结果如下图显示,这三个指标在测试集上基本都在模型规模增加时变大。
而且与 Loss 相比,Diff-eRank 与准确率的趋势更加一致,说明 Diff-eRank 可以有效地用于评估语言模型。
除了 OPT 之外,作者还用 Cerebras-GPT 和 OpenELM 家族进行了实验。
下图的实验结果体现 Diff-eRank 在不同模型家族中,都随着模型规模的上升而增加,并与 Reduced Loss 和基准测试准确率趋势相关,体现了 Diff-eRank 对不同模型家族的稳定性。
多模态大模型也能评估
Diff-eRank 背后的思想还可以拓展用于多模态大模型的评估。
例如,在视觉 - 语言多模态大模型中,可以通过借助表征的有效秩分析视觉和语言表征的匹配程度来衡量模型的模态对齐性能。
对于多模态实验,作者选择了两个最有名的开源多模态大模型:LLaVA-1.5 和 MiniGPT4-v2。
这两个多模态大模型都使用了一个简单的连接器来对齐视觉编码器与大语言模型。
作者在 detail_23k 和 cc_sbu_align 这两个高质量的多模态指令数据集上进行实验。
这些数据集中的每条数据都是由影像、指令和响应组成的三元组。
实验中,作者将每个三元组的指令和响应拼接作为文本输入。
如上图所示,文章中的实验包括分析视觉编码器后影像表征的有效秩(),连接器的表征的有效秩 ( ) ,以及大语言模型对单个影像输入 ( ) 、文本输入 ( ) 和影像 - 文本对输入 ( ) 的表征的有效秩。
为了衡量多模态大模型的「模态对齐」能力,研究团队引入了两个基于 eRank 的不同指标:
影像压缩比可以量化影像表征从视觉编码器到连接器的有效秩的减少,评估连接器在图文对齐训练中压缩和提炼视觉信息的效率。
影像 - 文本对齐指标可以评估大语言模型对影像、文本和影像 - 文本对的表征的有效秩之间的接近程度,进而反映不同模态的对齐程度。
下面的表中展示了 LLaVA-1.5 和 MiniGPT-v2 在不同数据集上均有较高的对齐分数,说明它们对齐良好。
具体而言,LLaVA-1.5 在「影像 - 文本对齐」方面优于 MiniGPT-v2,表明在视觉和文本模态之间的对齐更紧密。
这也与 LLaVA-1.5 在大部分测试集分数优于 MiniGPT-v2 的现象一致。
此外,研究团队还进行了额外的实验,计算了对影像进行顺时针旋转操作后的有效秩。
下面表中的结果表明,所有与影像相关的量 ( ( ) ) 在执行旋转后都会上升,这说明多模态模型能感知影像的细微语义变化,尤其是位置信息。
影像旋转后,影像压缩比和影像 - 文本对齐分数均下降,表明连接器在压缩视觉信息方面效果变差,以及旋转后的影像与相应文本对齐性变差。
这些基于秩的方法可以使人们能够深入了解多模态模型如何对齐不同模态的数据,以及模型如何处理和整合不同形式的输入数据。
结论与展望
Diff-eRank 作为一种全新的评估指标,提供了一个独特的理论视角去理解和分析大模型的一种工作原理。
Diff-eRank 不仅有助于评估大模型的「数据去噪」能力,还可能为模型压缩(如剪枝、量化、蒸馏等)等技术的发展提供新的视角。
比如,Diff-eRank 或许有助于识别模型中哪些部分可以在不显著损失信息的情况下进行压缩。
作者期待,未来更多的研究者可以进一步拓展 Diff-eRank 的应用。
团队简介
MIFA 实验室全称 Machine Intelligence Foundations and Applications Laboratory,即机器智能基础与应用实验室,隶属于上海交大清源研究院,负责人为黄维然副教授。
目前,MIFA 实验室和多所知名高校、国家实验室、三甲医院以及业界大厂保持着紧密的学术合作与交流关系。
本文共同第一作者为上交大 MIFA 实验室的博士生魏来和清华大学的博士生谭智泉,通讯作者为上海交通大学黄维然副教授,共同作者包括来自 William and Mary 的王晋东助理教授。
论文地址:
https://arxiv.org/abs/2401.17139
代码:
https://github.com/waltonfuture/Diff-eRank
— 完 —
投稿请发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>