大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

2024-11-09 简体 HK SG TW

今天小编分享的科学经验:评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024,欢迎阅读。

能够深入大模型内部的新评测指标来了!

上交大 MIFA 实验室提出了全新的大模型评估指标Diff-eRank。

不同于传统评测方法,Diff-eRank不研究模型输出,而是选择了分析其背后的隐藏表征。

该方法从信息论和几何的视角,分析大模型的隐藏表征,量化大语言模型在训练前后如何剔除数据中的冗余信息,并以此作为衡量模型性能的指标。

对于多模态大模型,研究团队也设计了基于秩的评估方法,用于衡量不同模态之间的对齐程度。

目前,本工作已被 NeurIPS 2024 接收。

将评估深入到大模型内部

在进行 Diff-eRank 的相关工作之前,作者首先提出了这样一个问题——

一个语言模型是如何从海量的训练数据中「学习」到知识的?

对于这个问题,前 OpenAI 科学家Ilya Sutskever在 2023 年的演讲中曾经这样说:

大语言模型海量数据中训练时,会逐步消除其表征空间中的冗余信息,使得数据的表征变得更加规整、结构化。

这个过程类似于「去噪」,即模型逐渐剔除数据中的雜訊,同时提取出更重要的模式和特征。

传统的评估方法多集中于模型在下游任务上的表现,例如准确率 ( Accuracy ) 、交叉熵损失 ( Cross-Entropy Loss ) 等指标。

但这些方法只关注模型的预测结果与标注标签之间的比较,无法深入探究模型内部的信息处理过程。

换言之,之前并没有研究提出可靠的指标来定义和量化这个「去噪」过程。

在此背景下,研究团队引入了有效秩的概念(Effective Rank,简写为 eRank),用于反应大模型表征空间的不确定性或混乱程度。

这是一种基于模型表征的「有效秩」的评估指标,从信息论和几何学的角度分析并量化大语言模型在训练前后如何剔除冗余信息,并以此衡量模型性能。

大模型在训练时去除数据中的冗余信息,eRank 减小,模型的表征变得更加结构化和紧凑。

因此,研究团队提出了 Diff-eRank,通过分析大语言模型的表征的有效秩在训练前后的变化幅度,来评估大模型的「去噪能力」。

Diff-eRank 提供了一个基于模型表征的全新评估方法,并且具有良好的理论基础与可解释性,为理解大模型的工作原理提供了独特的视角。

Diff-eRank 的构造过程

大模型在处理一系列输入时,它会为每个 token 生成一个高维表征。

这些表征通常可以捕捉输入的语义和句法信息。

因此,研究团队考虑分析这些表征来评估大模型的性能。

具体而言,团队选择从几何和信息论的角度研究这些表征的秩。

秩可以衡量它们这些表征的线性相关程度,对应于表征空间的有效维度(即几何结构)。

此外,秩还与这些表征所包含的信息量有关:较低的秩代表信息已被结构化或压缩。

因此,作者通过分析大模型表征的秩来进行模型评估。

协方差矩阵的构建

给定一个句子中 tokens 的表征集,协方差矩阵构建如下:

其中 是表征的均值。

有效秩 ( eRank )

由于秩对异常值非常敏感,因此研究团队使用秩的一种连续形式,称为有效秩(eRank)。

给定任何非零矩阵,其有效秩定义为:

其中,是矩阵的奇异值。

值得注意的是,eRank 与信息论中的熵的概念有着紧密的联系。

上面构造的协方差实际上就是一个标准的「概率密度矩阵」。

从信息论的角度,此处的有效秩可以理解为表征空间中的不确定性(具体解释可阅读原论文)。

Diff-eRank 的定义

给定一个句子,一个未训练的语言模型和一个训练完毕的语言模型,可以得到这两个模型的表征和。

对于句子,这两个模型之间的有效秩差异(Diff-eRank)定义如下:

其中是模型在句子上的表征的协方差矩阵,其中。

进一步,当给定一个数据集及其包含的句子,一个未训练的语言模型和一个训练完毕的语言模型时,数据集上的 Diff-eRank 可以被定义为和在所有句子上的有效秩的平均值之差。

由此可以看出,Diff-eRank 反映了模型表征空间的降维,也可以用于衡量大语言模型去除数据中冗余信息的程度。

较高的 Diff-eRank 表明模型的内部表征更加有序和结构化,体现了模型可以有效提取数据中的模式和规律。

用 Diff-eRank 评估大模型可有效评估语言模型

研究团队使用 OPT 模型家族,在多个数据集上计算了 Diff-eRank。

由于损失(Loss)是最常用于观测预训练模型的指标,因此团队采用模型在训练前后交叉熵损失的减小量 ( Reduced Loss ) 作为对比。

作者在不同类型的数据集(如 Wikipedia、openwebtext2、dolly-15k 和 hh-rlhf)上使用 Diff-eRank 和 Reduced Loss 对 OPT 模型家族进行了评估。

实验结果发现,Diff-eRank 和 Reduced Loss 都随着模型规模的扩大而上升。

这一趋势说明更大规模的模型在信息压缩和冗余消除方面表现得更加出色。

这也体现了 Diff-eRank 可以从「去噪」角度为语言模型提供新的评估方法。

为了进一步验证 Diff-eRank 的有效性,作者在基准测试数据集上,引入准确率作为比较指标。

实验结果如下图显示,这三个指标在测试集上基本都在模型规模增加时变大。

而且与 Loss 相比,Diff-eRank 与准确率的趋势更加一致,说明 Diff-eRank 可以有效地用于评估语言模型。

除了 OPT 之外,作者还用 Cerebras-GPT 和 OpenELM 家族进行了实验。

下图的实验结果体现 Diff-eRank 在不同模型家族中,都随着模型规模的上升而增加,并与 Reduced Loss 和基准测试准确率趋势相关,体现了 Diff-eRank 对不同模型家族的稳定性。

多模态大模型也能评估

Diff-eRank 背后的思想还可以拓展用于多模态大模型的评估。

例如,在视觉 - 语言多模态大模型中,可以通过借助表征的有效秩分析视觉和语言表征的匹配程度来衡量模型的模态对齐性能。

对于多模态实验,作者选择了两个最有名的开源多模态大模型:LLaVA-1.5 和 MiniGPT4-v2。

这两个多模态大模型都使用了一个简单的连接器来对齐视觉编码器与大语言模型。

作者在 detail_23k 和 cc_sbu_align 这两个高质量的多模态指令数据集上进行实验。

这些数据集中的每条数据都是由影像、指令和响应组成的三元组。

实验中,作者将每个三元组的指令和响应拼接作为文本输入。

如上图所示,文章中的实验包括分析视觉编码器后影像表征的有效秩(),连接器的表征的有效秩 ( ) ,以及大语言模型对单个影像输入 ( ) 、文本输入 ( ) 和影像 - 文本对输入 ( ) 的表征的有效秩。

为了衡量多模态大模型的「模态对齐」能力,研究团队引入了两个基于 eRank 的不同指标:

影像压缩比可以量化影像表征从视觉编码器到连接器的有效秩的减少,评估连接器在图文对齐训练中压缩和提炼视觉信息的效率。

影像 - 文本对齐指标可以评估大语言模型对影像、文本和影像 - 文本对的表征的有效秩之间的接近程度,进而反映不同模态的对齐程度。

下面的表中展示了 LLaVA-1.5 和 MiniGPT-v2 在不同数据集上均有较高的对齐分数,说明它们对齐良好。

具体而言,LLaVA-1.5 在「影像 - 文本对齐」方面优于 MiniGPT-v2,表明在视觉和文本模态之间的对齐更紧密。

这也与 LLaVA-1.5 在大部分测试集分数优于 MiniGPT-v2 的现象一致。

此外,研究团队还进行了额外的实验,计算了对影像进行顺时针旋转操作后的有效秩。

下面表中的结果表明,所有与影像相关的量 ( ( ) ) 在执行旋转后都会上升,这说明多模态模型能感知影像的细微语义变化,尤其是位置信息。

影像旋转后,影像压缩比和影像 - 文本对齐分数均下降,表明连接器在压缩视觉信息方面效果变差,以及旋转后的影像与相应文本对齐性变差。

这些基于秩的方法可以使人们能够深入了解多模态模型如何对齐不同模态的数据,以及模型如何处理和整合不同形式的输入数据。

结论与展望

Diff-eRank 作为一种全新的评估指标,提供了一个独特的理论视角去理解和分析大模型的一种工作原理。

Diff-eRank 不仅有助于评估大模型的「数据去噪」能力,还可能为模型压缩(如剪枝、量化、蒸馏等)等技术的发展提供新的视角。

比如,Diff-eRank 或许有助于识别模型中哪些部分可以在不显著损失信息的情况下进行压缩。

作者期待,未来更多的研究者可以进一步拓展 Diff-eRank 的应用。

团队简介

MIFA 实验室全称 Machine Intelligence Foundations and Applications Laboratory,即机器智能基础与应用实验室,隶属于上海交大清源研究院,负责人为黄维然副教授。

目前,MIFA 实验室和多所知名高校、国家实验室、三甲医院以及业界大厂保持着紧密的学术合作与交流关系。

本文共同第一作者为上交大 MIFA 实验室的博士生魏来和清华大学的博士生谭智泉,通讯作者为上海交通大学黄维然副教授,共同作者包括来自 William and Mary 的王晋东助理教授。

论文地址:

https://arxiv.org/abs/2401.17139

代码:

https://github.com/waltonfuture/Diff-eRank

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們