大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

2024-12-16 简体 HK SG TW

今天小编分享的科学经验:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法,欢迎阅读。

Scaling Law 不仅在放缓,而且不一定总是适用!

尤其在文本分类任务中,扩大训练集的数据量可能会带来更严重的数据冲突和数据冗余。

要是类别界限不够清晰,数据冲突现象就更明显了。

而文本分类又在情感分析、识别用户意图等任务中极为重要,继而对 AI Agent 的性能也有很大影响。

最近,vivo AI Lab 研究团队提出了一种数据质量提升(DQE)的方法,成功提升了 LLM 在文本分类任务中的准确性和效率。

实验中,DQE 方法以更少的数据获得更高的准确率,并且只用了近一半的数据量,就能有效提升训练集的训练效率。

作者还对全量数据微调的模型和 DQE 选择的数据微调的模型在测试集上的结果进行了显著性分析。

结果发现 DQE 选择的数据在大多数测试集上都比全量数据表现出显著的性能提升。

目前,此项成果已被自然语言处理顶会 COLING 2025 主会接收。

数据质量提升方法长啥样?

在自然语言处理中,文本分类是一项十分重要的任务,比如情感分析、意图识别等,尤其现在企业都在推出各自的 AI Agent,其中最重要的环节之一,就是识别用户的意图。

不同于传统的 BERT 模型,基于自回归的大语言模型的输出往往是不可控的,而分类任务对输出的格式要求较高。

通过在提示词中加入 few-shot 可以有效地改善这一现象,但是基于提示词的方法带来的提升往往有限。指令微调可以有效地改善模型的性能。

在文本分类任务中,缺乏一种有效的手段来获取高质量的数据集。OpenAI 提出了缩放定律(Scaling Law),认为大语言模型的最终性能主要取决于三个因素的缩放:计算能力、模型参数和训练数据量。

然而这一定律并不总是适用,尤其在文本分类任务中,扩大训练集的数据量会可能会带来更加严重的数据冲突现象和数据冗余问题。尤其类别的界限不够清晰的时候,数据冲突的现象更加明显。

下面是 vivo AI Lab 团队提出的数据质量提升(DQE)方法的具体方法设计。

首先,作者对训练集进行了初步的数据清洗工作,包含处理具有缺失值的数据、query 和标签重复的数据以及标签不一致数据(同一条 query 对应多个不同的标签)。

然后,使用文本嵌入模型,将文本转换为语义向量。再通过贪婪采样的方法,随机初始化一条数据作为初始向量,然后每次选择距离向量中心最远的数据加入到新的集合中,以提升数据的多样性。

接着,更新这个集合的向量中心,不断的重复这个过程,直到收集了 50% 的数据作为 sampled,剩下未被选中的 50% 的数据集作为 unsampled,然后使用 sampled 数据集微调大语言模型预测 unsampled。

通过结合向量检索的方式,将 unsampled 中预测结果错误的数据分为 Uncovered、Difficult 和 Noisy 三种类型。

下面是三种类型的数据的识别原理:

Uncovered:主要指 sampled 中未覆盖的数据,如果预测错误的数据与最相似的数据具有相同的标签,并且最相似的数据位于 unsampled 中,则认为该数据相关的特征可能没有参与 sampled 模型的微调,从而导致 unsampled 中的该条预测结果错误。

Difficult:主要指 sampled 中难以学会的困难样本,如果预测错误的数据与最相似的数据具有相同的标签,并且最相似的数据位于 sampled,则认为该数据相关的特征已经在 sampled 中参与过模型的微调,预测错误可能是因为这条数据很难学会。

Noisy:主要是标签不一致导致的噪声数据,如果预测错误的数据与最相似的数据具有不同的标签。则怀疑这两条数据是噪声数据。大多数文本分类任务的数据集都是共同手工标注或者模型标注获得,都可能存在一定的主观性,尤其在类别界限不清晰的时候,标注错误的现象无法避免。这种情况下,作者通过提示词,使用 GPT-4o 进一步辅助判断。

效果如何?

作者基于多机多卡的 L40s 伺服器上通过 swift 框架进行了全参数微调,选择开源的 Qwen2.5-7B-Instruct 模型作为本次实验的基础模型。

作者与 PaperWithCode 中收录的最好的结果以及全量数据微调的方法进行了对比,作者分别在 MR、CR、IMDb、SST-2、SST-5、AG News 数据集中进行了对比实验。

从实验结果可以看出,DQE 方法以更少的数据获得更高的准确率,并且只用了近乎一半的数据量,可以有效地提升训练集的训练效率。

同时,作者页进一步对全量数据微调的模型和 DQE 选择的数据微调的模型在测试集上的结果进行了显著性分析。将预测结果正确的数据赋值为 1,将预测结果错误的数据赋值为 0,通过 t 检验来评估模型之间性能差异的统计显著性。

从表中可以发现DQE 选择的数据在大多数测试集上都比全量数据表现出显著的性能提升。

与传统的 BERT 模型不同的是,生成式的模型往往是不可控的,作者进一步分析了指令跟随结果。

结果表明,不管是全量数据微调还是 DQE 方法微调,都可以有效地提升大语言模型的指令跟随能力,按照预期的结果和格式输出。

对于分类任务来讲,当数据量足够大时,很难避免标签噪声现象。即便是被各大顶级学术期刊和会议广泛使用的数据集,也无法避免标签噪声现象。

作者分析了一部分通过实验找出的噪声数据,并且给出了开源数据集中的标签噪声的示例。

值得注意的是,在数据采样过程中,本研究使用贪心算法将数据集划分为 sampled 和 unsampled。此外,作者根据文本相似度将 unsampled 分类为 uncovered、difficult 和 noisy 数据。

接下来,分析 sampled 中的这三种类型:

由于该数据将用于最终的训练集,因此它不包含 uncovered。

关于 difficult,将来自 unsampled 中识别为 difficult 的样本会加入到最终的训练集,这 uncovered 中的 difficult 和 sampled 是成对存在的,从而部分减轻了采样数据中的 difficult 问题。

对于 noisy 数据,使用 DQE 可以在 sampled 和 unsampled 之间识别出大多数成对的噪声实例。

由于使用 sampled 贪婪采样策略,在 sampled 内遇到成对的相似噪声数据的概率会相对较低。从理论上解释了本方案的有效性。

论文地址:https://arxiv.org/abs/2412.06575

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們