大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

清华厦大等提出“无限长上下文”技术,100万大海捞针全绿,LlamaQwenMiniCPM都能上分

2024-11-09 简体 HK SG TW

今天小编分享的科学经验:清华厦大等提出“无限长上下文”技术,100万大海捞针全绿,LlamaQwenMiniCPM都能上分,欢迎阅读。

大模型的记忆限制被打破了,变相实现 " 无限长 " 上下文。

最新成果,来自清华、厦大等联合提出的LLMxMapReduce 长本文分帧处理技术。

LLMxMapReduce 技术通过将长上下文切分为多个片段,可以让模型并行处理多个片段,并从不同片段中提取关键信息,然后汇总成为最终的答案。

特别地,团队提出结构化通信協定和上下文置信度校准机制,实现对跨片段信息更有效的处理。这项技术可以打破大模型的记忆限制,实现上下文长度无限稳定拓展。

LLMxMapReduce 技术可作为大模型的长文本上分神器——它对大模型长文本能力具有普遍增强作用,且在文本不断加长的情况下,仍能保持稳定性能、减少长文本的掉分情况。

比如结合了 LLMxMapReduce 框架之后的 Llama3-70B-Instruct x MapReduce 模型得分超越了包含 Kimi、GPT-4 在内的知名闭源和开源模型以及其他基于 Llama3-70B-Instruct 的分治方法(即 LongAgent 和 Chain-of-Agents)。

此外,LLMxMapReduce 框架展现出较强的通用性,结合 Qwen2-72B 和 MiniCPM3 也取得了优异的成绩。

LLMxMapReduce 无限长文本技术原理

在大数据领網域,MapReduce 是一种分布式并行编程框架,具有横向扩展的数据处理能力。受到 MapReduce 所体现的 " 分而治之 " 思想的启发,研究人员设计了一种面向大模型的采用分治策略的长文本处理框架,称为 LLMxMapReduce。

通过将长上下文切分为多个片段,LLMxMapReduce 让模型并行处理多个片段,并从不同片段中提取关键信息,然后汇总成为最终的答案,从而实现无限长文本。这一技术对模型长文本能力具有普遍增强作用,且在文本不断加长的情况下,仍能保持稳定性能、减少长文本的掉分情况。

最近,也有一些同类型的分治式长文本处理方法,比如 LongAgent 和 Chain-of-Agents。相比于模型一次处理完整长文档,这类分治式长文本处理既有优势,也有不足。

优势主要在于:长度可扩展,不受限于模型本身的視窗大小,理论上可以支持任意长度输入。

劣势主要在于:将一个完整的长文档切分为多个片段,可能会破坏跨片段的关键信息,导致模型根据某个片段 " 断章取义 ",产生错误结论。团队分析,会被切分片段影响的信息有两类:

跨片段依赖 (Inter-Chunk Dependency):多个片段的信息相互依赖,综合起来,才能产生一个完整的答案。比如要总结一个事件的时间脉络,需要从很多个片段中提取关键的信息,才能形成一个完整的时间线。

跨片段冲突 (Inter-Chunk Conflict):多个片段的信息存在冲突,对于相同的问题,看不同的片段时可能得出不同的结论。比如要问一位导演一生最伟大的作品是什么,在看他青年时期片段时,得出的是青年时的最大成就,而在看老年时期的片段,又会得出不同的结论。

为了解决这两类问题,LLMxMapReduce 分别设计了以下方案:

结构化通信協定 (Structured Information Protocol):针对用户的问题,模型在处理每个片段时,不是仅仅输出中间答案,而是输出结构体,包含丰富的相关信息。在 Reduce 阶段,模型根据各个片段输出的结构化信息,汇总得出最终结果。通过在 Map 和 Reduce 阶段的结构化通信協定,希望能够更好地处理跨片段依赖的问题,更好地得出综合性答案。

{ Extracted Information: XXX # 与问题相关的关键信息 Rationale: XXX # 得出中间结果的推理过程 Answer: XXX # 根据当前片段的中间结果 Confidence Score: XXX # 模型对当前片段的结果的置信度,范围为 1 到 5 之间 }

上下文置信度校准 (In-Context Confidence Calibration):模型在 Reduce 阶段,会参考 Confidence 的值来汇总不同阶段的信息,高 Confidence 的结果占据更多的主导权。为了让模型在处理不同片段时具有一致的置信度评估标准,通过上下文学习的方式让模型学会一个统一的置信度评估准则,让置信度信息更加准确可靠,从而帮助模型在 Reduce 阶段更好的处理跨片段冲突问题。

LLMxMapReduce 方法的流程图如下所示:整体分为Map、Collapse和Reduce三个阶段。

首先要将长文本切抽成多个小片段,这些片段可以并行处理,从而提高效率。

然后在 Map 阶段,使用大模型对每个片段进行分析,然后应用上文所述的结构化通信協定,将提取的信息整合成结构体形式,以便后续处理。

接下来,在 Collapse 阶段,如果所有片段的结果总长度超过模型的最大处理限制,模型将多个结构体压缩为一个结构体,以减少上下文长度。在处理冲突信息时,模型会考虑置信度进行整合。

最后,在 Reduce 阶段,模型根据压缩后的信息汇总出最终的答案。它会优先考虑置信度较高的结果,从而确保得到的答案准确无误。

通过以上工作流程,LLMxMapReduce 能够更有效地处理长文本,避免因切分导致的信息丢失或错误结论,从而提高最终结果的准确性。

大模型长文本上分神器

为了验证 LLMxMapReduce 技术的有效性,研究人员在业内权威的长文本评测 InfiniteBench 榜单上对不同模型进行了评测,InfiniteBench 是一个综合性榜单,最长长度超过 2000k token。

研究人员和很多方法进行了对比,其中对比的基线共有三类:

闭源模型:

包括 GPT-4、Claude 2、Kimi-Chat,其中 GPT-4 和 Claude 2 的得分参照 InfiniteBench 原文,Kimi-Chat 为重新测量的得分;

开源模型:

包括 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 和 Qwen2-72B-Instruct,其中 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 的得分参照 InfiniteBench 原文,Qwen2-72B-Instruct 是自行测量的得分;

其他基于分治的长文本处理框架:

包括 LongAgent 和 Chain-of-Agents。这两个分治框架的不同点在于处理跨片段信息的方式不同。

LongAgent 构建了一个 Leader Agent 来处理跨片段冲突。当不同的 Chunk 得出的答案不同时,Leader Agent 会组织重新阅读冲突的片段,得出最终答案。

这种重复阅读的机制带来较大的时间开销,并且 LongAgent 的通信内容比较单一,Leader Agent 处理冲突的能力有限。相比之下,LLMxMapReduce 的结构化通信協定包含的信息更为丰富。

Chain-of-Agents 通过顺序逐一读取各个 Chunk 来阅读全文。

由于没有显式地处理冲突信息,可能会导致后续 Chunk 的信息覆盖历史 Chunk 中的关键信息。相比之下,LLMxMapReduce 利用校准后的置信度来更好的处理跨片段冲突。

具体实验结果如下:

可以看到,结合 LLMxMapReduce 框架之后,Llama3-70B-Instruct x MapReduce 以 68.66 的最高平均分数,超越了闭源、开源模型以及其他基于 Llama3-70B-Instruct 的分治策略(即 LongAgent 和 Chain-of-Agents)。

此外,LLMxMapReduce 框架展现出较强的通用性,结合 Qwen2-72B 和 MiniCPM3 也取得了优异的成绩。

研究人员同样分析上下文置信度校准和结构化通信協定对框架性能的影响,在实验中逐步将这两个机制移除。实验结果显示,去除上下文置信度校准机制导致所有任务的性能下降。如果没有这两个机制,性能将会显著下降。这些结果证明了这两个机制在 LLMxMapReduce 框架中的关键作用。

100 万上下文大海捞针全绿

大海捞针(Needle-in-a-haystack ) 是一个在大模型领網域广泛应用的测试,用于评估大语言模型在处理长文本时识别特定事实的能力。为了评估 LLMxMapReduce 框架在处理极长文本方面的表现,研究人员将大海捞针测试的文本长度扩展至 1280K 个 token。

测试结果显示全绿:

实验结果表明,采用 LLMxMapReduce 方法的 Llama3-70B-Instruct 能够有效处理长度达到 1280K token 的序列,展示了该框架在处理超长序列时的卓越能力。

为了评估不同方法在处理长文本时的响应速度,研究人员进行了一项速度实验,使用 20 个测试示例,每个示例包含 128K 个 token。实验结果显示,因为更好地利用了分段并行,LLMxMapReduce 的处理速度比 128K 模型标准解码更快。

而且,由于结构化通信協定和上下文置信度校准机制不影响框架的并行推理,相比于 LongAgent 和 Chain-of-Agents 这两个同类型的分治框架,LLMxMapReduce 也具有明显的速度优势。

论文链接:https://arxiv.org/pdf/2410.09342

Github 链接:https://github.com/thunlp/LLMxMapReduce

InfiniteBench:https://github.com/OpenBMB/InfiniteBench?tab=readme-ov-file

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們