清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，LlamaQwenMiniCPM都能上分

今天小编分享的科学经验：清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，LlamaQwenMiniCPM都能上分，欢迎阅读。

大模型的记忆限制被打破了，变相实现 " 无限长 " 上下文。

最新成果，来自清华、厦大等联合提出的LLMxMapReduce 长本文分帧处理技术。

LLMxMapReduce 技术通过将长上下文切分为多个片段，可以让模型并行处理多个片段，并从不同片段中提取关键信息，然后汇总成为最终的答案。

特别地，团队提出结构化通信協定和上下文置信度校准机制，实现对跨片段信息更有效的处理。这项技术可以打破大模型的记忆限制，实现上下文长度无限稳定拓展。

LLMxMapReduce 技术可作为大模型的长文本上分神器——它对大模型长文本能力具有普遍增强作用，且在文本不断加长的情况下，仍能保持稳定性能、减少长文本的掉分情况。

比如结合了 LLMxMapReduce 框架之后的 Llama3-70B-Instruct x MapReduce 模型得分超越了包含 Kimi、GPT-4 在内的知名闭源和开源模型以及其他基于 Llama3-70B-Instruct 的分治方法（即 LongAgent 和 Chain-of-Agents）。

此外，LLMxMapReduce 框架展现出较强的通用性，结合 Qwen2-72B 和 MiniCPM3 也取得了优异的成绩。

LLMxMapReduce 无限长文本技术原理

在大数据领網域，MapReduce 是一种分布式并行编程框架，具有横向扩展的数据处理能力。受到 MapReduce 所体现的 " 分而治之 " 思想的启发，研究人员设计了一种面向大模型的采用分治策略的长文本处理框架，称为 LLMxMapReduce。

通过将长上下文切分为多个片段，LLMxMapReduce 让模型并行处理多个片段，并从不同片段中提取关键信息，然后汇总成为最终的答案，从而实现无限长文本。这一技术对模型长文本能力具有普遍增强作用，且在文本不断加长的情况下，仍能保持稳定性能、减少长文本的掉分情况。

最近，也有一些同类型的分治式长文本处理方法，比如 LongAgent 和 Chain-of-Agents。相比于模型一次处理完整长文档，这类分治式长文本处理既有优势，也有不足。

优势主要在于：长度可扩展，不受限于模型本身的視窗大小，理论上可以支持任意长度输入。

劣势主要在于：将一个完整的长文档切分为多个片段，可能会破坏跨片段的关键信息，导致模型根据某个片段 " 断章取义 "，产生错误结论。团队分析，会被切分片段影响的信息有两类：

跨片段依赖 （Inter-Chunk Dependency）：多个片段的信息相互依赖，综合起来，才能产生一个完整的答案。比如要总结一个事件的时间脉络，需要从很多个片段中提取关键的信息，才能形成一个完整的时间线。

跨片段冲突 （Inter-Chunk Conflict）：多个片段的信息存在冲突，对于相同的问题，看不同的片段时可能得出不同的结论。比如要问一位导演一生最伟大的作品是什么，在看他青年时期片段时，得出的是青年时的最大成就，而在看老年时期的片段，又会得出不同的结论。

为了解决这两类问题，LLMxMapReduce 分别设计了以下方案：

结构化通信協定 （Structured Information Protocol）：针对用户的问题，模型在处理每个片段时，不是仅仅输出中间答案，而是输出结构体，包含丰富的相关信息。在 Reduce 阶段，模型根据各个片段输出的结构化信息，汇总得出最终结果。通过在 Map 和 Reduce 阶段的结构化通信協定，希望能够更好地处理跨片段依赖的问题，更好地得出综合性答案。

{ Extracted Information: XXX # 与问题相关的关键信息 Rationale: XXX # 得出中间结果的推理过程 Answer: XXX # 根据当前片段的中间结果 Confidence Score: XXX # 模型对当前片段的结果的置信度，范围为 1 到 5 之间 }

上下文置信度校准 （In-Context Confidence Calibration）：模型在 Reduce 阶段，会参考 Confidence 的值来汇总不同阶段的信息，高 Confidence 的结果占据更多的主导权。为了让模型在处理不同片段时具有一致的置信度评估标准，通过上下文学习的方式让模型学会一个统一的置信度评估准则，让置信度信息更加准确可靠，从而帮助模型在 Reduce 阶段更好的处理跨片段冲突问题。

LLMxMapReduce 方法的流程图如下所示：整体分为Map、Collapse和Reduce三个阶段。

首先要将长文本切抽成多个小片段，这些片段可以并行处理，从而提高效率。

然后在 Map 阶段，使用大模型对每个片段进行分析，然后应用上文所述的结构化通信協定，将提取的信息整合成结构体形式，以便后续处理。

接下来，在 Collapse 阶段，如果所有片段的结果总长度超过模型的最大处理限制，模型将多个结构体压缩为一个结构体，以减少上下文长度。在处理冲突信息时，模型会考虑置信度进行整合。

最后，在 Reduce 阶段，模型根据压缩后的信息汇总出最终的答案。它会优先考虑置信度较高的结果，从而确保得到的答案准确无误。

通过以上工作流程，LLMxMapReduce 能够更有效地处理长文本，避免因切分导致的信息丢失或错误结论，从而提高最终结果的准确性。

大模型长文本上分神器

为了验证 LLMxMapReduce 技术的有效性，研究人员在业内权威的长文本评测 InfiniteBench 榜单上对不同模型进行了评测，InfiniteBench 是一个综合性榜单，最长长度超过 2000k token。

研究人员和很多方法进行了对比，其中对比的基线共有三类：

闭源模型：

包括 GPT-4、Claude 2、Kimi-Chat，其中 GPT-4 和 Claude 2 的得分参照 InfiniteBench 原文，Kimi-Chat 为重新测量的得分；

开源模型：

包括 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 和 Qwen2-72B-Instruct，其中 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 的得分参照 InfiniteBench 原文，Qwen2-72B-Instruct 是自行测量的得分；

其他基于分治的长文本处理框架：

包括 LongAgent 和 Chain-of-Agents。这两个分治框架的不同点在于处理跨片段信息的方式不同。

LongAgent 构建了一个 Leader Agent 来处理跨片段冲突。当不同的 Chunk 得出的答案不同时，Leader Agent 会组织重新阅读冲突的片段，得出最终答案。

这种重复阅读的机制带来较大的时间开销，并且 LongAgent 的通信内容比较单一，Leader Agent 处理冲突的能力有限。相比之下，LLMxMapReduce 的结构化通信協定包含的信息更为丰富。

Chain-of-Agents 通过顺序逐一读取各个 Chunk 来阅读全文。

由于没有显式地处理冲突信息，可能会导致后续 Chunk 的信息覆盖历史 Chunk 中的关键信息。相比之下，LLMxMapReduce 利用校准后的置信度来更好的处理跨片段冲突。

具体实验结果如下：