大模型搅拌机来了！把11个AI的结果融合输出，艾伦研究所华人团队出品 - 大酷樂

今天小编分享的科学经验：大模型搅拌机来了！把11个AI的结果融合输出，艾伦研究所华人团队出品，欢迎阅读。

大模型这么多，到底该用哪一个？并且生成结果时好时坏，怎么破。

现在有一种方法，一招整合各家 LLM 特长，性能值拉满！让你不做选择全都拿捏。

现在通过LLM-Blender大模型集成框架，你输入问题，自动帮你排序各家 LLM 结果，然后 " 融合生成 " 最佳答案。

就像一个水果榨汁机，各个开源 LLM 代表不同水果，一箩筐放进去，根据不同水果特点，调配比例榨出好喝的果汁。

这个方法不仅可以有效减轻单一 LLM 中偏见错误和不确定性信息，且输出结果比 " 单用效果最好的 LLM" 还要高不少。

对此网友惊呼：简直太赞了！

博采众长，一个大模型搅拌机

现在开源大模型这么多，说到性能也是千差万别。通常我们都会直接选择最好的模型，来 Prompt 结果。

然鹅，这种方法也有一些限制。比如我们无法考虑所有可能的模型输出，并且新的数据可能导致我们选择不同的最佳结果。

现在的方法，要么是直接通过打分对比输出答案，要么也会对不同 LLM 答案进行融合，但整个过程仍会保留有害、或不正确的信息，输出结果相应也会大打折扣。

因此，为了解决这个问题和提高 LLM 的鲁棒性、泛化和准确性，Allen AI 实验室联合南加大和浙江大学的发表最新研究论文。

论文提出一个用集成框架 "LLM-Blender"，集合多个开源大模型（LLM）的优势，通过排序和融合生成两种方式，比较不同 LLM 生成结果，然后融合择优输出。

LLM-Blender 主要包含两个模块 "PairRanker" 和 "GenFuser"。

PairRanker 模块是一个 BERT 结构的编码器，通过双向注意机制捕捉输出结果之间的细微差异，然后对候选输出进行排名。

PairRanker 的运行流程是这样的。

首先，它会收集 N 个模型对每个输入的输出，并创建所有可能的输出对。

然后，使用特殊的编码器来比较这些输出对，以确定哪个候选输出更好，捕捉到微小的差异。

在推理阶段，计算一个矩阵，其中包含了所有输出对的比较结果。再根据矩阵确定给定输入的所有输出排名顺序。

最后，选择每个输入中排名最高的候选输出作为最终结果。

GenFuser 模块则是一个基于 Transformer 的编码器 - 解码器结构，使用单个编码器对输入文本和一些候选者进行编码，然后使用单个解码器解码融合的输出。

值得注意的是，它只将排名靠前的输出结果放入编码器，这样既避免了 " 噪音 " 感染，还能提升输出结果质量。

总结一下，LLM-Blender 的运转流程：

PairRanker 比较 N 个 LLM 的输出，然后通过 GenFuser 将它们融合，从排名前 N 的输出中生成最佳结果。

按照论文解释，通过这个运作流程，就能有效筛选并集合生成优质答案。

那么到底效果如何，下面是团队的评估过程。

集成 LLM 结果优于单个 LLM

为了保证可以在大量数据基础上进行评估，团队专门引入基准数据集 MixInstruct，用于在指令跟随任务中对 LLM 的集成模型进行基准测试。

团队对数据集中的 10 万个样本进行训练，5000 个用于验证，5000 个用于测试。然后，在这 11 万个示例上测试 11 个当下热门的开源大模型，比如 Vicuna、OpenAssistant、Alpaca、MPT 等。

根据对多个 LLM 模型在 MixInstruct 数据集上的表现，可以看到不同模型在表现上存在显著差异，各有优劣。其中，Open Assistant、Vicuna 和 Alpaca 是表现最好三个模型，而 Mosaic MPT、StableLM 和 Flan-T5 排名则较低。

其次，实验还得出部分优秀的模型表现并不稳定，许多其他模型的表现都优于它们。

例如，Koala 的平均 GPT-Rank 为 6.76，但大约 40% 的测试结果表明 Koala 产生了更好或同样优于 Open Assistant 和 Vicuna 的结果。

另外也可以看到，在排名工具这部分，与 BARTScore 和 GPT-Rank 的最佳模型 ( Open Assistant ) 相比，PairRanker 表现出更好的性能。

并且团队表示，使用从 PairRanker 中选出的前三名，并将其作为 GenFuser 的候选。在此基础上，LLM-Blender 展示了预期的卓越性能。尤其是在 GPT-Rank 方面，达到了 3.01，明显超过了最佳模型 Open Assistant 的（3.90）。

在 BERTScore（79.09）、BARTScore（-3.02）和 BELURT（-0.17）三个排名里得分也都不错。

实验证明，通过将 LLM-Blender 框架进行排名和融合，显著提高了 LLM 最终输出结果的质量。

团队提出 LLM-Blender 一个创新的集成框架，通过排名的方式来减少单个 LLM 的弱点，并通过融合生成来整合优势，来提高 LLM 的能力，可以说非常新颖。

不过该方法仍有一些可以优化的地方，比如引入更多的语言模型、使用不同的相似度计算方法等。

研究团队

论文由 Allen AI 实验室联合南加大和浙江大学一同发表，三位作者都来自中国，且都与南加大（USC）有关联。

姜东甫（Dongfu Jiang）是浙江大学计算机工程专业大四学生，即将去加拿大滑铁卢大学读 PhD，此前曾在南加大（USC）做过研究实习生，当时的导师正好是另外两名作者。

任翔（Xiang Ren）是南加大计算机科学系副教授和 INK 实验室主任，在艾伦人工智能研究所研究机器常识，也是谷歌学者。

林禹臣（Bill Yuchen Lin）是现任艾伦人工智能研究所青年研究员，本科在上海交大读计算机，PhD 在南加大也是计算机相关专业。

此外，南加大 NK 实验室、艾伦人工智能研究所的 Mosaic 团队的学者也参与了这一项目。

论文传送门：

https://arxiv.org/abs/2306.02561

参考链接：

[ 1 ] https://yuchenlin.xyz/LLM-Blender/#bg

[ 2 ] https://twitter.com/billyuchenlin/status/1668666357058277377