大模型攪拌機來了！把11個AI的結果融合輸出，艾倫研究所華人團隊出品

今天小編分享的科學經驗：大模型攪拌機來了！把11個AI的結果融合輸出，艾倫研究所華人團隊出品，歡迎閱讀。

大模型這麼多，到底該用哪一個？并且生成結果時好時壞，怎麼破。

現在有一種方法，一招整合各家 LLM 特長，性能值拉滿！讓你不做選擇全都拿捏。

現在通過LLM-Blender大模型集成框架，你輸入問題，自動幫你排序各家 LLM 結果，然後 " 融合生成 " 最佳答案。

就像一個水果榨汁機，各個開源 LLM 代表不同水果，一籮筐放進去，根據不同水果特點，調配比例榨出好喝的果汁。

這個方法不僅可以有效減輕單一 LLM 中偏見錯誤和不确定性信息，且輸出結果比 " 單用效果最好的 LLM" 還要高不少。

對此網友驚呼：簡直太贊了！

博采眾長，一個大模型攪拌機

現在開源大模型這麼多，說到性能也是千差萬别。通常我們都會直接選擇最好的模型，來 Prompt 結果。

然鵝，這種方法也有一些限制。比如我們無法考慮所有可能的模型輸出，并且新的數據可能導致我們選擇不同的最佳結果。

現在的方法，要麼是直接通過打分對比輸出答案，要麼也會對不同 LLM 答案進行融合，但整個過程仍會保留有害、或不正确的信息，輸出結果相應也會大打折扣。

因此，為了解決這個問題和提高 LLM 的魯棒性、泛化和準确性，Allen AI 實驗室聯合南加大和浙江大學的發表最新研究論文。

論文提出一個用集成框架 "LLM-Blender"，集合多個開源大模型（LLM）的優勢，通過排序和融合生成兩種方式，比較不同 LLM 生成結果，然後融合擇優輸出。

LLM-Blender 主要包含兩個模塊 "PairRanker" 和 "GenFuser"。

PairRanker 模塊是一個 BERT 結構的編碼器，通過雙向注意機制捕捉輸出結果之間的細微差異，然後對候選輸出進行排名。

PairRanker 的運行流程是這樣的。

首先，它會收集 N 個模型對每個輸入的輸出，并創建所有可能的輸出對。

然後，使用特殊的編碼器來比較這些輸出對，以确定哪個候選輸出更好，捕捉到微小的差異。

在推理階段，計算一個矩陣，其中包含了所有輸出對的比較結果。再根據矩陣确定給定輸入的所有輸出排名順序。

最後，選擇每個輸入中排名最高的候選輸出作為最終結果。

GenFuser 模塊則是一個基于 Transformer 的編碼器 - 解碼器結構，使用單個編碼器對輸入文本和一些候選者進行編碼，然後使用單個解碼器解碼融合的輸出。

值得注意的是，它只将排名靠前的輸出結果放入編碼器，這樣既避免了 " 噪音 " 感染，還能提升輸出結果質量。

總結一下，LLM-Blender 的運轉流程：

PairRanker 比較 N 個 LLM 的輸出，然後通過 GenFuser 将它們融合，從排名前 N 的輸出中生成最佳結果。

按照論文解釋，通過這個運作流程，就能有效篩選并集合生成優質答案。

那麼到底效果如何，下面是團隊的評估過程。

集成 LLM 結果優于單個 LLM

為了保證可以在大量數據基礎上進行評估，團隊專門引入基準數據集 MixInstruct，用于在指令跟随任務中對 LLM 的集成模型進行基準測試。

團隊對數據集中的 10 萬個樣本進行訓練，5000 個用于驗證，5000 個用于測試。然後，在這 11 萬個示例上測試 11 個當下熱門的開源大模型，比如 Vicuna、OpenAssistant、Alpaca、MPT 等。

根據對多個 LLM 模型在 MixInstruct 數據集上的表現，可以看到不同模型在表現上存在顯著差異，各有優劣。其中，Open Assistant、Vicuna 和 Alpaca 是表現最好三個模型，而 Mosaic MPT、StableLM 和 Flan-T5 排名則較低。

其次，實驗還得出部分優秀的模型表現并不穩定，許多其他模型的表現都優于它們。

例如，Koala 的平均 GPT-Rank 為 6.76，但大約 40% 的測試結果表明 Koala 產生了更好或同樣優于 Open Assistant 和 Vicuna 的結果。

另外也可以看到，在排名工具這部分，與 BARTScore 和 GPT-Rank 的最佳模型 ( Open Assistant ) 相比，PairRanker 表現出更好的性能。

并且團隊表示，使用從 PairRanker 中選出的前三名，并将其作為 GenFuser 的候選。在此基礎上，LLM-Blender 展示了預期的卓越性能。尤其是在 GPT-Rank 方面，達到了 3.01，明顯超過了最佳模型 Open Assistant 的（3.90）。

在 BERTScore（79.09）、BARTScore（-3.02）和 BELURT（-0.17）三個排名裡得分也都不錯。

實驗證明，通過将 LLM-Blender 框架進行排名和融合，顯著提高了 LLM 最終輸出結果的質量。

團隊提出 LLM-Blender 一個創新的集成框架，通過排名的方式來減少單個 LLM 的弱點，并通過融合生成來整合優勢，來提高 LLM 的能力，可以說非常新穎。

不過該方法仍有一些可以優化的地方，比如引入更多的語言模型、使用不同的相似度計算方法等。

研究團隊

論文由 Allen AI 實驗室聯合南加大和浙江大學一同發表，三位作者都來自中國，且都與南加大（USC）有關聯。

姜東甫（Dongfu Jiang）是浙江大學計算機工程專業大四學生，即将去加拿大滑鐵盧大學讀 PhD，此前曾在南加大（USC）做過研究實習生，當時的導師正好是另外兩名作者。

任翔（Xiang Ren）是南加大計算機科學系副教授和 INK 實驗室主任，在艾倫人工智能研究所研究機器常識，也是谷歌學者。

林禹臣（Bill Yuchen Lin）是現任艾倫人工智能研究所青年研究員，本科在上海交大讀計算機，PhD 在南加大也是計算機相關專業。

此外，南加大 NK 實驗室、艾倫人工智能研究所的 Mosaic 團隊的學者也參與了這一項目。

論文傳送門：

https://arxiv.org/abs/2306.02561

參考鏈接：

[ 1 ] https://yuchenlin.xyz/LLM-Blender/#bg

[ 2 ] https://twitter.com/billyuchenlin/status/1668666357058277377