大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

清華廈大等提出“無限長上下文”技術,100萬大海撈針全綠,LlamaQwenMiniCPM都能上分

2024-11-09 简体 HK SG TW

今天小編分享的科學經驗:清華廈大等提出“無限長上下文”技術,100萬大海撈針全綠,LlamaQwenMiniCPM都能上分,歡迎閱讀。

大模型的記憶限制被打破了,變相實現 " 無限長 " 上下文。

最新成果,來自清華、廈大等聯合提出的LLMxMapReduce 長本文分幀處理技術。

LLMxMapReduce 技術通過将長上下文切分為多個片段,可以讓模型并行處理多個片段,并從不同片段中提取關鍵信息,然後匯總成為最終的答案。

特别地,團隊提出結構化通信協定和上下文置信度校準機制,實現對跨片段信息更有效的處理。這項技術可以打破大模型的記憶限制,實現上下文長度無限穩定拓展。

LLMxMapReduce 技術可作為大模型的長文本上分神器——它對大模型長文本能力具有普遍增強作用,且在文本不斷加長的情況下,仍能保持穩定性能、減少長文本的掉分情況。

比如結合了 LLMxMapReduce 框架之後的 Llama3-70B-Instruct x MapReduce 模型得分超越了包含 Kimi、GPT-4 在内的知名閉源和開源模型以及其他基于 Llama3-70B-Instruct 的分治方法(即 LongAgent 和 Chain-of-Agents)。

此外,LLMxMapReduce 框架展現出較強的通用性,結合 Qwen2-72B 和 MiniCPM3 也取得了優異的成績。

LLMxMapReduce 無限長文本技術原理

在大數據領網域,MapReduce 是一種分布式并行編程框架,具有橫向擴展的數據處理能力。受到 MapReduce 所體現的 " 分而治之 " 思想的啟發,研究人員設計了一種面向大模型的采用分治策略的長文本處理框架,稱為 LLMxMapReduce。

通過将長上下文切分為多個片段,LLMxMapReduce 讓模型并行處理多個片段,并從不同片段中提取關鍵信息,然後匯總成為最終的答案,從而實現無限長文本。這一技術對模型長文本能力具有普遍增強作用,且在文本不斷加長的情況下,仍能保持穩定性能、減少長文本的掉分情況。

最近,也有一些同類型的分治式長文本處理方法,比如 LongAgent 和 Chain-of-Agents。相比于模型一次處理完整長文檔,這類分治式長文本處理既有優勢,也有不足。

優勢主要在于:長度可擴展,不受限于模型本身的視窗大小,理論上可以支持任意長度輸入。

劣勢主要在于:将一個完整的長文檔切分為多個片段,可能會破壞跨片段的關鍵信息,導致模型根據某個片段 " 斷章取義 ",產生錯誤結論。團隊分析,會被切分片段影響的信息有兩類:

跨片段依賴 (Inter-Chunk Dependency):多個片段的信息相互依賴,綜合起來,才能產生一個完整的答案。比如要總結一個事件的時間脈絡,需要從很多個片段中提取關鍵的信息,才能形成一個完整的時間線。

跨片段衝突 (Inter-Chunk Conflict):多個片段的信息存在衝突,對于相同的問題,看不同的片段時可能得出不同的結論。比如要問一位導演一生最偉大的作品是什麼,在看他青年時期片段時,得出的是青年時的最大成就,而在看老年時期的片段,又會得出不同的結論。

為了解決這兩類問題,LLMxMapReduce 分别設計了以下方案:

結構化通信協定 (Structured Information Protocol):針對用戶的問題,模型在處理每個片段時,不是僅僅輸出中間答案,而是輸出結構體,包含豐富的相關信息。在 Reduce 階段,模型根據各個片段輸出的結構化信息,匯總得出最終結果。通過在 Map 和 Reduce 階段的結構化通信協定,希望能夠更好地處理跨片段依賴的問題,更好地得出綜合性答案。

{ Extracted Information: XXX # 與問題相關的關鍵信息 Rationale: XXX # 得出中間結果的推理過程 Answer: XXX # 根據當前片段的中間結果 Confidence Score: XXX # 模型對當前片段的結果的置信度,範圍為 1 到 5 之間 }

上下文置信度校準 (In-Context Confidence Calibration):模型在 Reduce 階段,會參考 Confidence 的值來匯總不同階段的信息,高 Confidence 的結果占據更多的主導權。為了讓模型在處理不同片段時具有一致的置信度評估标準,通過上下文學習的方式讓模型學會一個統一的置信度評估準則,讓置信度信息更加準确可靠,從而幫助模型在 Reduce 階段更好的處理跨片段衝突問題。

LLMxMapReduce 方法的流程圖如下所示:整體分為Map、Collapse和Reduce三個階段。

首先要将長文本切抽成多個小片段,這些片段可以并行處理,從而提高效率。

然後在 Map 階段,使用大模型對每個片段進行分析,然後應用上文所述的結構化通信協定,将提取的信息整合成結構體形式,以便後續處理。

接下來,在 Collapse 階段,如果所有片段的結果總長度超過模型的最大處理限制,模型将多個結構體壓縮為一個結構體,以減少上下文長度。在處理衝突信息時,模型會考慮置信度進行整合。

最後,在 Reduce 階段,模型根據壓縮後的信息匯總出最終的答案。它會優先考慮置信度較高的結果,從而确保得到的答案準确無誤。

通過以上工作流程,LLMxMapReduce 能夠更有效地處理長文本,避免因切分導致的信息丢失或錯誤結論,從而提高最終結果的準确性。

大模型長文本上分神器

為了驗證 LLMxMapReduce 技術的有效性,研究人員在業内權威的長文本評測 InfiniteBench 榜單上對不同模型進行了評測,InfiniteBench 是一個綜合性榜單,最長長度超過 2000k token。

研究人員和很多方法進行了對比,其中對比的基線共有三類:

閉源模型:

包括 GPT-4、Claude 2、Kimi-Chat,其中 GPT-4 和 Claude 2 的得分參照 InfiniteBench 原文,Kimi-Chat 為重新測量的得分;

開源模型:

包括 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 和 Qwen2-72B-Instruct,其中 YaRN-Mistral、Yi-6B-200K、Yi-34B-200K 的得分參照 InfiniteBench 原文,Qwen2-72B-Instruct 是自行測量的得分;

其他基于分治的長文本處理框架:

包括 LongAgent 和 Chain-of-Agents。這兩個分治框架的不同點在于處理跨片段信息的方式不同。

LongAgent 構建了一個 Leader Agent 來處理跨片段衝突。當不同的 Chunk 得出的答案不同時,Leader Agent 會組織重新閱讀衝突的片段,得出最終答案。

這種重復閱讀的機制帶來較大的時間開銷,并且 LongAgent 的通信内容比較單一,Leader Agent 處理衝突的能力有限。相比之下,LLMxMapReduce 的結構化通信協定包含的信息更為豐富。

Chain-of-Agents 通過順序逐一讀取各個 Chunk 來閱讀全文。

由于沒有顯式地處理衝突信息,可能會導致後續 Chunk 的信息覆蓋歷史 Chunk 中的關鍵信息。相比之下,LLMxMapReduce 利用校準後的置信度來更好的處理跨片段衝突。

具體實驗結果如下:

可以看到,結合 LLMxMapReduce 框架之後,Llama3-70B-Instruct x MapReduce 以 68.66 的最高平均分數,超越了閉源、開源模型以及其他基于 Llama3-70B-Instruct 的分治策略(即 LongAgent 和 Chain-of-Agents)。

此外,LLMxMapReduce 框架展現出較強的通用性,結合 Qwen2-72B 和 MiniCPM3 也取得了優異的成績。

研究人員同樣分析上下文置信度校準和結構化通信協定對框架性能的影響,在實驗中逐步将這兩個機制移除。實驗結果顯示,去除上下文置信度校準機制導致所有任務的性能下降。如果沒有這兩個機制,性能将會顯著下降。這些結果證明了這兩個機制在 LLMxMapReduce 框架中的關鍵作用。

100 萬上下文大海撈針全綠

大海撈針(Needle-in-a-haystack ) 是一個在大模型領網域廣泛應用的測試,用于評估大語言模型在處理長文本時識别特定事實的能力。為了評估 LLMxMapReduce 框架在處理極長文本方面的表現,研究人員将大海撈針測試的文本長度擴展至 1280K 個 token。

測試結果顯示全綠:

實驗結果表明,采用 LLMxMapReduce 方法的 Llama3-70B-Instruct 能夠有效處理長度達到 1280K token 的序列,展示了該框架在處理超長序列時的卓越能力。

為了評估不同方法在處理長文本時的響應速度,研究人員進行了一項速度實驗,使用 20 個測試示例,每個示例包含 128K 個 token。實驗結果顯示,因為更好地利用了分段并行,LLMxMapReduce 的處理速度比 128K 模型标準解碼更快。

而且,由于結構化通信協定和上下文置信度校準機制不影響框架的并行推理,相比于 LongAgent 和 Chain-of-Agents 這兩個同類型的分治框架,LLMxMapReduce 也具有明顯的速度優勢。

論文鏈接:https://arxiv.org/pdf/2410.09342

Github 鏈接:https://github.com/thunlp/LLMxMapReduce

InfiniteBench:https://github.com/OpenBMB/InfiniteBench?tab=readme-ov-file

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們