大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

RAG性能暴增20%!清華等推出“以筆記為中心”的深度檢索增強生成框架,復雜問答效果飙升

2025-04-30 简体 HK SG TW

今天小編分享的科學經驗:RAG性能暴增20%!清華等推出“以筆記為中心”的深度檢索增強生成框架,復雜問答效果飙升,歡迎閱讀。

在當前大語言模型(LLMs)廣泛應用于問答、對話等任務的背景下,如何更有效地結合外部知識、提升模型對復雜問題的理解與解答能力,成為 RAG(Retrieval-Augmented Generation)方向的核心挑戰。

來自清華大學、中國科學院大學、華南理工大學、東北大學、九星(AI9Stars)的聯合研究團隊提出了一項全新的适應式 RAG 方法——DeepNote。

它首次引入 " 筆記(Note)" 作為知識載體,實現更深入、更穩定的知識探索與整合,在所有任務上均優于主流 RAG 方法,相較于基礎 RAG性能提升高達 +20.1%。即使在使用中小參數量模型時,依然展現出強大的能力與泛化性。

研究動機:RAG 為何仍力不從心?

RAG 技術通過引入外部知識(如 Wikipedia)來緩解大模型的幻覺與事實錯誤問題。然而,Vanilla RAG 方法只支持一次性檢索。

想象一個問題需要跨越多個實體或事實推理,顯然 " 一問一檢索一答 " 的 Vanilla RAG 已遠遠不夠。這種知識不足現象特别是在具有復雜的知識需求的 multi-hop QA、long-form QA 等任務中尤為嚴重。

為了應對這些復雜問答場景,一些研究提出多輪檢索 RAG。然而,多輪檢索 RAG 往往不假思索地執行多次檢索,易引入大量無關或噪聲段落,導致檢索結果冗雜,從而降低最終回答的質量。

為了進一步構建有效且靈活的 RAG 系統,一些近期的工作提出自适應 RAG,它引入動态決策機制,允許模型根據反饋判斷是否繼續檢索。但自适應 RAG 方法仍存在以下兩個核心問題:

檢索 - 生成耦合過緊:

每次檢索後立即生成答案,導致模型只能依據 " 當前輪 " 的知識作答,無法真正整合前後信息;

檢索策略決策不足:

大模型自行判斷 " 是否繼續檢索 " 容易偏離真正的知識需求,漏掉關鍵信息。

這些問題最終都導致一個核心困境:缺乏 " 信息生長 " 的能力——模型既無法感知自己是否 " 學到了新東西 ",也無法真正 " 記住 " 與 " 利用 " 之前獲取的信息。

解決方案:DeepNote

為解決上述難題,團隊提出了DeepNote,一種以 " 筆記 " 為中心、以 " 知識生長 " 為目标的深度檢索增強生成框架。其關鍵特性是:用 " 記下的知識 " 引導檢索,用 " 最優筆記 " 生成答案。

DeepNote 主要包含三個階段:

筆記初始化(Note Initialization)

系統基于初始問題和初次檢索内容構建出一份筆記,用于啟動整個知識積累過程。該筆記是 LLM 自主整理的結構化知識表示,作為後續所有檢索與判斷的依據。

基于筆記的适應式檢索(Note-Centric Adaptive Retrieval)

系統使用當前 " 最佳筆記 " 生成下一輪檢索查詢,并評估新獲取内容是否帶來了真正的知識增益。只有當模型判斷新知識 " 有價值 " 時,才會更新筆記并繼續下一輪;否則終止檢索。這一機制确保每一輪檢索都有明确目标、每一份信息都在 " 生長 "。

基于最佳筆記的答案生成(Note-Informed Answer Generation)

最終,系統使用已積累的 " 最佳筆記 " 生成回答,确保答案來源清晰、内容完整、邏輯連貫。

這一設計模拟了人類解決復雜問題時的策略:邊查邊記、反復比對、直至知識充分。

DeepNote 與主流方法對比

為了更直觀地展現 DeepNote 的特點,團隊整理了與現有代表性方法的能力對比表:

多次檢索:是否支持多次檢索。

自适應檢索:是否能根據當前信息動态地決定是否需要執行進一步的檢索動作以及檢索什麼。

模型訓練:是否對不同階段進行了針對性訓練或偏好優化。

一次性知識總結:是否在檢索後執行一次性檢索知識總結。

迭代知識總結:是否支持在多輪檢索中多次更新、積累、總結知識。

可以看到,DeepNote 是目前唯一在自适應檢索控制、自适應知識積累與更新、模型優化三大核心維度上同時實現系統性突破的方法。這一框架不僅填補了自适應檢索與知識積累之間的空白,更在具有復雜知識需求的任務中展現出前所未有的探索深度和廣度,标志着自适應 RAG 技術邁入了一個新的階段

實驗結果:顯著超越現有方法

在五個具有代表性的 QA 數據集上進行實證評估,涵蓋:

多跳問答(復雜):HotpotQA, 2WikiMQA, MusiQue

長形式問答 (復雜):ASQA

短形式問答 (簡單):StrategyQA

結果顯示,DeepNote 在所有任務上均優于主流 RAG 方法,相較于基礎 RAG,性能提升高達 +20.1%。即使在使用中小參數量模型時,依然展現出強大的能力與泛化性。

同時團隊還構建了一個高質量訓練數據集 DNAlign,并結合 DPO(Direct Preference Optimization)對模型進行精細優化,進一步提升了 DeepNote 在多任務流程下的指令遵循能力與表現。

核心結論與意義

DeepNote 核心優勢分析如下

真正實現 " 信息生長 ":

每輪檢索不是獨立的 " 抽樣 ",而是建立在已有知識基礎上的持續拓展;

信息密度顯著提升:

相比傳統 RAG,DeepNote 的參考内容更緊湊、相關性更高;

Reference" 指最終用于生成回答的檢索内容或筆記;其中,與回答問題直接相關的片段被标注為 "Evidence";而 "Knowledge Density" 則衡量 Evidence 在 Reference 中所占比例,用以評估知識的精煉程度。

在知識密度與性能分析中,團隊系聯考察了不同 RAG 方法對知識密度和質量的影響。實驗結果表明,Vanilla RAG 檢索文檔篇幅冗長但其知識密度較低,存在大量噪聲信息;而初始筆記雖然能夠通過單次總結有效提升知識密度,但其性能提升主要來自于檢索内容總體長度的縮減,且由于知識總量下降,可能會出現性能下降現象。相比之下,DeepNote 在保持高知識密度的同時,顯著提升了整體性能,表明基于筆記的自适應檢索機制能夠在降低噪聲幹擾的同時,持續積累更加豐富、精煉且高相關度的知識,為最終生成提供了更堅實的信息支撐。

支持自适應停止與深度控制:

用戶可設定失敗阈值和最大步數,自由權衡探索深度與成本;

高通用性:

可搭配多種開源或閉源模型及檢索器,适用于多種實際任務場景。

DeepNote 将 " 記憶式推理 " 機制引入 RAG 系統,打破了傳統 RAG" 檢索 - 生成 " 一步到位的瓶頸,使模型在復雜任務中具備了更接近人類的信息整合與推理能力。

該方法不僅适用于學術研究中對復雜信息的深入問答,還可用于法律、醫學、教育等對準确性與知識整合要求極高的真實場景,具備廣泛的落地潛力。

本項目由清華大學自然語言處理實驗室(THUNLP)、中國科學院大學信息工程研究所、華南理工大學、東北大學等部門共同完成,歡迎感興趣的研究者和開發者前來交流!

論文地址:https://arxiv.org/abs/2410.08821

開源項目: https://github.com/thunlp/DeepNote

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們