RAG性能暴增20%！清華等推出“以筆記為中心”的深度檢索增強生成框架，復雜問答效果飙升

今天小編分享的科學經驗：RAG性能暴增20%！清華等推出“以筆記為中心”的深度檢索增強生成框架，復雜問答效果飙升，歡迎閱讀。

在當前大語言模型（LLMs）廣泛應用于問答、對話等任務的背景下，如何更有效地結合外部知識、提升模型對復雜問題的理解與解答能力，成為 RAG（Retrieval-Augmented Generation）方向的核心挑戰。

來自清華大學、中國科學院大學、華南理工大學、東北大學、九星（AI9Stars）的聯合研究團隊提出了一項全新的适應式 RAG 方法——DeepNote。

它首次引入 " 筆記（Note）" 作為知識載體，實現更深入、更穩定的知識探索與整合，在所有任務上均優于主流 RAG 方法，相較于基礎 RAG性能提升高達 +20.1%。即使在使用中小參數量模型時，依然展現出強大的能力與泛化性。

研究動機：RAG 為何仍力不從心？

RAG 技術通過引入外部知識（如 Wikipedia）來緩解大模型的幻覺與事實錯誤問題。然而，Vanilla RAG 方法只支持一次性檢索。

想象一個問題需要跨越多個實體或事實推理，顯然 " 一問一檢索一答 " 的 Vanilla RAG 已遠遠不夠。這種知識不足現象特别是在具有復雜的知識需求的 multi-hop QA、long-form QA 等任務中尤為嚴重。

為了應對這些復雜問答場景，一些研究提出多輪檢索 RAG。然而，多輪檢索 RAG 往往不假思索地執行多次檢索，易引入大量無關或噪聲段落，導致檢索結果冗雜，從而降低最終回答的質量。

為了進一步構建有效且靈活的 RAG 系統，一些近期的工作提出自适應 RAG，它引入動态決策機制，允許模型根據反饋判斷是否繼續檢索。但自适應 RAG 方法仍存在以下兩個核心問題：

檢索 - 生成耦合過緊：

每次檢索後立即生成答案，導致模型只能依據 " 當前輪 " 的知識作答，無法真正整合前後信息；

檢索策略決策不足：

大模型自行判斷 " 是否繼續檢索 " 容易偏離真正的知識需求，漏掉關鍵信息。

這些問題最終都導致一個核心困境：缺乏 " 信息生長 " 的能力——模型既無法感知自己是否 " 學到了新東西 "，也無法真正 " 記住 " 與 " 利用 " 之前獲取的信息。

解決方案：DeepNote

為解決上述難題，團隊提出了DeepNote，一種以 " 筆記 " 為中心、以 " 知識生長 " 為目标的深度檢索增強生成框架。其關鍵特性是：用 " 記下的知識 " 引導檢索，用 " 最優筆記 " 生成答案。

DeepNote 主要包含三個階段：

筆記初始化（Note Initialization）

系統基于初始問題和初次檢索内容構建出一份筆記，用于啟動整個知識積累過程。該筆記是 LLM 自主整理的結構化知識表示，作為後續所有檢索與判斷的依據。

基于筆記的适應式檢索（Note-Centric Adaptive Retrieval）

系統使用當前 " 最佳筆記 " 生成下一輪檢索查詢，并評估新獲取内容是否帶來了真正的知識增益。只有當模型判斷新知識 " 有價值 " 時，才會更新筆記并繼續下一輪；否則終止檢索。這一機制确保每一輪檢索都有明确目标、每一份信息都在 " 生長 "。

基于最佳筆記的答案生成（Note-Informed Answer Generation）

最終，系統使用已積累的 " 最佳筆記 " 生成回答，确保答案來源清晰、内容完整、邏輯連貫。

這一設計模拟了人類解決復雜問題時的策略：邊查邊記、反復比對、直至知識充分。

DeepNote 與主流方法對比

為了更直觀地展現 DeepNote 的特點，團隊整理了與現有代表性方法的能力對比表：

多次檢索：是否支持多次檢索。

自适應檢索：是否能根據當前信息動态地決定是否需要執行進一步的檢索動作以及檢索什麼。

模型訓練：是否對不同階段進行了針對性訓練或偏好優化。

一次性知識總結：是否在檢索後執行一次性檢索知識總結。

迭代知識總結：是否支持在多輪檢索中多次更新、積累、總結知識。

可以看到，DeepNote 是目前唯一在自适應檢索控制、自适應知識積累與更新、模型優化三大核心維度上同時實現系統性突破的方法。這一框架不僅填補了自适應檢索與知識積累之間的空白，更在具有復雜知識需求的任務中展現出前所未有的探索深度和廣度，标志着自适應 RAG 技術邁入了一個新的階段

實驗結果：顯著超越現有方法

在五個具有代表性的 QA 數據集上進行實證評估，涵蓋：

多跳問答（復雜）：HotpotQA, 2WikiMQA, MusiQue

長形式問答（復雜）：ASQA

短形式問答（簡單）：StrategyQA

結果顯示，DeepNote 在所有任務上均優于主流 RAG 方法，相較于基礎 RAG，性能提升高達 +20.1%。即使在使用中小參數量模型時，依然展現出強大的能力與泛化性。

同時團隊還構建了一個高質量訓練數據集 DNAlign，并結合 DPO（Direct Preference Optimization）對模型進行精細優化，進一步提升了 DeepNote 在多任務流程下的指令遵循能力與表現。

核心結論與意義

DeepNote 核心優勢分析如下

真正實現 " 信息生長 "：

每輪檢索不是獨立的 " 抽樣 "，而是建立在已有知識基礎上的持續拓展；

信息密度顯著提升：

相比傳統 RAG，DeepNote 的參考内容更緊湊、相關性更高；

Reference" 指最終用于生成回答的檢索内容或筆記；其中，與回答問題直接相關的片段被标注為 "Evidence"；而 "Knowledge Density" 則衡量 Evidence 在 Reference 中所占比例，用以評估知識的精煉程度。

在知識密度與性能分析中，團隊系聯考察了不同 RAG 方法對知識密度和質量的影響。實驗結果表明，Vanilla RAG 檢索文檔篇幅冗長但其知識密度較低，存在大量噪聲信息；而初始筆記雖然能夠通過單次總結有效提升知識密度，但其性能提升主要來自于檢索内容總體長度的縮減，且由于知識總量下降，可能會出現性能下降現象。相比之下，DeepNote 在保持高知識密度的同時，顯著提升了整體性能，表明基于筆記的自适應檢索機制能夠在降低噪聲幹擾的同時，持續積累更加豐富、精煉且高相關度的知識，為最終生成提供了更堅實的信息支撐。

支持自适應停止與深度控制：

用戶可設定失敗阈值和最大步數，自由權衡探索深度與成本；

高通用性：

可搭配多種開源或閉源模型及檢索器，适用于多種實際任務場景。

DeepNote 将 " 記憶式推理 " 機制引入 RAG 系統，打破了傳統 RAG" 檢索 - 生成 " 一步到位的瓶頸，使模型在復雜任務中具備了更接近人類的信息整合與推理能力。

該方法不僅适用于學術研究中對復雜信息的深入問答，還可用于法律、醫學、教育等對準确性與知識整合要求極高的真實場景，具備廣泛的落地潛力。

本項目由清華大學自然語言處理實驗室（THUNLP）、中國科學院大學信息工程研究所、華南理工大學、東北大學等部門共同完成，歡迎感興趣的研究者和開發者前來交流！

論文地址：https://arxiv.org/abs/2410.08821

開源項目： https://github.com/thunlp/DeepNote

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見