7B小模型寫好學術論文，新框架告别AI引用幻覺，實測100%學生認可引用質量

今天小編分享的科學經驗：7B小模型寫好學術論文，新框架告别AI引用幻覺，實測100%學生認可引用質量，歡迎閱讀。

學術寫作通常需要花費大量精力查詢文獻引用，而以 ChatGPT、GPT-4 等為代表的通用大語言模型（LLM）雖然能夠生成流暢文本，但經常出現 " 引用幻覺 "（Citation Hallucination），即模型憑空捏造文獻引用。這種現象嚴重影響了學術論文的可信度與專業性。

現在，加拿大滑鐵盧大學與卡内基梅隆大學的華人研究團隊，提出了一種名為 ScholarCopilot 的智能學術寫作大模型框架，專門針對學術場景，致力于精準地生成帶有準确引用的學術文本。

ScholarCopilot 與傳統方法的區别

傳統的檢索增強生成（Retrieval-Augmented Generation, RAG）方法采用 " 先檢索、再生成 " 的靜态流程，這種方式存在以下問題：

檢索與生成過程相互獨立，容易導致意圖不匹配；

無法根據上下文需求動态調整引用策略，影響引用準确性。

針對這些局限性，ScholarCopilot 提出了一種 " 邊生成、邊檢索 " 的動态機制：

在生成文本時，模型動态地判斷何時需要引用文獻，并生成一個特殊的檢索信号（ [ RET ] ）；

随後實時檢索學術數據庫中的相關文獻，将檢索到的内容融入後續生成過程；

通過聯合優化生成任務和檢索任務，提升引用的準确度與相關性。

簡單來說，ScholarCopilot 的寫作方式更接近人類真實的寫作習慣：平時正常撰寫論文内容，當需要引用文獻時再主動檢索相關文獻的 BibTeX 信息插入引用，随後繼續撰寫下文。同時，模型在撰寫後續内容時，也會參考已插入的引用文獻，确保生成的文本與引用内容緊密相關。

ScholarCopilot 的性能表現

研究團隊以阿裡雲近期發布的 Qwen-2.5-7B 模型為基礎，使用了 50 萬篇 arXiv 論文進行訓練，并在多個維度上進行了性能評估：

引用檢索準确性（Top-1 accuracy）達到 40.1%，顯著超過現有的檢索模型：

E5-Mistral-7B-Instruct（15.0%）

BM25（9.8%）

論文生成質量方面（包括相關性、連貫性、學術嚴謹性、完整性和創新性），綜合得分為 16.2（滿分 25），高于參數量更大的 Qwen-2.5-72B-Instruct 模型（15.8）和 Qwen-2.5-7B-Instruct 模型（13.9）。

在一項由 10 位擁有平均 4.2 年學術寫作經驗的學生（5 名博士、4 名碩士、1 名大學生）參與的真人評測中：

ScholarCopilot 在引用質量上的用戶偏好率達到 100%；

整體實用性偏好率超過 70%。

ScholarCopilot 的不足與未來方向

盡管取得了顯著進步，ScholarCopilot 仍存在一些局限性。通過上述用戶調研，受訪者提出了以下幾點改進建議：

内容生成更全面：

模型在生成内容的豐富性與信息全面性方面仍需進一步提升；

創新性不足：

目前模型在生成創新性想法和研究問題方面表現一般，還有較大改進空間。

此外，受訪者還建議未來版本可考慮：

與主流學術寫作平台（如 Overleaf）進行更緊密的整合；

支持分章節獨立生成和任意遊標位置的文本預測功能。

研究團隊表示，這些反饋意見為後續開發提供了明确的改進方向。

後續展望

ScholarCopilot 研究團隊希望通過不斷優化模型性能、擴展檢索數據庫和改進用戶互動體驗，讓研究人員在學術寫作中能更專注于研究本身，而非繁瑣的文獻檢索與引用管理。

當前相關論文、代碼與模型已經公開發布，感興趣的讀者可自行了解詳細信息，進一步體驗與評估該模型的實際表現：

論文鏈接：https://arxiv.org/pdf/2504.00824

項目網站：https://tiger-ai-lab.github.io/ScholarCopilot/

演示視頻：https://www.youtube.com/watch?v=QlY7S52sWDA

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見