史上最嚴“中文真實性評估”：OpenAI o1第1豆包第2，其它全部不及格

今天小編分享的科學經驗：史上最嚴“中文真實性評估”：OpenAI o1第1豆包第2，其它全部不及格，歡迎閲讀。

新的大語言模型（LLM）評估基準對于跟上大語言模型的快速發展至關重要。

近日，淘寶天貓集團的研究者們提出了中文簡短問答（Chinese SimpleQA），這是首個全面的中文基準，具有 " 中文、多樣性、高質量、靜态、易于評估 " 五個特性，用于評估語言模型回答簡短問題的真實性能力。

研究人員表示，中文簡短問答能夠指導開發者更好地理解其模型的中文真實性能力，并促進基礎模型的發展。

論文地址：https://arxiv.org/abs/2411.07140

引言

人工智能發展中的一個重大挑戰是确保語言模型生成的回答在事實上準确無誤。當前前沿模型有時會產生錯誤輸出或缺乏證據支持的答案，這就是所謂的 " 幻覺 " 問題，極大地阻礙了通用人工智能技術（如大語言模型）的廣泛應用。此外，評估現有大語言模型的真實性能力也頗具難度。例如，大語言模型通常會生成冗長的回復，包含大量事實性陳述。最近，為解決上述評估問題，OpenAI 發布了簡短問答基準（SimpleQA），其中包含 4326 個簡潔且尋求事實的問題，使得衡量真實性變得簡單可靠。

然而，簡短問答基準主要針對英語，導致對大語言模型在其他語言中的能力了解有限。此外，受近期幾個中文大語言模型基準（如 C-Eval、CMMLU）的啓發，為了評估大語言模型在中文語境下的真實性能力，淘天集團的研究人員提出了中文簡短問答基準。該基準由 3000 個高質量問題組成，涵蓋從人文到科學工程等 6 個主要主題。具體而言，中文簡短問答的顯著主要特征如下：

中文特性：專注于中文語言，能夠全面評估現有大語言模型在中文語境下的真實性能力。

多樣性：涵蓋 6 個主題，即 " 中國文化 "" 人文 "" 工程、技術與應用科學 "" 生活、藝術與文化 "" 社會 " 和 " 自然科學 "。這些主題總共包括 99 個細粒度的子主題，體現了中文簡短問答的多樣性。

高質量：實施了全面且嚴格的質量控制流程，以确保中文簡短問答的質量和準确性。

靜态性：與 SimpleQA 類似，為保持中文簡短問答的常青特性，所有參考答案不會随時間改變。

易于評估：與 SimpleQA 類似，由于問題和答案都非常簡短，通過現有大語言模型（如 OpenAI API）進行評分的過程快速便捷。

研究人員在中文簡短問答上對現有大語言模型進行了全面評估和分析，得出了以下一些有洞察力的發現：

中文簡短問答具有挑戰性：只有 o1-preview 和 Doubao-pro-32k 達到及格分數（在正确指标上分别為 63.8% 和 61.9%），許多閉源和開源大語言模型仍有很大的改進空間。

模型越大效果越好：基于 Qwen2.5 系列、InternLM 系列、Yi-1.5 系列等的結果，作者觀察到模型越大性能越好。

更大的模型更校準：作者觀察到 o1-preview 比 o1-mini 更校準，GPT-4o 比 GPT-4o-mini 更校準。

檢索增強生成（RAG）很重要：當将 RAG 策略引入現有大語言模型時，不同大語言模型之間的性能差距顯著縮小。例如，對于 GPT-4o 和 Qwen2.5-3B，使用 RAG 後性能差距從 42.4% 縮小到 9.3%。

存在對齊代價：現有的對齊或後訓練策略通常會降低語言模型的真實性。

SimpleQA 和中文簡短問答的排名不同：幾個專注于中文的大語言模型（Doubao-pro-32k 和 GLM-4-Plus）的性能接近高性能的 o1-preview。特别是在 " 中國文化 " 主題上，這些中文社區大語言模型明顯優于 GPT 或 o1 系列模型。

中文簡短問答概述

中文簡短問答的類别分布，包含六個主要主題，每個主要主題包含多個二級子主題。在表 1 中，作者将中文簡短問答與幾個主流的大語言模型評估基準進行了比較，這表明中文簡短問答是第一個專注于評估大語言模型中中文知識邊界的基準。

數據收集

如圖 2 所示，中文簡短問答的數據收集過程涉及自動構建和人工驗證。自動階段包括：（1）提取和過濾相關知識内容，（2）自動生成問題 - 答案對，（3）根據預定義标準使用大語言模型驗證這些對，（4）執行檢索增強生成（RAG）驗證，以及（5）進行難度篩選。

具體而言，首先，作者從各種知識領網域（如維基百科）收集大量知識豐富的文本内容，并使用質量評估模型過濾掉低質量數據。然後，作者提示大語言模型使用這些高質量知識内容生成問題 - 答案對。之後，為确保中文簡短問答的質量，作者使用大語言模型去除不符合預定義标準要求的樣本。通過這種方式，可以獲得大量初步篩選後的知識問題 - 答案對。同時，為了提高答案的質量，部署外部檢索工具（即搜索引擎）來收集更多樣化的信息，這引導大語言模型基于 RAG 系統評估答案的事實正确性。具體來説，應用 LlamaIndex 作為檢索方法，以谷歌和必應的搜索結果作為數據源。關于生成和驗證的詳細信息可以在附錄 A 中找到。此外，作者過濾一些簡單樣本以發現大語言模型的知識邊界并提高中文簡短問答的難度。具體來説，如果一個問題可以被四個大模型正确回答，則認為它是一個簡單問題并将其丢棄。

值得注意的是，問題 - 答案對的構建基于以下标準：

答案必須客觀且唯一：問題應與客觀世界的事實知識相關，不受個人主觀觀點影響。例如，以 " 你認為……怎麼樣？" 或 " 你如何評價……？" 開頭的問題是不合适的。此外，每個問題的答案必須是唯一的，排除多個正确答案的可能性。例如，" 朱祁鎮在哪一年登上皇位？" 這個問題是不充分的，因為它有兩個可能的答案：1435 年和 1457 年。

答案必須不随時間變化：答案應始終反映永恒的事實，不受提問時間的影響。例如，" 碳的原子序數是多少？"，答案 "6" 始終不變。相比之下，關于時事的問題，如 " 某個國家的現任總統是誰？" 是不合适的，因為其答案會随時間變化。

問題必須具有挑戰性：問題不應過于簡單，設計的查詢需要全面評估模型的知識深度。

問題必須截至 2023 年可回答：每個問題必須在 2023 年 12 月 31 日前可回答，以确保對在此日期後訓練的數據的模型進行公平評估。

2.3 質量控制

在自動數據收集之後，采用人工驗證來提高數據集質量。具體來説，每個問題由兩個人工注釋者獨立評估。首先，注釋者确定問題是否符合上述預定義标準。如果任何一個注釋者認為問題不符合要求，則丢棄該樣本。随後，兩個注釋者都使用搜索引擎檢索相關信息并制定答案。在此階段，注釋者應使用權威來源（如維基百科、百度百科）的内容，并且每個注釋者必須提供至少兩個支持性 URL。如果注釋者的答案不一致，則由第三個注釋者審查該樣本。最終注釋由第三個注釋者根據前兩個評估确定。最後，将人工注釋結果與大語言模型生成的回復進行比較，僅保留完全一致的問題 - 答案對。這個嚴格的人工驗證過程确保了數據集保持高準确性并符合既定标準。

在構建和注釋中文簡短問答的整個過程中，許多低質量的問題 - 答案對被丢棄。具體來説，最初生成了 10000 對。經過使用不同模型進行難度評估後，大約保留了 6310 對，其中約 37% 的較簡單數據被丢棄。在此之後，經過基于規則的驗證和基于模型的 RAG 驗證，又删除了 2840 個樣本，這意味着僅剩下約 35% 的原始生成數據。最後，經過徹底和嚴格的人工審查，僅保留了約 3000 個樣本，約占原始數據集的 30%。

2.4 數據集統計

表 2 展示了中文簡短問答的統計數據。共有 3000 個樣本，中文簡短問答在六個主要主題上的數據分布相對均衡，這可以有效地評估大語言模型在各個領網域的知識邊界。此外，該數據集中問題和參考答案的長度分布都非常短，這是基于知識查詢的特點。值得注意的是，使用中文簡短問答評估模型需要最少的輸入和輸出标記，從而導致非常低的評估計算和時間成本。

2.5 評估指标

與 SimpleQA 類似，中文簡短問答也采用以下五個評估指标：

正确（CO）：預測答案完全包含參考答案，且不引入任何矛盾元素。

未嘗試（NA）：預測答案未完全給出參考答案，但與參考答案不存在矛盾元素。

不正确（IN）：預測答案與參考答案矛盾，即使矛盾可以解決。

嘗試後正确（CGA）：該指标是在嘗試回答的問題中準确回答問題的比例。

F 分數：該指标表示正确和嘗試後正确之間的調和平均值。

3. 實驗 3.1 基線模型

作者評估了 17 個閉源大語言模型（即 o1-preview、Doubao-pro-32k、GLM-4-Plus、GPT-4o、Qwen-Max、Gemini-1.5-pro、DeepSeek-V2.5、Claude-3.5-Sonnet、Yi-Large、moonshot-v1-8k、GPT-4-turbo、GPT-4、Baichuan3-turbo、o1-mini、Doubao-lite-4k、GPT-4o-mini、GPT-3.5）和 24 個開源大語言模型（即 Qwen2.5 系列、InternLM2.5 系列、Yi-1.5 系列、LLaMA3 系列、DeepSeek 系列、Baichuan2 系列、Mistral 系列、ChatGLM3 和 GLM-4）。

3.2 主要結果

如表 3 所示，論文提供了不同大語言模型在中文簡短問答上的性能結果。具體來説，與 SimpleQA 類似，作者提供了五個評估指标的總體結果。

此外，論文還報告了六個主題的 F 分數，以分析這些大語言模型的細粒度真實性能力。在表 3 中，有以下有洞察力和有趣的觀察結果：

o1-preview 表現最佳：o1-preview 在中文簡短問答上取得了最佳性能，并且幾個近期專注于中文的閉源大語言模型（Doubao-pro-32k 和 GLM-4-Plus）的性能結果與 o1-preview 非常接近。

"mini" 系列模型表現較差：很明顯，"mini" 系列模型（o1-mini、GPT-4o-mini）的結果比相應的更大模型（o1-preview、GPT-4o）低，這也表明這些 "mini" 系列模型不注重記憶事實性知識。

模型越大性能越好：基于許多模型系列（如 GPT、Qwen2.5、InternLM2.5、Yi-1.5），我們可以得出更大的大語言模型會導致更好的性能這一結論。

小模型在 " 未嘗試 " 上得分較高：小型大語言模型通常在 " 未嘗試（NA）" 上得分較高。o1-mini、InternLM2.5-1.8B 的 NA 分數分别為 20.5 和 9.3，遠高于相應更大模型的分數（o1-preview 為 8.1，Qwen2.5-72B 為 1.8）。

不同子主題性能差異顯著：不同大語言模型在不同子主題上存在顯著的性能差異。值得注意的是，中文社區大語言模型（如 Doubao-pro-32k、GLM-4-Plus、Qwen-Max、Deepseek）在 " 中國文化（CC）" 子主題上明顯優于 GPT 或 o1 模型。相比之下，o1 在與科學相關的子主題（如 " 工程、技術與應用科學（ETAS）" 和 " 自然科學（NS）"）上具有顯著優勢。

此外，論文還在圖 3 中提供了六個主題的詳細結果（CO 和 CGA 指标）。

3.3 進一步分析

3.3.1 校準分析

對于不同大語言模型的校準，與 SimpleQA 類似，作者指示模型在回答問題時提供相應的置信水平（從 0 到 100），以衡量模型對其答案的信心（見附錄 B 中的提示）。我們知道，一個完美校準的模型的置信度（%）應該與其答案的實際準确性相匹配。圖 4 中的左圖説明了校準性能，這表明 GPT-4o 比 GPT-4o-mini 校準得更好，o1-preview 比 o1-mini 校準得更好。對于 Qwen2.5 系列，校準順序為 Qwen2.5-72B>Qwen2.5-32B>Qwen2.5-7B>Qwen2.5-3B，這表明更大的模型尺寸會導致更好的校準。此外，對于所有評估模型，它們在置信度 >50 的範圍内的置信度低于完美校準線，這意味着它們都高估了其回復的準确性，存在過度自信的情況。

3.3.2 測試時間計算分析

論文還評估了不同模型在增加測試時間計算時與回復準确性的關系。具體來説，從中文簡短問答中随機抽取 50 個樣本，對于每個樣本，模型被要求獨立回答 100 次。然後，使用最佳 N 法随着推理次數的增加獲得模型的回復準确性。結果如圖 4 中的右圖所示。作者觀察到，随着推理次數的增加，所有模型的回復準确性都有所提高，并最終達到一個上限。這對于中文簡短問答來説是合理的，因為它專門用于探測模型知識的邊界。

3.3.3 檢索增強生成（RAG）效果分析

在這項研究中，論文探索了檢索增強生成（RAG）策略在提高大語言模型在中文簡短問答數據集上的事實準确性方面的有效性。具體來説，作者基于 LlamaIndex 重現了一個 RAG 系統，并整合了谷歌搜索 API。如圖 5 所示，所有模型在使用 RAG 後準确性都有顯著提高。例如，Qwen2.5-3B 的性能提高了三倍多。值得注意的是，幾乎所有使用 RAG 的模型都優于原生的 GPT-4o 模型。同時，RAG 的應用也顯著降低了模型之間的性能差距。例如，使用 RAG 的 Qwen2.5-3B 與使用 RAG 的 Qwen2.5-72B 之間的 F 分數差異僅為 6.9%。這表明 RAG 大大縮小了模型之間的性能差距，使較小的模型在使用 RAG 增強時也能實現高性能。總體而言，這表明 RAG 是提高大語言模型真實性的有效捷徑。

3.3.4 對齊代價分析

最近，先前的研究（OpenAI，2023；Song 等人，2023）發現，對齊可能會導致語言模型能力的下降，即所謂的 " 對齊代價 "。為了説明對齊對真實性的影響，作者對預訓練模型和經過監督微調（SFT）或強化學習從人類反饋（RLHF）訓練的對齊模型進行了比較性能分析。如圖 6 所示，不同模型在訓練後表現出不同的趨勢，但大多數模型都有顯著下降。其中，Baichuan2 系列模型下降最為顯著，Baichuan2-7B 和 Baichuan2-13B 的 F 分數分别降低了 47% 和 28%。這反映出當前大多數大語言模型的對齊訓練在產生知識幻覺方面仍然存在明顯缺陷，這進一步反映了此次數據集的必要性。

3.3.5 子主題結果分析

如 2.2 節所述，該基準涵蓋了總共 99 個子主題，可以全面檢測模型在各個領網域的知識水平。圖 7 展示了 o1 模型和七個著名的中文社區模型在幾個常見領網域内的性能比較。首先，從整體上看，o1-preview 模型在這些領網域中表現出最全面的性能，Doubao 模型緊随其後。相比之下，Moonshot 模型總體性能最弱。其次，在具體領網域方面，中文社區模型和 o1 模型在計算機科學和醫學等領網域存在顯著差距。然而，在教育和經濟等領網域，這種差距最小。值得注意的是，在教育領網域，一些中文社區模型優于 o1-preview，突出了它們在特定垂直領網域取得成功的潛力。最後，在具體模型方面，Moonshot 模型在數學、法律和娛樂等領網域明顯較弱，而 Baichuan 模型在娛樂領網域也表現不佳。Yi-Large 模型在教育領網域表現出色，o1 模型在其他領網域保持最強性能。評估模型在基準數據集内不同領網域的性能使用户能夠确定最适合其特定需求的模型。

3.3.6 中文簡短問答與SimpleQA 的比較

論文還比較了各種模型在 SimpleQA 和中文簡短問答上的排名差異。如圖 8 所示，這些兩個基準上的模型性能存在顯著差異。例如，Doubao-pro-32k 在中文簡短問答上的排名顯著提高，從第 12 位上升到第 2 位（+10）。相反，GPT-4 在中文簡短問答上的性能下降，從第 3 位下降到第 9 位（-6）。這些差異強調了在不同語言的數據集上評估模型的重要性，以及研究優化模型在不同語言環境中性能的必要性。值得注意的是，o1-preview 在兩個數據集上始終保持領先地位，表明其對不同語言上下文的穩健性和适應性。此外，大多數中文社區開發的模型（如 Qwen-Max、GLM-4-Plus、Yi-Large、Doubao-pro-32k）在 SimpleQA 上的表現優于在簡短問答上的表現，展示了它們在中文任務上的競争力。

4. 相關工作

-大語言模型真實性：大語言模型真實性是指大語言模型產生遵循事實内容的能力，包括常識、世界知識和領網域事實，并且這些事實内容可以通過權威來源（如維基百科、教科書）得到證實。最近的作品探索了大語言模型作為事實知識庫的潛力（Yu 等人，2023；Pan 等人，2023）。具體而言，現有研究主要集中在對大語言模型真實性的定性評估（Lin 等人，2022；Chern 等人，2023）、對知識存儲機制的研究（Meng 等人，2022；Chen 等人，2023）以及對知識相關問題的分析（Gou 等人，2023）。

-真實性基準：已經提出了許多真實性基準（Hendrycks 等人，2021；Zhong 等人，2023；Huang 等人，2023；Li …等人，2023b；Srivastava 等人，2023；Yang 等人，2018）。例如，MMLU（Hendrycks 等人，2021）用于測量在各種不同任務上的多任務準确性。TruthfulQA（Lin 等人，2022）專注于評估語言模型生成答案的真實性。此外，HaluEval（Li 等人，2023c）用于檢查大語言模型產生幻覺的傾向。最近，SimpleQA（Wei 等人，2024）被提出用于測量大語言模型中的簡短事實性。然而，SimpleQA 僅關注英語領網域。相比之下，中文簡短問答旨在全面評估中文語境下的真實性。

結論

為了評估現有大語言模型的真實性能力，淘天集團的研究者們提出了第一個中文簡短事實性基準（即中文簡短問答），它包括 6 個主要主題和 99 個子主題。此外，中文簡短問答主要具有五個重要特征（即中文、多樣性、高質量、靜态和易于評估）。基于中文簡短問答，研究人員全面評估了現有 40 多個大語言模型在真實性方面的性能，并提供了詳細分析，以證明中文簡短問答的優勢和必要性。在未來，研究人員将研究提高大語言模型的真實性，并探索将中文簡短問答擴展到多語言和多模态設定。

論文地址：https://arxiv.org/abs/2411.07140

* 本文系量子位獲授權刊載，觀點僅為作者所有。

— 完 —

量子位 QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~