今天小編分享的科技經驗:谷歌 DeepMind 推 QuestBench 基準,測試 AI 模型的“補漏”能力,歡迎閲讀。
IT 之家 4 月 26 日消息,科技媒體 marktechpost 昨日(4 月 25 日)發布博文,報道稱谷歌 DeepMind 團隊推出 QuestBench 新基準,通過約束滿足問題(CSPs)框架,評估模型在推理任務中識别和獲取缺失信息的能力。
現實挑戰與信息獲取需求
大型語言模型(LLMs)在推理任務中廣受關注,涵蓋數學、邏輯、規劃和編碼等領網域。然而,現實世界的應用場景常常充滿不确定性。
用户在提出數學問題時常忽略重要細節,機器人等自主系統也必須在部分可觀測的環境中工作。這種理想化完整信息設定與現實不完備問題之間的矛盾,迫使 LLMs 發展主動信息獲取能力。
IT 之家援引博文介紹,識别信息缺口并生成針對性地澄清問題,成為模型在模糊場景中提供準确解決方案的關鍵。
QuestBench:評估信息缺口的新框架
為應對信息獲取挑戰,研究者推出了 QuestBench 基準,專門評估 LLMs 在推理任務中識别缺失信息的能力。
該基準将問題形式化為約束滿足問題(CSPs),聚焦于 "1-sufficient CSPs",即只需知道一個未知變量值即可解決目标變量的問題。
QuestBench 覆蓋邏輯推理(Logic-Q)、規劃(Planning-Q)和小學數學(GSM-Q / GSME-Q)三個領網域,按變量數量、約束數量、搜索深度和暴力搜索所需猜測次數四個難度軸分類,精準揭示模型的推理策略和性能瓶頸。
模型性能與未來改進空間
QuestBench 測試了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等領先模型,覆蓋零樣本、思維鏈和四樣本設定。測試于 2024 年 6 月至 2025 年 3 月間進行,涉及 288 個 GSM-Q 和 151 個 GSME-Q 任務。
結果表明,思維鏈提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在規劃任務中表現最佳。開源模型在邏輯推理上具競争力,但在復雜數學問題上表現不佳。
研究指出,當前模型在簡單代數問題上表現尚可,但随着問題復雜性增加,性能顯著下降,凸顯了在信息缺口識别和澄清能力上的改進空間。