清華耶魯推理模型新範式：動态推理實現高效測試時擴展，大大節省Token消耗

今天小編分享的科學經驗：清華耶魯推理模型新範式：動态推理實現高效測試時擴展，大大節省Token消耗，歡迎閲讀。

推理性能提升的同時，還大大減少 Token 消耗！

清華、耶魯團隊提出推理模型新範式：動态推理實現高效測試時擴展。

測試時擴展（test-time scaling）技術加速推動了大語言模型在復雜推理領網域的突破。

以 OpenAI 的 o1 系列、DeepSeek-R1 等模型為代表，這些系統通過強化學習和大規模思維鏈（CoT）軌迹訓練，在數學證明、編程競賽等任務中展現出接近人類專家的水平。

例如，DeepSeek R1 在 MATH500 數學基準上達到 97.3% 的準确率，其核心在于允許模型在推理時動态擴展計算資源——生成更長的思維軌迹意味着更高的解題成功率。

然而，這種" 以計算換性能 "的策略帶來了顯著的效率代價。

現有方法通常強制分割上下文視窗：模型必須在前半段完成完整推理（如 R1 采用…分隔符），即使面對簡單問題也需消耗很大一部分的思考 tokens（thinking tokens）。

更嚴重的是，部分模型在復雜問題上會出現" 過度思考 "（overthinking）現象：生成冗餘的循環推理步驟卻無法提升準确率。論文中揭示，直接截斷超過 4096 tokens 的思考過程可能導致 DeepSeek-R1 性能下降 12.7%，這暴露了當前方法在效率與效果間的根本矛盾。

△（a ) 與傳統長思考模型相比，Z1 的動态思考視窗可以節省大量思考 token，達到高效推理性能 ( b )

針對這一挑戰，來自清華、耶魯團隊基于純代碼數據訓練了一個高效思考模型，其具有天然的動态推理能力，可根據問題難度高低生成不同長度的推理軌迹，同時搭配可調節的思考視窗，使得模型可以在預先設定的推理預算下實現高效的推理思考。

Z1：動态推理實現高效測試時擴展

本文的主要創新在于兩個層面：

1、數據層面：構建 Z1-Code-Reasoning-107K 數據集

作者創建了一個包含 10.7 萬條編程問題及其長短思維軌迹的數據集 Z1-Code-Reasoning-107K。通過 QwQ-32B 模型生成原始軌迹後，逐步提高推理等級，使其保留從 " 直接求解 " 到 " 多步推導 " 的連續復雜度分布。這種數據設計确保了模型在訓練過程中能夠接觸不同復雜度的推理軌迹，從而提升其在實際任務中的适應能力。在此數據集上訓練得到的 Z1 模型具備天然的動态推理能力，并且可遷移至數學等代碼以外的推理任務。

2、機制層面：設計動态思考視窗（Shifted Thinking Window）

作者抛棄了硬性分隔符約束，設計了Shifted Thinking Window機制。對于簡單問題（如 BigCodeBench-Hard 中的基礎函數實現），模型自動觸發弱推理模式，可直接輸出答案；當遇到 GPQA 鑽石級難題時，則自動啓用強推理模式，在 max thinking tokens 阈值内自由推導并給出結果，如果思考超限則自動追加提示短語引導輸出答案。

二者結合，使 Z1 模型具備動态思考能力和預算調整能力，在使用較少 thinking tokens 的同時，保持較高的基準準确率，實現高效動态的推理。