今天小編分享的科學經驗:不要思考過程,推理模型能力能夠更強,歡迎閱讀。
其實……不用大段大段思考,推理模型也能有效推理!
是不是有點反常識?因為大家的一貫印象裡,推理模型之所以能力強大、能給出準确的有效答案,靠的就是長篇累牍的推理過程。
這個過程往往用時很長,等同于需要消耗大量算力。已經有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。
來自 UC 伯克利和艾倫實驗室團隊的最新研究結果打破了這一刻板印象——
通過簡單的 prompt 繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。
這種方法被稱為" 無思考(NoThinking)" 方法。
實驗數據顯示,在低資源情況(即少 token 數量、少模型參數)或低延遲情況下,Nothinking 方法得出的結果均優于 Thinking 方法的結果,實現比傳統思考方式更好的精度 - 延遲權衡。
其他情況下,NoThinking 方法在部分數據集上的表現也能超越 Thinking。
「思考」和「無思考」
研究團隊以 DeepSeek-R1-Distill-Qwen 模型為基礎,提出了 NoThinking 方法。
咱們先來分辨一下 Thinking 和 NoThinking 的區别在哪裡。
Thinking 方法是傳統推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然後再生成最終解決方案(Final Solution)。
好比你随意丢給模型一個問題,模型可能會先嘗試理解問題、分解問題、探索可能的解法,然後逐步驗證每個步驟的正确性,最後得出答案。
而研究人員最新提出的 NoThinking 方法,則通過簡單的 prompt 直接讓模型跳過顯式的思考過程。
也就是在 prompt 中預先填充一個空的思考塊,如在問題提示後直接添加 "<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>",然後讓模型直接從這個空思考塊開始生成最終解決方案。
例如,在問題提示後直接添加一個表示思考結束的标記,然後讓模型生成答案。
截至目前,Thinking 是大多數推理模型默認的推理方式。
但 NoThinking 團隊十分質疑這個過程的必要性
所以團隊成員以 DeepSeek-R1-Distill-Qwen 模型為基礎——選擇這個模型,是因為它是當前最先進的推理模型之一——設計了無思考(NoThinking)方法。
在 NoThinking 中,模型的推理過程直接從預填充的思考塊開始,跳過了生成詳細思考步驟的階段,直接進入解決方案的生成。
這意味着模型不需要花費時間來構建和輸出思考過程,從而減少了生成的 token 數量,提高了推理速度。
低資源情況下,NoThinking 表現優于 Thinking
研究人員将 NoThinking 與 Thinking 方法在相同的模型和數據集上進行對比實驗。
試圖通過控制 token 數量、模型參數等變量,比較兩種方法在不同任務上的準确性和效率差異。
他們選用了多個推理數據集來評估模型性能,這些數據集涵蓋了不同的推理任務類型和難度級别,能夠全面評估模型的推理能力:
包括數學問題解決(如 AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。
評估指标方面,則主要使用 pass@k 指标來衡量模型性能。pass@k 表示的是 " 在生成的 k 個樣本中至少有一個正确答案的概率 "。
此外,實驗過程還關注了 token 使用量和延遲等指标,以評估模型在資源消耗和響應速度方面的表現。
最後的實驗結果怎麼樣?
綜合表現如圖所示,這是無 token 預算下的最終結果:
這是有 token 預算下的最終結果:
數學問題解決
相同 token 預算下,在 AIME 和 AMC 等數學問題數據集上,NoThinking 通常比 Thinking 表現更好。
例如,在 ACM23 數據集上,當 token 數量限制為 700 時,NoThinking 的準确率是 51.3%,顯著高于 Thinking 的 28.9%。
這表明在數學推理任務中,直接生成解決方案可能比詳細思考更有效(尤其是在資源受限的情況下)。
形式定理證明
在 MiniF2F 和 ProofNet 數據集上,NoThinking 在 pass@k 指标上與 Thinking 相當,但使用的 token 數量顯著減少(3.3 – 3.7 倍)。
這表明在需要嚴格邏輯推理的任務中,即使沒有顯式的思考過程,NoThinking 也能保持高準确性,同時顯著降低計算成本。
編程任務
在 LiveCodeBench 數據集上:
在低 token 預算下,NoThinking 表現優于 Thinking
在高 token 預算下,Thinking 有時表現更好
這表明在編程任務中,思考過程可能在資源充足時提供一定優勢;但資源受限時,NoThinking 的效率更高。
NoThinking 的 pass@k 性能
随着 k 值(生成的樣本數量)增加,NoThinking 的 pass@k 性能通常會超過 Thinking。
這表明 NoThinking 生成的解決方案多樣性更高,能夠通過多次采樣提高準确性。
一個典型的例子體現在 AIME24 數據集上——
當 k=64 時,NoThinking 在相同 token 預算下的 pass@64 準确率顯著高于 Thinking。
這表明 NoThinking 在多次嘗試中更有可能找到正确答案。
并行擴展實驗
實驗過程中,團隊進一步探索了 NoThinking 與并行計算擴展結合的潛力。
通過同時生成多個輸出并進行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。
實驗結果表明,在結合并行擴展時,NoThinking 表現出了顯著的性能提升。
對于有 Verifier 的任務(如 MiniF2F 和 ProofNet),NoThinking 結合并行擴展可以實現與 Thinking 相當甚至更高的準确率,同時将延遲降低 7 倍,token 使用量減少 4 倍。
在沒有 Verifier 的任務中(如數學問題和編程),使用置信度選擇策略的 NoThinking 也能在低延遲下實現與 Thinking 相當或更好的準确率。
例如,在 AMC2023 數據集上,NoThinking 在并行擴展下比 Thinking 快 9 倍,同時準确率更高。
總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking 在延遲和 token 使用量上都優于 Thinking。
推理模型依賴于思考過程是 " 非必要的 "
綜上所述不難發現,雖然不同任務類型對 "NoThinking" 和 "Thinking" 的要求不同,但在低 token 預算和低延遲情況下,NoThinking 表現優于 Thinking,并且在并行擴展中展現出更高的效率。
NoThinking 方法在多個推理任務中表現出了令人驚訝的有效性表示:
即使跳過了顯式的思考過程,模型依然能夠生成準确的解決方案。
NoThinking 方法證明了 " 推理模型依賴于思考過程 " 的非必要性。換句話說,可能存在更高效的方式來實現強大的推理性能,而不依賴于冗長的思考過程。
這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。
面對這個結果,不少吃瓜群眾表達了自己的看法。
有贊成者,比如 ExtensityAI 的聯合創始人兼 CTO 就表示,這一點也不令人意外。
考慮到蒸餾過程,這個結果并不奇怪——學生可以在微調過程中内化老師的推理,并在推理時提供一條 " 捷徑 "。
但也有人表示 NoThinking 看似可以省略推理過程,但其實要耗費大量人工時間來實現:
結果雖如此,但實際操作裡到底有誰會耐心從 k 個答案裡去挑選最佳的那個啊??
不管怎麼說,Nothinking 還是帶給大家一個新視角,往後推理模型的優化,可以朝更簡單有效的方向嘗試看看。
或許有一天,大家在等推理模型吐精準答案的時候,也不用焦慮地等待那麼久了~
參考鏈接:
[ 1 ] https://arxiv.org/pdf/2504.09858
[ 2 ] https://x.com/rohanpaul_ai/status/1916693352923496477
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見