Meta版o1來了！田淵棟團隊整合快慢思考，能走迷宮推箱子

今天小編分享的科學經驗：Meta版o1來了！田淵棟團隊整合快慢思考，能走迷宮推箱子，歡迎閱讀。

Meta 版 o1 也來了。

田淵棟團隊帶來新作Dualformer，把快慢思考無縫結合，性能提升還成本更低。

能解決迷宮、推箱子等復雜問題。

通過讓模型在推理軌迹和最終答案上進行訓練，再基于特定策略丢掉部分軌迹，Dualformer 模型可以在模仿慢思考的同時，像快思考一樣走捷徑。

由此能形成更簡潔的思維鏈（CoT）。

從結果來看，在慢思考模式下，Dualformer 的最優解率達到 97.6%，推理步驟減少 45.5%。

自動切換快慢思考模式下，最優率也達到 96.6%，且推理步驟減少 59.9%。

o1 帶火了系統 2（慢思考），能讓大模型推理能力大幅提升。

但是随之而來的計算成本更高。

Dualformer 能很好結合快慢思考，從而緩解這一問題。

它建立在 Searchformer 這項工作的基礎上。Searchformer 是一個可以解決復雜推理任務的模型，在 A* 搜索算法生成的路徑上訓練而來，在路徑規劃任務（如迷宮、推箱子遊戲）上表現良好，可以以更高效率找到最優解。

研究發現，人類會在思考過程中傾向于找捷徑。為了更進一步模拟人類，Dualformer 在随機推理軌迹數據上進行訓練，并在訓練過程中依據定制的丢棄策略丢到部分結構。

比如在處理路徑規劃任務時，根據搜索軌迹中的不同子句（如 close 子句、子句中的 cost tokens、create 子句等）設計了四個級别的丢棄策略，從只丢棄 close 子句到丢棄整個軌迹，并在訓練時随機選擇應用這些策略。

基于這些策略，Dualformer 可以學習更簡潔有效的搜索和推理過程。

在推理階段，Dualformer 可配置快速模式（僅輸出解決方案）、慢速模式（輸出推理鏈和最終解決方案）或自動模式（自行決定推理模式）。

這種靈活的推理模式設計使得模型能夠根據不同任務需求和場景進行自适應調整，類似于人類思維在不同情況下的決策方式。

在具體任務上，研究設定了迷宮 ( Maze ) 和推箱子遊戲 ( Sokoban ) ，讓模型進行路徑規劃。以及數學推理任務。

對比來看，在迷宮任務中，o1-preview 和 o1-mini 模型輸出的路徑并不好，會 " 穿牆 "。

快思考模式下，Dualformer 的表現如下。

Dualformer 以 80% 的最優率完成這些任務，顯著優于僅基于解決方案數據訓練的 Solution-Only 模型，後者的最優率僅為 30%。

慢思考模式表現如下。

30 × 30 迷宮任務中，在 97.6% 的情況下可以達到最優解，同時推理步驟減少 45.5%。

自動切換快慢思考模式下，Dualformer 的最優率達到 96.6%，與 Searchformer 相比，推理步驟減少 59.9%。

将該方法推廣到 Mistral-7B 和 Llama3-8B 上，在 Aug-MATH 數據集上，模型的表現都有所提升。

比如在 Mistral-7B 模型上，當 p=0.1、0.2 和 0.3 時，Pass@20 度量的基線模型，其中絕對正确率增加到 61.9%。

最後，來看一下研究團隊陣容。

該研究由田淵棟等人帶來。

田淵棟現在是 Meta FAIR 的研究科學家主任，領導 LLM 推理、規劃和決策小組。

Qinqing Zheng 是 FAIR 的工程師，研究方向集中在生成模型和強化學習方面。她本科畢業于浙江大學，在芝加哥大學攻讀博士學位。2017-2019 年期間在 Facebook 擔任研究科學家，幫助 Facebook 建立了廣告推薦模型的分布式訓練系統。

Sainbayar Sukhbaatar 是 FAIR 的研究科學家，主要負責大模型推理和記憶方面研究。他曾先後在谷歌、DeepMind、Meta 任職。

Michael Rabbat 是 FAIR 的創始成員之一。加入 Meta 之前他曾是麥吉爾大學計算機工程系教授。研究領網域包括機器學習、分布式算法、信号處理等。

論文地址：

https://arxiv.org/pdf/2410.09918