大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

o1不是唯一路徑!MIT新研究:在測試時訓練,模型推理能力最高升至5.8倍

2024-11-12 简体 HK SG TW

今天小編分享的科學經驗:o1不是唯一路徑!MIT新研究:在測試時訓練,模型推理能力最高升至5.8倍,歡迎閲讀。

o1 不是通向大模型推理的唯一路徑!

MIT 的新研究發現,在測試時對大模型進行訓練,可以讓推理水平大幅提升。

在挑戰超難的 ARC 任務時,準确率最高可提升至原來的 5.83 倍。

這樣的表現不僅優于 GPT-4 和 Claude,如果與其他推理方法相結合,還能超越人類的平均水準。

OpenAI o1 團隊成員Noam Brown表示,o1 的大規模計算可能不是最好的方法,很高興看到有學者在提高推理能力上探索新的方法。

在測試中訓練模型

不同于傳統的先訓練後測試模式,測試時訓練(Test-Time Training,TTT)在部署階段面對新的測試樣本時,不直接用訓練好的模型去推理。

在推理之前,測試樣本自身攜帶的信息,會通過快速的訓練過程被用于調整模型參數。

總體來説,TTT 過程中一共有三個關鍵階段——訓練數據生成、模型适應範式設計以及推理階段的策略。

數據生成的核心是将測試任務中藴含的輸入輸出對關系,通過數據增強的方式最大限度地利用,可具體分為兩個步驟。

首先是基于 leave-one-out 構造新的任務。

對于包含 K 個輸入輸出對的測試任務,依次将每個樣本留出作為測試樣本,其餘 K-1 個作為訓練樣本 , 由此構造出 K 個新的 TTT 訓練任務。

這樣就可以從一個測試任務出發,構造出 K 個結構一致但内容互補的新任務,從而擴充了 TTT 訓練數據。

在此基礎上,作者還進行了數據增強,主要包括對輸入輸出施加各類幾何變換,以及打亂訓練樣本對的順序。

經過這一步,TTT 訓練集的規模可以得到顯著擴大。

整個 TTT 數據構造過程可高度自動化,不依賴人工标注。

利用構造好的 TTT 數據集,就可以對預訓練好的語言模型進行測試時訓練。

考慮到測試時的資源限制,作者采用了參數高效的 LoRA,為每個測試任務學習一組獨立的 adapter 參數,附加在預訓練模型的每一層之上,通過一個低秩矩陣與原始權重相乘起到調節作用。

過程中還額外加入了對所有前綴序列的預測,目的是通過在各種長度的演示樣本上都計算損失,鼓勵模型盡早地從少量信息中總結出抽象規律,從而提高魯棒性。

最後,為了實現 TTT 效果的最大化,作者在推理階段應用了數據增強和集成學習策略。

推理過程中,先利用一系列預定義的幾何變換算子(如旋轉、翻轉等)擴充原始輸入,生成若幹等價視角下的輸入變體。

之後将每個變體輸入并行地送入 LoRA-tuned 模型,獨立完成預測,然後再對齊和還原到原始輸入空間,由此得到一組成對的預測。

在成對預測的基礎上,通過分兩層投票的方式完成集成融合:

第一層在每種變換内部進行投票,選出置信度最高的 Top-3 個預測 ;

第二層在不同變換的 Top-3 預測之間進行全局投票,選出最終的 Top-2 作為輸出。

這一推理策略,既通過數據增強引入了輸入的多樣性,又用分層投票的方式對不同來源的預測進行了結構化的組合,進一步提升了 TTT 方法的效果。

ARC 任務準确率最高升至 6 倍

為了評估 TTT 方法的效果,研究團隊以 8B 參數的 GPT-3 作為基礎模型進行了測試。

如果不使用 TTT 僅進行微調,模型在 ARC 數據集上的準确率只有 18.3%,加入 TTT 後提升到 47.1%,增長率達到了 157%。

另外,作者還從 ARC 數據集中随機選擇了 80 個任務作為子集進行了測試。

測試發現,TTT 方法對于 1B 模型的提升效果更加明顯,調整後模型的準确率接近調整前的 6 倍。

并且在調整前後,1B 和 8B 兩個規模的模型之間的相對差距也在縮小。

進一步地,作者還将 TTT 方法與之前在 ARC 任務上取得優異成績的BARC(Bootstrapping Approach for Reward model Construction)方法進行了比較和結合。

具體來説,作者首先獨立運行這兩個系統,得到它們在每個測試任務上的輸出。

如果兩者輸出完全一致,則直接認為推理結果是正确的;

如果輸出不一致,則看 BARC 是否能夠生成确定的、唯一覆蓋所有測試樣本的解題程式,若是則認為 BARC 的輸出更可靠;

反之,如果 BARC 生成了多個候選程式但無法确定最優解,或者幹脆無法生成任何滿足約束的程式,則認為 TTT 的輸出更可靠。

兩種方式配合使用後,取得了 61.9% 的 SOTA 成績,已經超過了人類的平均水平。

One More Thing

根據作者在推文中的介紹,在這篇論文發布前,一個叫做 MindsAI 的團隊已經發現使用了相同的技術。

利用 TTT 技術,該團隊已經用 58% 的正确率取得了 ARC 挑戰的第一名。

作者的論文發布之後,MindsAI 團隊領導者 Jack Cole 也發文進行了祝賀:

很高興,我們掀起了這場對 TTT 的興趣風暴。

同時,Jack 還推薦了另一名研究 TTT 的學者——斯坦福大學華人博士後Yu Sun,表示他的研究值得被關注。

Sun 的個人主頁顯示,他針對測試時訓練進行了大量研究,相關成果入選過 ICML、NeurIPS、ICLR 等多個頂級會議。

論文地址:

https://ekinakyurek.github.io/papers/ttt.pdf

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們