OpenAI 推出“強化微調”計劃，讓創建專家大模型更簡單了

今天小編分享的互聯網經驗：OpenAI 推出“強化微調”計劃，讓創建專家大模型更簡單了，歡迎閱讀。

文 | 王方玉

編輯 | 蘇建勳

12 月 7 日北京時間凌晨兩點，OpenAI 公司帶來了連續 12 天發布會的第二場直播。

本次直播中，OpenAI 帶來了新的方案——強化微調（Reinforcement Fine-Tuning）。該方案和功能預計将于 2025 年正式推出。

強化微調是一種全新的模型定制方法，它将一個預訓練好的通用模型，通過在特定領網域的小規模數據集上進一步訓練，使其适應特定任務的技術。簡單來說就是在一個 " 學過很多東西 " 的大模型上，再讓它針對某個具體任務 " 重點練習 "，讓它更适合做這件事。

OpenAI 高管介紹稱，強化微調可以将大型語言模型從 " 高中水平 " 提升至 " 博士級專家 " 的能力，适合高校、研究人員和企業打造獨特的 AI 解決方案。例如 OpenAI 正在與湯森路透合作，打造專屬于該公司的法律專業模型。

沒有參與本場直播的 OpenAI CEO Sam Altman 在社交媒體表上：" 效果一級棒，是我 2024 年最大的驚喜，期待看到人們構建什麼！"

" 強化微調讓行業專家大模型的實現變得容易了。" 一位 AI 大模型應用企業的創始人告訴 36 氪，這是一項和普通用戶關聯不大，但對專業領網域工作者很有價值的新方案。

直播現場，OpenAI 展示了一個典型的案例——罕見遺傳病研究。

OpenAI 與伯克利實驗室和德國 Charit é 醫院的研究人員合作，使用強化微調訓練 GPT o1 Mini 模型。該模型學會了有效推理罕見疾病的成因，并在性能上超越了更大的 GPT o1 模型，展示了其在診斷和理解復雜病情方面的潛力。

值得一提的是，強化微調與此前的微調方式有着顯著差異。與傳統微調不同，強化微調并不是簡單地讓模型 " 記住答案 "，而是通過訓練模型在特定領網域中學會推理，找到正确答案。

具體來說，強化微調有兩個不同數據集合，一個是微調數據集，一個是測試數據集合，模型先基于微調數據集合去訓練，然後用測試數據集合驗證，反復自我推理訓練驗證，最終達到很高的水平。因而強化微調可以實現在數據量有限的情況下（有時僅需幾十個樣本）也能實現顯著性能提升。

不過，強化微調方案目前仍處于研究預覽階段，OpenAI 計劃在 2025 年全面推出。

目前 OpenAI 正邀請研究機構、大學以及企業參與強化微調研究計劃。OpenAI 希望與願意共享數據集的組織合作，進一步優化模型性能。