今天小編分享的互聯網經驗:OpenAI 推出“強化微調”計劃,讓創建專家大模型更簡單了,歡迎閱讀。
文 | 王方玉
編輯 | 蘇建勳
12 月 7 日北京時間凌晨兩點,OpenAI 公司帶來了連續 12 天發布會的第二場直播。
本次直播中,OpenAI 帶來了新的方案——強化微調(Reinforcement Fine-Tuning)。該方案和功能預計将于 2025 年正式推出。
強化微調是一種全新的模型定制方法,它将一個預訓練好的通用模型,通過在特定領網域的小規模數據集上進一步訓練,使其适應特定任務的技術。簡單來說就是在一個 " 學過很多東西 " 的大模型上,再讓它針對某個具體任務 " 重點練習 ",讓它更适合做這件事。
OpenAI 高管介紹稱,強化微調可以将大型語言模型從 " 高中水平 " 提升至 " 博士級專家 " 的能力,适合高校、研究人員和企業打造獨特的 AI 解決方案。例如 OpenAI 正在與湯森路透合作,打造專屬于該公司的法律專業模型。
沒有參與本場直播的 OpenAI CEO Sam Altman 在社交媒體表上:" 效果一級棒,是我 2024 年最大的驚喜,期待看到人們構建什麼!"
" 強化微調讓行業專家大模型的實現變得容易了。" 一位 AI 大模型應用企業的創始人告訴 36 氪,這是一項和普通用戶關聯不大,但對專業領網域工作者很有價值的新方案。
直播現場,OpenAI 展示了一個典型的案例——罕見遺傳病研究。
OpenAI 與伯克利實驗室和德國 Charit é 醫院的研究人員合作,使用強化微調訓練 GPT o1 Mini 模型。該模型學會了有效推理罕見疾病的成因,并在性能上超越了更大的 GPT o1 模型,展示了其在診斷和理解復雜病情方面的潛力。
值得一提的是,強化微調與此前的微調方式有着顯著差異。與傳統微調不同,強化微調并不是簡單地讓模型 " 記住答案 ",而是通過訓練模型在特定領網域中學會推理,找到正确答案。
具體來說,強化微調有兩個不同數據集合,一個是微調數據集,一個是測試數據集合,模型先基于微調數據集合去訓練,然後用測試數據集合驗證,反復自我推理訓練驗證,最終達到很高的水平。因而強化微調可以實現在數據量有限的情況下(有時僅需幾十個樣本)也能實現顯著性能提升。
不過,強化微調方案目前仍處于研究預覽階段,OpenAI 計劃在 2025 年全面推出。
目前 OpenAI 正邀請研究機構、大學以及企業參與強化微調研究計劃。OpenAI 希望與願意共享數據集的組織合作,進一步優化模型性能。