今天小編分享的教育經驗:OpenAI 12天·第2天:強化微調,用專業數據打造領網域專家級 AI,歡迎閲讀。
作者 | AI 工作坊 管理智慧
來源 | AI 深度研究員 管理智慧
咨詢合作 | 13699120588
文章僅代表作者本人觀點
OpenAI 12 天 的 第 2 天,強化微調(RFT),通過少量數據,讓模型在專業領網域到達專家水平。
OpenAI 今天宣布了一項創新的強化微調研究計劃。這項革新性的 AI 訓練方法可能目前和普通人關系沒那麼很大,但是為專業領網域的研究人員帶來了豐富的應用前景。
在與 OpenAI Research 高級副總裁 Mark Chen、伯克利實驗室環境基因組學和系統生物學計算研究員 Justin Reese 等專家的研讨中,這項技術的獨特價值得到了充分展示。該計劃允許開發人員在包含數十到數千個高質量任務的數據集上進行訓練,通過參考答案評估模型響應,從而實現 AI 模型在特定領網域的定制化能力提升。
與傳統微調方法不同,這種新型強化微調并非簡單地記憶數據答案,而是着重培養模型在特定領網域的推理能力。這個過程可以類比為向 AI 提供一本棋譜,讓它通過自主學習掌握下棋技巧。具體來説,該方法采用了雙數據集訓練策略:一個用于微調訓練,另一個用于效果驗證,通過反復的自我推理訓練和驗證過程,最終達到較高的專業水準。
這項技術在法律、保險、醫療保健、金融和工程等專業領網域展現出巨大的應用潛力,特别是在那些需要明确定義且專家共識的任務中。OpenAI 計劃在 2025 年初正式發布這一技術,在此之前,參與者将可以優先訪問 alpha API,并有機會通過共享數據集和提供反饋來協助完善這一技術。
示例説明它在開發平台上的樣子。展示了如何在 o1-mini 上選擇 RFT
1. 使用 RFT 時數據是什麼樣子的。使用評分器對模型的答案進行評分。将提供不同的評分器,并能夠使用自定義評分。
2. 儀表板顯示了 RFT 模型(ft:01-mini....)與其他模型相比的評估。
3. 非常酷的儀表板,用于分析 RFT 模型的結果。
展望未來,OpenAI 計劃在 2025 年初将強化微調技術(RFT)作為一款正式產品推向市場,讓更多用户能夠受益于這項創新技術。雖然 RFT 可能并非适用于所有應用場景,但其在科學研究領網域的潛力尤為顯著。
這項技術有望為科學發現帶來突破性進展,推動人工智能在科研領網域的模型創新,為人類知識的開拓提供新的可能。