今天小编分享的教育经验:OpenAI 12天·第2天:强化微调,用专业数据打造领網域专家级 AI,欢迎阅读。
作者 | AI 工作坊 管理智慧
来源 | AI 深度研究员 管理智慧
咨询合作 | 13699120588
文章仅代表作者本人观点
OpenAI 12 天 的 第 2 天,强化微调(RFT),通过少量数据,让模型在专业领網域到达专家水平。
OpenAI 今天宣布了一项创新的强化微调研究计划。这项革新性的 AI 训练方法可能目前和普通人关系没那么很大,但是为专业领網域的研究人员带来了丰富的应用前景。
在与 OpenAI Research 高级副总裁 Mark Chen、伯克利实验室环境基因组学和系统生物学计算研究员 Justin Reese 等专家的研讨中,这项技术的独特价值得到了充分展示。该计划允许开发人员在包含数十到数千个高质量任务的数据集上进行训练,通过参考答案评估模型响应,从而实现 AI 模型在特定领網域的定制化能力提升。
与传统微调方法不同,这种新型强化微调并非简单地记忆数据答案,而是着重培养模型在特定领網域的推理能力。这个过程可以类比为向 AI 提供一本棋谱,让它通过自主学习掌握下棋技巧。具体来说,该方法采用了双数据集训练策略:一个用于微调训练,另一个用于效果验证,通过反复的自我推理训练和验证过程,最终达到较高的专业水准。
这项技术在法律、保险、医疗保健、金融和工程等专业领網域展现出巨大的应用潜力,特别是在那些需要明确定义且专家共识的任务中。OpenAI 计划在 2025 年初正式发布这一技术,在此之前,参与者将可以优先访问 alpha API,并有机会通过共享数据集和提供反馈来协助完善这一技术。
示例说明它在开发平台上的样子。展示了如何在 o1-mini 上选择 RFT
1. 使用 RFT 时数据是什么样子的。使用评分器对模型的答案进行评分。将提供不同的评分器,并能够使用自定义评分。
2. 仪表板显示了 RFT 模型(ft:01-mini....)与其他模型相比的评估。
3. 非常酷的仪表板,用于分析 RFT 模型的结果。
展望未来,OpenAI 计划在 2025 年初将强化微调技术(RFT)作为一款正式产品推向市场,让更多用户能够受益于这项创新技术。虽然 RFT 可能并非适用于所有应用场景,但其在科学研究领網域的潜力尤为显著。
这项技术有望为科学发现带来突破性进展,推动人工智能在科研领網域的模型创新,为人类知识的开拓提供新的可能。