今天小編分享的科技經驗:為解決AI幻覺問題,OpenAI宣布換用新的訓練方法,歡迎閱讀。
自 2022 年末 OpenAI 方面發布 ChatGPT 以來,生成式 AI 和大模型相關技術就受到了大量的關注,并迎來了更為廣泛的應用。但與此同時,AI 技術也產生了諸多相關問題,例如 " 幻覺 "。為解決這一難題,日前 OpenAI 方面在一篇研究論文中指出,其正在用一種新的方法來訓練大模型。
據悉," 幻覺 " 是指 ChatGPT 等 AI 聊天機器人會用自行編造虛假信息進行回應。通俗來說,有時 ChatGPT 等 AI 聊天機器人看似在陳述事實,但實際引用的内容卻是 " 胡說八道 "。例如今年 2 月谷歌發布的聊天機器人 Bard,就曾對詹姆斯 · 韋伯太空望遠鏡做出了不真實的表述。
對此,OpenAI 方面在相關報告中寫到," 即使是最先進的 AI 模型也很容易產生謊言,它們在不确定的時刻往往表現出捏造事實的傾向。而這些幻覺在需要多步驟推理的領網域尤其嚴重,因為一個邏輯錯誤就足以破壞一個更大的解決方案 "。
據 OpenAI 方面表示,其所采用的新的訓練大模型的方法,是指在訓練中設定新的獎勵機制,即獎勵每個正确的推理步驟,而不僅僅是簡單地獎勵正确的最終結論。該公司指出,這種方法被稱為 " 過程監督 "、而不是 " 結果監督 ",它可能會提高 AI 的性能與準确性,因為這種策略鼓勵模型更多地遵循類似人類的 " 思維鏈 "。
對此,OpenAI 數學生成(mathgen)研究員 Karl Cobbe 表示," 檢測和緩解模型中的邏輯錯誤或者幻覺,将是構建高一致性 AGI(通用人工智能)的關鍵一步。這項研究的動機在于解決幻覺問題,使得模型具備解決挑戰性推理問題的強大能力 "。此外 Karl Cobbe 還透露,OpenAI 已經發布一套附帶數據集,其中包含 80 萬個人類标注,用于訓練研究論文中描述的這套模型。
但需要注意的是,OpenAI 公布的這一新的 AI 模型訓練方法也受到了一些質疑。例如電子隐私信息中心高級顧問兼 AI 與人權項目負責人 Ben Winters 便對其表示懷疑,并稱實際效果要在檢查完整的數據集和随附示例後才能确定。布朗大學技術責任中心主任 Suresh Venkatasubramanian 也認為,這項研究的意義更多在于初步觀察,而非實際應用。
【本文圖片來自網絡】