今天小編分享的互聯網經驗:解決AI落地的最大障礙,OpenAI找到辦法了?,歡迎閱讀。
OpenAI 似乎找到了解決生成式人工智能 " 一本正經胡說八道 " 的辦法。
5 月 31 日,OpenAI 在其官網宣布,已經訓練了一個模型,能夠有助于消除生成式 AI 常見的 " 幻覺 " 和其他常見問題。
OpenAI 表示,可以訓練獎勵模型來檢測幻覺,獎勵模型又分為結果監督(根據最終結果提供反饋)或過程監督(為思維鏈中的每個步驟提供反饋)模型。
也就是說,過程監督獎勵推理的每個正确步驟,而結果監督只是簡單地獎勵正确的答案。
OpenAI 表示,相比之下,過程監督有一個重要的優勢——它直接訓練模型以產生由人類認可的思維鏈:
過程監督與結果監督相比有幾個一致性優勢。它直接獎勵遵循一致的思維鏈的模型,因為過程中的每一步都得到了精确的監督。
過程監督也更有可能產生可解釋的推理,因為它鼓勵模型遵循人類批準的過程
結果監督可能會獎勵一個不一致的過程,而且通常更難審查。
OpenAI 在數學數據集上測試了這兩種模型,發現過程監督方法導致了 " 顯著更好的性能 "。
但需要注意的是,到目前為止,過程監督方法僅在數學領網域進行了測試,并且需要更多的工作來觀察它如何更普遍地執行。
此外,OpenAI 沒有說明這一研究需要多長時間才能應用在 ChatGPT,它仍然處于研究階段。
雖然最初的結果是好的,但 OpenAI 确實提到,更安全的方法會產生降低的性能,稱為對齊稅(alignment tax)。
目前的結果顯示,在處理數學問題時,過程監督不會產生對齊稅,但在一般的信息上的情況尚不知曉。
生成式 AI 的 " 幻覺 "
生成式 AI 問世以來,圍繞其編造虛假信息、" 產生幻覺 " 的指控從未消失,這也是目前生成式 AI 模型最大的問題之一。
今年 2 月,谷歌為應對微軟資助下 ChatGPT,倉促推出了聊天機器人 Bard,結果卻被發現在演示中出現了常識性錯誤,導致谷歌股價大跌。
導致 AI 出現幻覺的原因有多種,輸入數據欺騙 AI 程式進行錯誤分類是其中一種。
例如,開發人員使用數據 ( 如影像、文本或其他類型 ) 來訓練人工智能系統,如果數據被改變或扭曲,應用程式将以不同的方式解釋輸入并產生不正确的結果。
幻覺可能會出現在像 ChatGPT 這樣的基于語言的大型模型中,這是由于不正确的轉換器解碼,導致語言模型可能會產生一個沒有不合邏輯或模糊的故事或叙述。