今天小編分享的互聯網經驗:斯坦福大學研究發現,AI 聊天機器人 ChatGPT 的表現很不穩定,歡迎閱讀。
斯坦福大學的一項新研究發現,熱門生成式人工智能(AI)聊天機器人 ChatGPT 的能力在幾個月内有所波動。
斯坦福大學的團隊評估了 ChatGPT 在幾個月内如何處理不同的任務。他們發現,ChatGPT 的能力随時間的推移而出現了不一致。目前,ChatGPT 有兩個版本——免費的 GPT-3.5 模型和更智能、更快速的付費 GPT-4 版本。 研究人員發現,GPT-4 在 3 月份能夠有效地解決數學問題,識别質數的準确率為 97.6%。三個月後,其準确率下降到了 2.4%。而另一方面,GPT-3.5 卻變得更好,從 7.4% 的準确率提高到了 86.8%。
研究人員還注意到,在編寫代碼和視覺推理方面也有類似的波動。斯坦福大學計算機科學教授 James Zou 稱:" 當我們調整一個大型語言模型來提高它在某些任務上的表現時,那可能會有很多意想不到的後果,可能會損害這個模型在其他任務上的表現…… 這個模型回答問題的方式有各種各樣的相互依賴性,這可能導致我們觀察到的一些惡化行為。"
研究人員認為,結果并不能真正反映 ChatGPT 性能的準确性狀态,而是顯示了微調模型帶來的意外後果。本質上,當修改模型的一部分來改善一個任務時,其他任務可能會受到影響。為什麼會這樣很難确定,因為沒有人知道 ChatGPT 是如何運作的,而且它的代碼也不是開源的。
随着時間的推移,研究人員注意到,ChatGPT 的回答不僅變得不太準确,而且還停止了解釋其推理過程。
由于 ChatGPT 的運作方式,要研究和衡量它的表現可能很困難,這項研究強調了觀察和評估驅動 ChatGPT 等工具的大型語言模型(LLM)性能變化的必要性。該研究已經在 arXiv 上發布,并正在等待同行評審。
來源:IT 之家