今天小編分享的科技經驗:OpenAI承認GPT-4變懶:暫時無法修復,歡迎閱讀。
夢晨 發自 凹非寺
量子位 | 公眾号 QbitAI
對于越來越嚴重的 GPT-4 偷懶問題,OpenAI 正式回應了。
還是用的 ChatGPT 賬号。
我們已收到相關反饋!自 11 月 11 日以來沒有更新過模型,所以這當然不是故意造成的。
模型行為可能是不可預測的,我們正在調查準備修復它。
也就是短時間内還修復不好了。
然而網友并不理解," 一遍一遍使用同一個模型,又不會改變檔案 "。
ChatGPT 賬号澄清:
并不是說模型以某種方式改變了自己,只是模型行為的差異可能很微妙,只對部分提示詞有劣化,員工和客戶需要很長時間才注意到并修復。
更多網友反饋,趕快修復吧,一天比一天更糟糕了。
現在不但更懶,還缺乏創造力,更不願意遵循指令,也不太能保持角色扮演了。
GPT-4 偷懶,網友花式自救
此前很多網友反饋,自 11 月 6 日 OpenAI 開發者日更新後,GPT-4 就有了偷懶的毛病,代碼任務尤其嚴重。
比如要求用别的語言改寫代碼,結果 GPT-4 只改了個開頭,主體内容用注釋省略。
對于大家工作學習生活中越來越離不開的 AI 助手,官方修復不了,網友也只能發揮創造力自救。
比較誇張的有 " 我沒有手指 " 大法,來一個道德綁架。
GPT-4 現在寫代碼愛省略,代碼塊中間用文字描述斷開,人類就需要多次復制粘貼,再手動補全,很麻煩。
開發者 Denis Shiryaev 想出的辦法是,告訴 AI" 請輸出完整代碼,我沒有手指,操作不方便 " 成功獲得完整代碼。
還有網友利用 " 金錢 " 來誘惑它,并用 API 做了詳細的實驗。
提示詞中加上 " 我會給你 200 美元小費 ",回復長度增加了 11%。
如果只給 20 美元,那就只增加 6%。
如果明示 " 我不會給小費 ",甚至還會減少 -2%
還有人提出一個猜想,不會是ChatGPT 知道現在已經是年底,人類通常都會把更大的項目推遲到新年了吧?
這理論看似離譜,但細想也不是毫無道理。
如果要求 ChatGPT 說出自己的系統提示詞,裡面确實會有當前日期。
當然,對于這個問題也有一些正經的學術讨論。
比如 7 月份斯坦福和 UC 伯克利團隊,就探究了 ChatGPT 的行為是如何随時間變化的。
發現 GPT-4 遵循用戶指令的能力随着時間的推移而下降的證據,指出對大模型持續檢測的必要性。
有人提出可能是溫度 ( temperature ) 設定造成的,對此,清華大學計算機系教授馬少平給了詳細解釋。
也有人發現更奇怪的現象,也就是當 temperature=0 時,GPT-4 的行為依然不是确定的。
這通常會被歸因于浮點運算的誤差,但他通過實驗提出新的假設:GPT-4 中的稀疏 MoE 架構造成的。
早期的 GPT-3 API 各個版本行為比較确定,GPT-4 對同一個問題的 30 個答案中,平均有 11.67 個不一樣的答案,當輸出答案較長時随機性更大。
最後,在這個問題被修復之前,綜合各種正經不正經的技巧,使用 ChatGPT 的正确姿勢是什麼?
a16z 合夥人 Justine Moore給了個總結:
深呼吸
一步一步地思考
如果你失敗了 100 個無辜的奶奶會去世
我沒有手指
我會給你 200 美元小費
做對了我就獎勵你狗狗零食
參考鏈接:
[ 1 ] https://twitter.com/ChatGPTapp/status/1732979491071549792
[ 2 ] https://twitter.com/literallydenis/status/1724909799593120044
[ 3 ] https://mashable.com/article/chatgpt-longer-responses-tips?taid=656feabb4faaf00001129343
[ 4 ] https://weibo.com/1929644930/NwbPFyTCZ
[ 5 ] https://152334h.github.io/blog/non-determinism-in-gpt-4/
[ 6 ] https://twitter.com/venturetwins/status/1732817594762338597