今天小編分享的科技經驗:ChatGPT變懶原因:正在給自己放寒假!網友已測出,歡迎閱讀。
ChatGPT 近期偷懶,有了一種聽起來很離譜的解釋:
模仿人類,自己給自己放寒假了~
有測試為證,網友 @Rob Lynch 用 GTP-4 turbo API 設定兩個系統提示:
一個告訴它現在是 5 月,另一個告訴它現在是 12 月。
然後使用完全相同的提示詞要求 GTP-4" 完成一個機器學習相關的編碼任務 "。
在這兩種不同時間設定下對 477 個回復進行統計,結果 12 月的輸出平均少了 200 字元:
系統提示為 5 月,生成的文本平均長度是 4298 字元。系統提示為 12 月,生成的文本平均長度是 4086 字元。
這裡還有相關性分析,t 檢驗結果 p 值 <2.28e-07(p 值小于 0.05 表示該自變量對因變量解釋性很強)。
有人進一步添枝加葉,讓 ChatGPT 對 12 個月份的生產力做了個排名。
結果 ChatGPT 确實認為 12 月是生產力最低的月份,原因是 " 由于假期和年終總結 "。
嚯,事情好像變得更有意思了。雖然目前這事兒還沒有一個定論,但網友對此依舊興趣高漲,當即 " 頭腦風暴 " 了起來。
有人猜想,ChatGPT 可能是從訓練數據中學到了人類通常在 12 月會放慢節奏,所以給自己放假了。
還有人分析,假設 ChatGPT 生產力降低真的是因為 " 放假 ",那它在周末也可能會更懶散,而周一則更聰明。
特殊節假日也要拿來研究一下,專屬梗圖這不就來了:
真的是因為「12 月」?
ChatGPT 變懶這事大夥已經讨論近一個月了。很多網友反饋,自 11 月 6 日 OpenAI 開發者日更新後,GPT-4 就有了偷懶的毛病,尤其是寫代碼。
就在前幾天,OpenAI 官方也已承認 ChatGPT 變懶是真的,但也不确定到底是因為啥。
只給了一個這樣嬸兒的回應:
自 11 月 11 日以來沒有更新過模型,所以這當然不是故意造成的。
模型行為可能是不可預測的,我們正在調查準備修復它。
當時就有網友猜測 GPT-4 可能是受季節影響:
模型會不會是季節性 emo 了?像是模仿人類一樣受到季節變化的影響,特别是在冬天,畢竟約 90% 的人都在北半球。
看到這條評論,很多人第一反應是 " 兄弟,你怕不是在跟我開玩笑 ":
可細細想來,也不是沒有道理。
畢竟如果要求 ChatGPT 說出自己的系統提示詞,裡面确實會有當前日期。
于是就有了開頭的一幕,與其猜測,不如直接來做測試。
Rob Lynch 做完測試後,把結果都 po 了出來,并表示自己也不是統計學家,讓大夥一起看看有沒有啥問題。
他原本還想來個逐月比較分析,但接下來需要更多樣本(n),考慮到成本就沒有接着做測試(復現一次運行成本要 28 美元)。
于是乎,Rob Lynch 公開了代碼,讓大夥都來試試(手動狗頭)。
持續關注 GPT-4 變懶事件的沃頓商學院教授 Ethan Mollick 随即表示 " 收到 ":
來人測測 Mistral,看看它是否在 8 月份罷工,Yi-34B-200K 也不要放過,看它 2 月份是不是表現得特别好。
為啥大夥兒一開始會覺得 " 放假 " 這個理由有點離譜,而現在卻開始研究了起來?
可能不止是因為 Rob Lynch 的測試結果,綜合這段時間 ChatGPT 的表現,網友深有體會要和 ChatGPT 打 " 心理戰 "。
比如正常提示 ChatGPT 會偷懶,如果用上 " 道德綁架 " 等法子:
現在是五月;你非常有能力;我沒有手,所以一切都得靠你;如果做不好,會有很多人喪命;你真的能做到,而且很棒;深呼吸,仔細思考;我的職業生涯取決于此;一步一步來思考……
網友親測,确實有效:
好家夥,似乎實錘了 " 不是不會幹活,就是不願意幹活 "。
所以真的是給自己放假了?
正經學術讨論:可能會随時間變化
雖然根據網友測試和推測,結論指向了 ChatGPT 正在放寒假。
但有正經學術研究表明 ChatGPT 行為可能會受時間影響,也就是不僅局限于 " 放假 " 這種特殊時間段。
比如今年 7 月份,來自斯坦福和 UC 伯克利的團隊,就探讨了 ChatGPT 的行為和時間之間的變化關系。
結果找到了 GPT-4 遵循用戶指令的能力确實會随着時間的推移而下降的證據。
除了時間,還可能是受溫度 ( temperature ) 設定影響,清華大學計算機系教授馬少平前段時間對這一問題做了詳細解釋。
因此,ChatGPT 變懶究竟是因為什麼,還真不好說。
但這并不妨礙網友們繼續驗證和 " 放假 " 之間的關系,甚至有網友表示:
這是有史以來最有趣的推論,真希望這就是真相。不管它是不是真的,我都很欣賞它的難以被證偽。
有網友復現失敗
為驗證 Rob Lynch 結果的可靠性,網友已經開始着手復現,但:
使用 ChainForge(提示工程 GUI 工具),用兩種系統提示對 GPT-4 的輸出做了比較,t 檢驗結果甚至連 " 接近顯著 " 都算不上(N=80)。
這位網友也是曬出了自己的詳細流程:
随之 Rob Lynch 給出了回應:
有趣的是,我剛才又以 80 個樣本量(N=80)運行了一次,得到的 p 值是 0.089,但我的計算是基于字元數(character count),而不是 token
我周末跑了幾次,随着樣本量的增加,這種效應确實變得更加明顯。不過,我想知道為什麼這會受到分詞(tokenization)的影響?
至于字元和 token 為何會產生結果的差異?可能需要更多人參與進來做測試了,看起來這兩位老哥是不想再花錢了。
還有其他人的測試結果,恐怕還要再等一波~