今天小編分享的科技經驗:GPT-4 被曝“變蠢”!為了降本,OpenAI 偷偷搞“小動作”?,歡迎閱讀。
整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
" 你們有沒有覺得,最近 GPT-4 的質量有所下降?"
早在今年 5 月中旬開始,就有 GPT-4 用戶在 OpenAI 的在線開發者論壇中發帖,表示 GPT-4 好像開始 " 變蠢 " 了:
" 我使用 ChatGPT 已經有一段時間了,自 GPT-4 發布後,我就成為了 GPT Plus 用戶。我一般會用 GPT-4 來助力長篇内容的分析和創作。過去,GPT-4 似乎能很好地理解我的要求。但現在,它似乎失去了對信息的跟蹤,給了我很多錯誤的信息,誤解我要求的情況也越來越多……目前,GPT-4 感覺更像 GPT-3.5。
有沒有其他人注意到這一點,還是說只有我偶然遇到了這個問題?"
事實證明,這位 GPT-4 用戶并不是一個人——該帖下,許多用戶都留言稱:" 我也很有同感!"
問題百出的新版 GPT-4
根據許多使用者的反饋,GPT-4 除了在長篇内容的分析和創作上表現有所退步,在寫作質量上也有所下滑。
Roblox 的產品負責人 Peter Yang 在推特上表示,GPT-4 模型的輸出更快了,但質量變差了:" 只是簡單的問題,例如讓寫作更清晰簡潔并提供想法……在我看來,寫作質量下降了。"
在讨論 / 評估復雜的逆問題、不同的變化率或變化模式以及時空變異性時,最新版 GPT-4 的邏輯能力明顯下降。
" 在 GPT-4 更新之前,我很少收到錯誤的回復,但現在我必須仔細檢查所有輸出(即,現在雙重否定條件有時不能适當地轉換為肯定條件)。我認為這些錯誤更類似于 GPT-3.5,而不是之前的 GPT-4 推理水平。"
甚至在編碼能力上,新版 GPT-4 的輸出質量也不如以往。
一位用 GPT-4 為網站編寫功能代碼的開發者抱怨:" 目前的 GPT-4 很令人失望。這就像開了一輛法拉利一個月,然後突然變成了一輛破舊的皮卡,我不确定我是否會願意繼續為此付費。"
另一位開發者也提到現在的 GPT-4 會循環輸出代碼:" 完全糟透了,GPT-4 開始一遍又一遍地循環輸出代碼或其他信息。我讓它寫代碼,它寫到一個點,突然來個 "````",然後又開始!和以前相比,它現在簡直就是個白痴。"
除此之外,在推特和 OpenAI 的在線開發者論壇中,也不斷有用戶反映新版 GPT-4 邏輯弱化、產生很多錯誤響應、無法跟蹤提供的信息、不遵循說明要求、忘記在基本軟體代碼中添加括号、只記住最近的提示等種種問題。
對于 GPT-4 突然 " 降智 " 的表現,有用戶提出猜測:" 當前版本感覺跟剛推出時的版本大不相同,我猜 OpenAI 為了容納更多客戶選擇在質量上妥協!"
如此看來,如今用戶對于 GPT-4 的評價确實比不上它剛出道時的 " 風評 " 巅峰期。
GPT-4 變快了,卻也變 " 蠢 " 了
去年年底基于 GPT-3.5 的 ChatGPT 橫空出世,其卓越的生成能力掀起了一股 AIGC 熱潮,因此今年 3 月 OpenAI 公布比 GPT-3.5 更強大的 GPT-4 時,全世界都為之驚嘆。
當時,GPT-4 被稱之為 " 史上最強大的 AI 模型 ",尤其多模态的特點,意味着它既能理解影像,也能理解文字輸入,于是迅速成為了開發人員和其他技術業内人士的首選模型,也產生了更多對 GPT-4 的贊譽:10 秒生成一個網站、通過最難美國法考、滿分通過 MIT 本科數學考試……
不過在人們驚嘆于 GPT-4 的強大之時,其產生的費用及響應速度也令不少人感到震驚。對此,Lamini(一家幫助開發者建立定制大型語言模型的初創公司)的首席執行官 Sharon Zhou 表示:"GPT-4 雖然速度慢,但非常準确。"
一直到 5 月份,GPT-4 還一直保持着 " 又慢又貴但很準确 " 的狀态——後來,GPT-4 響應變快了,與此同時用戶對其性能下降的質疑也爆發了。
對于這個現象,包括 Sharon Zhou 在内的幾位 AI 專家認為:OpenAI 可能正在創建幾個較小的 GPT-4 模型,這些模型的作用與大型模型類似,但運行成本較低。
專家推測:或許與 MoE 技術有關
根據 Sharon Zhou 的介紹,這種方法被稱為 Mixture-of-Experts(MoE),即混合專家系統。MoE 技術是在神經網絡領網域發展起來的一種集成學習技術,也是目前訓練萬億參數量級模型的關鍵技術——由于現階段模型規模越來越大,導致訓練的開銷也日益增長,而 MoE 技術可以動态激活部分神經網絡,從而實現在不增加計算量的前提下大幅度增加模型參數量。
具體來說,MoE 會将預測建模任務分解為若幹子任務,在每個子任務上訓練一個專家模型(Expert Model),并開發一個門控模型(Gating Model),該模型可根據要預測的輸入來學習信任哪個專家,并組合預測結果。
那麼 MoE 技術引用到 GPT-4 是什麼情況呢?Sharon Zhou 解釋道,在 GPT-4 中這些小型專家模型會針對不同的任務和主題領網域進行訓練,例如可以有針對生物、物理、化學等方面的小型 GPT-4 專家模型,那麼當用戶向 GPT-4 提出問題時,新系統就會知道要把這個問題發送給哪個專家模型。另外,為了以防萬一,新系統可能會向兩個或更多的專家模型發送查詢,然後将結果混在一起。
對于這個做法,Sharon Zhou 的形容是 " 忒修斯之船 "(一種有關身份更替的悖論,假定某物體的構成要素被置換後,但它依舊是原來的物體嗎?),即随着時間的推移,OpenAI 會把 GPT-4 的各個部分替換掉:"OpenAI 正在将 GPT-4 變成一支小型艦隊。"
基于以上推測,Sharon Zhou 認為近來 GPT-4 " 變蠢 " 的言論,很可能就與 MoE 這種訓練方式有關:" 當用戶測試 GPT-4 時,我們會問很多不同的問題,而規模較小的 GPT-4 專家模型不會做得那麼好,但它正在收集我們的數據,它會改進和學習。"
GPT-4 架構曝光?
由于用戶對于 GPT-4 " 變蠢 " 的反饋越來越多,本周幾位 AI 專家也發布了所謂的 "GPT-4 架構細節 "。
其中,一位名為 Yam Peleg 的推特博主表示, GPT-4 有大約 1.8 萬億個參數,橫跨 120 層,比 GPT-3 大 10 倍以上,在約 13T token 上進行訓練,訓練成本約為 6300 萬美元……值得一提的是,Yam Peleg 也表示 OpenAI 在采用 MoE,即通過使用 16 個混合專家模型來降低 GPT-4 運行的成本。
截至目前,OpenAI 方面并沒有對這一說法做出回應。不過 Allen 人工智能研究所的創始首席執行官 Oren Etzioni 向媒體表示:" 雖然我也沒得到證實,但我認為這些猜測應該大致正确。"
他解釋道,一般使用 MOE 方法有兩種原因:要麼想要生成更好的響應,要麼想要更便宜、更快的響應。
" 理想情況下 MOE 會讓你同時獲得這兩方面的優勢,但現實中通常需要在成本和質量之間做出權衡。" 基于此,Oren Etzioni 認為結合現在的情況來看,OpenAI 似乎為了降低 GPT-4 的成本而犧牲了一些質量。
那麼對于這件事,你的看法又是什麼呢?
參考鏈接:
https://www.businessinsider.com/openai-gpt4-ai-model-got-lazier-dumber-chatgpt-2023-7?utm_source=reddit.com
https://community.openai.com/t/has-there-been-a-recent-decrease-in-gpt-4-quality/207392/9
https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/