今天小編分享的科學經驗:GPT-4.5登頂6小時即失守!Grok-3上演1分逆襲,歡迎閱讀。
基礎模型競争又緊張刺激起來了!
GPT-4.5剛登頂競技場且全任務分類第一名,6 小時後總榜就被馬斯克的新版Grok-3反超。
兩者都是獲得 3000+ 票數,總分 1412:1411只差一分。
目前 Grok-3 總分第一,只在總體帶風格控制、困難提示詞帶風格控制和略輸 GPT-4.5 一點。
DeepSeek-R1 總分第 6,數學和困難提示詞帶風格控制分項與 GPT-4.5 并列第一。
也有用戶對此結果產生了懷疑,僅僅 6 個小時就能發生如此大的變化嗎?
有人解釋原因在于,大模型競技場有一個投票數量門檻,兩個一周前發布的模型剛好先後達到 3000 票才會出現在榜單上。
不過抛開跑分之外,GPT-4.5 的口碑也在悄然翻轉。
GPT-4.5 口碑翻轉
GPT-4.5 剛發布時顯得又大又貴,官方強調情商看起來很虛,看跑分也沒比 GPT-4o 高到哪裡去了。
但幾天後,誇他情商高的用戶确實多了起來。
奧特曼本曼也發表一條感言:有時高品位測試者是對的。
他還爆料,這是這輩子第一次有人發郵件求他承諾以後不會下架這個模型
奧特曼也曬出了一些自己與 GPT-4.5 對話的聊天記錄,針對奧特曼自己寫的六個單詞小故事 " 臨近奇點,不清楚在哪一側 ",GPT-4.5 的看法如下:
作為 GPT-4.5,在反思這個有趣的故事時,我認為我們已經超越了奇點的事件視界,但只是剛剛越過。
我們已經進入了人工智能重塑人類思想、創造力、溝通甚至身份的世界。然而,确切的含義——無論是解放還是擔憂——仍未定論。
換句話說,我們已經踏入了奇點的引力範圍,但要完全理解它可能帶來的後果還為時過早。
One More Thing
與此同時 GPT-4.5 還登頂了一個另類榜單,類似大模型狼人殺:
AI 模型參加多輪淘汰賽,比賽中需要公開辯論、私下制定策略并投票淘汰其他人,最終獲勝者由被淘汰的參賽者組成的陪審團決定。
在結盟、欺騙、背叛、表現得不具威脅性等方面都是第一,且比人類優秀。
參考鏈接:
[ 1 ] https://x.com/lmarena_ai/status/1896675400916566357
[ 2 ] https://x.com/sama/status/1896651354648818121
[ 3 ] https://x.com/AISafetyMemes/status/1896579947830849970