今天小編分享的科學經驗:GPT-4不服被Bard反超:最新模型已入場,歡迎閱讀。
" 大模型排位賽 " 權威榜單 Chatbot Arena 刷新:
谷歌 Bard 超越 GPT-4,排名位居第二,僅次于 GPT-4 Turbo。
然鵝,眾多網友對此卻表示 " 不服 "、" 不公平 "。
原來,谷歌 AI 掌門人 Jeff Dean 透露,Bard 性能大幅提升,是因為搭載了新版大模型——Gemini Pro-scale。
這也就意味着,打 " 排位賽 " 的 Bard 具備了聯網功能。
網友的質疑正是圍繞着這一點展開:
在同一個排行榜上混合在線和離線大模型,是極易引起誤解的。
Hugging Face 的 " 首席羊駝官 "Omar Sanseviero 也表示:
既然如此…我也可以向 lmsys 提交具有搜索功能的 Mixtral 嗎?
面對種種質疑聲,Imsys 官方做出了回應,其中指出:
Arena 排行榜是實時的,大家如有疑問,可在 Arena 中直接比較模型并投票;
投票數據公開透明,還會即将發布關于用戶提示多樣性和投票質量的研究以及相應的數據集;
對于網友們最關心的被 Bard 超越的 GPT-4 是不聯網版本的問題,Imsys 表示 " 如果實時數據的接入能夠提升用戶體驗,排行榜将予以體現 "。
并且直接 @了 OpenAI 和 Bing 以及微軟高管 Mikhail Parakhin,表示非常樂意在競技場中加入 GPT-4 聯網版或 Bing Copilot。
最新消息是,OpenAI 的最新模型gpt-4-0125-preview 現已入駐競技場,等待用戶參與投票。
Chatbot Arena 是一個大模型權威榜單,由 UC 伯克利研究人員主導的 Imsys(Large Model Systems Organization)組織創建。
該排行榜采用匿名 1V1battle的投票規則,基于 Elo 評級系統排名。
具體來說,投票頁面如下,兩個模型 Model A 和 B 均匿名,用戶在提出多個問題後對模型的回答打分,總共有四個選項:A 更好、B 更好、A 和 B 一樣好,A 和 B 都不好。
值得一提的是,如果在問答過程中,模型身份洩露,那麼該投票作廢。
根據當前榜單,競技場中有 56 個大模型:
此前 GPT-4 憑借 " 遙遙領先 " 的評分,長期霸榜,然而新版 Bard 發布後,直接超越 GPT-4 的兩個版本衝到了第二名,和第一名的 GPT-4 Turbo 只差 34 分:
更詳細一點,在所有沒有平局的 Model A 對 B 的對決中,Model A 獲勝的比例如下:
還有每一對模型組合的單挑次數(無平局):
此外,Chatbot Arena 排行榜還使用自助法對 Elo 評分估計進行 1000 次随機抽樣,從而評估置信區間等。
單個模型相對于其他所有模型的平均勝率如下:
不過值得注意的是,Arena 排行榜是實時的,Bard 目前雖然排名第二,但總共只有 3000 多票。
相較而言,GPT-4 Turbo 的票數已經達到了 30000+,被超越的兩個版本的票數也都是 Bard 的數倍。
而現在 GPT-4 最新版本已入場(雖然還沒有在排行榜上更新),後續結果還要再坐等一波~
參考鏈接:https://twitter.com/lmsysorg/status/1752035632489300239
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>