大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五 - 大酷樂

今天小編分享的科學經驗：大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五，歡迎閲讀。

克雷西發自凹非寺

量子位 | 公眾号 QbitAI

關于 Llama 3，又有測試結果新鮮出爐——

大模型評測社區 LMSYS 發布了一份大模型排行榜單，Llama 3 位列第五，英文單項與 GPT-4 并列第一。

不同于其他 Benchmark，這份榜單的依據是模型一對一 battle，由全網測評者自行命題并打分。

最終，Llama 3 取得了榜單中的第五名，排在前面的是 GPT-4 的三個不同版本，以及 Claude 3 超大杯 Opus。

而在英文單項榜單中，Llama 3 反超了 Claude，與 GPT-4 打成了平手。

對于這一結果，Meta 的首席科學家 LeCun 十分高興，轉發了推文并留下了一個 "Nice"。

PyTorch 之父 Soumith Chintala 也激動地表示，這樣的成果令人難以置信，對 Meta 感到驕傲。

Llama 3 的 400B 版本還沒出來，單靠 70B 參數就獲得了第五名……

我還記得去年三月 GPT-4 發布的時候，達到與之相同的表現幾乎是一件不可能的事。

……

現在 AI 的普及化實在是令人難以置信，我對 Meta AI 的同仁們做出這樣的成功感到非常驕傲。

那麼，這份榜單具體展示了什麼樣的結果呢？

近 90 個模型對戰 75 萬輪

截至最新榜單發布，LMSYS 共收集了近 75 萬次大模型 solo 對戰結果，涉及的模型達到了 89 款。

其中，Llama 3 參與過的有 1.27 萬次，GPT-4 則有多個不同版本，最多的參與了 6.8 萬次。

下面這張圖展示了部分熱門模型的比拼次數和勝率，圖中的兩項指标都沒有統計平局的次數。

榜單方面，LMSYS 抽成了總榜和多個子榜單，GPT-4-Turbo 位列第一，與之并列的是早一些的 1106 版本，以及 Claude 3 超大杯 Opus。

另一個版本（0125）的 GPT-4 則位列其後，緊接着就是 Llama 3 了。

不過比較有意思的是，較新一些的 0125，表現還不如老版本 1106。

而在英文單項榜單中，Llama 3 的成績直接和兩款 GPT-4 打成了平手，還反超了 0125 版本。

中文能力排行榜的第一名則由 Claude 3 Opus 和 GPT-4-1106 共享，Llama 3 則已經排到了 20 名開外。

除了語言能力之外，榜單中還設定了長文本和代碼能力排名，Llama 3 也都名列前茅。

不過，LMSYS 的 " 遊戲規則 " 又具體是什麼樣的呢？

人人都可參與的大模型評測

這是一個人人都可以參與的大模型測試，題目和評價标準，都由參與者自行決定。

而具體的 " 競技 " 過程，又抽成了 battle 和 side-by-side 兩種模式。

battle 模式下，在測試界面輸入好問題之後，系統會随機調用庫中的兩個模型，而測試者并不知道系統到底抽中了誰，界面中只顯示 " 模型 A" 和 " 模型 B"。

在模型輸出答案後，測評人需要選擇哪個更好，或者是平手，當然如果模型的表現都不符合預期，也有相應的選項。

只有在做出選擇之後，模型的身份才會被揭開。

side-by-side 則是由用户選擇指定的模型來 PK，其餘測試流程與 battle 模式相同

不過，只有 battle 的匿名模式下的投票結果才會被統計，且在對話過程中模型不小心暴露身份就會導致結果失效。

按照各個模型對其他模型的 Win Rate，可以繪制出這樣的影像：

△示意圖，較早版本

而最終的排行榜，是利用 Win Rate 數據，通過 Elo 評價系統換算成分數得到的。

Elo 評價系統是一種計算玩家相對技能水平的方法，由美國物理學教授 Arpad Elo 設計。

具體到 LMSYS，在初始條件下，所有模型的評分（R）都被設定為 1000，然後根據這樣的公式計算出期待勝率（E）。

随着測試的不斷進行，會根據實際得分（S）對評分進行修正，S 有 1、0 和 0.5 三種取值，分别對應獲勝、失敗和平手三種情況。

修正算法如下式所示，其中 K 為系數，需要測試者根據實際情況調整。

最終将所有有效數據納入計算後，就得到了模型的 Elo 評分。

不過實際操作過程中，LMSYS 團隊發現這種算法的穩定性存在不足，于是又采用了統計學方法進行了修正。

他們利用 Bootstrap 方法進行重復采樣，得到了更穩定的結果，并估計了置信度區間。

最終修正後的 Elo 評分，就成了榜單中的排列依據。

One More Thing

Llama 3 已經可以在大模型推理平台 Groq（不是馬斯克的 Grok）上跑了。

這個平台的最大亮點就是 " 快 "，之前用 Mixtral 模型跑出過每秒近 500 token 的速度。

跑起 Llama 3，也是相當迅速，實測 70B 可以跑到每秒約 300 Token，8B 版本更是接近了 800。

參考鏈接：

[ 1 ] https://lmsys.org/blog/2023-05-03-arena/

[ 2 ] https://chat.lmsys.org/?leaderboard

[ 3 ] https://twitter.com/lmsysorg/status/1782483699449332144

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>