大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五

2024-04-24 简体 HK SG TW

今天小編分享的科學經驗:大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五,歡迎閱讀。

克雷西 發自 凹非寺

量子位 | 公眾号 QbitAI

關于 Llama 3,又有測試結果新鮮出爐——

大模型評測社區 LMSYS 發布了一份大模型排行榜單,Llama 3 位列第五,英文單項與 GPT-4 并列第一。

不同于其他 Benchmark,這份榜單的依據是模型一對一 battle,由全網測評者自行命題并打分。

最終,Llama 3 取得了榜單中的第五名,排在前面的是 GPT-4 的三個不同版本,以及 Claude 3 超大杯 Opus。

而在英文單項榜單中,Llama 3 反超了 Claude,與 GPT-4 打成了平手。

對于這一結果,Meta 的首席科學家 LeCun 十分高興,轉發了推文并留下了一個 "Nice"。

PyTorch 之父 Soumith Chintala 也激動地表示,這樣的成果令人難以置信,對 Meta 感到驕傲。

Llama 3 的 400B 版本還沒出來,單靠 70B 參數就獲得了第五名……

我還記得去年三月 GPT-4 發布的時候,達到與之相同的表現幾乎是一件不可能的事。

……

現在 AI 的普及化實在是令人難以置信,我對 Meta AI 的同仁們做出這樣的成功感到非常驕傲。

那麼,這份榜單具體展示了什麼樣的結果呢?

近 90 個模型對戰 75 萬輪

截至最新榜單發布,LMSYS 共收集了近 75 萬次大模型 solo 對戰結果,涉及的模型達到了 89 款。

其中,Llama 3 參與過的有 1.27 萬次,GPT-4 則有多個不同版本,最多的參與了 6.8 萬次。

下面這張圖展示了部分熱門模型的比拼次數和勝率,圖中的兩項指标都沒有統計平局的次數。

榜單方面,LMSYS 抽成了總榜和多個子榜單,GPT-4-Turbo 位列第一,與之并列的是早一些的 1106 版本,以及 Claude 3 超大杯 Opus。

另一個版本(0125)的 GPT-4 則位列其後,緊接着就是 Llama 3 了。

不過比較有意思的是,較新一些的 0125,表現還不如老版本 1106。

而在英文單項榜單中,Llama 3 的成績直接和兩款 GPT-4 打成了平手,還反超了 0125 版本。

中文能力排行榜的第一名則由 Claude 3 Opus 和 GPT-4-1106 共享,Llama 3 則已經排到了 20 名開外。

除了語言能力之外,榜單中還設定了長文本和代碼能力排名,Llama 3 也都名列前茅。

不過,LMSYS 的 " 遊戲規則 " 又具體是什麼樣的呢?

人人都可參與的大模型評測

這是一個人人都可以參與的大模型測試,題目和評價标準,都由參與者自行決定。

而具體的 " 競技 " 過程,又抽成了 battle 和 side-by-side 兩種模式。

battle 模式下,在測試界面輸入好問題之後,系統會随機調用庫中的兩個模型,而測試者并不知道系統到底抽中了誰,界面中只顯示 " 模型 A" 和 " 模型 B"。

在模型輸出答案後,測評人需要選擇哪個更好,或者是平手,當然如果模型的表現都不符合預期,也有相應的選項。

只有在做出選擇之後,模型的身份才會被揭開。

side-by-side 則是由用戶選擇指定的模型來 PK,其餘測試流程與 battle 模式相同

不過,只有 battle 的匿名模式下的投票結果才會被統計,且在對話過程中模型不小心暴露身份就會導致結果失效。

按照各個模型對其他模型的 Win Rate,可以繪制出這樣的影像:

△示意圖,較早版本

而最終的排行榜,是利用 Win Rate 數據,通過 Elo 評價系統換算成分數得到的。

Elo 評價系統是一種計算玩家相對技能水平的方法,由美國物理學教授 Arpad Elo 設計。

具體到 LMSYS,在初始條件下,所有模型的評分(R)都被設定為 1000,然後根據這樣的公式計算出期待勝率(E)。

随着測試的不斷進行,會根據實際得分(S)對評分進行修正,S 有 1、0 和 0.5 三種取值,分别對應獲勝、失敗和平手三種情況。

修正算法如下式所示,其中 K 為系數,需要測試者根據實際情況調整。

最終将所有有效數據納入計算後,就得到了模型的 Elo 評分。

不過實際操作過程中,LMSYS 團隊發現這種算法的穩定性存在不足,于是又采用了統計學方法進行了修正。

他們利用 Bootstrap 方法進行重復采樣,得到了更穩定的結果,并估計了置信度區間。

最終修正後的 Elo 評分,就成了榜單中的排列依據。

One More Thing

Llama 3 已經可以在大模型推理平台 Groq(不是馬斯克的 Grok)上跑了。

這個平台的最大亮點就是 " 快 ",之前用 Mixtral 模型跑出過每秒近 500 token 的速度。

跑起 Llama 3,也是相當迅速,實測 70B 可以跑到每秒約 300 Token,8B 版本更是接近了 800。

參考鏈接:

[ 1 ] https://lmsys.org/blog/2023-05-03-arena/

[ 2 ] https://chat.lmsys.org/?leaderboard

[ 3 ] https://twitter.com/lmsysorg/status/1782483699449332144

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們