大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

國產大模型競技場首超GPT-4o!零一萬物GLM共同跻身Top10

2024-10-17 简体 HK SG TW

今天小編分享的科學經驗:國產大模型競技場首超GPT-4o!零一萬物GLM共同跻身Top10,歡迎閱讀。

國產大模型首次在公開榜單上超過 GPT-4o!

就在剛剛," 大模型六小強 " 之一的零一萬物正式對外發布新旗艦模型——Yi-Lightning(閃電)。

在大模型競技場(Chatbot Arena)上,Yi-Lightning 性能直衝總榜單并列第6,數學分榜并列第 3,代碼等其它分榜也名列前茅。

總成績幾乎與馬斯克最新 xAI 大模型 Grok-2-08-13 持平,超越 GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet 等頂流。

同時,國内清華系大模型公司智譜 AI 的GLM-4-Plus也殺進了總榜,位居第 9位。

該榜單結果來自全球累積超千萬次的人類用戶盲測投票。

前段時間大模型競技場還剛剛更新了規則,新榜單對 AI 回答的長度和風格等特征做了降權處理,分數更能反映模型真正解決問題的能力。

這次 Yi-Lightning 殺出重圍,Lmsys 團隊特意發帖子,稱這是競技場上的大新聞:

大模型競技場總榜第六、國產第一

細看大模型競技場分類榜上的 " 賽況 ",Yi-Lightning 各項能力都排在前頭。

在中文能力上,Yi-Lightning 和 GLM-4-Plus 兩個國產大模型都名列前位。

Yi-Lightning 躍居并列第二,和 o1-mini 相差無幾。

數學能力,Yi-Lightning 和 Gemini-1.5-Pro-002 并列第 3,僅次于 o1-preview、o1-mini。

代碼能力 Yi-Lightning 排名并列第 4。

另外在Hard Prompts和Longer Query分榜,Yi-Lightning 也都排在第 4 位。

最後同樣值得關注的是,競技場新功能風格控制過濾,确保分數反映模型真正解決問題的能力,而不是用漂亮的格式、增加回答長度。

在對長度和風格等特征做了降權處理後,所有模型分數均有下降,Yi-Lightning 排名變化不大,整體還與 GPT-4o、Grok-2 同一梯隊。

發布會上,零一萬物創始人兼 CEO 李開復博士展示了 Yi-Lightning 在不同場景上的能力。

Yi-Lightning 主打一個 " 推理速度更快,生成質量更好 "。

相比上半年 Yi-Large,Yi-Lightning 首包速度提升 1 倍,推理速度也提升了 4 成。

像是翻譯下面這種文學作品,Yi-Lightning 不僅速度更快:

而且用詞更精準,更具文學色彩:

那麼 Yi-Lightning 是如何做到的?

好用還得極速

Yi-Lightning 采用MoE混合專家模型架構。

底層技術上,Yi-Lightning 在以下方面進行了提升。

首先是優化混合注意力機制(Hybrid Attention),只在模型的部分層次中将傳統的全注意力(Full Attention)替換為滑動視窗注意力(Sliding Window Attention)。

由此以來,模型在保證處理長序列數據高性能表現的同時,還能大大降低推理成本。

Yi-Lightning 還引入了跨層注意力(Cross-Layer Attention, CLA),允許模型在不同的層次之間共享鍵(Key)和值(Value)頭,減少對存儲需求。

這使得 Yi-Lightning 能在不同層次之間更有效地共享信息。

總的來說,KV cache 縮小了 2-4 倍,同時将計算的復雜度從 O ( L ² ) 降至 O ( L ) 。

其次,Yi-Lightning 還采用了動态 Top-P 路由機制。

也就是說,Yi-Lightning 可以根據任務的難度動态自動選擇最合适的專家網絡組合——

訓練過程中會激活所有專家網絡,使模型能學習到所有專家知識;而推理階段,根據任務的難度,模型會選擇性激活更匹配的專家網絡。

另外,之前有一些傳言稱國内大模型 " 六小強 ",有一些已經不做預訓練了,李開復博士這次在發布會上直接 " 辟謠 ":

零一萬物絕不放棄預訓練。

而且在模型預訓練階段,團隊還積累了豐富的多階段訓練方法,将整個訓練分為兩塊,一塊做好以後就把它固定起來,然後在這個固定的模型上再做後段訓練。

訓練前期,更注重數據多樣性,使得 Yi-Lightning 盡可能學習不同的知識;訓練後期更重内容更豐富、知識性更強的數據。

同時團隊還在不同階段采用不同的 batch size 和 LR schedule 保證訓練速度和穩定性。

李開復博士還表示,零一萬物開發模型講究 " 模基共建 ",也就是共建模型和基礎架構。

模型的訓練、服務、推理設計,與底層的 AIInfra 架構和模型結構必須高度适配。

這樣做的目的,不僅是讓模型更好,而且讓它在推理的時候能夠更便宜。

再加上以上種種抬升 " 性價比 " 的技術加持,所以 Yi-Lightning 這次也是打到了白菜價——

0.99 元每 1M token

在中文等方面,Yi-Lightning 比肩 OpenAI 的 o1-mini,o1-mini 的定價是每百萬輸入 3 美元,每百萬輸出 12 美元。

Yi-Lightning 每百萬 token 只需 0.99RMB 也是打到了骨折。

但李開復博士表示,即便這樣也:不虧錢。

除了發布新模型,零一萬物這次還首發了AI2.0 數字人方案。

目前該數字人已接入 Yi-Lightning,實時互動效果相比以往更強更自然了,belike:

最後談起和國外頭部大模型的差距,李開復博士表示這次 Yi-Lightning 的排名證明了國產大模型跟矽谷最頂尖模型的差距縮小到了五個月。

去跟追上美國最頂尖的模型,縮短這個時間差非常困難,要付出很大的努力和有獨特的打法。在國内不少公司都在努力," 模基共建 " 則是零一萬物自己摸索的獨特路徑。

參考鏈接:

[ 1 ] https://x.com/lmarena_ai/status/1846245604890116457

[ 2 ] https://x.com/01AI_Yi/status/1845776529185476613

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們