今天小編分享的科學經驗:開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單,歡迎閲讀。
能打得過 GPT-4 的開源模型出現了!
大模型競技場最新戰報:
1040 億參數開源模型Command R+攀升至第 6 位,與 GPT-4-0314 打成平手,超過了 GPT-4-0613。
這也是第一個在大模型競技場上擊敗 GPT-4 的開放權重模型。
大模型競技場,可是大神 Karpathy 口中唯二信任的測試基準之一。
Command R+ 來自 AI 獨角獸 Cohere。這家大模型創業公司的聯合創始人兼 CEO,正是Transformer 最年輕作者 Aidan Gomez(簡稱割麥子)。
這份戰報一出,又掀起了一波大模型社區的熱烈讨論。
大家夥兒興奮的理由很簡單:基礎大模型卷了一整年,沒想到在 2024 年格局還在不斷地發展變化。
HuggingFace 聯合創始人 Thomas Wolf 就説:
最近大模型競技場上的情況發生了巨大的變化:
Anthropic 的 Claude 3 opus 在閉源模型中獨占鳌頭。
Cohere 的 Command R+ 則成為了開源模型中的最強者。
沒想到,2024 年在開源和閉源兩條路線上,人工智能團隊的發展都如此之快。
另外,Cohere 機器學習總監 Nils Reimers 還指出了值得關注的一點:
Command R+ 最大的特色是對内置 RAG(檢索增強生成)進行了全面優化,而在大模型競技場中,RAG 這樣的外挂能力并未納入測試。
RAG 優化模型登上開源王座
在 Cohere 官方定位中,Command R+ 是一個 "RAG 優化模型 "。
就是説,這個 1040 億參數的大模型主要針對檢索增強生成技術進行了深度優化,以減少幻覺的產生,更适配于企業級工作負載。
和此前推出的 Command R 一樣,Command R+ 的上下文視窗長度是 128k。
此外,Command R+ 還具備以下特點:
覆蓋 10+ 種語言,包括英語、中文、法語、德語等;
能使用工具完成復雜業務流程的自動化
從測試結果來看,在多語種、RAG 和工具使用這三個維度上,Command R+ 都達到了 GPT-4 turbo 的水平。
但在輸入成本方面,Command R+ 的價格僅為 GPT-4 turbo 的 1/3。
輸出成本方面,Command R+ 則是 GPT-4 turbo 的 1/2。
正是這點引發了不少網友的關注:
不過,盡管在大模型競技場這種人類主觀評測上表現搶眼,還是有網友甩出了一些不同觀點。
在 HumanEval 上,Command R+ 的代碼能力就連 GPT-3.5 都沒打過,在兩組測試中分别排在 32 位和 33 位。
最新版 GPT-4 turbo 則沒有懸念地拿下了第一。
另外,我們也在最近剛登上正經論文的弱智吧 benchmark 上簡單測試了一下 Command R+ 的中文能力。
你給打個分?
需要説明的是,Command R+ 的開源只面向學術研究,并不能免費商用。
One More Thing
最後的最後,還是多聊一嘴割麥子小哥。
Aidan Gomez,Transformer 圓桌騎士中最年輕的一位,加入研究團隊時只是個大學生——
不過,是在多倫多大學讀大三時就加入了 Hinton 實驗室的那種。
2018 年,割麥子被牛津大學錄取,開始像他的論文搭子們那樣攻讀 CS 博士學位。
但在 2019 年,随着 Cohere 的創立,他最終選擇退學加入 AI 創業的浪潮。
Cohere 主要是為企業提供大模型解決方案,目前估值達到了 22 億美元。
參考鏈接:
[ 1 ] https://twitter.com/lmsysorg/status/1777630133798772766
[ 2 ] https://txt.cohere.com/command-r-plus-microsoft-azure/
— 完 —
【 火熱報名中】中國 AIGC 產業峰會
定檔 4 月 17 日
峰會已經邀請到數位代表技術、產品、投資、用户等領網域嘉賓,共論生成式 AI 產業最新變革趨勢。
最新确認嘉賓包括:商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等,。
峰會将全程線上下同步直播,歡迎預約直播 ⬇️
點這裏關注我,記得标星噢
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>