大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

大模型2024:先把價格打下去

2024-03-12 简体 HK SG TW

今天小編分享的互聯網經驗:大模型2024:先把價格打下去,歡迎閱讀。

圖片來源 @視覺中國

文 | 驚蟄研究所,作者 | 雨谷

AI 新星 OpenAI 最近有點頭疼,不僅公司和 CEO 被馬斯克起訴,其拳頭產品 GPT-4 在性能和價格上均面臨競争對手的衝擊。

近期,成立不到一年的法國人工智能創企 Mistral AI 發布了最新大模型 Mistral Large,并推出了首個聊天機器人產品 Le Chat,直接對标 ChatGPT。據了解,Mistral Large 在目前所有能通過 API 訪問的大模型中評分第二,僅次于 GPT-4。

更值得關注的是,Mistral AI 還與微軟達成了更加深入的合作協定,微軟将投資入股 Mistral AI,并為其提供算力和雲服務,而 Mistral AI 的大模型資源也将在微軟的 Azure 雲平台中售賣。要知道,上一個有此待遇的 AI 創業公司還是 OpenAI。

除此之外,更低廉的 API 接口價格也讓 Mistral Large 成為了 GPT-4 的有力競争者,并有望在當前的大模型軍備競賽中掀起一場價格戰。

比 GPT-4 更具性價比?

作為一款誕生于歐洲的大模型,Mistral Large 支持英語、法語、西班牙語、德語和意大利語,可深度理解語法和文化背景。另外,Mistral Large 的上下文視窗為 32K,可從約 2.4 萬個英文單詞的大型文檔中精準提取信息;具備精确的指令跟随能力,便于開發者定制審核策略;支持原生函數調用和限定輸出模式,助力應用開發規模化和技術棧現代化。

性能方面,雖然 Mistral AI 并未公布 Mistral Large 的參數量,但其關鍵性能已達到業界前三。

具體來看,Mistral Large 在 MMLU 基準測試中的常識和推理得分為 81.2%,僅次于 GPT-4 的 86.4%。Mistral Large 達到了頂級的推理能力,可用于復雜的多語言推理任務,包括文本理解、轉換和代碼生成。其推理準确性優于 Anthropic 的 Claude 2、谷歌的 Gemini 1.0 Pro、OpenAI 的 GPT-3.5,推理速度甚至超過了 GPT-4 和 Gemini Pro,顯示了其在處理復雜任務時的高效能力。

多語言能力測試中,Mistral Large 在法語、德語、西班牙語和意大利語的 Arc Challenge、HellaSwag、MMLU 等基準測試中的表現均遠超目前公認最強的開源大模型—— Meta 的 LLaMA 2 70B。

數學和編程能力方面,Mistral Large 同樣表現不俗:其在 MBPP 基準測試中的編程得分高于 LLaMA 2 70B,在 Math maj@4 基準測試中的數學得分也領先于 GPT-3.5、Gemini Pro 1.0 等模型。

作為 Mistral AI 商用系列中的旗艦模型,Mistral Large 與 GPT-4 一樣并未開源。用戶可通過三種方式訪問與使用 Mistral 模型:其中,在歐洲的 Mistral Al 基礎設施上安全托管的 La Plateforme 是開發者訪問 Mistral Al 所有模型的首選方式,開發者可通過點擊創建自己的應用程式和服務;Mistral Al 的開源模型目前可通過 GCP、AWS、Azure、NVIDIA 等雲服務商獲得,而 Mistral Large 目前僅通過 Azure 雲平台提供服務,包括 Azure AI Studio 和 Azure Machine Learning。

此外,開發者還可以通過虛拟雲或 on-prem 自行部署使用 Mistral 模型,這種方式提供了更高級的自定義和控制,自有數據将保留在公司内部。

價格方面,目前上下文視窗為 128k 的 GPT-4 Turbo 的輸入價格為 0.01 美元 /1000 token,輸出價格為 0.03 美元 /1000 token。相比之下,Mistral Large 的輸入、輸出價格均為前者的 80%。

體驗方面,有 AI 創業者指出,Mistral Large 的使用體驗碾壓曾經的第三名 Claude 2。截至 2023 年 11 月,OpenAI 的開發者規模達 200 萬,其中包含 92% 的世界 500 強企業。而 Mistral Large 直逼 GPT-4 的性能和更低的售價有望為需求量巨大的企業用戶節省一大筆開支,從被 OpenAI 壟斷的 MaaS(模型即服務)市場撕開一個口子。

MoE 架構立大功

Mistral Large 把價格打下來的底氣是更低的訓練成本。OpenAI CEO Sam Altman 曾表示,GPT-4 的模型訓練成本 " 遠遠超過了 "5000 萬至 1 億美元。而據 Mistral AI 創始人 Arthur Mensch 透露,Mistral Large 的訓練成本不到 2200 萬美元,約為 GPT-4 的五分之一。

除了真金白銀的訓練成本,後來者居上的 Mistral Large 的時間成本也更具優勢。OpenAI 從成立到推出 GPT-4,足足用了 8 年,而 Mistral AI 推出僅次于 GPT-4 的 Mistral Large 只用了 9 個月。

Mistral AI 号稱歐洲版 OpenAI,創始團隊由 Meta 和 Deepmind 的前科學家們組成。成立後的半年多時間裡,Mistral AI 接連完成 1.05 億歐元種子輪融資和後續的 4.15 億歐元融資,得到美國光速、a16z 等頂級 VC 以及英偉達、賽富時、法巴銀行的青睐。

同期,Mistral AI 先後推出号稱當時 " 最強的 70 億參數開源模型 "Mistral 7B、首個開源 MoE 大模型 Mistral 8x7B。其中,Mistral 8x7B 更是以一條簡單粗暴的磁力鏈接引領了大模型發布的新範式,給業界帶來震撼。

憑借巨額融資疊加新品發布,Mistral AI 的估值也曾一夜之間飙升至 20 億美元,成為大模型領網域的新晉獨角獸。而 Mistral AI 更引人關注的是,從初期只有 6 人的小團隊成長至今,Mistral AI 一直是 MoE 路線的忠實信徒。

MoE 即 " 混合專家模型 ",這種模型設計策略通過将大模型分解為多個子模塊,提高模型的容量、處理能力和效率。MoE 架構主要由 " 專家 " 和門控機制兩部分構成。每個 " 專家 " 相當于一個小型的 Transformer 模型,專門處理特定類型的輸入數據,多個 " 專家 " 的結合則使模型具備了更好的性能。而門控機制則用于判定輸入樣本需由哪些 " 專家 " 接管處理。

大模型的大規模應用與其算力成本緊密相關。對于模型廠商而言,目前主要的算力成本包括預訓練成本和推理成本。除去 GPU 每秒運算次數和顯卡的租用成本這兩個常量後,大模型的預訓練成本與模型參數量和訓練數據的 token 量正相關,推理成本與模型參數量正相關。而大模型的性能通常與其參數量相關聯,而越高的參數量意味着越高的算力成本。因此,如何在同樣的算力成本下提升大模型的參數量成了破局的關鍵。

而 MoE 的解題思路是引入稀疏性,即模型訓練過程中,各有所長的 " 專家 " 們獨立訓練、各司其職,在過濾重復信息、減少數據幹擾的同時大幅提升模型的學習速度與泛化能力;在推理過程中,每次推理只按需調用部分 " 專家 ",激活其對應的部分參數,如此便有效降低了相同參數下大模型的算力成本。

有意思的是,OpenAI 在去年成為 " 當紅炸子雞 " 成功得到眾多重度用戶的續費後,被曝采用 MOE 重新設計了 GPT-4 構架,導致性能受到影響。盡管 OpenAI 官方并未對此進行正面回應,但利用 MOE 架構降低訓練成本,已經被認為是一個無比自然的發展方向。

Mistral AI 同樣未公布大模型的具體參數與訓練數據 Token 數,但此前谷歌應用 MoE 開發出的 GLaM 模型參數量達 12000 億、訓練數據 16000 億 token,分别是 GPT-3.5 的 6.8 倍和 5.3 倍,其實際的訓練成本卻只有 GPT-3.5 的三分之一也印證了 MoE 框架的高效。

延續着 MoE 的路線,如果說此前發布的開源模型 Mistral 7B、Mistral 8x7B 實現了對 LLaMA 等大參數開源模型的逆襲,此次發布的 Mistral Large 則是 Mistral AI 對可持續商業模式的探索,試圖以閉源模型搭建可盈利的產品線。

大模型進入成本戰

頂着對華芯片禁售的壓力,芯片巨頭英偉達以一份耀眼的四季報打消了市場顧慮:在數據中心與遊戲業務雙核驅動下,英偉達 2023 年四季度營收、淨利潤大幅超出預期,毛利率再創歷史新高。業績加持下,英偉達業績已突破 2 萬億美元,更接連超越亞馬遜、沙特阿美,成為僅次于微軟和蘋果的全球第三大公司。

數據、算力和算法構成了大模型的基石。在當下這波如火如荼的大模型淘金熱中,從學界到初創企業再到巨頭紛紛下場,而無論其技術路線是開源或閉源,應用場景是通用或垂直,AI 芯片作為大模型大腦,始終是模型預訓練和推理必不可少的工具。

身為高端 GPU 市場中唯一的提供方," 軍火商 " 英偉達是這場大模型軍備競賽中永遠的赢家——以 A100 為例,若要通過訓練達到 ChatGPT 級别的性能,至少消耗一萬張 A100 加速卡,巨頭們囤貨的部門也以萬張起,怎能不賺得盆滿缽滿?

但換個角度來看,在 GPU 供應短缺的背景下,一張 A100 顯卡售價約 10000 美元甚至更高,對于大模型廠商來說,在應用落地和商業化前景仍不明朗的情況下,動辄上億美元真金白銀的投入必然肉疼。在算力、數據、人力等資源成本高企的情況下,如何用相對低的成本訓練出一個想要的大模型,并以一個用戶可接受的成本讓大模型跑起來是大模型行業在 2024 年的當務之急。

在保證同等效果前提下,提高硬體利用率,縮短算力使用時長;優化工具鏈以提高訓練、推理效率;适配低價 GPU 是當前國内大模型廠商降本的主流方法論。

例如,面向大模型訓練,騰訊更新了自研機器學習框架 Angel,針對預訓練、模型精調和強化學習等全流程進行了加速和優化,提升了内存的利用率。借此,大模型訓練效率可提升至主流開源框架的 2.6 倍,用該框架訓練千億級大模型可節省 50% 算力成本,大模型推理速度提高了 1.3 倍。

京東雲推出 vGPU 池化方案,提供一站式 GPU 算力池化能力,結合算力的任意切分和按需分配,在同等 GPU 數量的前提下,實現了數倍業務量擴展和資源共享,降低了硬體采購成本,使用更少的 AI 芯片支撐了更多的訓練和推理任務,GPU 利用率最高提升 70%,大幅降低大模型推理成本。

阿裡雲通義大模型則聚焦于規模定理,基于小模型數據分布、規則和配比,研究大規模參數下如何提升模型能力,并通過對底層集群的優化,将模型訓練效率提升了 30%,訓練穩定性提升了 15%。

百度更新了異構計算平台 " 百舸 ",将訓練和推理場景的吞吐量提高了 30%-60%,意味着原先需要用 100 天的訓練才能達成的效果,現在只需 40-70 天,節約時間等于間接省錢。同時,在英偉達之外,百度的 " 千帆 " 大模型平台還兼容昆侖芯、昇騰、海光 DCU、英特爾等國内外其他主流 AI 芯片,通過組合選項完成低成本的算力适配。

正所謂 " 早買早享受,晚買有折扣。" 當前,Mistral AI 以性價比暫時領先,但也有不少開發者還在等待 OpenAI 大模型產品的更新降價。畢竟,正是 OpenAI 自己在 GPT-4 發布後不到 8 個月就推出了更強也更便宜的 GPT-4 Turbo。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們