大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 财經

搞 AI 的是真沒錢了

2024-04-06 简体 HK SG TW

今天小編分享的财經經驗:搞 AI 的是真沒錢了,歡迎閲讀。

出品 | 虎嗅科技組

作者 | 王一鵬

頭圖 | 視覺中國

4 月 5 日上午,一個來自 MIT、普林斯頓等研究機構的華人團隊發布了自己的大模型   JetMoE  ,宣布用   10   萬美元的訓練成本,就可以訓練出媲美   LLaMA2   級别的大模型——後者成本高達數十億美元。賈揚清第一時間進行了轉評贊,直指其核心在于   MoE 架構。

此前,MoE   架構始終是一個位于輿論水面下的大模型技術,人們醉心于大模型的技術突破,而以吃瓜的心态看待其背後的成本問題。但當   Stability   AI   CEO   及核心團隊相繼離職,公司被曝每月運營成本高達 800 萬美元以上,完全入不敷出時,大家才真正的認識到:不是中國   AI   圈窮,而是全球   AI   圈都真的沒錢了——大模型就像個 " 碎鈔機 ",無論硅谷公司,還是中國公司,都難以承受。

因此,MoE   作為一種可以降低運營成本、提升訓練效率的架構,驟然成為全世界大模型公司的關注重點。

去年 12 月,Mistral   AI   發布   8x7B-MoE   模型,成為全球首個開源的   MoE   大模型;今年   1   月,Minimax   宣布發布國内首個   MoE   大語言模型   abab6;在接下來的幾個月,Google、APUS、達觀、階躍星辰等企業以及馬斯克,都紛紛發布了自己的   MoE   模型。考慮到研發周期的問題,至少在   GPT-4   剛發布的時間(2023 年 3 月),有遠見的公司就已經确定了   MoE   的架構方向。

即便是 OpenAI  ,當下對其   GPT-4   技術猜測的主流觀點也認為,他們一定采用了   MoE   架構。

MoE   不太省心,但确實可以降本

MoE   架構的中文名稱是混合專家架構,是神經網絡的一種架構模式。它将神經網絡拆抽成多個專家子網絡,面對一次輸入,既可以指定某一位 " 專家 " 來回答,也可以要求多位 " 專家 " 回答,甚至全部參與回答,最終依據權重綜合給出結果。

這使得   MoE   架構的可擴展性優秀,開發者可以在一個巨型模型上,繼續增加參數量,進行橫向擴展。同時因為   MoE   可以選擇只啓用部分專家子模型,也在保持性能的同時,降低了推理成本。另外   MoE   架構允許數據在多個專家模型之間進行分配和并行處理,因此可以提高模型的訓練和推理速度。

聽起來全是優點,但是   MoE   架構的訓練難度很大。

一個最主要的問題是,MoE   架構很難保證每個 " 專家 " 都能得到充分訓練。決定了哪些 " 專家 ",以多大權重參與回答的核心部件是門控網絡(Gate   Network)。如果門控網絡傾向于選擇某些特定的 " 專家 ",可能會導致其他 " 專家 " 得不到充分的訓練,從而造成訓練不穩定。而且在 MoE 架構中,不同的 " 專家 " 可能會被分配到不同數量的輸入樣本。如果某些 " 專家 " 被分配的樣本過多或過少,可能會導致負載不平衡,影響模型的訓練效率和最終性能。

但對于全球   AI   企業,尤其是中國企業而言,這已經是兩年來的最好局面了——至少我們可以用軟體技術解決問題,而不是看着芯片和賬户幹着急。

從實際情況來看,國内   MoE   架構的產品進展也較為樂觀。

MiniMax   作為最早發力   MoE   架構的主兒,一直在幹悶聲發大财的事兒,投資人看重的有場景、有客户等幾個要點,MiniMax   都具備。根據其官方為數不多的、對外透露的信息顯示,金山辦公、小紅書、騰訊、小米、閲文集團都是其客户。盡管這類大客户很可能同時采購了多個基礎模型服務,但依然顯示出   MiniMax   進展好像不錯。今年 3 月,阿裏被曝參與   MiniMax   下一輪融資,領投 6 億,據稱紅杉也承諾将參與本輪融資。某種程度上,這也代表着頭部資本對   MoE   這一技術路線的認可。

而就在   4   月   1   日,APUS(麒麟合盛)  放出的信息更加露骨地説明了這一問題——其聯合新旦智能訓練的大模型 APUS-xDAN   大模型 4.0(MoE)将于近日宣布開源。

在早期放出的信息中,APUS   重點提到了兩點:

●   參數規模為 1360 億,國内開源模型中參數規模最大;

●   是國内首個支持在 4090 低端算力上訓練的千億參數開源大模型;

説白了,便于橫向擴展,是事實,但可能不是主要因素,物美價廉,才是核心。

不玩   MoE,就搞小模型

這種降本的決心貫徹的有多徹底,再看看不搞   MoE   架構的廠商就知道了。

面壁智能 2 月份發布了自己的端側模型   Minicam,官方稱該模型以   2B   的尺寸可以超越 Mistral-7B,媲美 Llama2-13B。虎嗅   3   月邀請了面壁智能曾國洋參與   AI   内參會聊到該模型,曾國洋表示,現在業内普遍沒有将小尺寸模型的潛力挖掘幹淨,面壁追求的是如何實現更合理的訓練,而不是單純的堆模型參數量。

從產品定位上來講,當然可以説這是做端側模型的應有之義。但從成本價角度而言,這也是除開   MoE   架構外的又一次降本嘗試。CEO   李大海在面壁的發布會上重點聊過這個問題:成本是大模型的隐形競争力。面壁   MiniCPM   在端側的部署中,可以支持   CPU   推理,同時發布的量化版本,可以做到壓縮   75%,性能基本無損。如果使用骁龍   855   芯片,成本約   600   元人民币,按照運行   5   年計算,每秒   7.5   tokens,那麼   170   萬   tokens   的推理成本需人民币   1   元。成本為   Mistral-Medium   的百分之一。

小模型這套路能走多遠,是否因為短期的苟且,導致在   AGI   層面的發展繼續落後?如果之前還存在這個疑惑,那麼   AI   PC、AI   手機熱潮的興起,多少給大家增加了些信心。

盡管現在   AI   PC、AI   手機是噱頭成分居多,真正在   C   端有決定意義的價值點較少。但這趟列車已經綁定了太多的人:高通、英特爾、三星、聯想……以及一系列基礎模型廠商、模型中間件廠商。某種意義上,這是 " 元宇宙   Plus" 版的概念列車,必須找到終點,也必須駛到終點。與當年元宇宙的情況不同的是,大模型當下的技術發展曲線,仍在陡峭上升中——

至少在   GPT-5   發布前,所有的商業故事,都會如約講下去。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們