大模型們背後的“小算盤”

今天小編分享的互聯網經驗：大模型們背後的“小算盤”，歡迎閱讀。

圖片來源 @視覺中國

文 | 光子星球，作者 | 吳坤諺，編輯 | 王潘

厄爾尼諾指數快速增加，史上最熱夏天即将到來，但比氣候更 " 火熱 " 的是科技互聯網行業的大模型淘金潮。

今年年初，各方大佬下場創業打響了淘金熱的第一槍，緊接着的是 3 月開始的大廠扎堆布局，連高校與國家隊都争取跑步入場，淘金熱愈演愈烈。5 月 6 日，我們又迎來了一位玩家入場，科大訊飛發布旗下認知大模型星火。

興許是大眾與業界對于密集發布的大模型有些 " 脫敏 "，訊飛星火發布的消息未能引起行業的熱烈反響。如今的局面其實并不意外，因為商業社會的發展總是需要新的故事。早在今年 2 月，ChatGPT 的出圈就為 AI 板塊的科大訊飛狠狠地拉了一波股價，GPT 概念股至今仍廣為投資者所關注。

據了解，" 星火認知大模型 " 是純文本模型，僅支持文本内容的輸入和輸出，多模态互動需要自更新產品星火 Pro 獲取。而通過 TTS（從文本到語音）實現語音提問功能可以說是意外之喜，也是科大訊飛有别于一眾大廠的特點之一。

此外，本次發布會與此前各家大模型發布會最大的不同在于，科大訊飛 CEO 劉慶峰為大家 " 畫了一張帶有時間線的大餅 "：6 月 9 日前，訊飛星火大模型将突破開放式問答，實現對話能力和數學能力的再更新；8 月 15 日前代碼能力會上大台階，多模态互動能力再更新，在 10 月 24 日前，星火大模型将對标 ChatGPT，在中文能力上超過 ChatGPT，在英文能力上與 ChatGPT 相當。

這是一個管理預期的故事。

回顧近十年的商業新故事，其中既有智能手機、新能源、雲計算等光環（aura）加身的神話，也不乏元宇宙、NFT 這類被祛魅後步入暗夜的案例。每一個故事在開始之時都宣稱将開啟一個新時代、新紀元，宏大的叙事為其披上克裡斯瑪的外衣，等待其進入商業場景後被市場驗證。

反觀科大訊飛，大模型是它不得不抓住的光環。

大模型是 AI 賽道重新洗牌的機會已是共識。而且自科大訊飛近年來的業務發展路線看，其引以為傲的語音識别賽道受困于創新者窘境，視覺領網域也有 AI 四小龍後來居上，嘗試拓展的智慧醫療、智慧金融業務的表現也只是不夠出彩，在 2022 年整體營收中占比均不足 3%。

回歸大模型本身，随着迄今為止人類歷史上用戶增長速度最快的 ChatGPT 不得不關閉付費渠道，一場屬于科技互聯網的 " 西進運動 " 俨然開始進入中場。

現在我們離 GPT 還有多遠？

LLM（大語言模型）、Token ( 文本部門 ) 、參數，為 4 月内幾乎未曾間斷的大模型發布會所吸引的 VC 們一面接收這場寶貴的知識爆炸，一面搖身一變成為 AI 領網域的深耕者。按本山大叔的話來說，就是 " 聰明的智商又占領高地了 "。

先行的創業者們早早通過自身過硬的攢局能力拉來了數輪融資，後來的創業者們也在抓緊忽悠風投上車，勇立時代潮頭一起吃肉喝湯。

只是直到目前，無論是最早發布的大模型文心一言還是後續開放測試或在發布會上實機演示的大模型都距離 ChatGPT 存在一定距離，包括 5 月 6 日發布的科大訊飛星火。

星火發布會上，劉慶峰現場演示星火的能力并提出了評測大模型的覆蓋 7 大類 481 個細分任務類型。盡管真機實測勇氣可嘉，測試内容出錯較少且響應快速，整體的情感理解與邏輯線也都在線，但整體測試類别還是以簡單的文字生成為主。這一塊基本屬于科大訊飛的傳統藝能，并不能看出自去年 12 月起至今近 6 個月的數據投喂成果。

換句話說，目前的生成内容還無法看出星火達到了智能湧現的标準。不過考慮到科大訊飛的數據要素來源主要在于教育、醫療、汽車等細分領網域，目前的表現也就不難理解了。

本次發布會上科大訊飛還展示了星火搭載下的學習機、虛拟人、汽車座艙網域智能辦公演示，這既是亮點也是槽點。亮點在于星火大模型在誕生之初就已經找到了明确的商業化落地路徑，其中教育硬體與辦公硬體也是科大訊飛過去兩年内的營收主力；槽點在于這幾條路徑相對于大模型而言顯得過于狹窄，可能是星火在測試時所表現出的能力還尚未達到賦能千行百業的水平。

不過，學霸未嘗就是未來混得最好的。在大模型競争劇烈的當下，率先占領垂直領網域應用的高地并進入自我造血反哺大模型訓練的良性循環，未嘗不是一條可行的路徑。

更值得注意的是，劉慶峰在發布會結束後透露，星火大模型的算力硬體主要由華為提供，當前并未受到限制。

由此我們也不難看出，一是自身是否有算力儲備在大模型訓練中也許沒那麼重要，尤其是并不是所有人都将大模型定位于 " 通用 " 級别的時候。相反，數據要素的重要性更加凸顯，這在當初百度、阿裡等坐擁多領網域高質量語料的頭部大廠發布大模型時尚不明顯，如今科大訊飛在教育領網域的演示成果與泛領網域演示成果的鮮明對比足以說明數據的重要性。

二是" 送水人 " 式的 " 技術商人 " 路徑在大模型井噴的當下切實可行。一方面送水人可以通過租售算力甚至訓練方法，在獲利的同時解決算力冗餘，另一方面收水人也可以節約大模型訓練的成本，杜絕内卷和重復基礎設施建設，讓大模型相對不再那麼 " 重資產 "。

在劉慶峰的規劃中，星火将在 10 月 24 日達到中文能力超越 ChatGPT，英文語料能力相當。且不論對标的是 GPT3.5 還是 GPT4，我們不妨以此時間為節點，到時候再審視國内大模型與 OpenAI 的差距，是越來越小還是越來越大。

祛魅大模型

訊飛星火的發布從一方面也可以看做是從李開復理解的 AI 1.0 演進為 AI 2.0，是從 NPL（自然語言處理）、CV（計算機視覺）到海量數據喂養下具備跨領網域知識與智能互動能力的大模型。這是在李開復萬字演講中廣為流傳的 "AI 2.0" 範式。

有能力者做通用大模型，稍有欠缺者如科大訊飛，也要根據自有業務線如醫療、教育等場景做規模稍小的大模型。這是一個足夠宏大的叙事，尤其是在國内多位大佬呼籲将所有應用接入大模型重做一遍的話術，充滿了即刻為一項技術突破迅速找到場景進行商業化落地的渴望。

如今的火熱場景我們并不陌生，近年來，我們為了便于傳播與理解，往往會以序列号化的話術來形容技術範式的迭代演進。意義建構理論的學者認為，這是将信息的尋求與使用視作一種溝通實踐模型，幫助人進行信息接收的做法。

從互聯網泡沫後提出的 Web1.0 和 Web2.0 到通信領網域的 4G 和 5G，以及 AI 領網域，序列号給人以最直白的觀感，為我們帶來無限的想象空間，這個視角下的技術可以在草蛇灰線之中無限升維演進。越是這樣帶有技術革命色彩的故事，越是能吸引關注與投資，越具備商業化落地的可能性。

只是能否落地卻是未知數，就像大模型湧現現象的發生概率只有 0% 和 100%。

在資深機器學習與應用開發者楊軍看來，市場上的 " 百模大戰 " 與投資圈的狂熱是在巨量資源投入後，廣譜性質的壓強效應所致，但是在這之中不可避免泡沫的存在。" 我不太認可在介紹 ChatGPT 相關技術時引入的春秋筆法或過于 PR 的味道，總覺得這會把一個原本正常該由技術驅動的事物的演進節奏變得混亂了。關鍵的技術需要回歸到客觀層面理解，才更有利于這個方向的健康發展。"

春秋筆法對新生事物的揠苗助長在 AIGC 前一輪 Web3 風口中随處可見，尤其是結合了 VR、AR 後誕生的元宇宙賽道。科技互聯網從業者必須銘記的案例是 Facebook 更名 Meta，梭哈元宇宙後的窘境。反觀國内，一直以來商業化都是我們的強項，反之也遭到不少缺乏研發耐心、忽略底層技術的诟病。

楊軍透露：" 我知道的一些這個行業裡比較資深的模型從業人士，似乎很多都因為背負了投資方的壓力，更多考慮的是商業變現，而不是底層技術的創新和突破。"

在商業化變現前，大模型需要填滿的洞有多深？

由英偉達給出的 GPT3 訓練數據，參數規模為 1750 億，訓練語料為 30 億 tokens，那麼訓練一個周期需要 26 天，采用租賃方式以 8 卡 A100 訓練的成本超 256 萬美元 / 月，即使忽略人力成本，硬體成本最低也需要大約 2 億人民币一年。楊軍稱，這已經是很保守的估計，系統故障、策略調整等因素也未曾考慮，人力成本更是在技術創新領網域的大頭，如果希望提高效率，以并行方式實驗探索，那麼硬體成本還需追加一倍。

5 年時間，25~30 億不計回報的總投入，這是客觀技術視角下做好一個 GPT4 前兩代的大模型所需要的準備。這筆研發投入已經接近于半導體了。

楊軍對此憂慮頗多，尤其是在風投方面。" 在我有限的閱歷裡，看到了不少風投一開始說支持情懷，随着時間推移，會對變現和尋求接盤退出越來越飢渴，最終以各種方式幹預到項目執行層面。不确定性較強的技術突破瓶頸遭遇的問題，需要行業層面來克服 "。

在技術革命後的第一次格局重構中，狂熱者往往被浪潮無情裹挾，重重拍在淺灘上。好比去年吸收了數千億美元的 Web3，其大本營新加坡如今已有不少從業者租不起房，吃不起飯。

我們對大模型的暢想究竟是像 APUS 李濤所言 " 争奪下一代作業系統的話語權 "，還是針對某個具體場景和領網域的賦能，亦或是在浪潮之中尋求資金、博取熱度，無論哪種都需要讓大模型褪去克裡斯瑪，客觀地看待與探求。

大模型也可以小而美

在眾人一擁而上的時候，相對冷清的路徑反而更有可能成功。

比如在星火上被驗證的 " 送水人 " 路徑，除華為外，字節旗下火山引擎、騰訊雲等玩家已在 4 月這個節點對外明确了自身 " 送水人 " 的角色，通過提供算法優化、算力、數據飛輪等技術棧服務來做淘金熱中的服務商。路徑明晰競對少的同時還可以一定程度上 " 分攤 " 大模型的訓練成本。

這條商業路徑早在淘金運動中便已驗證，但成功故事的背後是淘金運動的 " 内卷 " 特性，才會誕生服務的需求空間，同時 " 送水人 " 還需要在這種上遊配套式或衍生周邊式服務中占據壟斷地位。" 送水人 " 亞默爾原本只是平平無奇的淘金者之一，直到他第一時間抓住了淘金者對水的需求并通過開挖水渠的方式打造了一個專屬于他自己的飲用水生產線。

在如今的大模型中局，時間問題無需考慮，也不存在有誰能在某項服務中能占據壟斷地位。那麼讨論的重點便在于其提供的服務。

大模型的服務需求則可以用 AI 三要素來概括，分别是算力、算法與數據，其中算力是相對最缺乏競争力的領網域。因為算力在淘金者的視角下僅僅只是成本，而在送水人的視角下卻是商品，單純提供算力難免會陷入價格戰的怪圈，反過來掣肘自己的大模型訓練。

算法與數據則與此相反，兩者均可以提高大模型的訓練效率，甚至直接影響訓練成果。只是長遠看來，這兩項服務的前景也不甚樂觀。

算法方面，OpenAI 就是最好的例子，被開發者戲稱為 "CloseAI" 的原因之一便是其堅持閉源。大模型訓練中的策略、算法是可以作為企業護城河的核心資產，" 送水人 " 開放給外界使用的程度将直接關聯自家大模型的競争強度，數據方面也是如此。反之，購買大模型服務的企業也會要求算法與數據的安全，争取在 " 安全線 " 之下有限的互幫互助。

目前看來，" 送水人 " 們除非退出通用大模型的競争，否則送水的動作也很可能只是在成本控制上的錦上添花，真正的 " 送水人 " 還得是英偉達。這也意味着，我們需要另尋更切實的路徑。

日前，OpenAI 關閉付費渠道已在業内引起不小的讨論，最有可能的原因是 GPT4 在接入微軟全棧應用後算力吃緊，只能暫時放棄 C 端增長來穩住大金主。而 OpenAI 聯合創始人兼 CEO Sam Altman 更是公開表示 OpenAI 已接近 LLM 的極限，認為 LLM 的規模不再是衡量模型質量的重要指标，未來将有更多的方式來提升模型的能力和效用。

換句話說，大模型中場之際，OpenAI 在否決了一昧追求規模的路徑同時為行業指出了大模型的迭代新路，即通過優化訓練策略、全局調度以減少投入成本，同時将笨重的大模型轉向小而美的方向發展。

楊軍對此頗有研究，并對此介紹了部分海外已經開始的創新案例。

關注系統優化并結合模型訓練策略進行全鏈路訓練優化的公司 MosaicML 提出，通過将參數降低至 300 億同時将 Token 數提升至 61 億，以 256 張 40GB 的 A100 為資源訓練一個周期，只需要 36 天即可得到與 GPT3 相同質量的訓練結果，而成本僅需要 88 萬美元，幾乎是 GPT3 原始訓練成本的三分之一。除了訓練策略的優化外，通過對 CPU 主記憶體 + 磁盤外存 +GPU 顯存的使用進行全局調度優化，讓低端顯卡 serve 大模型成為可能。

" 一款 AI 框架解決的其實是上層的業務模型需求到底層計算硬體執行的映射問題，在性能足夠的情況下，僅拼性能就可能陷入了‘技術有深度但競争呈紅海’的戰場。"

為了避免這樣的競争，不少大模型在推出時便在宣傳上做了一定的區分，關鍵在于是否存在 " 通用 " 二字。這其中有源自 NPL 基底并在數個領網域直接落地的星火、根植辦公場景的金山 "WPS AI"、立足于問答社區生态的知乎 " 知海圖 AI" 等，其共同點在于針對具體場景，以對行業的縱深理解與數據支撐為基礎，以大模型的 " 湧現 " 能力為跳板，實際上卻是披着通用大模型外衣的中小模型。

送水人也可以參考這樣的 " 技術商人 " 的思維。在楊軍看來，與其參與無謂的 hardcore" 内卷 "，不如去思考自己的技術點在可以在完整商業鏈中發揮什麼功能，完成什麼閉環，通過能力與方向的差異化發掘更多價值。

保持一個啃硬骨頭的決心，開闊技術商業化的視野，是大模型玩家們的必修課。相對追求規模，我們與海外在小而美方向上的研究反而在時間節點上更相近，這也意味着更大的機會。無論是預算與資源相對緊張的創業公司還是有底氣随時掏出數千張 A 卡的大廠，都需要認識到這點。

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App