大模型「六小虎」裡，至少兩家要放棄大模型了

今天小編分享的互聯網經驗：大模型「六小虎」裡，至少兩家要放棄大模型了，歡迎閱讀。

文｜周鑫雨

編輯｜蘇建勳

2024 年，不少曾立下 " 做中國 OpenAI" 軍令狀的模型公司，開始打臉。

據《智能湧現》了解，被稱為 "AI 六小虎 " 的 6 家中國大模型獨角獸（智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰）中，已經有兩家逐步放棄預訓練模型，縮減了預訓練算法團隊人數，業務重心轉向 AI 應用。

（本文希望重點讨論國内 AI 公司對 " 預訓練 " 大模型的路線選擇，及其背後的思考與後續側重點，為了不引起不必要的紛争，遂隐去放棄預訓練模型的企業名稱。）

趕大模型早集的百度，9 月也一度傳出 " 大概率放棄通用基礎大模型研發，主要做應用 " 的消息。即便後續被百度辟謠，但 " 放棄預訓練模型 "，已經成了行業的一個轉捩點。

可以說，能讓廠商上大模型牌桌的，就是 " 預訓練 "。所謂的 " 預訓練（pre-train）"，就好比大模型的基礎教育階段，賦予模型海量而通用的知識，是決定模型性能最關鍵的階段，也是模型廠商最核心的技術壁壘。

對于 AI 行業而言，随着第三方預訓練模型的性能提高，應用層企業逐步放棄預訓練模型，專注于讓模型更懂用戶的 " 後訓練（post-train）" 環節，是節省算力成本考量下的正常趨勢。

2024 年 8 月，矽谷的明星 AI 企業、角色扮演類應用的典範 Character.AI，宣布放棄預訓練，轉向與第三方模型合作。他們在官方博客中給出的理由是：這使我們能夠投入更多資源進行後訓練，并為不斷增長的用戶群體創造新的產品體驗。

然而，模型層企業放棄預訓練模型，意味着主動走下 AGI 競速的牌桌。

更何況，" 自研預訓練模型 " 的故事，曾在短短一年間，給這些模型層企業帶來豐厚的融資、頂級的人才，以及市場的聲譽。模型公司放棄預訓練，戳破了 AI 技術的泡沫。

就如一位 AI 從業者對《智能湧現》所評價的那樣：

" 不少廠商從 OpenAI 身上得到的不是通往 AGI 的技術，而是盲目跟随的自信。"

但對于 AI 賽道而言，放棄預訓練，也不算全然消極的信号。在資金、算力緊缺的當下，現有的大模型廠商，也開始對自身的能力和資源現狀，進行了重新評估。

從模型轉向應用，意味着在追趕 AGI 之前，AI 公司先選擇了活下去。

錢不夠燒了，模型和產品二保一

狂堆參數的 Scaling Law，目前是預訓練的主流路徑，同時也意味着高昂且持續的算力和數據投入。

馬斯克曾估算，GPT-5 的訓練可能需要 3 萬 -5 萬張 H100，僅芯片成本就超過 7 億美元（約 50 億元），幾乎是百度一整個季度的淨利潤。

對于尚未盈利的創業公司而言，繼續堆參數煉模型，籌錢首先就是一個難關。

據《智能湧現》了解，随着估值跨上 200 億元台階，國内大模型公司最新的單輪次融資規模在 50 億元左右。估值的抬高，也會伴随着融資難度的加劇。

一名投資人告訴《智能湧現》，今年最後一季度，大模型獨角獸不會再積極布局融資，" 無論是企業還是一級市場，對下一輪融資都保持悲觀 "。

數十億元的融資，模型廠商不僅要分攤給持續堆參數的模型訓練，還要喂給不斷燒錢營銷、卻盈利能力有限的 AI 應用產品。

當下，與 OpenAI 的技術差距仍然難以彌合，國產模型之間的性能，也尚未拉開鮮明的差距。不少國内模型廠商開始借助 " 數據 + 場景 " 的長板，在 AI 應用上發力，試圖率先跑出 AI 時代的 " 微信 " 和 " 抖音 " ——就連 ToB 基因顯著的智譜 AI 和百川智能，也先後推出了 " 智譜清言 " 和 " 百小應 " 等 C 端應用。

規模化的 AI 應用，逐漸代替了領先的模型性能，成為模型廠商留在 AI 牌桌上的籌碼。因此，用戶數據，成了模型廠商不得不重視的指标。

《智能湧現》曾報道，月之暗面在 B 站給出的 CPA（用戶轉化人均成本）報價高達 30 元左右。而另有知情人士告訴《智能湧現》，如今模型廠商最高的報價，來自于字節跳動的 " 豆包 "，" 幾乎是 Kimi 報價的 2 倍 "。

2024 年以來投流刷臉的營銷打法，讓不少模型廠商的營銷預算翻了數倍。營售價格水漲船高，但在 AI 產品差異化程度還不夠的當下，砸錢買流量幾乎是獲客的唯一出路。

一家大模型獨角獸的員工告訴《智能湧現》，公司曾在 2024 年中，中止了 AI 對話產品在部分社交媒體的投放，" 當月獲客數據立馬變得很難看 "。一個月後，公司又恢復了投流。

并不是所有的大模型公司，都能從暫無盡頭的燒錢中看到希望。

如今，AI 產品所消耗的推理成本，較一年前已經下降了近 99%。但不少業内人士反映，模型的訓練依然占算力成本的至少 7 成。

這意味着，放棄預訓練模型，是資源緊缺的當下，最具性價比的決定。

放棄預訓練模型的其中一家獨角獸，據多名知情人士透露，自 2024 年中，整家公司的目标重心已經放在了海外的 AI 應用產品，以及上市。

大模型公司，困在變現焦慮

為什麼在模型和產品中選擇舍棄前者保證後者？核心原因還是在于，目前靠大模型本身，沒有明晰的變現渠道。

多名從業者對《智能湧現》反映，2024 年開啟的模型降價潮，并沒有提高模型的營收能力。

" 模型 API 的降價，本質上是為了讓客戶體驗模型能力，并轉化成本地部署等高淨利業務的付費。" 一名模型廠商大客戶經理對《智能湧現》表示，" 但表現沒有達到預期，今年上半年大部分模型廠商的 ToB 業務，營收是砍半的。"

他記得，在一款模型宣布免費後，後台湧入了不少 " 白嫖 " 的開發者，" 有一個做研究的開發者，一天用的 Token 數，就占了所有用戶的 60%。"

模型付費轉化的失敗，很大程度是因為，被稱為 " 價格屠夫 " 的開源模型更強了。

随着 Llama 3.1、Mistral Large 2、DeepSeek V 2.5 等一系列開源模型，性能已經達到了叫板 GPT-4，甚至 GPT-4o 的程度。

相對地，閉源模型的競争力正在被削弱。" 付費能力高的企業，一般有自己的技術團隊，可以基于開源模型直接做開發。" 上述大客戶經理表示，對于技術能力不足的企業而言，"開源模型影響的是客戶對模型價格的心理預期。"

一個典型案例是，2023 年 Llama 2 發布後，某大模型獨角獸接到的客戶報價，直接砍了一個 "0"。

模型變現能力不足，意味着當下模型廠商的現金流，幾乎只能依靠融資，以及能夠快速找到 PMF（產品 - 市場匹配度）的 AI 應用。

但如今，能為模型廠商吸引到融資的，除了漂亮的用戶數據，只剩下躍升的模型性能。

一名投資人告訴《智能湧現》，模型廠商誰能先把 o1（OpenAI 最新模型）的能力追平，一級市場還是會為其小沸一番。

但 2024 年，不少大模型廠商，已經卡在了技術的瓶頸。

GPT-4 後，大模型技術的發展已經進入了深水區。9 月，前 OpenAI 首席科學家 Ilya Sutskever ——他曾将 Scaling Law 成功使用在 ChatGPT 等關鍵模型上——在宣布成立新公司 SSI 時直言：" 每個人都只說 Scaling 假設。但每個人都忽略了一個問題：我們到底在 Scaling 什麼？"

大語言模型的迭代速度變慢、多模态仍處于攻堅早期，是模型賽道的現狀。"GPT-4 之前，OpenAI 有公開的詳細技術報告，大家還能對着‘抄’。之後技術報告不公開了，國内廠商的參考答案也沒了。" 一名從業者表示，" 更何況，OpenAI 的答案也不一定正确。"

一群失去方向的大模型公司，需要在技術的不确定性中，重新找到穩定性。

放棄預訓練的模型廠商，抓住的是尚有盈利潛力的 AI 應用。多名知情者都對《智能湧現》表示，其中一家廠商的某款海外 AI 生產力工具產品，貢獻 2024 年以來的大部分營收，" 公司現在 70% 的人力都在做產品 " ——而這款出海應用的底層模型，也逐漸從自研的，換成了 GPT-4 和 GPT-4o。

而另一家在國内靠 ToB 起家的模型公司，也在 2024 年中推出了生產力和娛樂相的 C 端 AI 應用。

剩下仍在堅持預訓練的廠商，則開始在技術上降本增效。

一家模型獨角獸的員工告訴《智能湧現》，今年公司在算力采購上很克制，計劃先采取優化訓練框架等方式，降低模型的訓練成本。

再比如，OpenAI 最新模型 o1 所采用的 Self-play（自博弈）策略，能夠在不增加參數的情況下提升模型性能，也成了不少模型廠商低成本訓練模型的稻草。

對于整個 AI 行業而言，放棄預訓練模型，并不是一個消極的信号。拾象科技 CEO 李廣密近期也公開對外表示，未來 80% 的公司會放棄預訓練，矽谷逐漸形成的共識是 RL（強化學習）是接下來的突破點，能在控制算力成本的情況下，提升特定參數模型的能力。

這意味着從技術狂熱重回理性後，廠商對技術範式和行業資源，開始重新思考和整合。

歡迎交流！