今天小編分享的互聯網經驗:大模型「六小虎」裏,至少兩家要放棄大模型了,歡迎閲讀。
文|周鑫雨
編輯|蘇建勳
2024 年,不少曾立下 " 做中國 OpenAI" 軍令狀的模型公司,開始打臉。
據《智能湧現》了解,被稱為 "AI 六小虎 " 的 6 家中國大模型獨角獸(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經有兩家逐步放棄預訓練模型,縮減了預訓練算法團隊人數,業務重心轉向 AI 應用。
(本文希望重點讨論國内 AI 公司對 " 預訓練 " 大模型的路線選擇,及其背後的思考與後續側重點,為了不引起不必要的紛争,遂隐去放棄預訓練模型的企業名稱。)
趕大模型早集的百度,9 月也一度傳出 " 大概率放棄通用基礎大模型研發,主要做應用 " 的消息。即便後續被百度辟謠,但 " 放棄預訓練模型 ",已經成了行業的一個轉捩點。
可以説,能讓廠商上大模型牌桌的,就是 " 預訓練 "。所謂的 " 預訓練(pre-train)",就好比大模型的基礎教育階段,賦予模型海量而通用的知識,是決定模型性能最關鍵的階段,也是模型廠商最核心的技術壁壘。
對于 AI 行業而言,随着第三方預訓練模型的性能提高,應用層企業逐步放棄預訓練模型,專注于讓模型更懂用户的 " 後訓練(post-train)" 環節,是節省算力成本考量下的正常趨勢。
2024 年 8 月,硅谷的明星 AI 企業、角色扮演類應用的典範 Character.AI,宣布放棄預訓練,轉向與第三方模型合作。他們在官方博客中給出的理由是:這使我們能夠投入更多資源進行後訓練,并為不斷增長的用户群體創造新的產品體驗。
然而,模型層企業放棄預訓練模型,意味着主動走下 AGI 競速的牌桌。
更何況," 自研預訓練模型 " 的故事,曾在短短一年間,給這些模型層企業帶來豐厚的融資、頂級的人才,以及市場的聲譽。模型公司放棄預訓練,戳破了 AI 技術的泡沫。
就如一位 AI 從業者對《智能湧現》所評價的那樣:
" 不少廠商從 OpenAI 身上得到的不是通往 AGI 的技術,而是盲目跟随的自信。"
但對于 AI 賽道而言,放棄預訓練,也不算全然消極的信号。在資金、算力緊缺的當下,現有的大模型廠商,也開始對自身的能力和資源現狀,進行了重新評估。
從模型轉向應用,意味着在追趕 AGI 之前,AI 公司先選擇了活下去。
錢不夠燒了,模型和產品二保一
狂堆參數的 Scaling Law,目前是預訓練的主流路徑,同時也意味着高昂且持續的算力和數據投入。
馬斯克曾估算,GPT-5 的訓練可能需要 3 萬 -5 萬張 H100,僅芯片成本就超過 7 億美元(約 50 億元),幾乎是百度一整個季度的淨利潤。
對于尚未盈利的創業公司而言,繼續堆參數煉模型,籌錢首先就是一個難關。
據《智能湧現》了解,随着估值跨上 200 億元台階,國内大模型公司最新的單輪次融資規模在 50 億元左右。估值的抬高,也會伴随着融資難度的加劇。
一名投資人告訴《智能湧現》,今年最後一季度,大模型獨角獸不會再積極布局融資," 無論是企業還是一級市場,對下一輪融資都保持悲觀 "。
數十億元的融資,模型廠商不僅要分攤給持續堆參數的模型訓練,還要喂給不斷燒錢營銷、卻盈利能力有限的 AI 應用產品。
當下,與 OpenAI 的技術差距仍然難以彌合,國產模型之間的性能,也尚未拉開鮮明的差距。不少國内模型廠商開始借助 " 數據 + 場景 " 的長板,在 AI 應用上發力,試圖率先跑出 AI 時代的 " 微信 " 和 " 抖音 " ——就連 ToB 基因顯著的智譜 AI 和百川智能,也先後推出了 " 智譜清言 " 和 " 百小應 " 等 C 端應用。
規模化的 AI 應用,逐漸代替了領先的模型性能,成為模型廠商留在 AI 牌桌上的籌碼。因此,用户數據,成了模型廠商不得不重視的指标。
《智能湧現》曾報道,月之暗面在 B 站給出的 CPA(用户轉化人均成本)報價高達 30 元左右。而另有知情人士告訴《智能湧現》,如今模型廠商最高的報價,來自于字節跳動的 " 豆包 "," 幾乎是 Kimi 報價的 2 倍 "。
2024 年以來投流刷臉的營銷打法,讓不少模型廠商的營銷預算翻了數倍。營售價格水漲船高,但在 AI 產品差異化程度還不夠的當下,砸錢買流量幾乎是獲客的唯一出路。
一家大模型獨角獸的員工告訴《智能湧現》,公司曾在 2024 年中,中止了 AI 對話產品在部分社交媒體的投放," 當月獲客數據立馬變得很難看 "。一個月後,公司又恢復了投流。
并不是所有的大模型公司,都能從暫無盡頭的燒錢中看到希望。
如今,AI 產品所消耗的推理成本,較一年前已經下降了近 99%。但不少業内人士反映,模型的訓練依然占算力成本的至少 7 成。
這意味着,放棄預訓練模型,是資源緊缺的當下,最具性價比的決定。
放棄預訓練模型的其中一家獨角獸,據多名知情人士透露,自 2024 年中,整家公司的目标重心已經放在了海外的 AI 應用產品,以及上市。
大模型公司,困在變現焦慮
為什麼在模型和產品中選擇舍棄前者保證後者?核心原因還是在于,目前靠大模型本身,沒有明晰的變現渠道。
多名從業者對《智能湧現》反映,2024 年開啓的模型降價潮,并沒有提高模型的營收能力。
" 模型 API 的降價,本質上是為了讓客户體驗模型能力,并轉化成本地部署等高淨利業務的付費。" 一名模型廠商大客户經理對《智能湧現》表示," 但表現沒有達到預期,今年上半年大部分模型廠商的 ToB 業務,營收是砍半的。"
他記得,在一款模型宣布免費後,後台湧入了不少 " 白嫖 " 的開發者," 有一個做研究的開發者,一天用的 Token 數,就占了所有用户的 60%。"
模型付費轉化的失敗,很大程度是因為,被稱為 " 價格屠夫 " 的開源模型更強了。
随着 Llama 3.1、Mistral Large 2、DeepSeek V 2.5 等一系列開源模型,性能已經達到了叫板 GPT-4,甚至 GPT-4o 的程度。
相對地,閉源模型的競争力正在被削弱。" 付費能力高的企業,一般有自己的技術團隊,可以基于開源模型直接做開發。" 上述大客户經理表示,對于技術能力不足的企業而言,"開源模型影響的是客户對模型價格的心理預期。"
一個典型案例是,2023 年 Llama 2 發布後,某大模型獨角獸接到的客户報價,直接砍了一個 "0"。
模型變現能力不足,意味着當下模型廠商的現金流,幾乎只能依靠融資,以及能夠快速找到 PMF(產品 - 市場匹配度)的 AI 應用。
但如今,能為模型廠商吸引到融資的,除了漂亮的用户數據,只剩下躍升的模型性能。
一名投資人告訴《智能湧現》,模型廠商誰能先把 o1(OpenAI 最新模型)的能力追平,一級市場還是會為其小沸一番。
但 2024 年,不少大模型廠商,已經卡在了技術的瓶頸。
GPT-4 後,大模型技術的發展已經進入了深水區。9 月,前 OpenAI 首席科學家 Ilya Sutskever ——他曾将 Scaling Law 成功使用在 ChatGPT 等關鍵模型上——在宣布成立新公司 SSI 時直言:" 每個人都只説 Scaling 假設。但每個人都忽略了一個問題:我們到底在 Scaling 什麼?"
大語言模型的迭代速度變慢、多模态仍處于攻堅早期,是模型賽道的現狀。"GPT-4 之前,OpenAI 有公開的詳細技術報告,大家還能對着‘抄’。之後技術報告不公開了,國内廠商的參考答案也沒了。" 一名從業者表示," 更何況,OpenAI 的答案也不一定正确。"
一群失去方向的大模型公司,需要在技術的不确定性中,重新找到穩定性。
放棄預訓練的模型廠商,抓住的是尚有盈利潛力的 AI 應用。多名知情者都對《智能湧現》表示,其中一家廠商的某款海外 AI 生產力工具產品,貢獻 2024 年以來的大部分營收," 公司現在 70% 的人力都在做產品 " ——而這款出海應用的底層模型,也逐漸從自研的,換成了 GPT-4 和 GPT-4o。
而另一家在國内靠 ToB 起家的模型公司,也在 2024 年中推出了生產力和娛樂相的 C 端 AI 應用。
剩下仍在堅持預訓練的廠商,則開始在技術上降本增效。
一家模型獨角獸的員工告訴《智能湧現》,今年公司在算力采購上很克制,計劃先采取優化訓練框架等方式,降低模型的訓練成本。
再比如,OpenAI 最新模型 o1 所采用的 Self-play(自博弈)策略,能夠在不增加參數的情況下提升模型性能,也成了不少模型廠商低成本訓練模型的稻草。
對于整個 AI 行業而言,放棄預訓練模型,并不是一個消極的信号。拾象科技 CEO 李廣密近期也公開對外表示,未來 80% 的公司會放棄預訓練,硅谷逐漸形成的共識是 RL(強化學習)是接下來的突破點,能在控制算力成本的情況下,提升特定參數模型的能力。
這意味着從技術狂熱重回理性後,廠商對技術範式和行業資源,開始重新思考和整合。
歡迎交流!