今天小編分享的科技經驗:大模型瘋狂12月,卷出五個關鍵趨勢,歡迎閱讀。
文 | 軌迹研究室,作者 | kiki
如果對比去年同期,你會發現今年 12 月是大模型行業的一個熱鬧峰值。
從 11 月中旬開始,OpenAI、微軟、谷歌、字節跳動、百度和智譜等科技公司都召開了與大模型相關的發布會,推出了一系列新模型、新應用和新產品,其中 OpenAI 的 12 天連續直播更是開啟了科技公司發布會的新流行。
熱鬧之下,比起去年技術層和競争層的種種不确定性,當下模型廠商們的心态和預期好很多。一方面,在技術側,一場推理 AI 競賽已經開打;另一方面,應用層包括 AI Agent、搜索等方向也已經明确。
我們整理了 12 月大模型行業裡的五個趨勢,記錄這個瘋狂月份裡的興奮和失落。
1、OpenAI 扣動扳機,開啟推理 AI 競賽
随着 OpenAI 相繼發布 o1 和 o3 模型,一場推理競賽正在模型廠商間展開。
據 OpenAI 發布的 o3 系列時給出的評測數據,在數學、編碼、博士級科學問題等復雜問題上的表現,o3 均展現出了強大的實力,例如在陶哲軒等 60 餘位全球數學家共同推出的最強數學基準的 EpochAI Frontier Math 中,o3 創下新紀錄,準确率高達 25.2%,而其他模型都沒有超過 2.0%。
而在 OpenAI 沒放出 o3 前,國内外科技公司的目标無疑是追趕 o1,谷歌此前發布全新測試模型 Gemini 2.0 Flash Thinking。
今年 11 月,月之暗面 Kimi 的新一代數學推理模型 k0-math、DeepSeek 的推理模型 DeepSeek-R1-Lite 預覽版、阿裡雲通義的 QwQ-32B-Preview 也相繼發布,在一些數學和編碼評估表現中,它們的分數比 o1 還要高。
但一個問題是,目前尚不清楚 o3 是否會為普通用戶帶來很大幫助,從模型能力來看更适合推編碼、數學和科學領網域的研究人員,除此以外,推理模型也很昂貴。在 Keras 之父 François Chollet 發起的 ARC-AGI 基準測試顯示,盡管 o3 在高計算模式下得分率為 87.5%,但研究人員在該模式下每個任務花費達到數美元,任務成本很高。
ARC-AGI 測試标準 圖源:X@arcprize
但成本也只是一個相對的概念。近期,清華 NLP 實驗室劉知遠教授團隊提出了大模型的密度定律(densing law),該定律表明,大約每過 3.3 個月(100 天),就能用參數量減半的模型達到當前最先進模型的性能水平,這意味未來推理成本還會快速降低。
但至少從技術端來看,至少 OpenAI 再度驗證了 Scaling Law 沒有消失,只不過是從預訓練端轉向了推理端,通過強化學習和更多的思考時間,提升模型的復雜推理能力,這條路是可行的。
對國内外基礎模型廠商而言,它們需要追趕的新目标又出現了。
2、降價還在繼續,甚至卷到了「視頻模型」
繼 5 月、9 月後的兩輪大模型「價格戰」後,OpenAI 和火山引擎(字節跳動旗下雲廠商)又掀開了第三輪「價格戰」。
在 OpenAI 第九天的發布會上,針對 GPT-4o 音頻模型,4o 音頻價格降低了 60%,降至輸入 40 美元 / 百萬 tokens、輸出 80 美元 / 百萬 tokens,文本價格為輸入 2.5 美元 / 百萬 tokens、輸出 10 美元 / 百萬 tokens。
OpenAI 12 天直播 圖源:官網
為了讨好開發者,OpenAI 還把價格戰打到了更有性價比的小模型 GPT-4o mini 上,音頻費用是 4o 的四分之一。" 我們聽到了開發者關于成本的反饋,我們正在降低成本 "。OpenAI 開發者平台負責人 Olivier Godement 在直播中這樣說。
另一邊的火山引擎則是把「價格戰」帶到了視頻模型上,其發布的豆包視覺理解模型輸入價格為 0.003 元 / 每千 tokens,比行業平均價格降低 85%,火山引擎稱将視覺理解模型帶入了「厘時代」。
「厘時代」的說法并不陌生,今年 5 月火山引擎就宣布豆包主力模型将推理輸入價格降至「厘時代」,打響大模型推理算力價格戰,此後阿裡雲、百度智能雲和騰訊雲均迅速跟進,大模型推理算力價格下降了 90% 以上。
降價并不是國内模型廠商的獨有特色,OpenAI 也曾多次降價。但區别于國外廠商,國内大模型玩家的特點是:降價幅度更狠,且多為雲廠商主導。
降價的原因主要有三:首先,以價換量,以價格帶動推理算力消耗量增長,這也是為什麼降價主要集中在雲廠商的原因。
火山引擎方面,5 月豆包通用模型的日均 tokens 使用量為 1200 億,截至 12 月中旬,日均 tokens 使用量已超過 4 萬億,較七個月前首次發布時增長了 33 倍。百度 5 月日均 Token 消耗量是 2500 億,截至 11 月初,百度文心大模型的日均處理 Tokens 文本數超過 1.7 萬億,不到半年增長了 6.8 倍。
其次,随着底層大模型成本、價格的降低,吸引開發者,加速 AI 進入外部企業,搶占應用生态。
零一萬物創始人李開復在近期的一場采訪中對比去年和今年的模型價格,這樣說:" 一年半的時間内,價格差了 500 倍,同時模型能力還有很大程度的提升。今天如果你還覺得貴,明年 99% 的概率就不貴了,再過一年可能不但不貴,而且能夠支撐你做想要的應用。"
最後,技術本身的優化也帶來降本的空間。 譚待提到,降價是算法、軟體、工程和硬體結合的結果,例如模型結構的優化,在工程手段上,針對不同客戶場景集中規模化處理模型調用任務以及采用多種工程化手段,還有通過以異構資源池化的解決方案,提升芯片利用率等。
譚待談到驅動兩次降價的兩個内部決策因素,提到兩個核心因素,一方面會了解開發者、企業在使用過程中對成本痛點,價格降到多少,他們就能用起來,另一方面,火山引擎也在通過技術優化能把成本打到多低:" 這兩個值的中間段就是火山引擎可以定下的價格 "。
據華泰證券此前預測,降價或還會蔓延,且已呈現出向主力模型降價的趨勢。但降價是面子,模型能力才是裡子,模型廠商需要回答的核心問題有兩個:一是以價換量是否會影響利潤表現(國内雲廠商這些年均強調利潤),二是模型效果是否能真正讓客戶買單,因為一切競争的原點都還會回歸模型的推理能力上。
3、大模型應用爆發了,但「能用」到「好用」間還有鴻溝
計算成本的下降和基礎模型選項的增加,讓大模型應用層進入了一個飛速發展的時期,風險投資公司 Lerer Hippeau 管理合夥人 Ben Lerer 甚至這樣說:
" 如果你是一家初創公司,你可以選擇當下流行的方案,不僅僅是做 ChatGPT 包裝器、Claude 包裝器、Gemini 包裝器,或者随便什麼,你可以将所有這些包裝器組合起來,以優化功能、結果和這些結果的成本。"
「套殼與否」已經不再成為市場關注的重點,國外應用層玩家的「通用大模型套垂直小模型」的「雞尾酒打法」也已復制到中國。
以國内 AI 玩具廠商躍然創新為例,創始人李勇就提到,在通用大模型上和 MiniMax、豆包、智譜均有合作," 各家效果都挺好,兒童場景也夠用 ",現階段使用 MiniMax 比較多是因為 " 給了躍然創新早期用戶很多免費 tokens"。
比起外界對「何時出現殺手級應用」的追問,各家廠商有自己的判斷,此前字節管理層判斷 AI 對話類產品可能只是 AI 產品的「中間态」,而百度創始人李彥宏則對外反復談到,Agent 是他最看好的 AI 應用發展方向。
整個 12 月,大模型玩家們圍繞應用層的探索形成了「2+X」的确定性方向,其中「2」指的是 AI Agent(智能代理)和 AI 搜索,而「X」則是包括 AI 玩具、AI 耳機、AI 眼鏡等諸多 AI 軟 / 硬體產品。
在 AI 搜索上,姗姗來遲的 OpenAI 終于在 12 天直播中宣布在 ChatGPT 新增了搜索功能,而據外媒報道,谷歌在推出 AI Overviews 後,近期也在考慮在 Chrome 浏覽器中增加「AI 模式」選項。而在不久前,AI 搜索領網域的巨頭 Perplexity AI 也完成了新一輪 5 億美元的融資,估值已升至 90 億美元。
搜索這塊「舊蛋糕」一直是大模型應用的必争之地,如今戰火更盛的原因一是大模型推理技術能力的提升,二是對商業化的迫切需求讓玩家們加大了對搜索這一「離錢更近」場景的争奪。
而與 AI 搜索關系「暧昧」的 AI Agent 也在 12 月成為最火的應用落地方向。
Anthropic 推出的 Computer Use 功能和智譜近期發布的 AutoGLM 都展示了端側 Agent 的互動性、自動化和主動性等特點,國内外科技大廠也幾乎都有自己的 Agent 平台。
在科技企業的各種演示中,AI Agent 似乎已經能融入用戶的工作和生活,不僅在手機端能執行預定酒店、點外賣等指令,還可以成為用戶的工作助理,智譜 AI CEO 張鵬将 AI Agent 比作大模型通用作業系統 LLM-OS 的雛形,它的潛力在于大模型公司可以以此搭建自己的生态圈,在手機、PC 等端側找到落地的入口。
"(AI Agent)實現大模型的互聯互通,理論是沒有邊界的 "。張鵬表示。
但也請對科技公司的理想保持冷靜。現階段,他們尚未解決的問題還有很多。比如商業模式,在 C 端,智能體目前尚沒有形成新的商業模式,依舊靠高流量帶來的付費轉化,百度、字節等大廠的智能體還需要靠自己已有的流量陣地完成分發。
而在 B 端,紅杉在近期一份報道中指出,随着代理(Agent)應用很快變得更加復雜,對于任何給定的領網域,收集現實世界的數據、編碼領網域和應用特定的認知架構也将成為更多玩家擺在眼前的挑戰。
當然,在「X」上也湧現出更多的嘗試。除了我們已熟悉的 AI 手機、AI PC 外,紅極一時的 AI Pin 不見了,新的風口屬于 AI 玩具和 AI 耳機。
字節的顯眼包,已經開賣的 AI 毛絨玩具,究竟是風口,還是剛需,銷量和復購數字會給出答案。
一句話總結,在強調「應用優先」的共識裡,從能用到好用,還有許多鴻溝。
4、資金大分裂繼續,窮人富人已經出現
熱鬧的年終發布月裡,久違的大模型融資熱又來了。
上個月底,在 OpenAI 和 Anthropic 完成新一筆融資後,據我們不完全統計,12 月初,又一批國内外的明星 AI 企業們拿到了「過冬錢」。
國内大模型企業中,面壁智能、智譜 AI、階躍星辰完成新一輪融資,至此也将國内基座大模型的估值抬升至 200 億元門檻,随着單筆融資的提升,我們發現接住國内大模型公司已經變成了老股東、國資和科技大廠。
國外企業中,模型層、應用層和幾基座層均有新融資出現,Perplexity AI、X.AI、Databricks、Cursor 等公司都拿到了新一筆錢。
拿到錢該如何分配,是這些公司下一步的重點,加碼技術研發和基礎設施建設還是主線。X.AI 在本次融資公告中就提到,主要用途預計是采購另外 10 萬塊英偉達 GPU,以進一步擴充其算力規模。
融資的牌桌上,有富人,就有窮人。風險機構 Northzone 合夥人 Molly Alter 預測:"「最誘人」的交易将繼續以極高的估值進行,但對于其他公司而言,則需要展示非常具體的指标才能獲得高估值。「富人」和「窮人」将出現巨大的分化。"
分化的結果将是,我們會看見,尋求退場或倒閉的初創公司會增加,大型科技公司和頭部企業的整合速度也會加快。
如 Perplexity AI 在本月收購了一家名為 Carbon 的小型初創公司,Cursor 背後的開發商 Anysphere 也将另一款 AI 編碼助手 Supermaven 收入囊中。
「The information」此前曾提出,衡量那些短期内不太可能被收購的公司主要有以下幾點因素:收入和利潤、增長、員工人數、籌集的總資金以及公司是否從可能成為收購者的戰略投資者那裡籌集了大量資金。
5、回流與出走,所有人都面臨 " 人 " 的問題
人、錢、事,是所有公司的三要素,而在大模型行業,人又是最關鍵的因素。
圍繞大模型組織的整合、人才的回流和出走,成了年末的焦點話題。
此前我們在《大模型狂飙兩年後," 六小龍 " 開始做減法》曾報道過,大模型「六小龍」中已經不斷有人員離開,他們離職的方向包括但不限于——回流大廠、再創業。
而再創業的方向基本也和 AI 相關,零一萬物前聯潘欣在近期以閃極 AI 合夥人身份投身 AI 眼鏡浪潮,月之暗面前產品負責人王冠的新創業項目 ONE2X 也在 11 月完成天使輪融資。
而「人」也是過去一年裡 OpenAI 頭疼的問題。不久前,「GPT 之父」Alec RadfordAlec Radford 也宣布從 OpenAI 離開,宣布将開啟自己獨立研究生涯。搜索負責人 Shivakumar Venkataraman 也在加入公司七個月後離職,他領導了 OpenAI 企業客戶的搜索和人工智能的開發。
類似的整合也出現在大廠内部,它們需要以更靈活的姿态應對競争。此前據《智能湧現》報道,阿裡旗下的 AI 應用「通義」也從阿裡雲分拆,并入阿裡智能信息事業群。
可以肯定的是,随着競争激烈,組織和人才整合和分化不會停止。
時間撥回去年 12 月,在經歷了内鬥動蕩後,重回管理層的 Sam Altman 或許不會想到,此刻的 OpenAI 已經歷了一輪人才的大換血。
一年前,人們讨論的話題是創業公司和大廠間的競争,技術上聚焦長文本視窗,流行大模型是一把手工程,一年過去,這些話題還在讨論,但有些問題已經随技術更迭成為共識。
即便人們對 AI 依舊懷疑,但它确實已走入人們的生活,這個趨勢将無法阻擋,正如 Sam Altman 在 12 天直播發布會後所說的那樣:
"You can just do things。"