今天小編分享的互聯網經驗:DeepSeek 反思潮:AGI 既被重新審視,又被持續低估,歡迎閲讀。
2 月很有意思。
一、DeepSeek 反思潮
在 DeepSeek 的集體反思潮中,無論是大廠内部的 "AGI 創業團隊 "、還是 AGI 的明星創業公司,都進行了戰略調整。很顯然,DeepSeek 的暴擊讓整個行業都進行了一次深刻的反思,值得注意的幾個變化是:
首先,大模型創業公司重新将技術突破提升到一個新的高度、超越產品更新成為公司戰略發展的優先級。
據近日與張予彤接觸過的 VC 反饋,DeepSeek 不花一分錢投流的崛起啓示了 AGI 的技術高度,也讓 Moonshot 反思了過去一年類互聯網打法、過度重視產品投流的策略局限性。在未來的一年,Moonshot 要将基礎模型的突破作為重點,将更多資源投到技術而非研發上。
事實上,這不僅僅是月之暗面的結論,也是這波 AGI 創業潮中卡技術生态位的大模型公司的普遍轉變。與此相對應的,是產品團隊的資源比重下降,因為 DeepSeek 的成功已經側面證明了:AGI 時代可能不需要產品經理,也不需要投流,只要技術實力提升後就會有用户增長。
2024 年的投流大戰,以 DeepSeek 不花一分錢、DAU 最高時達 4000 萬落下帷幕,而受創最重的自然是投流團隊,因為錢相當于白花了。投流越多、傷害越大,如 Moonshot;投流越少,傷害越小,如 MiniMax。
據 AI 科技評論獲悉,MiniMax 前產品一号位離職的原因之一,就是曾與創始人在投流上發生分歧。MiniMax 的組織架構之前是互聯網打法,按照不同產品進行分組,產品團隊一度達到 200 人,但 2024 年年中開始就一直在調整產品團隊,接下來可能會進一步裁減產品人員。雷峰網
其次,是字節與騰訊的攻守異位,以及字節大模型技術團隊的架構調整。
過去一周,騰訊元寶接入 DeepSeek 後在中國區蘋果免費 APP 下載排行榜上超過豆包,排名第二、僅次于 DeepSeek。在 "DeepSeek+" 的風潮下,相比百度、阿裏、字節等有技術包袱的大廠來説,騰訊的元寶與微信等應用迅速抓住了機會,毫無負擔地接入了 DeepSeek,一下子由過去兩年的被動防守轉為主動出擊,變守為攻,扭轉了局勢。
業内周知,在過去的兩年,騰訊在大模型、AIGC 相關技術與產品上雖然努力追趕,但始終不温不火。又由于将算力與人才等資源更多投入基礎模型,文生視頻等方向的研究資源被影響,團隊核心骨幹從騰訊流向快手、字節等團隊。可以説,DeepSeek 救了騰訊大模型一把。
也因此,有業内人士認為:基礎模型的研究最終只需要 DeepSeek 一家即可。随之引發的,是近日傳出的大模型公司有老股東開始張羅退股的聲音,認為 " 智譜、階躍甚至字節、阿裏等公司的大模型都沒戲了 "。——對于這種聲音,筆者不敢苟同,認為應該持續觀望。
有一個比喻能很好地形容當前中國大模型創業潮的格局:
一個富二代學霸做了一份接近滿分的卷子,并把答案公布了出來。但這份答案的學習有一定的資源成本與面子成本,另一個能承擔起這兩種成本的富二代學渣直接拿來抄了、也考了接近滿分的成績。現在留下一群從農村通過贊助入學、平時考七八十分的學生,以及同是富二代但努力方向錯了的學生,不知所措。
他們終将認識到,開放社會的競争不一定公平,但一定殘酷。打破這種結構性困境很難,或許需要 " 一命二運三風水四積陰德五讀書 ",但他們沒有其他選擇。
回到現實,字節的大模型團隊進行調整,也是因為 AGI 的競争格局發生了變化—— DeepSeek 衝出來之前,業内幾乎所有人都在誇字節的豆包,豆包也上升十分迅猛,給 kimi 造成極大的圍剿;但 DeepSeek 霸屏整個春節後,字節意識到,AGI 仍是一個高度的果實,必須換一個更能打的将領。
據 AI 科技評論驗證,此前字節的基礎模型技術研究由朱文佳帶領,春節後進行了一次大的人員調整,基礎模型技術研發的一号位換成了由吳永輝,黃文灏等在 2024 年新加入的大模型骨幹都向吳永輝匯報,而朱文佳則轉向了模型應用一号位,吳永輝與朱文佳都向梁汝波匯報。
經 AI 科技評論梳理,2023 年字節剛組建大模型團隊時,團隊人員主要來自字節内部,包括搜索、抖音、西瓜、TikTok 等等多條知名業務線,在字節過往產品上有過大大小小的勝仗,朱文佳下面各個小組中一号位人選從外面招入的人才并不多。
從 2024 年年中開始,越來越多 AGI 方向的知名人才被招入字節,團隊開始換血。據知情人士分析,這背後的原因是:朱文佳等人來自搜推廣技術背景,而大模型是新的範式,兩者不一定适合。字節、MiniMax 等公司此前低估 RL 技術路線就是一個例證。吳永輝代替朱文佳成為基礎模型研究一号位,意味着字節換血的決心更徹底。雷峰網
吳永輝此前在谷歌的職級僅次于 Jeff Dean,是谷歌 Gemini 的核心貢獻者之一。而據幾位硅谷華人的信源,吳永輝擅長模型工程。谷歌自 2017 年發布 Transformer 後一直在大模型賽道上持續創新,且谷歌研究大模型一直是從底層框架、算力到上層算法的系統性推進,從知識面上吳永輝确更适合大模型技術一号位的角色。(谷歌 Gemini 是否被低估?歡迎感興趣的讀者添加作者微信 Fiona190913 交流)
據知情人士透露,朱文佳此前在帶領字節大模型技術研發時,在人才任用上更重用以往一起打過仗的親信喬木等人,同時在大模型基礎研究的創新 idea 采用上不夠開放。這背後的邏輯不難理解:AGI 的技術有極高不确定性、用熟悉的隊友能減少溝通成本。如果 AGI 是一個很低的桃子," 錢多人傻 " 的打法也許可以,但事實或許并非如此。
據了解,新加入字節的技術人員曾向朱文佳提過諸如 SPPO 等強化學習方向、火星優化器等高效訓練方向的技術方案," 一些方案明明自己驗證了 work、但被朱文佳移交給身邊的人驗證後被反饋不 work 而棄掉 "。此前字節内部賽馬文生視頻,其他團隊賽赢,但後續成果被朱文佳劃到了 Seed 團隊。(更多字節大模型内部的研究細節,歡迎天街作者微信 Fiona190913 交流)
大模型是一項有門檻的創新技術,無論在大廠還是創業公司,實際上都需要創業者的心态。第一批低估 AGI 的人已經被摁倒,但并非所有人都吸取了教訓。雷峰網
二、AGI 的壁壘在哪?
" 算法是沒有壁壘的。" 一位大模型 VC 這樣評論道。與此同時,還有相似的聲音:"DeepSeek 現象只是昙花一現,過 6 個月就會被追上 ",以及 " 大模型創業公司必然會死,最後赢家只有 DeepSeek 與大廠,你看騰訊元寶 "。
筆者認為,在下論斷之前,首先要回答一個問題:DeepSeek 已經實現終極 AGI 了嗎?答案顯然是否定的,即使是 DeepSeek 官方都承認,R1 模型仍有一些致命缺陷,比如通用能力不足、語言混淆、提示詞敏感以及軟體工程能力不足。
如果這個問題達成了共識,那麼我們就要思考下一層:
第一,DeepSeek 是不是一定能解決 AGI 的所有技術問題?
第二,DeepSeek 是不是只需一家之力就能實現終極 AGI?
第三,中國是不是只有 DeepSeek 一家有實力解決 AGI 的各個技術問題?
同樣以騰訊元寶為例。雖然元寶接入 DeepSeek 後可以赢得一時的勝利,但沒有人能保證 DeepSeek 永遠滿分。如果有一天 DeepSeek 不開卷、競争的規則被改寫,又将攻守異位。
對于上述問題,筆者均持懷疑态度,原因很簡單:DeepSeek 并非聚集了中國乃至全球所有的 AGI 技術人才。即使曾經明星如雲的 OpenAI,也因為 2023、2024 年經歷了大批核心人才出走,發展受阻。
關于 AGI,如果不将其當成只是 DeepSeek 一家的責任,而是作為整個 AI 行業的必然終局,那麼就不難有一種樸素的感覺:AGI 的大航海,需要的不只是一個 "DeepSeek",也不會只有一個 "DeepSeek"。AGI 是一個行業,而不是一個產品。
在 2 月的交流中,筆者總結,造成 AGI 從業者這種 " 既重視又低估 " 的矛盾心理的一個重要原因,或許是互聯網思維的慣性。
經歷過互聯網大戰的從業者向 AI 科技評論舉例," 互聯網產品就是競争到最後往往就是只有一家勝出,比如出行大戰、3Q 大戰等等。" 但筆者認為,這種類比不太恰當,因為互聯網產品的技術如搜推廣從谷歌開始、再到國内時,大體的技術天花板已經确定,而 DeepSeek 證明了 AGI 的天花板比 OpenAI 所取得的成績還高。
與 AGI 或大模型能在同一個層面類比的技術分支,或許用自動駕駛的 L4、英偉達芯片等高難度的技術來類比更合适。雖然 L4 至今沒有實現,但自動駕駛技術從 L2 到 L4 的過程中曾衍生了不同維度的產品商業化(如掃地機器人),同樣,AGI 也是一個逐步取得勝利、逐步催生商業技術產品的過程。
有些團隊本就不具備競争 AGI 的技術實力,但這并不能推斷出 "DeepSeek 是唯一能競争 AGI 的創業團隊 " 或 " 中國只需要一家 AGI 公司 " 的結論。哪怕是海外的各家基礎模型,也在能力上各有分工,如 GPT 更擅長聽指令、Claude 更擅長代碼。
再回顧更大的行業規律:如果説搜廣推技術由谷歌開啓、字節抖音推至巅峰,那麼大模型技術由 OpenAI 開啓,由将由誰推至巅峰?互聯網時代經歷了 20 年才得出答案、中間也經歷了許多故事,那麼 AGI 時代也不可能只在 2 年内驗證最初的赢家與最後的赢家。
那麼,AGI 的壁壘在哪?
筆者認為,AGI 的壁壘實際是:算法的優勢、技術的創新雖然無法構成堅不可摧的壁壘,但可以赢得時間差。
以月之暗面為例。事實上,Moonshot 與 DeepSeek 都是在 2023 年的上半年成立、前後相差只有一個月。
在 2021 年智源的 " 悟道 " 大模型項目中,楊植麟也是悟道 2.0 大模型的核心開發者之一,從底層 Transformer 到上層大模型的算法訓練都有完整、系統的研究背書。相比之下,DeepSeek 創始團隊、包括梁文鋒雖是計算機專業背景,但在 NLP、Transformer 與預訓練等大模型的關鍵技術上與 Moonshot 團隊必然存在技術學習的時間差。
如果以 Moonshot 在成立時就具備訓練千億大模型的能力開始算起,到 DeepSeek 在 2024 年 5 月發布 V2,那麼這個時間差粗略計算大約是 1 年;如果嚴格考慮 V2 訓練成本大幅降低的研發時間,這個時間差也至少是 6 個月以上。
但由于 Moonshot 在過去兩年更重視產品增長、而非基礎模型的底層技術創新,Moonshot 與 DeepSeek 的基礎模型時間差也從 2023 年 "DeepSeek 至少比 Moonshot 落後半年 " 變成了 2025 年 "Moonshot 至少比 DeepSeek 落後 XXX 年 "。在互聯網思維的過度指導下,前後相減,Moonshot 至少失去了一年的優勢,主動變被動。
據知情人士透露,DeepSeek 内部計劃今年 3 月發布 V3.5,6 月之前發布 V4。換言之,假設其他團隊的基礎模型能在 6 月趕上 V3 與 R1,作為先行者,DeepSeek 已經利用時間差赢得了領先的技術研發期,以及這半年内的生态護城河。模型的效果容易提升,但生态不容易割據。
是坐享其成,還是參與競争,亦或看清局勢、早早轉向自身的優勢所在,不容易判斷。盡管 DeepSeek 當前風頭正盛,但 AGI 仍然是一個挂在高處的果子,需要持續的底層技術創新。
在跋涉的過程中,一定會有人退出,無論是 VC 也好、創業者也好、技術人員也好,但無論如何,這條路上不會只有 DeepSeek,也希望不會只有 DeepSeek。