DeepSeek 反思潮：AGI 既被重新審視，又被持續低估

今天小編分享的互聯網經驗：DeepSeek 反思潮：AGI 既被重新審視，又被持續低估，歡迎閲讀。

2 月很有意思。

一、DeepSeek 反思潮

在 DeepSeek 的集體反思潮中，無論是大廠内部的 "AGI 創業團隊 "、還是 AGI 的明星創業公司，都進行了戰略調整。很顯然，DeepSeek 的暴擊讓整個行業都進行了一次深刻的反思，值得注意的幾個變化是：

首先，大模型創業公司重新将技術突破提升到一個新的高度、超越產品更新成為公司戰略發展的優先級。

據近日與張予彤接觸過的 VC 反饋，DeepSeek 不花一分錢投流的崛起啓示了 AGI 的技術高度，也讓 Moonshot 反思了過去一年類互聯網打法、過度重視產品投流的策略局限性。在未來的一年，Moonshot 要将基礎模型的突破作為重點，将更多資源投到技術而非研發上。

事實上，這不僅僅是月之暗面的結論，也是這波 AGI 創業潮中卡技術生态位的大模型公司的普遍轉變。與此相對應的，是產品團隊的資源比重下降，因為 DeepSeek 的成功已經側面證明了：AGI 時代可能不需要產品經理，也不需要投流，只要技術實力提升後就會有用户增長。

2024 年的投流大戰，以 DeepSeek 不花一分錢、DAU 最高時達 4000 萬落下帷幕，而受創最重的自然是投流團隊，因為錢相當于白花了。投流越多、傷害越大，如 Moonshot；投流越少，傷害越小，如 MiniMax。

據 AI 科技評論獲悉，MiniMax 前產品一号位離職的原因之一，就是曾與創始人在投流上發生分歧。MiniMax 的組織架構之前是互聯網打法，按照不同產品進行分組，產品團隊一度達到 200 人，但 2024 年年中開始就一直在調整產品團隊，接下來可能會進一步裁減產品人員。雷峰網

其次，是字節與騰訊的攻守異位，以及字節大模型技術團隊的架構調整。

過去一周，騰訊元寶接入 DeepSeek 後在中國區蘋果免費 APP 下載排行榜上超過豆包，排名第二、僅次于 DeepSeek。在 "DeepSeek+" 的風潮下，相比百度、阿裏、字節等有技術包袱的大廠來説，騰訊的元寶與微信等應用迅速抓住了機會，毫無負擔地接入了 DeepSeek，一下子由過去兩年的被動防守轉為主動出擊，變守為攻，扭轉了局勢。

業内周知，在過去的兩年，騰訊在大模型、AIGC 相關技術與產品上雖然努力追趕，但始終不温不火。又由于将算力與人才等資源更多投入基礎模型，文生視頻等方向的研究資源被影響，團隊核心骨幹從騰訊流向快手、字節等團隊。可以説，DeepSeek 救了騰訊大模型一把。

也因此，有業内人士認為：基礎模型的研究最終只需要 DeepSeek 一家即可。随之引發的，是近日傳出的大模型公司有老股東開始張羅退股的聲音，認為 " 智譜、階躍甚至字節、阿裏等公司的大模型都沒戲了 "。——對于這種聲音，筆者不敢苟同，認為應該持續觀望。

有一個比喻能很好地形容當前中國大模型創業潮的格局：

一個富二代學霸做了一份接近滿分的卷子，并把答案公布了出來。但這份答案的學習有一定的資源成本與面子成本，另一個能承擔起這兩種成本的富二代學渣直接拿來抄了、也考了接近滿分的成績。現在留下一群從農村通過贊助入學、平時考七八十分的學生，以及同是富二代但努力方向錯了的學生，不知所措。

他們終将認識到，開放社會的競争不一定公平，但一定殘酷。打破這種結構性困境很難，或許需要 " 一命二運三風水四積陰德五讀書 "，但他們沒有其他選擇。

回到現實，字節的大模型團隊進行調整，也是因為 AGI 的競争格局發生了變化—— DeepSeek 衝出來之前，業内幾乎所有人都在誇字節的豆包，豆包也上升十分迅猛，給 kimi 造成極大的圍剿；但 DeepSeek 霸屏整個春節後，字節意識到，AGI 仍是一個高度的果實，必須換一個更能打的将領。

據 AI 科技評論驗證，此前字節的基礎模型技術研究由朱文佳帶領，春節後進行了一次大的人員調整，基礎模型技術研發的一号位換成了由吳永輝，黃文灏等在 2024 年新加入的大模型骨幹都向吳永輝匯報，而朱文佳則轉向了模型應用一号位，吳永輝與朱文佳都向梁汝波匯報。

經 AI 科技評論梳理，2023 年字節剛組建大模型團隊時，團隊人員主要來自字節内部，包括搜索、抖音、西瓜、TikTok 等等多條知名業務線，在字節過往產品上有過大大小小的勝仗，朱文佳下面各個小組中一号位人選從外面招入的人才并不多。

從 2024 年年中開始，越來越多 AGI 方向的知名人才被招入字節，團隊開始換血。據知情人士分析，這背後的原因是：朱文佳等人來自搜推廣技術背景，而大模型是新的範式，兩者不一定适合。字節、MiniMax 等公司此前低估 RL 技術路線就是一個例證。吳永輝代替朱文佳成為基礎模型研究一号位，意味着字節換血的決心更徹底。雷峰網

吳永輝此前在谷歌的職級僅次于 Jeff Dean，是谷歌 Gemini 的核心貢獻者之一。而據幾位硅谷華人的信源，吳永輝擅長模型工程。谷歌自 2017 年發布 Transformer 後一直在大模型賽道上持續創新，且谷歌研究大模型一直是從底層框架、算力到上層算法的系統性推進，從知識面上吳永輝确更适合大模型技術一号位的角色。（谷歌 Gemini 是否被低估？歡迎感興趣的讀者添加作者微信 Fiona190913 交流）

據知情人士透露，朱文佳此前在帶領字節大模型技術研發時，在人才任用上更重用以往一起打過仗的親信喬木等人，同時在大模型基礎研究的創新 idea 采用上不夠開放。這背後的邏輯不難理解：AGI 的技術有極高不确定性、用熟悉的隊友能減少溝通成本。如果 AGI 是一個很低的桃子，" 錢多人傻 " 的打法也許可以，但事實或許并非如此。

據了解，新加入字節的技術人員曾向朱文佳提過諸如 SPPO 等強化學習方向、火星優化器等高效訓練方向的技術方案，" 一些方案明明自己驗證了 work、但被朱文佳移交給身邊的人驗證後被反饋不 work 而棄掉 "。此前字節内部賽馬文生視頻，其他團隊賽赢，但後續成果被朱文佳劃到了 Seed 團隊。（更多字節大模型内部的研究細節，歡迎天街作者微信 Fiona190913 交流）

大模型是一項有門檻的創新技術，無論在大廠還是創業公司，實際上都需要創業者的心态。第一批低估 AGI 的人已經被摁倒，但并非所有人都吸取了教訓。雷峰網

二、AGI 的壁壘在哪？

" 算法是沒有壁壘的。" 一位大模型 VC 這樣評論道。與此同時，還有相似的聲音："DeepSeek 現象只是昙花一現，過 6 個月就會被追上 "，以及 " 大模型創業公司必然會死，最後赢家只有 DeepSeek 與大廠，你看騰訊元寶 "。

筆者認為，在下論斷之前，首先要回答一個問題：DeepSeek 已經實現終極 AGI 了嗎？答案顯然是否定的，即使是 DeepSeek 官方都承認，R1 模型仍有一些致命缺陷，比如通用能力不足、語言混淆、提示詞敏感以及軟體工程能力不足。

如果這個問題達成了共識，那麼我們就要思考下一層：

第一，DeepSeek 是不是一定能解決 AGI 的所有技術問題？

第二，DeepSeek 是不是只需一家之力就能實現終極 AGI？

第三，中國是不是只有 DeepSeek 一家有實力解決 AGI 的各個技術問題？

同樣以騰訊元寶為例。雖然元寶接入 DeepSeek 後可以赢得一時的勝利，但沒有人能保證 DeepSeek 永遠滿分。如果有一天 DeepSeek 不開卷、競争的規則被改寫，又将攻守異位。

對于上述問題，筆者均持懷疑态度，原因很簡單：DeepSeek 并非聚集了中國乃至全球所有的 AGI 技術人才。即使曾經明星如雲的 OpenAI，也因為 2023、2024 年經歷了大批核心人才出走，發展受阻。

關于 AGI，如果不将其當成只是 DeepSeek 一家的責任，而是作為整個 AI 行業的必然終局，那麼就不難有一種樸素的感覺：AGI 的大航海，需要的不只是一個 "DeepSeek"，也不會只有一個 "DeepSeek"。AGI 是一個行業，而不是一個產品。

在 2 月的交流中，筆者總結，造成 AGI 從業者這種 " 既重視又低估 " 的矛盾心理的一個重要原因，或許是互聯網思維的慣性。

經歷過互聯網大戰的從業者向 AI 科技評論舉例，" 互聯網產品就是競争到最後往往就是只有一家勝出，比如出行大戰、3Q 大戰等等。" 但筆者認為，這種類比不太恰當，因為互聯網產品的技術如搜推廣從谷歌開始、再到國内時，大體的技術天花板已經确定，而 DeepSeek 證明了 AGI 的天花板比 OpenAI 所取得的成績還高。

與 AGI 或大模型能在同一個層面類比的技術分支，或許用自動駕駛的 L4、英偉達芯片等高難度的技術來類比更合适。雖然 L4 至今沒有實現，但自動駕駛技術從 L2 到 L4 的過程中曾衍生了不同維度的產品商業化（如掃地機器人），同樣，AGI 也是一個逐步取得勝利、逐步催生商業技術產品的過程。

有些團隊本就不具備競争 AGI 的技術實力，但這并不能推斷出 "DeepSeek 是唯一能競争 AGI 的創業團隊 " 或 " 中國只需要一家 AGI 公司 " 的結論。哪怕是海外的各家基礎模型，也在能力上各有分工，如 GPT 更擅長聽指令、Claude 更擅長代碼。

再回顧更大的行業規律：如果説搜廣推技術由谷歌開啓、字節抖音推至巅峰，那麼大模型技術由 OpenAI 開啓，由将由誰推至巅峰？互聯網時代經歷了 20 年才得出答案、中間也經歷了許多故事，那麼 AGI 時代也不可能只在 2 年内驗證最初的赢家與最後的赢家。

那麼，AGI 的壁壘在哪？

筆者認為，AGI 的壁壘實際是：算法的優勢、技術的創新雖然無法構成堅不可摧的壁壘，但可以赢得時間差。

以月之暗面為例。事實上，Moonshot 與 DeepSeek 都是在 2023 年的上半年成立、前後相差只有一個月。

在 2021 年智源的 " 悟道 " 大模型項目中，楊植麟也是悟道 2.0 大模型的核心開發者之一，從底層 Transformer 到上層大模型的算法訓練都有完整、系統的研究背書。相比之下，DeepSeek 創始團隊、包括梁文鋒雖是計算機專業背景，但在 NLP、Transformer 與預訓練等大模型的關鍵技術上與 Moonshot 團隊必然存在技術學習的時間差。

如果以 Moonshot 在成立時就具備訓練千億大模型的能力開始算起，到 DeepSeek 在 2024 年 5 月發布 V2，那麼這個時間差粗略計算大約是 1 年；如果嚴格考慮 V2 訓練成本大幅降低的研發時間，這個時間差也至少是 6 個月以上。

但由于 Moonshot 在過去兩年更重視產品增長、而非基礎模型的底層技術創新，Moonshot 與 DeepSeek 的基礎模型時間差也從 2023 年 "DeepSeek 至少比 Moonshot 落後半年 " 變成了 2025 年 "Moonshot 至少比 DeepSeek 落後 XXX 年 "。在互聯網思維的過度指導下，前後相減，Moonshot 至少失去了一年的優勢，主動變被動。

據知情人士透露，DeepSeek 内部計劃今年 3 月發布 V3.5，6 月之前發布 V4。換言之，假設其他團隊的基礎模型能在 6 月趕上 V3 與 R1，作為先行者，DeepSeek 已經利用時間差赢得了領先的技術研發期，以及這半年内的生态護城河。模型的效果容易提升，但生态不容易割據。

是坐享其成，還是參與競争，亦或看清局勢、早早轉向自身的優勢所在，不容易判斷。盡管 DeepSeek 當前風頭正盛，但 AGI 仍然是一個挂在高處的果子，需要持續的底層技術創新。

在跋涉的過程中，一定會有人退出，無論是 VC 也好、創業者也好、技術人員也好，但無論如何，這條路上不會只有 DeepSeek，也希望不會只有 DeepSeek。