今天小編分享的互聯網經驗:梁文峰和他的超能陸戰隊,歡迎閲讀。
文 | 略大參考,作者 | 二毛,編輯 | 原野
梁文鋒把價值沉澱在團隊建設上,用團隊的創新能力與行業拉開差距,以此來形成護城河。
" 相信組織的力量 ",很多時候,這是一句懸浮的話,因為你很難從這句話裏得到一個有效的信息。但這卻是梁文鋒将 DeepSeek 全部開源的原因之一。
迪士尼曾出品過一部動畫電影《超能陸戰隊》,捧紅了 IP 大白。但細究内容,大白也只是主角們創造出的 " 工具人 ",電影更深層次的表達在于,這是一場關于 " 組織的勝利 " ——在男主 Hiro 的帶領下,他與他的團隊戰勝了強大的對手。
這部電影上映于 2014 年,但若是在今年及以後重映,至少在中國市場,人們可能會為 Hiro 找到一個新的原型:梁文鋒。在 DeepSeek 的故事裏,他和團隊才是一切變局的奇點。
就像 Hiro 的勝利,不是因為大白,更多是因為 Hiro 自己,與他的朋友們。
01 "Nerd"
兩個人物起家的方式都有些冒險:Hiro 靠賭博,梁文鋒靠炒股。在人們的調侃中,這兩個詞經常被放在一起,區别只在于是否違法。
不過對于這兩個人而言,冒險是不存在的,因為确定值足夠高。
少年天才 Hiro 因為對學校教授的知識感到無聊,高中辍學後就混迹街頭,靠自研的機器人打比賽為生。
他的機器人應用的是磁力伺服器技術,靈活性十足,自誕生以來就從無敗績,因此,他總是能在各種比賽中橫掃千軍,赢得賭資。
對那些循規蹈矩的科學創作者們,他帶着深深的鄙夷,稱呼他們為 "nerd(書呆子)",至于做學術研究的科研工作室,自然就是 "nerd school"。
很遺憾,梁文鋒就是這樣的 "nerd",他甚至還主動組織了一個 "nerd school"。
只不過即使成為一個 nerd,在當時看來也是一個略顯 " 叛逆 " 的選擇。
那是 2010 年,BAT 格局已成,大廠程式員成為逆天改命的新範本,然而,拿到電子信息工程碩士學位的梁文峰,選擇鑽進成都一處出租屋,幾經嘗試,切入 " 足夠復雜 " 的金融賽道,拿着 8 萬塊錢的本金,做起了量化投資。
所謂量化投資,簡單來説就是通過計算機及其設定的算法程式來代替人做出投資決定。行業先驅詹姆斯 · 西蒙斯曾花 15 年的時間來完善模型,最終實現了 " 就算是睡覺也可以賺錢 " 的目标。
在中國,這是一個适合 "nerd" 的行業,一家知名量化私募甚至直接把 "nerd" 寫成企業文化信條之一。
具化到人的表現中,就是 " 不會寒暄,講話離你三米遠 "。在後來見過梁文鋒的人的叙述中,梁文鋒的表現基本符合人們對于量化投資人的這一刻板印象。
好在,足夠的成功,能很大程度改變一個詞語的負面屬性。當業内人士開始知道梁文鋒的名字時,他已經是管理了上百億基金規模的幻方量化創始人了。最高峰時,幻方量化管理着接近千億元的資金規模。——當然,在 DeepSeek 爆火之後,這些成績的意義就變得更像是前菜了。
圖源:幻方量化官網
Hiro 與梁文鋒的另一處相似點在于:因偶像而确定人生方向。
在《超能陸戰隊》中,Hiro 被哥哥設計 " 騙 " 到機器人實驗室,認識了一群同他一樣的科技發燒友,以及卡拉漢教授—— Hiro 視他為偶像,于是立志要加入這個 "nerd school",從此結束混迹街頭的生活。
梁文鋒的偶像是西蒙斯,他曾經希望有朝一日,自己可以成為與西蒙斯相媲美的人。
海外量化投資有在掙錢後投入基礎科學研究的傳統,西蒙斯原本是一名數學家,通過量化投資賺錢後,資助了很多純理論科學研究。
熱愛數學建模和編程的梁文鋒,循着這條路做了大量研究:什麼樣的範式可以完整地描述整個金融市場,有沒有更簡潔的表達方式,不同範式能力邊界在哪,這些範式是不是有更廣泛适用……在這個過程中,AI 能力邊界成為他最好奇的事情,通用人工智能的難度與前景,讓他燃起了新的戰鬥力。
此時的他也擁有了足夠的财富。原本幻方每年都設有幾個億的公益捐款預算,在找到想要攻破的領網域後,這筆預算換了方向。
從 2019 年開始,幻方購入英偉達芯片,到 2021 年時,它手頭的芯片已經超過萬張——這筆儲備在美國進行芯片出口管制後,變得更具含金量。
另一個層面的财富,是由很多像梁文鋒一樣對 AI 充滿好奇的年輕人組成的團隊。
圖:論文鳴謝人員名單截圖,圖源 DeepSeek-R1 論文
人工智能的競争遵循着 " 人才第一,數據第二,算力第三 " 的規律,這三個關鍵因素裏,梁文鋒已經集齊了兩個,理論上已經可以召喚神龍了——
DeepSeek 便誕生了。
02 護城河
一個行業共識是:AI 技術本身只是階段性的,是可以追趕的,更關鍵的壁壘,是團隊創新能力。
" 大模型技術本身不是壁壘,核心競争力還是組織形式和具有創新能力的團隊。" 面壁智能首席科學家劉知遠和硅基流動的創始人袁進輝曾表達過這樣的觀點。
階躍星辰創始人姜大昕對媒體説:只要 OpenAI 放出來一個東西,我們的策略就是 6 個月内趕上它。
梁文鋒也認為技術本身沒有秘密,只是重置需要時間和成本。所以,他把價值沉澱在團隊建設上,用團隊的創新能力與行業拉開差距,以此來形成護城河。
而打造創新團隊,無外乎兩個指标:人和組織。
DeepSeek 有一支被獵頭們視為 " 全員精鋭 " 的隊伍。Anthropic 聯合創始人 Jack Clark 稱他們為 " 高深莫測的奇才 "。不過這個説法被梁文鋒駁回:沒有什麼高深莫測的奇才,都是一些 Top 高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
圖:英偉達高級研究科學家、潘梓正實習期間的導師 Zhiding Yu 在 X 平台上回憶與潘梓正的交集
有一點可以明确," 經驗 " 在梁文鋒這裏是失效的。這在大模型公司裏實屬罕見。
馬斯克去年曾在 X 上感嘆:人工智能領網域的人才大戰是他見過的最瘋狂的人才戰争。
細究巨頭們搶奪的對象,幾乎都是對方陣營裏 " 資深 " 的工程師和專家。
國内大模型公司的人員流轉,光環也隸屬于履歷漂亮的程式員。原零一萬物的模型訓練負責人黃文灏博士曾将 " 從海外吸引包括谷歌、微軟在内的高水平算法人才回國加入我們 " 作為公司的背景背書;
同梯隊的月之暗面,在招聘時也希望應聘人員擁有 " 國際國内科技大廠履歷和成功的產品經驗 ",即 " 既做過 0-1,也做過 1-1 億 "。
DeepSeek 顯得有些離經叛道。
一位獵頭曾向媒體透露:DeepSeek 不要資深的技術人員,工作經驗在 3-5 年已經是最多的了,超 8 年的基本就 pass 了。
" 做一件事,有經驗的人會不假思索告訴你,應該這樣做,但沒有經驗的人,會反復摸索,然後找到一個符合當前實際情況的解決辦法。" 梁文鋒拿自己舉例:" 我一開始也沒有量化的經驗。"
沒有經驗,評判優秀與否的标準除了院校外,便是學術成績。
DeepSeek 對員工的要求之高,在社交平台上的一個帖子或許可以作為參考:除非你是一個年輕且潛力巨大的 " 技術英雄 ",否則就别考慮了。
香港《南華早報》曾報道,DeepSeek-R1 的參與者戴黛玫,是北京大學計算語言學研究所博士,并在 EMNLP 2023 獲得最佳長論文獎;
DeepSeekMath 模型核心作者之一的朱啓豪,是北京大學計算機科學學院的博士,他在 DeepSeek 期間領導了 DeepSeek-Coder-V1 的開發,并在頂級會議上發表了 16 篇 CCF-A 級論文;
而大眾已經熟悉的 "AI 天才少女 " 羅福莉,在北大讀碩士期間,就于 2019 年在人工智能領網域頂級國際會議 ACL 上發表了 8 篇論文。
這與《超能陸戰隊》裏的劇情設定也高度相似。
Hiro 在帶領團隊跟反派作戰之前,團隊成員已經在各自領網域裏取得了傲人成績:Gogo 的電磁懸浮自行車可以實現零阻力騎行,wasabi 的激光誘導等離子光束可以切碎萬物,honey lemon 能利用化學試劑在金屬上制造出神奇混合物……
在 DeepSeek,這群多少具備些 nerd 氣質的年輕人,擁有了比在大廠更多的可能性:DeepSeekMath 模型團隊的三名核心作者是在博士實習期間完成了相關的研究工作;V2 模型中創新的 MLA 架構的提出者,彼時還是一名實習生。
這大概也是科技公司實習生的天花板了。
優秀有潛力的年輕人在大模型公司不算是稀有物種,但能在實習階段發揮舉足輕重作用,并主導項目開發,就要更多依賴公司組織文化了。
以 MLA 架構的提出者為例:這名年輕的研究員在總結出 Attention 架構的一些主流變遷規律後,突發奇想設計了一個替代方案。探索過程中,他遇到問題就自己拉人讨論。當這個想法顯示出潛力,公司便調配資源,給予支持。
一個幻方早期内部采訪視頻在 DeepSeek 爆火後被網友翻出來。一名量化策略研究員説:
" 幻方有一個非常靈活而扁平的團隊框架,鼓勵内部不同小組成員之間自由交流與合作,去最大化我們整體的創新能力。也不采用 KPI、OKR 等考核方式,每個人可以根據自己的能力和興趣,選擇自己研究的方向,即使是剛畢業的新人,也有機會去主導和探索一個全新的領網域,并且團隊成員會給與足夠的資源支持。"
顯然,這樣的企業文化被平移到了 DeepSeek。
在與自媒體《暗湧 waves》記者于麗麗的對談中,梁文鋒透露:DeepSeek 對于卡和人的調動是非常靈活的,不存在層級和跨部門,也無需審批。他本人更是保持着每天 " 看論文,寫代碼,參與小組讨論 "。
這也像 Hiro 組隊後做的事情:将天賦異禀的朋友們集結,用自己天才的編程技能提供支持,讓每個成員在擅長領網域變得更強,以提升整個團隊的戰鬥力。
這種 " 小作坊式 " 的組織模式,幾乎是大廠的對立面:輕盈、快捷、高效。當 DeepSeek 打破國内 AI 局面的膠着,迅速成為 " 基建 " 式的角色,大廠在輿論場中進一步祛魅了。——某種程度上,這也像是年輕人對功成名就者的勝利。
03 一切為了 AI
關于 DeepSeek 融資的消息最近在市場頻頻傳出,但均被 DeepSeek 一一否定。事實上,在公司正式成立以前,梁文鋒曾與不同的出資方進行過洽談。只不過對于商業化,雙方始終存在分歧,并未達成。
梁文鋒是技術理想主義者,在他的計劃中,研究和揭秘 AGI 是 DeepSeek 的終極目的,商業化并沒有值得關注。這顯然與需要投資回報率的 VC 們背道而馳,但你也無法去指責他們的短視——
中國的大模型公司往往都選擇做應用創新而不是技術創新,去科技的最前沿探索就意味着沒有路徑可依,要經歷很多失敗,時間、經濟成本都耗費巨大。本質上,這與西蒙斯無償捐款給純理論科學研究沒什麼區别。
而 DeepSeek 的員工大部分都是他這樣的。一名 DeepSeek 的 AI 架構師曾表示:" 我寧可為了 1% 的性能突破殚精竭慮一個月,也不要面向谷歌編程,寫一些沒有挑戰的代碼。"
在他看來,做程式員最大的快樂,就是跟一群天才死磕一個難題。
還有一名 AI 應用工程師表示,自己的價值感收獲瞬間,是發現團隊針對模型訓練降速提出的解決方案被英偉達官方收錄,并作為案例提供給其他開發者,他意識到," 我們已經是全球技術前沿的團隊了 "。
DeepSeek 堅持開源的眾多原因之一,是梁文鋒認為:對于技術人員來説,被 follow 是很有成就感的事。它與商業無關,而是 " 一種額外的榮譽 "。
頂級人才的吸引力法則之一,就是去解決世界上最難的問題。很大程度上,梁文鋒與他的團隊都是同類人。更幸運的是,在梁文鋒決定死磕 AGI 前,手中已有充足資金,這是團隊能夠專注研究的重要前提。
你很難要求一位食不飽腹的乞讨者,去立下改變人類的宏願,并付諸行動。
這或許也是技術之外,梁文鋒與 DeepSeek 會被同行豔羨的地方。
他可以按照自己的意願行事。
" 據我所知,他們連正兒八經的產品經理都沒有,更别説市場營銷公關這類的職能支持 ",一名自我介紹為 AI 初創合夥人在社交平台上透露。這是梁文鋒對西蒙斯的再一次致敬:
" 只雇傭沒有金融背景、與華爾街沒有關系的數學家、物理學家和計算機科學家。"
與梁文鋒同為 " 天才少年 " 的楊植麟(月之暗面創始人),或許就不能這樣 " 任性 "。技術研究之外,他必須考慮商業化,因為他身後還有投資人,這種 " 打工人的無奈 ",多少會分散他的專注力。
他必須更加謹慎。比如,更傾向于雇傭有過成功項目經驗的技術人員,這種策略能減少出錯的概率。畢竟錢不是自己的。
當然,梁文鋒的處境也不算高枕無憂。
首先就是幻方量化的資金規模在下降。據幻方的工作人員表示,目前公司的基金規模有 200 多億元,距離高峰縮水嚴重,梁文鋒的 " 為愛發電 " 面臨着現實危機。
而一旦接受融資,DeepSeek " 探索與研究 " 的初心,就很可能面臨動搖的風險。
另一方面,DeepSeek 雖強,友商也不弱,它的技術領先優勢未必能長久保持。比如 Kimi K1.5,在 OpenAI 的 o 系列論文中,這個模型是與 DeepSeek-R1 并列出現的。
最近,梁文鋒剛剛提交了一份關于 NSA(Natively Sparse Attention, 原生稀疏注意力)的技術論文。
圖源:NSA 論文
巧合的是,就在同一天,楊植麟也提交了一份技術論文 MoBA。兩份論文回答的是同一個問題:如何讓 transformer 架構的注意力機制,通過自研的架構處理更長的文本。未來,這兩位被視為中國大模型最有希望的兩個年輕人注定會展開更多的角逐。
來自大廠的壓力也不容小觑。
梁文鋒此前曾認為大廠的組織架構會阻礙創新,但據《晚點 latepost》報道,無論是在找人以及調整組織方面,字節都表現出了 " 創業公司 " 的速度與反應 :
首先就是張一鳴親自下場,他研究 AI 技術論文,從 2023 年開始他就開始一對一拜訪重要作者,包括未畢業的博士生。
去年,字節挖來了 Google 原 VideoPoet 項目負責人蔣路、零一萬物黃文灏,和阿裏通義大模型原技術負責人周暢。據相關人士稱,字節給到的條件,讓原公司都不好挽留。
其次在組織上,字節整合内部力量,快速完善 AI 新部門—— Flow。如今,Flow 現在已是和抖音、火山、飛書等平級的主要業務部門,如果 Flow 特别想調哪個人,原部門一般會同意。這與 DeepSeek 的 " 不存在跨部門 " 的組織,有異曲同工之效。
簡而言之,一切為了 AI。
此外,無論是資金還是資源,大廠都具備足夠的優勢。無論是梁文鋒還是楊植麟,都必須打起精神來應對接下來的競争。
若将目光放眼于全球,DeepSeek 要走的路顯然更遠,盡管它已足夠優秀,但這次它給世界帶來震撼的最大原因在于:同等推理效果下的價格優勢。技術領網域裏,open AI 與美國的科技巨頭仍掌握着行業優勢,且沒有算力限制。
DeepSeek 仍要負重前行。
然而,盡管外界讨論得熱火朝天,DeepSeek 和梁文鋒仍在按照自己的節奏繼續前進。
截至 2 月 8 日,DeepSeek 國内 APP 端日均活躍用户數達到 3494 萬;海外 APP 端 DAU 達到 3685 萬,全球 Web 端日活直擊 4800 萬,全球日活用户總量達到 1.19 億。但 DeepSeek 沒有做任何投放,而是就像當初梁文鋒所説的那樣,讓其它公司在 DeepSeek 的基礎上構建 toB、toC 的業務。
于麗麗曾問梁文鋒:你們會選擇閉源嗎?梁文鋒的回答沒有給未來留空間:不會。
比起商業化,他認為一個強大的技術生态更重要。他希望實現 AI 普惠,而不是技術壟斷。當然,他也足夠自信,相信團隊創新速度,會成為開源模式中的護城河。
于麗麗在後來的文章中説,這是一個少有的把 " 是非觀 " 置于 " 利害觀 " 之前,并提醒人們看到時代慣性,把 " 原創式創新 " 提上日程的人。
梁文鋒也從不橫向比較," 我經常思考的是,一個東西能不能讓社會的運行效率變高,以及你能否在它的產業分工鏈條上找到擅長的位置。"
他還在繼續迭代。整個 AI 行業也是。
這樣的熱鬧開場,讓 2025 年的春天似乎更近了。