今天小编分享的互联网经验:梁文峰和他的超能陆战队,欢迎阅读。
文 | 略大参考,作者 | 二毛,编辑 | 原野
梁文锋把价值沉淀在团队建设上,用团队的创新能力与行业拉开差距,以此来形成护城河。
" 相信组织的力量 ",很多时候,这是一句悬浮的话,因为你很难从这句话里得到一个有效的信息。但这却是梁文锋将 DeepSeek 全部开源的原因之一。
迪士尼曾出品过一部动画电影《超能陆战队》,捧红了 IP 大白。但细究内容,大白也只是主角们创造出的 " 工具人 ",电影更深层次的表达在于,这是一场关于 " 组织的胜利 " ——在男主 Hiro 的带领下,他与他的团队战胜了强大的对手。
这部电影上映于 2014 年,但若是在今年及以后重映,至少在中国市场,人们可能会为 Hiro 找到一个新的原型:梁文锋。在 DeepSeek 的故事里,他和团队才是一切变局的奇点。
就像 Hiro 的胜利,不是因为大白,更多是因为 Hiro 自己,与他的朋友们。
01 "Nerd"
两个人物起家的方式都有些冒险:Hiro 靠赌博,梁文锋靠炒股。在人们的调侃中,这两个词经常被放在一起,区别只在于是否违法。
不过对于这两个人而言,冒险是不存在的,因为确定值足够高。
少年天才 Hiro 因为对学校教授的知识感到无聊,高中辍学后就混迹街头,靠自研的机器人打比赛为生。
他的机器人应用的是磁力伺服器技术,灵活性十足,自诞生以来就从无败绩,因此,他总是能在各种比赛中横扫千军,赢得赌资。
对那些循规蹈矩的科学创作者们,他带着深深的鄙夷,称呼他们为 "nerd(书呆子)",至于做学术研究的科研工作室,自然就是 "nerd school"。
很遗憾,梁文锋就是这样的 "nerd",他甚至还主动组织了一个 "nerd school"。
只不过即使成为一个 nerd,在当时看来也是一个略显 " 叛逆 " 的选择。
那是 2010 年,BAT 格局已成,大厂程式员成为逆天改命的新范本,然而,拿到电子信息工程硕士学位的梁文峰,选择钻进成都一处出租屋,几经尝试,切入 " 足够复杂 " 的金融赛道,拿着 8 万块钱的本金,做起了量化投资。
所谓量化投资,简单来说就是通过计算机及其设定的算法程式来代替人做出投资决定。行业先驱詹姆斯 · 西蒙斯曾花 15 年的时间来完善模型,最终实现了 " 就算是睡觉也可以赚钱 " 的目标。
在中国,这是一个适合 "nerd" 的行业,一家知名量化私募甚至直接把 "nerd" 写成企业文化信条之一。
具化到人的表现中,就是 " 不会寒暄,讲话离你三米远 "。在后来见过梁文锋的人的叙述中,梁文锋的表现基本符合人们对于量化投资人的这一刻板印象。
好在,足够的成功,能很大程度改变一个词语的负面属性。当业内人士开始知道梁文锋的名字时,他已经是管理了上百亿基金规模的幻方量化创始人了。最高峰时,幻方量化管理着接近千亿元的资金规模。——当然,在 DeepSeek 爆火之后,这些成绩的意义就变得更像是前菜了。
图源:幻方量化官网
Hiro 与梁文锋的另一处相似点在于:因偶像而确定人生方向。
在《超能陆战队》中,Hiro 被哥哥设计 " 骗 " 到机器人实验室,认识了一群同他一样的科技发烧友,以及卡拉汉教授—— Hiro 视他为偶像,于是立志要加入这个 "nerd school",从此结束混迹街头的生活。
梁文锋的偶像是西蒙斯,他曾经希望有朝一日,自己可以成为与西蒙斯相媲美的人。
海外量化投资有在挣钱后投入基础科学研究的传统,西蒙斯原本是一名数学家,通过量化投资赚钱后,资助了很多纯理论科学研究。
热爱数学建模和编程的梁文锋,循着这条路做了大量研究:什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用……在这个过程中,AI 能力边界成为他最好奇的事情,通用人工智能的难度与前景,让他燃起了新的战斗力。
此时的他也拥有了足够的财富。原本幻方每年都设有几个亿的公益捐款预算,在找到想要攻破的领網域后,这笔预算换了方向。
从 2019 年开始,幻方购入英伟达芯片,到 2021 年时,它手头的芯片已经超过万张——这笔储备在美国进行芯片出口管制后,变得更具含金量。
另一个层面的财富,是由很多像梁文锋一样对 AI 充满好奇的年轻人组成的团队。
图:论文鸣谢人员名单截图,图源 DeepSeek-R1 论文
人工智能的竞争遵循着 " 人才第一,数据第二,算力第三 " 的规律,这三个关键因素里,梁文锋已经集齐了两个,理论上已经可以召唤神龙了——
DeepSeek 便诞生了。
02 护城河
一个行业共识是:AI 技术本身只是阶段性的,是可以追赶的,更关键的壁垒,是团队创新能力。
" 大模型技术本身不是壁垒,核心竞争力还是组织形式和具有创新能力的团队。" 面壁智能首席科学家刘知远和硅基流动的创始人袁进辉曾表达过这样的观点。
阶跃星辰创始人姜大昕对媒体说:只要 OpenAI 放出来一个东西,我们的策略就是 6 个月内赶上它。
梁文锋也认为技术本身没有秘密,只是重置需要时间和成本。所以,他把价值沉淀在团队建设上,用团队的创新能力与行业拉开差距,以此来形成护城河。
而打造创新团队,无外乎两个指标:人和组织。
DeepSeek 有一支被猎头们视为 " 全员精锐 " 的队伍。Anthropic 联合创始人 Jack Clark 称他们为 " 高深莫测的奇才 "。不过这个说法被梁文锋驳回:没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
图:英伟达高级研究科学家、潘梓正实习期间的导师 Zhiding Yu 在 X 平台上回忆与潘梓正的交集
有一点可以明确," 经验 " 在梁文锋这里是失效的。这在大模型公司里实属罕见。
马斯克去年曾在 X 上感叹:人工智能领網域的人才大战是他见过的最疯狂的人才战争。
细究巨头们抢夺的对象,几乎都是对方阵营里 " 资深 " 的工程师和专家。
国内大模型公司的人员流转,光环也隶属于履历漂亮的程式员。原零一万物的模型训练负责人黄文灏博士曾将 " 从海外吸引包括谷歌、微软在内的高水平算法人才回国加入我们 " 作为公司的背景背书;
同梯队的月之暗面,在招聘时也希望应聘人员拥有 " 国际国内科技大厂履历和成功的产品经验 ",即 " 既做过 0-1,也做过 1-1 亿 "。
DeepSeek 显得有些离经叛道。
一位猎头曾向媒体透露:DeepSeek 不要资深的技术人员,工作经验在 3-5 年已经是最多的了,超 8 年的基本就 pass 了。
" 做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索,然后找到一个符合当前实际情况的解决办法。" 梁文锋拿自己举例:" 我一开始也没有量化的经验。"
没有经验,评判优秀与否的标准除了院校外,便是学术成绩。
DeepSeek 对员工的要求之高,在社交平台上的一个帖子或许可以作为参考:除非你是一个年轻且潜力巨大的 " 技术英雄 ",否则就别考虑了。
香港《南华早报》曾报道,DeepSeek-R1 的参与者戴黛玫,是北京大学计算语言学研究所博士,并在 EMNLP 2023 获得最佳长论文奖;
DeepSeekMath 模型核心作者之一的朱启豪,是北京大学计算机科学学院的博士,他在 DeepSeek 期间领导了 DeepSeek-Coder-V1 的开发,并在顶级会议上发表了 16 篇 CCF-A 级论文;
而大众已经熟悉的 "AI 天才少女 " 罗福莉,在北大读硕士期间,就于 2019 年在人工智能领網域顶级国际会议 ACL 上发表了 8 篇论文。
这与《超能陆战队》里的剧情设定也高度相似。
Hiro 在带领团队跟反派作战之前,团队成员已经在各自领網域里取得了傲人成绩:Gogo 的电磁悬浮自行车可以实现零阻力骑行,wasabi 的激光诱导等离子光束可以切碎万物,honey lemon 能利用化学试剂在金属上制造出神奇混合物……
在 DeepSeek,这群多少具备些 nerd 气质的年轻人,拥有了比在大厂更多的可能性:DeepSeekMath 模型团队的三名核心作者是在博士实习期间完成了相关的研究工作;V2 模型中创新的 MLA 架构的提出者,彼时还是一名实习生。
这大概也是科技公司实习生的天花板了。
优秀有潜力的年轻人在大模型公司不算是稀有物种,但能在实习阶段发挥举足轻重作用,并主导项目开发,就要更多依赖公司组织文化了。
以 MLA 架构的提出者为例:这名年轻的研究员在总结出 Attention 架构的一些主流变迁规律后,突发奇想设计了一个替代方案。探索过程中,他遇到问题就自己拉人讨论。当这个想法显示出潜力,公司便调配资源,给予支持。
一个幻方早期内部采访视频在 DeepSeek 爆火后被网友翻出来。一名量化策略研究员说:
" 幻方有一个非常灵活而扁平的团队框架,鼓励内部不同小组成员之间自由交流与合作,去最大化我们整体的创新能力。也不采用 KPI、OKR 等考核方式,每个人可以根据自己的能力和兴趣,选择自己研究的方向,即使是刚毕业的新人,也有机会去主导和探索一个全新的领網域,并且团队成员会给与足够的资源支持。"
显然,这样的企业文化被平移到了 DeepSeek。
在与自媒体《暗涌 waves》记者于丽丽的对谈中,梁文锋透露:DeepSeek 对于卡和人的调动是非常灵活的,不存在层级和跨部门,也无需审批。他本人更是保持着每天 " 看论文,写代码,参与小组讨论 "。
这也像 Hiro 组队后做的事情:将天赋异禀的朋友们集结,用自己天才的编程技能提供支持,让每个成员在擅长领網域变得更强,以提升整个团队的战斗力。
这种 " 小作坊式 " 的组织模式,几乎是大厂的对立面:轻盈、快捷、高效。当 DeepSeek 打破国内 AI 局面的胶着,迅速成为 " 基建 " 式的角色,大厂在舆论场中进一步祛魅了。——某种程度上,这也像是年轻人对功成名就者的胜利。
03 一切为了 AI
关于 DeepSeek 融资的消息最近在市场频频传出,但均被 DeepSeek 一一否定。事实上,在公司正式成立以前,梁文锋曾与不同的出资方进行过洽谈。只不过对于商业化,双方始终存在分歧,并未达成。
梁文锋是技术理想主义者,在他的计划中,研究和揭秘 AGI 是 DeepSeek 的终极目的,商业化并没有值得关注。这显然与需要投资回报率的 VC 们背道而驰,但你也无法去指责他们的短视——
中国的大模型公司往往都选择做应用创新而不是技术创新,去科技的最前沿探索就意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。本质上,这与西蒙斯无偿捐款给纯理论科学研究没什么区别。
而 DeepSeek 的员工大部分都是他这样的。一名 DeepSeek 的 AI 架构师曾表示:" 我宁可为了 1% 的性能突破殚精竭虑一个月,也不要面向谷歌编程,写一些没有挑战的代码。"
在他看来,做程式员最大的快乐,就是跟一群天才死磕一个难题。
还有一名 AI 应用工程师表示,自己的价值感收获瞬间,是发现团队针对模型训练降速提出的解决方案被英伟达官方收录,并作为案例提供给其他开发者,他意识到," 我们已经是全球技术前沿的团队了 "。
DeepSeek 坚持开源的众多原因之一,是梁文锋认为:对于技术人员来说,被 follow 是很有成就感的事。它与商业无关,而是 " 一种额外的荣誉 "。
顶级人才的吸引力法则之一,就是去解决世界上最难的问题。很大程度上,梁文锋与他的团队都是同类人。更幸运的是,在梁文锋决定死磕 AGI 前,手中已有充足资金,这是团队能够专注研究的重要前提。
你很难要求一位食不饱腹的乞讨者,去立下改变人类的宏愿,并付诸行动。
这或许也是技术之外,梁文锋与 DeepSeek 会被同行艳羡的地方。
他可以按照自己的意愿行事。
" 据我所知,他们连正儿八经的产品经理都没有,更别说市场营销公关这类的职能支持 ",一名自我介绍为 AI 初创合伙人在社交平台上透露。这是梁文锋对西蒙斯的再一次致敬:
" 只雇佣没有金融背景、与华尔街没有关系的数学家、物理学家和计算机科学家。"
与梁文锋同为 " 天才少年 " 的杨植麟(月之暗面创始人),或许就不能这样 " 任性 "。技术研究之外,他必须考虑商业化,因为他身后还有投资人,这种 " 打工人的无奈 ",多少会分散他的专注力。
他必须更加谨慎。比如,更倾向于雇佣有过成功项目经验的技术人员,这种策略能减少出错的概率。毕竟钱不是自己的。
当然,梁文锋的处境也不算高枕无忧。
首先就是幻方量化的资金规模在下降。据幻方的工作人员表示,目前公司的基金规模有 200 多亿元,距离高峰缩水严重,梁文锋的 " 为爱发电 " 面临着现实危机。
而一旦接受融资,DeepSeek " 探索与研究 " 的初心,就很可能面临动摇的风险。
另一方面,DeepSeek 虽强,友商也不弱,它的技术领先优势未必能长久保持。比如 Kimi K1.5,在 OpenAI 的 o 系列论文中,这个模型是与 DeepSeek-R1 并列出现的。
最近,梁文锋刚刚提交了一份关于 NSA(Natively Sparse Attention, 原生稀疏注意力)的技术论文。
图源:NSA 论文
巧合的是,就在同一天,杨植麟也提交了一份技术论文 MoBA。两份论文回答的是同一个问题:如何让 transformer 架构的注意力机制,通过自研的架构处理更长的文本。未来,这两位被视为中国大模型最有希望的两个年轻人注定会展开更多的角逐。
来自大厂的压力也不容小觑。
梁文锋此前曾认为大厂的组织架构会阻碍创新,但据《晚点 latepost》报道,无论是在找人以及调整组织方面,字节都表现出了 " 创业公司 " 的速度与反应 :
首先就是张一鸣亲自下场,他研究 AI 技术论文,从 2023 年开始他就开始一对一拜访重要作者,包括未毕业的博士生。
去年,字节挖来了 Google 原 VideoPoet 项目负责人蒋路、零一万物黄文灏,和阿里通义大模型原技术负责人周畅。据相关人士称,字节给到的条件,让原公司都不好挽留。
其次在组织上,字节整合内部力量,快速完善 AI 新部门—— Flow。如今,Flow 现在已是和抖音、火山、飞书等平级的主要业务部门,如果 Flow 特别想调哪个人,原部门一般会同意。这与 DeepSeek 的 " 不存在跨部门 " 的组织,有异曲同工之效。
简而言之,一切为了 AI。
此外,无论是资金还是资源,大厂都具备足够的优势。无论是梁文锋还是杨植麟,都必须打起精神来应对接下来的竞争。
若将目光放眼于全球,DeepSeek 要走的路显然更远,尽管它已足够优秀,但这次它给世界带来震撼的最大原因在于:同等推理效果下的价格优势。技术领網域里,open AI 与美国的科技巨头仍掌握着行业优势,且没有算力限制。
DeepSeek 仍要负重前行。
然而,尽管外界讨论得热火朝天,DeepSeek 和梁文锋仍在按照自己的节奏继续前进。
截至 2 月 8 日,DeepSeek 国内 APP 端日均活跃用户数达到 3494 万;海外 APP 端 DAU 达到 3685 万,全球 Web 端日活直击 4800 万,全球日活用户总量达到 1.19 亿。但 DeepSeek 没有做任何投放,而是就像当初梁文锋所说的那样,让其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。
于丽丽曾问梁文锋:你们会选择闭源吗?梁文锋的回答没有给未来留空间:不会。
比起商业化,他认为一个强大的技术生态更重要。他希望实现 AI 普惠,而不是技术垄断。当然,他也足够自信,相信团队创新速度,会成为开源模式中的护城河。
于丽丽在后来的文章中说,这是一个少有的把 " 是非观 " 置于 " 利害观 " 之前,并提醒人们看到时代惯性,把 " 原创式创新 " 提上日程的人。
梁文锋也从不横向比较," 我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。"
他还在继续迭代。整个 AI 行业也是。
这样的热闹开场,让 2025 年的春天似乎更近了。