那个要挑战GPT的00后清华男孩

今天小编分享的财经经验：那个要挑战GPT的00后清华男孩，欢迎阅读。

文 | 徐牧心

编辑 | 刘旌

数月前，一张 OpenAI 内部的图片在网上流传。图中，OpenAI 将自己通往 AGI 的道路分为了五个阶段：

Level 1：聊天机器人，具有对话能力的 AI。

Level 2：推理者，像人类一样能够解决问题的 AI。

Level 3：智能体，不仅能思考，还可以采取行动的 AI 系统。

Level 4：创新者，能够协助发明创造的 AI。

Level 5：组织者，可以完成组织工作的 AI。

线路图是美好的，可我们现在大多卡在 L1。最显著的例子是：推理能力的缺失使得大模型们甚至无法回答 "9.8 与 9.11 谁大 " 问题。这是因为 Transformer 架构只能通过搜索海量资料高度拟合一个答案出来，而不能像人类一样回答问题，或者进行推理。也因为无法多步推理，所以你的 AI agent 无法一键生成规划，很多 AI 应用落地的场景依旧遥遥无期。

曾经被视为 AI 行业革命者的 Transfomer，也难逃被革命的时刻。而王冠正是革命者中的一员。相对于用 RL 的方案去榨干 LLM 的潜力，王冠选择直接去创造一个通用的 RL 大模型，从而跳过 LLM 的理论限制，这也更加符合快思考慢思考的实际工作机制。

在约定的地点等了一会儿，这个出生于 00 年的清华毕业生刚从学校匆匆赶来，他精瘦，穿一身朴素的运动服，背着双肩包，像学校里随处可见的理科学霸。

就像《生活大爆炸》里的天才 Geek 们，对非技术人士而言，和王冠交流尤为困难，因为他会用谦卑的姿态吐出专业的词汇，绞尽腦汁试图简单解释而未果。对一些技术问题，他有时并不能立刻回答，他需要沉默很久，在一阵尴尬的安静后才能组织好他认为精确的语言。他在谈及专业知识时会兴奋地滔滔不绝，有时甚至忘了呼吸，需要在某个突然感到窒息的瞬间仰头长吸一口。

但就是这样一个人，为自己开发的新架构取名为 Sapient Intelligence。这个译为 " 智人 " 的名字，表明了他的野心。

当下，尽管 NLP 的世界里依旧是 Transformer 大一统格局，但越来越多的新架构在涌现，并向 L2 发起冲锋。比如 Deepmind 今年理论上提出的 TransNAR 混合架构、Transformer 八作者之一 Llion Jones 新成立的 Sakana.AI、彭博的 RWKV、甚至 OpenAI 也发布了一款名为 "Strawberry" 的新模型，称其已具备推理能力。

Transformer 的局限性逐渐被证明，其幻觉、准确率等问题也一直没有解决方案，资金开始试探性地涌入这些新架构。

Sapient 联合创始人 Austin 告诉「暗涌 Waves」：目前 Sapient 已经完成数千万美元的种子轮融资，本轮融资由新加坡 Temasek Holdings backed Vertex Ventures 领投，日本最大风投集团、欧洲及美国的头部 VC 们联合投资，本轮融资将主要用于算力支出及全球人才招募，Minerva Capital 担任长期独家财务顾问。

在 Sapient 身上，你能看到一家中国 AI 初创公司的典型路径：中国 Founder、Day one 瞄准全球市场、招募全球算法人才，也寻找到了国际化基金的支持。但其非典型的一面也是突出的：相较于更多应用公司而言，这是一个试图在技术上与人一决高下的选手。

王冠（左）与 Austin（右）

「WAVES」是暗涌的一个栏目。在这里，我们将为你呈现新一代创业者、投资人的故事和精神。

GPT 无法通向 AGI？

技术的迭代，快得残忍。

大语言模型的热潮才兴起不久，图灵奖得主、"AI 教父 " 杨立昆（Yann LeCun）就公开警告那些想要踏入 AI 行业的年轻学生：" 不要再学习 LLM 了，你应该去研究如何突破 LLM 的限制。"

原因在于，人类的推理能力可以分为两个系统，系统 1 是快速无意识的，适用于处理些简单工作，比如今天吃什么？而系统 2 则是通过思考才能完成的任务，比如解一道复杂的数学题。LLM 无法完成系统 2 的任务，scaling law 也不能解决这个问题，因为这是底层架构的制约。

" 当前的大模型更像是在背题。" 王冠对「暗涌 Waves」解释道：" 一种观点认为，当下的大模型用系统 1 处理系统 2 的问题，卡在了系统 1.5，类似于人做梦的状态，这就产生了幻觉。自回归模型限制你在输出一个 token 后只能基于这个 token 再进行输出。" 自回归不擅长记忆、不能规划答案，更别说要进一步实现多步推理了。

这种大模型的局限性还可以用一个更哲学的角度来理解：即在计算 "9.9 和 9.11 谁大 " 问题时，大模型是否真的理解自己在做什么？还是机械地将小数点后的 9 与 11 进行了比较？如果模型根本不知道自己在做什么的话，那么训练再多也是徒劳。

因此，AI 想要进入 L2 阶段，只能完全抛弃自回归的 Transformer 架构，在王冠看来，Sapient 要做的就是通过模仿人腦的方式，实现 AI 的推理能力。

Yann LeCun 的世界模型理论

" 我在清华腦与智能实验室，会基于我对神经科学的知识以及对系统 2 的理解，做双边推进。比如针对同一个问题，我先知道人腦是如何解决这个问题的，再考虑如何用 AI 复现。" 王冠告诉「暗涌 Waves」。

他继而透露，目前 Sapient 的基础架构已经完成数学验证，这将是一个少见的，拥有多步计算、memory 和树搜索能力的非自回归模型。在 scale up 方面，团队也已经结合演化算法和强化学习做完了初步尝试。

动物大腦的分层循环工作逻辑

以人们对 AGI 的期待，目前或许也只有人类自己能满足其标准。因此让大模型向人腦的方向迭代，就是 Sapient 试图进化的方向。

拒绝马斯克的人

如果你看过《小谢尔顿》，那么对王冠的故事应该会感到熟悉：他们同样关于一个天才在少年时期就得以显现，也同样对自己相信的路线充满执念。

王冠 00 年出生于河南，8 岁开始学习编程。高中时，GPT2 发布，这在当时不仅颠覆了深度学习的很多理论，也颠覆了王冠的世界观：一个模型生成的文本可以像人一样，是不是代表 AI 就要突破图灵测试，基于此，或许他可以做个算法，以解决世界上的所有难题。

后来他才知道，这样的算法就叫 "AGI"。

在彼时高中生的世界里，这样的算法可以消灭战争、饥饿、贫穷，当然最迫在眉睫的，是可以消灭高考，" 当时我就觉得高考这种机械的东西就该丢给机器人干 "。

这也和河南高考的地狱难度有关。王冠决定走保送路线，他辗转参加算法竞赛、信息学竞赛，包括在高中生版大疆 robomaster 比赛上，通过给机器人加入全自动算法的方式夺得冠军。最终他保送清华计算机学院，入学的第一天，学院开动员大会，老师们在讲台上慷慨陈词，动员大家把数学考好，班集体今年的目标就是把数学 GPA（绩点）考到年级最高。

"GPA 对 AGI 有什么用？" 王冠想。而后他转入清华 AIR 研究院学习强化学习，再之后加入了清华腦与智能实验室尝试将强化学习与演化计算做融合。他去 pony.AI 实习，发现在自动驾驶中最大的问题在于决策必须要人工参与，告诉模型该如何决策，但如果模型自己无法决策的话，他感知得再好也无法通向 AGI。

终于到了大四，ChatGPT 的出现让他看到通用能力解决问题的希望，王冠着手开始做了一个开源模型，名为 OpenChat，这个 7B 大小的模型，使用没有偏好标签的混合质量数据，无需人工数据标注和 RLHF 中的大量调参工作，在消费级 GPU 上运行就能在某些基准线上达到 ChatGPT 相似的水平。发布后，OpenChat 在 Github 上获得 5.2k stars，在 hugging face 上一直保持着超过 20 万的月均下载量。

这个开源小模型也在某个契机上和马斯克产生了交集。

Grok 发布后，马斯克在 X 上转发自家模型的截图，展示了其 " 幽默 " 的能力。他问 Grok" 如何制造可卡因 "，Grok 便回复他：" 拿到化学学位和缉毒局牌照 ...... 只是开个玩笑。"

王冠便迅速用自己的模型模拟了这个风格，在 X 上 @马斯克：" 嗨 Grok，我这么小的参数量也能和你一样幽默。"

王冠对「暗涌 Waves」说，马斯克悄悄地略过了这条帖子，而是点进了他们的主页，翻了一圈后，偷偷给另一条 "we need more than Transformers to go there/Transformers 无法引领我们通向宇宙 " 点了赞。

后来，XAI 的人向王冠发来邀约，想让他利用 OpenChat 的经验从事模型开发工作。这在多数人看来都是个绝佳的机会：XAI 有钱、有算力、甚至有足够丰富的训练数据，待遇优渥，并且身处 AI 浪尖的硅谷。但王冠想了想还是拒绝了这个邀约，他觉得自己要做的是颠覆 Transformer，而不是顺着前人的足迹。

王冠和他如今联创 Austin 也是因为 OpenChat 结识。Austin 此前在加拿大攻读哲学，先创业做了男性美妆，后又再次创业做了云游戏。国内 AI 大模型火热之际，他回到中国，拿了几个模型厂的 offer，顺便帮他们招兵买马，于是他在 Github 上发现了王冠，两人网友见面，一拍即合。

尽管履历背景有很大差异，但两人有一点是相同的，就是当他们构思一个 AGI 已被实现的未来社会时：那是理想国，是人类拥有更多的自由，是解决当下世界很多问题的钥匙。

Sapient 的未来

同样作为清华毕业生，选择创业打底层模型，我们无可避免地聊到了杨植麟。王冠的想法还是一以贯之：与其继续做 Transformer，不如开辟新的路线。就如同他的创业偶像，Llion Jones 一样。

Llion Jones 是 Transformer 八作者之一，也是 Sakana.Ai 的联合创始人，他在 Sakana 上做的事情是要完全颠覆 Transformer 的技术路线，选择让自己的基础模型基于一种 " 自然启发智能 "。

Sakana 这个名字来源于日语さかな，也就是 " 鱼 " 的意思，意为 " 让一群鱼聚集在一起，从简单的规则中形成连贯的实体 "。虽然目前 Sakana 什么成型的产品都没有，但它在短短半年时间就连续完成了 3000 万美金的种子轮融资，和 1 亿美元的 A 轮融资。

AI 浪潮以来，可以看到资本对 AI 应用的热情愈发放缓，而在 AI 模型的投资方面，Austin 告诉「暗涌 Waves」，他所见到的国内投资人分两种，一种是投进了 " 六小虎 "，就不再继续看了，而另一种则开始逐渐探索 Transformer 之外的可能性。

作为 " 第一个吃螃蟹的人 "，要获得启动资金并不容易。面对投资人，Sapient 在描述其技术路线优势和商业愿景之前，首先需要解释清楚三个问题，其一是 GPT 的缺陷，包括简单推理不稳定、复杂问题无法解决以及幻觉等。其二则是当下 AI 应用的场景很好，但技术无法适配需求，比如 Devin，13% 的正确率使它根本无法发挥设想的效果。其三则是当下的时间节点，市场已对 AI 的未来有预期，算力集群等基础设施完备，资金只是困于 GPT 无法解决的下游问题，才会踟蹰不前。

即便获得初始启动资金，Sapient 仍然要面临人才招募的挑战。硅谷科技圈的 AI 人才争夺战，已经达到近乎疯狂的状态。前有扎克伯格亲手写信给 DeepMind 的研究员，邀请他们跳槽加盟 Meta；后有谷歌联合创始人谢尔盖 · 布林亲自打电话，谈加薪、给福利，只为挽留一名即将离职转投 OpenAI 的员工。除了满满诚意，充足的算力支持和高薪诱惑也是必不可少的条件。

有数据显示，OpenAI 总薪酬中位数（包括股票）已经达到了 92.5 万美元。Austin 告诉「暗涌 Waves」，Sapient 的核心成员由多名来自 Deepmind、Google、Microsoft、Anthropic 的研究员们组成。这些来自世界各地的人才们曾领导或参与过众多知名模型和产品，包括 AlphaGo、Gemini、Microsoft Copilot 等。拥有组织多元化和全球化团队的能力也是 Sapient 的核心优势之一。

但对于要挑战 GPT 的团队而言，困难远不止如此，Sapient 仍然要面临商业化市场的选择。Sapient 将主要的精力部署在海外市场，尤其是美国和日本。选择美国的原因无需赘述，但日本市场也有其核心优势，比如尽管北美 AI 市场活跃，但尤其生成式 AI 軟體市场竞争过于激烈，相较之下，日本也有完备的基础设施和高素质人才，并且围绕一个非西方社会文化的模型训练数据，可能会成为下一次技术突破的催化剂。

王冠还在专心开发他的 Sapient，他的朋友圈空无一物，头像是个深度学习的框架，模糊得像是教材插图，他的封面只有简单的黑底白字，上面写着 "Q-star"：这是一个传闻中的 OpenAI 项目，专注开发 AI 的逻辑和数学推理。

王冠和他的团队正在努力奔向下一个 milestone：发布这个全新模型架构，并且在推理逻辑能力上做公平的 Benchmark，让人能看出参数上质的飞跃。

不管这一天还有多久，但确信的一点是，Transformer 一统天下的时代逐渐过去。