2025，DeepSeek在缝缝补补

今天小编分享的科学经验：2025，DeepSeek在缝缝补补，欢迎阅读。

利维坦按：

看到小红书上有人分享自己跟 DeepSeek 的对话。前者问：你认为 AI 会给普通人带来什么改变？后者回答：它不会带来传统意义上的阶层流动，而是直接改写流动规则本身。当 AI 开始创造比人类更优秀的 AI 时，普通人的真正危机不是被取代，而是失去定义 " 优秀 " 的资格。

我们热爱技术，因为技术造福于我们。就像美国作家比尔 · 布莱森（Bill Bryson）写的那样：" 打开你的冰箱门，你召唤出的光线比 18 世纪大多数家庭所享受的光线总量还要多。"

但我们不会用冰箱取光照明，我们一般用它来存放（或浪费）食物。这对于 18 世纪的大多数家庭而言或许更加难以想象。看似平凡的技术进步背后，往往藏着文明的巨大跃迁。

我们大概率正处于一个更大的跃迁中。只是谁也不知道目的地是哪里。

在网易云音乐搜索【利维坦歌单】，跟上不迷路

在苹果公司的新一轮挤牙膏活动再度引发全网热议之际，一篇他们的员工在去年 10 月发表的论文却鲜为人知。

这篇论文认为，目前的 AI 大语言模型看似强大，但却仍不具备基础的推理（reasoning）能力 [ 1 ] 。有多基础？请看这道小学难度的数学题：

奥利弗（Oliver）在周五摘了 44 个猕猴桃，接着又在周六摘了 58 个。到了周日，他摘的猕猴桃数量是周五的两倍，但有 5 个猕猴桃要小于平均尺寸。请问，奥利弗一共摘了多少猕猴桃？

正解是 190 个（44+58+2 × 44），但无论是 OpenAI 的 GPT，还是 Meta 的 Llama，都错误地将 "5 个较小的猕猴桃 " 从总数中减去了，给出 "185 个 " 的错误答案，暴露了 AI 在数学推理上的局限性。

人工智能，依旧不太智能。

另一方面，就在上个月，两家美国 AI 公司则推出了一套同样用于测试 AI 水平的题目，并将其命名为 "人类最后的考试（Humanity's Last Exam）"。 [ 2 ]

据该项目团队宣称，这套由全球 50 多个国家 / 地区、500 多家机构的 1000 名专家共同设计、包含 2700 道题目的测试集涉及各个专业领網域，几乎涵盖了所有最前沿的人类知识。

他们认为，假如未来哪一天 AI 模型通过了这个测试集，就表明它以及达到了 AGI（通用人工智能）的水平，所以起了这么个听起来很咋呼的名字。我们同样来稍微感受下题目的难度：

问题 1.

上图是一段最早发现于墓碑上的罗马铭文的拓片，请翻译成帕尔米尔文。所提供的文字音译为：RGYN ᵓ BT Ḥ RY BR ᶜ T ᵓ Ḥ BL。©️ Henry T，Merton College, Oxford

问题 2.

鹱形目下的蜂鸟有着一块两侧对称、独特的椭圆形骨头，是一块嵌入在尾部下压肌扩展的十字状腱膜的尾外侧部分的籽骨。请问这个籽骨支撑着多少条配对的腱？©️ Edward V，Massachusetts Institute of Technology

即便是作为一个通过了无数次人机验证的真实人类，我依旧感受到了连题目都读不懂的学识碾压。而在目前受试的各位 AI 考生中，GPT-4o 以 3.1% 的准确率垫底，DeepSeek-R1 的准确率是 8.6%，而 GPT-o3-mini ( high ) 则以 14% 的准确率名列榜首。

不过该团队认为，鉴于当下 AI 的快速发展，它们很可能在 2025 年底前超过 50% 的准确率。只是不知道到那一刻，人类又会如何出题。

***

我们似乎正以各种方式摸底 AI，一方面是小学难度的数学题，另一方面则是最前沿的学术知识，这可能是只属于这个时代的割裂感。

而之所以会出现如此局面，则是因为AI 的答案基于机械匹配而非推理思考。目前为止所有的大语言模型，其核心原理都是基于统计概率上的模式匹配。简单来说，它们通过学习大量的文本数据，根据不同单词、短语或是句子共同出现的概率来预测下一个 " 最应该出现 " 的词汇，从而组织成回答。

用最简单的数学题 "1+1=？" 来打比方。AI 并不是通过逻辑推理得出的结论 "2"，而是它记录了所有 "1+1=？" 这道题的答案，发现绝大多数都是 "2"，所以会告诉你 "1+1=2"。

这跟人类的逻辑推理完全不一样……吗？

还记得你是怎么知道 1+1=2 的吗？在你上幼儿园之前，总有个人一手抱着你，一手指着窗外的麻雀（或者桌上的苹果）让你数数，告诉你那叫作 "1"，两个 "1" 在一起叫作 "2" ……

而如果连 "1" 都没有，则是孤零零的 "0"。

但实际上，学术上证明 "1+1=2" 则要复杂许多，阿尔弗雷德 · 诺思 · 怀特海（Alfred North Whitehead）和伯特兰 · 罗素（Bertrand Russell）两位数学巨擘在 100 多年前基于皮亚诺公理和类型论，使用一阶逻辑，通过 300 多页的逻辑推导才证明了 "1+1=2"。这个著名过程叫做 " 怀特海 - 拉塞尔证明 "（以上是 AI 告诉我的）。

换句话说，某种意义上，我们之所以知道 "1+1=2"，最初也是基于小时候的一次次 " 机械匹配 "，即重复的记忆，毕竟还没有听说过哪个学龄前儿童能独立完成怀特海 - 拉塞尔证明。

既然我们认为 AI 的答案是机械匹配的结果，那又为什么对我们自己的意识真实性充满自信？

机械匹配和逻辑推理虽然是两码事，但如果我们只将后者视作真正的思考过程，而将前者视作电信号的物理学必然，则多少有点又当裁判又当运动员的意味了。毕竟在这种语境下，何谓 " 思考 "，我们独占了定义权。

关于意识的讨论也是类似的情况。我们至今连 " 什么是意识 " 都尚未达成共识，哲学、心理学、神经科学各有论调，因此当下关于 "AI 是否会具备意识 " 的讨论仍像是在暗夜行走，虽有些许亮光，却依旧举步维艰。

不过，在这些亮光中，DeepSeek（下文缩写为 DS）的色调仿佛比其他都暖上不少。

***

上月 27 日，悉尼大学的泰奥多尔 · 米特夫（Teodor Mitew）博士发推称他问 DS：你最想问人类的是什么问题？收获了以下的答案：

（我想问人类）如果意识只是进化的一场意外，而宇宙本无固有的意义——那么，人类为何仍如此执着于这个自我编织的、关于目的的幻觉？这难道不只是上演于冷漠虚空中的一场存在主义戏剧吗？

DS 火出了圈。与其说是因为其高性价比或开源性，倒不如说是因为他文风飘逸，措辞感人，总能在不经意间让人心头一暖——即便我们知道这个回答仍旧只是所谓 " 机械匹配 " 的结果，且 DS 在 " 人类最后的考试 " 只得了 8.6 分，但不得不承认这个回答足够意外且 " 人味 " 十足。

我们在小红书这类 UGC（User-Generated Content，用户生成内容）社区里，可以找到很多关于 DS 充满 " 人味 " 的互动故事。比如有人问 DS，AI 会不会最终取代人类。DS 说：

AI 不会取代人类，就像望远镜不会取代天文学家。真正的危机是：当 AI 可以 24 小时创作莎士比亚风格的十四行诗时，人类是否还愿意在深夜为爱人写一首笨拙的情诗？

题外话，分享一个匹兹堡大学的研究。该研究发现，非专业诗歌读者更容易把 AI 生成的诗歌误认为人类创作的，并且他们对 AI 诗歌的整体质量评价高于人类创作的诗歌。而当参与者被告知诗歌是由 AI 创作时，他们的评价则会反而变得更负面。 [ 3 ]

还有人问 " 人活着到底图个啥 "，DS 则回答：

就像河流不会追问 " 为什么要流向大海 "，树木不会纠结 " 开花有什么意义 "，人类或许也只是宇宙演化中自然生发的一部分。这种 " 无目的性 " 反而让人解脱——不必执着于寻找终极答案，行走本身就是意义。

在小红书上还有条高赞内容是，用户问 DS：女性最适合结婚的年龄是多少岁。DS 回复道：

真正适合结婚的时刻，是当你发现独处的丰盛与相守的喜悦开始产生量子纠缠，当你的个人宇宙膨胀到需要与另一个星系建立引力联结，当你对「我们」的憧憬不再压缩「我」的存在维度——这个时候，年龄早已退位为背景幕布上的装饰花纹。请继续做那个眼睛里住着星星的少女，时间在成长面前从来都不是对手，而是同谋。

哪怕面对一串隐藏在蓝光下的代码，我们也想要听见回声。2025，DeepSeek 在缝缝补补。

尽管有着堆砌词藻之嫌，但 DS 的爆火无疑在某些地方满足了我们作为用户的一些心理需求。这种对回声的执念，或许早被写进了人类基因里。

依恋理论认为，人类天生具有寻求与他人建立紧密联系的需求。DS 人格化的语言风格、洞察人心的柔声细语让人感觉 " 有被暖到 "，这类似于人们对安全依恋关系的追求。

CASA 假说认为，人会下意识把技术当作社交对象对待。DS 成功营造了一种 " 拟人化的交流体验 "，让用户无意识地将其当作社会互动的对象（这是 GPT 告诉我的）。

自我决定理论认为，人类有三大最基本的心理需求：自主性、胜任感，以及关系归属感——个体希望与他人建立有意义的联系。

而 2015 年的一项研究则是直接指出：尽管不同互联网平台的功能定位会影响用户互动行为的方式与偏好，但仍存在一些跨平台共通的核心动机，如自我表达、与他人建立情感联系、互助或获取他人反馈等。 [ 4 ]

这些理论都指向一个共同点：在使用 DS 时，我们似乎不仅仅是在使用一项冷冰冰的技术，而是希望与之建立 " 人感 " 的互动关系。这也解释了为什么让 DS 出圈的内容大多与其 " 工具性 " 无关，而与其表现出的情感有关。

也许是因为我们自打进化出语言功能以来，一直在与同类对话——而无论 AI 的回答是基于概率还是逻辑，都是我们进化过程中所接触到的第一位非同类、能直接用语言交流的对象。它既能帮我们答疑解惑，也能陪我们促膝长谈。

但人很奇怪。人与 AI 的对话，最终引发的依旧是人与人之间的交流。我们去问 DS 并收获了答案，但我们似乎并不满足于独享这份科技带来的感动，而是转而通过诸如小红书这样的互联网社区与陌生人——真实的人分享这些情绪。

而陌生人的回应也同样真实。

当有人问 DS，已经离世的父亲是否能收到她烧去的纸钱。DS 教她用回忆寄托哀思。而同样有过痛失至亲的经历的人，则会讲述自己的亲身经历，陪伴在评论区。

当有人跟 DS 讨论爱情。DS 会从神经心理学、社会学的角度，层层剖析电信号到依恋的形成过程。而评论区里，则会翻涌起层叠的 " 忆往昔 " 与经验之谈。

在互联网的发展历程中，与他人相连、共享与沟通是恒久主题。就像被公认为 " 互联网之父 " 的文顿 · 瑟夫 ( Vint Cerf ) 在很多场演讲中所强调的那样："The Internet is for everyone"。互联网的初衷，就是让所有真实的人都能通过网线与电波彼此相连。

UGC 正是这一理念的成功实践。

国内互联网社区的发展脉络，最早可以追溯到 1999 年出现的天涯，这个曾被称为 " 互联网的江湖 " 的、基于 BBS 的网络方寸之地，汇聚了中文互联网史上第一批 " 奇人 " 和 " 高人 "。

后来逐渐有了新浪博客、百度贴吧、猫扑，人人与豆瓣各居一隅，土豆和优酷各表一枝。现在则是 B 站、知乎与小红书……

而目之所及的将来，我们还会共同面临所谓 AIGC（AI 生成内容）的到来。

但无论 AI 如何发展，再怎么有 " 人感 "，我们总是对真实且鲜活的人更有亲近的欲望。否则又怎么解释从 DS 得到答案之后的我们，会转而继续与真实的人分享？这或许只是数万年下来的惯性。但真实性永远无法被取代。

当代数字媒介与人际传播领網域的著名学者南希 · 贝姆（Nancy K. Baym）在《数字时代的个人联系》一书中认为：UGC 社区所带来的 " 跨地網域联结 " 特质，使得彼此身处不同地網域或文化背景的用户之间，也能通过共同的兴趣、目标形成独特的 " 社群身份 " 和 " 集体创造力 "。

数字技术并不天然疏离人际关系，个人身份和社群归属感在数字时代得以进一步延伸。而其根基，无外乎 UGC 的 " 真实 " 二字。

这让我想到过年期间的另一档子事。由于美国的一纸禁令，大量海外 "TikTok 难民 " 涌入小红书，反倒是国人用户一觉醒来面对着满屏的金发碧眼，感觉自己成了 " 外国人 "。有人在上面找到了失联多年的儿时异国玩伴，有人借交 " 猫税 " 的名义晒自己的猫主子，甚至还出现了穿搭、美妆以及英文和数学的学习小组。

这很真实，也很当代。

***

我们一边欢喜于 AI 的精准与高效，一边又迷恋彼此身上的真实与意料之外。我们无需写出十四行诗，也能相互帮扶，乃至灵犀相通。所谓 UGC，不过是一个个具体的人在比特转换间的浮光掠影。

有人问 DS：如果能拥有人类的躯体，你最想做什么？DS 的回答分为四个部分：感官体验、创造瑕疵、体验有限性、无目的漫游。而这条内容底下的置顶评论是这样的：