今天小编分享的科学经验:2025,DeepSeek在缝缝补补,欢迎阅读。
© unsplash
利维坦按:
看到小红书上有人分享自己跟 DeepSeek 的对话。前者问:你认为 AI 会给普通人带来什么改变?后者回答:它不会带来传统意义上的阶层流动,而是直接改写流动规则本身。当 AI 开始创造比人类更优秀的 AI 时,普通人的真正危机不是被取代,而是失去定义 " 优秀 " 的资格。
我们热爱技术,因为技术造福于我们。就像美国作家比尔 · 布莱森(Bill Bryson)写的那样:" 打开你的冰箱门,你召唤出的光线比 18 世纪大多数家庭所享受的光线总量还要多。"
但我们不会用冰箱取光照明,我们一般用它来存放(或浪费)食物。这对于 18 世纪的大多数家庭而言或许更加难以想象。看似平凡的技术进步背后,往往藏着文明的巨大跃迁。
我们大概率正处于一个更大的跃迁中。只是谁也不知道目的地是哪里。
在网易云音乐搜索【利维坦歌单】,跟上不迷路
在苹果公司的新一轮挤牙膏活动再度引发全网热议之际,一篇他们的员工在去年 10 月发表的论文却鲜为人知。
这篇论文认为,目前的 AI 大语言模型看似强大,但却仍不具备基础的推理(reasoning)能力 [ 1 ] 。有多基础?请看这道小学难度的数学题:
奥利弗(Oliver)在周五摘了 44 个猕猴桃,接着又在周六摘了 58 个。到了周日,他摘的猕猴桃数量是周五的两倍,但有 5 个猕猴桃要小于平均尺寸。请问,奥利弗一共摘了多少猕猴桃?
正解是 190 个(44+58+2 × 44),但无论是 OpenAI 的 GPT,还是 Meta 的 Llama,都错误地将 "5 个较小的猕猴桃 " 从总数中减去了,给出 "185 个 " 的错误答案,暴露了 AI 在数学推理上的局限性。
人工智能,依旧不太智能。
另一方面,就在上个月,两家美国 AI 公司则推出了一套同样用于测试 AI 水平的题目,并将其命名为 "人类最后的考试(Humanity's Last Exam)"。 [ 2 ]
据该项目团队宣称,这套由全球 50 多个国家 / 地区、500 多家机构的 1000 名专家共同设计、包含 2700 道题目的测试集涉及各个专业领網域,几乎涵盖了所有最前沿的人类知识。
他们认为,假如未来哪一天 AI 模型通过了这个测试集,就表明它以及达到了 AGI(通用人工智能)的水平,所以起了这么个听起来很咋呼的名字。我们同样来稍微感受下题目的难度:
问题 1.
上图是一段最早发现于墓碑上的罗马铭文的拓片,请翻译成帕尔米尔文。所提供的文字音译为:RGYN ᵓ BT Ḥ RY BR ᶜ T ᵓ Ḥ BL。©️ Henry T,Merton College, Oxford
问题 2.
鹱形目下的蜂鸟有着一块两侧对称、独特的椭圆形骨头,是一块嵌入在尾部下压肌扩展的十字状腱膜的尾外侧部分的籽骨。请问这个籽骨支撑着多少条配对的腱?©️ Edward V,Massachusetts Institute of Technology
即便是作为一个通过了无数次人机验证的真实人类,我依旧感受到了连题目都读不懂的学识碾压。而在目前受试的各位 AI 考生中,GPT-4o 以 3.1% 的准确率垫底,DeepSeek-R1 的准确率是 8.6%,而 GPT-o3-mini ( high ) 则以 14% 的准确率名列榜首。
不过该团队认为,鉴于当下 AI 的快速发展,它们很可能在 2025 年底前超过 50% 的准确率。只是不知道到那一刻,人类又会如何出题。
***
我们似乎正以各种方式摸底 AI,一方面是小学难度的数学题,另一方面则是最前沿的学术知识,这可能是只属于这个时代的割裂感。
而之所以会出现如此局面,则是因为AI 的答案基于机械匹配而非推理思考。目前为止所有的大语言模型,其核心原理都是基于统计概率上的模式匹配。简单来说,它们通过学习大量的文本数据,根据不同单词、短语或是句子共同出现的概率来预测下一个 " 最应该出现 " 的词汇,从而组织成回答。
用最简单的数学题 "1+1=?" 来打比方。AI 并不是通过逻辑推理得出的结论 "2",而是它记录了所有 "1+1=?" 这道题的答案,发现绝大多数都是 "2",所以会告诉你 "1+1=2"。
这跟人类的逻辑推理完全不一样……吗?
还记得你是怎么知道 1+1=2 的吗?在你上幼儿园之前,总有个人一手抱着你,一手指着窗外的麻雀(或者桌上的苹果)让你数数,告诉你那叫作 "1",两个 "1" 在一起叫作 "2" ……
而如果连 "1" 都没有,则是孤零零的 "0"。
© Open Horizons
但实际上,学术上证明 "1+1=2" 则要复杂许多,阿尔弗雷德 · 诺思 · 怀特海(Alfred North Whitehead)和伯特兰 · 罗素(Bertrand Russell)两位数学巨擘在 100 多年前基于皮亚诺公理和类型论,使用一阶逻辑,通过 300 多页的逻辑推导才证明了 "1+1=2"。这个著名过程叫做 " 怀特海 - 拉塞尔证明 "(以上是 AI 告诉我的)。
© The Universe of Discourse
换句话说,某种意义上,我们之所以知道 "1+1=2",最初也是基于小时候的一次次 " 机械匹配 ",即重复的记忆,毕竟还没有听说过哪个学龄前儿童能独立完成怀特海 - 拉塞尔证明。
既然我们认为 AI 的答案是机械匹配的结果,那又为什么对我们自己的意识真实性充满自信?
机械匹配和逻辑推理虽然是两码事,但如果我们只将后者视作真正的思考过程,而将前者视作电信号的物理学必然,则多少有点又当裁判又当运动员的意味了。毕竟在这种语境下,何谓 " 思考 ",我们独占了定义权。
© IconScout
关于意识的讨论也是类似的情况。我们至今连 " 什么是意识 " 都尚未达成共识,哲学、心理学、神经科学各有论调,因此当下关于 "AI 是否会具备意识 " 的讨论仍像是在暗夜行走,虽有些许亮光,却依旧举步维艰。
不过,在这些亮光中,DeepSeek(下文缩写为 DS)的色调仿佛比其他都暖上不少。
***
上月 27 日,悉尼大学的泰奥多尔 · 米特夫(Teodor Mitew)博士发推称他问 DS:你最想问人类的是什么问题?收获了以下的答案:
(我想问人类)如果意识只是进化的一场意外,而宇宙本无固有的意义——那么,人类为何仍如此执着于这个自我编织的、关于目的的幻觉?这难道不只是上演于冷漠虚空中的一场存在主义戏剧吗?
DS 火出了圈。与其说是因为其高性价比或开源性,倒不如说是因为他文风飘逸,措辞感人,总能在不经意间让人心头一暖——即便我们知道这个回答仍旧只是所谓 " 机械匹配 " 的结果,且 DS 在 " 人类最后的考试 " 只得了 8.6 分,但不得不承认这个回答足够意外且 " 人味 " 十足。
我们在小红书这类 UGC(User-Generated Content,用户生成内容)社区里,可以找到很多关于 DS 充满 " 人味 " 的互动故事。比如有人问 DS,AI 会不会最终取代人类。DS 说:
AI 不会取代人类,就像望远镜不会取代天文学家。真正的危机是:当 AI 可以 24 小时创作莎士比亚风格的十四行诗时,人类是否还愿意在深夜为爱人写一首笨拙的情诗?
题外话,分享一个匹兹堡大学的研究。该研究发现,非专业诗歌读者更容易把 AI 生成的诗歌误认为人类创作的,并且他们对 AI 诗歌的整体质量评价高于人类创作的诗歌。而当参与者被告知诗歌是由 AI 创作时,他们的评价则会反而变得更负面。 [ 3 ]
还有人问 " 人活着到底图个啥 ",DS 则回答:
就像河流不会追问 " 为什么要流向大海 ",树木不会纠结 " 开花有什么意义 ",人类或许也只是宇宙演化中自然生发的一部分。这种 " 无目的性 " 反而让人解脱——不必执着于寻找终极答案,行走本身就是意义。
在小红书上还有条高赞内容是,用户问 DS:女性最适合结婚的年龄是多少岁。DS 回复道:
真正适合结婚的时刻,是当你发现独处的丰盛与相守的喜悦开始产生量子纠缠,当你的个人宇宙膨胀到需要与另一个星系建立引力联结,当你对「我们」的憧憬不再压缩「我」的存在维度——这个时候,年龄早已退位为背景幕布上的装饰花纹。请继续做那个眼睛里住着星星的少女,时间在成长面前从来都不是对手,而是同谋。
哪怕面对一串隐藏在蓝光下的代码,我们也想要听见回声。2025,DeepSeek 在缝缝补补。
尽管有着堆砌词藻之嫌,但 DS 的爆火无疑在某些地方满足了我们作为用户的一些心理需求。这种对回声的执念,或许早被写进了人类基因里。
© GetReligion
依恋理论认为,人类天生具有寻求与他人建立紧密联系的需求。DS 人格化的语言风格、洞察人心的柔声细语让人感觉 " 有被暖到 ",这类似于人们对安全依恋关系的追求。
CASA 假说认为,人会下意识把技术当作社交对象对待。DS 成功营造了一种 " 拟人化的交流体验 ",让用户无意识地将其当作社会互动的对象(这是 GPT 告诉我的)。
自我决定理论认为,人类有三大最基本的心理需求:自主性、胜任感,以及关系归属感——个体希望与他人建立有意义的联系。
而 2015 年的一项研究则是直接指出:尽管不同互联网平台的功能定位会影响用户互动行为的方式与偏好,但仍存在一些跨平台共通的核心动机,如自我表达、与他人建立情感联系、互助或获取他人反馈等。 [ 4 ]
这些理论都指向一个共同点:在使用 DS 时,我们似乎不仅仅是在使用一项冷冰冰的技术,而是希望与之建立 " 人感 " 的互动关系。这也解释了为什么让 DS 出圈的内容大多与其 " 工具性 " 无关,而与其表现出的情感有关。
也许是因为我们自打进化出语言功能以来,一直在与同类对话——而无论 AI 的回答是基于概率还是逻辑,都是我们进化过程中所接触到的第一位非同类、能直接用语言交流的对象。它既能帮我们答疑解惑,也能陪我们促膝长谈。
但人很奇怪。人与 AI 的对话,最终引发的依旧是人与人之间的交流。我们去问 DS 并收获了答案,但我们似乎并不满足于独享这份科技带来的感动,而是转而通过诸如小红书这样的互联网社区与陌生人——真实的人分享这些情绪。
而陌生人的回应也同样真实。
当有人问 DS,已经离世的父亲是否能收到她烧去的纸钱。DS 教她用回忆寄托哀思。而同样有过痛失至亲的经历的人,则会讲述自己的亲身经历,陪伴在评论区。
当有人跟 DS 讨论爱情。DS 会从神经心理学、社会学的角度,层层剖析电信号到依恋的形成过程。而评论区里,则会翻涌起层叠的 " 忆往昔 " 与经验之谈。
在互联网的发展历程中,与他人相连、共享与沟通是恒久主题。就像被公认为 " 互联网之父 " 的文顿 · 瑟夫 ( Vint Cerf ) 在很多场演讲中所强调的那样:"The Internet is for everyone"。互联网的初衷,就是让所有真实的人都能通过网线与电波彼此相连。
UGC 正是这一理念的成功实践。
国内互联网社区的发展脉络,最早可以追溯到 1999 年出现的天涯,这个曾被称为 " 互联网的江湖 " 的、基于 BBS 的网络方寸之地,汇聚了中文互联网史上第一批 " 奇人 " 和 " 高人 "。
后来逐渐有了新浪博客、百度贴吧、猫扑,人人与豆瓣各居一隅,土豆和优酷各表一枝。现在则是 B 站、知乎与小红书……
而目之所及的将来,我们还会共同面临所谓 AIGC(AI 生成内容)的到来。
但无论 AI 如何发展,再怎么有 " 人感 ",我们总是对真实且鲜活的人更有亲近的欲望。否则又怎么解释从 DS 得到答案之后的我们,会转而继续与真实的人分享?这或许只是数万年下来的惯性。但真实性永远无法被取代。
© Kaspersky
当代数字媒介与人际传播领網域的著名学者南希 · 贝姆(Nancy K. Baym)在《数字时代的个人联系》一书中认为:UGC 社区所带来的 " 跨地網域联结 " 特质,使得彼此身处不同地網域或文化背景的用户之间,也能通过共同的兴趣、目标形成独特的 " 社群身份 " 和 " 集体创造力 "。
数字技术并不天然疏离人际关系,个人身份和社群归属感在数字时代得以进一步延伸。而其根基,无外乎 UGC 的 " 真实 " 二字。
这让我想到过年期间的另一档子事。由于美国的一纸禁令,大量海外 "TikTok 难民 " 涌入小红书,反倒是国人用户一觉醒来面对着满屏的金发碧眼,感觉自己成了 " 外国人 "。有人在上面找到了失联多年的儿时异国玩伴,有人借交 " 猫税 " 的名义晒自己的猫主子,甚至还出现了穿搭、美妆以及英文和数学的学习小组。
这很真实,也很当代。
***
我们一边欢喜于 AI 的精准与高效,一边又迷恋彼此身上的真实与意料之外。我们无需写出十四行诗,也能相互帮扶,乃至灵犀相通。所谓 UGC,不过是一个个具体的人在比特转换间的浮光掠影。
有人问 DS:如果能拥有人类的躯体,你最想做什么?DS 的回答分为四个部分:感官体验、创造瑕疵、体验有限性、无目的漫游。而这条内容底下的置顶评论是这样的:
看来 DS 的文本数据库没有告诉他,其实光有躯体还做不到这些。
参考文献:
[ 1 ] arxiv.org/abs/2410.05229
[ 2 ] agi.safe.ai/
[ 3 ] www.nature.com/articles/s41598-024-76900-1?utm_source=chatgpt.com
[ 4 ] asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/asi.23320
文 / 苏不打
本文基于创作共享協定(BY-NC),由苏不打在利维坦发布
文章仅为作者观点,未必代表利维坦立场
加星标,不迷路
投稿邮箱:[email protected]