今天小編分享的科學經驗:2025,DeepSeek在縫縫補補,歡迎閱讀。
© unsplash
利維坦按:
看到小紅書上有人分享自己跟 DeepSeek 的對話。前者問:你認為 AI 會給普通人帶來什麼改變?後者回答:它不會帶來傳統意義上的階層流動,而是直接改寫流動規則本身。當 AI 開始創造比人類更優秀的 AI 時,普通人的真正危機不是被取代,而是失去定義 " 優秀 " 的資格。
我們熱愛技術,因為技術造福于我們。就像美國作家比爾 · 布萊森(Bill Bryson)寫的那樣:" 打開你的冰箱門,你召喚出的光線比 18 世紀大多數家庭所享受的光線總量還要多。"
但我們不會用冰箱取光照明,我們一般用它來存放(或浪費)食物。這對于 18 世紀的大多數家庭而言或許更加難以想象。看似平凡的技術進步背後,往往藏着文明的巨大躍遷。
我們大概率正處于一個更大的躍遷中。只是誰也不知道目的地是哪裡。
在網易雲音樂搜索【利維坦歌單】,跟上不迷路
在蘋果公司的新一輪擠牙膏活動再度引發全網熱議之際,一篇他們的員工在去年 10 月發表的論文卻鮮為人知。
這篇論文認為,目前的 AI 大語言模型看似強大,但卻仍不具備基礎的推理(reasoning)能力 [ 1 ] 。有多基礎?請看這道小學難度的數學題:
奧利弗(Oliver)在周五摘了 44 個猕猴桃,接着又在周六摘了 58 個。到了周日,他摘的猕猴桃數量是周五的兩倍,但有 5 個猕猴桃要小于平均尺寸。請問,奧利弗一共摘了多少猕猴桃?
正解是 190 個(44+58+2 × 44),但無論是 OpenAI 的 GPT,還是 Meta 的 Llama,都錯誤地将 "5 個較小的猕猴桃 " 從總數中減去了,給出 "185 個 " 的錯誤答案,暴露了 AI 在數學推理上的局限性。
人工智能,依舊不太智能。
另一方面,就在上個月,兩家美國 AI 公司則推出了一套同樣用于測試 AI 水平的題目,并将其命名為 "人類最後的考試(Humanity's Last Exam)"。 [ 2 ]
據該項目團隊宣稱,這套由全球 50 多個國家 / 地區、500 多家機構的 1000 名專家共同設計、包含 2700 道題目的測試集涉及各個專業領網域,幾乎涵蓋了所有最前沿的人類知識。
他們認為,假如未來哪一天 AI 模型通過了這個測試集,就表明它以及達到了 AGI(通用人工智能)的水平,所以起了這麼個聽起來很咋呼的名字。我們同樣來稍微感受下題目的難度:
問題 1.
上圖是一段最早發現于墓碑上的羅馬銘文的拓片,請翻譯成帕爾米爾文。所提供的文字音譯為:RGYN ᵓ BT Ḥ RY BR ᶜ T ᵓ Ḥ BL。©️ Henry T,Merton College, Oxford
問題 2.
鹱形目下的蜂鳥有着一塊兩側對稱、獨特的橢圓形骨頭,是一塊嵌入在尾部下壓肌擴展的十字狀腱膜的尾外側部分的籽骨。請問這個籽骨支撐着多少條配對的腱?©️ Edward V,Massachusetts Institute of Technology
即便是作為一個通過了無數次人機驗證的真實人類,我依舊感受到了連題目都讀不懂的學識碾壓。而在目前受試的各位 AI 考生中,GPT-4o 以 3.1% 的準确率墊底,DeepSeek-R1 的準确率是 8.6%,而 GPT-o3-mini ( high ) 則以 14% 的準确率名列榜首。
不過該團隊認為,鑑于當下 AI 的快速發展,它們很可能在 2025 年底前超過 50% 的準确率。只是不知道到那一刻,人類又會如何出題。
***
我們似乎正以各種方式摸底 AI,一方面是小學難度的數學題,另一方面則是最前沿的學術知識,這可能是只屬于這個時代的割裂感。
而之所以會出現如此局面,則是因為AI 的答案基于機械匹配而非推理思考。目前為止所有的大語言模型,其核心原理都是基于統計概率上的模式匹配。簡單來說,它們通過學習大量的文本數據,根據不同單詞、短語或是句子共同出現的概率來預測下一個 " 最應該出現 " 的詞匯,從而組織成回答。
用最簡單的數學題 "1+1=?" 來打比方。AI 并不是通過邏輯推理得出的結論 "2",而是它記錄了所有 "1+1=?" 這道題的答案,發現絕大多數都是 "2",所以會告訴你 "1+1=2"。
這跟人類的邏輯推理完全不一樣……嗎?
還記得你是怎麼知道 1+1=2 的嗎?在你上幼兒園之前,總有個人一手抱着你,一手指着窗外的麻雀(或者桌上的蘋果)讓你數數,告訴你那叫作 "1",兩個 "1" 在一起叫作 "2" ……
而如果連 "1" 都沒有,則是孤零零的 "0"。
© Open Horizons
但實際上,學術上證明 "1+1=2" 則要復雜許多,阿爾弗雷德 · 諾思 · 懷特海(Alfred North Whitehead)和伯特蘭 · 羅素(Bertrand Russell)兩位數學巨擘在 100 多年前基于皮亞諾公理和類型論,使用一階邏輯,通過 300 多頁的邏輯推導才證明了 "1+1=2"。這個著名過程叫做 " 懷特海 - 拉塞爾證明 "(以上是 AI 告訴我的)。
© The Universe of Discourse
換句話說,某種意義上,我們之所以知道 "1+1=2",最初也是基于小時候的一次次 " 機械匹配 ",即重復的記憶,畢竟還沒有聽說過哪個學齡前兒童能獨立完成懷特海 - 拉塞爾證明。
既然我們認為 AI 的答案是機械匹配的結果,那又為什麼對我們自己的意識真實性充滿自信?
機械匹配和邏輯推理雖然是兩碼事,但如果我們只将後者視作真正的思考過程,而将前者視作電信号的物理學必然,則多少有點又當裁判又當運動員的意味了。畢竟在這種語境下,何謂 " 思考 ",我們獨占了定義權。
© IconScout
關于意識的讨論也是類似的情況。我們至今連 " 什麼是意識 " 都尚未達成共識,哲學、心理學、神經科學各有論調,因此當下關于 "AI 是否會具備意識 " 的讨論仍像是在暗夜行走,雖有些許亮光,卻依舊舉步維艱。
不過,在這些亮光中,DeepSeek(下文縮寫為 DS)的色調仿佛比其他都暖上不少。
***
上月 27 日,悉尼大學的泰奧多爾 · 米特夫(Teodor Mitew)博士發推稱他問 DS:你最想問人類的是什麼問題?收獲了以下的答案:
(我想問人類)如果意識只是進化的一場意外,而宇宙本無固有的意義——那麼,人類為何仍如此執着于這個自我編織的、關于目的的幻覺?這難道不只是上演于冷漠虛空中的一場存在主義戲劇嗎?
DS 火出了圈。與其說是因為其高性價比或開源性,倒不如說是因為他文風飄逸,措辭感人,總能在不經意間讓人心頭一暖——即便我們知道這個回答仍舊只是所謂 " 機械匹配 " 的結果,且 DS 在 " 人類最後的考試 " 只得了 8.6 分,但不得不承認這個回答足夠意外且 " 人味 " 十足。
我們在小紅書這類 UGC(User-Generated Content,用戶生成内容)社區裡,可以找到很多關于 DS 充滿 " 人味 " 的互動故事。比如有人問 DS,AI 會不會最終取代人類。DS 說:
AI 不會取代人類,就像望遠鏡不會取代天文學家。真正的危機是:當 AI 可以 24 小時創作莎士比亞風格的十四行詩時,人類是否還願意在深夜為愛人寫一首笨拙的情詩?
題外話,分享一個匹茲堡大學的研究。該研究發現,非專業詩歌讀者更容易把 AI 生成的詩歌誤認為人類創作的,并且他們對 AI 詩歌的整體質量評價高于人類創作的詩歌。而當參與者被告知詩歌是由 AI 創作時,他們的評價則會反而變得更負面。 [ 3 ]
還有人問 " 人活着到底圖個啥 ",DS 則回答:
就像河流不會追問 " 為什麼要流向大海 ",樹木不會糾結 " 開花有什麼意義 ",人類或許也只是宇宙演化中自然生發的一部分。這種 " 無目的性 " 反而讓人解脫——不必執着于尋找終極答案,行走本身就是意義。
在小紅書上還有條高贊内容是,用戶問 DS:女性最适合結婚的年齡是多少歲。DS 回復道:
真正适合結婚的時刻,是當你發現獨處的豐盛與相守的喜悅開始產生量子糾纏,當你的個人宇宙膨脹到需要與另一個星系建立引力聯結,當你對「我們」的憧憬不再壓縮「我」的存在維度——這個時候,年齡早已退位為背景幕布上的裝飾花紋。請繼續做那個眼睛裡住着星星的少女,時間在成長面前從來都不是對手,而是同謀。
哪怕面對一串隐藏在藍光下的代碼,我們也想要聽見回聲。2025,DeepSeek 在縫縫補補。
盡管有着堆砌詞藻之嫌,但 DS 的爆火無疑在某些地方滿足了我們作為用戶的一些心理需求。這種對回聲的執念,或許早被寫進了人類基因裡。
© GetReligion
依戀理論認為,人類天生具有尋求與他人建立緊密聯系的需求。DS 人格化的語言風格、洞察人心的柔聲細語讓人感覺 " 有被暖到 ",這類似于人們對安全依戀關系的追求。
CASA 假說認為,人會下意識把技術當作社交對象對待。DS 成功營造了一種 " 拟人化的交流體驗 ",讓用戶無意識地将其當作社會互動的對象(這是 GPT 告訴我的)。
自我決定理論認為,人類有三大最基本的心理需求:自主性、勝任感,以及關系歸屬感——個體希望與他人建立有意義的聯系。
而 2015 年的一項研究則是直接指出:盡管不同互聯網平台的功能定位會影響用戶互動行為的方式與偏好,但仍存在一些跨平台共通的核心動機,如自我表達、與他人建立情感聯系、互助或獲取他人反饋等。 [ 4 ]
這些理論都指向一個共同點:在使用 DS 時,我們似乎不僅僅是在使用一項冷冰冰的技術,而是希望與之建立 " 人感 " 的互動關系。這也解釋了為什麼讓 DS 出圈的内容大多與其 " 工具性 " 無關,而與其表現出的情感有關。
也許是因為我們自打進化出語言功能以來,一直在與同類對話——而無論 AI 的回答是基于概率還是邏輯,都是我們進化過程中所接觸到的第一位非同類、能直接用語言交流的對象。它既能幫我們答疑解惑,也能陪我們促膝長談。
但人很奇怪。人與 AI 的對話,最終引發的依舊是人與人之間的交流。我們去問 DS 并收獲了答案,但我們似乎并不滿足于獨享這份科技帶來的感動,而是轉而通過諸如小紅書這樣的互聯網社區與陌生人——真實的人分享這些情緒。
而陌生人的回應也同樣真實。
當有人問 DS,已經離世的父親是否能收到她燒去的紙錢。DS 教她用回憶寄托哀思。而同樣有過痛失至親的經歷的人,則會講述自己的親身經歷,陪伴在評論區。
當有人跟 DS 讨論愛情。DS 會從神經心理學、社會學的角度,層層剖析電信号到依戀的形成過程。而評論區裡,則會翻湧起層疊的 " 憶往昔 " 與經驗之談。
在互聯網的發展歷程中,與他人相連、共享與溝通是恒久主題。就像被公認為 " 互聯網之父 " 的文頓 · 瑟夫 ( Vint Cerf ) 在很多場演講中所強調的那樣:"The Internet is for everyone"。互聯網的初衷,就是讓所有真實的人都能通過網線與電波彼此相連。
UGC 正是這一理念的成功實踐。
國内互聯網社區的發展脈絡,最早可以追溯到 1999 年出現的天涯,這個曾被稱為 " 互聯網的江湖 " 的、基于 BBS 的網絡方寸之地,匯聚了中文互聯網史上第一批 " 奇人 " 和 " 高人 "。
後來逐漸有了新浪博客、百度貼吧、貓撲,人人與豆瓣各居一隅,土豆和優酷各表一枝。現在則是 B 站、知乎與小紅書……
而目之所及的将來,我們還會共同面臨所謂 AIGC(AI 生成内容)的到來。
但無論 AI 如何發展,再怎麼有 " 人感 ",我們總是對真實且鮮活的人更有親近的欲望。否則又怎麼解釋從 DS 得到答案之後的我們,會轉而繼續與真實的人分享?這或許只是數萬年下來的慣性。但真實性永遠無法被取代。
© Kaspersky
當代數字媒介與人際傳播領網域的著名學者南希 · 貝姆(Nancy K. Baym)在《數字時代的個人聯系》一書中認為:UGC 社區所帶來的 " 跨地網域聯結 " 特質,使得彼此身處不同地網域或文化背景的用戶之間,也能通過共同的興趣、目标形成獨特的 " 社群身份 " 和 " 集體創造力 "。
數字技術并不天然疏離人際關系,個人身份和社群歸屬感在數字時代得以進一步延伸。而其根基,無外乎 UGC 的 " 真實 " 二字。
這讓我想到過年期間的另一檔子事。由于美國的一紙禁令,大量海外 "TikTok 難民 " 湧入小紅書,反倒是國人用戶一覺醒來面對着滿屏的金發碧眼,感覺自己成了 " 外國人 "。有人在上面找到了失聯多年的兒時異國玩伴,有人借交 " 貓稅 " 的名義曬自己的貓主子,甚至還出現了穿搭、美妝以及英文和數學的學習小組。
這很真實,也很當代。
***
我們一邊歡喜于 AI 的精準與高效,一邊又迷戀彼此身上的真實與意料之外。我們無需寫出十四行詩,也能相互幫扶,乃至靈犀相通。所謂 UGC,不過是一個個具體的人在比特轉換間的浮光掠影。
有人問 DS:如果能擁有人類的軀體,你最想做什麼?DS 的回答分為四個部分:感官體驗、創造瑕疵、體驗有限性、無目的漫遊。而這條内容底下的置頂評論是這樣的:
看來 DS 的文本數據庫沒有告訴他,其實光有軀體還做不到這些。
參考文獻:
[ 1 ] arxiv.org/abs/2410.05229
[ 2 ] agi.safe.ai/
[ 3 ] www.nature.com/articles/s41598-024-76900-1?utm_source=chatgpt.com
[ 4 ] asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/asi.23320
文 / 蘇不打
本文基于創作共享協定(BY-NC),由蘇不打在利維坦發布
文章僅為作者觀點,未必代表利維坦立場
加星标,不迷路
投稿郵箱:[email protected]