今天小編分享的财經經驗:“80後死亡率超5%”,别上假數據的當,歡迎閲讀。
生成式 AI 是有可能 " 胡説八道 " 的,它們會在看似真實的陳述中夾雜錯誤信息。
但偏偏,每個人都生活在信息繭房當中,接收信息的精力有限,不可能對互聯網信息逐一甄别,如果一篇文章用充足的數據做出了 " 嚴謹的行文姿态 ",就已天然具備了被信任的基礎。
更不用説,人往往更傾向相信于那些符合期望的 " 事實 "。在一個争議話題下加上刻意營造的噱頭,這些編造的數據往往會當做打口水仗的武器,被二次加工、傳播,造成信息污染,真真假假也就説不清了。
作者 | 阿瑞
編輯 | DR
題圖 | 《乘上獨角獸》
" 截至 2024 年末,80 後死亡率突破 5.2%,相當于每 20 個 80 後中就有 1 人已經去世。"
這句話,你信了嗎?
雖然當代打工人的健康狀況确實值得擔憂,但好消息是,這一數據是假的。
今年 2 月,相關數據和評論刷屏互聯網,人們感慨 " 活着不易 ",更有人借機賣起了保健品和保險。3 月 4 日,公安部網安局公布調查結果:網民夏某在視頻《80 後到底還剩多少人》中捏造數據,被予以行政處罰。
造謠一張嘴,辟謠跑斷腿。如今,造謠甚至不需要嘴了——只要在 AI 的對話框中輸入幾個字,指引 AI 生成虛假信息的人或許都意識不到自己在助力謠言的誕生。
AI 編的數據,你信了嗎?
先來説説 "80 後死亡率 " 的離譜錯誤。
死亡率作為人口學的重要統計指标,其計算公式為 " 某時期死亡人數除以同期平均人口數,再乘以 1000 ‰ ",也就是説,它的部門是‰,而非 %。
中國人民大學人口與健康學院教授李婷在其公眾号 " 嚴肅的人口學八卦 " 撰文表示,國家每年會公布預期壽命和人口粗死亡率,但不會根據 "80 後 ""90 後 " 這些年齡段公布死亡狀況,因此,"80 後死亡率 " 這類説法本身就缺少數據支撐。
(圖 /《保你平安》)
如果有人真的想計算 80 後的 " 存活比例 ",還存在兩個問題:一是過往人口普查的數據不夠準确,多種計算方法都有誤差;二是這份數據也會被新生兒的死亡數據污染,也就是説,哪怕 5.2% 的數據準确,其中也可能包括了一半以上出生時就夭折的人,青壯年死亡率還得降低不少。因此,人們大可不必為 80 後今天的健康狀況恐慌。
如果説 80 後的 " 存活比例 ",還不過是 " 無傷大雅 " 的談資,引發全網側目的 " 頂流明星在澳門狂輸 10 億 ",則算得上驚天大瓜,甚至讓周傑倫無辜躺槍。
但就是這麼一個被傳得有鼻子有眼的瓜,經公安機關證實,同樣也是 AI 編造。
與此同時,也有網友感慨:" 每天上網就想看看作者的觀點,結果現在滿屏‘量子’‘坍縮’‘代碼’‘基因’ ……" 當機械感滿滿的 AI 文案充斥着互聯網,對人的判斷力又增加了幾分考驗。
比如最近,網上有一篇《" 離婚冷靜期 " 制度簡史:歷史終将記住這個黑色幽默》的文章被大量轉發。
我們對文中的二手信息,保持一種本能的警惕,試圖找到源頭加以查證。而這篇看似嚴謹的文章盡管引用了大量數據,但當逐一搜索這些數據時,會發現數據來源幾乎都是無中生有。
(圖 /《" 離婚冷靜期 " 制度簡史》)
就基層法官是否會統計離婚案件的類别和比例一事,有法律界人士向《新周刊》記者表示不會統計如此詳盡的案件情形:" 基層沒有這麼閒,最多統計一下結案率和勝訴率。" 況且," 北京某律所 " 作為服務機構,本就沒有統計和公布 " 冷靜期後復婚率 " 的能力和權限。
(圖 /《" 離婚冷靜期 " 制度簡史》)
" 中國社科院 2024 年《婚姻制度民意調查》",則是一個不存在的調查。"202X 年 "" 冷靜期 XX 倒計時 " 這些詞更是滿滿的編造感——如果是真的,為什麼不寫明真實日期?
至于所謂當初支持立法的學者反思 " 我們用農耕時代的温情濾鏡,強行矯正互聯網時代的婚姻形态 ",看似語言優美,實則言之無物。現代婚姻法本身既不是農耕時代的產物,也不是互聯網時代的產物。法律是一件嚴肅的事,倘若學者真的要反思,恐怕也不會使用如此模糊的表述。
人不該為了流量而編造虛假信息。圖 /《保你平安》
這就是 "AI 幻覺 " ——説白了,生成式 AI 是有可能 " 胡説八道 " 的,它們會在看似真實的陳述中夾雜錯誤信息。
但偏偏,每個人都生活在信息繭房當中,接收信息的精力有限,不可能對互聯網信息逐一甄别,如果一篇文章用充足的數據做出了 " 嚴謹的行文姿态 ",就已天然具備了被信任的基礎。
更不用説,人往往更傾向相信于那些符合期望的 " 事實 "。在一個争議話題下加上刻意營造的噱頭,這些編造的數據往往會當做打口水仗的武器,被二次加工、傳播,造成信息污染,真真假假也就説不清了。
AI 幻覺無法消除,該怎麼辦
日常工作中試圖讓 AI 幫自己省力的人,對它胡編亂造的能力大多心裏有數。
近日,在 Vectara HHEM 人工智能幻覺測試中,2025 年 1 月發布的 DeepSeek-R1 模型顯示出高幻覺率。對于這個現象,中科聞歌董事長王磊告訴《新周刊》:" 我猜測這可能與模型的精度有關。"
有專家認為,AI 軟體在增強創意和想象力的同時,不可避免地增加了產生幻覺的副作用。
(圖 /《人工智能》)
王磊認為,問題的核心在于神經網絡設計原理本身。" 幻覺產生的原因在于模型選擇詞時,是基于詞的概率分布進行預測。當問題的復雜程度提高時,這種預測方法可能會出現知識盲點,模型為了回答而回答,人雲亦雲。"
也就是説,當用户給出上半句,生成式 AI 會根據它學過的知識," 猜測 " 最有可能的答案。一旦問題涉及到它的知識盲點,其設計原理又決定了它必須 " 接話茬 ",就會給出自動 " 腦補 "的答案。
清華大學新聞與傳播學院教授陳昌鳳向《新周刊》表示:" 生成式人工智能的主要功能,一是搜索,二是推理。前者通常要有基礎數據,它才能搜到。而幻覺更可能出現在推理的環節。"
她指出,人類本身就會產生幻覺,而人工神經網絡系統學習的是人類神經系統。" 生成式人工智能從誕生起就免不了幻覺,我相信随着使用時間增加和技術提升,它的幻覺會越來越少,但不太可能完全消除。"
人類的認知具有主觀性,AI 也會效仿人類。(圖 /《勿言推理》)
比如,就 AI 對話截圖來看,"80 後死亡率 " 的數據參考了一個并無權威性的網頁文章。這類 " 三無 " 網站的頁面,很多人本來是連看都不會看一眼的,但AI 的強大卻很容易產生讓人迷惑的" 權威性",以至于很多人甚至沒發現它的數據來源也是 " 三無 " 網站。
如果人們積極辟謠,持續優化 AI 所學習的數據庫,肯定能降低 AI 幻覺的發生。但反過來試想一下,假如 AI 生成的謠言和假數據持續污染互聯網,會發生什麼?
2024 年 7 月,一篇來自牛津、劍橋等大學的論文登上了 Nature 封面。學者們發現,如果在訓練中不加區别地使用 AI 產生的内容,會導致大模型崩潰——多次迭代後 AI 反而會退化,產生越來越多的事實錯誤甚至亂碼。
眾所周知,當今市面上的 AI 工具都是由海量的數據訓練而成的。但随着 AI 的胃口越來越大,可 " 食用 " 的新數據越來越少,大模型将紛紛面臨 " 高質量數據荒 "。人工智能研究組織 Epoch 預測,高質量的文本數據可能會在未來幾年内耗盡。
換句話説,真實的數據價值連城。人類仍然需要持續創造真實的内容,更要學會辨别 AI 生成内容的真假。
(圖 /《人工智能》)
王磊表示:" 大模型它絕不能夠給你提供決策。人類世界的復雜性在于許多情況都是動态變化的。大模型的知識面很廣,但(這些知識)畢竟是固化的,它并不能察覺世界的變化,也不能認知到很多問題的復雜性。它輸出的結果,僅僅是基于其數據庫的經驗性建議。"
他建議:" 使用 AI 時的偏見和幻覺問題,需要我們的自我審視和判斷。即使 AI 能夠搜索互聯網信息,我們同樣需要鑑别其提供的信息是否真實。我們不能完全依賴和盲信 AI,而應将其視為一種工具,輔助我們的工作和決策。AI 目前只是我們的工具,而非結論和教條的源泉。"
對普通人而言,該如何辨别 AI 幻覺、防止被 AI 欺騙?我們的心得是,要始終對 AI 生成的事實性描述保持警惕。可以使用搜索引擎核查出處,一般而言,若出處為權威機構,信息就更可靠。也可以使用多個 AI 聯網搜索,交叉印證和檢查某個 AI 生成的内容。
現在 AI 生成内容時,也有概率出現提示。
劉慈欣的短篇小説《詩雲》中,外星文明為了寫出超越李白的詩,窮盡太陽系的能量列舉出了所有字詞組合,卻無法從龐大的 " 詩雲 " 中檢索出真正的詩歌。作者借這篇小説表明,AI 生成内容的本質是詞匯的排列組合,但欣賞和評價的權力屬于人類。
或許,我們可以進一步説:AI 可以生產萬千種内容,但判斷其真實性和價值的任務仍然掌握在人類手中。
(新周刊記者羅隐、草莓對本文亦有貢獻)
校對:遇見;運營:嘻嘻;排版:張晟钰