今天小編分享的财經經驗:DeepSeek的胡編亂造,正在淹沒中文互聯網,歡迎閱讀。
文 | 闌夕
雖然 DeepSeek-R1 确實好用,但它在爆火之後,成了人手一個的 AI 工具,也對中文互聯網的信息環境造成了嚴重的污染情況,這是一個固然難以避免但也理應得到重視的問題。
最近一個星期以來,就我看到的刷屏文章,至少有三例都是 DeepSeek-R1 生成出來的、充滿了事實錯誤的内容,卻因其以假亂真的迷惑性,讓很多朋友信以為真,情緒激動的分享傳播。
第一例,是知乎的這條高贊回答:
即使在我指出來之後,依然有人不可置信的表示,看不出來其中的「AI 味」,所謂的「AI 味」,指的是 DeepSeek-R1 創作文本時特有的「極繁主義」,比如生造概念、堆疊名詞、濫用修辭等等。
而這條知乎回答,或因提示詞喂得好,或因後期潤色得力,在很大程度上消除了它的「AI 味」,但從表達結構上,經常和 AI 打交道的用戶都能一眼看出痕迹,純正的 DeepSeek-R1 風格,當然普通人确實難以識别。
不過我也不是直接得到這個結論的,在看到朋友分享這條回答時,我原本也和他一樣,是帶着對于國產動畫電影崛起的興奮全盤接受了如此言之有物的論證,直到一個致命的纰漏讓我察覺到了不對勁。
作者說哪吒電影裡的敖丙變身鏡頭在法國昂西動畫節上轟動業界,問題是,法國是有一個昂西動畫節,哪吒的電影也是送去參展過,但那是追光動畫出品的「哪吒重生」,而不是餃子導演的「哪吒」……
而且因為審核原因,這部送展的「哪吒重生」宣傳片實際上是一部品牌概念片,内容是在一個現代都市裡的賽車動作演示,哪吒根本就沒出現,更不存在敖丙的變身……
繼續查證也能發現,關于「哪吒」的制片方給員工抽成都房子、攻克水下流體特效之類的描述,全都是 DeepSeek-R1 為了完成這篇命題作文自己腦補的。
第二個例子,就更離譜了,離譜到我不太能把完整截圖發在這裡,因為有些膽子夠粗的自媒體,已經在拿 DeepSeek 去寫涉軍涉政的東西了。
其中有一篇寫軍工打虎譚瑞松的選題,标題是《軍工虎譚瑞松, 從 " 道德标兵 " 到 " 獵豔狂魔 "," 國之重器 " 淪為私人金庫》,原文現在已經被删了,應該是被被轉得太廣作者害怕了,但很多「金句」的截圖還在到處傳,什麼直升機的設計圖紙在暗網裡開價 200 比特币出售、收受金條賄賂時要求熔成發動機葉片形狀、某總師離職時留言這裡不是造飛機的地方而是造孽的工廠等等,如果你能記得這些細節,就一定知道我說的是哪篇文章。
不好意思,這也全都是 DeepSeek-R1 自己編的。
為什麼我能确信是 DeepSeek-R1 的手筆呢?為什麼不能是 ChatGPT、Claude、文心一言?因為 DeepSeek-R1 是當前唯一能用的免費推理模型,且對中文的支持度足夠高,這本來是 DeepSeek-R1 的優勢,只是沒被用在正道上。
此時就需要補充一個推理模型的特點了,那就是推理模型的訓練過程特别注重獎懲機制,通過思維鏈的暴露我們也能看出它通常都會想得缜密、生怕自己沒有摸清用戶意圖,以致于經常到了「谄媚」的程度。
這種訓練模式的好處在于,可以讓推理模型擁有舉一反三的能力,能夠更加靈活和完善的去完成任務,但是相對的,為了完成任務,推理模型也會在「不自知」的情況下,同時表現出欺騙性,當用戶要求它寫一篇作文時,哪怕缺少論據,它也會為了不辜負用戶的指令,去自行編造一些材料出來,以便于自圓其說。
這就是大模型行業至今仍在致力于解決的「幻覺」現象。
上圖就是一個經典用例,用戶為 DeepSeek-R1 設立了阿裡估值邏輯改變的靶心,于是 DeepSeek-R1 就逼迫自己去對着靶心射箭——它不會也不能反駁用戶,或是質疑阿裡的估值邏輯到底變沒變——于是就「情不得已」的編造出了可以用來證明用戶觀點的數據。
根據 Vectara 發布的大模型幻覺排行榜,DeepSeek-R1 的幻覺率達到了 14.3%,遠高于 Deepseek-V3 的 3.9%,也在所有主流模型裡屬于較差的一檔。
按理來說,R1 是比 V3 更新、更強大的模型版本,之所以反而表現得更加拉垮,還是因為推理模型比普通模型先天就更加具有「創造力」,其實在 AI 研究領網域,幻覺本身并不是單純的缺點,甚至可以說,幻覺就是科學家們希望在 AI 身上看到的所謂意識,只是我們還沒有把 AI 調教得當,讓它在該天馬行空的時候自由創作,在該遵守事實的時候有理有據。
所以我的這篇文章也不是在說 DeepSeek-R1 有問題,而是濫用它來批量化生成真假難辨的信息、并海量投放到公網的這種行為,問題很大。
越是公共讨論聚集的地方,比如時政、歷史、文化、娛樂等領網域,越是重災區,這和自媒體的商業模式有關,有流量就有收入,流量取決于内容的吸引力,同時内容又受到生產成本的限制,而當 DeepSeek-R1 這種降維打擊的武器被交到了每一個人手裡,失控就是不可避免的了。
第二個例子裡的作者大概是察覺到流量太高也容易出事,已經會在新的文章裡——依然都還是 DeepSeek-R1 寫的——加上一條下面這樣的聲明,不過只能說聊勝于無,很少有人會注意到并理解這句話的意思——上面的内容有一半是我編的,但我不告訴你們是哪一半。
事實上作者也确實不知道 DeepSeek-R1 交稿的内容裡哪些是真哪些是假,他可能會提供一些參考資料,以及開放全網搜索的權限,但就像我說的,推理模型的運作模式,決定了它不是簡單的洗稿,而是會自行完善故事的骨架和細節,最後的結果就是真假參雜,迷惑性反而更大了。
第三個例子,是歷史博主知北遊的豆瓣記錄,簡單來說,是有人拿虛構的歷史材料,布局七天來釣他上鉤,如果不是他本身具有很強的反詐意識,加上三次元有人脈關系進行證偽,他一定會繼續沉迷在這個局裡,這個局的破綻在于 AI 搞錯了兩個歷史人物的死亡順序,打破了他在發現新的史料上如獲珍寶的興奮感。
一直以來,文史圈都是 AI 污染的重災區,因為有大量的文獻材料還沒有數字化,可用的網絡資源有限,考據成本很高,但凡較真起來,都會陷入「造謠一張嘴、辟謠跑斷腿」的困境。
就,真的很讓人焦心,用 AI 解決自己的問題是一碼事,将 AI 杜撰的信息混到公網裡又是另一碼事了,當在這些言之鑿鑿的内容成為互聯網信息庫的一部分之後,甚至又會被 AI 重新咀嚼回去訓練,事實數據和生成數據之間的界限将會更加模糊,這絕對不是一件好事。
有人可能會問,在沒有 AI 的時候,人類也會造謠,也會發到網上到處都是,怎麼沒見到你這麼痛心疾首?
其一,「抛開劑量談毒性都是耍流氓」,AI 的工業化生產能力,和個體戶的伏案寫作流程,在效率上是天差地别的,實際上在我寫這篇文章以前,搜索引擎、線上文庫、各類網站上的 AI 填充情況就已經非常不堪了,在有了推理模型——精通于一本正經的胡說八道——之後,整個污染趨勢會向深處蔓延,從相對次要的資料層觸及創作上遊的信源層,覆水難收;
其二,人類造謠起來是有局限性的,比如他不可能出現在一個自己沒理由出現的場合,真要這麼編造起來很容易露餡,但 AI 則會臉不紅心不跳的直接生造,比如栩栩如生的細節,或是身臨其境的描寫,在說謊這件事情上,AI 的主觀惡意或許不及人類,但它的發揮能力,卻是獨一檔的;
其三,AI 内容的生產者一般都是營銷号,而為内容背書的,則是傳播者的信譽,比如大 V 博主上鉤後的轉發分享,通過這種擴散機制,實現從寄生到合理化的存在目标,才是最可怕的,人會愛惜羽毛,會知道信譽下滑的後果,但營銷号不在乎,只要避開敏感話題,有太多的流量可以消費,尤其是在掌握了「創造」獨家信息這個技術之後;
其四,AI 的便利性已經把虛假信息的泛濫推到了生活的各個方向,有人拿着它推薦的菜單去點菜結果發現店裡沒這個菜,有人拿着旅遊攻略發現當地根本沒這個景點,經我實測它還會捏造不屬于「山海經」的古典異獸。
我想說的是,AIGC 是技術發展的未來,DeepSeek 也是國產模型的翹楚,工具沒有錯,錯的是濫用、惡用工具的行為,AI 當然可以創造内容,但前提一定要是注明它由 AI 生成,不能魚目混珠,放任它以一種不可辨識的方式成為互聯網的原生信息,大模型廠商和内容平台也有義務把類似數字水印那種兜底方案同步推進起來,每遲一天,治理成本都會幾何級的變得更高。