今天小編分享的互聯網經驗:DeepSeek成為國民應用後,獲取真實信息更難了,歡迎閱讀。
自 DeepSeek-R1 走入公共視線以來,其生成内容頻繁登上社交平台熱搜榜單,例如 "#DeepSeek 評 AI 無法替代的職業 ""#DeepSeek 推薦中國最宜居城市 " 等話題引發廣泛讨論。深圳福田區近期引入 70 名基于該技術開發的 "AI 數智員工",也顯示出 AI 正在逐步落地,被更廣泛地應用。
然而,人們擁抱新的一輪技術革新的同時,AI 生成的虛假内容被放到公網上又造成了一種非常令人堪憂的局面。比如一微博用戶發現老虎證券接入了 DeepSeek,可以直接點進哪家公司就分析财報,之後該用戶以阿裡巴巴為例引導性地提問,這家公司的估值邏輯從電商變成科技公司,其中它給出一個驗證邏輯是,國内國際電商業務貢獻阿裡 55% 的營收,峰值曾經達到 80%,而雲智能集團收入占比突破 20%。這個結論顯然與事實有偏差,經與财報仔細核對後,該用戶發現前面的結論沒有任何事實依據。
圖 1. DeepSeek 熱搜
DeepSeek-R1 作為推理型 AI 模型,在處理基礎任務時與常規模型的輸出效果接近,普通模型甚至因風格簡練更具實用性。常規模型依賴模式匹配機制執行指令,可快速完成翻譯、摘要等标準化需求;而推理模型即便應對簡單問題,也會啟動多步邏輯推演流程,通過詳述論證過程提升解釋性,但這種特性在低復雜度場景中易導致冗餘表達。測試表明,過長的思維鏈可能引發推導偏差——模型因過度解析問題產生錯誤中間結論,最終形成 " 過度思考 " 型幻覺。相較而言,常規模型主要調用訓練記憶庫直接輸出答案,雖缺乏深度推理能力,卻降低了随機臆測的可能性。Vectara HHEM的 AI 幻覺評估數據顯示,DeepSeek-R1 的幻覺發生率為 14.3%,較常規模型 DeepSeek-V3 的 3.9% 高出近四倍。這可能與 DeepSeek-R1 的訓練模式有關。
圖 2. 不同幻覺判定方法下 DeepSeek R1 與 V3 模型的幻覺率對比(數值越低越好)
AI 系統并非知識庫,它們通過分析語言規律和概率分布進行學習,而非直接存儲事實信息。其核心機制是預測 " 最可能出現的後續詞匯 ",而非驗證 " 陳述内容是否真實 ",算法本身并不具備判斷信息真偽的能力。在文學創作場景中,系統被設定為主動補全故事邏輯,當歷史素材不足時,會自動構建合理情節與對話,不會刻意區分 " 确鑿歷史記載 " 與 " 為叙事完整而虛構的内容 ",這種機制天然存在信息失真的隐患。
推理模型因為在訓練裡特别強調獎懲機制,以致于它會更加為了取悅用戶而去完成任務,,為達成任務目标可能虛構内容來印證用戶預設觀點,表現出極強的誤導性和隐蔽性。當這些看似權威的生成内容在互聯網大規模傳播後甚至可能被重新吸收進 AI 訓練數據——真實信息與合成内容之間的真偽邊界将逐漸消融,這種發展趨勢将對社會信息生态構成很嚴峻的挑戰。
當前,AI 生成的不實信息正通過内容創作者流入公共網絡。這些被批量生產的虛構内容經二次傳播後,逐步演變為可被引用的 " 偽數據 ",進而引發網絡信息生态的廣泛污染。由于 AI 工業化生產特性,其擴散效率遠超人工造謠,且傳播路徑往往無法追溯具體動機與責任人。越是公共讨論聚集的地方,比如時政、歷史、文化、娛樂等領網域,越是重災區。由 AI 制造的 " 信息迷霧 ",将非常考驗公眾的事實辨識能力。因此,AI 大廠應該有義務把類似數字水印等方案同步推進起來,而媒體創作者也應該在把 AI 創作的、自己也沒有核實的事實性内容發到網上之前,注明是 AI 生成的。