大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

李彥宏説DeepSeek幻覺高,是真的嗎?

2025-05-02 简体 HK SG TW

今天小編分享的科技經驗:李彥宏説DeepSeek幻覺高,是真的嗎?,歡迎閲讀。

李彥宏點名批評 DeepSeek 幻覺高。這回,他真的沒錯。但大模型的幻覺問題,又遠非錯與對那麼簡單。

然而,自從 R1 席卷全網後,關于它經常 " 胡説八道 " 的批評就不絕于耳,比如它實在太能編了,讓人真真假假分不清。

除了用户端之外,李彥宏及其代表的大廠們也 " 苦 "DeepSeek 已久:一方面,大廠不得不依賴 DeepSeek 的潑天流量導入自身門户入口;另一方面,盡管投入大量人力物力研發深度推理模型,其成果卻難以突破用户心智。

在 2025 百度 AI 開發者大會的開幕上,李彥宏直接點出全民 AI 大模型 DeepSeek-R1 的痛點:" 只支持單一模态、幻覺率較高、又慢又貴 "。一番犀利評論,再度引發了各界對 DeepSeek-R1 以及大模型 " 幻覺 " 的評議。

但出現強烈幻覺的并不止 DeepSeek 一家,OpenAI 在其内部測試中發現:o3/o4-mini 雖然全面替換了 o1 系列,但是幻覺現象越來越強了;國内第一個混合推理模型——阿裏通義的 Qwen3 也在 X 上被網友指出幻覺現象仍舊大量存在。

關于幻覺的解釋有很多,尤其是當推理模型問世後 , 大家都認為推理模型的思考模式和模型性能攀升後,幻覺就會被消滅,但事實證明:幻覺的生存能力太強了,用户們還是常常被 "LLM 生編硬造,邏輯閉環的幻覺操作 " 看呆。

不過,另有一説:大模型的幻覺也算是創作力的副產品,并不完全是桎梏。

今天我們重新講講大模型幻覺,看看 AI 圈子最大的黑箱問題到底解決了沒有,解決進度到哪了?

01

李彥宏對 DeepSeek-R1 的批評确實有據可循。

AI 數據服務公司 Vectara 的一項HHEM 幻覺評估中,DeepSeek-R1 的幻覺率高達 14.3%,而其前代基礎模型 DeepSeek-V3 僅為 3.9%,R1 的幻覺甚至要比 V3 的幻覺高出 4 倍。阿裏通義的 QwQ-32B-Preview 的幻覺率則高達 16.1%。

更值得注意的是,除了 DeepSeek-R1 和 Qwen 系列之外,縱觀業内,幾乎所有最先進的大模型都遭到了幻覺問題的挑戰。一般來説,當新模型出現,幻覺程度就會低于其前身模型,但是這一常理性的現象并不在推理模型上适用。

OpenAI 的内部評估系統卡裏提供了一個具有代表性的例子:他們設計了一項名為 PersonQA 的基準測試,用于衡量模型回答人物信息問題的準确性。結果發現,o3 在 PersonQA 上的幻覺率上升到了 33%,幾乎是被全面替代的前代模型 o1(16%)的兩倍。輕量版推理模型 o4-mini 的幻覺率高達 48%。

在最新出爐的一版 Vectara 的幻覺測試中,馬斯克 xAI 的 Grok-3 比 Grok-2 幻覺更嚴重,谷歌 Gemini 2.0 系列中強調深度推理的 Flash-Thinking 版本比标準版幻覺問題更突出。

當業界追求更強推理能力的大語言模型時,事實準确性與生成内容一致性幾乎無法 " 魚與熊掌兼得 "。

可見," 幻覺 " 是當下大模型領網域的通病,而 DeepSeek-R1 正是該問題的顯著案例之一。

每當新模型發布時,大家往往先入為主:當推理模型出來後,模型能力大幅度提升,幻覺就會被逐漸消滅;相反,也有一種猜測,推理模型往往要比通用模型幻覺更強。但這些觀點其實全都是錯的。

比如 o1 相對于 4o 并沒有增加太多的幻覺,反過來也可以説,o1 并沒有大幅度降低幻覺。

o3 和 o4-mini 幻覺的提升連 OpenAI 的研究人員在系統卡論文中也説道 " 仍需繼續研究 "。可以説,在一定程度上,LLM 的幻覺現象仍然是個黑盒,随着模型的不斷發展,這層迷霧仍然籠罩在各大基礎模型廠商的上空。

廣義上,普遍認為像 DeepSeek-R1 這樣的推理模型往往喜歡多輪思考,放大幻覺。

推理模型和深度思考模型通常采用多輪推理或長鏈式思考策略,通過逐步分解問題、生成中間步驟,最終得出答案。這種設計本來是為了模拟人類復雜的邏輯推理過程。但是,多輪思考也可能導致模型在每一步生成中引入微小的偏差或錯誤,這些偏差在後續步驟中被放大,促成多米諾骨牌效應的出現。

為什麼大家再談 LLM 的幻覺?除了百度等廠商為了應對 DeepSeek 的競争,破除唯 "DeepSeek 論 " 之外,還有一個原因:普通用户們在實際體驗中越來越感到恐懼了。

這主要是因為大模型通過大規模訓練數據,已經能夠構建高度自洽、邏輯幾乎閉環的知識體系,模型對語義上下文的理解和生成能力越來越強,幻覺卻也越來越真實了。甚至產生了一種 " 性能與幻覺齊飛 " 的詭異現象。

可以説,幻覺已經事實上不再是評判模型性能的主要标準了。

大家在日常使用中,肯定都有過這樣的體驗:AI 杜撰不存在的信源、生成看似真實的學術引用、" 現場 " 構造偽造的網頁鏈接,甚至在長長的思維鏈裏不斷 " 故意迎合 " 用户,谄媚用户。

如果只是普通的日常使用場景,幻覺現象的隐蔽性并不會降低用户信任。但是,當大模型商業化後,涉及專業領網域或復雜問題時,這種不确定性就會引發用户對可靠性的質疑,甚至產生對 AI 本身的恐懼感。

02

李彥宏 2024 年曾説,過去 24 個月裏 AI 行業經歷的最大變革之一是大模型基本消除了 " 幻覺 " 問題。這一説法一時讓各路網友覺得他出現了幻覺。

确實,某些領網域(例如文生圖、視頻等多模态輸出方面)随着模型能力的提升,幻覺現象确實已經大幅降低了。

但是,盡管幻覺問題在這些受控場景下大幅改善,在生成長文本或復雜視覺場景時仍未解決。

最直觀的例子就是:每當各大廠商推出新一輪的深度思考模型時,都不得不再度老調重彈幻覺問題。可以説,幻覺問題已經被研究了好幾年了,但直到今天都沒有辦法找到一個極好的方式克服幻覺,arXiv 上一篇一篇的論文砸向這個黑盒領網域。

不過,技術開發者應對 AI 幻覺,也确實有一些手段。目前比較主流的方式還是檢索增強生成(RAG),這個方式有點老了但是管用,也是最廣的應用思路。

RAG,即在模型回答前先檢索資料。英偉達 CEO 黃仁勳就強調,要讓 AI 減少幻覺,很簡單," 給每個回答加一道規則:先查證再作答 "。 具體而言,模型接到問題後,像搜索引擎那樣查詢權威來源,然後依據檢索到的信息作答。如果發現引用的信息與已知事實不符,就丢棄該信息并繼續查找 。通過這種方式,模型不再僅憑參數記憶回答,而是有據可依。讓模型能夠引入最新的網頁 / 數據庫内容,在内部機制裏學會對不知道的事物説 " 我确實不知道 "。

百度 2024 年發布的檢索增強的文生圖技術 iRAG,就是為了解決文生圖中的幻覺問題,結合了自身的億級圖片資源庫,讓生成的圖片更真實、更貼合現實。

此外,一個更基本的方法是 " 嚴格控制訓練數據的質量 "。

當然,全面的數據治理過于困難,因為互聯網語料過于復雜且知識随時間變化,像是 " 弱智吧 " 的語料就極難正确過濾。

騰訊此前發布的混元深度思考模型 T1,針對長思維鏈數據中的幻覺和邏輯錯誤,訓練了一個 Critic 批判模型來進行嚴格篩選。這種 " 雙重把關 " 策略——即模型先產出回答,然後再核對其中的關鍵實體和事實,再決定是否輸出,也能在一定程度上降低幻覺率。

即使有上述手段的加持,要徹底根治幻覺仍充滿挑戰。OpenAI 就在最新報告中坦承:" 為什麼模型規模變大、推理能力增強後幻覺反而更多,我們目前也不完全清楚,還需要更多研究 "。

03

幻覺,也并非全無益處。各大廠商正站在一個幻覺與創造力交匯的十字路口:幻覺并非純粹的缺陷,同樣也能帶來模型更佳的創造力。

大模型的幻覺一般分為:事實性幻覺和忠實性幻覺。當大模型回答的内容與用户的指令或者上下文信息不一致時,可能就會出現所謂的 " 靈感 "。 不管是違背輸入文本,還是違背客觀事實, " 幻覺 " 產生的部分往往是模型發揮想象的結果。

有個專業術語叫" 外箱式創意 ",指的是 " 跳出既有框架的創作力 " ,這正是大模型區别于檢索引擎的魅力所在。大家往往潛意識裏認為 AI 做的是低 " 創意密度 " 的任務,無法占領諸如科幻文學這類的高創造力寫作。

然而,劉慈欣對此有話説。

前段時間,劉慈欣在一次采訪中説他曾拿自己所寫的長篇中的一章發給 DeepSeek,讓它在這個基礎上續寫。結果發現它寫出來的東西,甚至要比自己寫得好。這甚至讓他有了一種很大的失落感。

但是,劉慈欣本人仍喜愛 DeepSeek:" 為什麼呢?因為我想到,由于人腦的生物特性,有一些沒法衝破的認知極限,但 AI 卻有可能突破。如果它真的可以突破極限,那麼我甘心樂意被 AI 取代。當然,現在它還做不到。未來的路還很遙遠。"

OpenAI CEO 奧特曼也曾提及 AI 的幻覺特性并非全然是壞事,在創作領網域仍有積極意義。這也可能是未來 LLM 的一個方向。

面對幾乎成為大模型固有特性的幻覺現象,要低到什麼地步,我們才可以接受?

這沒有固定的答案,而是依賴于應用場景。在需要精準性的高風險 or 涉及倫理的領網域裏,LLM 的幻覺固有特性幾乎斷絕了商業空間。

從哲學上看,這反映了人類對技術的期望:AI 應比人類更可靠。折射出人類對 LLM 的角色定位,如果将 AI 僅僅視作鋤頭而已,那麼 AI 幾乎永不可能達到這樣的标準。如果将 AI 視作天然具有幻覺特性的工具,接受 " 幻覺 " 是 AI 的固有特質,就要賦予 AI 區分虛構與現實的能力,讓它在需要的時候學會説 " 我不知道 "。

或許我們也應該換種思路研究 AI。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們