今天小編分享的互聯網經驗:普通人如何逃離DeepSeek幻覺陷阱,歡迎閲讀。
文 | 20 社
DeepSeek 橫空出世,我們和人工智能的關系也随之進入新時代。但對于許多人來説,與 AI 的蜜月期還沒有結束,幻覺問題就不合時宜地來預警。
近期一條 "80 後死亡率突破 5.2%" 的假新聞廣為流傳,據上海網絡辟謠介紹,最初的信源很可能是來自 AI 對話。
這種甚至一眼假的數據是怎麼來的呢?我最近也在嘗試用 AI 對話代替搜索,發現确實會給工作埋下一些 " 地雷 "。
例如前幾天我們寫了京東外賣的稿件,嘗試用 DeepSeek 來搜集資料," 山姆每年為京東即時零售帶來多少訂單 " 的問題,DeepSeek 語氣肯定地給出一個數據,并稱京東今年将和山姆展開新合作。
我沒有查到這個數據的來源,而且我更震驚的是關于合作的預測," 山姆和京東不是去年分手了嗎 "。
這就是 DeepSeek 的 " 幻覺 "。幻覺,是大模型的 " 基因 " 問題,因為它本質上是根據每個詞出現的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。
所有的大模型或多或少,都有這個問題。
但是,DeepSeek-R1 的幻覺在領先的模型中尤為嚴重,在 Vectara HHEM 人工智能幻覺測試中達到了 14.3%,是 DeepSeek-V3 的近 4 倍,也遠超行業平均水平。
DeepSeek-R1 的幻覺率高于同行(圖源自 Semafor)
同時,DeepSeek R1 是目前中國應用範圍最廣泛的大模型之一。正因為它足夠智能,很容易被充分信任,在 " 掉鏈子 " 的時候也不會被察覺,反而有可能成為引發更大範圍的 " 輿論幻覺 "。
DeepSeek 怎麼背刺我
球球今年讀大四,最近都在一家實驗室實習。用 Kimi、豆包等 AI 助手來撰寫資料、找文獻,他已經駕輕就熟,在 DeepSeek 上線以後,更是感到如虎添翼。
最近剛開學,他就開始忙着寫論文。不過,他這學期已經不敢直接使用 AI 生成的内容了。
網上最近流傳的一個貼子,DeepSeek 生成的一個綜述中,參考文獻全是自己編的," 秉持着嚴謹的态度,我去搜了這些參考文獻,竟然 !! 竟然沒有一篇是真的 !! "
一位大模型業内人士表示,這是一個很有意思的案例," 見過胡編事實的,沒看到編造論文引用的。"
類似胡編的情況還有很多,比如有網友問 DeepSeek 上海有幾家麻六記,地址都在哪裏?結果 DeepSeek 給了他四個地址,且四個地址都是錯誤的。
最搞笑的,是一位玩具博主,讓 DeepSeek 幫她查國内兒童玩具理論的文獻綜述,其中引用了一本名為《玩具與兒童發展》的書。
" 我咋沒見過呢?就讓它詳細介紹一下 ",結果,她就在思維鏈裏發現 DeepSeek 説,這本書是虛構的,而且" 要避免指出這本書是虛構的,以免讓用户感到困惑 "。
音樂自媒體 " 亂彈山 " 進一步發現,DeepSeek 特别擅長使用陌生信息和專業領網域的詞匯來胡編亂造。
他發現一個小紅書筆記,名叫《我聽了這麼多年五月天,還不如 DeepSeek》,讓 DeepSeek 來提供五月天歌曲裏面的彩蛋。" 其實裏面全是扯淡 "。
比如裏面提到《倉颉》前奏中 " 需要你 需要你 需要你 ",倒放會變成 " 宇宙爆炸的瞬間 我看見了你的臉 "。大部分人試一試就會知道,這三個音節怎麼來回折騰,都成不了這句話。但依然不妨礙下面有很多人都説,被感動到了!
另外,他還讓 DeepSeek 深度解析韓國音樂人 Woodz 的風格。DeepSeek 解析出的 " 雙聲道交替 "" 呼吸聲放大 "" 元音拉伸 " 等巧思,都是對應歌曲中沒有的,很像我們剛學會了一些專業名詞就張冠李戴胡亂賣弄的樣子。
但值得指出的是,當這些專業詞匯足夠多,這些專業足夠陌生的時候,普通人根本無法分辨這些叙述的真實性。
就像前面提到的央視新聞報道的 "80 後的死亡率已經達到 5.2%" 的謠言,中國人民大學人口與健康學院教授李婷梳理發現,很可能就是 AI 大模型導致的錯誤,但普通人對這些數據并沒有概念,就很容易相信。
這幾天,已經有好幾篇被認為由 AI 撰寫的謠言騙倒了不少人:梁文峰在知乎上對于 DeepSeepk 的首次回應,《哪吒 2》員工 996 是因為公司在成都分房,電梯墜落再衝頂的事故原因……新聞真實和虛構段落被很好地捏合到一起,常人很難分辨。
而且,就算 DeepSeek 沒掉鏈子,很多時候普通人連使用它的方式都不正确。AI 訓練的獎懲方式,簡單來説,就是它猜你最想要的是什麼回答,而不是最正确的是什麼回答。
丁香園前兩天寫過,已經有很多人拿着 DeepSeek 的診斷,來向醫生咨詢。一位發熱兒童的家長,堅信醫生開的檢查沒有必要,是過度治療;醫生不開抗甲流的抗病毒藥物,就是拖延治療。醫生很疑惑," 你們怎麼能确定是甲流呢?發熱的原因有很多。" 家長説,他們問了 DeepSeek。
醫生打開手機發現,家長的提問是," 得了甲流要做什麼治療?" 這個問題首先就預設了孩子已經得了甲流,大模型自然也只會作出相應的回答,并不會綜合實際條件來進行決策。幻覺能借此危害現實。
幻覺,是 bless 也是 curse
幻覺本身其實并不是 " 劇毒 ",只能算是大模型的 " 基因 "。在研究人工智能的早期,幻覺被認為是好事,代表 AI 有了產生智能的可能性。這也是 AI 業界研究非常久遠的話題。
但在 AI 有了判斷和生成的能力後,幻覺被用來形容偏差和錯誤。而在 LLM 領網域,幻覺更是每個模型與生俱來的缺陷。
用最簡單的邏輯來描述,LLM 訓練過程中,是将海量數據高度壓縮抽象,輸入的是内容之間關系的數學表征,而不是内容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實世界本身。
LLM 在輸出時,是無法将壓縮後的規律和知識完全復原的,因此會去填補空白,于是產生幻覺。
不同研究還依據來源或領網域不同,将幻覺分為 " 認知不确定性和偶然不确定性 ",或 " 數據源、訓練過程和推理階段導致的幻覺 "。
但 OpenAI 等團隊的研究者們發現,推理增強會明顯減少幻覺。
此前普通用户使用 ChatGPT(GPT3)時就發現,在模型本身不變的情況下,只需要在提示詞中加上 " 讓我們一步步思考(let ’ s think step by step)",就能生成 chain-of-thought(CoT),提高推理的準确性,減少幻覺。OpenAI 用 o 系列的模型進一步證明了這一點。
但是 DeepSeek-R1 的表現,跟這一發現恰好相反。
R1 在數學相關的推理上極強,而在涉及到創意創造的領網域非常容易胡編亂造。非常極端。
一個案例能很好地説明 DeepSeek 的能力。相信有不少人看到過,一個博主用 "strawberry 裏有幾個 r" 這個經典問題去測試 R1。
絕大多數大模型會回答 "2 個 "。這是模型之間互相 " 學習 " 傳遞的謬誤,也説明了 LLM 的 " 黑盒子 " 境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。
而 DeepSeek 在經歷了來回非常多輪長達 100 多秒的深度思考後,終于選擇堅信自己推理出來的數字 "3 個 ",戰勝了它習得的思想鋼印 "2 個 "。
圖片來自 @斯庫裏
而這種強大的推理能力(CoT 深度思考能力),是雙刃劍。在與數學、科學真理無關的任務中,它有時會生成出一套自圓其説的 " 真理 ",且捏造出配合自己理論的論據。
據騰訊科技,出門問問大模型團隊前工程副總裁李維認為,R1 比 V3 幻覺高 4 倍,有模型層的原因:
V3: query --〉answer
R1: query+CoT --〉answer
" 對于 V3 已經能很好完成的任務,比如摘要或翻譯,任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向,這就為幻覺提供了温床。"
一個合理的推測是,R1 在強化學習階段去掉了人工幹預,減少了大模型為了讨好人類偏好而鑽空子,但單純的準确性信号反饋,或許讓 R1 在文科類的任務中把 " 創造性 " 當成了更高優先級。而後續的 Alignment 并未對此進行有效彌補。
OpenAI 的前科學家翁荔在 2024 年曾撰寫過一篇重要 blog(Extrinsic Hallucinations in LLMs),她在 OpenAI 任職後期專注于大模型安全問題。
她提出,如果将預訓練數據集看作是世界知識的象征,那麼本質上是試圖确保模型輸出是事實性的,并可以通過外部世界知識進行驗證。" 當模型不了解某個事實時,它應該明确表示不知道。"
如今一些大模型如今在觸碰到知識邊界時,會給出 " 不知道 " 或者 " 不确定 " 的回答。
R2 或許會在減少幻覺方面有顯著成效。而眼下 R1 有龐大的應用範圍,其模型的幻覺程度,需要被大家意識到,從而減少不必要的傷害和損失。
來,讓我們打敗幻覺
那麼,在現實使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?
互聯網資深產品經理 Sam,最近一直在用大模型做應用,他對 ChatGPT 和 DeepSeek 都有豐富的使用體驗。
對于 Sam 這樣的開發者來説,最靠譜的反幻覺手段有兩種。
第一個就是在調用 API 時,根據需求設定一些參數,如 temperature 和 top_p 等,以控制幻覺問題。有些大模型,還支持設定信息标,如對于模糊信息,需标注 " 此處為推測内容 " 等。
第二種方法更專業。大模型的答案是否靠譜,很大程式依賴語料質量,同樣一個大模型語料質量也可能不一樣,比如説,現在同樣是滿血版的 DeepSeek,百度版和騰訊版的語料,就來自于各自的内容生态。此時就需要開發者選擇自己信任的生态。
對于專業的企業用户,就可以從數據側下手規避幻覺。在這方面,現在 RAG 技術已經在應用開發中普遍采用。
RAG,也就是檢索增強生成,是先從一個數據集中檢索信息,然後指導内容生成。當然,這個集合是要根據企業自己的需求,搭建的事實性、權威性數據庫。
Sam 認為,這種方法雖好,但不适合一般的個人用户,因為涉及到大樣本的數據标注,成本很高。
ChatGPT 為個人用户也設定了一個調整方案來減少幻覺。在 ChatGPT 開發者中心的 playground 中,有一個調節參數功能,專門用來給普通用户使用。但目前 DeepSeek 沒有提供這個功能。
ChatGPT 在 playground 提供了參數調整功能
實際上,就算有這個功能,一般用户可能也會嫌麻煩。Sam 説,他發現 ChatGPT 的這個功能,一般的個人用户就很少會使用。
那麼個人用户怎麼辦呢?目前來看,對于大家反應較多的 DeepSeek 幻覺問題,最靠譜的方法也有兩個,第一個是多方查詢,交叉驗證。
例如,我的一位養貓的朋友説,使用 DeepSeek 之前,她一般是在小紅書上學習養貓知識,DeepSeek 雖然方便,但是她現在仍然會用小紅書,用兩個結果去交叉驗證,經常會發現 DeepSeek 的結果被此前一些廣泛流行的錯誤觀念污染。
如果是想用 DeepSeek 做一些專業數據搜集,這個方法可能就沒那麼好用。此外,還有一個更簡單的方法。
具體來説,就是你在對話中,如果發現 DeepSeek 有自己腦補的内容,就可以直接告訴它," 説你知道的就好,不用胡説 ",DeepSeek 馬上就會修正自己的生成内容。
chatgpt 給出的建議
Sam 説,對一般用户來説,這個方法效果不錯。
實際上,正如我們前文所説,DeepSeek 幻覺更嚴重,一部分原因是因它更智能。反過來説,我們要打敗幻覺,也要利用它這個特點。