今天小編分享的财經經驗:普通人如何逃離DeepSeek幻覺陷阱,歡迎閲讀。
本文來自微信公眾号:20 社,作者:羅立璇、賈陽,題圖來自:AI 生成
DeepSeek 橫空出世,我們和人工智能的關系也随之進入新時代。但對于許多人來説,與 AI 的蜜月期還沒有結束,幻覺問題就不合時宜地來預警。
近期一條 "80 後死亡率突破 5.2%" 的假新聞廣為流傳,據上海網絡辟謠介紹,最初的信源很可能是來自 AI 對話。
這種甚至一眼假的數據是怎麼來的呢?我最近也在嘗試用 AI 對話代替搜索,發現确實會給工作埋下一些 " 地雷 "。
例如前幾天我們寫了京東外賣的稿件,嘗試用 DeepSeek 來搜集資料," 山姆每年為京東即時零售帶來多少訂單 " 的問題,DeepSeek 語氣肯定地給出一個數據,并稱京東今年将和山姆展開新合作。
我沒有查到這個數據的來源,而且我更震驚的是關于合作的預測," 山姆和京東不是去年分手了嗎 "。
這就是 DeepSeek 的 " 幻覺 "。幻覺,是大模型的 " 基因 " 問題,因為它本質上是根據每個詞出現的概率來選擇回答,所以很容易編出一篇看起來很流暢但完全不符合事實的回答。
所有的大模型或多或少,都有這個問題。
但是,DeepSeek-R1 的幻覺在領先的模型中尤為嚴重,在 Vectara HHEM 人工智能幻覺測試中達到了 14.3%,是 DeepSeek-V3 的近 4 倍,也遠超行業平均水平。
DeepSeek-R1 的幻覺率高于同行(圖源自 Semafor)
同時,DeepSeek R1 是目前中國應用範圍最廣泛的大模型之一。正因為它足夠智能,很容易被充分信任,在 " 掉鏈子 " 的時候也不會被察覺,反而有可能成為引發更大範圍的 " 輿論幻覺 "。
DeepSeek 怎麼背刺我
球球今年讀大四,最近都在一家實驗室實習。用 Kimi、豆包等 AI 助手來撰寫資料、找文獻,他已經駕輕就熟,在 DeepSeek 上線以後,更是感到如虎添翼。
最近剛開學,他就開始忙着寫論文。不過,他這學期已經不敢直接使用 AI 生成的内容了。
網上最近流傳的一個貼子,DeepSeek 生成的一個綜述中,參考文獻全是自己編的," 秉持着嚴謹的态度,我去搜了這些參考文獻,竟然!!竟然沒有一篇是真的!! "
一位大模型業内人士表示,這是一個很有意思的案例," 見過胡編事實的,沒看到編造論文引用的。"
類似胡編的情況還有很多,比如有網友問 DeepSeek 上海有幾家麻六記,地址都在哪裏?結果 DeepSeek 給了他四個地址,且四個地址都是錯誤的。
最搞笑的,是一位玩具博主,讓 DeepSeek 幫她查國内兒童玩具理論的文獻綜述,其中引用了一本名為《玩具與兒童發展》的書。
" 我咋沒見過呢?就讓它詳細介紹一下 ",結果,她就在思維鏈裏發現 DeepSeek 説,這本書是虛構的,而且 " 要避免指出這本書是虛構的,以免讓用户感到困惑 "。
音樂自媒體 " 亂彈山 " 進一步發現,DeepSeek 特别擅長使用陌生信息和專業領網域的詞匯來胡編亂造。
他發現一個小紅書筆記,名叫《我聽了這麼多年五月天,還不如 DeepSeek》,讓 DeepSeek 來提供五月天歌曲裏面的彩蛋。" 其實裏面全是扯淡 "。
比如裏面提到《倉颉》前奏中 " 需要你 需要你 需要你 ",倒放會變成 " 宇宙爆炸的瞬間 我看見了你的臉 "。大部分人試一試就會知道,這三個音節怎麼來回折騰,都成不了這句話。但依然不妨礙下面有很多人都説,被感動到了!
另外,他還讓 DeepSeek 深度解析韓國音樂人 Woodz 的風格。DeepSeek 解析出的 " 雙聲道交替 "" 呼吸聲放大 "" 元音拉伸 " 等巧思,都是對應歌曲中沒有的,很像我們剛學會了一些專業名詞就張冠李戴胡亂賣弄的樣子。
但值得指出的是,當這些專業詞匯足夠多、這些專業足夠陌生的時候,普通人根本無法分辨這些叙述的真實性。
就像前面提到的央視新聞報道的 "80 後的死亡率已經達到 5.2%" 的謠言,中國人民大學人口與健康學院教授李婷梳理發現,很可能就是 AI 大模型導致的錯誤,但普通人對這些數據并沒有概念,就很容易相信。
這幾天,已經有好幾篇被認為由 AI 撰寫的謠言騙倒了不少人:梁文峰在知乎上對于 DeepSeepk 的首次回應,《哪吒 2》員工 996 是因為公司在成都分房,電梯墜落再衝頂的事故原因 ……新聞真實和虛構段落被很好地捏合到一起,常人很難分辨。
而且,就算 DeepSeek 沒掉鏈子,很多時候普通人連使用它的方式都不正确。AI 訓練的獎懲方式,簡單來説,就是它猜你最想要的是什麼回答,而不是最正确的是什麼回答。
丁香園前兩天寫過,已經有很多人拿着 DeepSeek 的診斷,來向醫生咨詢。一位發熱兒童的家長,堅信醫生開的檢查沒有必要,是過度治療;醫生不開抗甲流的抗病毒藥物,就是拖延治療。醫生很疑惑," 你們怎麼能确定是甲流呢?發熱的原因有很多。" 家長説,他們問了 DeepSeek。
醫生打開手機發現,家長的提問是," 得了甲流要做什麼治療?" 這個問題首先就預設了孩子已經得了甲流,大模型自然也只會作出相應的回答,并不會綜合實際條件來進行決策。幻覺能借此危害現實。
幻覺,是 bless 也是 curse
幻覺本身其實并不是 " 劇毒 ",只能算是大模型的 " 基因 "。在研究人工智能的早期,幻覺被認為是好事,代表 AI 有了產生智能的可能性。這也是 AI 業界研究非常久遠的話題。
但在 AI 有了判斷和生成的能力後,幻覺被用來形容偏差和錯誤。而在 LLM 領網域,幻覺更是每個模型與生俱來的缺陷。
用最簡單的邏輯來描述,LLM 訓練過程中,是将海量數據高度壓縮抽象,輸入的是内容之間關系的數學表征,而不是内容本身。就像柏拉圖的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真實世界本身。
LLM 在輸出時,是無法将壓縮後的規律和知識完全復原的,因此會去填補空白,于是產生幻覺。
不同研究還依據來源或領網域不同,将幻覺分為 " 認知不确定性和偶然不确定性 ",或 " 數據源、訓練過程和推理階段導致的幻覺 "。
但 OpenAI 等團隊的研究者們發現,推理增強會明顯減少幻覺。
此前普通用户使用 ChatGPT(GPT3)時就發現,在模型本身不變的情況下,只需要在提示詞中加上 " 讓我們一步步思考(let ’ s think step by step)",就能生成 chain-of-thought(CoT),提高推理的準确性,減少幻覺。OpenAI 用 o 系列的模型進一步證明了這一點。
但是 DeepSeek-R1 的表現,跟這一發現恰好相反。
R1 在數學相關的推理上極強,而在涉及到創意創造的領網域非常容易胡編亂造。非常極端。
一個案例能很好地説明 DeepSeek 的能力。相信有不少人看到過,一個博主用 "strawberry 裏有幾個 r" 這個經典問題去測試 R1。
絕大多數大模型會回答 "2 個 "。這是模型之間互相 " 學習 " 傳遞的謬誤,也説明了 LLM 的 " 黑盒子 " 境地,它看不到外部世界,甚至看不到單詞中的最簡單的字母。
而 DeepSeek 在經歷了來回非常多輪長達 100 多秒的深度思考後,終于選擇堅信自己推理出來的數字 "3 個 ",戰勝了它習得的思想鋼印 "2 個 "。
圖片來自 @斯庫裏
而這種強大的推理能力(CoT 深度思考能力),是雙刃劍。在與數學、科學真理無關的任務中,它有時會生成出一套自圓其説的 " 真理 ",且捏造出配合自己理論的論據。
據騰訊科技,出門問問大模型團隊前工程副總裁李維認為,R1 比 V3 幻覺高 4 倍,有模型層的原因:
V3: query --〉answer
R1: query+CoT --〉answer
" 對于 V3 已經能很好完成的任務,比如摘要或翻譯,任何思維鏈的長篇引導都可能帶來偏離或發揮的傾向,這就為幻覺提供了温床。"
一個合理的推測是,R1 在強化學習階段去掉了人工幹預,減少了大模型為了讨好人類偏好而鑽空子,但單純的準确性信号反饋,或許讓 R1 在文科類的任務中把 " 創造性 " 當成了更高優先級。而後續的 Alignment 并未對此進行有效彌補。
OpenAI 的前科學家翁荔在 2024 年曾撰寫過一篇重要 blog(Extrinsic Hallucinations in LLMs),她在 OpenAI 任職後期專注于大模型安全問題。
她提出,如果将預訓練數據集看作是世界知識的象征,那麼本質上是試圖确保模型輸出是事實性的,并可以通過外部世界知識進行驗證。" 當模型不了解某個事實時,它應該明确表示不知道。"
如今一些大模型在觸碰到知識邊界時,會給出 " 不知道 " 或者 " 不确定 " 的回答。
R2 或許會在減少幻覺方面有顯著成效。而眼下 R1 有龐大的應用範圍,其模型的幻覺程度,需要被大家意識到,從而減少不必要的傷害和損失。
來,讓我們打敗幻覺
那麼,在現實使用的過程中,我們普通人對大模型的幻覺就束手無策了嗎?
互聯網資深產品經理 Sam,最近一直在用大模型做應用,他對 ChatGPT 和 DeepSeek 都有豐富的使用體驗。
對于 Sam 這樣的開發者來説,最靠譜的反幻覺手段有兩種。
第一個就是在調用 API 時,根據需求設定一些參數,如 temperature 和 top_p 等,以控制幻覺問題。有些大模型,還支持設定信息标,如對于模糊信息,需标注 " 此處為推測内容 " 等。
第二種方法更專業。大模型的答案是否靠譜,很大程式依賴語料質量,同樣一個大模型語料質量也可能不一樣,比如説,現在同樣是滿血版的 DeepSeek,百度版和騰訊版的語料,就來自于各自的内容生态。此時就需要開發者選擇自己信任的生态。
對于專業的企業用户,就可以從數據側下手規避幻覺。在這方面,現在 RAG 技術已經在應用開發中普遍采用。
RAG,也就是檢索增強生成,是先從一個數據集中檢索信息,然後指導内容生成。當然,這個集合是要根據企業自己的需求,搭建的事實性、權威性數據庫。
Sam 認為,這種方法雖好,但不适合一般的個人用户,因為涉及到大樣本的數據标注,成本很高。
ChatGPT 為個人用户也設定了一個調整方案來減少幻覺。在 ChatGPT 開發者中心的 playground 中,有一個調節參數功能,專門用來給普通用户使用。但目前 DeepSeek 沒有提供這個功能。
ChatGPT 在 playground 提供了參數調整功能
實際上,就算有這個功能,一般用户可能也會嫌麻煩。Sam 説,他發現 ChatGPT 的這個功能,一般的個人用户就很少會使用。
那麼個人用户怎麼辦呢?目前來看,對于大家反映較多的 DeepSeek 幻覺問題,最靠譜的方法也有兩個,第一個是多方查詢,交叉驗證。
例如,我的一位養貓的朋友説,使用 DeepSeek 之前,她一般是在小紅書上學習養貓知識,DeepSeek 雖然方便,但是她現在仍然會用小紅書,用兩個結果去交叉驗證,經常會發現 DeepSeek 的結果被此前一些廣泛流行的錯誤觀念污染。
如果是想用 DeepSeek 做一些專業數據搜集,這個方法可能就沒那麼好用。此外,還有一個更簡單的方法。
具體來説,就是你在對話中,如果發現 DeepSeek 有自己腦補的内容,就可以直接告訴它," 説你知道的就好,不用胡説 ",DeepSeek 馬上就會修正自己的生成内容。
chatgpt 給出的建議
Sam 説,對一般用户來説,這個方法效果不錯。
實際上,正如我們前文所説,DeepSeek 幻覺更嚴重,一部分原因是它更智能。反過來説,我們要打敗幻覺,也要利用它這個特點。
本文來自微信公眾号:20 社,作者:羅立璇、賈陽