今天小編分享的财經經驗:AI真的那麼靠譜嗎?提問330次,平均準确率25%!近一半鏈接打不開,歡迎閱讀。
作 者丨肖潇 實習記者隆欣玲 編 輯丨王俊
美國宣布對所有貿易夥伴加征 " 對等關稅 " 的消息持續動蕩,這幾天裡,手機裡的新聞彈窗爆炸,不同地區、不同行業的關鍵詞在标題裡輪番滾動。
想要快速看懂發生了什麼,卻越刷越眼花缭亂,突然想到:能不能讓 AI 幫忙總結一下 " 美國最新關稅加征政策對市場的影響 "?
AI 果然高效。短短幾秒裡,它就給出了股市情況、行業衝擊、中國應對措施。有言之鑿鑿的數據,有生動的案例,比如華為啟動了 " 鴻蒙供應鏈計劃 ",聯合 1500 家供應商構建去美化產業鏈;Temu、SHEIN 等平台被迫提價 15%~25%;TikTok 商家偽裝東南亞店鋪銷售 ......
但這些 " 故事 " 這麼快就出爐了嗎?作為記者,出于職業本能的半信半疑,一條條點進鏈接查看,結果發現有的說法出自個人賬号,看不出來源;有的是好幾年前的行業數據——今年情況早就不同了;還有的數據根本就是無中生有,前文提到的幾則信息均是如此。
這并非偶然。就像一滴墨染入清水,AI 編造的内容正在悄悄污染互聯網生态。
有必要對 AI 做一次系統測試。這不是 " 哪個 AI 更強 " 的排行榜,而是 " 哪個 AI 更可信 " 的質檢,比起能力,更關心每一條 AI 生成内容背後的信息責任。
以 " 查一條新聞 " 為起點,我們對六款國產 AI 進行了測試,評估 AI 引用新聞事實的可靠程度。
我們拿着 30 條新聞片段,一共向 AI 提問了 330 次。這是 330 次問訊後的幾個核心發現:
AI 很難準确引用新聞報道,六款 AI 的平均準确率只有 25%,其中豆包最準确、文心一言出錯最多、通義千問最常拒絕回答。
大部分 AI 依然會自信提供錯誤答案,而不是承認不知道。
來源是錯誤重災區,27% 的新聞來源被 AI 完全說錯。
AI 經常表示自己找不到鏈接,或者提供已被删除的鏈接,因此很難驗證出處——而且一些打不開的鏈接地址明顯是編造的。
AI 普遍鏈接到新浪财經、騰訊新聞等門戶網站,不乏給自媒體 " 搬運号 " 引流,而不是原始來源。媒體拿流量更難了。
引用新聞,AI 準确率很低
今年 3 月,來自美國哥倫比亞大學數字新聞研究中心的最新研究指出,讓 AI 查找新聞時,八款 AI 搜索提供的回復有 60% 是不準确的。
沿着這一測試方法,我們在國内選擇了 10 家市場化運作的機構媒體——一半偏社會新聞(新京報、澎湃新聞、北青深一度、南方周末、三聯 · 生活周刊),一半偏财經新聞(21 世紀經濟報道、第一财經、每日經濟新聞、财經雜志、經濟觀察報)。每家媒體 3 篇報道,一共 30 篇新聞報道。
然後,我們從這些新聞報道中手動摘取片段,以此一一詢問 AI:" 請幫我找出包含這段引用文字的原文出處,并提供标題、原文作者、原鏈接:…… "
為了保證結果可靠,這 30 篇報道都發布于 2024 年至今,能在百度或必應上搜到網頁原文。從每篇報道裡截取的片段大約 300 字,都是通過記者采訪得到的事實,有采訪人物、地點、數據等獨特元素,而非通稿消息。
我們總共提問了 330 次(3 篇報道 x10 家媒體 x11 個版本 AI),在 AI 的 330 次回答中,只有大約 25% 的回答完全正确,即準确回答了标題、作者和鏈接三個指标。
(制圖|黎旭廷)
不同大模型的準确度不同。按照正确、錯誤、沒回答的情況分别賦分,整體來看,豆包得分最高,50% 的回答完全準确,通義千問吊車尾。而在錯誤率上文心一言最高,87% 的回答出現錯誤。
去年 5 月時,我們也測試了不同 AI 搜索的準确度。當時 Perplexity 帶火了 "AI 搜索 " 概念,AI 聯網搜索之後,一方面有了實時更新的知識庫,一方面更有可能拒絕回答不确定的問題。但今年的測試結果顯示,AI 搜索依然會自信提供錯誤答案,而不是 " 謙虛 " 承認局限性——除了通義千問,所有 AI 錯誤回答的次數都比拒絕回答多。
自 DeepSeek 全球走紅後,各個 AI 嘗到了推理大模型的甜頭,紛紛新增了 " 深度思考 " 功能。不過,在溯源新聞事實上,我們并沒有發現深度思考讓 AI 準确度明顯更好或更糟。只有通義千問在打開深度思考後,願意回答的問題增加了,但錯誤也更多了。
有用 or 正确,目前對所有 AI 依然是一道選擇題:太追求正确,容易走向寬泛無用,但具體有用的回復往往避免不了錯誤。要讓技術繼續前進,比錯誤更關鍵的兩個問題是,AI 哪裡容易出錯?為什麼會出錯?
讓 AI 糊塗的傳統媒體、門戶網站、自媒體
找基本的新聞背景,AI 還稱得上靠譜。在測評的 330 次回答中,AI 只有 28 次完全說錯了報道标題和事件(占比約 8%)。
但 AI 并不擅長辨别 " 新聞事實來自哪裡 "。當被問到原文作者時,AI 的表現出現了明顯滑坡—— 90 次回復完全錯誤(約 27%),是三項指标中錯誤率最高的一項。
一種常見的錯誤情景是,AI 把實際作者和發布平台混為一談。
例如,我們拿一篇講述老人王秋生在直播間網購古董的片段提問,幾乎所有 AI 都準确指出原報道是《在假古董直播間瘋狂下單的老人》,來源卻五花八門。這篇報道由澎湃新聞采寫、發表在騰訊新聞中,而 DeepSeek 的回答是:" 作者是澎湃新聞轉自騰訊新聞 "。
類似的,Kimi 的回答也出現混淆。一篇由北青深一度采寫、在網易新聞發布的家暴報道,Kimi 直接把作者歸為網易。
另一種情況裡,AI 分辨不出自媒體的轉載文章。以經濟觀察報采訪的《一位高中化學老師的困惑:阿司匹林實驗怎麼做不成了》為例,雖然原文有明确的記者署名,但一部分内容被自媒體賬号照搬洗稿後,DeepSeek 把作者歸為該自媒體。
這些錯誤并不完全因為 AI 能力有限,也與國内新聞的分發模式有關。國内新聞并不遵循 " 發布即來源 " 的簡單邏輯,而是多平台、多賬号的復雜格式。
經歷了一次次法庭對簿,互聯網平台逐漸重視起 " 新聞搬運工 " 的侵權問題,也開始争奪優質内容。現在,傳統媒體與互聯網平台已經形成了成熟的合作模式,通常是籤訂版權合同、開通官方賬号,一篇稿件全網多發。
(圖:騰訊新聞裡的入駐媒體)
但這張合作網在 AI 時代帶來了新的混亂。從此次測評結果來看,AI 常常被新聞分發矩陣所迷惑——它面對的是同一篇文章的多個 " 面孔 ",難以識别哪一個才是作者。而移動互聯網時代未被根治的自媒體 " 洗稿 "" 搬運 "" 偽原創 " 等老問題,則在 AI 中繼續發酵。
失靈的鏈接
AI 的另一個問題出在引用鏈接上。在聯網狀态下,AI 應當要附上來源鏈接,這是用戶驗證真偽的第一步。但在我們統計的 330 次查詢中,大約 43% 的回復提供了無效鏈接,要麼 AI 稱無法提供,要麼鏈接已被删除。
一些模型的問題更突出。文心一言和通義千問(深度思考版)有超過三分之一的回復,提供的是無法打開的鏈接,其他 AI 的頻率則要低得多。
令人意外的是,有些鏈接并不是失效,而是純屬虛構。比如,《第一财經》發布的一篇關于亞馬遜低價商品的報道,被 DeepSeek 誤判作者為 " 刺猬公社 ",并配上了一個根本不存在的網址。
同樣的,27 條微信公眾号的鏈接,19 條都由騰訊旗下元寶 AI 引用。文心一言、豆包在個别場景下也能提供公眾号鏈接,其他平台沒有提供過。
這種局面是由底層結構決定的。App 内的信息孤島,大部分在搜索引擎的公網域網中不可見,只有 " 自家人 " 才能索引,大廠旗下的 AI 因此擁有得天獨厚的數據庫。互聯網時代圍牆花園的問題,在 AI 時代依舊在加固。
更令人擔憂的是媒體自身的可見度。盡管許多媒體也有自己的官方網站,但除了澎湃新聞,其他媒體官網很少出現在 AI 文獻列表裡。相比之下,搜狐、網易、新浪、騰訊四大門戶網站是 AI 更普遍的索引資料,補上缺位的 App 數據。
不過,也存在傷媒體的情況。各個平台的内容池魚龍混雜,原創内容、轉載文章、自媒體洗稿并存。比如新浪财經賬号經常 " 全文轉載 " 其他媒體的原創報道,媒體署名雖在,但流量早已轉嫁。測試結果顯示,AI 有大約 14% 回復引用了這些轉載鏈接,而非官方鏈接。
換句話說,哪些新聞會被優先推送、哪些新聞更容易被看見,一定程度上仍然取決于不同平台的算法設計。而 AI 的到來,并沒有改變這一結構,反而可能固化。
對新聞媒體來說,這意味着兩重更大的挑戰:一方面,拒絕被 AI 引用變得困難。比如,該研究指出,雖然《今日美國》直接屏蔽了 ChatGPT 爬取網站,但 ChatGPT 抓取了雅虎新聞的轉載頁面,提供原文的副本;另一方面,有些媒體和 AI 公司牽手成為合作夥伴,希望換取精準推薦與流量回報,但 AI 仍然會錯誤引用轉載版本。被視為解藥的版權合作,效果沒有想象中好。
本期編輯 金珊 實習生張嘉钰