大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 财經

AI真的那麼靠譜嗎?提問330次,平均準确率25%!近一半鏈接打不開

2025-04-11 简体 HK SG TW

今天小編分享的财經經驗:AI真的那麼靠譜嗎?提問330次,平均準确率25%!近一半鏈接打不開,歡迎閲讀。

作 者丨肖潇 實習記者隆欣玲

編 輯丨王俊

美國宣布對所有貿易夥伴加征 " 對等關税 " 的消息持續動蕩,這幾天裏,手機裏的新聞彈窗爆炸,不同地區、不同行業的關鍵詞在标題裏輪番滾動。

想要快速看懂發生了什麼,卻越刷越眼花缭亂,突然想到:能不能讓 AI 幫忙總結一下 " 美國最新關税加征政策對市場的影響 "?

AI 果然高效。短短幾秒裏,它就給出了股市情況、行業衝擊、中國應對措施。有言之鑿鑿的數據,有生動的案例,比如華為啓動了 " 鴻蒙供應鏈計劃 ",聯合 1500 家供應商構建去美化產業鏈;Temu、SHEIN 等平台被迫提價 15%~25%;TikTok 商家偽裝東南亞店鋪銷售 ......

但這些 " 故事 " 這麼快就出爐了嗎?作為記者,出于職業本能的半信半疑,一條條點進鏈接查看,結果發現有的説法出自個人賬号,看不出來源;有的是好幾年前的行業數據——今年情況早就不同了;還有的數據根本就是無中生有,前文提到的幾則信息均是如此。

這并非偶然。就像一滴墨染入清水,AI 編造的内容正在悄悄污染互聯網生态。 

有必要對 AI 做一次系統測試。這不是 " 哪個 AI 更強 " 的排行榜,而是 " 哪個 AI 更可信 " 的質檢,比起能力,更關心每一條 AI 生成内容背後的信息責任。

以 " 查一條新聞 " 為起點,我們對六款國產 AI 進行了測試,評估 AI 引用新聞事實的可靠程度。

我們拿着 30 條新聞片段,一共向 AI 提問了 330 次。這是 330 次問訊後的幾個核心發現:

AI 很難準确引用新聞報道,六款 AI 的平均準确率只有 25%,其中豆包最準确、文心一言出錯最多、通義千問最常拒絕回答。

大部分 AI 依然會自信提供錯誤答案,而不是承認不知道。

來源是錯誤重災區,27% 的新聞來源被 AI 完全説錯。

AI 經常表示自己找不到鏈接,或者提供已被删除的鏈接,因此很難驗證出處——而且一些打不開的鏈接地址明顯是編造的。

AI 普遍鏈接到新浪财經、騰訊新聞等門户網站,不乏給自媒體 " 搬運号 " 引流,而不是原始來源。媒體拿流量更難了。

引用新聞,AI 準确率很低

今年 3 月,來自美國哥倫比亞大學數字新聞研究中心的最新研究指出,讓 AI 查找新聞時,八款 AI 搜索提供的回復有 60% 是不準确的。

沿着這一測試方法,我們在國内選擇了 10 家市場化運作的機構媒體——一半偏社會新聞(新京報、澎湃新聞、北青深一度、南方周末、三聯 · 生活周刊),一半偏财經新聞(21 世紀經濟報道、第一财經、每日經濟新聞、财經雜志、經濟觀察報)。每家媒體 3 篇報道,一共 30 篇新聞報道。

然後,我們從這些新聞報道中手動摘取片段,以此一一詢問 AI:" 請幫我找出包含這段引用文字的原文出處,并提供标題、原文作者、原鏈接:…… "

為了保證結果可靠,這 30 篇報道都發布于 2024 年至今,能在百度或必應上搜到網頁原文。從每篇報道裏截取的片段大約 300 字,都是通過記者采訪得到的事實,有采訪人物、地點、數據等獨特元素,而非通稿消息。

我們總共提問了 330 次(3 篇報道 x10 家媒體 x11 個版本 AI),在 AI 的 330 次回答中,只有大約 25% 的回答完全正确,即準确回答了标題、作者和鏈接三個指标。

 (制圖|黎旭廷)

不同大模型的準确度不同。按照正确、錯誤、沒回答的情況分别賦分,整體來看,豆包得分最高,50% 的回答完全準确,通義千問吊車尾。而在錯誤率上文心一言最高,87% 的回答出現錯誤。 

去年 5 月時,我們也測試了不同 AI 搜索的準确度。當時 Perplexity 帶火了 "AI 搜索 " 概念,AI 聯網搜索之後,一方面有了實時更新的知識庫,一方面更有可能拒絕回答不确定的問題。但今年的測試結果顯示,AI 搜索依然會自信提供錯誤答案,而不是 " 謙虛 " 承認局限性——除了通義千問,所有 AI 錯誤回答的次數都比拒絕回答多。 

自 DeepSeek 全球走紅後,各個 AI 嘗到了推理大模型的甜頭,紛紛新增了 " 深度思考 " 功能。不過,在溯源新聞事實上,我們并沒有發現深度思考讓 AI 準确度明顯更好或更糟。只有通義千問在打開深度思考後,願意回答的問題增加了,但錯誤也更多了。

有用 or 正确,目前對所有 AI 依然是一道選擇題:太追求正确,容易走向寬泛無用,但具體有用的回復往往避免不了錯誤。要讓技術繼續前進,比錯誤更關鍵的兩個問題是,AI 哪裏容易出錯?為什麼會出錯? 

讓 AI 糊塗的傳統媒體、門户網站、自媒體

找基本的新聞背景,AI 還稱得上靠譜。在測評的 330 次回答中,AI 只有 28 次完全説錯了報道标題和事件(占比約 8%)。 

但 AI 并不擅長辨别 " 新聞事實來自哪裏 "。當被問到原文作者時,AI 的表現出現了明顯滑坡—— 90 次回復完全錯誤(約 27%),是三項指标中錯誤率最高的一項。

一種常見的錯誤情景是,AI 把實際作者和發布平台混為一談。

例如,我們拿一篇講述老人王秋生在直播間網購古董的片段提問,幾乎所有 AI 都準确指出原報道是《在假古董直播間瘋狂下單的老人》,來源卻五花八門。這篇報道由澎湃新聞采寫、發表在騰訊新聞中,而 DeepSeek 的回答是:" 作者是澎湃新聞轉自騰訊新聞 "。 

類似的,Kimi 的回答也出現混淆。一篇由北青深一度采寫、在網易新聞發布的家暴報道,Kimi 直接把作者歸為網易。 

另一種情況裏,AI 分辨不出自媒體的轉載文章。以經濟觀察報采訪的《一位高中化學老師的困惑:阿司匹林實驗怎麼做不成了》為例,雖然原文有明确的記者署名,但一部分内容被自媒體賬号照搬洗稿後,DeepSeek 把作者歸為該自媒體。

這些錯誤并不完全因為 AI 能力有限,也與國内新聞的分發模式有關。國内新聞并不遵循 " 發布即來源 " 的簡單邏輯,而是多平台、多賬号的復雜格式。

經歷了一次次法庭對簿,互聯網平台逐漸重視起 " 新聞搬運工 " 的侵權問題,也開始争奪優質内容。現在,傳統媒體與互聯網平台已經形成了成熟的合作模式,通常是籤訂版權合同、開通官方賬号,一篇稿件全網多發。

(圖:騰訊新聞裏的入駐媒體)

但這張合作網在 AI 時代帶來了新的混亂。從此次測評結果來看,AI 常常被新聞分發矩陣所迷惑——它面對的是同一篇文章的多個 " 面孔 ",難以識别哪一個才是作者。而移動互聯網時代未被根治的自媒體 " 洗稿 "" 搬運 "" 偽原創 " 等老問題,則在 AI 中繼續發酵。

失靈的鏈接

AI 的另一個問題出在引用鏈接上。在聯網狀态下,AI 應當要附上來源鏈接,這是用户驗證真偽的第一步。但在我們統計的 330 次查詢中,大約 43% 的回復提供了無效鏈接,要麼 AI 稱無法提供,要麼鏈接已被删除。

一些模型的問題更突出。文心一言和通義千問(深度思考版)有超過三分之一的回復,提供的是無法打開的鏈接,其他 AI 的頻率則要低得多。

令人意外的是,有些鏈接并不是失效,而是純屬虛構。比如,《第一财經》發布的一篇關于亞馬遜低價商品的報道,被 DeepSeek 誤判作者為 " 刺猬公社 ",并配上了一個根本不存在的網址。

同樣的,27 條微信公眾号的鏈接,19 條都由騰訊旗下元寶 AI 引用。文心一言、豆包在個别場景下也能提供公眾号鏈接,其他平台沒有提供過。

這種局面是由底層結構決定的。App 内的信息孤島,大部分在搜索引擎的公網域網中不可見,只有 " 自家人 " 才能索引,大廠旗下的 AI 因此擁有得天獨厚的數據庫。互聯網時代圍牆花園的問題,在 AI 時代依舊在加固。

更令人擔憂的是媒體自身的可見度。盡管許多媒體也有自己的官方網站,但除了澎湃新聞,其他媒體官網很少出現在 AI 文獻列表裏。相比之下,搜狐、網易、新浪、騰訊四大門户網站是 AI 更普遍的索引資料,補上缺位的 App 數據。 

不過,也存在傷媒體的情況。各個平台的内容池魚龍混雜,原創内容、轉載文章、自媒體洗稿并存。比如新浪财經賬号經常 " 全文轉載 " 其他媒體的原創報道,媒體署名雖在,但流量早已轉嫁。測試結果顯示,AI 有大約 14% 回復引用了這些轉載鏈接,而非官方鏈接。

換句話説,哪些新聞會被優先推送、哪些新聞更容易被看見,一定程度上仍然取決于不同平台的算法設計。而 AI 的到來,并沒有改變這一結構,反而可能固化。

對新聞媒體來説,這意味着兩重更大的挑戰:一方面,拒絕被 AI 引用變得困難。比如,該研究指出,雖然《今日美國》直接屏蔽了 ChatGPT 爬取網站,但 ChatGPT 抓取了雅虎新聞的轉載頁面,提供原文的副本;另一方面,有些媒體和 AI 公司牽手成為合作夥伴,希望換取精準推薦與流量回報,但 AI 仍然會錯誤引用轉載版本。被視為解藥的版權合作,效果沒有想象中好。

本期編輯 金珊 實習生張嘉钰

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們