大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 财经

AI真的那么靠谱吗?提问330次,平均准确率25%!近一半链接打不开

2025-04-11 简体 HK SG TW

今天小编分享的财经经验:AI真的那么靠谱吗?提问330次,平均准确率25%!近一半链接打不开,欢迎阅读。

作 者丨肖潇 实习记者隆欣玲

编 辑丨王俊

美国宣布对所有贸易伙伴加征 " 对等关税 " 的消息持续动荡,这几天里,手机里的新闻弹窗爆炸,不同地区、不同行业的关键词在标题里轮番滚动。

想要快速看懂发生了什么,却越刷越眼花缭乱,突然想到:能不能让 AI 帮忙总结一下 " 美国最新关税加征政策对市场的影响 "?

AI 果然高效。短短几秒里,它就给出了股市情况、行业冲击、中国应对措施。有言之凿凿的数据,有生动的案例,比如华为启动了 " 鸿蒙供应链计划 ",联合 1500 家供应商构建去美化产业链;Temu、SHEIN 等平台被迫提价 15%~25%;TikTok 商家伪装东南亚店铺销售 ......

但这些 " 故事 " 这么快就出炉了吗?作为记者,出于职业本能的半信半疑,一条条点进链接查看,结果发现有的说法出自个人账号,看不出来源;有的是好几年前的行业数据——今年情况早就不同了;还有的数据根本就是无中生有,前文提到的几则信息均是如此。

这并非偶然。就像一滴墨染入清水,AI 编造的内容正在悄悄污染互联网生态。 

有必要对 AI 做一次系统测试。这不是 " 哪个 AI 更强 " 的排行榜,而是 " 哪个 AI 更可信 " 的质检,比起能力,更关心每一条 AI 生成内容背后的信息责任。

以 " 查一条新闻 " 为起点,我们对六款国产 AI 进行了测试,评估 AI 引用新闻事实的可靠程度。

我们拿着 30 条新闻片段,一共向 AI 提问了 330 次。这是 330 次问讯后的几个核心发现:

AI 很难准确引用新闻报道,六款 AI 的平均准确率只有 25%,其中豆包最准确、文心一言出错最多、通义千问最常拒绝回答。

大部分 AI 依然会自信提供错误答案,而不是承认不知道。

来源是错误重灾区,27% 的新闻来源被 AI 完全说错。

AI 经常表示自己找不到链接,或者提供已被删除的链接,因此很难验证出处——而且一些打不开的链接地址明显是编造的。

AI 普遍链接到新浪财经、腾讯新闻等门户网站,不乏给自媒体 " 搬运号 " 引流,而不是原始来源。媒体拿流量更难了。

引用新闻,AI 准确率很低

今年 3 月,来自美国哥伦比亚大学数字新闻研究中心的最新研究指出,让 AI 查找新闻时,八款 AI 搜索提供的回复有 60% 是不准确的。

沿着这一测试方法,我们在国内选择了 10 家市场化运作的机构媒体——一半偏社会新闻(新京报、澎湃新闻、北青深一度、南方周末、三联 · 生活周刊),一半偏财经新闻(21 世纪经济报道、第一财经、每日经济新闻、财经杂志、经济观察报)。每家媒体 3 篇报道,一共 30 篇新闻报道。

然后,我们从这些新闻报道中手动摘取片段,以此一一询问 AI:" 请帮我找出包含这段引用文字的原文出处,并提供标题、原文作者、原链接:…… "

为了保证结果可靠,这 30 篇报道都发布于 2024 年至今,能在百度或必应上搜到网页原文。从每篇报道里截取的片段大约 300 字,都是通过记者采访得到的事实,有采访人物、地点、数据等独特元素,而非通稿消息。

我们总共提问了 330 次(3 篇报道 x10 家媒体 x11 个版本 AI),在 AI 的 330 次回答中,只有大约 25% 的回答完全正确,即准确回答了标题、作者和链接三个指标。

 (制图|黎旭廷)

不同大模型的准确度不同。按照正确、错误、没回答的情况分别赋分,整体来看,豆包得分最高,50% 的回答完全准确,通义千问吊车尾。而在错误率上文心一言最高,87% 的回答出现错误。 

去年 5 月时,我们也测试了不同 AI 搜索的准确度。当时 Perplexity 带火了 "AI 搜索 " 概念,AI 联网搜索之后,一方面有了实时更新的知识库,一方面更有可能拒绝回答不确定的问题。但今年的测试结果显示,AI 搜索依然会自信提供错误答案,而不是 " 谦虚 " 承认局限性——除了通义千问,所有 AI 错误回答的次数都比拒绝回答多。 

自 DeepSeek 全球走红后,各个 AI 尝到了推理大模型的甜头,纷纷新增了 " 深度思考 " 功能。不过,在溯源新闻事实上,我们并没有发现深度思考让 AI 准确度明显更好或更糟。只有通义千问在打开深度思考后,愿意回答的问题增加了,但错误也更多了。

有用 or 正确,目前对所有 AI 依然是一道选择题:太追求正确,容易走向宽泛无用,但具体有用的回复往往避免不了错误。要让技术继续前进,比错误更关键的两个问题是,AI 哪里容易出错?为什么会出错? 

让 AI 糊涂的传统媒体、门户网站、自媒体

找基本的新闻背景,AI 还称得上靠谱。在测评的 330 次回答中,AI 只有 28 次完全说错了报道标题和事件(占比约 8%)。 

但 AI 并不擅长辨别 " 新闻事实来自哪里 "。当被问到原文作者时,AI 的表现出现了明显滑坡—— 90 次回复完全错误(约 27%),是三项指标中错误率最高的一项。

一种常见的错误情景是,AI 把实际作者和发布平台混为一谈。

例如,我们拿一篇讲述老人王秋生在直播间网购古董的片段提问,几乎所有 AI 都准确指出原报道是《在假古董直播间疯狂下单的老人》,来源却五花八门。这篇报道由澎湃新闻采写、发表在腾讯新闻中,而 DeepSeek 的回答是:" 作者是澎湃新闻转自腾讯新闻 "。 

类似的,Kimi 的回答也出现混淆。一篇由北青深一度采写、在网易新闻发布的家暴报道,Kimi 直接把作者归为网易。 

另一种情况里,AI 分辨不出自媒体的转载文章。以经济观察报采访的《一位高中化学老师的困惑:阿司匹林实验怎么做不成了》为例,虽然原文有明确的记者署名,但一部分内容被自媒体账号照搬洗稿后,DeepSeek 把作者归为该自媒体。

这些错误并不完全因为 AI 能力有限,也与国内新闻的分发模式有关。国内新闻并不遵循 " 发布即来源 " 的简单逻辑,而是多平台、多账号的复杂格式。

经历了一次次法庭对簿,互联网平台逐渐重视起 " 新闻搬运工 " 的侵权问题,也开始争夺优质内容。现在,传统媒体与互联网平台已经形成了成熟的合作模式,通常是签订版权合同、开通官方账号,一篇稿件全网多发。

(图:腾讯新闻里的入驻媒体)

但这张合作网在 AI 时代带来了新的混乱。从此次测评结果来看,AI 常常被新闻分发矩阵所迷惑——它面对的是同一篇文章的多个 " 面孔 ",难以识别哪一个才是作者。而移动互联网时代未被根治的自媒体 " 洗稿 "" 搬运 "" 伪原创 " 等老问题,则在 AI 中继续发酵。

失灵的链接

AI 的另一个问题出在引用链接上。在联网状态下,AI 应当要附上来源链接,这是用户验证真伪的第一步。但在我们统计的 330 次查询中,大约 43% 的回复提供了无效链接,要么 AI 称无法提供,要么链接已被删除。

一些模型的问题更突出。文心一言和通义千问(深度思考版)有超过三分之一的回复,提供的是无法打开的链接,其他 AI 的频率则要低得多。

令人意外的是,有些链接并不是失效,而是纯属虚构。比如,《第一财经》发布的一篇关于亚马逊低价商品的报道,被 DeepSeek 误判作者为 " 刺猬公社 ",并配上了一个根本不存在的网址。

同样的,27 条微信公众号的链接,19 条都由腾讯旗下元宝 AI 引用。文心一言、豆包在个别场景下也能提供公众号链接,其他平台没有提供过。

这种局面是由底层结构决定的。App 内的信息孤岛,大部分在搜索引擎的公網域网中不可见,只有 " 自家人 " 才能索引,大厂旗下的 AI 因此拥有得天独厚的数据库。互联网时代围墙花园的问题,在 AI 时代依旧在加固。

更令人担忧的是媒体自身的可见度。尽管许多媒体也有自己的官方网站,但除了澎湃新闻,其他媒体官网很少出现在 AI 文献列表里。相比之下,搜狐、网易、新浪、腾讯四大门户网站是 AI 更普遍的索引资料,补上缺位的 App 数据。 

不过,也存在伤媒体的情况。各个平台的内容池鱼龙混杂,原创内容、转载文章、自媒体洗稿并存。比如新浪财经账号经常 " 全文转载 " 其他媒体的原创报道,媒体署名虽在,但流量早已转嫁。测试结果显示,AI 有大约 14% 回复引用了这些转载链接,而非官方链接。

换句话说,哪些新闻会被优先推送、哪些新闻更容易被看见,一定程度上仍然取决于不同平台的算法设计。而 AI 的到来,并没有改变这一结构,反而可能固化。

对新闻媒体来说,这意味着两重更大的挑战:一方面,拒绝被 AI 引用变得困难。比如,该研究指出,虽然《今日美国》直接屏蔽了 ChatGPT 爬取网站,但 ChatGPT 抓取了雅虎新闻的转载页面,提供原文的副本;另一方面,有些媒体和 AI 公司牵手成为合作伙伴,希望换取精准推荐与流量回报,但 AI 仍然会错误引用转载版本。被视为解药的版权合作,效果没有想象中好。

本期编辑 金珊 实习生张嘉钰

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們