大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

普通人如何逃离DeepSeek幻觉陷阱

2025-02-28 简体 HK SG TW

今天小编分享的互联网经验:普通人如何逃离DeepSeek幻觉陷阱,欢迎阅读。

文 | 20 社

DeepSeek 横空出世,我们和人工智能的关系也随之进入新时代。但对于许多人来说,与 AI 的蜜月期还没有结束,幻觉问题就不合时宜地来预警。

近期一条 "80 后死亡率突破 5.2%" 的假新闻广为流传,据上海网络辟谣介绍,最初的信源很可能是来自 AI 对话。

这种甚至一眼假的数据是怎么来的呢?我最近也在尝试用 AI 对话代替搜索,发现确实会给工作埋下一些 " 地雷 "。

例如前几天我们写了京东外卖的稿件,尝试用 DeepSeek 来搜集资料," 山姆每年为京东即时零售带来多少订单 " 的问题,DeepSeek 语气肯定地给出一个数据,并称京东今年将和山姆展开新合作。

我没有查到这个数据的来源,而且我更震惊的是关于合作的预测," 山姆和京东不是去年分手了吗 "。

这就是 DeepSeek 的 " 幻觉 "。幻觉,是大模型的 " 基因 " 问题,因为它本质上是根据每个词出现的概率来选择回答,所以很容易编出一篇看起来很流畅但完全不符合事实的回答。

所有的大模型或多或少,都有这个问题。

但是,DeepSeek-R1 的幻觉在领先的模型中尤为严重,在 Vectara HHEM 人工智能幻觉测试中达到了 14.3%,是 DeepSeek-V3 的近 4 倍,也远超行业平均水平。

DeepSeek-R1 的幻觉率高于同行(图源自 Semafor)

同时,DeepSeek R1 是目前中国应用范围最广泛的大模型之一。正因为它足够智能,很容易被充分信任,在 " 掉链子 " 的时候也不会被察觉,反而有可能成为引发更大范围的 " 舆论幻觉 "。

DeepSeek 怎么背刺我

球球今年读大四,最近都在一家实验室实习。用 Kimi、豆包等 AI 助手来撰写资料、找文献,他已经驾轻就熟,在 DeepSeek 上线以后,更是感到如虎添翼。

最近刚开学,他就开始忙着写论文。不过,他这学期已经不敢直接使用 AI 生成的内容了。

网上最近流传的一个贴子,DeepSeek 生成的一个综述中,参考文献全是自己编的," 秉持着严谨的态度,我去搜了这些参考文献,竟然 !! 竟然没有一篇是真的 !! "

一位大模型业内人士表示,这是一个很有意思的案例," 见过胡编事实的,没看到编造论文引用的。"

类似胡编的情况还有很多,比如有网友问 DeepSeek 上海有几家麻六记,地址都在哪里?结果 DeepSeek 给了他四个地址,且四个地址都是错误的。

最搞笑的,是一位玩具博主,让 DeepSeek 帮她查国内儿童玩具理论的文献综述,其中引用了一本名为《玩具与儿童发展》的书。

" 我咋没见过呢?就让它详细介绍一下 ",结果,她就在思维链里发现 DeepSeek 说,这本书是虚构的,而且" 要避免指出这本书是虚构的,以免让用户感到困惑 "。

音乐自媒体 " 乱弹山 " 进一步发现,DeepSeek 特别擅长使用陌生信息和专业领網域的词汇来胡编乱造。

他发现一个小红书笔记,名叫《我听了这么多年五月天,还不如 DeepSeek》,让 DeepSeek 来提供五月天歌曲里面的彩蛋。" 其实里面全是扯淡 "。

比如里面提到《仓颉》前奏中 " 需要你 需要你 需要你 ",倒放会变成 " 宇宙爆炸的瞬间 我看见了你的脸 "。大部分人试一试就会知道,这三个音节怎么来回折腾,都成不了这句话。但依然不妨碍下面有很多人都说,被感动到了!

另外,他还让 DeepSeek 深度解析韩国音乐人 Woodz 的风格。DeepSeek 解析出的 " 双声道交替 "" 呼吸声放大 "" 元音拉伸 " 等巧思,都是对应歌曲中没有的,很像我们刚学会了一些专业名词就张冠李戴胡乱卖弄的样子。

但值得指出的是,当这些专业词汇足够多,这些专业足够陌生的时候,普通人根本无法分辨这些叙述的真实性。

就像前面提到的央视新闻报道的 "80 后的死亡率已经达到 5.2%" 的谣言,中国人民大学人口与健康学院教授李婷梳理发现,很可能就是 AI 大模型导致的错误,但普通人对这些数据并没有概念,就很容易相信。

这几天,已经有好几篇被认为由 AI 撰写的谣言骗倒了不少人:梁文峰在知乎上对于 DeepSeepk 的首次回应,《哪吒 2》员工 996 是因为公司在成都分房,电梯坠落再冲顶的事故原因……新闻真实和虚构段落被很好地捏合到一起,常人很难分辨。

而且,就算 DeepSeek 没掉链子,很多时候普通人连使用它的方式都不正确。AI 训练的奖惩方式,简单来说,就是它猜你最想要的是什么回答,而不是最正确的是什么回答。

丁香园前两天写过,已经有很多人拿着 DeepSeek 的诊断,来向医生咨询。一位发热儿童的家长,坚信医生开的检查没有必要,是过度治疗;医生不开抗甲流的抗病毒药物,就是拖延治疗。医生很疑惑," 你们怎么能确定是甲流呢?发热的原因有很多。" 家长说,他们问了 DeepSeek。

医生打开手机发现,家长的提问是," 得了甲流要做什么治疗?" 这个问题首先就预设了孩子已经得了甲流,大模型自然也只会作出相应的回答,并不会综合实际条件来进行决策。幻觉能借此危害现实。

幻觉,是 bless 也是 curse

幻觉本身其实并不是 " 剧毒 ",只能算是大模型的 " 基因 "。在研究人工智能的早期,幻觉被认为是好事,代表 AI 有了产生智能的可能性。这也是 AI 业界研究非常久远的话题。

但在 AI 有了判断和生成的能力后,幻觉被用来形容偏差和错误。而在 LLM 领網域,幻觉更是每个模型与生俱来的缺陷。

用最简单的逻辑来描述,LLM 训练过程中,是将海量数据高度压缩抽象,输入的是内容之间关系的数学表征,而不是内容本身。就像柏拉图的洞穴寓言,囚徒看到的全是外部世界的投影,而不是真实世界本身。

LLM 在输出时,是无法将压缩后的规律和知识完全复原的,因此会去填补空白,于是产生幻觉。

不同研究还依据来源或领網域不同,将幻觉分为 " 认知不确定性和偶然不确定性 ",或 " 数据源、训练过程和推理阶段导致的幻觉 "。

但 OpenAI 等团队的研究者们发现,推理增强会明显减少幻觉。

此前普通用户使用 ChatGPT(GPT3)时就发现,在模型本身不变的情况下,只需要在提示词中加上 " 让我们一步步思考(let ’ s think step by step)",就能生成 chain-of-thought(CoT),提高推理的准确性,减少幻觉。OpenAI 用 o 系列的模型进一步证明了这一点。

但是 DeepSeek-R1 的表现,跟这一发现恰好相反。

R1 在数学相关的推理上极强,而在涉及到创意创造的领網域非常容易胡编乱造。非常极端。

一个案例能很好地说明 DeepSeek 的能力。相信有不少人看到过,一个博主用 "strawberry 里有几个 r" 这个经典问题去测试 R1。

绝大多数大模型会回答 "2 个 "。这是模型之间互相 " 学习 " 传递的谬误,也说明了 LLM 的 " 黑盒子 " 境地,它看不到外部世界,甚至看不到单词中的最简单的字母。

而 DeepSeek 在经历了来回非常多轮长达 100 多秒的深度思考后,终于选择坚信自己推理出来的数字 "3 个 ",战胜了它习得的思想钢印 "2 个 "。

图片来自 @斯库里

而这种强大的推理能力(CoT 深度思考能力),是双刃剑。在与数学、科学真理无关的任务中,它有时会生成出一套自圆其说的 " 真理 ",且捏造出配合自己理论的论据。

据腾讯科技,出门问问大模型团队前工程副总裁李维认为,R1 比 V3 幻觉高 4 倍,有模型层的原因:

V3: query --〉answer

R1: query+CoT --〉answer

" 对于 V3 已经能很好完成的任务,比如摘要或翻译,任何思维链的长篇引导都可能带来偏离或发挥的倾向,这就为幻觉提供了温床。"

一个合理的推测是,R1 在强化学习阶段去掉了人工干预,减少了大模型为了讨好人类偏好而钻空子,但单纯的准确性信号反馈,或许让 R1 在文科类的任务中把 " 创造性 " 当成了更高优先级。而后续的 Alignment 并未对此进行有效弥补。

OpenAI 的前科学家翁荔在 2024 年曾撰写过一篇重要 blog(Extrinsic Hallucinations in LLMs),她在 OpenAI 任职后期专注于大模型安全问题。

她提出,如果将预训练数据集看作是世界知识的象征,那么本质上是试图确保模型输出是事实性的,并可以通过外部世界知识进行验证。" 当模型不了解某个事实时,它应该明确表示不知道。"

如今一些大模型如今在触碰到知识边界时,会给出 " 不知道 " 或者 " 不确定 " 的回答。

R2 或许会在减少幻觉方面有显著成效。而眼下 R1 有庞大的应用范围,其模型的幻觉程度,需要被大家意识到,从而减少不必要的伤害和损失。

来,让我们打败幻觉

那么,在现实使用的过程中,我们普通人对大模型的幻觉就束手无策了吗?

互联网资深产品经理 Sam,最近一直在用大模型做应用,他对 ChatGPT 和 DeepSeek 都有丰富的使用体验。

对于 Sam 这样的开发者来说,最靠谱的反幻觉手段有两种。

第一个就是在调用 API 时,根据需求設定一些参数,如 temperature 和 top_p 等,以控制幻觉问题。有些大模型,还支持設定信息标,如对于模糊信息,需标注 " 此处为推测内容 " 等。

第二种方法更专业。大模型的答案是否靠谱,很大程式依赖语料质量,同样一个大模型语料质量也可能不一样,比如说,现在同样是满血版的 DeepSeek,百度版和腾讯版的语料,就来自于各自的内容生态。此时就需要开发者选择自己信任的生态。

对于专业的企业用户,就可以从数据侧下手规避幻觉。在这方面,现在 RAG 技术已经在应用开发中普遍采用。

RAG,也就是检索增强生成,是先从一个数据集中检索信息,然后指导内容生成。当然,这个集合是要根据企业自己的需求,搭建的事实性、权威性数据库。

Sam 认为,这种方法虽好,但不适合一般的个人用户,因为涉及到大样本的数据标注,成本很高。

ChatGPT 为个人用户也設定了一个调整方案来减少幻觉。在 ChatGPT 开发者中心的 playground 中,有一个调节参数功能,专门用来给普通用户使用。但目前 DeepSeek 没有提供这个功能。

ChatGPT 在 playground 提供了参数调整功能

实际上,就算有这个功能,一般用户可能也会嫌麻烦。Sam 说,他发现 ChatGPT 的这个功能,一般的个人用户就很少会使用。

那么个人用户怎么办呢?目前来看,对于大家反应较多的 DeepSeek 幻觉问题,最靠谱的方法也有两个,第一个是多方查询,交叉验证。

例如,我的一位养猫的朋友说,使用 DeepSeek 之前,她一般是在小红书上学习养猫知识,DeepSeek 虽然方便,但是她现在仍然会用小红书,用两个结果去交叉验证,经常会发现 DeepSeek 的结果被此前一些广泛流行的错误观念污染。

如果是想用 DeepSeek 做一些专业数据搜集,这个方法可能就没那么好用。此外,还有一个更简单的方法。

具体来说,就是你在对话中,如果发现 DeepSeek 有自己腦补的内容,就可以直接告诉它," 说你知道的就好,不用胡说 ",DeepSeek 马上就会修正自己的生成内容。

chatgpt 给出的建议

Sam 说,对一般用户来说,这个方法效果不错。

实际上,正如我们前文所说,DeepSeek 幻觉更严重,一部分原因是因它更智能。反过来说,我们要打败幻觉,也要利用它这个特点。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們