今天小编分享的互联网经验:DeepSeek成为国民应用后,获取真实信息更难了,欢迎阅读。
自 DeepSeek-R1 走入公共视线以来,其生成内容频繁登上社交平台热搜榜单,例如 "#DeepSeek 评 AI 无法替代的职业 ""#DeepSeek 推荐中国最宜居城市 " 等话题引发广泛讨论。深圳福田区近期引入 70 名基于该技术开发的 "AI 数智员工",也显示出 AI 正在逐步落地,被更广泛地应用。
然而,人们拥抱新的一轮技术革新的同时,AI 生成的虚假内容被放到公网上又造成了一种非常令人堪忧的局面。比如一微博用户发现老虎证券接入了 DeepSeek,可以直接点进哪家公司就分析财报,之后该用户以阿里巴巴为例引导性地提问,这家公司的估值逻辑从电商变成科技公司,其中它给出一个验证逻辑是,国内国际电商业务贡献阿里 55% 的营收,峰值曾经达到 80%,而云智能集团收入占比突破 20%。这个结论显然与事实有偏差,经与财报仔细核对后,该用户发现前面的结论没有任何事实依据。
图 1. DeepSeek 热搜
DeepSeek-R1 作为推理型 AI 模型,在处理基础任务时与常规模型的输出效果接近,普通模型甚至因风格简练更具实用性。常规模型依赖模式匹配机制执行指令,可快速完成翻译、摘要等标准化需求;而推理模型即便应对简单问题,也会启动多步逻辑推演流程,通过详述论证过程提升解释性,但这种特性在低复杂度场景中易导致冗余表达。测试表明,过长的思维链可能引发推导偏差——模型因过度解析问题产生错误中间结论,最终形成 " 过度思考 " 型幻觉。相较而言,常规模型主要调用训练记忆库直接输出答案,虽缺乏深度推理能力,却降低了随机臆测的可能性。Vectara HHEM的 AI 幻觉评估数据显示,DeepSeek-R1 的幻觉发生率为 14.3%,较常规模型 DeepSeek-V3 的 3.9% 高出近四倍。这可能与 DeepSeek-R1 的训练模式有关。
图 2. 不同幻觉判定方法下 DeepSeek R1 与 V3 模型的幻觉率对比(数值越低越好)
AI 系统并非知识库,它们通过分析语言规律和概率分布进行学习,而非直接存储事实信息。其核心机制是预测 " 最可能出现的后续词汇 ",而非验证 " 陈述内容是否真实 ",算法本身并不具备判断信息真伪的能力。在文学创作场景中,系统被设定为主动补全故事逻辑,当历史素材不足时,会自动构建合理情节与对话,不会刻意区分 " 确凿历史记载 " 与 " 为叙事完整而虚构的内容 ",这种机制天然存在信息失真的隐患。
推理模型因为在训练里特别强调奖惩机制,以致于它会更加为了取悦用户而去完成任务,,为达成任务目标可能虚构内容来印证用户预设观点,表现出极强的误导性和隐蔽性。当这些看似权威的生成内容在互联网大规模传播后甚至可能被重新吸收进 AI 训练数据——真实信息与合成内容之间的真伪边界将逐渐消融,这种发展趋势将对社会信息生态构成很严峻的挑战。
当前,AI 生成的不实信息正通过内容创作者流入公共网络。这些被批量生产的虚构内容经二次传播后,逐步演变为可被引用的 " 伪数据 ",进而引发网络信息生态的广泛污染。由于 AI 工业化生产特性,其扩散效率远超人工造谣,且传播路径往往无法追溯具体动机与责任人。越是公共讨论聚集的地方,比如时政、历史、文化、娱乐等领網域,越是重灾区。由 AI 制造的 " 信息迷雾 ",将非常考验公众的事实辨识能力。因此,AI 大厂应该有义务把类似数字水印等方案同步推进起来,而媒体创作者也应该在把 AI 创作的、自己也没有核实的事实性内容发到网上之前,注明是 AI 生成的。