今天小编分享的财经经验:“80后死亡率超5%”,别上假数据的当,欢迎阅读。
生成式 AI 是有可能 " 胡说八道 " 的,它们会在看似真实的陈述中夹杂错误信息。
但偏偏,每个人都生活在信息茧房当中,接收信息的精力有限,不可能对互联网信息逐一甄别,如果一篇文章用充足的数据做出了 " 严谨的行文姿态 ",就已天然具备了被信任的基础。
更不用说,人往往更倾向相信于那些符合期望的 " 事实 "。在一个争议话题下加上刻意营造的噱头,这些编造的数据往往会当做打口水仗的武器,被二次加工、传播,造成信息污染,真真假假也就说不清了。
作者 | 阿瑞
编辑 | DR
题图 | 《乘上独角兽》
" 截至 2024 年末,80 后死亡率突破 5.2%,相当于每 20 个 80 后中就有 1 人已经去世。"
这句话,你信了吗?
虽然当代打工人的健康状况确实值得担忧,但好消息是,这一数据是假的。
今年 2 月,相关数据和评论刷屏互联网,人们感慨 " 活着不易 ",更有人借机卖起了保健品和保险。3 月 4 日,公安部网安局公布调查结果:网民夏某在视频《80 后到底还剩多少人》中捏造数据,被予以行政处罚。
造谣一张嘴,辟谣跑断腿。如今,造谣甚至不需要嘴了——只要在 AI 的对话框中输入几个字,指引 AI 生成虚假信息的人或许都意识不到自己在助力谣言的诞生。
AI 编的数据,你信了吗?
先来说说 "80 后死亡率 " 的离谱错误。
死亡率作为人口学的重要统计指标,其计算公式为 " 某时期死亡人数除以同期平均人口数,再乘以 1000 ‰ ",也就是说,它的部門是‰,而非 %。
中国人民大学人口与健康学院教授李婷在其公众号 " 严肃的人口学八卦 " 撰文表示,国家每年会公布预期寿命和人口粗死亡率,但不会根据 "80 后 ""90 后 " 这些年龄段公布死亡状况,因此,"80 后死亡率 " 这类说法本身就缺少数据支撑。
(图 /《保你平安》)
如果有人真的想计算 80 后的 " 存活比例 ",还存在两个问题:一是过往人口普查的数据不够准确,多种计算方法都有误差;二是这份数据也会被新生儿的死亡数据污染,也就是说,哪怕 5.2% 的数据准确,其中也可能包括了一半以上出生时就夭折的人,青壮年死亡率还得降低不少。因此,人们大可不必为 80 后今天的健康状况恐慌。
如果说 80 后的 " 存活比例 ",还不过是 " 无伤大雅 " 的谈资,引发全网侧目的 " 顶流明星在澳门狂输 10 亿 ",则算得上惊天大瓜,甚至让周杰伦无辜躺枪。
但就是这么一个被传得有鼻子有眼的瓜,经公安机关证实,同样也是 AI 编造。
与此同时,也有网友感慨:" 每天上网就想看看作者的观点,结果现在满屏‘量子’‘坍缩’‘代码’‘基因’ ……" 当机械感满满的 AI 文案充斥着互联网,对人的判断力又增加了几分考验。
比如最近,网上有一篇《" 离婚冷静期 " 制度简史:历史终将记住这个黑色幽默》的文章被大量转发。
我们对文中的二手信息,保持一种本能的警惕,试图找到源头加以查证。而这篇看似严谨的文章尽管引用了大量数据,但当逐一搜索这些数据时,会发现数据来源几乎都是无中生有。
(图 /《" 离婚冷静期 " 制度简史》)
就基层法官是否会统计离婚案件的类别和比例一事,有法律界人士向《新周刊》记者表示不会统计如此详尽的案件情形:" 基层没有这么闲,最多统计一下结案率和胜诉率。" 况且," 北京某律所 " 作为服务机构,本就没有统计和公布 " 冷静期后复婚率 " 的能力和权限。
(图 /《" 离婚冷静期 " 制度简史》)
" 中国社科院 2024 年《婚姻制度民意调查》",则是一个不存在的调查。"202X 年 "" 冷静期 XX 倒计时 " 这些词更是满满的编造感——如果是真的,为什么不写明真实日期?
至于所谓当初支持立法的学者反思 " 我们用农耕时代的温情滤镜,强行矫正互联网时代的婚姻形态 ",看似语言优美,实则言之无物。现代婚姻法本身既不是农耕时代的产物,也不是互联网时代的产物。法律是一件严肃的事,倘若学者真的要反思,恐怕也不会使用如此模糊的表述。
人不该为了流量而编造虚假信息。图 /《保你平安》
这就是 "AI 幻觉 " ——说白了,生成式 AI 是有可能 " 胡说八道 " 的,它们会在看似真实的陈述中夹杂错误信息。
但偏偏,每个人都生活在信息茧房当中,接收信息的精力有限,不可能对互联网信息逐一甄别,如果一篇文章用充足的数据做出了 " 严谨的行文姿态 ",就已天然具备了被信任的基础。
更不用说,人往往更倾向相信于那些符合期望的 " 事实 "。在一个争议话题下加上刻意营造的噱头,这些编造的数据往往会当做打口水仗的武器,被二次加工、传播,造成信息污染,真真假假也就说不清了。
AI 幻觉无法消除,该怎么办
日常工作中试图让 AI 帮自己省力的人,对它胡编乱造的能力大多心里有数。
近日,在 Vectara HHEM 人工智能幻觉测试中,2025 年 1 月发布的 DeepSeek-R1 模型显示出高幻觉率。对于这个现象,中科闻歌董事长王磊告诉《新周刊》:" 我猜测这可能与模型的精度有关。"
有专家认为,AI 軟體在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。
(图 /《人工智能》)
王磊认为,问题的核心在于神经网络设计原理本身。" 幻觉产生的原因在于模型选择词时,是基于词的概率分布进行预测。当问题的复杂程度提高时,这种预测方法可能会出现知识盲點,模型为了回答而回答,人云亦云。"
也就是说,当用户给出上半句,生成式 AI 会根据它学过的知识," 猜测 " 最有可能的答案。一旦问题涉及到它的知识盲點,其设计原理又决定了它必须 " 接话茬 ",就会给出自动 " 腦补 "的答案。
清华大学新闻与传播学院教授陈昌凤向《新周刊》表示:" 生成式人工智能的主要功能,一是搜索,二是推理。前者通常要有基础数据,它才能搜到。而幻觉更可能出现在推理的环节。"
她指出,人类本身就会产生幻觉,而人工神经网络系统学习的是人类神经系统。" 生成式人工智能从诞生起就免不了幻觉,我相信随着使用时间增加和技术提升,它的幻觉会越来越少,但不太可能完全消除。"
人类的认知具有主观性,AI 也会效仿人类。(图 /《勿言推理》)
比如,就 AI 对话截图来看,"80 后死亡率 " 的数据参考了一个并无权威性的网页文章。这类 " 三无 " 网站的页面,很多人本来是连看都不会看一眼的,但AI 的强大却很容易产生让人迷惑的" 权威性",以至于很多人甚至没发现它的数据来源也是 " 三无 " 网站。
如果人们积极辟谣,持续优化 AI 所学习的数据库,肯定能降低 AI 幻觉的发生。但反过来试想一下,假如 AI 生成的谣言和假数据持续污染互联网,会发生什么?
2024 年 7 月,一篇来自牛津、剑桥等大学的论文登上了 Nature 封面。学者们发现,如果在训练中不加区别地使用 AI 产生的内容,会导致大模型崩溃——多次迭代后 AI 反而会退化,产生越来越多的事实错误甚至乱码。
众所周知,当今市面上的 AI 工具都是由海量的数据训练而成的。但随着 AI 的胃口越来越大,可 " 食用 " 的新数据越来越少,大模型将纷纷面临 " 高质量数据荒 "。人工智能研究组织 Epoch 预测,高质量的文本数据可能会在未来几年内耗尽。
换句话说,真实的数据价值连城。人类仍然需要持续创造真实的内容,更要学会辨别 AI 生成内容的真假。
(图 /《人工智能》)
王磊表示:" 大模型它绝不能够给你提供决策。人类世界的复杂性在于许多情况都是动态变化的。大模型的知识面很广,但(这些知识)毕竟是固化的,它并不能察觉世界的变化,也不能认知到很多问题的复杂性。它输出的结果,仅仅是基于其数据库的经验性建议。"
他建议:" 使用 AI 时的偏见和幻觉问题,需要我们的自我审视和判断。即使 AI 能够搜索互联网信息,我们同样需要鉴别其提供的信息是否真实。我们不能完全依赖和盲信 AI,而应将其视为一种工具,辅助我们的工作和决策。AI 目前只是我们的工具,而非结论和教条的源泉。"
对普通人而言,该如何辨别 AI 幻觉、防止被 AI 欺骗?我们的心得是,要始终对 AI 生成的事实性描述保持警惕。可以使用搜索引擎核查出处,一般而言,若出处为权威机构,信息就更可靠。也可以使用多个 AI 联网搜索,交叉印证和检查某个 AI 生成的内容。
现在 AI 生成内容时,也有概率出现提示。
刘慈欣的短篇小说《诗云》中,外星文明为了写出超越李白的诗,穷尽太阳系的能量列举出了所有字词组合,却无法从庞大的 " 诗云 " 中检索出真正的诗歌。作者借这篇小说表明,AI 生成内容的本质是词汇的排列组合,但欣赏和评价的权力属于人类。
或许,我们可以进一步说:AI 可以生产万千种内容,但判断其真实性和价值的任务仍然掌握在人类手中。
(新周刊记者罗隐、草莓对本文亦有贡献)
校对:遇见;运营:嘻嘻;排版:张晟钰