今天小编分享的财经经验:从信息论的视角,重新认识这个世界,欢迎阅读。
本文来自微信公众号:阿茶的 AI 之路,作者:起名贼费劲的阿茶,题图来自:AI 生成
那天中午,我在知乎上看到一个有趣的问题:
把一篇英语文章的所有 aeiou 替换成 t,它还有可能被完全破译吗?
我翻阅了许多回答,有的列举了 tt、ttt、tttt... 这样的例子、有的则一本正经地胡说八道、还有人干脆把问题丢给大模型解决 ....
我觉得这本质上是一个信息论的问题。当我们把所有元音替换成 't' 后,剩余的信息是否足够支撑我们还原原文?英语本身就有很高的冗余性,比如语法结构、词语搭配等都能提供大量上下文信息。因此,在长文本中,这种还原应该是可行的。关键在于,这种替换究竟损失了多少有效信息,剩下的部分是否还足以支撑我们的理解和还原。
说到信息论,我与它的联系大概是大学选过的一门课,叫《多媒体技术》。选课之前,我天真地以为这门课会教我如何用 PS,如何剪视频,如何做 PPT。因为从小就在说的 " 多媒体教育 ",感觉就是通过 ppt 来上课。还有 " 多媒体教室 ",就是多了个投影,所以我一直以为这就是 " 多媒体 "。我选它的原因也很简单,我真的不会用 PS,我想学学。而且这门课应该比较简单。
上课之后:奈奎斯特定理、信息熵、zigzag、JPEG 影像压缩原理 ...
我以为的课设:剪一个视频。
实际上的课设:
就这么一门和我想象大相径庭的课,我现在却觉得是我学过最有用的一门课。因为 " 信息 " 无处不在。你看的新闻是信息,你与他人的交流是信息,甚至你设计的产品界面也在给用户传递信息。
尤其是在当下,信息生产的成本急剧降低,各种公众号 ... 一个事件可能会被上百个号重复报道。此外,AI 领網域的进展也是日新月异。相比之下,我们就像大海中的小船,随时可能被信息淹没。接受吧,腦子好像又处理不过来;不接受吧,又怕错过了什么。而信息论,正是帮助我们找到理解这些信息的角度,以及制定获取信息策略的工具。
说远了,我去简单复习了一下信息论的基础知识,也分享给大家。
从生活中理解信息
最开始写这篇文章的时候,我从定义和公式的角度介绍信息、信息熵、自信息这些概念 ... 但发现太专业了,不适合阅读。所以我打算放弃那些专业的知识,从一个简单的游戏理解信息论。这种直观理解对于非专业人士来说更为重要。
首先,信息是消除不确定性的。
假设我心里想了一个 1 到 100 的数字,请你来猜。在没有任何提示的情况下,这就是一个完全不确定的系统 —— 每个数字的可能性都是相等的。
如果我告诉你:" 今天天气不错,我觉得等会我们可以出去玩,顺便去吃个火锅 "。
这句话你会发现对你猜测毫无作用。
而如果我告诉你:" 这个数字大于 50"。你的猜测范围就减少了一半,然后你猜了个 75。
我继续说:" 这个数字的范围在 60-70 之间 "。你的猜测范围进一步缩小,你猜了个 63。
我说:" 猜对了!"
通过这个简单的游戏,我们就能理解信息论中的几个核心概念:
首先,根据信息论中的定义,信息是用来消除不确定性的。你试图猜我心中想的数字,通过不断的尝试,来降低这个不确定性。直到你猜到我所想的。
自信息:单个事件发生时带来的信息量。这里的事件指的是我给你的提示。其中 " 这个数字是 73" 这个事件的自信息就很大,因为它的发生概率很小(1/100)。
信息熵:系统的平均不确定性,当你完全不知道我内心所想的时候,信息熵达到最大。
信息增益:获得这个信息后,系统不确定性减少的程度。它实际上是信息熵的变化量:原来的信息熵 减去获得信息后的信息熵。在这个对话中,"60-70 之间 " 能带来的信息增益一定大于 " 大于 50",因为它帮你排除了更多的干扰。你只需要在 10 个数里面选一个。而不是 50 个数。如果我直接告诉你这个数字是 63,那么它会将整个游戏的信息熵降为 0。因为你已经不需要猜了。
这就是信息的本质:消除不确定性。当你获得的有效信息越多,系统的信息熵就越小,你就越接近信源。
再举个生活中的例子。当你在考虑是否购买一件商品时,每条信息都在帮你消除不确定性:
" 这是一件纯棉 T 恤 "(确定了品类和材质)
" 价格 299 元 "(确定了价格区间)
" 隔壁店同款 199 元 "(这个信息增益很大,可能直接影响你的决策)
很明显,这些概念不仅存在于理论中,更与我们的日常生活密切相关。每当我们需要做决策时,都在不断地收集信息,评估信息的价值,通过获取高信息增益的内容来帮助我们作出更好的选择。希望这两个例子能够让你有一个直观的印象。
现在我们再来看看开头的问题,用刚学到的信息论概念来分析一下。当我们把所有元音都替换成 't' 时,表面上看是损失了一些信息。但英语文本中其实存在大量的 " 信息冗余 "。比如语法结构(主谓宾的位置)、单词搭配(即使 "make a decision" 中的元音被替换,我们也大概能猜出来),以及整句话的语境,这些都在帮我们消除不确定性。即使失去了元音信息,其他信息的存在依然能帮助我们很大程度推测出原文。当然,这说的是大部分场景,信息越多,能还原成功的概率越高。
信息论给我们的启示
理解了信息的本质,我们就能以不同视角看待一些问题:
1. 为什么大模型会 " 胡说八道 "?
我经常强调大模型回复质量是跟用户的提问质量密切相关的。
当它在面对高度不确定的问题时,没有足够的信息来降低系统的信息熵。就像你在猜数字时,如果得到的提示太少或者有误导,也可能作出错误的判断。
相比之下,提示词技术这些都是辅助减少信息噪声的方法,核心只有一个,就是让用户如何清晰准确的表达问题。
2. " 冗余 " 的必要性
在信息传递过程中,噪声是不可避免的。就像在电话里说话,可能会遇到信号不好、背景音嘈杂等情况。这时候,如果信息没有任何冗余,一旦受到干扰,就很难还原出原始信息了。
这个问题在内容总结类功能中其实特别明显。很多人让大模型总结文章时,会要求 " 只给我重点 "。结果得到的往往是一堆要点的堆砌。一旦大模型的理解有所误解,就会导致信息失真极为严重。
此外,要点的堆砌虽然信息密度很高,但读起来特别费劲。这就像把文章中的所有废话都删掉,只留下核心观点。表面上看起来很高效,实际上反而增加了读者的理解成本。人类理解信息时需要上下文。那些看似冗余的内容,比如例子、类比、过渡语句,它们就像语言中的语法结构和单词搭配一样,能够帮助我们的大腦更好地处理和吸收信息。当这些必要的冗余被去掉,即使信息都在那里,我们也需要耗费更多精力去理解和连接它们。
3. 信息获取策略
说到如何提高信息获取效率,我的策略很简单:不主动刷新闻。
因为有价值的信息会自然传递。重要的事情总会通过各种渠道传到你耳朵里。即使你不主动去搜集,该知道的总会知道。反而是那些不重要的信息,如果你不去主动获取,它们就会自然消失。
现在 AI 领網域每天都在爆出新模型、新突破。但仔细观察就会发现,真正的突破性进展很少,大部分都是正常的科学研究。对于并不需要专注于科研的人来说,没有必要去刷那么多新闻。
那些真正重要的突破,必然会在多个渠道反复出现,而且会持续发酵。就像 GPT-4 的发布,它带来的不仅是一个新闻,而是一系列的技术讨论和应用探索。这种持续的信息流才是值得关注的。比如说这几天的 Deepseek。
从信息论的角度看,当一个信息通过多个渠道重复出现时,不仅提高了信息的可靠性,更重要的是往往会带来不同的视角和解读。这些差异恰恰能帮助我们更全面地理解这个信息的价值。与其追求信息的全面,不如追求信息的深度。当你对某个领網域有足够深的理解时,判断一个新信息的价值往往只需要几秒钟。那些看似错过的信息,很可能对你并不重要;而那些真正重要的信息,一定会以各种形式重复出现在你面前。
在信息爆炸的时代,保持定力比追求全面更重要。让信息自然流动,而不是焦虑地追逐每一个新闻,这可能才是最高效的信息获取策略。
4. 充满包容的沟通
很多时候并不是对方笨,而是因为你们对信息的理解不对等。这让我想起一个很有意思的游戏:Tick Tock。一个双人互动游戏,但它不需要通过伺服器联机:两个玩家各自在自己的手机上玩,一个人解谜的同时,另一个人要配合完成某些操作。但关键是两个人并不能看到对方的视角,只能通过其中一方的描述,来让双方理清处境和需求。
这个游戏完美地诠释了信息不对等的本质。当我们觉得 " 其他人怎么这么笨 " 的时候,往往不是对方真的笨,而是我们站在已知信息的角度,忽略了对方的信息盲點。就像在游戏中,如果没有跟对方描述清楚你的画面,他就没法给予你帮助。游戏也就永远无法推进。
我们经常吐槽用户使用軟體的时候总是 " 不按套路出牌 "。但换个角度想,这不是用户的问题,而是我们在设计时,没有考虑到用户的信息认知水平。我们觉得理所当然的操作流程,对用户来说可能充满了不确定性。
其实大模型的使用就是一个很好的证据。它就像一个没有说明书的产品,即使开发者也不能完全了解它。作为使用者,我们也在不断摸索,各种提示词技术都是试出来的。从更高维度看,我们所有人都是愚蠢的用户。
所以,好的沟通不是简单地传递信息,而是要考虑:对方当前的信息状态是什么,如何通过适当的信息冗余来确保理解,以及如何建立反馈机制,验证信息是否被正确接收。
有时候,我们需要的可能不是更多的解释,而是更多的包容。毕竟,在信息不对等的世界里,我们每个人都在靠着自己的认知摸索前行。
本文来自微信公众号:阿茶的 AI 之路,作者:起名贼费劲的阿茶