喜爱夜蒲
本文来自微信公众号:阿茶的 AI 之路喜爱夜蒲,作家:起名贼辛勤的阿茶,题图来自:AI 生成
那天中午,我在知乎上看到一个意旨道理意旨道理的问题:
把一篇英语著作的所有 aeiou 替换成 t,它还有可能被王人备破译吗?
我翻阅了许多回答,有的列举了 tt、ttt、tttt... 这样的例子、有的则一册谨慎地瞎掰八说念、还有东说念骨干脆把问题丢给大模子责罚 ....
我以为这骨子上是一个信息论的问题。当咱们把所有元音替换成 't' 后,剩余的信息是否有余复古咱们规复原文?英语自身就有很高的冗余性,比如语法结构、词语搭配等都能提供无数高下文信息。因此,在长文本中,这种规复应该是可行的。流弊在于,这种替换究竟亏蚀了几许灵验信息,剩下的部分是否还足以复古咱们的长入和规复。
说到信息论,我与它的揣度豪放是大学选过的一门课,叫《多媒体期间》。选课之前,我机动地以为这门课会教我如何用 PS,如何剪视频,如何作念 PPT。因为从小就在说的"多媒体阐明",嗅觉等于通过 ppt 来上课。还有"多媒体教室",等于多了个投影,是以我一直以为这等于"多媒体"。我选它的原因也很精真金不怕火,我确实不会用 PS,我思学学。何况这门课应该比较精真金不怕火。
上课之后:奈奎斯特定理、信息熵、zigzag、JPEG 图像压缩道理 ...
我以为的课设:剪一个视频。
现实上的课设:
就这样一门和我思象大相径庭的课,我当今却以为是我学过最有用的一门课。因为"信息"无处不在。你看的新闻是信息,你与他东说念主的交流是信息,以至你联想的产物界面也在给用户传递信息。
尤其是在当下,信息分娩的资本急剧裁汰,各式公众号 ... 一个事件可能会被上百个号重迭报说念。此外,AI 限制的阐发亦然日眉月异。比较之下,咱们就像大海中的划子,随时可能被信息兼并。领受吧,脑子好像又处理不外来;不领受吧,又怕错过了什么。而信息论,恰是匡助咱们找到长入这些信息的角度,以及制定获取信息政策的器具。
说远了,我去精真金不怕火温习了一下信息论的基础常识,也共享给环球。
从生计中长入信息
最开动写这篇著作的时期,我从界说和公式的角度先容信息、信息熵、自信息这些观念 ... 但发现太专科了,不顺应阅读。是以我运筹帷幄毁灭那些专科的常识,从一个精真金不怕火的游戏长入信息论。这种直不雅长入关于非专科东说念主士来说更为迫切。
领先,信息是摈斥不深信性的。
假定我心里思了一个 1 到 100 的数字,请你来猜。在莫得任何指示的情况下,这等于一个王人备不深信的系统 —— 每个数字的可能性都是终点的。
淌若我告诉你:"今天天气可以,我以为等会咱们可以出去玩,趁机去吃个暖锅"。
这句话你会发现对你臆度毫无作用。
而淌若我告诉你:"这个数字大于 50 "。你的臆度边界就减少了一半,然后你猜了个 75。
我连续说:"这个数字的边界在 60-70 之间"。你的臆度边界进一步消弱,你猜了个 63。
我说:"猜对了!"
通过这个精真金不怕火的游戏,咱们就能长入信息论中的几个中枢观念:
工口游戏在线玩领先,根据信息论中的界说,信息是用来摈斥不深信性的。你试图猜我心中思的数字,通过束缚的尝试,来裁汰这个不深信性。直到你猜到我所思的。
自信息:单个事件发生时带来的信息量。这里的事件指的是我给你的指示。其中"这个数字是 73 "这个事件的自信息就很大,因为它的发生概率很小(1/100)。
信息熵:系统的平均不深信性,当你王人备不知说念我内心所思的时期,信息熵达到最大。
信息增益:赢得这个信息后,系统不深信性减少的进程。它现实上是信息熵的变化量:正本的信息熵 减去赢得信息后的信息熵。在这个对话中," 60-70 之间"能带来的信息增益一定大于"大于 50 ",因为它帮你破除了更多的搅扰。你只需要在 10 个数内部选一个。而不是 50 个数。淌若我顺利告诉你这个数字是 63,那么它会将所有这个词游戏的信息熵降为 0。因为你也曾不需要猜了。
这等于信息的骨子:摈斥不深信性。当你赢得的灵验信息越多,系统的信息熵就越小,你就越接近信源。
再举个生计中的例子。当你在商酌是否购买一件商品时,每条信息都在帮你摈斥不深信性:
"这是一件纯棉 T 恤"(深信了品类和材质)
"价钱 299 元"(深信了价钱区间)
"隔邻店同款 199 元"(这个信息增益很大,可能顺利影响你的有筹画)
很显然,这些观念不仅存在于表面中,更与咱们的日常生计密切相干。每当咱们需要作念有筹画时,都在束缚地收罗信息,评估信息的价值,通过获取高信息增益的内容来匡助咱们作出更好的选拔。但愿这两个例子能够让你有一个直不雅的印象。
当今咱们再来望望伊始的问题,用刚学到的信息论观念来分析一下。当咱们把所有元音都替换成 't' 时,名义上看是亏蚀了一些信息。但英语文本中其实存在无数的"信息冗余"。比如语法结构(主谓宾的位置)、单词搭配(即使" make a decision "中的元音被替换,咱们也豪放能猜出来),以及整句话的语境,这些都在帮咱们摈斥不深信性。即使失去了元音问息,其他信息的存在依然能匡助咱们很猛进程推测出原文。天然,这说的是大部分场景,信息越多,能规复获胜的概率越高。
信息论给咱们的启示
长入了信息的骨子,咱们就能以不同视角看待一些问题:
1. 为什么大模子会"瞎掰八说念"?
我频繁强调大模子回应质地是跟用户的发问质地密切相干的。
当它在面临高度不深信的问题时,莫得有余的信息来裁汰系统的信息熵。就像你在猜数字时,淌若得到的指示太少或者有误导,也可能作出失实的判断。
比较之下,指示词期间这些都是扶持减少信息噪声的关节,中枢只须一个,等于让用户如何澄莹准确的抒发问题。
2. "冗余"的必要性
在信息传递过程中,噪声是不可幸免的。就像在电话里言语,可能会碰到信号不好、配景音嘈杂等情况。这时期,淌若信息莫得任何冗余,一朝受到搅扰,就很难规复出原始信息了。
这个问题在内容讲求类功能中其实异常显然。好多东说念主让大模子讲求著作时,会条件"只给我要点"。限度得到的通常是一堆要点的堆砌。一朝大模子的长入有所诬蔑,就会导致信息失真极为严重。
此外,要点的堆砌诚然信息密度很高,但读起来异常辛勤。这就像把著作中的所有鬼话都删掉,只留住中枢不雅点。名义上看起来很高效,现实上反而增多了读者的长入资本。东说念主类长入信息时需要高下文。那些看似冗余的内容,比如例子、类比、过渡语句,它们就像语言中的语法结构和单词搭配相似,能够匡助咱们的大脑更好地处理和采纳信息。当这些必要的冗余被去掉,即使信息都在那边,咱们也需要破钞更多元气心灵去长入和聚积它们。
3. 信息获取政策
说到如何普及信息获取恶果,我的政策很精真金不怕火:不主动刷新闻。
因为有价值的信息会天然传递。迫切的事情总和会过各式渠说念传到你耳朵里。即使你不主动去征集,该知说念的总会知说念。反而是那些不迫切的信息,淌若你不去主动获取,它们就会天然隐没。
当今 AI 限制每天都在爆出新模子、新冲突。但仔细不雅察就会发现,真实的冲突性阐发很少,大部分都是浅近的科学研究。关于并不需要专注于科研的东说念主来说,莫得必要去刷那么多新闻。
那些真实迫切的冲突,势必会在多个渠说念反复出现,何况会捏续发酵。就像 GPT-4 的发布,它带来的不仅是一个新闻,而是一系列的期间扣问和讹诈探索。这种捏续的信息流才是值得关切的。比如说这几天的 Deepseek。
从信息论的角度看,当一个信息通过多个渠说念重迭出当前,不仅普及了信息的可靠性,更迫切的是通常会带来不同的视角息争读。这些各异适值能匡助咱们更全面地长入这个信息的价值。与其追求信息的全面,不如追求信息的深度。当你对某个限制有有余深的长入时,判断一个新信息的价值通常只需要几秒钟。那些看似错过的信息,很可能对你并不迫切;而那些真实迫切的信息,一定会以各式神色重迭出当今你眼前。
在信息爆炸的期间,保捏定力比追求全面更迫切。让信息天然流动,而不是蹙悚地追赶每一个新闻,这可能才是最高效的信息获取政策。
4. 充满包容的疏通
好多时期并不是对方笨,而是因为你们对信息的长入诀别等。这让我思起一个很异常旨道理的游戏:Tick Tock。一个双东说念主互动游戏,但它不需要通过作事器联机:两个玩家各平定我方的手机上玩,一个东说念主解谜的同期,另一个东说念主要协作完成某些操作。但流弊是两个东说念主并不可看到对方的视角,只可通过其中一方的刻画,来让两边理清处境和需求。
这个游戏无缺地诠释了信息诀别等的骨子。当咱们以为"其他东说念主如何这样笨"的时期,通常不是对方确实笨,而是咱们站在已知信息的角度,忽略了对方的信息盲区。就像在游戏中,淌若莫得跟对方刻画明晰你的画面,他就没法给以你匡助。游戏也就永远无法鼓吹。
咱们频繁吐槽用户使用软件的时期老是"不按套路出牌"。但换个角度思,这不是用户的问题,而是咱们在联想时,莫得商酌到用户的信息解析水平。咱们以为理所天然的操作经过,对用户来说可能充满了不深信性。
其实大模子的使用等于一个很好的笔据。它就像一个莫得阐明书的产物,即使拓荒者也不可王人备了解它。四肢使用者,咱们也在束缚摸索,各式指示词期间都是试出来的。从更高维度看,咱们所有东说念主都是愚蠢的用户。
是以,好的疏通不是精真金不怕火地传递信息,而是要商酌:对方当前的信息情景是什么,如何通过顺应的信息冗余来确保长入,以及如何配置反映机制,考证信息是否被正确接收。
偶然期,咱们需要的可能不是更多的解释,而是更多的包容。毕竟,在信息诀别等的宇宙里,咱们每个东说念主都在靠着我方的解析摸索前行。
本文来自微信公众号:阿茶的 AI 之路,作家:起名贼辛勤的阿茶