关于信息论,入门者能知道什么通俗内容?

关于信息论,入门者能知道什么通俗内容?
我是怀着学习信息论的目的翻开这本书的。
显然,学习新的学科,最经典的方式是打开一本教科书。然而,当我兴冲冲的翻开《信息论与编码》时,我看到的是这个:
《信息论与编码》的一页
MMP……
经过多方检索,发现了早早躺在书架的《信息简史》居然是关于信息论的科普读物,赶紧开始。
读完,收获颇丰。
————————————————
一、关于信息论,我们要明白它要解决的问题是什么。
在一点精确地或近似地复现在另一点所选取的信息。——克劳德·香农
很好理解,在对话时,传递信息的目的就是将一方的想法传递给另一方,即「在我的脑中精确或近似地复现在你脑中所选取的信息」。因而,信息论和密码学本质上是一件事。密码的本质目的,也是使信息从一处向另一处转移,只不过是多施加了保护而已。
信息论的诞生背景,恰好是二战时盟军破译德国情报部门的Enigma密码。(有兴趣的话,可以看电影《模拟游戏》,以阿兰·图灵为主角讲述该历史故事)密码系统的特点是什么呢?就是都需要使用「密钥」。密钥可能是某个词、某本书或者更复杂的东西。但不管是什么,它都是发送者和接受者共享的一个字符的来源。在香农看来,密码系统由以下几部分组成:有限数量的可能讯息(但有可能极大,比如所有中文能表达的意思)、有限数量的可能密文、以及两者相互转换所用的有限数量的密钥,每个密钥都有相应的出现概率。
香农的密码结构
书中没有提密码学的具体细节。不过,香农在研究密码学的报告中,首次提出了信息论的概念
———————————————
二、信息论中的「信息」是什么意思?
石家庄铁道学院学报信息论中的信息,和日常用语中的信息意思有所差别。香农将信息中的「意义」剥离。举例来说,在信息论中,red仅仅是「red」这个3个字母组成的字符而已,而至于red所代表的「红」,不是信息论所关注的内容。换言之,信息论只是负责将「red」从老王这里复现到老张这里。至于「red」在老王这里代表「红」而在老张那里代表「绿」,不是信息论关心的事情。
伏羲八卦拳在这里多说一句,确定一个概念的边沿是非常重要的。在牛顿之前,motion(运动)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代及其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂······而牛顿重新定义了运动的概念,即物体在一段时间内从一点到另一点的移动轨迹。因而,牛顿才能对其进行描述,即点与点之间的长度、所经过的时间。因而,牛顿才能提出速度、加速度等概念。而后,牛顿又重新定义了「质量」「密度」「体积」等概念,最终才得以构建经典物理体系。
在做讨论某个问题的时候,我们首先要明确对象究竟是什么,给它一个清晰的定义与边界。
————————————————
三、信息传递的结构是什么?(其实按信息论的说法,不是「传递」,而是「复现」)
香农的通信结构
信息传递的过程(即通信系统)包括5个要素:
信源:产生讯息的人或机器。
发送器:对讯息执行某种操作(即对讯息编码),以得到是适当的信号。
信道:传输信号所使用的媒介。
接收器:执行发送器的逆操作,对讯息解码,或从信号中提取出信息。
信宿:接受讯息的人。
以你我谈话为例。其对应关系为:
信源——我
发送器——我的声带
信道——空气
接收器——你的耳朵
信宿——你
此外,在香农的理论中,还有一个概念:「噪声」。
噪声涵盖一切会削弱信号的东西,比如多余的附加信号、明显的错误、随机干扰、干涉等等。这些噪声有的可以事先预测,有的则不可以。
如果想要在一个信道上传递跟过的信息,工程师的做法往往是增大信源的输出功率。但是,这种方法存在问题。因为一次又一次的放大信号,只会导致噪声的逐渐积累。
中国知行网
对此,香农提出的解决方法是,用额外的符号进行纠错。举例来说,write和right的发音相同,当单一传送语音write的时候,接受方并不知道是write还是right。但如果加上write with your hand,接受方就明确必须是write。这就是用额外的符号纠错的方法。(BTW,在中文中,这种现象更明显,因为汉字发音相同的现象太过广泛了。)
但香农并不止于此,他将统计概率融入了信息论的结构中,彻底确立了信息论应用数学的属性。香农发现,每个讯息与下一个符号之间既不是决定论(下一个符号可以被精确算出),也不是完全随机(下一符号完全不受上一讯息的影响),而是由一组概率决定。举例来说,在发送英文信息时,t后面出现h的概率,就比出现q的概率高,因为th是英文中常见的字幕组合,而tq则不是。这就是讯息的「统计结构」。
香农发展了讯息对下一符号的概率关系,提出了不同位阶的关系。
零阶近似:即每个字符与其他字符之间不存在关系,但各自出现的频率符合英语中字母出现的频率,单词长度也接近真实英语单词的长度。 武经七书直解
例如:XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD。
二阶近似:不仅单个字母,双字母组合的出现的频率也符合英语的情况。
书目文献出版社
例如:ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN DILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE。
三阶近似:即三字母组合。不举例了。
一阶单词近似: REPRESENTAING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HADE THESE.
二阶单词近似:双单词组合以英语中「期望」(数学概念)的频率出现,也就不会出现「to of」的情况。
举例:THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF HTIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.
可以看出,随着阶数的上升,字符串看起来越来越像真正的英语了。所以,这可以说明,讯息可以看成一个随机过程的结果。
这时,我们就来到的信息论的核心:如何计量一个信息的信息量?
————————————————
四、如何定义一个信息量的大小?
香农进一步的得出结论:信息量=不确定性=选择。
如何理解?以英语为例。英语中的符号有26个字母,那么每个2字单词的生成,实际上就是在26个字母中选择2个。比如at这个单词,就是从26个字母中先选出a,再从26个字母中选出t。也就是at这个单词,是消除了第一个字母的26种可能的不确定性,和第二个字母的26种可能的不确定性。因此,一个信息的作用,就在于消除我们在不知道这个信息时所存在的不确定性。这也就是「信息量=不确定性=选择」的结论由来。
香农选取了一个最简单的情况,就是可能的符号的数目为2(在英文的情况就是,字母表中只有2个字母)时,计算信息量的公式:
H = -∑pi log2(pi)
其中pi是指可能讯息出现的概率。比如在一个2位的字符串「黑桃A」中,第1位字符,可能出现「黑桃」的概率是25%,出现其他花的概率是75%。则p1(即i=1)为25%。第2位字符,出现A的概率是50%,出现其他数字「2」(假设一共只有2个数字)的概率为50%。则p2为50%。那么「黑桃A」所代表的信息量 H = - [log2 (25%)+ log2(50%)]= -[(-2)+(-1)]= 3 ,单位是bit。
这里,我们就要碰到一个新概念:「冗余」。
什么叫冗余呢?举例来说,「我今天晚上吃了晚饭」这句话中,「晚上」显然是多余的,删掉它对表达这句话的含义没有任何影响。「晚上」在这句话中,就是「冗余」。
英语中存在大量的冗余,比如:
if u cn rd ths
u cn gt a gd jb w hi pa!
你是不是能读懂这句话?
系统脱敏疗法案例
(If you can read this, you can get a good job with high pay!)

本文发布于:2024-09-23 10:24:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/575443.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信息论   信息   讯息   出现   概念
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议