信息熵的理解及推导过程

信息熵的理解及推导过程
⽬录
悬浮机器人信息熵的概述
  看过很多博客,发现⼤多⽂章只是对信息熵做了⼀些⼤致的介绍,如:信息熵代表⼀个随机变量的不确定性程度;也可理解为⼀个随机变量其值域⽤信息量编码后的最⼩码长数学期望。
智能化控制系统  但是对于信息熵的公式为何这样,⽹上没有到相关的推导过程。针对这个问题,从信息熵代表⼀个随机变量其值域⽤信息量编码后的最⼩码长数学期望这⼀物理意义⼊⼿,本⽂使⽤最优化的⽅法,对信息熵公式进⾏了推导。过程中难免存在数学上的严谨性问题,欢迎各位指正。
  随机变量分为离散型和连续型两种,本⽂仅对离散型变量进⾏讨论,关于连续型,其原理也是⼤同⼩异。
离散型随机变量的信息熵公式
  设离散型随机变量X的值域为,其取值为时的概率为,则其信息熵为:
  上⾯公式中,常取b=2,主要是因为计算机编码中常⽤⼆进制编码,所以本⽂也是采⽤b=2进⾏讨论。下⾯谈谈对这个公式的理解。信息熵公式理解
  我们不妨先思考⼀个问题:假设离散型随机变量X的所有状态为,当状态为时的概率为,那么使⽤⼆进制进⾏编码,设每个状态的最终编码长度为,那么分别是多长,才能使得最终的平均编码长度最⼩(即前⾯说的码长期望值最⼩),也即使得下⾯公式最⼩:
  实际上解决了上⾯的问题后,最终会发现,即最⼩的码长期望值,实际上就是随机变量X的信息熵。
编码的约束条件
{x ,x ,...,x ,...x }12i n x i p i H X =()p log i =1∑n
i b p i 1
{x ,x ,...,x ,...x }12i n x i p i x i l i l i L =p l +11p l +22...+p l n n
L =min H X ()
  ⾸先,针对上⾯的求最⼩化问题,我们仅仅是将其要优化的⽬标函数写出来⽽已,现在需要将此优化问题的条件补全,呈现出完整的最优化⽅程进⾏求解。
  我们要使平均码长最⼩,当然会想到使得每个最⼩(最好都等于1),那么这个平均长度⾃然最⼩。但是对应状态数⼤于2的随机变量X来说,这显然不可能,因为如果每个状态的编码长度为1(即编码是0或1),那么最多可以表⽰2个状态,其余状态⽆法表⽰。所以在编
码长度⽅⾯,存在着⼀定的限制条件,此即为我们要的最优化⽅程的限制条件。下⾯讨论⼀下关于编码的限制条件:
1. 假设⽤⼆进制表⽰随机变量X(X的所有状态为),其编码长度不要求相同。如上图所⽰,假设可⽤的码长最长为3,
所以上图中最多能代表的状态数为,现在只要编码4个状态,所以可以个状态的码长均为2(⽤00,01,10,11分别代表4个状态),也可以使⽤如上图所⽰的编码(图中黄⾊节点表⽰该节点还未被编码,绿⾊节点表⽰该节点已经被⽤于编码,灰⾊节点表⽰不能再被⽤于编码),当然也可以⽤其他的编码⽅式。但是⽆论如何进⾏编码,都要符合这个条件:母节点的编码被使⽤后,其下⾯所有的字节点编码均不能再使⽤,不然会导致编码重复,⽆法实现编码的单⼀性。如:⽤编码0来代表,则0下⾯的字节点
均不能为其他状态使⽤(⽐如,假设有3个状态其编码分别为0,1,01,则在使⽤中,如果出现01编码,⽆法判断它是代表的哪个状态,其有可能是01单个状态,也有可能是0、1两个⼀前⼀后的状态。)
2. 现假设最长的编码长度为,则理论上可以编码表⽰个可能状态,但是对于编码为0的状态,显然它⼀个状态就占⽤了⼈家种
可能状态的坑。显然,对于某⼀状态,其编码长度为,则就这⼀个状态就占⽤了⼀共种可能状态的坑。前⾯说过,最长的编码长度为,则理论上只有种可能状态坑,⽽且各个状态的坑之间不能有重叠
(不然⽆法保证单⼀性,最后⽆法辨别,前⾯1中有说),所以就有下⾯这个约束条件:
信息熵公式的推导
  经过前⾯的介绍,我们现在可以将上⾯提到的最⼩编码期望值问题,表⽰成⼀个最优化⽅程的求解问题了。
  问题描述: 对于随机变量X,其所有的可能状态为,各个状态出现的概率分别为,现假设每个状态的编码长度为,其中 ,求最短的平均编码长度,于是可以列出以下最优化式⼦:
氧化沟工艺流程图  显然,平常的编码长度只能是整数问题,所以上⾯的式⼦是整数优化问题。但是对于更⼀般的问题,可以不局限于码长是整数,所以这l i {x ,x ,x ,x }12342=38x 100,01,...,011l X 2l X 2l −1X x i l x i 2l −l X xi
l X 2l X 2≤i =1∑n
真空吸砂机l −l X xi 2⟹l X +2l 11++≤2l n 1
1
x ,x ,...,x {12n }p ,p ,...,p {12n }l ,l ,...,l {12n }l ∈i Z +⎩⎪⎨⎪⎧min s .t .p l +p l +...+p l 1122n n ++...+≤1
2l 112l 212l n 1l ≥0 and  l ∈Z ,  1≤i ≤n
i i +
  显然,平常的编码长度只能是整数问题,所以上⾯的式⼦是整数优化问题。但是对于更⼀般的问题,可以不局限于码长是整数,所以这⾥将码长为整数这⼀限制去除,得到下⾯的优化⽅程:
  不妨令,则可以化简为  再令,可得:  现在假设设取到最优解时,上式约束条件的等号不成⽴,即:,也即有:,则可知 ,也是其中的⼀个解,⽽且显然该解⽐原先的解更好(使得⽬标函数更⼩)。由此可知,当取得最优解时,上式中的约束条件 ⼀定等号成⽴,现将其代⼊表达式可以求解得到最优解。
  将代⼊原最优化式⼦中,有:  当取最⼩值时,对求偏导则均为0,有:
  经过化简可得:
⎩⎪⎨⎪⎧min s .t .p l +p l +...+p l 1122n n ++...+≤1
2l 112l 212l n 1l ≥0,  1≤i ≤n
i l =i ′
−l i ⎩⎪⎪⎨⎪⎪⎧min s .t .−p l +p l +...+p l (11′21′n 1′)
2+2+...+2≤1l 1′l 2′l n ′
l ≤0,  1≤i ≤n i ′I =i 2l i ′
⎩⎪⎨⎪⎧min s .t .−p log I +p log I +...p log I (121222n 2n )
I +I +...+I ≤1
12n 0≤I ,  1≤i ≤n
i I ,I ,...,I {1′2′n ′}I +1′I +2′...+I <n ′1I +1′I +2′...+I +n ′I =x ′1,while  I >x ′0I ,I ,...I ,...,I ,while  I ={1′2′i ′′n ′}i ′′I +i ′I x I +1I +2...+I ≤n 1I +1I +2...+I =n 1⟹I =n 1−I ∑i =1n −1
i {min
s .t −p log I +p log I +...+p log I +p log 1−I [121222n −12n −1n 2(∑i =1n −1
i )]0≤I ≤1,  1≤i ≤n −1i I ,I ,...,I 12n −1⎩⎪⎪⎨⎪⎪⎧−=0I ln21p 11−I ln2(
∑i =1n −1i )p n ...−=0I ln2n −1p n −11−I ln2(∑i =1n −1i )p n ⎩⎪⎨⎪⎧p 1−I −...−I =p I =p I ⟹=1(1n −1)1n n 1p 1I 1p n I n ...p 1−I −...−I =p I =p I ⟹=n −1(1n −1)n −1n n n −1p n −1I n −1p n
线圈耳机I n
  即最优解为:,也即。
跑偏传感器  代⼊原式,则最短的平均编码长度为:,此式和信息熵的公式完全相同,上⾯的推导便也可看成是信息熵的
⼀种推导过程。  最后,对于信息熵的物理意义,我们可以这样进⾏理解:对于⼀个随机变量X,其各个状态出现的概率不同,我们要对其进⾏编码,所求得的最短平均编码长度便为信息熵。⟹=p 1I 1=p ==p n −1I n −1,while  I =p n I n i =1∑n i p =i =1∑n
i 1I =1p ,I =12p ,...,I =2n p n l =1−log I =21−log p ,l =212−log I =22−log p ,...,l =22n −log I =2n −log p 2n H X =()p log ∑i =1n i 2p i 1

本文发布于:2024-09-23 06:26:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/219086.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:编码   状态   问题   长度   信息熵
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议