熵、交叉熵、KL 散度、JS 散度、推⼴的JS 散度公式、互信息 下⾯⽤求和符号展开是针对离散分布⽽⾔的,对于连续分布,使⽤积分代替求和。 霍克船长
熵
熵,⼜称⾹农熵(Shannon entropy),⼀个分布的熵记为,计算公式为: 交叉熵
两个分布和的交叉熵(Cross entropy)记为,计算公式为:
KL 散度
KL散度(Kullback–Leibler divergence)⼜称相对熵(relative entropy),两个分布和的KL散度记为 ,计算公式为:
由熵、交叉熵和KL散度的公式我们可得到三者的关系:
因此在机器学习的优化问题中,假设我们的⽬标分布是。如果在我们的优化过程中是固定的,即不变,那么使⽤和使⽤是等价的,所以我们可以⽤计算更加⽅便的交叉熵⽽不是KL散度来作为Loss函数。 JS 散度
两个分布和的JS散度(Jensen–Shannon divergence)记为,其计算公式为:
P H (P )H (P )=E [−logP (x )]=x ∼P (x )P (x )log i =1∑
n i P (x )i 1
P Q H (P ,Q )H (P ,Q )=E [−logQ (x )]=x ∼P (x )P (x )log i =1∑
n i Q (x )i 1
P Q D (P ∣∣Q )KL D (P ∣∣Q )=KL E [log ]=x ∼P (x )Q (x )P (x )P (x )log i =1∑n i Q (x )
i P (x )i D (P ∣∣Q )KL =P (x )log i =1∑i Q (x )
i P (x )
i =P (x )log −P (x )log i =1∑n i Q (x )i 1i =1∑n
i P (x )
火焰山来的鼓手i 1=H (P ,Q )−H (P )P P H (P )D (P ∣∣Q )KL H (P ,Q )P Q JSD (P ∣∣Q )JSD (P ∣∣Q )=D (P ∣∣)+21KL 2P +Q D (Q ∣∣)
w890i
21KL 2P +Q
对于个分布,其JS散度记为,其中分别是给分布赋予的权重。计算公式为:
实际上,两个分布的JS散度对应了当,且取的情形,即:上述式⼦不难验证,将KL散度的计算公式带⼊JS散度的计算公式,并将每个KL散度展开成交叉熵减去熵的形式,然后再合并就⾏,如下:
互信息
挖坑待填
References
1. /wiki/Entropy_(information_theory)
2. /wiki/Cross_entropy
3. /wiki/Kullback%E2%80%93Leibler_divergence
4. /wiki/Jensen%E2%80%93Shannon_divergence n P ,P ,P ...,P 123n JSD (P ,P ,P ...,P )π,π,π...,π123n 123n π,π,π...,π123n P ,P ,P ...,P 123n JSD (P ,P ,P ...,P )=π,π,π...,π123n 123n H (πP )−i =1∑n i i πH (P )
i =1∑n
i i n =2π=1π=221
JSD (P ∣∣Q )=H ()−2P +Q 2
中国中药杂志
H (P )+H (Q )
JSD (P ∣∣Q )=D (P ∣∣)+D (Q ∣∣)21KL 2P +Q 21KL 2P +Q
=[P (x )log −P (x )log ]+[Q (x )log −Q (x )log ]21i =1∑n i 2P (x )+Q (x )i i 1i =1∑n i P (x )i 121i =1∑n i 2P (x )+Q (x )
雄足球论坛
i i 1i =1∑n i Q (x )i 1=[P (x )log +Q (x )log ]−[P (x )log +Q (x )log ]21i =1∑n i 2P (x )+Q (x )i i 1i =1∑n i 2P (x )+Q (x )
i i 121i =1∑n i P (x )i 1i =1∑n i Q (x )i 1=log −i =1∑n 2P (x )+Q (x )i i 2P (x )+Q (x )
i i 1i =1∑n 2
P (x )log +Q (x )log i P (x )i 1i Q (x )i 1=H ()−2P +Q 2
泰诺星球H (P )+H (Q )