小样本学习(Few-shotLearning)之特征提取器-最大后验概率估计(MAP)、W。。。

⼩样本学习(Few-shotLearning)之特征提取器-最⼤后验概率估计(MAP)、
W。。。
新的⽅向,在做特征提取器部分发现⽹上知识点分散,在此总结⼀下
⼩样本学习(Few-shot Learning)之特征提取器-最⼤后验概率估计(MAP)、Wasserstein距离、最优传输-Sinkhorn算法
1. 最⼤后验概率估计(MAP)
最⼤后验概率估计(Maximum A Posteriori, MAP)是⼀种常⽤的参数估计⽅法,要弄懂其原理,我们先从统计说起。
1.1 统计
Lary Wasserman 在 All of Statistics 的序⾔⾥有说过概率论和统计推断的区别:
The basic problem that we study in probability is:
Given a data generating process, what are the properities of the outcomes?
The basic problem of statistical inference is the inverse of probability: Given the outcomes, what can we say about the process that generated the data?
埃及穆斯林兄弟会
总结:
概率是已知模型和参数(⽣成数据的过程),推数据(结果)。
统计是已知数据(结果),推模型和参数(⽣成数据的过程)。
统计研究的问题是:已知⼀堆数据,如何利⽤这堆数据去预测模型和参数。
以猪为例。现在我买到了⼀堆⾁,通过观察和判断,我确定这是猪⾁(确定模型。在实际研究中,也是通过观察数据推测模型是/像⾼斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进⼀步研究,判定这猪的品种、喂养⽅式、猪棚的设计、是圈养猪还是跑⼭猪还是⽹易猪,等等(推测模型参数)。
现在我们知道了最⼤后验概率估计(Maximum A Posteriori, MAP)是⼀种统计领域的参数估计⽅法,那么具体如何实现?这需要我们理解贝叶斯思想。
1.2 贝叶斯公式(Bayes’ Theorem)
贝叶斯统计的重点:参数未知且不确定,因此作为随机变量,参数本⾝也是⼀个分布,同时,根据已有的信息可以得到参数θ的先验概率,根据先验概率来推断θ的后验概率。
贝叶斯估计:从**参数的先验知识和样本(数据)**出发。期望后延信息在真实的θ值处有⼀个尖峰。
我们都知道贝叶斯公式(Bayes’ Theorem):
把B展开,可以写成:
这个式⼦就很有意思了。
想想这个情况。⼀辆汽车(或者电瓶车)的警报响了,你通常是什么反应?有⼩偷?撞车了? 不。。 你通常什么反应都没有。因为汽车警报响⼀响实在是太正常了!每天都要发⽣好多次。本来,汽车警报设置的功能是,出现了异常情况,需要⼈关注。然⽽,由于虚警实在是太多,⼈们渐渐不相信警报的功能了。
贝叶斯公式就是在描述,你有多⼤把握能相信⼀件证据?(how much you can trust the evidence)
我们假设响警报的⽬的就是想说汽车被砸了。把计作“汽车被砸了”,计作“警报响了”,带进贝叶斯公式⾥看。我们想求等式左边发⽣的概率,这是在说警报响了,汽车也确实被砸了。
汽车被砸引起(trigger)警报响,即。但是,也有可能是汽车被⼩孩⼦⽪球踢了⼀下、被⾏⼈碰了⼀下等其他原因(统统计作),其他原因引起汽车警报响了,即。
那么,现在突然听见警报响了,这时汽车已经被砸了的概率是多少呢(这即是说,警报响这个证据有了,多⼤把握能相信它确实是在报警说汽车被砸了)?想⼀想,应当这样来计算。⽤警报响起、汽车也被砸了这事件的数量,除以响警报事件的数量(即为(1))。进⼀步展开,即警报响起、汽车也被砸了的事件的数量,除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量(即为
(2))。
思考(2),想让,即警报响了,汽车⼀定被砸了,该怎么做呢?
让即可。很容易想清楚,假若让,即杜绝了汽车被球踢、被⾏⼈碰到等等其他所有情况,那⾃然,警报响了,只剩下⼀种可能——汽车被砸了。这即是提⾼了响警报这个证据的说服⼒。
从这个⾓度总结贝叶斯公式:做判断的时候,要考虑所有的因素。 ⽼板骂你,不⼀定是你把什么⼯作
搞砸了,可能只是他今天出门前和太太吵了⼀架。
再观察(2)右边的分⼦,为汽车被砸后响警报的概率。姑且仍为这是1吧。
但是,若很⼩,即汽车被砸的概率本⾝就很⼩,则仍然很⼩,即(2)右边分⼦仍然很⼩,还是⼤不起来。这⾥,即是常说的先验概率,如果的先验概率很⼩,就算较⼤,可能的后验概率还是不会⼤(假设不变的情况下)。
从这个⾓度思考贝叶斯公式:⼀个本来就难以发⽣的事情,就算出现某个证据和他强烈相关,也要谨慎。证据很可能来⾃别的虽然不是很相关,但发⽣概率较⾼的事情。
spe例: 发现刚才写的代码编译报错,可是我今天状态特别好,这语⾔我也很熟悉,犯错的概率很低。因此觉得是编译器出错了。 ————别,还是先再检查下⾃⼰的代码吧。
1.3 似然函数(likelihood function)和概率函数(probability function)尤里西斯
P (A ∣B )=(1)
P (B )P (B ∣A )P (A )
P (A ∣B )=(2)
P (B ∣A )P (A )+P (B ∣∼A )P (∼A )P (B ∣A )P (A )
A B A ∣B B ∣A ∼A B ∣∼A P (A ∣B )=1P (B ∣∼A )P (∼A )=0P (∼A )=0P (B ∣A )P (A )P (B ∣A )P (A )P (A ∣B )P (A )A P (B ∣A )A P (A ∣B )P (B ∣∼
A )P (∼A )
在统计⾥⾯,似然函数和概率函数是两个不同的概念(其实也很相近就是了)。
  之前我们说到:
  概率是已知模型和参数(⽣成数据的过程),推数据(结果)。
  统计是已知数据(结果),推模型和参数(⽣成数据的过程)。
  对于这个函数:。输⼊有两个:表⽰某⼀个具体的数据;表⽰模型的参数。
如果是已知确定的,是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点,其出现概率是多少。
如果是已知确定的,是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,
出现这个样本点的概率是多少。
例如:
, 即的次⽅。如果是已知确定的(例如),这就是, 这是指数函数。2012年7月3日
如果是已知确定的(例如),这就是,这是⼆次函数。
同⼀个数学形式,从不同的变量⾓度观察,可以有不同的名字。
1.5 最⼤后验概率估计(MAP )
上⼀节我们说到了似然函数和概率函数的区别,这⼀节我们延续⼆者,说⼀说极⼤似然估计(MLE)和最⼤后验概率估计(MAP)。在极⼤似然估计(MLE)中,我们求参数,使得似然函数最⼤。
此时为⼀个待估模型参数,其为变量,未知。为现有数据集,已经确定。
假设有⼀个造币⼚⽣产某种硬币,现在我们拿到了⼀枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反⾯出现的概率(记为)各是多少?
这是⼀个统计问题,回想⼀下,解决统计问题需要什么? 数据!
于是我们拿这枚硬币抛了10次,得到的数据()是:反正正正正反正正正反。我们想求的正⾯概率是模型参数,⽽抛硬币模型我们可以假设是⼆项分布。
那么,出现实验结果(即反正正正正反正正正反)的似然函数是多少呢?
注意,这是个只关于
的函数。⽽最⼤似然估计,顾名思义,就是要最⼤化这个函数。
在时,似然函数取得最⼤值。
这样,我们已经完成了对的最⼤似然估计。即,抛10次硬币,发现7次硬币正⾯向上,最⼤似然估计认为正⾯向上的概率是0.7。⼀些⼈可能会说,硬币⼀般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信。
这⾥就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引⼊了最⼤后验概率估计。
⽽最⼤后验估计(MAP)是根据经验数据获得对难以观察的量的点估计。与最⼤似然估计类似,但是
最⼤的不同时,最⼤后验估计的融⼊了要估计量的先验分布。故最⼤后验估计可以看做规则化的最⼤似然估计。
即最⼤似然估计是求参数, 使似然函数最⼤。
最⼤后验概率估计则是想求,使最⼤,求得的不单单让似然函数⼤,⾃⼰出现的先验概率也得⼤ 。(这有点像正则化⾥加惩罚项的思想,不过正则化⾥是利⽤加法,⽽MAP⾥是利⽤乘法)
P (x ∣θ)x θθx x x θx f (x ,y )=x y x y x x =2f (y )=2y y y =2f (x )=x 2θp (X ∣θ)θX θX θX f (X ∣θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ(1−θ)=73f (θ)
θθ=0.7θθ=0.7θP (X ∣θ)θP (X ∣θ)P (θ)θθ
MAP其实是在最⼤化
不过因为是确定的(即投出的“反正正正正反正正正反”),是⼀个已知值,所以去掉了分母(假设“投10次硬币”是⼀次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则。总之,这是⼀个可以由数据集得到的值(独⽴可忽略))。最⼤化的意义也很明确,已经出现了,要求取什么值使最⼤。顺带⼀提,即后验概率,这就是“最⼤后验概率估计”名字的由来。
最⼤后验概率估计是最⼤似然和贝叶斯估计的结合
这⾥需要说明,虽然从公式上来看 ,但是这两种算法有本质的区别,极⼤似然估计(MLE)将视为⼀个确定未知的值,⽽最⼤后验概率估计(MAP)则将视为⼀个随机变量。
对于投硬币的例⼦来看,我们认为(”先验地知道“)取0.5的概率很⼤,取其他值的概率⼩⼀些。我们⽤⼀个⾼斯分布来具体描述我们掌握的这个先验知识,例如假设
为均值0.5,⽅差0.1的⾼斯函数,如下图:
的函数图像为:
注意,此时函数取最⼤值时,取值已向左偏移,不再是0.7。实际上,在时函数取得了最⼤值。即,⽤最⼤后验概率估计,得到最后,那要怎样才能说服⼀个贝叶斯派相信θ=0.7呢?你得多做点实验。。
如果做了1000次实验,其中700次都是正⾯向上,在时,似然函数取得最⼤值
如果仍然假设为均值0.5,⽅差0.1的⾼斯函数,的函数图像为:
在处,取得最⼤值。
这样,就算⼀个考虑了先验概率的贝叶斯派,也不得不承认得把估计在0.7附近了。
2. Wasserstein 距离(Wasserstein distance)
在各种机器学习算法中,距离的定义都是⾄关重要的,经常对算法的性能有极⼤的影响,也是设计算法时最需要考虑的⼏点之⼀。在很多情况下,我们最熟悉的L2距离就已经很好了,不过⽤⾼级数学到更好的距离计算⽅式,有时就能更上⼀层楼.
2.1 KL 散度
KL散度⼜称为相对熵,信息散度,信息增益。KL散度是是两个概率分布和 差别的⾮对称性的度量。 KL散度是⽤来 度量使⽤基于的编码来编码来⾃的样本平均所需的额外的位元数。 典型情况下,表⽰数据的真实分布,表⽰数据的理论分布,模型分布,或的近似分布。
因为对数函数是凸函数,所以KL散度的值为⾮负数。
一致性检验有时会将KL散度称为KL距离,但它并不满⾜距离的性质:
1. KL散度不是对称的;
2. KL散度不满⾜三⾓不等式。
P (θ∣X )=,
P (X )P (X ∣θ)P (θ)
X P (X )P (X )P (X )=n /1000P (θ∣X )X θP (θ∣X )P (θ∣X )MAP =MLE ∗P (θ)θθθP (θ)P (X ∣θ)P (θ)θθ=0.558θ=0.558
θ=0.7P (θ)P (X ∣θ)P (θ)θ=0.696P (X ∣θ)P (θ)θP Q Q P P Q P KL (P ∣∣Q )=E log =x −P Q P log d x
∫x Q P
2.2 JS 散度
**JS散度(Jensen-Shannon)**度量了两个概率分布的相似度,基于KL散度的变体,解决了KL散度⾮对称的问题。⼀般地,JS散度是对称的,其取值是0到1之间。
KL散度和JS散度度量的时候有⼀个问题:
如果两个分配离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,⽽JS散度值是⼀个常数。这在学习算法中是⽐较致命的,这就意味这这⼀点的梯度为0。梯度消失了。
2.3 Wasserstein 距离
Wasserstein距离度量两个概率分布之间的距离,定义如下:
是和分布组合起来的所有可能的联合分布的集合。对于每⼀个可能的联合分布,可以从中采样得到⼀个样本和,并计算出这对样本的距离,所以可以计算该联合分布下,样本对距离的期望值。 在所有可能的联合分布中能够对这个期望值取到的下界
就是Wasserstein距离。
直观上可以把理解为在这个路径规划下把挪到所需要的消耗。⽽Wasserstein距离就是在最优路径规划下的最⼩消耗。所以Wesserstein距离⼜叫Earth-Mover距离。
Wessertein距离相⽐KL散度和JS散度的优势在于:即使两个分布的⽀撑集没有重叠或者重叠⾮常少,仍然能反映两个分布的远近。⽽JS散度在此情况下是常量,KL散度可能⽆意义。
3. 最优传输-Sinkhorn 算法
3.1 最优传输问题
最优传输(Optimal Transport)关键的⼀点是,要考虑怎样把多个数据点同时从⼀个空间映射到另⼀个空间上去,⽽不是只考虑⼀个数据点。
这⾥借⽤书中⼀个形象例⼦:把⼀堆沙⼦⾥的每⼀铲都对应到⼀个沙雕上的⼀铲沙⼦,怎么搬沙⼦最省⼒⽓,这就是个最优传输问题(注:这⾥“省⼒⽓”等于是cost function,现实中当然有很多不同的cost function来得到不同特点的传输)。
很明显能够看出最优传输和机器学习之间千丝万缕的关系,⽐如GAN本质上就是从输⼊的空间映射到⽣成样本的空间。
3.2 Kantorovich relaxation
要了解Kantorovich问题,⾸先我们先要知道蒙⽇(Monge)问题
出从⼀个 measure到另⼀个measure的映射,使得所有的和最⼩。当然是个cost function,根据具体应⽤定义。这⾥的映射⼀定需要surjective(onto),也就是说上每个元素都⾄少⼜⼀个,。
Kantorovich relaxation可以说是原本蒙⽇问题的⼀个松弛版本咏春传奇电视剧
蒙⽇问题的原本定义中,⼀个measure中的每个元素都要对应到另⼀个measure的⼀个元素上,导致这个定义只能⽤来分析同等⼤⼩的measure (也就是说只能⽐较和最优化permutation)
同时,蒙⽇问题的约束条件,,要求对于measure ⾥的每⼀个元素,都对应到measure ⾥⼀个质量完全相等的元素上。这个约束条件并不是线性的,于是蒙⽇问题很难求解。P ,Q W (P ,P )=12E (x ,y )∼γ∼Π(P ,P )12inf γ[∣∣x −y ∣∣]
(P ,P )∏12P 1P 2γ(x ,y )∼γx y ∣∣x −y ∣∣γE (x ,y )∼γ[∣∣x −y ∣∣]E (x ,y )∼γ∼Π(P ,P )12inf γ[∣∣x −y ∣∣]
E (x ,y )∼γ[∣∣x −y ∣∣]γP 1P 2c (x ,y )i j c βy j x i T (x )=i y j Tα=βαβ

本文发布于:2024-09-22 07:16:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/208205.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:警报   散度   概率   数据   分布
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议