首页 > 学术百科

小样本学习（Few-shotLearning）之特征提取器-最大后验概率估计（MAP）、W。。。

⼩样本学习（Few-shotLearning）之特征提取器-最⼤后验概率估计（MAP）、

W。。。

新的⽅向，在做特征提取器部分发现⽹上知识点分散，在此总结⼀下

⼩样本学习（Few-shot Learning）之特征提取器-最⼤后验概率估计（MAP）、Wasserstein距离、最优传输-Sinkhorn算法

1. 最⼤后验概率估计（MAP）

最⼤后验概率估计（Maximum A Posteriori, MAP）是⼀种常⽤的参数估计⽅法，要弄懂其原理，我们先从统计说起。

1.1 统计

Lary Wasserman 在 All of Statistics 的序⾔⾥有说过概率论和统计推断的区别：

The basic problem that we study in probability is:

Given a data generating process, what are the properities of the outcomes?

The basic problem of statistical inference is the inverse of probability: Given the outcomes, what can we say about the process that generated the data?

埃及穆斯林兄弟会

总结：

概率是已知模型和参数（⽣成数据的过程），推数据（结果）。

统计是已知数据（结果），推模型和参数（⽣成数据的过程）。

统计研究的问题是：已知⼀堆数据，如何利⽤这堆数据去预测模型和参数。

以猪为例。现在我买到了⼀堆⾁，通过观察和判断，我确定这是猪⾁（确定模型。在实际研究中，也是通过观察数据推测模型是／像⾼斯分布的、指数分布的、拉普拉斯分布的等等），然后，可以进⼀步研究，判定这猪的品种、喂养⽅式、猪棚的设计、是圈养猪还是跑⼭猪还是⽹易猪，等等（推测模型参数）。

现在我们知道了最⼤后验概率估计（Maximum A Posteriori, MAP）是⼀种统计领域的参数估计⽅法，那么具体如何实现？这需要我们理解贝叶斯思想。

1.2 贝叶斯公式(Bayes’ Theorem)

贝叶斯统计的重点：参数未知且不确定，因此作为随机变量，参数本⾝也是⼀个分布，同时，根据已有的信息可以得到参数θ的先验概率，根据先验概率来推断θ的后验概率。

贝叶斯估计：从**参数的先验知识和样本（数据）**出发。期望后延信息在真实的θ值处有⼀个尖峰。

我们都知道贝叶斯公式(Bayes’ Theorem)：

把B展开，可以写成：

这个式⼦就很有意思了。

想想这个情况。⼀辆汽车（或者电瓶车）的警报响了，你通常是什么反应？有⼩偷？撞车了？不。。你通常什么反应都没有。因为汽车警报响⼀响实在是太正常了！每天都要发⽣好多次。本来，汽车警报设置的功能是，出现了异常情况，需要⼈关注。然⽽，由于虚警实在是太多，⼈们渐渐不相信警报的功能了。

贝叶斯公式就是在描述，你有多⼤把握能相信⼀件证据？（how much you can trust the evidence）

我们假设响警报的⽬的就是想说汽车被砸了。把计作“汽车被砸了”，计作“警报响了”，带进贝叶斯公式⾥看。我们想求等式左边发⽣的概率，这是在说警报响了，汽车也确实被砸了。

汽车被砸引起（trigger）警报响，即。但是，也有可能是汽车被⼩孩⼦⽪球踢了⼀下、被⾏⼈碰了⼀下等其他原因（统统计作），其他原因引起汽车警报响了，即。

那么，现在突然听见警报响了，这时汽车已经被砸了的概率是多少呢（这即是说，警报响这个证据有了，多⼤把握能相信它确实是在报警说汽车被砸了）？想⼀想，应当这样来计算。⽤警报响起、汽车也被砸了这事件的数量，除以响警报事件的数量（即为（1））。进⼀步展开，即警报响起、汽车也被砸了的事件的数量，除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量（即为

（2））。

思考（2），想让，即警报响了，汽车⼀定被砸了，该怎么做呢？

让即可。很容易想清楚，假若让，即杜绝了汽车被球踢、被⾏⼈碰到等等其他所有情况，那⾃然，警报响了，只剩下⼀种可能——汽车被砸了。这即是提⾼了响警报这个证据的说服⼒。

从这个⾓度总结贝叶斯公式：做判断的时候，要考虑所有的因素。⽼板骂你，不⼀定是你把什么⼯作

搞砸了，可能只是他今天出门前和太太吵了⼀架。

再观察（2）右边的分⼦，为汽车被砸后响警报的概率。姑且仍为这是1吧。

但是，若很⼩，即汽车被砸的概率本⾝就很⼩，则仍然很⼩，即（2）右边分⼦仍然很⼩，还是⼤不起来。这⾥，即是常说的先验概率，如果的先验概率很⼩，就算较⼤，可能的后验概率还是不会⼤（假设不变的情况下）。

从这个⾓度思考贝叶斯公式：⼀个本来就难以发⽣的事情，就算出现某个证据和他强烈相关，也要谨慎。证据很可能来⾃别的虽然不是很相关，但发⽣概率较⾼的事情。

spe例：发现刚才写的代码编译报错，可是我今天状态特别好，这语⾔我也很熟悉，犯错的概率很低。因此觉得是编译器出错了。 ————别，还是先再检查下⾃⼰的代码吧。

1.3 似然函数(likelihood function)和概率函数(probability function)尤里西斯

P (A ∣B )=（1）

P (B )P (B ∣A )P (A )

P (A ∣B )=(2)

P (B ∣A )P (A )+P (B ∣∼A )P (∼A )P (B ∣A )P (A )

A B A ∣B B ∣A ∼A B ∣∼A P (A ∣B )=1P (B ∣∼A )P (∼A )=0P (∼A )=0P (B ∣A )P (A )P (B ∣A )P (A )P (A ∣B )P (A )A P (B ∣A )A P (A ∣B )P (B ∣∼

A )P (∼A )

在统计⾥⾯，似然函数和概率函数是两个不同的概念（其实也很相近就是了）。

之前我们说到：

概率是已知模型和参数（⽣成数据的过程），推数据（结果）。

统计是已知数据（结果），推模型和参数（⽣成数据的过程）。

对于这个函数：。输⼊有两个：表⽰某⼀个具体的数据；表⽰模型的参数。

如果是已知确定的，是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点，其出现概率是多少。

如果是已知确定的，是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，

出现这个样本点的概率是多少。

例如:

, 即的次⽅。如果是已知确定的(例如)，这就是, 这是指数函数。2012年7月3日

如果是已知确定的(例如)，这就是，这是⼆次函数。

同⼀个数学形式，从不同的变量⾓度观察，可以有不同的名字。

1.5 最⼤后验概率估计（MAP ）

上⼀节我们说到了似然函数和概率函数的区别，这⼀节我们延续⼆者，说⼀说极⼤似然估计（MLE）和最⼤后验概率估计（MAP）。在极⼤似然估计（MLE）中，我们求参数，使得似然函数最⼤。

此时为⼀个待估模型参数，其为变量，未知。为现有数据集，已经确定。

假设有⼀个造币⼚⽣产某种硬币，现在我们拿到了⼀枚这种硬币，想试试这硬币是不是均匀的。即想知道抛这枚硬币，正反⾯出现的概率（记为）各是多少？

这是⼀个统计问题，回想⼀下，解决统计问题需要什么？数据！

于是我们拿这枚硬币抛了10次，得到的数据（）是：反正正正正反正正正反。我们想求的正⾯概率是模型参数，⽽抛硬币模型我们可以假设是⼆项分布。

那么，出现实验结果（即反正正正正反正正正反）的似然函数是多少呢？

注意，这是个只关于

的函数。⽽最⼤似然估计，顾名思义，就是要最⼤化这个函数。

在时，似然函数取得最⼤值。

这样，我们已经完成了对的最⼤似然估计。即，抛10次硬币，发现7次硬币正⾯向上，最⼤似然估计认为正⾯向上的概率是0.7。⼀些⼈可能会说，硬币⼀般都是均匀的啊！就算你做实验发现结果是“反正正正正反正正正反”，我也不信。

这⾥就包含了贝叶斯学派的思想了——要考虑先验概率。为此，引⼊了最⼤后验概率估计。

⽽最⼤后验估计（MAP）是根据经验数据获得对难以观察的量的点估计。与最⼤似然估计类似，但是

最⼤的不同时，最⼤后验估计的融⼊了要估计量的先验分布。故最⼤后验估计可以看做规则化的最⼤似然估计。

即最⼤似然估计是求参数, 使似然函数最⼤。

最⼤后验概率估计则是想求，使最⼤，求得的不单单让似然函数⼤，⾃⼰出现的先验概率也得⼤。（这有点像正则化⾥加惩罚项的思想，不过正则化⾥是利⽤加法，⽽MAP⾥是利⽤乘法）

P (x ∣θ)x θθx x x θx f (x ,y )=x y x y x x =2f (y )=2y y y =2f (x )=x 2θp (X ∣θ)θX θX θX f (X ∣θ)=(1−θ)×θ×θ×θ×θ×(1−θ)×θ×θ×θ×(1−θ)=θ(1−θ)=73f (θ)

θθ=0.7θθ=0.7θP (X ∣θ)θP (X ∣θ)P (θ)θθ

MAP其实是在最⼤化

不过因为是确定的（即投出的“反正正正正反正正正反”），是⼀个已知值，所以去掉了分母（假设“投10次硬币”是⼀次实验，实验做了1000次，“反正正正正反正正正反”出现了n次，则。总之，这是⼀个可以由数据集得到的值(独⽴可忽略)）。最⼤化的意义也很明确，已经出现了，要求取什么值使最⼤。顺带⼀提，即后验概率，这就是“最⼤后验概率估计”名字的由来。

最⼤后验概率估计是最⼤似然和贝叶斯估计的结合

这⾥需要说明，虽然从公式上来看，但是这两种算法有本质的区别，极⼤似然估计(MLE)将视为⼀个确定未知的值，⽽最⼤后验概率估计(MAP)则将视为⼀个随机变量。

对于投硬币的例⼦来看，我们认为（”先验地知道“）取0.5的概率很⼤，取其他值的概率⼩⼀些。我们⽤⼀个⾼斯分布来具体描述我们掌握的这个先验知识，例如假设

为均值0.5，⽅差0.1的⾼斯函数，如下图：

则

的函数图像为：

注意，此时函数取最⼤值时，取值已向左偏移，不再是0.7。实际上，在时函数取得了最⼤值。即，⽤最⼤后验概率估计，得到最后，那要怎样才能说服⼀个贝叶斯派相信θ=0.7呢？你得多做点实验。。

如果做了1000次实验，其中700次都是正⾯向上，在时，似然函数取得最⼤值

如果仍然假设为均值0.5，⽅差0.1的⾼斯函数，的函数图像为：

在处，取得最⼤值。

这样，就算⼀个考虑了先验概率的贝叶斯派，也不得不承认得把估计在0.7附近了。

2. Wasserstein 距离(Wasserstein distance)

在各种机器学习算法中，距离的定义都是⾄关重要的，经常对算法的性能有极⼤的影响，也是设计算法时最需要考虑的⼏点之⼀。在很多情况下，我们最熟悉的L2距离就已经很好了，不过⽤⾼级数学到更好的距离计算⽅式，有时就能更上⼀层楼.

2.1 KL 散度

KL散度⼜称为相对熵，信息散度，信息增益。KL散度是是两个概率分布和差别的⾮对称性的度量。 KL散度是⽤来度量使⽤基于的编码来编码来⾃的样本平均所需的额外的位元数。典型情况下，表⽰数据的真实分布，表⽰数据的理论分布，模型分布，或的近似分布。

因为对数函数是凸函数，所以KL散度的值为⾮负数。

一致性检验有时会将KL散度称为KL距离，但它并不满⾜距离的性质：

1. KL散度不是对称的；

2. KL散度不满⾜三⾓不等式。

P (θ∣X )=,

P (X )P (X ∣θ)P (θ)

X P (X )P (X )P (X )=n /1000P (θ∣X )X θP (θ∣X )P (θ∣X )MAP =MLE ∗P (θ)θθθP (θ)P (X ∣θ)P (θ)θθ=0.558θ=0.558

θ=0.7P (θ)P (X ∣θ)P (θ)θ=0.696P (X ∣θ)P (θ)θP Q Q P P Q P KL (P ∣∣Q )=E log =x −P Q P log d x

∫x Q P

2.2 JS 散度

**JS散度(Jensen-Shannon)**度量了两个概率分布的相似度，基于KL散度的变体，解决了KL散度⾮对称的问题。⼀般地，JS散度是对称的，其取值是0到1之间。

KL散度和JS散度度量的时候有⼀个问题：

如果两个分配离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，⽽JS散度值是⼀个常数。这在学习算法中是⽐较致命的，这就意味这这⼀点的梯度为0。梯度消失了。

2.3 Wasserstein 距离

Wasserstein距离度量两个概率分布之间的距离，定义如下：

是和分布组合起来的所有可能的联合分布的集合。对于每⼀个可能的联合分布，可以从中采样得到⼀个样本和，并计算出这对样本的距离，所以可以计算该联合分布下，样本对距离的期望值。在所有可能的联合分布中能够对这个期望值取到的下界

就是Wasserstein距离。

直观上可以把理解为在这个路径规划下把挪到所需要的消耗。⽽Wasserstein距离就是在最优路径规划下的最⼩消耗。所以Wesserstein距离⼜叫Earth-Mover距离。

Wessertein距离相⽐KL散度和JS散度的优势在于：即使两个分布的⽀撑集没有重叠或者重叠⾮常少，仍然能反映两个分布的远近。⽽JS散度在此情况下是常量，KL散度可能⽆意义。

3. 最优传输-Sinkhorn 算法

3.1 最优传输问题

最优传输(Optimal Transport)关键的⼀点是，要考虑怎样把多个数据点同时从⼀个空间映射到另⼀个空间上去，⽽不是只考虑⼀个数据点。

这⾥借⽤书中⼀个形象例⼦：把⼀堆沙⼦⾥的每⼀铲都对应到⼀个沙雕上的⼀铲沙⼦，怎么搬沙⼦最省⼒⽓，这就是个最优传输问题（注：这⾥“省⼒⽓”等于是cost function，现实中当然有很多不同的cost function来得到不同特点的传输）。

很明显能够看出最优传输和机器学习之间千丝万缕的关系，⽐如GAN本质上就是从输⼊的空间映射到⽣成样本的空间。

3.2 Kantorovich relaxation

要了解Kantorovich问题，⾸先我们先要知道蒙⽇（Monge）问题

出从⼀个 measure到另⼀个measure的映射，使得所有的和最⼩。当然是个cost function，根据具体应⽤定义。这⾥的映射⼀定需要surjective（onto），也就是说上每个元素都⾄少⼜⼀个,。

Kantorovich relaxation可以说是原本蒙⽇问题的⼀个松弛版本咏春传奇电视剧

蒙⽇问题的原本定义中，⼀个measure中的每个元素都要对应到另⼀个measure的⼀个元素上，导致这个定义只能⽤来分析同等⼤⼩的measure （也就是说只能⽐较和最优化permutation）

同时，蒙⽇问题的约束条件，，要求对于measure ⾥的每⼀个元素，都对应到measure ⾥⼀个质量完全相等的元素上。这个约束条件并不是线性的，于是蒙⽇问题很难求解。P ,Q W (P ,P )=12E (x ,y )∼γ∼Π(P ,P )12inf γ[∣∣x −y ∣∣]

(P ,P )∏12P 1P 2γ(x ,y )∼γx y ∣∣x −y ∣∣γE (x ,y )∼γ[∣∣x −y ∣∣]E (x ,y )∼γ∼Π(P ,P )12inf γ[∣∣x −y ∣∣]

E (x ,y )∼γ[∣∣x −y ∣∣]γP 1P 2c (x ,y )i j c βy j x i T (x )=i y j Tα=βαβ

本文发布于:2024-09-22 07:16:19，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/208205.html

上一篇：计量经济学：异方差,序列相关,多重共线,随机解释变量习题以及解析

下一篇：基因预测原理介绍

标签：警报散度概率数据分布

留言与评论（共有 0 条评论）