最大似然估计与交叉熵的关系

最大似然估计与交叉熵的关系
1 引言
我们常估计参数,而这些估计是从那里来的呢?
我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计,而不是猜测某些函数可能是好的估计,然后分析其偏差和方差。
最常用的准则是最大似然估计。如果你从事和数据处理相关的工作,一定不会避开最大似然估计这个概念,
它是一种非常强大的工具,和深度学习领域中经常用的交叉熵有一定的关系。
2 最大似然函数
复印机的危害考虑一组含有 m 个样本的数据集 X = {x1, ..., xm}, 独立地由未知的真实数据生成分布 pdata(x; θ) 是由一族 θ 确定在相同空间上的概率分布。换言之,pmodel(x; θ) 将任意输入 x 映射到实数来估计真实概率 Pdata(x).对最大似然估计被定义为
多个概率的乘积会因很多原因不便于计算。例如,计算中很可能会出现数值下溢。为了得到一个便于计算的等价优化问题,我们观察到似然对数不会改变其 arg max,但是将乘积转化成便于计算的求和形式:
因为当重新缩放代价函数时 arg max 不会改变,我们可以除以 m 得到和训练数据经验分布 p̂modigliani北京9天增205例data 相关的期望作为准则:
3 KL散度解释最大似然
一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布p̂data 和模型分布之间的差异,两者之间的差异程度可以通过 KL 散度度量。KL 散度被定义为:
左边一项仅涉及数据生成过程(和实际数据有关,是常数),和模型参数无关。这意味着当训练模型最小化 KL 散度时,我们只需要最小化
动物学杂志
这和式 (1) 中最大化是相同的。
最小化 Kl 散度其实就是在最小化分布之间的交叉熵。任何一个负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。
例如,均匀误差是经验分布和高斯分布模型之间的交叉熵。我们可以将最大似然看作使模型分布尽可能地和经验分布 p̂data 相匹配的尝试。
理想情况下,我们希望匹配真实的数据生成分布 pdata,但我们无法直接知道这个分布。虽然最优 θ 在最大似然或是最小化 KL 散度时是相同的,但目标函数值是不一样的。
在软件中,我们通常将两者都称为最小化代价函数。因此最大化似然函数变成了最小化负对数似然 (NLL),或者等价的是最小化交叉熵。
将最大化似然看作最小化 KL散度的视角在这个情况下是有帮助的,因为已知 KL 散度最小值是零。当 x 取实数时,负对数似然是负数。
4 最大似然估计的缺点
品牌定位理论似然函数 p(x|w) 和概率 p(x|w) 之间的区别在于:概率 p(x|w) 描述的是固定参数 w 时随机变量 x 的分布情况,而似然概率 p(x|w) 则是描述已知随机变量 x 时不同的参数对其分布的影响。
最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确。
为了避免过拟合,可以加上正则化项,我们也可以给参数加上一些先验知识,利用贝叶斯估计中的最大后验概率估计估计参数。
那么什么是贝斯斯估计?什么是最大后验估计?和最大似然的关系是什么?
三门峡工程请等待下次分享。

本文发布于:2024-09-21 13:33:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570202.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:估计   分布   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议