伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

伯努利分布、⼆项分布、多项分布、Beta分布、
Dirichlet分布
1. 伯努利分布
2. ⼆项分布
3. 多项分布
4. 贝塔分布
5. 狄利克雷分布
6. 后记
七月论坛
神华集团有限责任公司本篇博⽂只是将伯努利分布、⼆项分布、多项分布、贝塔分布和狄利克雷分布做了简单的介绍,其中涉及到⼤量的概率基础和⾼等数学的知识,⽂中的介绍只是粗浅的把这些分布的概念作了⼤概介绍,没有对这些分布的产⽣历史做介绍。我想,更好的介绍⽅式,应是从数学史的⾓度,将这⼏项分布的发现按照历史规律来展现,这样会更直观、形象。后续再补吧!
在机器学习领域中,概率模型是⼀个常⽤的利器。⽤它来对问题进⾏建模,有⼏点好处:1)当给定参数分布的假设空间后,可以通过很严格的数学推导,得到模型的似然分布,这样模型可以有很好的概率解释;2)可以利⽤现有的EM算法或者Variational method来学习。通常为了⽅便推导参数的后验分布,会假设参数的先验分布是似然的某个共轭分布,这样后验分布和先验分布具有相同的形式,这对于建模过程中的数学推导可以⼤⼤的简化,保证最后的形式是tractable。
在概率模型中,Dirichlet这个词出现的频率⾮常的⾼。初始机器学习的同学或者说得再⼴⼀些,在学
西安邮电学院学报习概率模型的时候,很多同学都不清楚为啥⼀个表现形式如此奇怪的分布Dirichlet分布会出现在我们的教科书中,它是靠啥关系攀上了多项分布(Multinomial distribution)这个亲戚的,以⾄于它可以“堂⽽皇之”地扼杀我⼤天朝这么多数学家和科学家梦想的?为了引出背后这层关系,我们需要先介绍⼀个概念——共轭先验(Conjugate Prior)。
Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki
⽤中⽂来讲,在贝叶斯统计理论中,如果某个随机变量Θ的后验概率 p(θ|x)和⽓先验概率p(θ)属于同⼀个分布簇的,那么称p(θ|x)和p(θ)为共轭分布,同时,也称p(θ)为似然函数p(x|θ)的共轭先验。
介绍了这个重要的概念之后,我们回到⽂章的正题。⾸先需要弄清楚什么是⼆项分布(Binomial distribution)。这个概念是从伯努利分布推进的。伯努利分
武城二中那么很容易知道后验概率为
另有似然函数
则后验概率
,和Dirichlet 分布形式⼀致。
其实,细⼼的读者已经发现,这⾥这四类分布,如果但从数学形式上看,它们的组织形式都是⼀致的,都是通过乘积的形式构成,加上先验分布、似然函数和后⾔分布之间的乘积推导关系,可以很容易发现,它们所表现出的共轭性质很容易理解。
Beta分布与Dirichlet分布的定义域均为[0,1],在实际使⽤中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为⼆项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都⽤到了Gamma函数,所以,⾸先了解⼀下Gamma函数。
1. Gamma函数
  ⾸先看其表达式
这样的表达看懂都很难,更不知道那些数学家怎么想出来的。据LDA数学⼋卦中记录,在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利),最终由欧拉解决这个问题(这些⼤数学家互相都认识的啊)。
保密工作杂志  Gamma函数是对阶乘在实数领域的扩展,也就是说,,下⾯⽤分部积分的⽅法进⾏推导,如不关⼼,可以略过。
据PRML第71页(2.14)式,Gamma函数在Beta分布和Dirichlet分布中起到了归⼀化的作⽤。
2. Beta分布
  Beta分布描述的是定义在区间[0,1]上随机变量的概率分布,由两个参数和决定,通常记为,其概率密度函数如下
其中,就是Gamma函数,为Beta函数,并且
Beta分布的概率密度函数曲线如下图:(摘⾃wikipedia )
由于Beta分布定义在区间[0,1]上,所以适合作为概率的分布。第⼀段提到Beta分布可作为⼆项分布的先验概率,那就需要从⼆项分布的定义来理解Beta分布的形式。已知⼆项分布的形式为:
对进⾏后验概率估计时,其似然项是和的指数形式,如果先验概率也选择为和的指数形式,那么后验概率就仍然保持这种指数形式,这种性质叫做共轭分布,我们会在后⾯的⽂章中对共轭分布进⾏介绍。
因此,Beta分布就是和的指数形式,其中Beta函数为归⼀化系数。Beta分布的均值和⽅差分别为
3. Dirichlet分布
  Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布,假设有个变量,并且,记,每个对应⼀个参数,记,,那么
它的概率密度函数为结冷胶
  Dirichlet分布的每⼀个随机变量具有统计量如下:
  由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布,所以通常将其⽤作多项分布参数的概率分布。

本文发布于:2024-09-22 05:22:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/475581.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分布   形式   后验   概率   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议