...常用的概率分布(二项分布、泊松分布、指数分布、正态分布...

统计学基础——常⽤的概率分布(⼆项分布、泊松分布、指数
分布、正态分布
变量类型:
1. 连续型变量        如:指数分布、正态分布
2. 离散型变量        如:⼆项分布、泊松分布
三者之间的关系
⼆项分布(Binomial distribution)
⼆项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布,记作。伯努利试验是只有两种可能结果的单次随机试验。
伯努利试验都可以表达为“是或否”的问题。例如,抛⼀次硬币是正⾯向上吗?刚出⽣的⼩孩是个⼥孩吗?等等如果试验E是⼀个伯努利试验,将E独⽴重复地进⾏n次,则称这⼀串重复的独⽴试验为n重伯努利试验。
进⾏⼀次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布,伯努利分布(Bernoulli distribution)⼜名两点分布或0-1分布。
⼆项分布的三个特点:
每次实验结果,只能是两个互斥的结果之⼀。
各次实验独⽴,各次的实验结果互不影响。。
相同的实验条件下,每次实验中事件A的发⽣具有相同的概率。
⼆项分布的概率函数可⽤公式
其中,
对于任何⼆项分布,总有
例1.如果某地钩⾍感染率为13%,随机观察当地150⼈,其中恰好有10⼈感染钩⾍的概率有多⼤?
分析:  (1)钩⾍感染只有两个互斥的结果,即感染与⾮感染; (2)每个⼈被钩⾍感染的概率相同; (3)⼈与⼈之间钩⾍感染可假设为相互独⽴的,所以感染钩⾍的⼈数 X 可认为服从 n = 150,π = 0.13的⼆项分布。
⼆项分布的特征
是⼆项分布的两个参数,所以⼆项分布的形状取决于(阳性率)。
当 =0.5时分布对称,近似对称分布。
当 ≠0.5时,分布呈偏态,特别是  较⼩时, 偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着的增⼤,分布逐
渐逼近正态。
当或  不太⼩,⽽ ⾜够⼤,通常  和  均⼤于或等于5,我们常⽤正态近似的原理来处理⼆项分布的问题。
⼆项分布的正态近似
根据中⼼极限定理,在较⼤,与 均⼤于或等于5时,⼆项分布接近与正态分布。
当 ⽆穷⼤时,⼆项分布B()的极限分布是总体均数为,总体标准差为的正态分布,此时可⽤该正态分布进⾏估计。
⼆项分布的均数和标准差
对于任何⼀个⼆项分布,如果每次试验出现“阳性” 结果的概率均为,则在  次独⽴重复实验中:
1、出现  X 次阳性结果
总体均数(出现阳性结果的次数X的均值):
标准差(出现阳性结果的次数X的标准差):
2、阳性结果的频率记做为
的总体均数(出现阳性结果频率的均值):
标准差(出现阳性结果频率的标准差):
是频率P的标准误,反映阳性频率的抽样误差的⼤⼩。
泊松分布(Poisson distribution)
泊松分布是⼆项分布在阳性率特别⼩时的⼀种情形,⽤于描述单位时间、空间、⾯积等的罕见事件发⽣次数的概率分布,如:每毫升⽔中的⼤肠杆菌数
单位时间(如1分钟)内放射性质点数
每1000个新⽣⼉中某出⽣缺陷、多胞胎、染⾊体异常等事件出现的例数
泊松分布的三个特点:
泊松分布是⼆项分布当中的⼀种特殊情况,则泊松分布也遵循⼆项分布的三个特点:
观察结果相互独⽴
每次试验只有两个结果
发⽣的概率不变
如,⼈中传染性疾病⾸例出现后便成为传染源,会增加后续病例出现的概率,因此病例数的分布不能看作是Poisson分布。
⼜如,污染的⽜奶中细菌成集落存在,单位容量⽜奶中细菌数不能认为服从Poisson分布。
泊松分布分布⼀般记作,其概率函数为:
式中,为Poisson分布的总体均数(表⽰概率); 为观察单位内某稀有事件的发⽣次数; 为⾃然对数的底,为常数,约等于2.71828,⾃然对数的底数e是由⼀个重要极限给出的:当趋于⽆限时,。
深圳银湖旅游中心泊松定理(泊松分布是⼆项分布当中的⼀种特殊情况)
设随机变量服从⼆项分布,即。其中,是与有关的数,且设是常数,则有,
证明:依题设有,代⼊中,有
中日韩有线一卞二苄三卞
对于固定的,有
(根据)
所以,
可见,⼆项分布的极限分布是泊松分布,当n很⼤,很⼩时,可⽤近似代替
,⼀般时,可采⽤上次近似公式代替。
泊松分布的特征
随着的增⼤,Poisson分布逐渐趋于对称分布。
当>20时,Poisson分布可视为近似正态分布。
下图表⽰出了对泊松分布的影响,表⽰泊松分布的均值。当变⼤时,不仅整个分布模式向右移动,数据也更加分散,⽅差随之变⼤。
泊松分布的特性甲基铝氧烷
总体均数与总体⽅差相等:均为 。
对国产电影的看法
可加性:从总体均数分别为  1 和  2 的两个Poisson分布总体中各⾃随机抽出⼀份样本,其中稀有事件的发⽣次数分别为 和 ,则合计发⽣数也服从Poisson分布,总体均数为  1 +  2 。
可加性的运⽤:分5次,每次都是监测5毫升的⽔样,得到的都⽐20⼩,但是5次相加的之后形成的⽐20⼤的话,我们就可以10毫升⽔样当中的细菌数的分布⽤正态近似法了
例:某放射性物质半⼩时内发出的脉冲数服从Poisson分布,平均为  360个,试估计该放射性物质半⼩时内发出的脉冲数⼤于400个的概率。
其中,0.5表⽰连续型校正,表⽰处理离散型变量,应⽤到连续型的正态分布的时候,效果更佳的⼀种修正。
注意:泊松分布不具备可乘性。
指数分布
设随机变量X的分布密度函数为
其中为常数,我们称服从参数为的指数分布,记作,其相应的分布函数为
和的图形见下图。
指数分布的特性
总体均数,总体⽅差。
指数分布通常⽤作各种“寿命”的分布。例如,⽆线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有⼴泛的应⽤。
例、某电⼦元件的使⽤寿命X是⼀个连续型随机变量,其概率密度为
(1)确定常数k
(2)求寿命超过100⼩时的概率
(3)已知该元件已经正常使⽤200⼩时,求它⾄少还能正常使⽤100⼩时的概率。
解:
(1)由概率密度函数性质2知
,得。
(2)寿命超过100⼩时的概率为
(3)条件概率
由(2),(3)可知,该元件寿命超过100⼩时的概率等于已使⽤200⼩时的条件下⾄少还能使⽤100⼩时的概率,这个性质称为指数分布
的“⽆记忆性”。
若随机变量X对任意的都有,则称X的分布具有⽆记忆性。
因此,指数分布具有⽆记忆性,若某元件或动物的寿命服从指数分布,则上式表明,如果已知寿命长于s年,则再“活”t年的概率与s⽆关,即对过去的s时间没有记忆,也就是说只要在某时刻s仍“活”着,它的剩余寿命的分布和原来的寿命分布相同,所以⼈们也戏称指数分布是“永远年轻的”。
神经元模型
正态分布(Normal distribution)
正态分布的概率密度函数(即纵向的曲线⾼度)
规定了曲线的形状,反应了其在横轴上的位置不同。
正态分布的特征
关于对称,即正态分布以均数为中⼼,左右对称。
在处取得概率密度函数的最⼤值,在处有拐点,表现为 钟形曲线。即正态曲线在横轴上⽅均数处最⾼。
正态分布有两个参数,即均数和标准差。是位置参数,是变异度参数(形状参数)。常⽤
表⽰均数为,标准差为的正态分布;⽤表⽰标准正态分布。
正态曲线下⾯积分布有⼀定规律。横轴上正态曲线下的⾯积等于1(也常写作100%)。
正态⽅程的积分式(概率分布函数):
概率分布函数即为正态概率密度曲线下的⾯积 。
为正态变量的累计分布函数,反映正态曲线下,横轴尺度⾃到的⾯积,即下侧累计⾯积。
标准正态分布
均数为0,标准差为1的正态分布,这种正态分布称为标准正态分布。
对于任意⼀个服从正态分布的随机变量,可作如下的标准化变换,也称(z-score)变换:
其中,,标准正态分布的概率密度函数:
标准正态分布⽅程积分式(概率分布函数):
为标准正态变量的累计分布函数,反映标准正态曲线下,横轴尺度⾃到的⾯积,即下侧累计⾯积,如下图所⽰。
标准正态分布表
⽤查表代替计算必须注意:
表中曲线下⾯积为到的⾯积。
当,和已知时,先求出值, ,再⽤Z值查表,得所求区间占总⾯积的⽐例。
当和未知时,要⽤样本均数和样本标准差来估计值,。
曲线下对称于0的区间,⾯积相等。
宋坚
曲线下横轴上的⾯积为1 (即100% )。
正态分布是⼀种对称分布,其对称轴为直线,即均数位置。
理论上:
范围内曲线下的⾯积占总⾯积的68.27%
范围内曲线下的⾯积占总⾯积的95%
范围内曲线下的⾯积占总⾯积的99%
实际上:
范围内曲线下的⾯积占总⾯积的68.27%
范围内曲线下的⾯积占总⾯积的95%
范围内曲线下的⾯积占总⾯积的99%
实际应⽤中,我们⼀般将1.96看似成2,2.58看似成3。

本文发布于:2024-09-21 11:06:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570201.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分布   正态分布   泊松   结果   曲线   出现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议