如何根据样本估计总体的均值、比例与方差?如何进行参数估计及选择对应公式?

如何根据样本估计总体的均值、⽐例与⽅差?如何进⾏参数估计及选择对应公式?
本章内容:
1. 相关专业名词解释
2. 如何估计⼀个总体参数的范围,及如何选择对应的公式?
3. 如何估计两个总体参数的范围,及如何选择对应的公式?
4. 如何确定总体估计时需要的样本量?
7.1 涉及的专业名词解释
7.1.1 估计量与估计值_名词解释
参数估计
⽤样本统计量去估计总体的参数。
估计量
⽤来估计总体参数的统计量称为估计量,⽤表⽰。样本均值、样本⽐例、样本⽅差都可以是⼀个估计量。  估计值
根据⼀个具体的样本计算出来的估计量的数值,称为估计值。⽐如⽤样本量计算出来的平均值作为总体的平均值,那么这个平均值在这时就称为估计值。
7.1.2 点估计与区间估计
excel中计算指定概率对应的⾯积公式:=normsinv(指定的概率)
例:当显著性为5%时,  点估计
⽤样本统计量的某个取值直接作为总体参数的估计值。⽐如⽤样本均值,作为总体均值的估计值。
在重复抽样条件下,点估计的均值可望等于总体真值。
由于样本是随机的,抽出⼀个具体的样本得到的估计值很可能不同于总体真值,所以在使⽤点估计代表总体参数值时,需要给出点估计值的可靠性,即说明点估计值与总体参数的真实值的接近程度。
由于点估计值的可靠性由抽样标准误差衡量,所以具体的点估计值⽆法给出估计可靠性的度量,故需要围绕点估计值构造总体参数的⼀个区间,这是区间估计。
区间估计
给出总体参数估计的⼀个区间范围,该区间通常由样本统计量加减估计误差得到。
与点估计不同,区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出⼀个概率度量。  置信区间
样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最⼩值称为置信下限,最⼤值称为置信上限。
可以理解为假设在需要估计GMV,估计的正确率需要达到95%,在95%的概率下计算出来GMV处于[100,101],得出的这个区间就是置信区间。
θ
^Z =α/2normsinv (1−)=25%
normsinv (0.975)θ^θx ˉμ
置信⽔平
置信区间中包含总体参数真值的次数所占的⽐例称为置信⽔平,也称为置信度,表⽰为,其中表⽰错误率,也称为显著性⽔平。可以理解为参数估计的正确率,如上述GMV例⼦中的95%。
样本量、置信⽔平与置信区间的关系
当样本量给定时,置信区间的宽度随着置信⽔平的增⼤⽽增⼤;
当置信⽔平固定时,置信区间的宽度随着样本量的增⼤⽽减⼩,即较⼤的样本所提供的有关总体的信息更多。
对置信区间的理解,有3点需注意:
1. 怎么理解置信⽔平为95%的置信区间?
如果⽤某种⽅法构造的所有区间中有95%的区间包含总体样本的真值,5%的区间不包含总体参数的真值,那么⽤该⽅法构造的区间称为置信⽔平为95%的置信区间。
2. 置信区间会因为样本不同⽽不同;
总体参数的真值是固定的、未知的,⽽样本构造的区间是不固定的。所以置信区间是⼀个随机区间,会因为样本的不同⽽不同,⽽且不是所有的区间都包含总体参数的真值。
3. 置信⽔平是针对随机区域⽽⾔的;
不是⽤来描述某个特定区间包含总体参数真值的可能性。
⽐如某班级学⽣平均考试成绩置信⽔平为95%的置信区间为[60,80],不能说60~80分以95%的概率包含全班学⽣平均考试的真值。我们只知道在多次抽样中,95%的样本得到的区间包含全班学⽣平均考试成绩的真值。
7.1.3 评价估计量的标准
⽆偏性
样本期望与总体参数⽆偏,即估计量抽样分布的数学期望等于被估计量总体参数;
设总体参数为,样本的估计量为,如果,则称为的⽆偏估计。当样本均值的期望值等于总体均值,样本⽐例的期望值等于总体⽐例,那么样本⽅差的期望值等于总体误差。
有效性
更⼩标准差的估计量更有效;对同⼀总体参数的两个⽆偏估计量,有更⼩标准差的估计量更有效。
厦门理工学院学报
⼀致性
维度打击估计量与总体⼀致;随着样本量的增⼤,估计量的值越来越接近被估总体的参数,即样本量越⼤,标准差应该越⼩
7.2 如何估计⼀个总体参数的范围,及如何选择对应的分布公式?
总体思路:
根据样本和总体数据集的情况,以及需要求的参数是什么,来选择不同的分布公式。将指标带⼊公式计算,则得到总体的参数估计量。
⽐如:想通过样本数据集,求总体的均值是多少。如果样本数据集是⼤样本,则选择Z分布的公式;如果是⼩样本,则需要看总体的⽅差是否已知,如果总体⽅差不可得,则选择t分布的公式。
1−ααθθ
^E ()=θ^θθ^θ
对不同的参数进⾏估计,对应选择的不同分布
7.2.1 如何对总体均值的区间进⾏估计?
徐州东方集团
不同情况下总体均值的区间估计公式
z分布区间计算的excel公式:
=avg(样本值)±normsinv(1-$\alpha/\sqrt{样本数量}$
印度将中国领土划入直辖区估计总体均值,等于样本均值±给定显著性⽔平下的⾯积*标准差/样本数量开平⽅。即样本均值±均值估计误差
excel中,t分布的临界值公式:=tinv(a,df),其中a为对应与双尾t分布的概率,df为⾃由度。
例如求,其中a=0.05,则公式为:=tinv(0.05,20)
☑  总体均值区间估计的考虑因素:总体是否为正态分布总体⽅差是否已知
估计量的样本是⼤样本(n≥30)还是⼩样本(n<30)
情况⼀:  正态分布,已知;总体不是正态分布,⼤样本
样本均值的抽样分布均为正态分布,,,样本经过标准化以后的随机变量服从标准正态分布:2)∗标准差/t α/2σ2x ˉE ()=x ˉμD ()=
x ˉn σ2
z =∼σ/n −μ
x ˉN (0,1)
根据以上条件,再加上正态分布的性质,可以得出总体均值在置信⽔平下的置信区间为:
称为显著性⽔平,也就是错误率;
称为置信⽔平;
是当显著性⽔平为时的总体⾯积;是总体标准误差;是估计总体均值时的估计误差;
情况⼆:  正态分布,未知;总体不是正态分布,⼤样本**
样本均值的抽样分布均为正态分布,,使⽤样本⽅差代替总体⽅差,样本经过标准化以后的随机变量服从标准正态分布:
根据以上条件,再加上正态分布的性质,可以得出总体均值在置信⽔平下的置信区间为:
财经杂志称为显著性⽔平,也就是错误率;
称为置信⽔平;是估计总体均值时的估计误差;情况三:  正态分布,未知,⼩样本
样本均值的抽样分布均为正态分布,,样本均值经过标准化以后的随机变量则服从⾃由度为(n-1)的t分布:
根据以上条件,再加上正态分布的性质,可以得出总体均值在置信⽔平下的置信区间为:
称为显著性⽔平,也就是错误率;
称为置信⽔平;
是⾃由度为(n-1)时,t分布中右侧⾯积为时的t值;
t分布
类似正态分布的⼀种对称分布,通常⽐正态分布平坦和分散,⼀个特定的t分布依赖于称之为⾃由度的参数。随着⾃由度的增⼤,t分布逐渐趋于正态分布。
μ1−α±x ˉz α/2n
σα1−αz α/2α/2n σz α/2n σ∗∗σ2x ˉE ()=x ˉμs 2σ2z =∼s /n −μ
x ˉN (0,1)
μ1−α±x ˉz α/2n
s α1−αz
α/2n s σ2x ˉE ()=x ˉμt =∼s /n −μ
x ˉt (n −1)
μ1−α±x ˉt α/2n
s α1−αt α/2α/2
7.2.2 如何对总体⽐例的区间进⾏估计?
本章内容的前提条件:
此节只讨论⼤样本情况的总体⽐例的估计问题。
对于总体⽐例的估计,确定样本是否⾜够⼤的⼀般经验规则是:
区间
中不包含0或1,或者要求np≥5和n(1-p)≥5 总体⽐例  已知时:
由样本⽐例p的抽样分布可知,当样本量⾜够⼤时,样本⽐例p的抽样分布可⽤正态分布近似。p的数学期望为;p的⽅差为。样本⽐例经标准化后的随机变量服从标准正态分布,公式如下:
总体⽐例在置信⽔平下的置信区间为:
总体⽐例  未知时:
如果未知,需要⽤样本⽐例p来代替,这时置信区间为:
案例:估算总体⽐例的置信区间
7.2.3 如何对总体⽅差的区间进⾏估计?p ±2p (1−p )/2πE (p )=πσ=p 2
n π(1−π)
z =∼π(1−π)/n p −πN (0,1)
π1−αp ±z α/2n
活性氟化钾π(1−π)πππp ±z α/2n
p (1−p )

本文发布于:2024-09-22 02:07:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/208062.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:总体   样本   估计   参数   区间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议