样本容量确定

第三节 样本容量的确定
    在区间估计中我们发现,对于某一个总体的参数进行估计时,在样本数目一定的条件下,要提高估计结果的可靠性,就需要扩大置信区间,这就要增加估计中的误差,减少了估计的实际意义。如果要减少估计的误差,就要缩短置信区间,但这样就必须要降低估计的可靠性。可见在样本数目一定的条件下,估计的精确性和估计的可靠性不能两全其美。既要提高估计的精确性,减少误差,又要提高估计可靠性的办法就是增加样本容量。但是增加样本就要同时增加抽样调查的成本,同时又可能延误时间。因此就需要研究能够满足对估计的可靠性和精确性要求的最小样本数问题。
    一、均值估计问题中,样本大小的决定
    在总体均值的估计问题中,要决定必要的样本大小,必须先明确如下三个问题:
    1. 要规定允许的估计误差的大小,即允许的估计值与实际值之间的最大偏离值是多少,实际上也就是估计区间的大小,
    2. 规定置信度,即估计所要求达到的可靠性,也就是实际的抽样误差不超过所规定的误差
的可信度。
    3. 要明确总体的标准差,即要求了解总体的分布情况。总体的标准差小,只要抽较少的样本就能满足对估计精确度和可靠性的要求,若总体标准差大,就必须抽取较多的样本才能达到对估计精确度和可靠性的要求。
    设总体标准差为,样本均值的标准差为。估计的置信度为,于是可以相应地得到置信系数。于是对总体均值的估计可由下式得到:
   
    上式中的实际上就表示估计所允许的最大误差,我们用Δ表示,于是根据上式有
 
则 
    由此只要规定了允许误差的大小Δ和总体的标准差σ,由置信度查表得到相应的,代入公式,求得满足要求的最小整数就是满足估计误差不大于Δ和置信度为的要求的最少样本数。
    上述公式适用于重复抽样或无限总体不放回抽样时的情形。但对于有限总体不放回抽样的情形,公式变为如下的形式:
 
    由此可求得满足上式要求的最小的整数为
   
其中:Δ为允许最大误差,
    为有限总体的个体数,
    为置信度水平,
    为根据置信度水平查表得到的置信系数。
    二、比例估计问题中,样本大小的决定
    关于总体比例的估计问题中,要决定样本大小首先也要明确关于均值的估计问题中同样的三个问题:
    1. 允许误差的大小,即规定估计值与实际值的最大偏离值。
    2乡间小路带我回家. 规定置信度,即估计所要求达到的可信度。
    3. 对总体比例的事先估计值,即大致的或估计的总体比例是多少。
    与均值的估计问题完全平行地,我们可以得到以下的结果。
    对于重复抽样或无限总体不重复(放回)抽样时的情形为
   
    但对于有限总体不放回抽样的情形,公式变为如下的形式:
第四节 假设检验
    一、假设检验的基本原理
  假设总体的均值为某一个值,为了检验这一假设的正确性,我们收集样本的数据,计算出假设值与样本均值之间的差异,然后根据差异的大小来判断所作假设的正确性,这就是假设检验。直观地,我们知道差异越小,对于总体均值的假设正确的可能性就愈大。差异越大,对总体均值的假设正确的可能性就愈小。
然而在多数情况下,对总体参数的假设值与样本统计量之间的差异既不至于大到显而易见,应该拒绝假设,也不至于小到可以完全肯定,应该接受假设的程度。于是就不能简单地决定接受或拒绝所作的假设,而需要判断所作的假设在多大的程度上是正确的。于是就需要研究假设和判断假设是否正确的程度。
(一)假设检验中的假设
  假设检验中通常把所要检验的假设称作原假设或零假设,记作。例如要检验总体均值μ=100这个假设是否正确,就表示为:μ=100。如果样本所提供的信息无法证明原假设成立,则我们就拒绝原假设。此时,我们只能接受另外备选的假设了,称之为备择假设,我们以表示备择假设。备择假设可以有三种形式,例如,在原假设:μ=100的条件下,备择假设可以是:
  100。这表示备择假设是总体的均值不等于100。或者是
  :μ>100。这表示备择假设是总体的均值大于100。或者是
  :μ<100。这表示备择假设是总体的均值小于100。
  上述备择假设的选择与检验的要求是密切相关的。我们根据假设检验的目的要求不同又把假设检验分为双侧检验和单侧检验。
  如果样本均值高于或低于假设的总体均值很显著时都拒绝原假设,我们称作双侧检验。在双侧检验时有左右两个拒绝区域。当原假设是::μ=100,备择假设是:100时就必须使用双侧检验。
若只有在样本的均值高于(或低于)假设的总体均值很显著时才拒绝原假设,这就称作单侧检验。单侧检验只有一个拒绝区域。若假设检验只有在样本均值高于假设的总体均值很显著时才拒绝原假设,这种假设检验称作右侧检验。此时,原假设实际上变为100,备择假设为:μ>100。反之,如果只有在样本均值低于假设的总体均值很显著时才拒绝原假设,则称作左侧检验。此时,原假设实际上变为100,备择假设为:μ<100。由此可见,原假设和备择假设总是排他性的。
(二)检验的显著性水平
    假设检验需要确定一个是接受还是拒绝原假设的标准,这个标准就是显著性水平。所谓检验的显著性水平就表示,在假设正确的条件下落在某个界限以外的样本均值所占的百分比。具体地说,“在5%的显著性水平下检验假设”就是说,假定对总体参数所作的假设正确,那么样本均值同假设的总体均值差异过大的,在每100个样本中不应超过5个。如果样本均值与总体均值差异过大的超过这一数目就认为这个样本不可能抽自所假设的总体,所以拒绝零假设。
我们可以用图5-4来直观地解释假设检验的原理。假如设检验的显著性水平=5%,我们已知在概率密度曲线下包括在假设的均值两侧直线间的面积是95%,两边每一个尾端的面积各为2.5%。于是若样本的均值落在95%的区域内,我们就认为样本统计量与假设的总体参数的差异是不显著的。结果就接受原假设。若样本统计量落在左右尾端的各为2.5%的区域内,则差异就是显著的。我们就拒绝原假设。接受备择假设。
                        图5-4  假设检验的接受区域和拒绝区域
不过应该强调指出,在假设检验中“接受原假设”的意思仅仅是意味着没有充分的统计证据拒绝原假设。在假设检验中“接受原假设”的特定含义就是不拒绝原假设。但实际上,即使样本统计量落在95%的面积内,也并不能证明原假设就是正确的。因为只有在知道了总体参数的真实值与假设值完全相同才能证明假设正确。但我们无法知道总体参数的真实值。
在给定了检验的显著性水平后,我们可以根据假设来确定接受还是拒绝原假设的区域或范围。如果样本均值有那样一个下午落在某一区域内我们就接受原假设,则就称这一区域为接受区域。如果样本均值落在某一区域内就拒绝原假设,我们就称这一区域为拒绝区域。
    对于显著性水平的选择没有一个唯一的或通用的标准。实际上在任何显著性水平下检验某个假设都是可能的,但是必须注意不管选择什么样的显著性水平,都存在假设为真而被拒绝的可能性。另一方面,在检验同一个假设时,使用的显著性水平愈高,原假设为真时而被拒绝的概率也就愈高。这就需要研究假设检验中的错误,我们在以后将对此进行讨论。
  二、假设检验的步骤
    1. 提出原假设和备择假设。原假设和备择假设必须由题意来决定。在一般情况下总是把检验的目的作为备择假设,这样可以有充分的把握拒绝原假设。
    2. 选择检验的显著性水平,从而确定检验的拒绝区域或临界点。表示在假设检验时当原假设为真而我们却拒绝了原假设,接受备择假设的错误概率。假设检验中还可能犯另一种错误,这将在下面讨论。
3. 确定样本的统计量和分布。样本统计量又称检验统计量。不同的统计量具有不同的分布,用于检验不同的假设,要根据所检验的假设来正确地选择检验统计量。
4. 计算检验统计量并由此作出决策。根据样本数据计算出检验统计量的值,如果统计量的值落在拒绝区(包括临界点)内就说明原假设与样本所反映的情形有显著的差异,应该拒绝原假设。如果统计量的值落在接受区域内,就说明原假设与样本所反映的情形的差异并不显著,应该接受原假设。
    三、几种常用的假设检验
(一) 平均数的假设检验
1. 双侧检验
什么是扩大内需让我们研究下面的例子。
    例5-4。某食品厂规定某种罐头每罐的标准重量是500克。多年的经验表明这个厂每罐重量的标准差是15克。今随机抽取了49个罐头,发现这些罐头的平均重量是506克。问在=0.05的显著性水平下能否认为这批罐头重量符合标准的要求?
    要检验这批罐头重量是否符合标准的要求就是要检验这批样本的平均重量与标准重量之间是否具有明显的差别。因此可以列出要检验的假设为:
    :μ=5003d打印龟壳
    500。
这是一个双侧检验问题。根据区间估计的结论可知原假设的接受区域为
由于置信度水平=0.05,=1.96。由此得到接受区域为[495.8,504.2]。但现在样本的实际均值为506,落在拒绝区域内,因此拒绝假设接受备择假设。我们无法认为这批罐头重量符合标准的要求,即这批罐头重量不符合标准的要求。
当总体方差未知,样本数量又小于等于30时,检验统计量样本均值服从t分布。这就要用t分布确定原假设的接受区域和拒绝区域了。在得到接受区域后也就可以利用上面同样的方法,根据样本均值所处的位置作出判断。
2. 单侧检验
再看下面的例子。
例5-5。某饮料厂规定某种纸罐包装饮料的容量不得少于500忏悔录奥古斯丁ml。今随机抽取了25个纸罐,发现这些罐头的平均重量是498 ml,标准差S=10。问在=0.05的显著性水平下能否认为这批纸冠菌素罐的容重符合标准的要求?
根据问题的要求可以列出要检验的假设为:
500
  :μ<500
由于总体方差未知,样本容量又小于30,检验统计量服从t分布,其自由度为n-1。因此我们就必须利用t分布来进行检验。这又是一个单侧(左侧)检验问题。根据区间估计的结论可知原假设的接受区域为
   
根据置信度水平=0.05,查表得到。所以计算得到接受区域的临界点是496.6。现样本均值=498>496.6。可见样本均值落在原假设的接受区域内。我们接受原假设,即认为这批纸的容重符合标准的要求。

本文发布于:2024-09-22 13:29:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/273181.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:假设   总体   估计   检验   样本   接受
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议