统计学常用概念:T检验、F检验、卡方检验、P值、自由度

统计学常⽤概念:T检验、F检验、卡⽅检验、P值、⾃由度
1,T检验和F检验的由来
⼀般⽽⾔,为了确定从样本(sample)统计结果推论⾄总体时所犯错的概率,我们会利⽤统计学家所开发的⼀些统计⽅法,进⾏统计检定。
通过把所得到的统计检定值,与统计学家建⽴了⼀些随机变量的概率分布(probability distribution)进⾏⽐较,我们可以知道在多少%的机会下会得到⽬前的结果。倘若经⽐较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕有的情况下才出现;那我们便可以有信⼼的说,这不是巧合,是具有统计学上的意义的(⽤统计学的话讲,就是能够拒绝虚⽆假设null hypothesis,Ho)。相反,若⽐较后发现,出现的机率很⾼,并不罕见;那我们便不能很有信⼼的直指这不是巧合,也许是巧合,也许不是,但我们没能确定。
F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现⽬前样本这结果的机率。
2,统计学意义(P值或sig值)结果的统计学意义是结果真实程度(能够代表总体)的⼀种估计⽅法。专业上,p值为结果可信程度的⼀个递减指标,p值越⼤,我们越不能认为样本中变量的关联是总体中
各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提⽰样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均⽆关联,我们重复类似实验,会发现约20个实验中有⼀个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效⼒有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界⽔平。
3,T检验和F检验
⾄於具体要检定的内容,须看你是在做哪⼀个统计程序。
举⼀个例⼦,⽐如,你要检验两独⽴样本均数差异是否能推论⾄总体,⽽⾏的t检验。两样本(如某班男⽣和⼥⽣)某变量(如⾝⾼)的均数并不相同,但这差别是否能推论⾄总体,代表总体的情况也是存在著差异呢?会不会总体中男⼥⽣根本没有差别,只不过是你那麼巧抽到这2样本的数值不同?为此,我们进⾏t检定,算出⼀个t检定值。与统计学家建⽴的以「总体中没差别」作基础的随机变量t分布进⾏⽐较,看看在多少%的机会(亦即显著性sig值)下会得到⽬前的结果。若显著性sig值很少,⽐如<0.05(少於5%机率),亦即是说,「如果」总体「真的」没有差别,那麼就只有在机会很少(5%)、很罕有的情况下,才会出现⽬前这样本的情况。虽然还是有5%机会出错(1-0.05=5%),但我们还是可以
「⽐较有信⼼」的说:⽬前样本中这情况(男⼥⽣出现差异的情况)不是巧合,是具统计学意义的,「总体中男⼥⽣不存差异」的虚⽆假设应予拒绝,简⾔之,总体应该存在著差异。
每⼀种统计⽅法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单⼀值是否等於0或者等於某⼀个数值。
⾄於F-检定,⽅差分析(或译变异数分析,Analysis of Variance),它的原理⼤致也是上⾯说的,但它是透过检视变量的⽅差⽽进⾏的。它主要⽤于:均数差别的显著性检验、分离各有关因素并估计其对总变异的作⽤、分析因素间的交互作⽤、⽅差齐性(Equality of Variances)检验等情况。
3,T检验和F检验的关系
t检验过程,是对两样本均数(mean)差别的显著性进⾏检验。惟t检验须知道两个总体的⽅差(Variances)是否相等;t检验值的计算会因⽅差是否相等⽽有所不同。也就是说,t检验须视乎⽅差齐性(Equality of Variances)结果。所以,SPSS在进⾏t-test for Equality of Means的同时,也要做Levene's Test for Equality of Variances 。
1. 在Levene's Test for Equality of Variances⼀栏中 F值为
2.36, Sig.为.128,表⽰⽅差齐性检验「没有显著差异」,即两⽅差齐(Equal Variances),故下⾯t检验
的结果表中要看第⼀排的数据,亦即⽅差齐的情况下的t检验的结果。
2. 在t-test for Equality of Means中,第⼀排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然
Sig=.000,亦即,两样本均数差别有显著性意义!
3. 到底看哪个Levene's Test for Equality of Variances⼀栏中sig,还是看t-test for Equality of Means中那个Sig. (2-tailed)啊? 答案是:两个都要看。先看Levene's Test for Equality of Variances,如果⽅差齐性检验「没有显著差异」,即两⽅差齐(Equal Variances),故接著的t检验的结果表中要看第⼀排的数据,亦即⽅差齐的情况下的t检验的结果。反之,如果⽅差齐性检验「有显著差异」,即两⽅差不齐(Unequal Variances),故接著的t检验的结果表中要看第⼆排的数据,亦即⽅差不齐的情况下的t检验的结果。
4. 你做的是T检验,为什么会有F值呢? 就是因为要评估两个总体的⽅差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验⽅差,故所以就有F值。
另⼀种解释:
因特网下载
t检验有单样本t检验,配对t检验和两样本t检验。
单样本t检验:是⽤样本均数代表的未知总体均数和已知总体均数进⾏⽐较,来观察此组样本与总体的差异性。
配对t检验:是采⽤配对设计⽅法观察以下⼏种情形,1,两个同质受试对象分别接受两种不同的处理;2,同⼀受试对象接受两种不同的处理;3,同⼀受试对象处理前后。
F检验⼜叫⽅差齐性检验。在两样本t检验中要⽤到F检验。
从两研究总体中随机抽取样本,要对这两个样本进⾏⽐较的时候,⾸先要判断两总体⽅差是否相同,即⽅差齐性。若两总体⽅差相等,则直接⽤t检验,若不等,可采⽤t'检验或变量变换或秩和检验等⽅法。
其中要判断两总体⽅差是否相等,就可以⽤F检验。
若是单组设计,必须给出⼀个标准值或总体均值,同时,提供⼀组定量的观测结果,应⽤t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独⽴,两组资料均取⾃正态分布的总体,并满⾜⽅差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,⽽t检验正是以t分布作为其理论依据的检验⽅法。
简单来说就是实⽤T检验是有条件的,其中之⼀就是要符合⽅差齐次性,这点需要F检验来验证。
1、问:⾃由度是什么?怎样确定?答:(定义)构成样本统计量的独⽴的样本观测值的数⽬或⾃由变动的样本观测值的数⽬。⽤df表⽰。⾃由度的设定是出于这样⼀个理由:在总体平均数未知时,⽤样本平均数去计算离差(常⽤⼩s)会受到⼀个限制——要计算标准差(⼩s)就必须先知道样本平均数,⽽样本平均数和n都知道的情况下,数据的总和就是⼀个常数了。所以,“最后⼀个”样本数据就不可以变了,因为它要是变,总和就变了,⽽这是不允许的。⾄于有的⾃由度是n-2什么的,都是同样道理。在计算作为估计量的统计量时,引进⼀个统计量就会失去⼀个⾃由度。通俗点说,⼀个班上有50个⼈,我们知道他们语⽂成绩平均分为80,现在只需要知道49个⼈的成绩就能推断出剩下那个⼈的成绩。你可以随便报出49个⼈的成绩,但是最后⼀个⼈的你不能瞎说,因为平均分已经固定下来了,⾃由度少⼀个了。简单点就好⽐你有⼀百块,这是固定的,已知的,假设你打算买五件东西,那么前四件你可以随便买你想买的东西,只要还有钱的话,⽐如说你可以吃KFC可以买笔,可以买⾐服,这些花去的钱数⽬不等,当你只剩2块钱时,或许你最多只能买⼀瓶可乐了,当然也可以买⼀个⾁松蛋卷,但⽆论怎么花,你都只有两块钱,⽽这在你花去98块那时就已经定下来了。(这个例⼦举的真不错!!)
2、问:X⽅检验中⾃由度问题答:在正态分布检验中,这⾥的M(三个统计量)为N(总数)、平均数和标准差。因为我们在做正态检验时,要使⽤到平均数和标准差以确定该正态分布形态,此外,要
计算出各个区间的理论次数,我们还需要使⽤到N。所以在正态分布检验中,⾃由度为K-3。(这⼀条⽐较特别,要记住!)在总体分布的配合度检验中,⾃由度为K-1。在交叉表的独⽴性检验和同质性检验中,⾃由度为(r-1)×(c-1)。
3、问:t检验和⽅差分析有何区别答:t检验适⽤于两个变量均数间的差异检验,多于两个变量间的均数⽐较要⽤⽅差分析。⽤于⽐较均值的t检验可以分成三类,第⼀类是针对单组设计定量资料的;第⼆类是针对配对设计定量资料的;第三类则是针对成组设计定量资料的。后两种设计类型的区别在于事先是否将两组研究对象按照某⼀个或⼏个⽅⾯的特征相似配成对⼦。⽆论哪种类型的t检验,都必须在满⾜特定的前提条件下应⽤才是合理的。若是单组设计,必须给出⼀个标准值或总体均值,同时,提供⼀组定量的观测结果,应⽤t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独⽴,两组资料均取⾃正态分布的总体,并满⾜⽅差齐性。之所以需要这些前提条件,是因为必须在这样的前提下所计算出的t统计量才服从t分布,⽽t检验正是以t分布作为其理论依据的检验⽅法。值得注意的是,⽅差分析与成组设计t检验的前提条件是相同的,即正态性和⽅差齐性。 t检验是⽬前医学研究中使⽤频率最⾼,医学论⽂中最常见到的处理定量资料的假设检验⽅法。t检验得到如此⼴泛的应⽤,究其原因,不外乎以下⼏点:现有的医学期刊多在统计学⽅⾯作出了要求,研究结论需要统计学⽀持;传统的医学统计教学都把t检验作为假设检验的⼊门⽅法进⾏介绍,使之成为⼴⼤医学研究⼈员最熟悉的⽅法;t检验⽅法简单,其结
果便于解释。简单、熟悉加上外界的要求,促成了t检验的流⾏。但是,由于某些⼈对该⽅法理解得不全⾯,导致在应⽤过程中出现不少问题,有些甚⾄是⾮常严重的错误,直接影响到结论的可靠性。将这些问题归类,可⼤致概括为以下两种情况:不考虑t检验的应⽤前提,对两组的⽐较⼀律⽤t检验;将各种实验设计类型⼀律视为多个单因素两⽔平设计,多次⽤t检验进⾏均值之间的两两⽐较。以上两种情况,均不同程度地增加了得出错误结论的风险。⽽且,在实验因素的个数⼤于等于2时,⽆法研究实验因素之间的交互作⽤的⼤⼩。
问:统计学意义(P值)答:结果的统计学意义是结果真实程度(能够代表总体)的⼀种估计⽅法。专业上,P值为结果可信程度的⼀个递减指标,P值越⼤,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提⽰样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均⽆关联,我们重复类似实验,会发现约20个实验中有⼀个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效⼒有关。)在许多研究领域,0.05的P值通常被认为是可接受错误的边界⽔平。
4、问:如何判定结果具有真实的显著性答:在最后结论中判断什么样的显著性⽔平具有统计学意义,不可避免地带有武断性。换句话说,认为结果⽆效⽽被拒绝接受的⽔平的选择具有武断性。实践
中,最后的决定通常依赖于数据集⽐较和分析过程中结果是先验性还是仅仅为均数之间的两两>⽐较,依赖于总体数据集⾥结论⼀致的⽀持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产⽣P值的结果≤0.05被认为是统计学意义的边界线,但是这显著性⽔平还包含了相当⾼的犯错可能性。结果 0.05≥P>0.01被认为是具有统计学意义,⽽0.01≥P≥0.001被认为具有⾼度统计学意义。但要注意这种分类仅仅是研究基础上⾮正规的判断常规。
5、问:所有的检验统计都是正态分布的吗?答:并不完全如此,但⼤多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡⽅检验。这些检验⼀般都要求:所分析变量在总体中呈正态分布,即满⾜所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当⼈们⽤在正态分布基础上建⽴的检验分析⾮正态分布变量的数据时问题就产⽣了,(参阅⾮参数和⽅差分析的正态性检验)。这种条件下有两种⽅法:⼀是⽤替代的⾮参数检验(即⽆分布性检验),但这种⽅法不⽅便,因为从它所提供的结论形式看,这种⽅法统计效率低下、不灵活。另⼀种⽅法是:当确定样本量⾜够⼤的情况下,通常还是可以使⽤基于正态分布前提下的检验。后⼀种⽅法是基于⼀个相当重要的原则产⽣的,该原则对正态⽅程基础上的总体检验有极其重要的作⽤。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
6、问:假设检验的内涵及步骤答:在假设检验中,由于随机性我们可能在决策上犯两类错误,⼀类
是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第⼀类错误;⼀类是假设不正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第⼆类错误。⼀般来说,在
样本确定的情况下,任何决策⽆法同时避免两类错误的发⽣,即在避免第⼀类错误发⽣机率的同时,会增⼤第⼆类错误发⽣的机率;或者在避免第⼆类错误发⽣机率的同时,会增⼤第⼀类错误发⽣的机率。⼈们往往根据需要选择对那类错误进⾏控制,以减少发⽣这类错误的机率。⼤多数情况下,⼈们会控制第⼀类错误发⽣的概率。发⽣第⼀类错误的概率被称作显著性⽔平,⼀般⽤α表⽰,在进⾏假设检验时,是通过事先给定显著性⽔平α的值⽽来控制第⼀类错误发⽣的概率。在这个前提下,假设检验按下列步骤进⾏: 1)、确定假设; 2)、进⾏抽样,得到⼀定的数据; 3)、根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值;4)、依据所构造的检验统计量的抽样分布,和给定的显著性⽔平,确定拒绝域及其临界值; 5)、⽐较这次抽样中检验统计量的值与临界值的⼤⼩,如果检验统计量的值在拒绝域内,则拒绝假设;到这⼀步,假设检验已经基本完成,但是由于检验是利⽤事先给定显著性⽔平的⽅法来控制犯错概率的,所以对于两个数据⽐较相近的假设检验,我们⽆法知道那⼀个假设更容易犯错,即我们通过这种⽅法只能知道根据这次抽样⽽犯第⼀类错误的最⼤概率(即给定的显著性⽔平),⽽⽆法知道具体在多⼤概率⽔平上犯错。计算 P值有效的解决了这个问
题,P值其实就是按照抽样分布计算的⼀个概率值,这个值是根据检验统计量计算出来的。通过直接
⽐较P值与给定的显著性⽔平α的⼤⼩就可以知道是否拒绝假设,显然这就代替了⽐较检验统计量的值与临界值的⼤⼩的⽅法。⽽且通过这种⽅法,我们还可以知道在p值⼩于α的情况下犯第⼀类错误的实际概率是多少,p=0.03<α=0.05,那么拒绝假设,这⼀决策可能犯错的概率是0.03。需要指出的是,如果P>α,那么假设不被拒绝,在这种情况下,第⼀类错误并不会发⽣。
7、问:卡⽅检验的结果,值是越⼤越好,还是越⼩越好?答:与其它检验⼀样,所计算出的统计量越⼤,在分布中越接近分布的尾端,所对应的概率值越⼩。如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。
8、问:配对样本的T检验和相关样本检验有何差别?答:配对样本有同源配对(如动物实验中双胞胎)、条件配对(如相同的环境)、⾃⾝配对(如医学实验中个体的⽤药前后)等。(好像没有解释清楚啊,同问这个,到底什么区别呢?)
9、问:在⽐较两组数据的率是否相同时,⼆项分布和卡⽅检验有什么不同?答:卡⽅分布主要⽤于多组多类的⽐较,是检验研究对象总数与某⼀类别组的观察频数和期望频数之间是否存在显著差异,要求每格中频数不⼩于5,如果⼩于5则合并相邻组。⼆项分布则没有这个要求。如果分类中只有两类还是采⽤⼆项检验为好。如果是2*2表格可以⽤fisher精确检验,在⼩样本下效果更好。
10、问:如何⽐较两组数据之间的差异性答:从四个⽅⾯来回答, 1).设计类型是完全随机设计两组
数据⽐较,不知道数据是否是连续性变量? 2).⽐较⽅法:如果数据是连续性数据,且两组数据分别服从正态分布&⽅差齐(⽅差齐性检验),则可以采⽤t检验,如果不服从以上条件可以采⽤秩和检验。 3).想知道两组数据是否有明显差异?不知道这个明显差异是什么意思?是问差别有⽆统计学意义(即差别的概率有多⼤)还是两总体均数差值在哪个范围波动?如果是前者则可以⽤第2步可以得到P值,如果是后者,则是⽤均数差值的置信区间来完成的。当然两者的结果在SPSS中均可以得到。
11、问:回归分析和相关分析的联系和区别答:回归分析(Regression):Dependant variable is defined and can be forecasted by independent variable.相关分析(Correlation):The relationship btw two variables. --- A dose not define or determine B. 回归更有⽤⾃变量解释因变量的意思,有⼀点点因果关系在⾥⾯,并且可以是线性或者⾮线形关系;相关更倾向于解释两两之间的关系,但是⼀般都是指线形关系,特别是相关指数,有时候图像显⽰特别强⼆次⽅图像,但是相关指数仍然会很低,⽽这仅仅是因为两者间不是线形关系,并不意味着两者之间没有关系,因此在做相关指数的时候要特别注意怎么解释数值,特别建议做出图像观察先。不过,⽆论回归还是相关,在做因果关系的时候都应该特别注意,并不是每⼀个显著的回归因⼦或者较⾼的相关指数都意味着因果关系,有可能这些因素都是受第三,第四因素制约,都是另外因素的因或果。对于此⼆者的区别,我想通过下⾯这个⽐⽅很容易理解:对于两个⼈关系,相关关系只能知道他们是恋⼈关系,⾄于他们谁是主导者,谁说话算数,谁是跟随者,⼀个打个喷嚏,另⼀个会有什么反应,相关就不能胜任,⽽回归分析则能很好的解
决这个问题回歸未必有因果關係。回歸的主要有⼆:⼀是解釋,⼀是預測。在於利⽤已知的⾃變項預測未知的依變數。相關係數,主要在了解兩個變數的共變情形。如果有因果關係,通常會進⾏路徑分析(path analysis)或是線性結構關係模式。我觉得应该这样看,我们做回归分析是在⼀定的理论和直觉下,通过⾃变量和因变量的数量关系探索是否有因果关系。楼上这位仁兄说“回归未必有因果关系……如果有因果关系,通常进⾏路径分析或线性结构关系模式”有点值得商榷吧,事实上,回归分析可以看成是线性结构关系模式的⼀个特例啊。我觉得说回归是探索因果关系的并没错,因为实际上最后我们并不是完全依据统计的结果来判断因果性,只有在统计结果和理论及现实⽐较吻合的基础上我们才肯定这种因果关系。任何统计⽅法只是⼀种⼯具,但是不能完全依赖于这种⼯具。即使是SEM,我们也不能说完全认定其准确性,因为即使⽅法是好的,但是变量的复杂关系呈现的⽅式也是多种多样的,可能统计只能告诉你⼀个⽅向上的最优解,可未必是最符合实际的,更何况抽样数据的质量好坏也会使得结果不符合事实,从⽽导致⼈们怀疑统计⽅法的准确性。统计只说明统计关联。不证明因素关系。回归有因果关系,相关未必。回归分析是处理两个及两个以上变量间线性依存关系的统计⽅法。此类问题很普遍,如⼈头发中某种⾦属元素的含量与⾎液中该元素的含量有关系,⼈的体表⾯积与⾝⾼、体重有关系;等等。回归分析就是⽤于说明这种依存变化的数学关系。任何事物的存在都不是孤⽴的,⽽是相互联系、相互制约的。⾝⾼与体重、体温与脉搏、年龄与⾎压等都存在⼀定的联系。说明客观事物相互间关系的密切程度并⽤适当的统计指标表⽰出来,这个过程就是相关分析.
随机抽样与统计推断的逻辑
前天麦⼩兜问我怎样构造置信区间,在电话⾥我似乎没有解释清楚,这⾥重新整理出⼀份笔记。同时有感于在国内做课题时,同⾏们的窘态历历在⽬(他们不知道如何去检验⼀个变量是否符合正态分布),故记之,以勉励⾃⼰尽⼒思考清楚所学所⽤之物。北京市民卡
machine civilization学过统计学的⼈都知道可以对⼀个未知总体(population)进⾏随机抽样,通过对样本(sample)的描述、计算(例如计算样本均值、样本⽅差),进⽽推断总体的⼀些特征(对某些假设进⾏检验,构造置信区间等等)。当然,很多现代的推断⽅法都是“菜谱(cook book)”性质的,不需要⾮专业⼈⼠进⾏详细掌握,例如,搞经济学的⼈往往在不知道什么是F分布的情况下也能知道如何检验F统计量并对结论进⾏解释,甚⾄不⽤亲⼿计算F统计量。但是,如果仔细思考⼀下其中的关系,可以看到这种随机抽样--推断中包含着某种哲学,⽽这种哲学在某些地⽅的确显式出了⼈类的智慧。
本质上,这种⽅法是⽤⼀组我们掌握了100%信息的数据(样本),对⼀组我们⼏乎不掌握信息或只掌握部分信息的数据(总体),进⾏拟合的过程。换句话说,以有知推未知的过程。因为是对“未知”的推断,我们不可能有100%的把握,但同时是⽤“有知”的数据,所以我们不会⼀点把握都没有。也许通过⼀个极为简单例⼦我们可以看到背后的这种思维。下⾯就开始这个练习。
[例⼦]:假设⼀个学校有20000名学⽣,从中随机抽取1000名学⽣,问,这个学校20000名学⽣的某门课的平均成绩是否为70/100?注意,这⾥并没有作出有关总体的分布的假设。
[问题1]:我们能够⽤样本进⾏统计推断了吗?
cd101
似乎还不可以,逻辑上缺⼀步。这⾥值得注意的是,所抽取的1000学⽣是否是“随机样本”?答案是否定的。
随机抽样的思想是:抽出来的样本(sample)的分布是和总体(population)的分布是⼀致的,这⼀点对于每⼀个观测值⽽⾔,能够成⽴。但随机样本还要求每个观测值(observation)相互独⽴(independent),在这⾥狭义的理解便是,每⼀个观察值被取到的概率是相同的。
但是在上⾯例⼦⾥,这个条件显然并不能被满⾜(很多囫囵的学者往往忽略这个条件)。如果你收集了1000个学⽣的成绩单,那么这1000个学⽣的成绩被抽到概率取决于其被取到的顺序。由于⼀次抽取1000个学⽣的成绩,每个学⽣被抽到的次数只是⼀次,不能被重复抽样。于是,样本中第⼀个学⽣被抽到的概率是1/20000,第⼆个学⽣被抽到的概率则是1/19999,第三个学⽣是1/19998,……第1000个学⽣为
1/19000。也就是说,在⼀些学⽣被抽⾛之后,下⼀个学⽣被抽到的概率绝对不会等于1/20000。只有在有放回(with replacement)的抽样中,我们才能说每个学⽣被抽中的概率是1/20000,也才能保证,我们抽取的是随机样本(random sample)。但是那样的话,我们⼜很可能抽不到1000个样本,因为⼀个学⽣被抽到⼤于⼀次重复的可能性不是零。
幸运的是,注意到这⼀千个概率值相差并不⼤(因为总体值够⼤),那么,可以近似地认为这1000个学⽣的成绩是随机样本(random sample)。在做了这样的近似之后,我们⽅可以进⾏统计推断。这种近似在统计学中很普遍。例如,中⼼极限定理(central limit Theorem)说的是,⼤多数分布可以近似的看作正态(normal)分布,这使得正态分布在统计学中占有极为重要的地位。这些分布的⼀个重要特征便是,变量可以看成是观测值的和(的函数),例如,⼆项分布可以看成是⼀组伯努⾥试验(bernolli tiral)结果的和。另外,例如泊松(poisson)分布可以看成是⼆项(binomial)分布,⽽后者⼜可近似看作正态分布。
但是,完成了这个近似,我们还需要更多的假设才能进⾏统计推断和检验(inference and test)。例如,我们必须了解总体的分布情况,即使不知道所有参数的具体值。(⽬前假设我们只讨论参数(parametric)⽅法)
[情形⼀]:我们确切知道这20000学⽣的成绩符合(正态)分布,均值未知(unkown mean)但是⽅差已知(known variance)。
[问题2] 对于符合任意分布的样本,样本均值和样本⽅差符合什么样的规律?
利⽤简单的数学期望的性质可以得到如下关系:
(1)样本均值的期望=总体均值。
(2)样本均值的⽅差=总体⽅差/样本数(样本均值的波动没有单个观测值变化⼤)
通过这些变量,我们可以构造统计量Z:
(3)Z=(样本均值-总体均值)/根号(总体⽅差/样本数)。根据(1)(2)和中⼼极限定理,对于任何总体,Z统计量符合标准正态分布。值得注意的是,对于这个Z统计量,我们掌握了⼤量的信息。例如,对于任意给定的A值,我们完全可以计算出符合
od调查(4)Pr(Z<|z|)=A%的z值。
但是由于Z是变量,我们并未掌握100%的信息。
注意(3)和(4)式的含义,由于我们可以算出样本均值和样本⽅差,总体⽅差,那么z便是由总体均值唯⼀决定的函数。于是,我们可
以反算出总体均值的函数表达式,因为总体均值仅仅是z的反函数。给定A,我们知道z的取值范围,也就知道了总体均值的变化范围。这个变化范围就是我们所说的置(⾃)信区间(confidence interval),例如Pr(c1<;总体均值<c2)=90%,c1是5%百分位(percentile)的数值,c2是95%百分位的数值。也就是说,总体均值落在c1,c2区间的概率是90%。
于是我们可以进⾏假设检验:H0:总体均值=70    VS H1:not H0。(assume:size=10%)。
这个时候,我们知道Pr(c1<;总体均值<c2)=90%,那么只要总体均值<c1或者总体均值>c2我们就可以在10%的⽔平上推翻H0。
[情形⼆]我们不知道总体⽅差,也不知道总体均值。
再看式⼦(3),我们知道不能⽤正态分布来进⾏推断了,于是得⽤新的⽅法,即t分布。
根据定义,样本⽅差=sum(观测值i-样本均值)^2;i=1,2,1000。
样本均值=sum(观测值i)/样本数 i=1,2,……1000。
可以证明(过程复杂,需要⽤到正交矩阵运算),(样本⽅差/总体⽅差)符合(样本值-1)个⾃由度的卡⽅(chi-squared)分布。同时,样本⽅差和样本均值是独⽴变量。
那么构造新的t变量:t=Z/根号(卡⽅/⾃由度)。
值得注意,分⼦分母各是⼀个分式,各⾃的分母都带有⼀个未知数,即总体⽅差。但幸运的是,这两者互相销去。于是,t只是由总体均值唯⼀决定的函数。google数字图书馆
那么我们⼜可以进⾏构造置信区间的练习。这⾥需要指出的是,(i)对于符合任意分布的总体⽽⾔,
Z符合标准正态分布,因为样本均值是所有观测值的“和”(乘以⼀个常数),只要样本数够⼤,中⼼极限定理保证了其近似于标准正态分布。(ii)但是,如果总体不符合正态部分,那么我们⽆法进⾏t检验。因为⽆法保证样本⽅差符合卡⽅分布,于是也就⽆法保证t符合t分布。
总结⼀下这⾥的哲学。我们⽤了⼀个掌握了100%信息的样本,计算了⼏个值(样本均值,样本⽅差)。然后构造出了⼀个我们掌握了很⼤信息的统计量Z,或t。再⽤这些信息去了解我们掌握了少数信息的总体。耐⼈寻味的地⽅在于,这个符合标准正态分布的统计量Z,和t,其中的信息⼀些来⾃样本,⼀些来⾃于总体。这个我们了解⼀部分的量,恰恰成为我们这种统计推断的桥梁。因为直接分析总体的话,我们的信息不够--我们⼏乎什么都不知道。⽽直接分析样本,尽管我们有充分信息,这个样本却与总体均值的关系不够紧密,我们只知道(1)式和(2)式。于是Z和t变量便起到了“曲线救国”的作⽤。但是,正因为如此,我们只能说,我们有A%的把握相信,总体均值落在(c1,c2)区间内。
当缺乏更多的信息时,我们就需要增加更多的步骤,例如,构造t变量需要证明样本均值和样本⽅差是独⽴变量,还需要了解卡⽅分布。但是,前⼈们已经发现了这样⼀些分布,为这种⽅法铺平了道路。在我看来,这些⼈真真正正地极⼤推动了⼈类思想史的发展。这些⼈如何想出卡⽅分布这样⼀个分布?如何到正态分布和t分布之间的关系?这些本⾝就值得惊叹。
[情形三]我们不知道总体的分布,也不知道任何参数。
前⾯说过,如果不知道总体的分布,只要知道总体⽅差,Z变量符合标准正态分布。但现在我们不知道总体⽅差,我们就甚⾄连参数⽅法都不能⽤了,应该采⽤⾮参数⽅法(nonparametic method)或半参数⽅法(semi-parametric method)。但是逻辑仍然是⼀致的,即需要通过⼀个中间的统计量来联系样本和总体,例如,位序检验(rank test),规模检验(size test)都需要构造⼀个新的统计量。

本文发布于:2024-09-21 20:33:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/53476.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检验   总体   统计
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议