数理统计2:为什么是正态分布,正态分布均值与方差的估计,卡方分布

数理统计2:为什么是正态分布,正态分布均值与⽅差的估计,卡⽅分布
上⼀篇⽂章提到了⼀⼤堆的统计量,但是没有说到它们的⽤处。今天,我们就会接触到部分估计量,进⼊到数理统计的第⼀⼤范畴——参数估计,同时也会开始使⽤R 语⾔进⾏模拟。由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!
⽬录
Part 1:为什么是正态分布
为什么要突然提到正态分布的参数估计?原因有以下⼏个。⾸先,正态分布是⽣活中最常见的分布,许多随机事件的分布可以⽤正态分布来概括。林德贝格勒维中⼼极限定理告诉我们,⼆阶矩存在的独⽴同分布随机变量列{ξn },记它们的和为S n ,E(ξ1)=µ,D(ξn )=σ2,则
S n −nµ
√n σ
d
→N (0,1).
刚刚学完概率论的同学应该对这个结论不陌⽣。
⽽中⼼极限定理的条件实际上并不需要这么强,林德贝格费勒定理去除了同分布的约束,只要{ξn }满⾜∀τ>0,
1
∑n
k =1D(ξk )n
k =1
∫|x +E(ξk )|≥τ∑n k =1
D(ξk )(x −E(ξk ))2
d F k (x )→0,就有
∑n
k =1(ξk −E(ξk ))
n
k =1D(ξk )
d
→N (0,1).
这说明⾃然界中微⼩随机项的累积效应普遍服从中⼼极限定理。
另外,正态分布的信息完全由两个参数所决定:期望和⽅差,即前两阶矩。因此,如果我们假定总体是服从正态分布的,就只需要对其两个参数作估计,这给问题的讨论带来⽅便。最后就是正态分布在实⽤上的意义了,两个独⽴正态分布的和、差甚⾄乘积都是正态分布,这在实⽤上也很⽅便,所以许多时候即使总体不服从正态分布,也近似认为服从正态分布。Part 2:正态分布均值估计
既然正态分布完全由两个参数所决定,那么只要知道出这两个参数的值(或者范围),就能确定总体
的全部信息。然⽽,在实际⽣活中要获得绝对正确的正态分布参数是不可能的,因为⽣活中的总体情况总是未知,要认识总体,我们只能从总体中抽取⼀系列样本,再通过样本性质来估计总体。
最简单的情况是简单随机抽样,这时候每⼀个样本都和总体具有相同的分布函数或密度函数。具体对于正态分布来说,X ∼N (µ,σ2),如果我们抽取了n 个简单随机样本(X 1,X 2,⋯,X n ),则X 1,⋯,X n 之间实际上相互独⽴,且∀i ,X i ∼N (µ,σ2)。尽管µ和σ2我们未知,但是我们知道⼀点——它们⼀定是不会变化的常数,这样,我们能够获得独⽴且与总体分布相同的样本,通过观测样本构造统计量来估计总体。这种将统计量的观测值作为参数估计的估计⽅式,称为点估计。
对于总体均值,很⾃然的⼀点是⽤样本均值作为总体均值的估计。似乎没有理由不这么做,但这么做有什么依据吗?我们知道,观测样本具有两重性,所以统计量也具有两重性。要研究⽤样本均值作为总体均值估计的合理性,必须观察样本均值作为随机变量时的分布。
正态分布具有可加性,这指的是对于相互独⽴的正态分布,它们的和作为⼀个随机变量仍然服从正态分布,且均值和⽅差都是各分量的直接加和。有了这⼀点,我们就可以研究样本均值的分布了。
T n def =n
∑j =1X j ¯X =1
n n
∑j =1X j =1
n T n
,
由于正态分布服从可加性,因此有
T n ∼N (nµ,n σ2).
另外,由于正态分布的数乘依然是正态分布,且均值相当于乘上常数,⽅差相当于乘上常数的平⽅,所以
¯X
=1n T n
∼N µ,σ2
n .直观上来看,样本均值与总体具有相同的均值,但是⽅差变成了原来的n 分之⼀。众所周知,⽅差代表随机变量取值的离散情况,由切⽐雪夫不等式有∀ε>0,
P(|¯X
−µ|>ε)≤D(¯X
)ε2=σ2
n ε2.这个式⼦表明,只要你的n ⽆限增⼤,¯X
和µ之间的差距就可以⽆限缩⼩,这个性质称为弱相合性。另外,样本均值的期望和要估计的参数µ⼀致,这个性质称为
⽆偏性。由于样本均值估计总体均值时具有⽆偏性、弱相合性等优点,所以我们很难不把样本均值当作总体均值的点估计。下⾯是⽤R 语⾔从N (5,25)中获得100次样本均值的程序,每⼀个样本均值是由10000个相互独⽴的样本构成的。rm(list = ls())  # 清空内存barxlst <- c()for (i in 1:100){
barxlst[i] <- mean(rnorm(10000, 5, 5))}
split.screen(c(1, 2))screen(1)
plot(barxlst)  # 绘制散点图screen(2)
hist(barxlst)  # 绘制直⽅图
从图上可以看到,样本均值的集中区间⼏乎都在4.9∼5.1之间,读者可以⾃⾏利⽤正态分布的3σ性质验证这⼀点。Part 3:正态分布⽅差估计
接下来就轮到第⼆个参数σ2了,⼤家也很容易想到⽤样本⽅差
√√()
Loading [MathJax]/extensions/TeX/boldsymbol.js
S2=
1
n−1
n
j=1(X j−¯X)2
作为总体⽅差的估计,但随之⽽来的就有两个问题:
为什么要⽤S2这个估计量?
为什么S2的分母是n−1⽽不是n?
这⾥我们依然要探究S2的分布,但在此之前,先探究⼀下S2的均值,这⽐探究S2的分布要更容易。为此,可以作如下的变形:
S2=
1
n−1
n
aac
j=1(X j−¯X)2
=
1
n−1
n
j=1[X j−µ−(¯X−µ)]2
=
1
n−1
n
j=1(X j−µ)2+n(¯X−µ)2−2
n
j=1(X j−µ)(¯X−µ).
对于每⼀个X j,有(X j−µ)∼N(0,σ2),所以易得E(X j−µ)2=σ2;由于(¯X−µ)∼N(0,σ2/n),所以E(¯X−µ)2=σ2/n。最后⼀部分,有
n
j=1(X j−µ)(¯X−µ)
=(¯X−µ)
n
j=1X j−nµ
=n(¯X−µ)2,所以
E(S2)=
1
n−1
n
j=1E(X j−µ)2−n E(¯X−µ)2
=
n
n−1σ2−
n
n−1⋅
σ2
n
=σ2.
这说明S2在估计σ2上是⽆偏的,这样我们就解决了第⼆个问题:为什么S2的分母是n−1⽽不是n,这是因为n−1作分母可以让统计量具有⽆偏性。
下⾯就是为什么要⽤S2估计σ2的问题,照理说具有⽆偏性的估计量可以有这么多,为什么选择了样本⽅差呢?回想总体均值的估计,事实上如果我们只想获得⼀个⽆偏估计,使⽤X1就够了(显然有E(X1)=µ),但⽤X1估计不具有相合性,也就是说不管你样本容量多⼤,这个统计量都不向着真值的⽅向靠近,这显然不是我们想要的效果。使⽤S2是否也具有⼀样的相合性,是我们需要验证的问题。
注意下⾯的证明步骤⼗分重要,请⼤家务必将它记下来。
对于样本X1,⋯,X n,使⽤施密特正交化构造⼀个如下的正交阵(不会不知道什么叫正交阵了吧):崩解剂
A=
1
√n
1
√n⋯
1
√n a21a22⋯a2n ⋮⋮⋮a n1a n2⋯a nn
,
这个正交阵是⼀定可以构造出来的,如果你觉得很⽞,下⾯是⼀个构造⽅式:
A=
1
√n
1
√n
1
√n…
1
√n 1
√2⋅1
−1
√2⋅10⋯0 1
√3⋅2
1
√3⋅2
−2
√3⋅2⋯0
⋮⋮⋮⋮
1
√n(n−1)
1
√n(n−1)
1
√n(n−1)⋯
−(n−1)
√n(n−1)
.
令\boldsymbol{X}=(X_1,\cdots,X_n)',
[]
[]
[] [] []
\boldsymbol{Y}=(Y_1,\cdots,Y_n)'\xlongequal{def}AX,
Y_1=\sum_{j=1}^n\frac{1}{\sqrt{n}}X_j=\sqrt{n}\bar X.
由正交变换保持向量长度不变,得到
X_1^2+\cdots+X_n^2=Y_1^2+\cdots+Y_n^2,
所以
(n-1)S^2=\sum_{j=1}^n(X_j-\bar X)^2=\sum_{j=1}^nX_j^2-n\bar X^2=\sum_{j=1}^n Y_j^2-Y_1^2=\sum_{j=2}^nY_j^2.
接下来要证明⼀个很神奇的结论:Y_2,\cdots,Y_n独⽴同分布于N(0,\sigma^2)。⾸先由正态分布的线性组合仍然是正态分布这⼀性质,知道Y_2,\cdots,Y_n都服从正态分布,⽽它们的均值,对i=2,\cdots,n,有
\mu_i=\sum_{j=1}^na_{ij}\mathbb{E}(X_j)=\sum_{j=1}^na_{ij}\mu=\sqrt{n}\mu\sum_{j=1}^n a_{ij}\frac{1}{\sqrt{n}}=\sqrt{n}\mu\sum_{j=1}^n a_{ij}a_{1j}=0.
这⾥⽤到了正交矩阵第j⾏和第1⾏的正交性。它们的⽅差,对i=2,\cdots,n,有
\sigma_i^2=\sum_{j=1}^na_{ij}^2\mathbb{D}(X_j)=\sigma^2\sum_{j=1}^na_{ij}^2=\sigma^2,
这⾥⽤到了正交矩阵每⼀⾏平⽅和为1的性质。接下来还要证明\forall j\ne k,Y_jY_k相互独⽴(对于正态分布,即不相关),有
\mathrm{Cov}(Y_j,Y_k)=\sum_{i=1}^n a_{ij}a_{ik}\sigma^2=\sigma^2\sum_{i=1}^na_{ij}a_{ik}=0.
这就说明Y_1,Y_2,\cdots,Y_n相互独⽴,且Y_2,\cdots,Y_n独⽴同分布于N(0,\sigma^2),所以它们的平⽅和为
(n-1)S^2=\sum_{j=2}^nY_j^2,\\ S^2=\frac{1}{n-1}\sum_{j=2}^n Y_j^2
这⾥
\mathbb{E}(Y_j^2)=\sigma^2,\quad \mathbb{D}(Y_j^2)=\mathbb{E}(X_j^4)-\sigma^4=2\sigma^4,\\ \begin{aligned} \mathbb{E}(X_j^4)&=\int_{-\infty}^\infty
x^4\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{x^2}{2\sigma^2}}\mathrm{d}x\\ &=\frac{1}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^\infty x^4\frac{-x}
{\sigma^2}\frac{\sigma^2}{-x}\exp\left(-\frac{x^2}{2\sigma^2} \right)\mathrm{d}x\\ &=\frac{1}{\sqrt{2\pi\sigma^2}}(-\sigma^2)\int_{-\infty}^\infty x^3\mathrm{d} (e^{-\frac{x^2}{2\sigma^2}})\\ &=-\frac{\sigma}{\sqrt{2\pi}}\left(x^3e^{-\frac{x^2}{2\sigma^2}}\bigg|_{-\infty}^\infty -\int_{-\infty}^{\infty}3x^2e^{-\frac{x^2}
{2\sigma^2}}\mathrm{d}x \right)\\ &=\frac{3\sigma^2}{\sqrt{2\pi\sigma^2}}\int_{-\infty}^{\infty}x^2e^{-\frac{x^2}{2\sigma^2}}\mathrm{d}x\\
&=3\sigma^2\mathbb{E}(X_j^2)\\ &=3\sigma^4. \end{aligned}
所以
\mathbb{D}(S^2)=\frac{1}{n-1}\cdot\mathbb{D}(Y_1^2)=\frac{2\sigma^4}{n-1}, \\ \mathbb{P}(|S^2-\sigma^2|>\varepsilon)\le \frac{\mathbb{D}(S^2)}
{\varepsilon^2}=\frac{2\sigma^4}{(n-1)\varepsilon^2}.
这就证明了S^2估计\sigma^2的弱相合性。同时,由于\bar X只是Y_1的函数,S^2只是Y_2,\cdots,Y_n的函数,由Y_1与Y_2,\cdots,Y_n的相互独⽴性,我们还能得到⼀个重要结论:\bar X与S^2相互独⽴。
以上的论证说明,\bar X作为\mu的估计是⽆偏且相合的,S^2作为\sigma^2的估计是⽆偏且相合的,并且\bar X与S^2相互独⽴。
R语⾔中,var()函数能获得样本⽅差,对N(5,25)的10000个样本、1000000个样本进⾏100次模拟,注意观察坐标轴。
rm(list = ls())
varlst1 <- c()
varlst2 <- c()
for (i in 1:100){
varlst1[i] <- var(rnorm(10000, 5, 5))
varlst2[i] <- var(rnorm(1000000, 5, 5))
}
split.screen(c(2, 2))
screen(1)
plot(varlst1)
title("10000个样本:散点图")
screen(2)
hist(varlst1, main = "10000个样本:直⽅图")
screen(3)
plot(varlst2)
title("1000000个样本:散点图")
screen(4)
hist(varlst2, main = "1000000个样本:直⽅图")
# dev.off()
Part 4:卡⽅分布
以上对探索S^2的分布终究只是从它的⼀阶矩、⼆阶矩上证明了它⽤于刻画\sigma^2的优良性质,有没有办法能够得到S^2分布的详细信息呢?我们来观
察S^2的表达式,注意到
皇城轶事
(n-1)S^2=\sum_{j=2}^n Y_j^2=\sigma^2\sum_{j=2}^n\left(\frac{Y_j}{\sigma} \right)^2,\\ \frac{(n-1)S^2}{\sigma^2}=\sum_{j=2}^n\left(\frac{Y_j}{\sigma}
\right)^2.
这样变换的意义在于,右边变成了n-1个独⽴同分布的标准正态随机变量的平⽅和,在数理统计中,我们会经常遇到类似于这样的分布,因此将其定义为卡⽅分布。以后我们会了解到,正态分布有三⼤常⽤的衍⽣分布,今天只介绍第⼀种。
定义:设X_1,\cdots,X_n独⽴同分布于N(0,1),则称
\xi=\sum_{j=1}^n X_j^2\sim \chi^2(n).
这⾥n称为\chi^2分布的⾃由度。
从我们刚才对S^2的讨论,容易知道如果\xi\sim \chi^2(n),则
\mathbb{E}(\xi)=n,\quad \mathbb{D}(\xi)=2n.
进⼀步,我们还可以求出\xi的密度函数为
f_\xi(x)=\frac{1}{2^{\frac{n}2}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}I_{(x>0)}.
这⾥I_A是⽰性函数,即A发⽣时取1不发⽣时取0。在数理统计中,选择⽰性函数⽽不是分段函数的形式表⽰密度函数会给问题的讨论带来极⼤的⽅便。⽬前,记忆卡⽅分布的密度还挺有难度的,但我们可以暂且跳过它。
由于X_1,\cdots,X_n独⽴同分布服从于N(0,1),所以其联合密度是
f(x_1,\cdots,x_n)=\left(\frac{1}{\sqrt{2\pi}} \right)^n\exp\left\{-\frac{1}{2}\sum_{j=1}^nx_j^2 \right\},
设\xi=\sum_{j=1}^n X_j^2的分布函数为F_n(x),则
F_n(x)=\left(\frac{1}{\sqrt{2\pi}} \right)^2\int\cdots\int_{\sum_{j=1}^nx_j^2<x}\exp\left\{-\frac{1}{2}\sum_{j=1}^nx_j^2
\right\}\mathrm{d}x_1\cdots\mathrm{d}x_n,
作以下球坐标变换:
荣昌地震
\left\{\begin{array}l x_1=\rho\cos(\theta_1)\cos(\theta_2)\cdots\cos(\theta_{n-2})\cos(\theta_{n-1}), \\
x_2=\rho\cos(\theta_1)\cos(\theta_2)\cdots\cos(\theta_{n-2})\sin(\theta_{n-1}), \\ \vdots \\ x_n=\rho\sin(\theta_1), \end{array}\right.
诺顿磁盘医生怎么用该变换的Jacobi⾏列式绝对值为
现代产业体系|J|=\left|\frac{\partial(x_1,x_2,\cdots,x_n)}{\partial(\rho,\theta_1,\cdots,\theta_{n-1})} \right|=\rho^{n-1}g(\boldsymbol{\theta}).
这⾥\rho\le \sqrt{x},g(\boldsymbol{\theta})是某个关于\boldsymbol{\theta}=(\theta_1,\cdots,\theta_{n-1})的函数,所以
\begin{aligned} F_n(x)&=\left(\frac{1}{\sqrt{2\pi}} \right)^2\int_{0}^{\sqrt{x}}\rho^{n-1}e^{-\frac{\rho^2}{2}}\mathrm{d}\rho\cdot\int_{\Theta}
g(\boldsymbol{\theta})\mathrm{d}\boldsymbol{\theta}\\ &=C\int_{0}^{\sqrt{x}}\rho^{n-1}e^{-\frac{\rho^2} {2}}\mathrm{d}\rho\\
&\xlongequal{t:=\rho^2}C\int_{0}^{x}t^{\frac{n}{2}-1}e^{-\frac{t}{2}}\mathrm{d}t. \end{aligned}
这⾥C是某个常数,后⾯的部分为关于t的核,故显然\xi的密度为
f_n(x)=Cx^{\frac{n}{2}-1}e^{-\frac{x}{2}}I_{x>0},
后⾯的部分称为密度函数的核,只要确定常数C即可,经过积分得到
C=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}.
最后指出\chi^2具有可加性,这指的是对于独⽴的X\sim \chi^2(n_1),Y\sim \chi^2(n_2),有
X+Y\sim \chi^2(n_1+n_2),
只要把X看成n_1个独⽴标准正态变量的平⽅和,Y看成n_2个独⽴标准正态变量的平⽅和,它们的和就是n_1+n_2个独⽴标准正态变量的平⽅和,故服
从\chi^2(n_1+n_2)。
结合卡⽅分布,我们可以对今天得出的结论作⼀个⼩⼩的总结了。设X\sim N(\mu,\sigma^2)中抽取的简单随机样本导出的样本均值为\bar X,样本⽅差为S^2,则
\bar X的分布:
\bar X\sim N\left(\mu,\frac{\sigma^2}{n} \right).
S^2的分布:
\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1).
\bar X与S^2相互独⽴。
最后,有⼀个问题需要⼤家思考:正态参数的总体均值\mu和总体⽅差\sigma^2的⽆偏、相合估计量只有\bar X和S^2吗?如果不是,为什么我们会选择\bar
X和S^2来估计总体参数呢?举个最简单的例⼦,如果我们取出了n个样本,那么⽤前n/2个(如果n是偶数)样本来计算样本均值和样本⽅差,⼀样是相合且⽆偏的。问题在于,为什么要⽤全部n个样本来计算,⽽不是只⽤部分的样本。
之后,我们会对更多的分布族讨论参数估计问题。

本文发布于:2024-09-21 12:29:50,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/208071.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:总体   正态分布   样本
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议