最小二乘法的历史回顾与现状

2013年会主题 收稿日期: 1997-12-30第15卷第1期1998年5月       中国科学院研究生院学报Jour nal of Graduate Schoo l,Academia Sinica        V o l.15 N o.1M ay  1998
最小二乘法的历史回顾与现状
陈希孺 院士
(本院数学教学部)
摘 要 对最小二乘法的意义、发现经过及与之有关的高斯正态误差理论的发展情况,作了简要论述;对这个方法在应用上的意义、理论上的进展以及与之相关的一些数理统计学问题,也作了概括性的介绍.
关键词 最小二乘法,线性统计模型,M 估计
1 最小二乘法的定义
假定在研究一个问题时,从某种理论或假定出发,得到了一个模型.根据这个模型,我们感兴趣的某个量有其理论值,同时我们可以对这个量进行实际观测,而得出其观测值.由于种种原因——例如模型不完全正确以及观测有误差等,理论值与观测值会有差距,这差距的平方和
H = (理论值-观测值)2(1)
可以作为理论与实测符合程度的度量.(1)式中的求和是针对若干次不同的观测,通常,理论值中包含有未知参数(或参数向量)θ.最小二乘法(Least Squa res Method,以下简记为LSE)要求选择这
样的θ值θ ,使H 达到最小.因此,LSE 的直接意义,是作为一种估计未知参数的方法.
举一个简单例子.设有一个未知量θ,对它作了n 次测量,分别得出x 1,…,x n .在此,理论
值是θ,观测值为x i ,(1)式定义的H =H (θ)= n i =1
(x i -θ)2,使H (θ)达到最小的θ值为θ =(x 1+…+x n )/n =x -.因此,按LSE 应取各次观察值的平均值x -去估计θ.这就是常用的取算术
平均的方法从LSE 角度的解释.本例中最小值为H (θ )= n i =1(x i -x -)2,其大小可以作为测量
精度(因而x -这个估计的精度)的一种指标:此值愈大,表示测量的精度愈小,因而x -的精度也愈小.但还要注意一个情况,有可能各次测量很接近,但都有系统偏差.比方说,一架天平没有
调好,1g 的东西,秤出来总在1.1g 左右.因此,以H (θ )之值去衡量测量精度(因而估计精度)
有一个条件,即测量没有系统误差,在数理统计上把这称为无偏性(unbiasedness ).如果以e 记测量的随机误差,则无偏性的统计表述是Ee =0,E 是所谓数学期望.直观上说,就是在多次测
量之下,正负偏差都可能出现并在概率意义上相互抵消.当这个条件满足时,H (θ )确实可以作
为刻划估计精度的指标,具体如何做,在数理统计学中有仔细介绍,此处不多说了.在统计上使用LSE 时,一般都要假定这种无偏性成立,当然,在实际操作中要保证这个条件,需要细心地做好有关的工作,以消除系统误差可能的来源.
举一个稍复杂一点的例子.设有两个相关的量x ,y (例如人的身高、体重),对之进行n 次观测,得(x i ,y i ),i =1,…,n .在直角坐标系中,这些点大体上沿一条直线分布,因此有一定理由4
图1
把这问题的理论模型设定为直线y =θ1+
强度极限θ2x .按这个模型,在x i 处y 的理论值应为
θ
1+θ2x i ,而实际观测结果为y i .因此,对本问题,(1)式定义的H 为
H (θ1,θ2)= n
i =1(y i -θ1-θ2x i )2,
利用求极值的方法不难确定使H 达到最
小的值θ 1和θ 2,它们是θ 1=y --θ 2x -,
θ 2= n
i =1(x i -x -)y i / n i =1(x i -x -
)
2.所定出的直线y =θ 1+θ 2x 与观测点{(x i ,
y i ),1≤i ≤n }的拟合程度如何,可由最小值H (θ
1,θ 2)刻划,此值愈大,表示点的直线趋势并不强.此处看来没有涉及观测误差的问题,其实不然,很可能有这样的情况:
原本x ,y 之间有直线关系(例如说)y =2x
+1,但由于对x ,y 的观测有系统误差,从图上看,点可能仍是聚集在一条直线附近,但这条直线与正确的直线y =2x +1偏离很远.当然,即使没有系统误差,但由于测量有随机误差,由LSE 所决定的直线y =θ 1+θ 2x 仍会与正
确的直线y =θ
1+θ2x i 有差距.但这种差距一般说比较小,且当观测次数n 较大时会很小.而系统误差存在时差距会较大,且不随测量次数的增加而降低.
此例还值得注意的一点是:虽说x ,y 都是被观测的量,但在我们用LSE 去处理时,其地位不同,表现在理论值与观测值的偏差是以y 值为准而不以x 值为准.形式上,我们也可以倒过来,即以x 值为准来计
偏差.这时用LSE 所拟合的直线,与刚才以y 为准所得者会不同.这个现象乍看似乎有些难于理解,但从统计学角度看是完全自然的,此处不详加说明.在统计上,把此处的x 叫做“解释变量”或“自变量”,而y 叫做“目标变量”或“因变量”.偏差以目标变量为准.在实用上,何者取为解释变量或目标变量,并非完全任意的,要看问题的性质而定.当x ,y 分别有“因”和“果”的含义时,一般总是取y 为目标变量.
这个例子在统计学上称为“一元线性回归”.一元,指模型中只有一个自变量x ,它很容易推广
到多个自变量的情况y =θ
0+θ1x 1+…+θk x k ,其中x 1,…,x k 是自变量,叫“多元线性回归”.局限于这种线性情况,LSE 在计算上只涉及解线性方程组,因而不难实施.由于这个原因,加上高斯的正态误差理论,二者结合构成了应用统计中最强有力的方法,涵盖了应用统计中许多重要的分支,故有的统计学家把LSE 在统计学中的地位,比作微积分在数学中的地位.当然,LSE 也可用于非线性模型等一些更复杂的模型,但在计算上比较繁重,其统计理论也更为复杂.
2 发现的历史
在介绍了LSE 的基本概念后,我们来稍稍谈一下这个方法产生的历史过程.可以说,LSE 源于天文学和测地学上的应用需要.在早期数理统计方法的发展中,这两门科学起了很大的作用,故丹麦统计学家霍尔把它们称为“数理统计学的母亲”.5
spice 1998年陈希孺:最小二乘法的历史回顾与现状5月
 第15卷中国科学院研究生院学报第1期这种应用的一般模式,实际上就是我们上节讲到的多元线性回归,只是在解释上有所不同(从严格的统计理论观点上说,二者有很大的不同,但在应用上一般不加区别).假定在某个问题中,有一些不能或不易观测的量θ1,…,θk,另有一些容易观测的量x0,x1,…,x k,按理论(例如牛顿力学理论),它们应有严格的线性关系
x0+x1θ1+…+x kθk=0(2)问题归结为:要根据(x0,x1,…,x k)的观测数据
(x0i.…,x ki), i=1,…,n(3)去估计θ1,…,θk,它们被视为模型中的参数,按(2)式,由(3)中的观测值(x\-0i,…,x ki)将得出方程
x0i+x1iθ1+…+x kiθk=0, i=1,…,n(4)共有n个方程.但是,由于观测有误差以及理论并非完全确切,代替(4)式实际上是
x0i+x1iθ1+…+x kiθk=X i, 1≤i≤n(5)其中X1,…,X n为随机误差,这里要求n≥k,即观测次数应不少于未知参数,否则无法估计.
如果误差不存在,即(4)式确切成立,那么问题好办,只须从(4)中的n个方程挑出k个,形成联立线性方程组,解出来即得到θ1,…,θk,的确切值.但因误差存在,我们实际上有的是(5).在这种情况下,如果仍
沿用误差为0时的作法,即挑出k个方程去求解,则将得出一个低效率的解,因为没有把n个观测结果都利用上.这一点可以从本文开始那个简单例子中清楚看到:对一未知值θ作了n次测量得x1,…,x n,如果毫无误差,将得到n个方程
x1-θ=0, x2-θ=0,…, x n-θ=0,(6)实际情况为x1-θ=X1,…,x n-θ=X n.如果只挑出一个方程,例如x1-θ=0,去求解,将得θ= x1,即只用第一个观测值x1去估计θ,其余皆弃之不用.这显然是很大的浪费.LSE的作法是相当于把(6)中n个方程相加,得n i=1x i-nθ=0,解出θ=x-.因此,问题在于怎样充分利用全部的观测结果(3),以期得到一个效率更高的估计.这个问题曾困扰了18世纪的一些学者,包括像欧拉和拉普拉斯这样的伟大数学家.例如,梅耶(J.T.Mayer)在1750年由确定地球上一点的经度问题,引出形如(4)(其实是(5))的一组方程,其中n=27而k=  3.梅耶把这27个方程分成3组,每组9个,将各组方程相加得出一个方程,这样共得到3个方程,可以解出θ1,θ2,θ3.这个方法在18世纪下半叶曾很为流行,但由于分组的方法无定规可循,在应用上不方便,因为不同的分组方法可得出差异很大的解.又如,欧拉(L.Euler)在1749年研究木星对土星轨道的影响时,得到n=75和k=8的一组方程.拉普拉斯也研究过这同一问题,得到n=24和k=4的一组方程.他们处理这个问题的方法与梅耶相似,即要设法从全部n个方程中构造出k个方程,以便解出θ1,…,θk.但他们的做法比梅耶更缺乏规则性,因而不能为解决这类问题指出一个一般的途径.
现行的LSE是勒让德(A.M.Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的.该书有80
页,包含8页附录,LSE就包含在这个附录中.勒让德之所以能作出这个发现,是因为他没有因袭前人的想法——要设法构造出k个方程去求解.他认识到关键不在于使某一方程严格符合,而在于要使误差以一种更平衡的方式分配到各个方程.具体地说,他寻求这样的θ值,使(5)式各误差的平方和,即n i=1(x i0+x i1θ1+…+x ikθk)2,达到最小.为什么取平方,而不取绝对值、四次方或其他函数?这就只能从计算的观点来解释了——至少在勒让德时代,不可能知道从统计学的角度看,选择平方这个函数有何优点,这方面的研究是那以后很久的事情.
6
图2
  c 为子午线上一点;l 2为过该点的切线;l 1过c 指向
天顶;h 为l 1、l 2的夹角,即c 点处的纬度;a 点的纬
度比b 点高1°,且c 是a b 弧的中点虽然勒让德在1805年以前很久,就因天文学
上的问题而遇到(5)式这样的方程组,但看来他并
不是在与这些问题打交道时,才发现了LSE,因为
长江电力商务在其上述著作正文中,他基本上没有提到这个方
法.他发现这个方法,可能是在他参加的一项测地
学工作中,即从1792年开始持续了10余年的量
测过巴黎子午线之长的工作(当时把1米定义为
此线长的4000万分之一).这个工作所用的模型,
是根据地球略微有些椭性这个事实.如图2,由椭
中国与法国的关系圆方程出发,根据地球椭性甚小而略去高次项,不
难证明下面的近似公式:
l (h )=θ1+θ2sin 2h ,式中h 为c 点的纬度,l (h )为子午线上以c 为中心1度的弧长,θ1,θ2为参数.若记x 0=-l (h ),x 1=1,x 2=sin 2h ,则上式成为x 0+x 1θ1+x 2θ2=0,即有
(4)式的形状.在这项工作中,共在5个位置处测
定了其纬度h 和l (h ),从而可用LSE 解出θ1和θ2的估值θ 1和θ 2,然后子午线的全长可用360l
(45°)去估计之.从一种“事后诸葛亮”的眼光,我们现在看起来会觉得这个方法似乎平淡无奇,甚至是理所当然的.这正说明了创造性思维之可贵和不易.从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难.欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功.除了在思想上囿于“解方程”这一思维定势之外,也许还因为,这是一个实用性质的问题而非纯数学问题.解决这种问题,需要一种植根于实用而非纯数学精确性的思维.例如,按数学理论,容器以做成球形最省,但基于实际以至美学上的原因,在现实中有各种形状的容器存在.总之,从LSE 发现的历史中,使我们对纯数学和应用数学思维之间的差别,多少有一些启示.
3 高斯的正态误差理论
勒让德在其著作中,对LSE 的优点有所阐述.然而,到此为止,这个方法仍有其不足之处,即它纯是一个计算方法,缺少误差分析.我们不知道,使用这个方法引起的误差如何,因此也就无法知道,除了若干表面上的优点(例如计算上方便)之外,LSE 还有何深层次的优点.要研究这些问题,就需建立一种误差分析理论.从(5)式显然看到,误差X i 的大小对θi 的估计有重大影响,X i 的概率性质决定了θi 估计的统计性质.因此,要对X i 的概率性质给予适当的描述,这一点是德国大数学家高斯(C.F.Gauss)的功绩.
早在17世纪,伽利略在其名著《关于两个世界的对话——托雷密与哥白尼》(1632)中,就讨论了随机误差及其分布的问题.虽然他并未提出这个名词,但他提出了随机误差的分布曲线应有图3的形状:f 关于0对称(即f (-X )=f (X ),这表示正负误差有同等出现的机会),f 在两边单调地衰减至0,即大误差出现的机会较小,很大误差的机会几乎为0.以后的学者在研究7
 1998年陈希孺:最小二乘法的历史回顾与现状5月
  图3a 是误差大小;f (a )是a 这样的误差发生的概率,或更确切
地说,f (a )与这个概率成比例.图4
误差理论时,多遵循这个出发点.但满足这种性质的函数很多,如何决定出一个具体形式是一个困难问题.
最早接触这个问题的是辛普森(T .Simpso n ).1755年,他为了回答“算术平均优于一次观测”这个问题,考虑了图4那种三角形误差曲线.他用n =6的特例,通过计算证明了
P (| 6
i =1X i /6|<d )>P (|X 1|<d ), d >0
这里X 1,…,X 6是6次观测的误差.上述不等式表明:算术平均的误差取小值的机会,比一次观测误差取小值的机会大,因而在这个意义上证明了取平均的优越性.以后拉格朗日(J .L .La-
g rang e )考虑过f (X )=p 2-X 2(|X |≤p )和f (X )=co s X (|X |≤π/2)的形状,但在这个问题上用力最多的是拉普拉斯.他的出发点是要为函数f 规定一些应当满足的条件,以据此确定f .例如,他考虑的一种条件是,当X >0时,f (X )下降,f ′(X )也下降.他要求二者保持常数比例,这样定出f 有如下的形式:
f (X )=m 2
ex p(-m |X |), m >0为参数.这个分布如今在概率论中很有名,叫拉普拉斯分布.然而,用之作为误差分布却很不成功.拉普拉斯曾用它去分析3次观测的算术平均的误差,结果导致很复杂的分析问题,更一般的情况就不用说了.拉普拉斯后来还根据其他的考虑提出过另外的误差曲线的形式,也很不成功.
现在轮到高斯,他不从单纯“把f 作为一个函数而要设法出一些条件去决定它”这个思维定势出发,而是径直假定这样的“公理”:在多次观测中取平均是天然合理的.由此出发,再配合他的“极大似然”的想法(见下.极大似然的概念最初源出于此,但作为一个估计参数的一般方法提出来,应归功于费歇尔(R.A.Fisher)1912
年的工作,很容易决定出f 应有
f (X )=12πe
exp -X 22e 2的形式.这就是概率论中最重要、最著名的正态分布,又称高斯分布.根据这个分布,按(5)式,(X
1,…,X n )的联合密度为L =(2π)-n /2e -n ex p -12e
数理统计法2 n i =1(x 0i +x 1i θ1+…+x ki θk )
2为要使L 达到最大(即极大似然),必须使
n i =1(x 0i +x 1i θ1+…+x ki θk )2达到最小,从而引出LSE .当然,高斯理论的意义,并不在于给LSE 这样一个形式上的推证.其8 第15卷中国科学院研究生院学报第1期

本文发布于:2024-09-21 22:57:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/694074.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:问题   误差   观测   方法   理论   方程
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议