最小二乘法拟合原理

最小二乘拟合

在物理实验中经常要观测两个有函数关系的物理量。根据两个量的许多组观测数据来确定它们的函数曲线，这就是实验数据处理中的曲线拟合问题。这类问题通常有两种情况：一种是两个观测量x与y之间的函数形式已知，但一些参数未知，需要确定未知参数的最佳估计值；另一种是x与y之间的函数形式还不知道，需要出它们之间的经验公式。后一种情况常假设x与y之间的关系是一个待定的多项式，多项式系数就是待定的未知参数，从而可采用类似于前一种情况的处理方法。

一、最小二乘法原理

在两个观测量中，往往总有一个量精度比另一个高得多，为简单起见把精度较高的观测量看作没有误差，并把这个观测量选作x江苏交通广播网101.1，而把所有的误差只认为是y的误差。设x和y的函数关系由理论公式

y＝f（x；c1，c2，……cm）（0-0-1）

给出，其中c1，c2，……cm是m个要通过实验确定的参数。对于每组观测数据（xi，yi）i＝1，

2，……，N。都对应于xy平面上一个点。若不存在测量误差，则这些数据点都准确落在理论曲线上。只要选取m组测量值代入式（0-0-1），便得到方程组

yi＝f（x；c1，c2，……cm）（0-0-2）

式中i＝1，2，……，m.求m个方程的联立解即得m个参数的数值。显然N<m时，参数不能确定。

在N>m的情况下，式（0-0-2）成为矛盾方程组，不能直接用解方程的方法求得m个参数值，只能用曲线拟合的方法来处理。设测量中不存在着系统误差，或者说已经修正，则y的观测值yi围绕着期望值 <f（x；c1，c2，……cm）> 摆动，其分布为正态分布，则yi的概率密度为

式中是分布的标准误差。为简便起见，下面用C代表（c1，c2，……cm）。考虑各次测量是相互独立的，故观测值（y1，y2，……cN）的似然函数

取似然函数L最大来估计参数C，应使

（0-0-3）

取最小值：对于y的分布不限于正态分布来说，式（0-0-3）称为最小二乘法准则。若为正态分布的情况，则最大似然法与最小二乘法是一致的。因权重因子，故式（0-0-3）表明，用最小二乘法来估计参数，要求各测量值yi的偏差的加权平方和为最小。

根据式（0-0-3）的要求，应有

从而得到方程组

（0-0-4）

解方程组（0-0-4），即得m个参数的估计值，从而得到拟合的曲线方程。

然而，对拟合的结果还应给予合理的评价。若yi服从正态分布，可引入拟合的x2量，

（0-0-5）

把参数估计代入上式并比较式（0-0-3），便得到最小的x2值

（0-0-6）

可以证明，服从自由度v＝N-m的x2分布，由此可对拟合结果作毛新民x2检验。

由x2分布得知，随机变量的期望值为N-m。如果由式（0-0-6）计算出接近N-m（例如），则认为拟合结果是可接受的；如果，则认为拟合结果与观测值有显著的矛盾。

二、直线的最小二乘拟合

曲线拟合中最基本和最常用的是直线拟合。设x和y之间的函数关系由直线方程

y＝a0+a1x (0-0-7)

给出。式中有两个待定参数，a0代表截距，a1代表斜率。对于等精度测量所得到的N组数据（xi，yi），i＝1，2……，N，xi值被认为是准确的，所有的误差只联系着yi。下面利用最小二乘法把观测数据拟合为直线。

1．直线参数的估计

前面指出，用最小二乘法估计参数时，要求观测值yi的偏差的加权平方和为最小。对于等精度观测值的直线拟合来说，由式（0-0-3）可使

（0-0-8）

最小即对参数a（代表婴幼儿上颌骨骨髓炎a0，a1）最佳估计，要求观测值yi的偏差的平方和为最小。

根据式（0-0-8）的要求，应有

整理后得到正规方程组

解正规方程组便可求得直线参数a0和a1的最佳估计值和。即

（0-0-10）

（0-0-11）

2．拟合结果的偏差

图兰朵剧本

泰国推出无臭榴莲由于直线参数的估计值和是根据有误差的观测数据点计算出来的，它们不可避免地存在着偏差。同时，各个观测数据点不是都准确地落地拟合线上面的，观测值yi与对应于拟合直线上的这之间也就有偏差。

首先讨论测量值yi的标准差S。考虑式（0-0-6），因等精度测量值yi所有的都相同，可用yi的标准偏差S来估计，故该式在等精度测量值的直线拟合中应表示为

（0-0-12）

已知测量值服从正态分布时，服从自由度v＝N-2的x2分布，其期望值

由此可得yi的标准偏差

（0-0-13）

这个表示式不难理解，它与贝塞尔公式是一致的，只不过这里计算S时受到两参数和估计式的约束，故自由度变为N-2罢了。

式（0-0-13）所表示的S值又称为拟合直线的标准偏差，它是检验拟合结果是否有效的重要标志。如果xy平面上作两条与拟合直线平行的直线

如图0-0-1所示，则全部观测数据点（xi，yi）的分布，约有68.3%的点落在这两条直线之间的范围内。

图0-0-1 拟合直线两侧数据点的分布

下面讨论拟合参数偏差，由式（0-0-10）和（0-0-11）可见，直线拟合的两个参数估计值和是yi梅山七圣的函数。因为假定xI是精确的，所有测量误差只有yi有关，故两个估计参数的标准偏差可利用不确定度传递公式求得，即

把式（0-0-10）与（0-0-11）分别代入上两式，便可计算得

（0-0-14）

（0-0-15）

三、相关系数及其显著性检验

当我们把观测数据点（xi，yi）作直线拟合时，还不大了解x与y之间线性关系的密切程度。为此要用相关系数ρ（x，y）来判断。其定义已由式（0-0-12）给出，现改写为另一种形式，并改用r表示相关系数，得

（0-0-16）

式中和分别为x和y的算术平均值。r值范围介于-1与+1之间，即-1≤r≤1。当r>0时直线的斜率为正，称正相关；当r<0时直线的斜率为负，称负相关。当|r|＝1时全部数据点（xi，yi）都落在拟合直线上。若r＝0则x与y之间完全不相关。r值愈接近±1则它们之间的线性关系愈密切。

本文发布于:2024-09-22 04:32:01，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/208061.html

上一篇：区间估计

下一篇：如何根据样本估计总体的均值、比例与方差？如何进行参数估计及选择对应公式？

标签：拟合参数直线

留言与评论（共有 0 条评论）