首页 > 学术百科

一元线性回归

一、一元线性回归模型的数学形式

对两边求数学期望和方差得：，随机变量y的期望不等，方差相等，因而是独立随机变量，但并不同分布，而是独立同分布的随机变量。

估计参数在实际应用中表示自变量x每增加一个单位时因变量y平均增加数量。

一元回归的一般形式用矩阵表示：

，，，，模型表示有：

其中为n阶单位矩阵。

二、参数估计

需注意，极大似然估计是在的正态分布假设下求得的，而最小二乘估计则对分布假设没有要求，另外，是独立的正态分布样本，但并不是同分布的，期望值不相等。

三、最小二乘估计的性质

初中学法指导

1、线性性：估计量为随机变量的线性函数

2、无偏性：是无偏估计

3、的方差

，

人的价值20从上面两个式子可以看出，要想使的估计值更稳定，在收集数据时，就应该考虑x的取值尽可能分散一些，不要挤在一块，样本量应尽可能大一些，样本量n太小时估计量的稳定性肯定不会太好。

从;;其中可以得到：

，在=0时，的协方差为0，此时不相关，在正态假定下独立；在0时不独立。它揭示了回归系数之间的关系。

四、回归方程的显著性检验

回归方程中主要关心的是回归系数的显著性，这决定y对x的回归是否成立，而对回归常数项的显著性并不关心。

检验统计量与p值的关系是： =p值；

例如：检验统计量t与p值的关系是： =p值,其中t为检验统计量，是随机变量，t值是t统计量的样本值。可以看出p值越小,|t值|越大，p值越大，|t值|越小。当p值时，|t值|，此时应拒绝原假设。反之则接受原假设。因此可以用p值代替t值作判断。

用p值代替t值作判定有几方面的优越性：

第一，用p值作检验不需要查表，只需直接用p值与显著性水平相比，当p值时即拒绝原假设，当p值>时即接受原假设，而用t值做检验需要查t分布表求临界值。

第二，用p值作检验具有可比性，而用t值作检验与自由度有关，可比性差。

第三，用p值作检验可以准确地知道检验的显著性，实际上p值就是犯弃真错误的真实概率，也就是检验的真实显著性。

五、相关系数

在一元线性回归的回归系数的符号与相关系数r的符号相同。对于对称分布的统计量，单侧检验的p值的2倍就是双侧检验的p值。

用样本相关系数r判断两变量间相关程度的强弱时一定要注意样本量的大小，只有当样本量较大时用样本相关系数r判断两变量间相关程度的强弱才可信服。

需要正确区分相关系数显著性检验与相关程度强弱的关系，相关系数的t检验显著只是表示总体相关系数显著不为零，并不能表示相关程度高。例，如果有A,B两位同学，A同学计算出r=0.8，但显著性检验没有通过；B同学计算出r=0.1，而声称此相关系数高度显著，能肯定这两位同学都出错了吗？这个问题和样本量有关。观察检验统计量，可以看到t值不仅与样本相关系数r有关，同时与样本量n有关，对同样的相关系数r，样本量n大时|t|就大，样本量n小时|t|就小。实际上，对任意固定的非0的r值，只要样本量n充分大就能使|t|足够大，从而得到相关系数高度显著的结论。明白这个道理后你就会相信A,B两位同学说的都可能是正确的。在样本量充分大时，可以把样本相关系数r作为总体相关系数，不必关系显著性检验的结果，只需要结合数据的实际背景判断r值表示的相关性的强弱。

六、三种检验的关系

对一元线性回归，F检验，t检验，相关系数的显著性检验结果是完全一致的，回归系数显著性的t检验与相关系数显著性的t检验是完全等价的，F统计量则是这两个t统计量的平方。

七、决定系数

决定系数是一个回归直线与样本观测值拟合优度的相对指标，反映了因变量的变异中能用自变量解释的比例。

需要注意一下几个方面问题：

第一，当样本量较小时，得到一个大的决定系数，但是这个大的决定系数很可能是虚假现象。为此需要结合样本量和自变量个数对决定系数做调整，计算调整的决定系数。

第二，即使样本量并不小，决定系数很大，例如0.9，也并不能肯定自变量与因变量之间的关系就是线性的，因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时，线性回归的效果通常是较好的，这样的线性回归方程是不能用于外推预测的。

第三，当算出一个很小的决定系数r^2,例如r^2=0.1时，与相关系数的检验显著性相似，这时如果样本容量n不大，就会得到线性回归不显著的检验结果，而在样本容量n很大时，检验结果仍然会得出线性回归显著的结论。不论检验结果是否显著，这时都应该尝试改进回归的效果。例如增加自变量，改用曲线回归等。

八、残差分析

1、残差图

(a)线性关系成立;(b)x加入二次方项;(c)存在异方差，需要改变x形式

(d)残差与时间t有关。可能遗漏变量或者存在序列相关，需要引入变量。

2、残差的性质

性质1：

性质2：其中为杠杆值。靠近附近的点相应的残差方差较大，远离附近的点相应的残差方差较小，远离的点数目必然较少，回归线容易“照顾”到这样的少数点，使得回归线附近这些点，因而远离附近的相应的残差方差较小。

性质3：残差满足约束条件：，这表明残差是相关的。

3、改进的残差

标准化残差：学生化残差：，普通残差的方差不等，不利于比较。标准化残差使残差具有可比性，||>3时的相应观测值即判断为异常值，但没有解决方差不等的问题。而学生化残差则进一步解决了方差不等的问题，在寻异常值时，用学生化残差优于普通残差。

九、回归系数的区间估计

置信区间的长度越短，说明估计量与接近程度越好，估计值就越精确；置信区间的长度越长，说明估计量与接近程度越差，估计值就越不精确。

十、预测与控制

1、单值预测

，预测目标是一个随机变量，因而这个预测不能用普通的无偏性来衡量，，说明预测值与目标值有相同的均值。

2、区间预测

对应于某个特定的的实际值以1-的概率被区间（）所包含，即：

，对因变量的区间预测又分为两种情况，一种是对因变量新值的却见预测，另一种是对因变量新值平均值的区间预测。

因变量新值的区间预测：

的置信概率为的置信区间为：

，其中：为新值的杠杆值。对给定的显著性水平，样本容量n越大，越大，越靠近，则置信区间长度越短，此时的预测精确度就高。所以为了提高预测精度，样本量n应越大越好，采集数据不能太集中。在进行预测时，所给定的不能偏离太大，太大时，预测结果肯定不好；如果给定=时，置信区间长度最短，这时的预测结果最好。如果在自变量观测值之外的范围作预测，精度就较差。这种情况进一步说明当x的取值发生较大变化时，即很大时，预测就不准。所以在做预测时一定要看与相差多大，相差太大时，效果肯定不好。尤其是在经济问题的研究中做长期预测时，x的取值肯定距当时建模时采集样本的相差太大。

3、控制问题

控制问题相当于预测的反问题。比如研究近年的经济增长率时，希望增长率能保持在8%~12%；用数学表达式描述，即要求，以1-的概率保证把目标值y控制在中，即=1-，用近似的预测区间来确定x，可由不等式组表示：，求出x的取值区间即可。控制问题要求因变量y与自变量x之间有因果关系，经常用在工业生产的质量控制中。在经济问题中，经济变量之间有强的相关性，形成一个综合整体，仅控制回归方程中的一个或几个自变量，而忽视了回归方程之外的其他变量，往往达不到预期的效果。

十一、有关回归假设检验问题

对于一元线性回归方程显著性的检验，只要方法是F检验，即.那么当接受或者是拒绝意味着什么？在做F检验时，假定y对x的回归形式为线性关系，而不是曲线关系。这时如果拒绝了，就说明x与y之间有显著的线性关系，回归方程刻画了x与y的这种线性关系。然而，对于一个实际问题，变量x与y之间到底是一个什么样的关系?并不十分清楚。另外样本数据是否存在异常值，是否存在周期性，往往从数据的表面并不能明显看出。运用普通最小二乘OLSE法估计模型的参数是在模型满足一些基本假定时才有效，如果模型的基本假定显著地出错，可能导致模型结论严重歪曲。

一般情况下，当被接受时，表明y的取值倾向不随x的值按线性关系变化。这种状况可能是由于变量y与x之间的相关关系不显著，也可能虽然变量y与x之间相关关系显著，但是这种相关关系不是线性的而是非线性的。

当被拒绝时，如果没有其他信息，仅凭拒绝，只能认为因变量y对自变量x的线性回归是有效的，但是还没有说明回归的有效程度，不能断言y与x之间就一定是线性相关关系，而不是曲线关系或者其他关系。这些问题还需要借助决定系数、散点图、残差图等工具做进一步分析。

看下面这四组数据，用EXCEL进行回归分析：

不结盟运动婚恋问题

第一组		第二组		第三组		第四组
x	y	x	y	x	y	x	y
4	4.26	线圈匝数4	3.1	4	5.39	8	6.58
5	5.68	5	4.74	5	5.73	8	5.76
6	7.24	6	6.13	6	6.08	8	7.71
7	4.82	7	7.26	7	6.44	8	8.84
8	6.95	8	8.14	8	6.77	8	8.47
9	8.81	9	8.77	9	7.11	8	7.04
10	8.04	10	9.14	10	7.46	8	5.25
11	8.33	11	9.26	11	7.81	8	5.56
12	10.84	12	9.13	12	8.15	8	7.91
13	7.58	13	8.74	13	12.74	8	6.89
14	9.96	14	8.1	14	8.84	19	12.5

山水比德

第一组第二组

第三组第四组

这四组数据得到的经验回归方程都是相同的，都是，决定系数都是=0.667，相关系数=0.816。这四组数据所建立的回归方程是相同的，决定系数，F统计量也相同，且均通过显著性检验，说明这四组数据y与x之间都有显著的线性相关关系。然而，变量y与x之间是否就有相同的线性相关关系呢？由上述四组数据的散点图可以看到，变量y与x之间的关系是很不相同的。第一组，直线作为y与x间关系的拟合是合适的，回归方程刻画了变量y与x间的线性相关关系。第二组，变量y与x之间的相关关系应当是曲线关系，尽管回归方程也通过了显著性检验，但由直线方程去揭示它们的相关关系很不合适。如果用y对x作曲线回归，必可以有很大的提高决定系数，如果进一部做残差分析会发现残差点的分布不具有随机性原则。第三组，变量y与x之间存在着线性关系，但用直线去拟合这种关系不太理想。因为第三组数据中第10对数据远离回归直线，可以认为是异常值。如果将它剔除，用其余的10对数据重新计算经验回归方程，拟合效果会非常好。第四组，回归直线的斜率完全取决于两个点，这种情况所得到的经验回归方程是很不可信的。实际上自变量x只取了两个不同的值，因而不能断言y与x之间的何种关系。

这个例子说明，当拒绝假设时，说y与x之间存在线性相关关系，但是并不能完全肯定线性关系就是y与x之间关系最好的描述，可能y与x之间更准确的关系应该是曲线，或者存在异常值等原因造成y与x之间虚假的线性关系。在实际应用中，不应局限于一种方法去分析判断要得到确实可信的结果，应该F检验，决定系数，散点图，残差分析等一起使用，得到一致的结果时，才可下定论。

本文发布于:2024-09-21 19:30:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/401027.html

上一篇：常用的质量统计术语收藏

下一篇：Eviews回归分析输出结果指标解释

标签：检验回归预测残差问题关系

留言与评论（共有 0 条评论）