一、一元线性回归模型的数学形式
对两边求数学期望和方差得:,随机变量y的期望不等,方差相等,因而是独立随机变量,但并不同分布,而是独立同分布的随机变量。
估计参数在实际应用中表示自变量x每增加一个单位时因变量y平均增加数量。
一元回归的一般形式用矩阵表示:
,,,,模型表示有:
其中为n阶单位矩阵。
二、参数估计
需注意,极大似然估计是在的正态分布假设下求得的,而最小二乘估计则对分布假设没有要求,另外,是独立的正态分布样本,但并不是同分布的,期望值不相等。
三、最小二乘估计的性质
初中学法指导
1、线性性:估计量为随机变量的线性函数
2、无偏性:是无偏估计
3、的方差
,
人的价值20从上面两个式子可以看出,要想使的估计值更稳定,在收集数据时,就应该考虑x的取值尽可能分散一些,不要挤在一块,样本量应尽可能大一些,样本量n太小时估计量的稳定性肯定不会太好。
从;;其中可以得到:
,在=0时,的协方差为0,此时不相关,在正态假定下独立;在0时不独立。它揭示了回归系数之间的关系。
回归方程中主要关心的是回归系数的显著性,这决定y对x的回归是否成立,而对回归常数项的显著性并不关心。
检验统计量与p值的关系是: =p值;
例如:检验统计量t与p值的关系是: =p值,其中t为检验统计量,是随机变量,t值是t统计量的样本值。可以看出p值越小,|t值|越大,p值越大,|t值|越小。当p值时,|t值|,此时应拒绝原假设。反之则接受原假设。因此可以用p值代替t值作判断。
用p值代替t值作判定有几方面的优越性:
第一,用p值作检验不需要查表,只需直接用p值与显著性水平相比,当p值时即拒绝原假设,当p值>时即接受原假设,而用t值做检验需要查t分布表求临界值。
第二,用p值作检验具有可比性,而用t值作检验与自由度有关,可比性差。
第三,用p值作检验可以准确地知道检验的显著性,实际上p值就是犯弃真错误的真实概率,也就是检验的真实显著性。
五、相关系数
在一元线性回归的回归系数的符号与相关系数r的符号相同。对于对称分布的统计量,单侧检验的p值的2倍就是双侧检验的p值。
用样本相关系数r判断两变量间相关程度的强弱时一定要注意样本量的大小,只有当样本量较大时用样本相关系数r判断两变量间相关程度的强弱才可信服。
需要正确区分相关系数显著性检验与相关程度强弱的关系,相关系数的t检验显著只是表示总体相关系数显著不为零,并不能表示相关程度高。例,如果有A,B两位同学,A同学计算出r=0.8,但显著性检验没有通过;B同学计算出r=0.1,而声称此相关系数高度显著,能肯定这两位同学都出错了吗?这个问题和样本量有关。观察检验统计量,可以看到t值不仅与样本相关系数r有关,同时与样本量n有关,对同样的相关系数r,样本量n大时|t|就大,样本量n小时|t|就小。实际上,对任意固定的非0的r值,只要样本量n充分大就能使|t|足够大,从而得到相关系数高度显著的结论。明白这个道理后你就会相信A,B两位同学说的都可能是正确的。在样本量充分大时,可以把样本相关系数r作为总体相关系数,不必关系显著性检验的结果,只需要结合数据的实际背景判断r值表示的相关性的强弱。 六、三种检验的关系
对一元线性回归,F检验,t检验,相关系数的显著性检验结果是完全一致的,回归系数显著性的t检验与相关系数显著性的t检验是完全等价的,F统计量则是这两个t统计量的平方。
七、决定系数
决定系数是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的变异中能用自变量解释的比例。
需要注意一下几个方面问题:
第一,当样本量较小时,得到一个大的决定系数,但是这个大的决定系数很可能是虚假现象。为此需要结合样本量和自变量个数对决定系数做调整,计算调整的决定系数。
第二,即使样本量并不小,决定系数很大,例如0.9,也并不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时,线性回归的效果通常是较好的,这样的线性回归方程是不能用于外推预测的。 第三,当算出一个很小的决定系数r^2,例如r^2=0.1时,与相关系数的检验显著性相似,这时如果样本容量n不大,就会得到线性回归不显著的检验结果,而在样本容量n很大时,检验结果仍然会得出线性回归显著的结论。不论检验结果是否显著,这时都应该尝试改进回归的效果。例如增加自变量,改用曲线回归等。
1、残差图
(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式
(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。
2、残差的性质
性质1:
性质2: 其中为杠杆值。靠近附近的点相应的残差方差较大,远离附近的点相应的残差方差较小,远离的点数目必然较少,回归线容易“照顾”到这样的少数点,使得回归线附近这些点,因而远离附近的相应的残差方差较小。
性质3:残差满足约束条件: ,这表明残差是相关的。
3、改进的残差
标准化残差: 学生化残差:,普通残差的方差不等,不利于比较。标准化残差使残差具有可比性,||>3时的相应观测值即判断为异常值,但没有解决方差不等的问题。而学生化残差则进一步解决了方差不等的问题,在寻异常值时,用学生化残差优于普通残差。
九、回归系数的区间估计
置信区间的长度越短,说明估计量与接近程度越好,估计值就越精确;置信区间的长度越长,说明估计量与接近程度越差,估计值就越不精确。
十、预测与控制
1、单值预测
,预测目标是一个随机变量,因而这个预测不能用普通的无偏性来衡量,,说明预测值与目标值有相同的均值。
2、区间预测
对应于某个特定的的实际值以1-的概率被区间()所包含,即:
,对因变量的区间预测又分为两种情况,一种是对因变量新值的却见预测,另一种是对因变量新值平均值的区间预测。
因变量新值的区间预测:
的置信概率为的置信区间为:
,其中:为新值的杠杆值。对给定的显著性水平,样本容量n越大,越大,越靠近,则置信区间长度越短,此时的预测精确度就高。所以为了提高预测精度,样本量n应越大越好,采集数据不能太集中。在进行预测时,所给定的不能偏离太大,太大时,预测结果肯定不好;如果给定=时,置信区间长度最短,这时的预测结果最好。如果在自变量观测值之外的范围作预测,精度就较差。这种情况进一步说明当x的取值发生较大变化时,即很大时,预测就不准。所以在做预测时一定要看与相差多大,相差太大时,效果肯定不好。尤其是在经济问题的研究中做长期预测时,x的取值肯定距当时建模时采集样本的相差太大。
3、控制问题
控制问题相当于预测的反问题。比如研究近年的经济增长率时,希望增长率能保持在8%~12%;用数学表达式描述,即要求,以1-的概率保证把目标值y控制在中,即=1-,用近似的预测区间来确定x,可由不等式组表示:,求出x的取值区间即可。控制问题要求因变量y与自变量x之间有因果关系,经常用在工业生产的质量控制中。在经济问题中,经济变量之间有强的相关性,形成一个综合整体,仅控制回归方程中的一个或几个自变量,而忽视了回归方程之外的其他变量,往往达不到预期的效果。
十一、有关回归假设检验问题
对于一元线性回归方程显著性的检验,只要方法是F检验,即.那么当接受或者是拒绝意味着什么?在做F检验时,假定y对x的回归形式为线性关系,而不是曲线关系。这时如果拒绝了,就说明x与y之间有显著的线性关系,回归方程刻画了x与y的这种线性关系。然而,对于一个实际问题,变量x与y之间到底是一个什么样的关系?并不十分清楚。另外样本数据是否存在异常值,是否存在周期性,往往从数据的表面并不能明显看出。运用普通最小二乘OLSE法估计模型的参数是在模型满足一些基本假定时才有效,如果模型的基本假定显著地出错,可能导致模型结论严重歪曲。
一般情况下,当被接受时,表明y的取值倾向不随x的值按线性关系变化。这种状况可能是由于变量y与x之间的相关关系不显著,也可能虽然变量y与x之间相关关系显著,但是这种相关关系不是线性的而是非线性的。
当被拒绝时,如果没有其他信息,仅凭拒绝,只能认为因变量y对自变量x的线性回归是有效的,但是还没有说明回归的有效程度,不能断言y与x之间就一定是线性相关关系,而不是曲线关系或者其他关系。这些问题还需要借助决定系数、散点图、残差图等工具做进一步分析。
看下面这四组数据,用EXCEL进行回归分析:
不结盟运动第一组 | 第二组 | 第三组 | 第四组 |
x | y | x | y | x | y | x | y |
4 | 4.26 | 线圈匝数4 | 3.1 | 4 | 5.39 | 8 | 6.58 |
5 | 5.68 | 5 | 4.74 | 5 | 5.73 | 8 | 5.76 |
6 | 7.24 | 6 | 6.13 | 6 | 6.08 | 8 | 7.71 |
7 | 婚恋问题4.82 | 7 | 7.26 | 7 | 6.44 | 8 | 8.84 |
8 | 6.95 | 8 | 8.14 | 8 | 6.77 | 8 | 8.47 |
9 | 8.81 | 9 | 8.77 | 9 | 7.11 | 8 | 7.04 |
10 | 8.04 | 10 | 9.14 | 10 | 7.46 | 8 | 5.25 |
11 | 8.33 | 11 | 9.26 | 11 | 7.81 | 8 | 5.56 |
12 | 10.84 | 12 | 9.13 | 12 | 8.15 | 8 | 7.91 |
13 | 7.58 | 13 | 8.74 | 13 | 12.74 | 8 | 6.89 |
14 | 9.96 | 14 | 8.1 | 14 | 8.84 | 19 | 12.5 |
| | | | | | | |
山水比德
第一组 第二组
第三组 第四组
这四组数据得到的经验回归方程都是相同的,都是,决定系数都是=0.667,相关系数=0.816。这四组数据所建立的回归方程是相同的,决定系数,F统计量也相同,且均通过显著性检验,说明这四组数据y与x之间都有显著的线性相关关系。然而,变量y与x之间是否就有相同的线性相关关系呢?由上述四组数据的散点图可以看到,变量y与x之间的关系是很不相同的。第一组,直线作为y与x间关系的拟合是合适的,回归方程刻画了变量y与x间的线性相关关系。第二组,变量y与x之间的相关关系应当是曲线关系,尽管回归方程也通过了显著性检验,但由直线方程去揭示它们的相关关系很不合适。如果用y对x作曲线回归,必可以有很大的提高决定系数,如果进一部做残差分析会发现残差点的分布不具有随机性原则。第三组,变量y与x之间存在着线性关系,但用直线去拟合这种关系不太理想。因为第三组数据中第10对数据远离回归直线,可以认为是异常值。如果将它剔除,用其余的10对数据重新计算经验回归方程,拟合效果会非常好。第四组,回归直线的斜率完全取决于两个点,这种情况所得到的经验回归方程是很不可信的。实际上自变量x只取了两个不同的值,因而不能断言y与x之间的何种关系。
这个例子说明,当拒绝假设时,说y与x之间存在线性相关关系,但是并不能完全肯定线性关系就是y与x之间关系最好的描述,可能y与x之间更准确的关系应该是曲线,或者存在异常值等原因造成y与x之间虚假的线性关系。在实际应用中,不应局限于一种方法去分析判断要得到确实可信的结果,应该F检验,决定系数,散点图,残差分析等一起使用,得到一致的结果时,才可下定论。