一元线性回归

一元线性回归
一、一元线性回归模型的数学形式
对两边求数学期望和方差得:随机变量y的期望不等,方差相等,因而是独立随机变量,但并不同分布,而是独立同分布的随机变量。
估计参数在实际应用中表示自变量x每增加一个单位时因变量y平均增加数量。
一元回归的一般形式用矩阵表示:
,模型表示有:
其中n阶单位矩阵。
二、参数估计
需注意,极大似然估计是在的正态分布假设下求得的,而最小二乘估计则对分布假设没有要求,另外,是独立的正态分布样本,但并不是同分布的,期望值不相等。
三、最小二乘估计的性质
初中学法指导
1、线性性:估计量为随机变量的线性函数
2、无偏性:无偏估计
3的方差
人的价值20从上面两个式子可以看出,要想使的估计值更稳定,在收集数据时,就应该考虑x的取值尽可能分散一些,不要挤在一块,样本量应尽可能大一些,样本量n太小时估计量的稳定性肯定不会太好。
;;其中可以得到:
,在=0时,的协方差为0,此时不相关,在正态假定下独立;在0时不独立。它揭示了回归系数之间的关系。
四、回归方程的显著性检验
回归方程中主要关心的是回归系数的显著性,这决定yx的回归是否成立,而对回归常数项的显著性并不关心。
检验统计量与p值的关系是: =p值;
例如:检验统计量tp值的关系是: =p,其中t为检验统计量,是随机变量,t值是t统计量的样本值。可以看出p值越小,|t|越大,p值越大,|t|越小。当p时,|t|,此时应拒绝原假设。反之则接受原假设。因此可以用p值代替t值作判断。
    p值代替t值作判定有几方面的优越性:
第一,用p值作检验不需要查表,只需直接用p值与显著性水平相比,当p时即拒绝原假设,当p>时即接受原假设,而用t值做检验需要查t分布表求临界值。
第二,用p值作检验具有可比性,而用t值作检验与自由度有关,可比性差。
第三,用p值作检验可以准确地知道检验的显著性,实际上p值就是犯弃真错误的真实概率,也就是检验的真实显著性。
五、相关系数
在一元线性回归的回归系数的符号与相关系数r的符号相同。对于对称分布的统计量,单侧检验的p值的2倍就是双侧检验的p值。
用样本相关系数r判断两变量间相关程度的强弱时一定要注意样本量的大小,只有当样本量较大时用样本相关系数r判断两变量间相关程度的强弱才可信服。
需要正确区分相关系数显著性检验与相关程度强弱的关系,相关系数的t检验显著只是表示总体相关系数显著不为零,并不能表示相关程度高。例,如果有A,B两位同学,A同学计算出r=0.8,但显著性检验没有通过;B同学计算出r=0.1,而声称此相关系数高度显著,能肯定这两位同学都出错了吗?这个问题和样本量有关。观察检验统计量,可以看到t值不仅与样本相关系数r有关,同时与样本量n有关,对同样的相关系数r,样本量n大时|t|就大,样本量n小时|t|就小。实际上,对任意固定的非0r值,只要样本量n充分大就能使|t|足够大,从而得到相关系数高度显著的结论。明白这个道理后你就会相信A,B两位同学说的都可能是正确的。在样本量充分大时,可以把样本相关系数r作为总体相关系数,不必关系显著性检验的结果,只需要结合数据的实际背景判断r值表示的相关性的强弱。
六、三种检验的关系
对一元线性回归,F检验,t检验,相关系数的显著性检验结果是完全一致的,回归系数显著性的t检验与相关系数显著性的t检验是完全等价的,F统计量则是这两个t统计量的平方。
七、决定系数
决定系数是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的变异中能用自变量解释的比例。
需要注意一下几个方面问题:
第一,当样本量较小时,得到一个大的决定系数,但是这个大的决定系数很可能是虚假现象。为此需要结合样本量和自变量个数对决定系数做调整,计算调整的决定系数。
第二,即使样本量并不小,决定系数很大,例如0.9,也并不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时,线性回归的效果通常是较好的,这样的线性回归方程是不能用于外推预测的。
第三,当算出一个很小的决定系数r^2,例如r^2=0.1时,与相关系数的检验显著性相似,这时如果样本容量n不大,就会得到线性回归不显著的检验结果,而在样本容量n很大时,检验结果仍然会得出线性回归显著的结论。不论检验结果是否显著,这时都应该尝试改进回归的效果。例如增加自变量,改用曲线回归等。
八、残差分析
1、残差图
(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式
(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。
2、残差的性质
性质1
性质2  其中为杠杆值。靠近附近的点相应的残差方差较大,远离附近的点相应的残差方差较小,远离的点数目必然较少,回归线容易“照顾”到这样的少数点,使得回归线附近这些点,因而远离附近的相应的残差方差较小。
性质3残差满足约束条件: ,这表明残差是相关的。
3、改进的残差
标准化残差:  学生化残差:,普通残差的方差不等,不利于比较。标准化残差使残差具有可比性,||>3时的相应观测值即判断为异常值,但没有解决方差不等的问题。而学生化残差则进一步解决了方差不等的问题,在寻异常值时,用学生化残差优于普通残差。
九、回归系数的区间估计
置信区间的长度越短,说明估计量接近程度越好,估计值就越精确;置信区间的长度越长,说明估计量接近程度越差,估计值就越不精确。
十、预测与控制
1、单值预测
,预测目标是一个随机变量,因而这个预测不能用普通的无偏性来衡量,,说明预测值与目标值有相同的均值。
2、区间预测
对应于某个特定的的实际值1-的概率被区间()所包含,即:
,对因变量的区间预测又分为两种情况,一种是对因变量新值的却见预测,另一种是对因变量新值平均值的区间预测。
因变量新值的区间预测:
的置信概率为的置信区间为:
,其中:为新值的杠杆值。对给定的显著性水平,样本容量n越大,越大,越靠近,则置信区间长度越短,此时的预测精确度就高。所以为了提高预测精度,样本量n应越大越好,采集数据不能太集中。在进行预测时,所给定的不能偏离太大,太大时,预测结果肯定不好;如果给定=时,置信区间长度最短,这时的预测结果最好。如果在自变量观测值之外的范围作预测,精度就较差。这种情况进一步说明当x的取值发生较大变化时,即很大时,预测就不准。所以在做预测时一定要看相差多大,相差太大时,效果肯定不好。尤其是在经济问题的研究中做长期预测时,x的取值肯定距当时建模时采集样本的相差太大。
3、控制问题
控制问题相当于预测的反问题。比如研究近年的经济增长率时,希望增长率能保持在8%~12%;用数学表达式描述,即要求,以1-的概率保证把目标值y控制在中,即=1-,用近似的预测区间来确定x,可由不等式组表示:,求出x的取值区间即可。控制问题要求因变量y与自变量x之间有因果关系,经常用在工业生产的质量控制中。在经济问题中,经济变量之间有强的相关性,形成一个综合整体,仅控制回归方程中的一个或几个自变量,而忽视了回归方程之外的其他变量,往往达不到预期的效果。
十一、有关回归假设检验问题
对于一元线性回归方程显著性的检验,只要方法是F检验,即.那么当接受或者是拒绝意味着什么?在做F检验时,假定yx的回归形式为线性关系,而不是曲线关系。这时如果拒绝了,就说明xy之间有显著的线性关系,回归方程刻画了xy的这种线性关系。然而,对于一个实际问题,变量xy之间到底是一个什么样的关系?并不十分清楚。另外样本数据是否存在异常值,是否存在周期性,往往从数据的表面并不能明显看出。运用普通最小二乘OLSE法估计模型的参数是在模型满足一些基本假定时才有效,如果模型的基本假定显著地出错,可能导致模型结论严重歪曲。
一般情况下,当被接受时,表明y的取值倾向不随x的值按线性关系变化。这种状况可能是由于变量yx之间的相关关系不显著,也可能虽然变量yx之间相关关系显著,但是这种相关关系不是线性的而是非线性的。
被拒绝时,如果没有其他信息,仅凭拒绝,只能认为因变量y对自变量x的线性回归是有效的,但是还没有说明回归的有效程度,不能断言yx之间就一定是线性相关关系,而不是曲线关系或者其他关系。这些问题还需要借助决定系数、散点图、残差图等工具做进一步分析。
看下面这四组数据,用EXCEL进行回归分析:
不结盟运动婚恋问题
第一组
第二组
第三组
第四组
x
y
x
y
x
y
x
y
4
4.26
线圈匝数4
3.1
4
5.39
8
6.58
5
5.68
5
4.74
5
5.73
8
5.76
6
7.24
6
6.13
6
6.08
8
7.71
7
4.82
7
7.26
7
6.44
8
8.84
8
6.95
8
8.14
8
6.77
8
8.47
9
8.81
9
8.77
9
7.11
8
7.04
10
8.04
10
9.14
10
7.46
8
5.25
11
8.33
11
9.26
11
7.81
8
5.56
12
10.84
12
9.13
12
8.15
8
7.91
13
7.58
13
8.74
13
12.74
8
6.89
14
9.96
14
8.1
14
8.84
19
12.5
山水比德
                第一组                                    第二组
                第三组                                  第四组
这四组数据得到的经验回归方程都是相同的,都是,决定系数都是=0.667,相关系数=0.816。这四组数据所建立的回归方程是相同的,决定系数F统计量也相同,且均通过显著性检验,说明这四组数据yx之间都有显著的线性相关关系。然而,变量yx之间是否就有相同的线性相关关系呢?由上述四组数据的散点图可以看到,变量yx之间的关系是很不相同的。第一组,直线作为yx间关系的拟合是合适的,回归方程刻画了变量yx间的线性相关关系。第二组,变量yx之间的相关关系应当是曲线关系,尽管回归方程也通过了显著性检验,但由直线方程去揭示它们的相关关系很不合适。如果用yx作曲线回归,必可以有很大的提高决定系数,如果进一部做残差分析会发现残差点的分布不具有随机性原则。第三组,变量yx之间存在着线性关系,但用直线去拟合这种关系不太理想。因为第三组数据中第10对数据远离回归直线,可以认为是异常值。如果将它剔除,用其余的10对数据重新计算经验回归方程,拟合效果会非常好。第四组,回归直线的斜率完全取决于两个点,这种情况所得到的经验回归方程是很不可信的。实际上自变量x只取了两个不同的值,因而不能断言yx之间的何种关系。
这个例子说明,当拒绝假设时,说yx之间存在线性相关关系,但是并不能完全肯定线性关系就是yx之间关系最好的描述,可能yx之间更准确的关系应该是曲线,或者存在异常值等原因造成yx之间虚假的线性关系。在实际应用中,不应局限于一种方法去分析判断要得到确实可信的结果,应该F检验,决定系数,散点图,残差分析等一起使用,得到一致的结果时,才可下定论。

本文发布于:2024-09-21 19:30:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/401027.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检验   回归   预测   残差   问题   关系
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议