一、 前言
随着社会的进步,人民生活水平的提高,越来越多的人们选择航空这个交通方式,为合理安排班机数量,估计每年我国民航客运量显得非常有必要。本文利用我国的历年相关数据,运用SAS软件对数据进行分析,研究1978-1993年我国民航客运量y(万人)与国民收入x1(亿元)、消费额x2(亿元)、铁路客运量x3(万人)、民航航线里程x4(万千米)、来华旅游人数x5(万人)的关系。分别采用逐步回归和岭回归两种方法建立线性模型,通过相关比较,选出较优的线性回归模型。 一、 关键词
相关分析 回归诊断 逐步回归 岭回归 决定系数
二、 数据来源
数据来源于由吴诚鸥 、秦伟良编著的《近代实用多元统计分析》教材,气象出版社出版。
见附表1
附表一:1978-1993国家自然科学奖年我国民航客运量的情况表
年度 | 我国民航客运量(y) | 国民收入(x1) | 消费额(x2) | 中国船级社铁路客运量(x3) | 巨各庄中学民航航线里程数(x4) | 来华旅游人数(x5) |
1978 | 231 | 3010 | 1888 | 81491 | 14.89 | 180.92 |
1979 | 298 | 3350 | 2195 | 86389 | 16.00 | 420.39 |
1980 | 343 | 3688 | 2531 | 92204 | 19.53 | 570.25 |
1981 | 401 | 3941 | 2799 | 95300 | 21.82 | 776.71 |
1982 | 445 | 4258 | 3054 | 99922 | 23.27 | 792.43 |
1983 | 391 | 4736 | 3358 | 106044 | 22.91 | 947.70 |
1984 | 554 | 5652 | 3905 | 110353 | 26.02 | 1285.22 |
1985 | 744 | 7020 | 4879 | 112110 | 27.72 | 1783.30 |
1986 | 997 | 7859 | 5552 | 108579 | 32.43 | 2281.95 |
1987 | 1310 | 9313 | 6386 | 112429 | 38.91 | 2690.23 |
1988 | 1442 | 11738 | 8038 | 122645 | 37.38 | 3169.48 |
1989 | 1283 | 13176 | 9005 | 113807 | 47.19 | 2450.14 |
1990 | 1660 | 14384 | 9663 | 95712 | 50.68 | 1746.20 |
1991 | 2178 | 16557 | 10969 聚酰亚胺树脂 | 95081 | 55.91 | 3335.65 |
1992 | 2886 | 20223 | 12985 | 99693 | 83.66 | 3311.50 |
1993 | 3383 | 24882 | 15949 | 105458 | 96.08 | 4152.70 |
| | | | | | |
三、 数据处理结果及结论分析:
1、用SAS软件画出y与x1、x2、x3、x4、x5的散点图如图一所示:
图一:
从散点图可以看出除铁路客运量外(x3),我国民航客运量(y)与国民收入(x1)、消费额(x2)、民航航线里程(x4)、来华旅游人数(x5)之间均存在明显的线性关系,说明建立线性模型有意义。
2、相关分析
表一:相关分析表
发展业务Correlation
Variable x1 x2 x3 x4 x5 y
x1 1.0000 0.9990 0.2578 0.9836 0.9053 0.9895
x2 0.9990 1.0000 0.2890 0.9778 0.9155 0.9855
x3 0.2578 0.2890 1.0000 0.2129 0.5447 0.2269
x4 0.9836 0.9778 0.2129 1.0000 0.8670 0.9871
x5 0.9053 0.9155 0.5447 0.8670 1.0000 0.9100
y 0.9895 0.9855 0.2269 0.9871 0.9100 1.0000
从相关分析表可知,因变量y与x1、x2、x4、x5的相关系数达到了0.9以上,说明国民收入、消费额、民航航线里程数、来华旅游人数与我国民航客运量的线性相关关系比较密切,而y与x3的相关系数只有0.2269,说明铁路客运量与我国民航客运量没有明显的线性相关性,与散点图的分析相一致。同时x1与x4、x5的相关系数也达到了0.9以上,说明自变量之间也存在明显的线性相关性。
3、参数估计和复共线性的回归诊断
防水堵漏方法Parameter Estimates
Parameter Standard Variance
Variable DF Estimate Error t Value Pr > |t| Inflation
Intercept 1 622.32696 302.76323 2.06 0.0669 0
x1 1 0.13433 0.13040 1.03 0.3272 1951.54281
x2 1 -0.15715 0.18168 -0.87 0.4073 1551.73196
x3 1 -0.00974 0.00355 -2.74 0.0207 3.97007
x4 1 18.44350 6.08004 3.03 0.0126 53.63262
x5 1 0.29278 0.05915 4.95 0.0006 13.65963
根据参数估计可知x3、x4、x5的参数估计的P值小于0.05,可以拒绝参数为零的原假设即自变量x3、x4、x5对因变量y有显著影响。而x1、x2的参数估计的P值大于0.05,参数未通过显著性检验。
Collinearity Diagnostics
Condition
Number Eigenvalue Index
1 5.56963 1.00000
2 0.37675 3.84490
3 0.04588 11.01827
4 0.00541 32.08138
5 0.00224 49.82473
---------------------Proportio of Variation----------------------
Number Intercept x1 x2 x3 x4 x5
1 0.00010902 0.00000487 0.00000580 0.00007653 0.00015206 0.00064330
2 0.00380 0.00004810 0.00004517 0.00229 0.00077895 0.00287
3 0.00350 0.00016735 0.00008694 0.00147 0.01861 0.31614
4 0.00591 0.00401 0.00841 0.00006789 0.52367 0.11834
5 0.74908 0.00003925 0.00206 0.58570 0.00725 0.54574
从复共线性诊断结果中我们可以看到vif值分别为1951.54281、1551.73196、3.97007、13.65963、53.63262几乎都大于10,条件系数非别为1.00000、3.84490、11.01827、32.08138、49.82473,大部分大于3,说明自变量之间存在复共线性关系。
4、逐步回归
Variable x3 Entered: R-Square = 0.9950 and C(p) = 3.9419
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 13774489 4591496 799.88 <.0001
Error 12 68883 5740.26594
Corrected Total 15 13843372
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept 800.09337 263.81785 52796 9.20 0.0104
x3 -0.01248 0.00270 122561 21.35 0.0006
x4 26.37761 2.11924 889291 154.92 <.0001
x5 0.33371 0.04760 282159 49.15 <.0001
Bounds on condition number: 8.888, 53.243