相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。 ◆ 本章主要内容:
1、 对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析(Bivariate)和偏相关分析(Partial)。
2、 建立因变量和自变量之间回归模型(Regression),其中包括线性回归分析(Linear)和曲线估计(Curve Estimation)。
◆ 数据条件:参与分析的变量数据是数值型变量或有序变量。
§3.1 相关分析
在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图3.1所示。
图3.1 Correlate 相关分析菜单
§3.1.1 简单相关分析
两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。
§3.1.1.1 散点图
SPSS软件的绘图命令集中在Graphs菜单。下面通过例题来介绍具体操作方法。
例1:数据库SY-8中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。具体操作步骤如下:
首先打开数据SY-8,然后单击Graphs Scatter,打开Scatter plot散点图对话框,如图3.2所示。然后选择需要的散点图,图中的四个选项依次是: Simple 简单散点图 Matrix 矩阵散点图
Overlay 重叠散点图 3-D 三维散点图
图3.2 散点图对话框
如果只考虑两个变量,可选择简单的散点图Simple,然后点击Define,打开Simple Scatterplot对话框,如图3.3所示。
图3.3 Simple Scatterplot对话框
选择变量分别进入X轴和Y轴,点击OK后就可以得到散点图,见图3.4。
从下面输出的人均国内生产总值与城镇居民消费额的散点图3.4中可以粗略地看出,两个变量之间有强正相关的线性关系。
图3.4 散点图
§3.1.1.2 简单相关分析操作
简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的线性相关程度作出
定量分析。仍然数据SY-8为例,说明居民收入与某商品的销售量两变量的相关分析过程,具体操作如下:
1、打开数据库SY-8后,单击Analyze Correlate Bivariate 打开Bivariate对话框,见图3.5所示。
图3.5 Bivariate:Correlation 两变量相关分析对话框
2、从左边的变量框中选择需要考察的两个变量进入 Variables 框内,从Correlation Coefficients 栏内选择相关系数的种类,有Pearson相关系数,Kendall′s一致性系数和Spearman等级相关系数。从检验栏内选择检验方式,有双尾检验和单尾检验两种。
3、单击Options按纽,选择输出项和缺失值的处理方式。本例中选择输出基本统计描述,见图3.6所示。
图3.6 Bivariate Correlation:Options 对话框
4、单击OK,可以得到相关分析的结果。
从表3.1(a)可以得到两个变量的基本统计描述,从表(b)中可以得到相关系数及对相关系数的检验结果,由于尾概率就小于0.01,故说明两变量之间存在着显著的线性相关性。
表3.1(排球在线论坛a)基本统计描述
Descriptive Statistics
| Mean | Std. Deviation | N |
城镇居民消费额(元) | 2582.2800 | 2335.96384 | 25 |
人均国内生产总值(元) | 3689.8800 | 3701.50798 | 25 |
| | | |
表3.1(b)相关系数检验
Correlations
| | 城镇居民消费额(元) | 人均国内生产总值(元) |
城镇居民消费额(元) | Pearson Correlation | 1 | .998(**) |
| Sig. (2-tailed) | . | .000 |
| N | 25 | 25 |
人均国内生产总值(元) | Pearson Correlation | .998(**) | 1 |
| 长春李大夫 Sig. (2-tailed) | .000 | . |
| N | 25 | 25 |
| | | |
** Correlation is significant at the 0.01 level (2-tailed).
从表3.1(b)中可以看到两个变量相关性分析的结果:相关系数是0.998,相关程度非常高,且假设检验的P值远远地小于0.05,可以认为居民收入与某产品的销量存在线性正相关关系。
§3.1.2 偏相关分析
简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。
例2:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表3.2。试求火柴销售量与煤气户数的偏相关系数.
表3.2 火柴销量及影响因素表(见参考文献{1})
年份 | 火柴销售量 ktp晶体(万件) | 煤气户数 (万户) | 卷烟销量 (百箱) | 蚊香销量 (十万盒) | 打火石销量 (百万粒) |
68 | 23.69 | 25.68 | 23.6 | 10.1 | 4.18 |
69 | 24.1 | 25.77 | 23.42 | 13.31 古希腊文化 | 2.43 |
70 | 22.74 | 25.88 | 22.09 | 9.49 | 6.5 |
71 | 17.84 | 27.43 | 21.43 | 11.09 | 25.78 |
72 | 18.27 | 29.95 | 24.96 | 14.48 | 28.16 |
73 | 20.29 | 33.53 | 28.37 | 16.97 | 24.26 |
74 | 22.61 | 37.31 | 42.57 | 20.16 | 30.18 |
75高压绝缘材料 | 26.71 | 41.16 | 45.16 | 26.39桦川一中 | 17.08 |
76 | 31.19 | 45.73 | 52.46 | 27.04 | 7.39 |
77 | 30.5 | 50.59 | 45.3 | 23.08 | 3.88 |
78 | 29.63 | 58.82 | 46.8 | 24.46 | 10.53 |
79 | 29.69 | 65.28 | 51.11 | 33.82 | 20.09 |
80 | 29.25 | 71.25 | 53.29 | 33.57 | 21.22 |
81 | 31.05 | 73.37 | 55.36 | 39.59 | 12.63 |
82 | 32.28 | 76.68 | 54 | 48.49 | 11.17 |
| | | | | |
解:根据数据表建立数据文件SY-9,求解火柴销售量与煤气户数的偏相关系数具体操作如下: