1.概念
变量之间相关,但是又不能由一个或几个变量值去完全和唯一确定另一个变量值的这种关系称为相关关系。相关关系是普遍存在的,函数关系仅仅是相关关系的特例。事物之间有相关关系,不一定是因果关系,也可能仅是伴随关系,但是事物之间有因果关系,则两者必然相关。 相关分析用于分析两个随机变量的关系,可以检验两个变量之间的相关度或多个变量两两之间的相关程度,也可以检验
两组变量之间的相关程度
偏相关分析是指在控制了其他变量的效应以后,对两个变量相关程度的分析。、
2.皮尔逊积差相关系数 pearson product-moment correlation coefficient
变量之间的相关程度由相关系数来度量,pearson相关系数是应用最广的一种。它用于检验
连续型变量之间的线性相关程度
2.1前提假设
1)正态分布 皮尔逊积差相关只适用于双元正态分布的变量,即两个变量都是正态分布, 注意只有pearson要求正态分布
如果正态分布的前提不满足,两变量间的关系可能属于非线性相关
2)样本独立 样本必须来自总体的随机样本,而且样本必须相互独立
3)替换极值 变量中的极端值如极值、离值对相关系数的影响较大,最好加以删除或代之以均值或中数
医疗供应链金融2.2相关分析的前提假设检验
一般情况下是对是否满足正态分布进行检验,对于正态分布的检验有好几种方法,总的可分为非参数检验和图形检验法
1)非参数检验法
spss中的1-sample K-S检验,检验样本数据是否服从某种特定的分布,方法有三种
a. Asymptotic only 是一种基于渐进分布的显著性水平的检验指标,通常显著性水平小于0.05则认为显著,适用于大样本。如果
样本过小或分布不好,该指标的适用性会降低
b.Monte Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐进方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提
c.Exact 精确计算观测结果的概率值,通常小于0.05即被认为显著,表明横变量和列变量之间存在相关,同时允许用户键入每次检验的最长
时间显著,可以键入1到9999999999之间的数字,但只要一次检验超过指定时间的30分钟,就应该用monte carlo
假设是服从某种分布
所以如果计算出的值比如Asymp. Sig 小于0.05,那么拒绝原假设,说明样本为非正态分布,
否则值越大越服从某种分布
单样本K-S首先计算每一阶段实际值与观察值的差异值,再计算每一阶段差异值的绝对值Z,即K-S的Z值,Z值越大,样本服从理论分布的可能性越小
还有一个是2 -sample Kolmogorov—Smirnov用于检验2个样本的分布是相同的假设
2)图形法
spss中graph
a.Q-Q正态检验图
图中横坐标为实际观测值,纵坐标为正态分布下的期望值,如果实际观测值取自正态分布的整体,那么图中所示的落点应该分布在趋势线的附近,
并且应该表现出一定的集中趋势,即平均数附近应该聚集较多的落点,越靠近两个极端落点越少。
此外还输出一种无趋势正态检验图,横坐标为观测值,纵坐标为观测值于期望值的差值。在符合正态分布的情况下,图中的落点应该分布在
中央横线的附近,甚至完全落到这条横线上,而且也应表现出集中在平均数周围的趋势。
如果需要正态分布,应该考虑对数据进行必要的变换
b.P-P图
判断方式和qq图相同
c.直方图
根据直方图的形状来判断是否为正态分布
d.箱式图boxplot
箱式图可用于表现观测数据的中位数、四分位数和两头极端值
方框中的粗黑横线为中位数,方框之外的上下两条细横线成为须线,是除了离值和极值之外的最大值和最小值。
符合正态分布的情况下,箱式图应该是以中位线为轴上下对称的,并且上下须线之间的距离应该是盒距(方框上下边缘)
的三倍左右,
Binomial test 二项分布检验
该过程用于检验的假设是一个来自二项分布的总体的变量具有指定事件发生的概率,该变量只能有两个值例如检验组装生产线上一种工件的废品率为1/10 即P=0.1
可以抽取300 个工件,查看并记录每个工件是否是废品,使用本过程检验这个概率
3.spss中相关分析过程
analyze-correlate-bivariate
相关分析的检验:检验的假设是总体中两个变量之间的相关系数为0.一般情况下我们给出假设成立概率p的阈值为0.05,当概率p小于0.05时,
认为原假设不成立,否则接受原假设,认为两个变量之间的相关系数为0
spss中进行相关分析有三种方法
a.pearson 积差相关 计算相关系数并作显著性检验,适用于两列变量都为正态分布的连续变量或等间距测度的变量
b.kendall tau-b等级相关 计算相关系数并作显著性检验,对数据分布没有严格要求,适用于检验等级变量之间的关联程度(秩相关)
c.spearman 等级相关 计算相关系数并做显著性检验,对数据分布没有严格要求,适用于等级变量或者等级变量不满足正态分布的情况。
安徽p2p网贷
对于非等间距测度的连续变量,因为分布不明可以使用等级相关分析,也可以使用Pearson 相关分析,
对于完全等级的离散变量,必须使用等级相关分析相关性
查文红当资料不服从双变量正态分布或总体分布型未知,或原始数据是用等级表示时,宜用Spea
rman 或Kendall相关
一般情况下我们都某人数据服从正态分布,采用pearson相关系数美国次贷危机的原因
等级相关系数
等级相关系数,又称顺序相关系数,它也是描述两要素之间相关程度的一种统计指标。
等级相关系数是将两要素的样本值按照数值的大小顺序排列为此,以各要素样本值的位次代替实际数据而求得的一种统计量。
例如
x y有n对样本值,记R1代表x的位次(序号),R2代表y的序号(位次)
代表x y同一组样本的位次差的平方和,他们的等级相关系数为
显著性检验类型
two-tailed 双尾检验选项当事先不知道相关方向(正相关还是负相关)时选择此项
One tailed 单尾检验选项如果事先知道相关方向可以选择此项
Flag significant Correlations 复选项如果选中此项输出结果中在相关系数数值右上方使用* 表示显著水平为0.05 用** 表示其显著水平为0.01
计算相关系数是,为了方便起见,通常采用如下公式:
在spss中进行相关分析时,自动会输出一个显著性(sig)的值,值越大越显著
125 | 0.174 | 0.228 |
150 | 0.159 | 0.208 |
200 | 0.138 | 0.181 |
300 | 0.113 | 0.148 |
400 | 0.098 | 0.128 |
1000 | 0.062 | 0.081 |
| | |
表中f表示自由度为n-2,a代表不同的置信水平
公式p={|r|>ra}=a 的意思是当所计算的相关系数r 的绝对值大于在a 水平下的临界值ra 时,两要素不相关(即ρ=0)的可能性只有a
此外还有一个t双侧检验的相关系数阈值
也可以用t 统计量检验
金山手机卫士塞班
t值大于查表的t时,说明相关系数显著
附录3 t分布临界值tg表
P{|t|≥ta}=a
自由度 | A=0.05 | A=0.05 | A=0.10 | 自由度 | A=0.01 | A=0.05 | A=0.10 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | 63·657 9·925 5·841 4·604 4·032 3·707乌克兰危机来龙去脉 3·499 3·355 3·250 3·169 3·106 3·055 3·012 2·977 2·947 2·921 2·898 | 12·706 4·303 3·182 2·776 2·501 2·447 2·365 2·306 2·262 2·228 2·201 2·179 2·100 2·145 2·131 2·120 2·110 | 6·314 2·920 2·353 2·132 2·015 1·943 1·895 1·860 1·833 1·812 1·796 1·782 1·771 1·761 1·753 1·746 1·740 | 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 | 2·878 2·861 2·845 2·831 5·819 2·087 2·797 2·78 2·779 2·771 2·763 2·756 2·750 2·704 2·660 2·617 2·576 | 2·101 2·093 2·086 2·080 2·074 2·069 2·064 2·060 2·056 2·052 2·048 2·045 2·042 2·021 2·000 1·980 1·960 | 1·734 1·729 1·725 1·721 1·717 1·714 1·711 1·708 1·706 1·708 1·701 1·699 1·697 1·684 1·671 1·658 1·645 |
| | | | | | | |
进行t检验时用上面两个表都可以,第一个表直接比较r和表中的阈值即可,而第二个表需要进行计算t值,然后比较t和表中的t如果
计算的值大于表中的值,则说明相关系数是显著的
在以上几个表中,相关系数检验的自由度都是n-2
等级相关的系数检验的临界值
r越大越好
spss中会自动对等级相关的显著性进行检验sig