相关分析

相关分析是通过定量指标来描述变量之间的关系。最常见的相关分析是两个变量间或一个变量和多个变量间的相关分析,此外还有两个变量和多个变量之间的相关分析,后者比较复杂,我们先来介绍最基本也是最常用的两个变量间和一个与多个变量间的相关分析。
依据不同的标准,相关可以分为以下几类
1.根据变量间的密切程度:
完全相关、不完全相关、零相关
中日韩有线一卞二苄三卞2.根据相关的方向
正相关、负相关
3.根据相关的形式
线性相关:变量间呈直线分布
非线性相关:变量间呈曲线分布
4.根据变量多少
单相关、复相关、偏相关
我们可以通过散点图来初步判断变量间的类型和趋势
相关分析只是分析变量间的相关程度和方向,如果要分析一个变量对另一个变量的影响程度,则需要使用回归分析。
描述变量间相关程度的指标叫做相关系数,相关系数的计算方法非常多,且算法各异,如同方差分析的两两比较一样,没有一个完全通用的算法,我们需要根据具体问题和变量特点等信息挑选最为合适的一种相关系数。
首先,我们还是从变量特征的角度对相关系数进行归纳:
一、连续变量
1.Pearson相关系数
Pearson相关系数在1和-1之间,绝对值越大,相关性越强,正数表示正相关,负数表示负相关
白马湖之冬Pearson相关系数又称为简单相关系数、积差相关系数,是基于积差算法计算得出的一种相关系数,积差可以理解为离差值乘积
设两组变量为:
我们计算这两组变量的离差为:
其中
翅膀力
根据以上得出相关系数的公式为
如果从Z分数的角度理解Pearson相关系数:将两组数据做Z分数处理, 再用处理后的乘积和除以样本数,具体算法如下:
l氨酸
如果从协方差的角度理解Pearson相关系数:
两个不同参数之间的方差就是协方差,协方差用于衡量两个变量的总体误差。而方差只是协方差的一种特殊情况,即当两个变量是相同时。方差是针对单个变量的
那么针对两个变量的协方差公式可以表示为
可见,协方差是两个变量间的离均差乘积在样本中的平均,可认为其近似反映了两变量间的关系强弱和方向,此时的协方差大小和量纲有关,为了消除量纲影响,将协方差除以x,y变量的标准差进行标准化,最后的公式如下
这就是通过协方差引出Pearson相关系数的思想
Pearson相关系数有四种公式:
1.
2.
3.
4.
以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数
对于连续变量而言,我们可以直接取其本身的值进行计算,如果将Pearson相关系数用于频数分布表,那么公式里面要加上频数,如下
f为个案所对应的频数
西南师范大学育才学院
值得注意的是,Pearson相关系数本身不具有PRE含义,但是其平方具有PRE含义,在回归分析中,r2也称为判定系数或决定系数
【Pearson相关系数有一些适用条件】
粗铅1.两变量间成线性关系,如果变量间成曲线相关,则Pearson相关系数的大小并不能代表相关性的强弱
2.变量值中不能有极端值,这对相关系数的计算会影响很大
3.两变量的联合分布属于正态分布。
2.Spearman等级相关系数
有时候变量的情况不满足Pearson相关系数的适用条件,这时候我们可以选择Spearman等级相关系数。Spearman等级相关系数是根据两变量等级差值来计算的,是一种秩相关系数。它对数据分布没有特别要求,连续变量和有序分类变量都可使用,是一种非参数检验方法,由于Spearman等级相关系数是根据变量排序后的等级差数进行计算,会损失一部分数据信息,精确度稍低,因此能使用Pearson相关系数最好不要使用Spearman等级相关系数。
Spearman等级相关系数的计算公式为
其中d为两变量经过相同排序之后的每对变量的等级差数,n为等级个数【注意,这只是在针对变量间没有相同等级情况下使用的公式】
如果变量中存在相等值,那么这些相等变量的等级次序要取其均值,这种存在相同等级的变量在计算Spearman等级相关系数时要使用以下公式

本文发布于:2024-09-20 21:41:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/485469.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   相关   协方差
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议