什么叫相关性?比如某个地区人的身高与体重的关系,某个学校学生学习时间与学习成绩的关系,我们的收入与教育水平的关系等等,除此之外,在我们工作中也有大量相关性的应用实例,例如我们在定位质差原因中运用常规MRR与质差MRR的电平分布间的相关性,在定位互调干扰小区时运用干扰系数与话务量的相关性,在分析质差成因时运用全网质差话务比例与弱信号的相关性等等,既然我们的工作离不开相关性的运用,那我们有必要深入的去了解相关性的计算及其原理。 一、概念介绍
说到相关性分析会使我们联想到线性回归和散点图的概念,它们同属于回归分析中的概念,都是被广泛应用的相关性分析方法:
线性回归:线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一,通俗点来说回归分析是寻相关关系中非确定性关系的某种确定性,相关性可以从涉及到的变量数量、表现形式及变化方向进行分类,如下图所示:
散点图:散点图是用于表示因变量随自变量而变化的大致趋势,是将变量相关性图形化的工具,用于判断的分析两组变量之间是否存在某种关联或总结坐标点的分布模式,散点图主要体现变量间的关系主要有:正线性相关、负线性相关、非线性(曲线)相关和不相关四种相关关系,其中线性相关又分强线性相关和一般线性相关,具体形态如以下图例所示:
1)强正(负)线性相关
2)正(负)线性相关
3)非线性(曲线)相关&不相关
二、线性回归主要参数解释:
通过Excel的“数据分析”功能可以计算出线性回归分析数据,如下图所示:
我们主要关注【回归统计】中可以反映变量间相关性的“相关系数Multiple R” 和“判定系数R square”两个指标:
1.Multiple R(相关系数R):相关系数是建立在相关分析基础上,用来分析衡量变量x和变量y之间相关程度的大小。通常用r表示,该值的范围为:-1≤r≤1,与值对应的相关性的强弱关系如下图所示:
相关系数计算公式及案例:
现假设在判断10BSZCW小区是否存互调干扰嫌疑时,通过话务量与干扰系数的相关性进行定位,该小区24小时的综合话务量及干扰系数如下表所示(灰部分为计算演示值):
10BSZCW | 综合话务量 | 干扰系数 | X的平方 | Y的平方 杂志创刊词 | X*Y |
2012/12/27 0:00 | 22.33 | 4.25 | 498.84 | 18.05 | 94.90 |
2012/12/27 1:00 | 11.78 | 2.72 | 138.75 | 7.43 | 32.10 |
2012/12/27 2:00 | 10.01 | 2.34 | 100.19 澳大利亚霍顿 | 5.46 | 23.40 |
2012/12/27 3:00 | 2.38 | 1.57 | 5.64 | 2.47 | 3.73 |
2012/12/27 4:00 | 2.00 | 1.38 | 4.00 | 1.89 | 2.75 |
2012/12/27 5:00 | 1.78 | 1.52 | 3.17 | 2.32 | 2.71 |
2012/12/27 6:00 | 2.59 | 1.58 | 6.73 | 2.49 | 4.09 |
2012/12/27 7:00 | 5.26 | 2.05 | 27.67 | 4.19 | 10.77 |
2012/12/27 8:00 | 8.30 | 2.35 | 68.90 | 5.52 | 19.50 |
2012/12/27 9:00 | 8.09 | 2.74 | 65.40 | 7.49 | 22.14 |
2012/12/27 10:00 | 10.01 | 2.95 | 100.11 | 8.70 | 29.52 |
2012/12/27 11:00 | 8.25 | 2.69 | 68.10 | 7.23 | 22.19 |
2012/12/27 12:00 | 10.00 | 2.98 | 99.91 | 8.88 | 29.79 |
2012/12/27 13:00 | 8.52 | 2.63 | 72.57 | 6.90 | 22.38 |
2012/12/27 14:00 | 7.60 | 2.34 | 57.71 | 5.49 | 17.80 |
2012/12/27 15:00 | 10.06 | 2.90 | 101.17 | 8.39 | 29.13 |
2012/12/27 16:00 | 9.93 | 2.88 | 98.53 | 8.31 | 28.62 |
2012/12/27 17:00 | 11.74 | 3.10 | 137.91 | 9.61 | 36.40 |
2012/12/27 18:00 | 16.81 | 3.81 | 282.44 | 14.52 | 64.04 |
| | | | | |
2012/12/27 19:00 | 19.43 | 3.98 | 377.35 | 15.86 | 77.37 |
2012/12/27 20:00 | 24.70 | 4.54 | 610.18 | 20.64 | 112.23 |
2012/12/27 21:00 | 26.16 | 4.83 | 684.37 | 23.36 | 126.44 |
2012/12/27 22:00 | 27.51 | 4.75 | 756.92 | 22.60 | 裂纹检测 130.79 |
2012/12/27 23:00 | 22.72 | 4.59 | 516.19 | 青岛耀中21.04 | 104.22 |
∑(合计值) | 287.95 | 71.47 | 4882.78 | 238.86 | 1047.01 |
| | | | | |
表中的时间段数量(24个)则为公式中的n,综合话务量为x、干扰系数为y,根据公式要求,先对数据进行求和与汇总,汇总后的数据如下表所示:
n=24 | X | Y | X的平方 | 福建金融职业技术学院Y的平方 | X*Y |
∑(合计值) | 287.95 | 71.47 | 4882.78 | 238.86 | 1047.01 |
| | | | | |
套入公式后计算结果如下:
2.R Square(判定系数R2):判定系数(又称拟合优度或决定系数)是建立在回归分析基础之上的,用于研究一个随机变量对别一个随机变量的解释程度,该值的取值范围为0≤R2≤1,值越接近1,说明自变量对因变量的解释程度越高,自变量引起的因变量变动占总变动的百分比越高。
判定系数算法及案例:
以相关系数中案例的数据为基础计算10BSZCW的判定系数,如下:
n=24 | X | Y | X的平方 | Y的平方 | X*Y |
∑(合计值) | 287.95 | 71.47 | 4882.78 | 238.86 | 1047.01 |
| | | | | |
套入公式后计算得出结果如下:
案例说明:
10BSZCW小区的相关性系数为:98.30%,可以判断该小区的话务量与干扰系数为正相关关系且接近绝对相关值1,说明小区话务量与干扰系数之间的关系密切;小区的判定系数为:96.64%,非常接近1,说明该小区的话务量变化导致干扰变化占总变化的96.64%,由此可以判断出该小区存在互调干扰的机率非常大;胡莱足球
如下图10BSZCW小区话务量与干扰系数趋势图及散点图所示,小区话务量的曲线与干扰系数的典型形态几乎是一模一样的,从散点图的分布来看,两组变量形成的点在同一直线上,说明两组变量是存在较强的线性相关;
三、相关系数与判定系数函数的运用方法:
在进行质差原因定位及规律性质差分析等工作时,我们都需要对全网的小区进行分析,
所以在数据分析上必须要满足批量计算的功能,才能更好的为我们提高工作效率,而在我们常软件Excel中也已经包含了相关系数及判定系数的计算函数,只要掌握使用方法,便可以迅速完成全网小区的相关系数计算工作:
相关系数计算函数:CORREL(array1,array2)
Array1 第一组数值单元格区域
Array2 第二组数值单元格区域
函数说明:
✧如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内;
✧如果 array1 和 array2 的数据点的个数不同,函数 CORREL 返回错误值 #N/A;
✧如果 array1 或 array2 为空,或者其数值的 s(标准偏差)等于零,函数 CORREL 返回错误值 #DIV/0!;
应用案例:
判定系数计算函数:RSQ(known_y's,known_x's)
Known_y's 为数组或数据点区域
Known_x's 为数组或数据点区域
函数说明:
✧参数可以是数字或者是包含数字的名称、数组或引用;
✧逻辑值和直接键入到参数列表中代表数字的文本被计算在内;
✧如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内;
✧如果参数为错误值或为不能转换成数字的文本,将会导致错误;
✧如果 known_y's 和 known_x's 为空或其数据点个数不同,函数 RSQ 返回错误值 #N/A;
✧如果 known_y's 和 known_x's 函数只包含 1 个数据点,则 RSQ 函数返回错误值 #DIV/0!;