相关性分析
简单相关分析的基本步骤如下:
统计-r(相关系数)与R^2的区别
r与R^2没有关系,就如同标准差与标准误差没有关系⼀样。
1.相关系数r(correlation coefficient)是⼀个评价两个变量线性相关度的指标 齐奥赛斯库评价两个变量线性相关度的指标。在线性拟合中可以通过拟合结果和实测值的相关系数来反应线性相关度。但是如果本来就⽤的⾮线性拟合(多项式、曲线),那这个指标对于评估拟合没有任何意义。 拟合结果和实测结果线性相关度
相关系数(r)定义:变量之间线性相关的度量,分三种,spearman, pearson, kendall。大禹治水玉山
不稳定的特里罗安*协⽅差:两个变量变化是同⽅向的还是异⽅向的。X⾼Y也⾼,协⽅差就是正,相反,则是负。*为什么要除标准差:标准化。即消除了X和Y⾃⾝变化的影响,只讨论两者之间关系。*因此,相关系数是⼀种特殊的协⽅差。
评价拟合好坏的指标。这⾥的拟合可以是线性的,也可以是⾮线性的。即使线性的也2.决定系数R^2(Coefficient of determination)是⼀个评价拟合好坏的指标
不⼀定要⽤最⼩⼆乘法来拟合。两个变量变化是同⽅向的还是异⽅向的,X⾼Y也⾼,协⽅差就是正,相反,则是负。
longshe
定义:对模型进⾏线性回归后,评价回归模型系数拟合优度。 公式:R^2=SSR/SST=1-SSE/SST
SST (total sum of squares):总平⽅和;SSR (regression sum of squares):回归平⽅和;SSE (error sum of squares) :残差平⽅和。生活与命运
解释:残差(residual):实际值与观察值之间的差异
在⼀组数据中,采⽤平均值做基线模型(图中⿊线)我们的模型(蓝线)都与这个⿊线⽐较,来判断模型的好坏
氰乙酸乙酯
结论:R^2=81%,因变量Y的81%变化由我们的⾃变量X来解释。
R^2 的缺陷:当我们⼈为的向系统中添加过多的⾃变量,SSE会减少,从⽽R^2变⼤。