一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近,
各观测点在拟合直线周围聚集的紧密程度越高,也就是说,拟合方程
凉子木
另外,当无偏估计量越小时,还说明残差值的变异程度越小。由于残差的样本均值为零,所以,其离散范围越小,拟合的模型就越为精确。y 的变异是由两方面的原因引起的;一是由于x 的取值不同,而给y 带来的系统性变异;另一个是由除x 以外的其它因素的影响。
注意到对于一个确定的样本(一组实现的观测值),总的变异平方和SST 是一个定值。所以,可解释变异平方和SSR 越大,则必然有残差残差平方和SSE 越小。这个分解式可同时从两个方面说明拟合方程的优良程度:
(1)SSR 越大,用回归方程来解释变异的部分越大,回归方程对原数据解释得越好; (2)SSE 越小,观测值绕回归直线越紧密,回归方程对原数据的拟合效果越好。
因此,可以定义一个测量标准来说明回归方程对原始数据的拟合程度,这就是所谓
邵晓萌的判定系数,有些文献上也称之为拟合优度。
判定系数是指可解释的变异占总变异的百分比,用表示,有
从判定系数的定义看,R有以下简单性质:
(1)0 ≤ ≤1;
(2)当厦航高郡>杭电学报= 1时,有SSR = SST ,也就是说,此时原数据的总变异完全可以由拟
合值的变异来解释,并且残差为零(次氯酸钠发生器SSE = 0),即拟合点与原数据完全吻合;
(3)当= 0时,回归方程完全不能解释原数据的总变异,y 的变异完全由与x无关的因素引起,这时SSE = SST 。
测定系数时一个很有趣的指标:一方面它可以从数据变异的角度指出可解释的变异占总变异的百分比,从而说明回归直线拟合的优良程度;另一方面,它还可以从相关性的角度,说明原因变量y 与拟合变量的相关程度,从这个角度看,拟合变量与原变量y 的相关度越大,拟合直线的优良度就越高。
又等于y 与拟合变量的相关系数平方。
还可以证明, 等于y 与自变量x的相关系数,而相关系数的正、负号与回归
系数的符号相同。