首页 > 学术百科

多元的线性回归

多元线性回归模型

一、多元线性回归模型的一般形式

设随机变量y与一般变量的线性回归模型为：

写成矩阵形式为：其中：

二、多元线性回归模型的基本假定

1、解释变量是确定性变量，不是随机变量，且要求。这里的表明设计矩阵X中自变量列之间不相关，样本容量的个数应大于解释变量的个数，X是一满秩矩阵。

2、随机误差项具有0均值和等方差，即：

，即假设观测值没有系统误差，随机误差的平均值为0，随机误差的协方差为0表明随机误差项在不同的样本点之间是不相关的（在正态假定下即为独立），不存在序列相关，并且具有相同的精度。

工作要求3、正态分布的假定条件为：，矩阵表示：,由该假定和多元正态分布的性质可知，随机变量y服从n维正态分布，回归模型的期望向量为：；因此有

三、多元线性回归方程的解释

对于一般情况含有个自变量的回归方程的解释，每个回归系数表示在回归方程中其他自变量保持不变的情况下，自变量每增加一个单位时因变量y的平均增加程度。因此通常把多元线性回归的回归系数称为偏回归系数。下面看个例子，考虑国内生产总值GDP和三次产业增加值的关系，这个问题中GDP=是确定性的函数关系，可以看作误差项为0的特殊回归关系。3个回归系数都是1，对解释为第二产业增加值液体表面张力每增加1亿元GDP也增加1亿元。假设做GDP对的一元线性回归，得到回归方程为，对这个方程回归系数的解释是第二产业增加值每增加1亿元GDP增加1.8554亿元。两个回归方程对同样的经济现象给出了不同的解释，问题出在什么地方呢？多元回归系数表示在回归方程中其他自变量保持不变的情况下，相应自变量每增加一个单位时因变量的平均增加速度。因此在用多元回归方程GDP=解释=1时，一定要强调是在和保持不变的情况下，每增加1亿元GDP也增加1亿元。在用一元回归方程解释回归系数时，要强调的是在方程之外的有关变量也相应变化时每增加1亿元GDP增加1.8554亿元。GDP增加的1.8554亿元中的直接贡献只用1亿元，回归方程外的和的贡献是0.8554亿元。这里又出现一个问题，为什么回归方程外的和贡献是0.8554亿元，而不是2亿元呢？可以通过考察数据，的增加幅度远大于和的增加幅度，假如增加1亿元，和相应的增加幅度都达不到1亿元。

四、参数估计

要想用OLSE估计多元线性回归模型的未知数，样本容量必须不少于模型中参数的个数。

在正态假定下，回归参数的MLE（最大似然估计）与OLSE（最小二乘估计）完全相同，即，误差项方差的MLE为，这是的有偏估计，但它满足一致性，在大样本的情况下，是的渐近无偏估计量。

参数估计量的性质：

性质1wcg2010世界总决赛，是随机向量y的一个线性变换

性质2，是的无偏估计

性质3，

性质4，高斯-马尔科夫（G-M）定理

（1）是的无偏估计（2）的方差要小

高斯-马尔科夫定理在假定,时，的任一线性函数的最小方差线性无偏估计为，其中c是任一p+1维常数向量，是的最小二乘估计。

此定理说明了用OLSE连云港核废料处理估计得到的估计量是理想的估计量。关于这条性质，需要注意以下四点：

第一，取常数向量c的第j（）分量为1，其余分量为0，这时G-M定理表明最小二乘估计是的最小方差线性无偏估计。

第二，可能存在的非线性函数，作为的无偏估计，比最小二乘估计的方差更小。

第三，可能存在的有偏估计量，在某种意义（例如均方差最小）下比最小二乘估计更好。

第四，在正态假定下，是的最小方差无偏估计。

性质5，，在正态假定下与e不相关等价与与e独立，从而与SEE=独立。

性质6，当时，则

五、自变量的显著性

如何剔除多余的不显著的自变量？y对自变量线性回归的残差平方和为SSE，回归平方和为SSR，在剔除掉后，用y对其余的p-1个自变量作回归，所得的残差平方和记为，回归平方和为，则自变量对回归的贡献为：，称为qibozi的偏回归平方和。由此可以构造偏F统计量：，当原假设成立时，偏F统计量服从自由度为（1，n-p-1）的F分布，此F检验与回归系数的t检验是一致的，当从回归方程中剔除变量时，回归平方和减少，残差平方和增加。反之，当往回归方程中引入变量时，回归平方和增加，残差平方和减少，两者的增减量同样相等。

六、关于拟合优度

,与回归方程中自变量的数目以及样本容量n有关，当样本容量n与自变量个数接近时，易接近1，其中隐含着一些虚假成分。由决定模型优劣时还需慎重。

七、中心化和标准化

因为多元回归涉及的数据量很大，就可能由于舍入误差而使计算结果不理想。产生舍入误差有两个主要原因，一是回归分析计算中数据量级有很大差异，比如数据10000与0.1111这样的大小相差悬殊的数据出现在同一个计算中；二是设计矩阵的列向量近似线性相关时，为病态矩阵，其逆矩阵就会产生较大的误差。

1、中心化

多元线性回归模型的一般形式为:

其经验回归方程为:

此经验方程进过样本中心(),将坐标原点移至样本中心，即作坐标变换：上述经验方程即转变为：共生体即为中心化经验回归方程。中心化经验回归方程的常数项为0，而回归系数的最小二乘估计值保持不变，因为坐标系平移变化只改变直线的截距，不改变直线的斜率。

2、标准化回归系数

为了消除量纲不同和数量级的差异所带来的影响，就需要将样本数据作标准化处理，然后用最小二乘法估计未知参数，求得标准化系数。

样本数据标准化公式：

其中：，

标准化回归系数与最小二乘回归系数之间存在关系式：

普通最小二乘估计表示在其他变量不变的情况下，自变量的每单位的绝对变化引起的因变量均值的绝对变化量。标准化回归系数表示自变量的1%相对变化（相对于）引起的因变量均值的相对变化百分数（相对于）。

标准化回归系数是比较自变量对y影响程度相对重要性的一种较为理想的方法，有了标准化回归系数后，变量的相对重要性就容易进行比较了。但是，仍要注意对回归系数的解释须

采取谨慎的态度，这是因为当自变量相关时会影响标准化回归系数的大小。

八、相关阵与偏相关系数

1、样本相关阵

负相关系数R反映了y与一组自变量的相关性，是整体和共性指标，简单相关系数反映的是两个变量见的相关性，是局部和个性指标。在分析问题时，应该本着整体与局部相结合，共性与个性相结合的原则。求出y与每个自变量的相关系数，得到增广的样本相关阵为：

2、偏决定系数

在多元线性回归分析中，当其他变量被固定后，给定的任两个变量之间的相关系数，叫偏相关系数。偏相关系数可以度量p+1个变量之中任意两个变量的线性相关程度，而这种相关程度是在固定其余p-1个变量的影响下的线性相关。偏决定系数测量在回归方程中已包含若干个自变量时，再引入某一个新的自变量时，y的剩余变差的相对减少量，它衡量某个自变量对y的变差减少的边际贡献。

本文发布于:2024-09-23 15:30:27，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/401056.html

上一篇：证明相关系数的平方等于判定系数

下一篇：多元线性回归模型及假定

标签：回归线性变量

留言与评论（共有 0 条评论）