基于混杂校正理念的回归变量纳入策略

本文原题：《[常见错误]将单因素分析P<0.10的变量纳入回归模型》，今日重新发布，增加一个小栗子，来源于本号所撰《混杂偏倚的三种常见校正方法》。这个例子更权威，也有利于大家更直观的理解混杂。

---------新加小栗子---------

Cochran曾对加拿大人的吸烟情况做过一项研究。发现，总的死亡率呢，吸雪茄的，要显著大于吸香烟的。但是，吸雪茄的人明显高龄化，平均年龄66，而吸香烟人平均年龄55，差异显著！

既然在基线上，年龄不可比，那我们总死亡率的差异，会不会是受到年龄的混杂影响呢？

蛋白质晶体

两根一起塞进来于是，Cochran做了如下的亚组（分层）分析：

如图，左图很明显，雪茄吸食者，死亡率高；中图也很明显，各亚组内，雪茄吸食者，死亡率低（哇~各位读者可不要吸雪茄哈，都戒，都戒……）；右图做了加权分析，加权平均之后，依然继承了中图的结论，雪茄吸食者，死亡率低。

很明显，在这里，年龄的混杂通过亚组（分层）分析得以校正。

这里，我们的结论是：校正混杂，很有可能并且完全能够推翻单因素分析的结论。将单因素显示的正向作用纠正为校正后反向，很正常。把无意义的变量纠正为校正后的有意义，也很正常！

---------以下为原文---------

很多人做论文，都会提到类似“将单因素分析P<0.10的变量纳入回归模型”，真的是这样吗？

首先，我们来思考一下，

我们为什么要建回归模型？为什么在结果讨论的时候，我们更倾向于针对回归模型的结果，而不是单因素分析的结果呢？

之前在本号之前的文章《Logistic 回归：从入门到进阶》中，有相关的介绍。

主要原因，是让纳入模型的几个变量相互校正。校正什么呢？校正混杂！

如下图，单因素分析的时候，可能会觉得，班级对升学率有影响。但老师和班级同时纳入模型的时候，就会校正了老师的混杂，实际上，最终是老师对升学率有影响，而不是班级本身的原因。这就是回归建模的意义，校正混杂，而发现最准确的影响因素！

那么P>0.10的变量，要不要纳入回归模型？

当然要的！

我们做回归，就是为了校正混杂！

废气焚烧

有的单变量分析有意义的变量，纳入回归模型，可能失去了意义，这就是校正的结果。

土工格室护坡同样的，

有的单变量分析无意义的变量，纳入回归模型，可能又有了意义，这也是校正的结果！

所以，将所有变量都同时纳入回归模型，应该是一个明智的选择！

那么为什么要根据P<0.10来筛选变量呢？

这个概念，又是如何流传开来的？

没有检索过文献，猜测一下：

——小插曲：我们统计系的本科生毕业的时候，回归分析以及变得很俗气了，这给我们研究生带来很大困扰，本科生都用回归了，研究生用什么？

是这样的，在很早之前，logistic回归等，需要手算、编程算，电脑速度也超慢，实现一个回归模型，本身就是一个相当繁重相当耗时的工作。所以，那时候对变量的要求，刚好与韩信点兵相反，我们是越少越好啊，节省大量的计算时间！所以呢，我们在回归之前，通过单因素分析筛选一部分变量，可是整个建模研究的救星啊！

而如今，我们IT技术迅速发展，CPU早就二核四核，软件早就SPSS、SAS、R等等不一而足，之前大量繁重耗时的工作，都被电脑所取代。所以，之前体现专业研究生们统计水平的回归建模技术，早已“飞入寻常百姓家”！随着统计技术的发展，大数据时代的来临，我们高维数据的回归建模，甚至也都是分分钟的事儿了！

在这种背景下，我们为什么还要筛选变量，“将单因素分析P<0.10的变量纳入回归模型”呢？

所以，改了吧！

不少读者后来又询问，改成什么样子，这里总结一下：

远程升级

1.单因素分析继续完成并报告结果。

2.多因素分析不考虑单因素的结果，直接将所有变量纳入模型，并使用stepwise方法筛选。如果样本量较少，可尝试使用forward方法。

本文发布于:2024-09-21 20:48:37，感谢您对本站的认可！

标签：回归变量分析纳入模型校正

留言与评论（共有 0 条评论）