基于混杂校正理念的回归变量纳入策略

基于混杂校正理念的回归变量纳入策略
本文原题:《[常见错误]将单因素分析P<0.10的变量纳入回归模型》,今日重新发布,增加一个小栗子,来源于本号所撰《混杂偏倚的三种常见校正方法》。这个例子更权威,也有利于大家更直观的理解混杂。
---------新加小栗子---------
Cochran曾对加拿大人的吸烟情况做过一项研究。发现,总的死亡率呢,吸雪茄的,要显著大于吸香烟的。但是,吸雪茄的人明显高龄化,平均年龄66,而吸香烟人平均年龄55,差异显著!
既然在基线上,年龄不可比,那我们总死亡率的差异,会不会是受到年龄的混杂影响呢?
蛋白质晶体
两根一起塞进来于是,Cochran做了如下的亚组(分层)分析:
如图,左图很明显,雪茄吸食者,死亡率高;中图也很明显,各亚组内,雪茄吸食者,死亡率低(哇~各位读者可不要吸雪茄哈,都戒,都戒……);右图做了加权分析,加权平均之后,依然继承了中图的结论,雪茄吸食者,死亡率低。
很明显,在这里,年龄的混杂通过亚组(分层)分析得以校正。
这里,我们的结论是:校正混杂,很有可能并且完全能够推翻单因素分析的结论。将单因素显示的正向作用纠正为校正后反向,很正常。把无意义的变量纠正为校正后的有意义,也很正常!
---------以下为原文---------
很多人做论文,都会提到类似“将单因素分析P<0.10的变量纳入回归模型”,真的是这样吗?
首先,我们来思考一下,
我们为什么要建回归模型?为什么在结果讨论的时候,我们更倾向于针对回归模型的结果,而不是单因素分析的结果呢?
之前在本号之前的文章《Logistic 回归:从入门到进阶》中,有相关的介绍。
主要原因,是让纳入模型的几个变量相互校正。校正什么呢?校正混杂!
如下图,单因素分析的时候,可能会觉得,班级对升学率有影响。但老师和班级同时纳入模型的时候,就会校正了老师的混杂,实际上,最终是老师对升学率有影响,而不是班级本身的原因。这就是回归建模的意义,校正混杂,而发现最准确的影响因素!
那么P>0.10的变量,要不要纳入回归模型?
当然要的!
我们做回归,就是为了校正混杂!
废气焚烧
有的单变量分析有意义的变量,纳入回归模型,可能失去了意义,这就是校正的结果。
土工格室护坡同样的,
有的单变量分析无意义的变量,纳入回归模型,可能又有了意义,这也是校正的结果!
所以,将所有变量都同时纳入回归模型,应该是一个明智的选择!
那么为什么要根据P<0.10来筛选变量呢?
这个概念,又是如何流传开来的?
没有检索过文献,猜测一下:
——小插曲:我们统计系的本科生毕业的时候,回归分析以及变得很俗气了,这给我们研究生带来很大困扰,本科生都用回归了,研究生用什么?
是这样的,在很早之前,logistic回归等,需要手算、编程算,电脑速度也超慢,实现一个回归模型,本身就是一个相当繁重相当耗时的工作。所以,那时候对变量的要求,刚好与韩信点兵相反,我们是越少越好啊,节省大量的计算时间!所以呢,我们在回归之前,通过单因素分析筛选一部分变量,可是整个建模研究的救星啊!
而如今,我们IT技术迅速发展,CPU早就二核四核,软件早就SPSS、SAS、R等等不一而足,之前大量繁重耗时的工作,都被电脑所取代。所以,之前体现专业研究生们统计水平的回归建模技术,早已“飞入寻常百姓家”!随着统计技术的发展,大数据时代的来临,我们高维数据的回归建模,甚至也都是分分钟的事儿了!
在这种背景下,我们为什么还要筛选变量,“将单因素分析P<0.10的变量纳入回归模型”呢?
所以,改了吧!
不少读者后来又询问,改成什么样子,这里总结一下:
远程升级
1.单因素分析继续完成并报告结果。
2.多因素分析不考虑单因素的结果,直接将所有变量纳入模型,并使用stepwise方法筛选。如果样本量较少,可尝试使用forward方法。

本文发布于:2024-09-21 20:48:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/164439.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:回归   变量   分析   纳入   模型   校正
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议