第18章 Logistic回归
案例辨析及参考答案
案例18-1 一项前瞻性队列研究中,欲研究某疾病与甲、乙两因素的关系,数据见教材表18-13。 教材表18-13 某前瞻性队列研究中疾病与甲、乙两因素的关系
乙 因 素 | 甲 因 素 | 发 病 | 未发病 | 合计 |
() | () | (=1) | (=0) |
暴露(=1) | 暴露(=1) | 150 | 250 | 400 |
未暴露(=0) | 250 | 150 | 400 |
未暴露(=0) | 暴露(=1) | 400 | 150 | 550 |
未暴露(=0) | 200 | 450 | 650 |
| | | | |
疾病发病与否是因变量(发病赋值1,未发病赋值0),甲、乙两个因素为两个自变量和,采用logistic回归研究疾病与甲、乙两个因素的关系。 (1) 单变量模型 分析结果提示:疾病与甲因素有联系(回归系数Wald检验=44.766, <0.001);疾病与乙因素没有联系(回归系数Wald检验=0.000,=1.000)。
(2)主效应模型 将甲、乙两个因素同时纳入模型,拟合结果见教材表18-14。提示疾病与甲因素有联系,与乙因素的联系仍然没有统计学意义。与单变量拟合结果比较,纳入乙因素后,甲因素的优势比只有微小改变。研究者据此得出结论:疾病与甲因素有联系,疾病与乙因素没有联系,乙因素也不是混杂因素。
教材表18-14 按照模型拟合结果
变 量 | b | SE | Wald | df | | exp(b) |
| 0.607 | 0.091 | 44.838 | 1 | <0.001 | 1.835 |
| -0.026 | 0.092 | 0.077 | 1 | 0.781 | 0.975 |
Constant | -0.278 | 0.072 | 15.076 | 1 | <0.001 | 0.757 |
| | | | | | |
(3)有交互效应的模型 根据专业知识判断,甲、乙两因素间可能存在交互效应,选用有交互效应的全模型,拟合结果见教材表18-15。结果提示:疾病与甲因素有联系,疾病与乙因素也有联系,甲、乙两因素间还有交互效应。甲、乙因素及其交互项的标准化回归系数分别为=0.229,=0.177,=0.546,因此,交互效应对疾病发生与否的影响程度最强。 教材表18-15 按照模型拟合结果
变 量 | b | SE | Wald | df | | exp(b) |
| 1.792 | 0.128 | 195.889 | 1 | <0.001 | 6.000 |
| 1.322 | 漂浮大陆0.134 | 97.661 | 1 | <0.001 | 3.750 |
| -2.813 | 0.194 | 209.831 | 1 | <0.001 | 0.060 |
Constant | -0.811 | 0.085 | 91.053 | 1 | <0.001 | 0.444 |
| | | | | | |
上述3种拟合模型,得出不完全一致的结论,你认为何者更合理?
案例辨析 三种做法所得结果不完全一致,这是很正常的,不能根据研究者的主观愿望去选
择结果,应根据资料的实际情况、统计分析的结果及其与实际情况的吻合程度来决定应选取哪一种统计分析方法。
正确做法 欲研究某疾病与甲、乙两因素的关系,可以采用Logistic回归研究疾病的发生与否与甲、乙两个因素的关系。单变量模型分别将甲因素与乙因素引入Logistic回归模型,由于可能存在其他混杂因素,单变量模型分析的结果并不可靠。将甲、乙两个因素同时纳入模型,若根据专业知识判断,甲、乙两因素间不存在交互效应,则建立主效应模型;若甲、乙两因素间可能存在交互效应,则应选用有交互效应的全模型,但不宜用标准化回归系数比较主效应与交互效应对疾病发生的影响程度,因为交互效应除依赖于乘积项的系数外,还依赖于两个变量的乘积。
案例18-2 某感冒颗粒小儿急性上呼吸道感染风热证的三期临床试验研究中,选择东中西5家三级甲等医院儿科为试验中心,根据试验方案,PP数据集样本共428例。因变量为疗效(有效赋值1,无效赋值0),影响疗效的可能因素有药物(服用某感冒颗粒赋值=1,服用对照药赋值=0)以及5个临床试验中心(),原始记录数据经汇总整理,试验组322例,对照组106例,5个分中心病例数及结局见教材表18-16。
教材表18-16 某感冒颗粒多中心临床试验汇总结果
分中心 | 试验组 | | 对照组 |
编号 | 有效 | 无效汽车钻机 | | 有效 | 无效 |
1 | 35 | 隧洞衬砌27 | | 10 | 10 |
2 | 47 | 18 | | 15 | 7 |
3 | 63 | 21 | | 18 | 9 |
4 | 26 | 22 | | 9 | 6 |
5 | 46 | 17 | | 14 | 8 |
| | | | | |
药物上市前多中心临床试验中,特别关注中心变量与药物间是否存在交互效应,结合教材表18-16中数据,5个分中心变量为无序分类变量,按照哑变量设置方法,共设置4个哑变量,,,,以中心1为参照。运用SPSS软件计算时,将药物变量、中心变量以及中心与药物交互项均纳入SPSS软件Logistic回归界面的变量框,采用多种逐步法自动筛选变量并建立Logistic回归模型,回归分析最后一步结果见教材表18-17。研究者认为:药物变量、中心变量与药物变量的交互项均被剔除,模型最后只保留了中心变量。所以,交互效应不存在。
教材表18-17 SPSS软件自动逐步回归最后一步的分析结果
| 测量尺b | S.E. | Wald | df | 荧光寿命测试 | exp(b) |
| - | - | 11.688 | 4 | 0.020 | 如何制作音箱 - |
| 0.713 | 0.325 | 4.818 | 1 | 0.028 | 2.039 |
| 0.798 | 0.308 | 6.700 | 1 | 0.010 | 2.220 |
| 0.027 | 0.337 | 0.007 | 1 | 0.935 | 1.028 |
| 0.680 | 0.325 | 4.362 | 1 | 0.037 | 1.973 |
Constant | 0.196 | 0.222 | 0.778 | 1 | 0.378 | 1.216 |
| | | | | | |
试问,上述建模变量筛选方法以及中心变量与药物间无交互效应的解释是否恰当?
案例辨析 盲目运用变量筛选方法进行变量筛选是不妥当的。
正确做法 该研究关注中心变量与药物间是否存在交互效应。分析两变量的交互效应时,模型中必须包含相应两变量的主效应,运用SPSS软件计算时,将药物变量、中心变量以及中心与药物交互项均纳入SPSS软件logistic回归界面的变量框,而且三个变量均需作为强制引入变量,因此不能采用SPSS软件提供的逐步法自动筛选变量。
案例18-3 某医师研究某市成年人(≥18岁)抑郁症发生的危险因素。从该市成年人随机抽取294人的一个样本,其中有抑郁症50人,无抑郁症244人。3个可疑影响因素分别为性别(0为男,1为女)、年龄(年龄/10)、健康状况(1为很好,2为好,3为良,4为差)。该医师作了抑郁症发生和3个因素的logistic回归分析,结果见教材表18-18。
教材表18-18 成年人抑郁症危险因素分析
变量 | | | | | * | 标准化 |
常数 | 0.405 7 | 0.125 5 | 10.450 | <0.001 | 1.500 4 | - |
| 2.068 3 | 0.447 5 | 21.362 | <0.001 | 7.911 4 | 1.045 7 |
| -1.389 0 | 0.326 4 | 18.109 | <0.001 | 0.249 3 | -1.720 0 |
| 1.379 1 | 0.273 6 | 25.407 | <0.001 | 3.971 3 | 1.463 4 |
| | | | | | |
*=exp(b)。
请问:
(1)该医师认为抑郁症的发生与性别、年龄和健康状况有关,其中女性、低年龄和健康状况差为抑郁症发生的危险因素,由可知,性别对抑郁症发生的作用最大,健康状况的作用次之,年龄的作用最小。该结论是否正确?为什么?
(2)该医师又认为,年龄每增加10岁,抑郁症发生的可能性降低约25%;年龄每增加20岁,抑郁症发生的可能性降低约50%。该结论是否正确?为什么?
案例辨析
(1)“女性、低年龄和健康状况差”分别是“性别、年龄和健康状况”这三个因素的一个水平,混淆了因素与水平的概念;当logistic回归方程中自变量单位不同时,不能直接通过回归系数或相应的值比较各自变量对因变量的影响程度。
(2)计算结果不正确。
正确做法
(1)需比较标准化回归系数。由标准化回归系数可知,年龄对抑郁症发生的作用最大,健康状况的作用次之,性别的作用最小。
(2)年龄每增加10岁,抑郁症发生的优势比为0.249 3,表示其他两因素取值固定,年龄每增加10岁,抑郁症发生的优势是增加前的24.93%,降低约75%;年龄每增加20岁,抑郁症发生的优势比为=0.062 2,表示其他两因素取值固定,年龄每增加20岁,抑郁症发生的优势是增加前的6.22%,降低约94%。