解决SCI论文中有关统计疑难杂症

解决SCI论⽂中有关统计疑难杂症
前⾯我们介绍了两变量之间的关联性分析,它重点在于研究两变量之间线性关系及⽅向,两变量为同时测得的结果变量,不分主次。但是在实际研究中,我们常需要通过可测或易测的变量对未知或难测的变量进⾏估计,达到预测的⽬的。我们把被估计或被预测的变量称为因变量,或者反应变量,常⽤Y表⽰;Y所依存的变量称为⾃变量,或者解释变量,⽤X表⽰,回归分析常被⽤来研究⼀个变量如何随另⼀些变量变化的常⽤⽅法。本节先介绍两个连续变量之间的线性依存变化关系的统计⽅法,即简单线性回归。线性回归的模型为:µY|X=α+Βx,但是研究者⼀般只能获取⼀定量的样本数据,⽤样本数据建⽴的有关Y依赖X变化的线性表达式,记为:Y=a+bX,其中Y是由⾃变量X推算应变量Y的估计值,a是回归直线在Y轴上的截距,b为样本的回归系数,a,b为参数α,β的估计值。使⽤线性回归分析时,要先满⾜以下⼏个条件:
红杏枝头春意浓txt
1.因变量和⾃变量之间存在线性关系
2.每个个体观测值相互独⽴
3.在⼀定范围内,任意给定X,其对应的随机变量Y均服从正态分布
4.⼀定范围内,不同的X值所对应的随机变量Y的⽅差相等
这四个条件,我们⼀般可以简称“LINE”,即线性,独⽴性,正态性以及⽅差齐性四个关键词的⾸写字母组合在⼀起的。
1
判断因变量和⾃变量之间是否存在线性关系,⼀般是采⽤散点图法,如果散点趋向构成⼀条直线,那么因变量和⾃变量之间存在线性关系,在SPSS上的操作如下:
从上⽂的结果散点图可以看出来,体重和基础代谢之间存在线性关系,基础代谢随着体重的增长⽽增长。
2
残差分析可以深⼊了解实际资料是否符合正态性和⽅差齐性等条件,具体的SPSS操作如下:
3
前⾯我们已经介绍过正态性检验的⽅法,从正态P-P图可以看出来标准化残差近似正态分布,因此可以认为回归符合正态分布的条件。
SIG-552
标准化残差图中散点的分布,⼤部分在±2倍标准差之间,以0参考线的上下随机且均匀的散布时,可以认为⽅差齐性,在±2倍标准差以外,±3倍标准差以内出现的点随对应的原始数据可能为离值。从上述散点图可以看出各点均匀分布,在±2倍标准差之间,因此,我们认为该回归符合等⽅差的条件。万苏林30r
4
前⾯已经介绍了如何判断样本是否满⾜线性回归模型的适⽤条件,接下来建⽴线性回归⽅程及解释其中参数代表的含义:
R⽅是指决定系数,它反映了回归贡献的相对程度,即因变量Y的总变异中X和Y的回归关系所能解释的⽐例。图中R⽅为0.778,即⾃变量(体重)可以解释93%的因变量(基础代谢)变异。男人体照片
当P<0.05时,说明回归模型具有统计学意义,由上图可知:F(1,12)=158.361,P⼩于0.05,所以该回归模型有统计学意义。
硫酸锌片由上图可知,该模型的截距为1106.788,斜率为61.423,表⽰体重每增加1千克,基础代谢平均增加61.423kJ/d,斜率的P值⼩于0.05,即斜率值与0的差异与统计学意义,说明因变量和⾃变量之间存在线性关系,。将系数带⼊回归⽅程,得:Y=1106.788+61.423X
如何判断资料个体观察值之间相互独⽴条件是否满⾜
细⼼的朋友⼀定发现了,上⾯我讲述了如何判断资料是否满⾜线性,正态性和⽅差齐性要求,但是没有说该如何判断资料是否满⾜独⽴性要求。我们⼀般是采⽤DW(Durbin-Watson)检验,它属于是⾃相关性检验,在SPSS上的操作步骤是分析-回归-线性-统计量- Durbin-Watson(勾上),DW值在0-4之间,愈接近2,观察值愈不相关;愈接近0,观察值正相关愈强;愈接近4,观察值负相关愈强。
多重线性回归
研究两个连续变量之间的线性依存关系的统计学⽅法是简单线性回归,当涉及多个⾃变量的回归时,就需要通过多重线性回归来分析了。其数学模型为:µY=β0+β1X1+β2X2+…+βPXP, µY表⽰⾃变量取固定值时相应因变量Y的总体均数;P为⾃变量个数;β0为常数项,也叫做截距;βP为XP的偏回归系数,表⽰当其他⾃变量表⽰不变时,⾃变量XP变化⼀个单位,因变量Y的平均值变化βP个单位。由样本估计的到的多重线性回归⽅程为:Y=b0+b1X1+b2X2+…+bPXP;由于⾃变量⾄少为2个,多重线性回归模型适⽤的条件除了要满⾜上⾯的“LINE”条件外,还得满⾜⾃变量间不存在多重共线性的条件。下⾯我们通过SPSS操作来描述资料是否符合多重线性回归要求,及如何判断的:
1
散点图判断线性关系
上图可以看出,因变量(空腹⾎糖)与每个⾃变量(胰岛素,糖化⾎红蛋⽩)都有线性关系。
2
共线性,独⽴性的判断
按分析-回归-线性步骤操作SPSS,然后:
Durbin-Waston值为1.4,在2左右,说明残差独⽴性较好。
容差和VIF都是⽤来判断共线性的指标,容差⼩于0.1,VIF⼤于10,是提⽰数据存在共线性。两个指标判断其中⼀个就可以了,从上图可以看出所有的VIF都⼩于10,说明⾃变量之间不存在共线性。成果形式
3
正态性,⽅差齐性判断
从上⾯的正态概率图(p-p图)可以看出,散点基本围绕在⼀条直线周围分布,从⽽可以判断残差服从正态分布。
从上⾯的散点图可以看出,标准化残差的散点波动范围基本保持稳定,不随标准化预测值的变化⽽变化,可以认为基本满⾜⽅差齐性的要求。
4
模型结果解读
图中R代表复相关系数,其值为0.692,反映所有的⾃变量X和因变量Y之间的线性相关程度,越⼤说明线性相关越密切。R⽅为决定系数,其值是0.479,说明空腹⾎糖变异的47.9%可由胰岛素,糖化⾎红蛋⽩来解释。
上⾯第⼀个图是是模型总体检验的结果,F(4,95)=11.026,P<0.05,说明所拟合的多重线性回归具有统计学意义。第⼆个图是偏回归系数的检验结果,从图中可以看出,胰岛素的偏回归系数为-0.276,代表在糖化⾎红蛋⽩含量不变的情况下,胰岛素每增加⼀个单位,空腹⾎糖就平均降低0.276mmol;糖化⾎红蛋⽩的偏回归系数为0.795,代表在胰岛素含量不变的情况下,糖化⾎红蛋⽩每增加⼀个单位,空腹⾎糖就平均增加0.795mmol。胰岛素和糖化⾎红蛋⽩的偏回归系数的P值分别为0.036,0.004,都⼩于0.05,都有统计学意义,均可纳⼊到最终的回归模型。注意:我们不能通过⽐较偏回归系数的⼤⼩来⽐较各因变量对⾃变量的作⽤的⼤⼩,⽽是通过标准化偏回归系数。回归模型如下:Y=6.378+-0.276X1+0.795X2
曲线直线化
当资料不满⾜线性要求时,我们就要对资料进⾏⾮线性分析,我们先观察两个变量的散点图,如果散点图分布的形状接近我们常见的函数曲线时,我们可以采⽤变量变换的⽅法,使变换后的两个变量之间呈直线关系,求出直线回归⽅程,再将变量还原,得到曲线回归⽅程。下⾯以⼀个例⼦来介绍关于曲线直化的⾮线性回归分析的SPSS操作:
从上⾯的散点图,我们可以发现散点分布呈现⾮线性趋势,类似于对数函数曲线分布,我们可以先对对⾃变量进⾏对数变换。
数变换后,我们可以在SPSS的数据视图中看到产⽣的新变量X’,接下来我们做X’和因变量(⽕箭电泳⾼度)的散点图。
从上图的散点分布可以发现,变换后的⾃变量和因变量之间呈现直线关系。接下来SPSS操作就是和前⾯介绍的⼀样了,我就不再⼀⼀赘述,只是要注意最后得到的回归⽅程,要记得⽤LN(IgA)替代X’,变成曲线回归⽅程。
“医学⽅”始终致⼒于服务“医学⼈”,将最前沿、最有价值的临床、科研原创⽂章推送给各位临床医师、科研⼈员

本文发布于:2024-09-21 16:29:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/646508.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:回归   变量   线性
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议