logit回归模型假设_LOGISTIC回归分析

logit回归模型假设_LOGISTIC回归分析
前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量预测或者解释作⽤。那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)
发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)
发⽣⽐率(odds ratio):odds ratio=oddsB/oddsA(组B相对于组A更容易发⽣的⽐率)
注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法
线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(YN)            P为事件发⽣概率PI=1/(1+E-(α+βXI))
巴格西 下载
在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价
这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,
在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。P<1-P,则为不和谐对(discordant)。P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。单县伦理影院
性工作者调查使⽤假设条件
①数据来⾃随机样本
②共线性敏感,⾃变量之间是⾮线性关系
③因变量只能取0、1
接下来看案例
PROC LOGISTIC DATA=EX.LOAN PLOTS(ONLY)=(EFFECT(CLBAND X=(DELINQ DEBTINC REASON))
高平黑猪
ODDSRATIO (TYPE=HORIZONTALSTAT RANGE=CLIP));
CLASS EDUCATION(REF="college") REASON(REF="car")/PARAM=REFERENCE;
MODEL BAD(EVENT="1")=DELINQ DEBTINC YROPEN EDUCATION REASON DELINQ*DEBTINC
合成类固醇DEBTINC*EDUCATION/CLODDS=PL STB PARMLABEL;
UNITS DEBTINC=5 -5;
ODDSRATIO EDUCATION/DIFF=ALL CL=PL;
ODDSRATIO REASON/DIFF=ALL CL=PL;
TITLE"BAD LOAN MODEL";
RUN;
PROC LOGISTIC可以⽤的常见的选项是noprint 、plots、namelen=n 分别对应功能为:不打印结果、输出画图、变量名长度为
N(20~200)。其中plots语句中有ONLY表明指输出接下来指定图形。
后⾯跟着个effect选项,括号中的⾃选项有CLBAND和showobs指定在图形中表明预测概率的置信区域和观测,后⾯还有⼦选项X=变量1变量2.....表明画出多个⾃变量的预测效应图(假设其余变量都取均值,只考虑指定⾃变量的因变量预测情况)。这⾥指定了三个变量,就会输出三个预测效果图。注:因变量分类⼤于2则effect失效。
PROC LOGISTIC的选项ODDSRATIO,后⾯跟着两个⼦选项TYPE和range,type=horizontalstat表明图形有段显⽰发⽣⽐率和置信区间,range=clip表明图形横坐标的范围是计算到的最⼩发⽣⽐率到最⼤发⽣⽐率。
语句CLASS,选项PARAM=可以去三个值:EFFECT \REFERENCE\ORDINAL,分别对应了三种不同将⼀个⾃变量分解成K-1个新变量的不同取值⽅法(⼀个变量有K个⽔平第  k个⽔平为参考⽔平!)三种⽅法的不同在于对参考⽔平变量取值分别去-1、0、按⽔平的升序取值(⽤于顺序变量)。
选项REF=‘’的作⽤为指定变量中的某个取值作为参考⽔平。
MODEL语句有且只能有⼀个。这⾥的因变量BAD后⾯跟着选项event=“1”表明bad值为1时代表事件发⽣,此模型是计算BAD=1发⽣的概率。然后等号后⾯跟着可能进⼊模型的⾃变量,其中还有两个交互的⾃变量,为了研究两个变量是否有交互作⽤。
model 后⾯跟着选项CLODDS=表⽰输出事件发⽣⽐率的执⾏区间(PL表⽰⽤剖⾯函数计算, wald表⽰根据wald检验计算,both表⽰两种⽅法都计算⼀遍)。
model后⾯的选项STB表⽰对输出标准化,此选项是针对不同变量的度量单位可能不⼀致作⽤的,标准化后能更加客观的对⽐不同变量对预测因变量的作⽤的⼤⼩。
model后⾯还有选项parmlabel表明为极⼤似然估计的表中输出标签。
UNITS语句:上代码中表⽰DEBTINNC的值增加或者减少5个单位时计算⼀次发⽣⽐率。(默认变化⼀个单位计算⼀次,变化⾮常微⼩,步长跨度⼤⼀些会更有意义)。
ODSSRATIO语句,计算某⼀⾃变量的⽔平相对于参考⽔平的发⽣⽐率,选项DIFF=ALL表⽰⽐较所有⽔平间的发⽣⽐率,DIFF=REF表明相对参考⽔平的发⽣⽐率。选项CL=WALD\PL\BOTH和上⽂中讲的⼀致。
⼀下是输出结果:
先输出⼀些基本情况,因变量⽔平数,观测数,以及频数,重要的是以什么条件建模(BAD=1)
表⼀为根据两个变量的取不同⽔平,创建的新变量的取值
表⼆为模型的拟合优度判断,⼏个统计量是⽤于同⼀数据不同模型之间的⽐较才有意义,这⾥可以暂时忽略。
表三原假设为⽆线性关系(全局0假设),⽽根据三个统计量判断均是拒绝原假设,表⽰logit于⾃变量的线性关系显著。
上表为变量的联合检验,也成为三效应检验,分别表⽰各个⾃变量对模型的显著性,即对因变量事件的发⽣有没有显著性。以0.05的置信⽔平上有EDUCATION和DEBTINC*EDUCAION变量对模型没有显著性,其余的都有显著性。
各个变量的参数估计包括截距的估计,还有标准化的参数估计(因为⽤了STB选项)。标准化后的估计值⼀般⽤来衡量不同⾃变量对因变量影响的⼤⼩(仅限于连续⾃变量,对于分类⾃变量标准化参数估计⽆意义)。还有⼀个统计量⽤于检查参数⾮零的显著性。
需要注意的是这⾥有两个变量EDUCATION和REASON的不同⽔平单独作为了⼀个变量进⼊模型。
注:以上是对所有变量都进⾏的参数估计,若在model后⾯再加⼀个选项SELECTION=FORWARD\BCKWARD\STEPWISE\SCORE指明⼀个模型选择法,则最终的结果就想之前的博客中⼀样,⼀步⼀步选择变量,最终得到⼀个类似于上表的表,区别在于不能进如模型的变量会不存在表中,如下图是向前选择的最终结果:
多感官教学
(⼀下为插⼊别的代码结果)
可见对变量进⾏筛选之后和不筛选是有区别的,⼀般认为筛选过的模型更加准确。
(以上为插⼊)
(以下为接着插⼊前的结果分析)
表⼀能衡量预测的准确性,⼀致部分的百分⽐即和观测于预测相同的占⽐有85.7,不⼀致的有14.1,不能确定的有0.2.。⽐较有价值的统计量是发⽣⽐率C=0.858,表明事件发⽣的概率⽐事件不发⽣的概率⼤的可能性有0.858。证明模型的有效。
表⼆,由于程序⽤了oddsratio语句,最⽤对象为EDUCATION和REASON,系统对两个变量的不同⽔
平进⾏了求发⽣⽐率估计,即表⼆。前⽂说了发⽣⽐率不能等于1,⽽其中有两个新变量的置信区间包含了1,说明不同⽔平间对于发⽣⽐是⽆差别的,即新变量对发⽣不显著的。所以该模型中只有REASON 中BUSINESS和car两个⽔平的发⽣⽐是显著的,还有⼀个reason中house和business两⽔平的发⽣⽐是显著的。
还可以从图中看出相同结果:
跟之前同理。

本文发布于:2024-09-20 22:34:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/335485.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   模型   因变量   预测   表明   输出   概率   估计
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议