首页 > 学术百科

logit回归模型假设_LOGISTIC回归分析

前⾯的博客有介绍过对连续的变量进⾏线性回归分析，从⽽达到对因变量的预测或者解释作⽤。那么如果因变量是离散变量呢？在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别，这是我们就要⽤到logistic分析(逻辑回归分析，⾮线性模型)。

参数解释(对变量的评价)

发⽣⽐(odds)： ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)

发⽣⽐率(odds ratio)：odds ratio=oddsB/oddsA(组B相对于组A更容易发⽣的⽐率)

注：odds ratio⼤于1或者⼩于1都有意义，代表⾃变量的两个分组有差异性，对因变量的发⽣概率有作⽤。若等于1的话，该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法

线性回归中，主要是采⽤最⼩⼆乘法进⾏参数估计，使其残差平⽅和最⼩。同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的，但不同的是极⼤似然法可以⽤于⾮线性模型，⼜因为逻辑回归是⾮线性模型，所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式：L(Θ)=P(Y1)P(Y2)...p(YN) P为事件发⽣概率PI=1/(1+E-(α+βXI))

巴格西下载

在样本较⼤时，极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。但是在样本观测少于100时，估计的风险会⽐较⼤，⼤于100可以介绍⼤于500则更加充分。

模型评价

这⾥介绍拟合优度的评价的两个标准：AIC准则和SC准则，两统计量越⼩说明模型拟合的越好，越可信。

若事件发⽣的观测有n条，时间不发⽣的观测有M条，则称该数据有n*m个观测数据对，

在⼀个观测数据对中，P>1-P，则为和谐对(concordant)。P<1-P，则为不和谐对(discordant)。P=1-P，则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T，其中NC为和谐对数，ND为不和谐对数，这⾥我们就可以根据C统计量来表明模型的区分度，例如C=0.68，则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。单县伦理影院

性工作者调查使⽤假设条件

①数据来⾃随机样本

②共线性敏感，⾃变量之间是⾮线性关系

③因变量只能取0、1

接下来看案例

PROC LOGISTIC DATA=EX.LOAN PLOTS(ONLY)=(EFFECT(CLBAND X=(DELINQ DEBTINC REASON))

高平黑猪

ODDSRATIO (TYPE=HORIZONTALSTAT RANGE=CLIP));

CLASS EDUCATION(REF="college") REASON(REF="car")/PARAM=REFERENCE;

MODEL BAD(EVENT="1")=DELINQ DEBTINC YROPEN EDUCATION REASON DELINQ*DEBTINC

合成类固醇DEBTINC*EDUCATION/CLODDS=PL STB PARMLABEL;

UNITS DEBTINC=5 -5;

ODDSRATIO EDUCATION/DIFF=ALL CL=PL;

ODDSRATIO REASON/DIFF=ALL CL=PL;

TITLE"BAD LOAN MODEL";

RUN;

PROC LOGISTIC可以⽤的常见的选项是noprint 、plots、namelen=n 分别对应功能为：不打印结果、输出画图、变量名长度为

N(20~200)。其中plots语句中有ONLY表明指输出接下来指定图形。

后⾯跟着个effect选项，括号中的⾃选项有CLBAND和showobs指定在图形中表明预测概率的置信区域和观测，后⾯还有⼦选项X=变量1变量2.....表明画出多个⾃变量的预测效应图(假设其余变量都取均值，只考虑指定⾃变量的因变量预测情况)。这⾥指定了三个变量，就会输出三个预测效果图。注：因变量分类⼤于2则effect失效。

PROC LOGISTIC的选项ODDSRATIO，后⾯跟着两个⼦选项TYPE和range，type=horizontalstat表明图形有段显⽰发⽣⽐率和置信区间，range=clip表明图形横坐标的范围是计算到的最⼩发⽣⽐率到最⼤发⽣⽐率。

语句CLASS，选项PARAM=可以去三个值：EFFECT \REFERENCE\ORDINAL，分别对应了三种不同将⼀个⾃变量分解成K-1个新变量的不同取值⽅法(⼀个变量有K个⽔平第 k个⽔平为参考⽔平！)三种⽅法的不同在于对参考⽔平变量取值分别去-1、0、按⽔平的升序取值(⽤于顺序变量)。

选项REF=‘’的作⽤为指定变量中的某个取值作为参考⽔平。

MODEL语句有且只能有⼀个。这⾥的因变量BAD后⾯跟着选项event=“1”表明bad值为1时代表事件发⽣，此模型是计算BAD=1发⽣的概率。然后等号后⾯跟着可能进⼊模型的⾃变量，其中还有两个交互的⾃变量，为了研究两个变量是否有交互作⽤。

model 后⾯跟着选项CLODDS=表⽰输出事件发⽣⽐率的执⾏区间(PL表⽰⽤剖⾯函数计算， wald表⽰根据wald检验计算，both表⽰两种⽅法都计算⼀遍)。

model后⾯的选项STB表⽰对输出标准化，此选项是针对不同变量的度量单位可能不⼀致作⽤的，标准化后能更加客观的对⽐不同变量对预测因变量的作⽤的⼤⼩。

model后⾯还有选项parmlabel表明为极⼤似然估计的表中输出标签。

UNITS语句：上代码中表⽰DEBTINNC的值增加或者减少5个单位时计算⼀次发⽣⽐率。(默认变化⼀个单位计算⼀次，变化⾮常微⼩，步长跨度⼤⼀些会更有意义)。

ODSSRATIO语句，计算某⼀⾃变量的⽔平相对于参考⽔平的发⽣⽐率，选项DIFF=ALL表⽰⽐较所有⽔平间的发⽣⽐率，DIFF=REF表明相对参考⽔平的发⽣⽐率。选项CL=WALD\PL\BOTH和上⽂中讲的⼀致。

⼀下是输出结果：

先输出⼀些基本情况，因变量⽔平数，观测数，以及频数，重要的是以什么条件建模(BAD=1)

表⼀为根据两个变量的取不同⽔平，创建的新变量的取值

表⼆为模型的拟合优度判断，⼏个统计量是⽤于同⼀数据不同模型之间的⽐较才有意义，这⾥可以暂时忽略。

表三原假设为⽆线性关系(全局0假设)，⽽根据三个统计量判断均是拒绝原假设，表⽰logit于⾃变量的线性关系显著。

上表为变量的联合检验，也成为三效应检验，分别表⽰各个⾃变量对模型的显著性，即对因变量事件的发⽣有没有显著性。以0.05的置信⽔平上有EDUCATION和DEBTINC*EDUCAION变量对模型没有显著性，其余的都有显著性。

各个变量的参数估计包括截距的估计，还有标准化的参数估计(因为⽤了STB选项)。标准化后的估计值⼀般⽤来衡量不同⾃变量对因变量影响的⼤⼩(仅限于连续⾃变量，对于分类⾃变量标准化参数估计⽆意义)。还有⼀个统计量⽤于检查参数⾮零的显著性。

需要注意的是这⾥有两个变量EDUCATION和REASON的不同⽔平单独作为了⼀个变量进⼊模型。

注：以上是对所有变量都进⾏的参数估计，若在model后⾯再加⼀个选项SELECTION=FORWARD\BCKWARD\STEPWISE\SCORE指明⼀个模型选择法，则最终的结果就想之前的博客中⼀样，⼀步⼀步选择变量，最终得到⼀个类似于上表的表，区别在于不能进如模型的变量会不存在表中，如下图是向前选择的最终结果：

多感官教学

(⼀下为插⼊别的代码结果)

可见对变量进⾏筛选之后和不筛选是有区别的，⼀般认为筛选过的模型更加准确。

(以上为插⼊)

(以下为接着插⼊前的结果分析)

表⼀能衡量预测的准确性，⼀致部分的百分⽐即和观测于预测相同的占⽐有85.7，不⼀致的有14.1，不能确定的有0.2.。⽐较有价值的统计量是发⽣⽐率C=0.858，表明事件发⽣的概率⽐事件不发⽣的概率⼤的可能性有0.858。证明模型的有效。

表⼆，由于程序⽤了oddsratio语句，最⽤对象为EDUCATION和REASON，系统对两个变量的不同⽔

平进⾏了求发⽣⽐率估计，即表⼆。前⽂说了发⽣⽐率不能等于1，⽽其中有两个新变量的置信区间包含了1，说明不同⽔平间对于发⽣⽐是⽆差别的，即新变量对发⽣不显著的。所以该模型中只有REASON 中BUSINESS和car两个⽔平的发⽣⽐是显著的，还有⼀个reason中house和business两⽔平的发⽣⽐是显著的。

还可以从图中看出相同结果：

跟之前同理。

本文发布于:2024-09-20 22:34:21，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/335485.html

上一篇：基于SEM模型的客舱乘务员空中颠簸受伤影响因素分析

下一篇：事故致因理论的区别及优缺点