用excel做logistic回归分析_用Excel做回归分析的详细步骤

⽤excel做logistic回归分析_⽤Excel做回归分析的详细步骤⼀、什么是回归分析法
“回归分析”是解析“注⽬变量”和“因于变量”并明确两者关系的统计⽅法。此时,我们把因⼦变量称为“说明变量”,把注⽬变量称为“⽬标变量址(被说明变量)”。清楚了回归分析的⽬的后,下⾯我们以回归分析预测法的步骤来说明什么是回归分析法:
回归分析是对具有因果关系的影响因素(⾃变量)和预测对象(因变量)所进⾏的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建⽴的回归⽅程才有意义。因此,作为⾃变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多⼤,就成为进⾏回归分析必须要解决的问题。进⾏相关分析,⼀般要求出相关关系,以相关系数的⼤⼩来判断⾃变量和因变量的相关的程度。
⼆、回归分析的⽬的
回归分析的⽬的⼤致可分为两种:
第⼀,“预测”。预测⽬标变量,求解⽬标变量y和说明变量(x1,x2,…)的⽅程。
y=a0+b1x1+b2x2+…+bkxk+误差(⽅程A)
把⽅程A叫做(多元)回归⽅程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做⼀元回归⽅程。根据最⼩平⽅法求解最⼩误差平⽅和,⾮求出y截距和回归系数。若求解回归⽅程.分別代⼊x1,x2,…xk的数值,预测y的值。
第⼆,“因⼦分析”。因⼦分析是根据回归分析结果,得出各个⾃变量对⽬标变量产⽣的影响,因此,需要求出各个⾃变量的影响程度。
希望初学者在阅读接下来的⽂章之前,⾸先学习⼀元回归分析、相关分析、多元回归分析、数量化理论I等知识。
根据最⼩平⽅法,使⽤Excel求解y=a+bx中的a和b。那么什么是最⼩平⽅法?
分别从散点图的各个数据标记点,做⼀条平⾏于y轴的平⾏线,相交于图中直线(如下图)
平⾏线的长度在统计学中叫做“误差”或者‘残差”。误差(残差)是指分析结果的运算值和实际值之间的差。接这,求平⾏线长度曲平⽅值。可以把平⽅值看做边长等于平⾏线长度的正⽅形⾯积(如下图)
最后,求解所有正⽅形⾯积之和。确定使⾯积之和最⼩的a(截距)和b(回归系数)的值(如下图)。
使⽤Excel求解回归⽅程;“⼯具”→“数据分析”→“回归”,具体操作步骤将在后⾯的⽂章中具体会说明。
线性回归的步骤不论是⼀元还是多元相同,步骤如下:
1、散点图判断变量关系(简单线性);
2、求相关系数及线性验证;
3、求回归系数,建⽴回归⽅程;
4、回归⽅程检验;
5、参数的区间估计;
6、预测;
⼀元线性回归操作和解释
摘要
⼀元线性回归可以说是数据分析中⾮常简单的⼀个知识点,有⼀点点统计、分析、建模经验的⼈都知道这个分析的含义,也会⽤各种⼯具来做这个分析。这⾥⾯想把这个分析背后的细节讲讲清楚,也就是后⾯的数学原理。
什么是⼀元线性回归
回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的⼀种统计分析⽅法。在回归分析中,只包括⼀个⾃变量和⼀个因变量,且⼆者的关系可⽤⼀条直线近似表⽰,这种回归分析称为⼀元线性回归分析。举个例⼦来说吧:
⽐⽅说有⼀个公司,每⽉的⼴告费⽤和销售额,如下表所⽰:
案例数据
如果我们把⼴告费和销售额画在⼆维坐标内,就能够得到⼀个散点图,如果想探索⼴告费和销售额的关系,就可以利⽤⼀元线性回归做出⼀条拟合直线:
拟合直线
这条线是怎么画出来的
对于⼀元线性回归来说,可以看成Y的值是随着X的值变化,每⼀个实际的X都会有⼀个实际的Y值,我们叫Y实际,那么我们就是要求出⼀条直线,每⼀个实际的X都会有⼀个直线预测的Y值,我们叫做Y预测,回归线使得每个Y的实际值与预测值之差的平⽅和最⼩,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2的和最⼩(这个和叫SSE,后⾯会具体讲)。
现在来实际求⼀下这条线:
我们都知道直线在坐标系可以表⽰为Y=aX+b,所以(Y实际-Y预测)就可以写成(Y实际-(aX实际+b)),于是平⽅和可以写成a和b的函数。只需要求出让Q最⼩的a和b的值,那么回归线的也就求出来了。
简单插播⼀下函数最⼩值怎么求:
⾸先,⼀元函数最⼩值点的导数为零,⽐如说Y=X^2,X^2的导数是2X,令2X=0,求得X=0的时候,Y取最⼩值。
那么实质上⼆元函数也是⼀样可以类推。不妨把⼆元函数图象设想成⼀个曲⾯,最⼩值想象成⼀个凹陷,那么在这个凹陷底部,从任意⽅向上看,偏导数都是0。
因此,对于函数Q,分别对于a和b求偏导数,然后令偏导数等于0,就可以得到⼀个关于a和b的⼆元⽅程组,就可以求出a和b了。这个⽅法被称为最⼩⼆乘法。下⾯是具体的数学演算过程,不愿意看可以直接看后⾯的结论。
先把公式展开⼀下:
Q函数表达式展开
然后利⽤平均数,把上⾯式⼦中每个括号⾥的内容进⼀步化简。例如
Y^2的平均
则:
上式⼦两边×n
于是
Q最终化简结果
然后分别对Q求a的偏导数和b的偏导数,令偏导数等于0。
Q分别对a和b求偏导数,令偏导数为0拟合直线
进⼀步化简,可以消掉2n,最后得到关于a,b的⼆元⽅程组为
关于a,b的 ⼆元⽅程组
最后得出a和b的求解公式:
最⼩⼆乘法求出直线的斜率a和斜率b
有了这个公式,对于⼴告费和销售额的那个例⼦,我们就可以算出那条拟合直线具体是什么,分别求出公式中的各种平均数,然后带⼊即可,最后算出a=1.98,b=2.25
最终的回归拟合直线为Y=1.98X+2.25,利⽤回归直线可以做⼀些预测,⽐如如果投⼊⼴告费2万,那么预计销售额为6.2万
评价回归线拟合程度的好坏
我们画出的拟合直线只是⼀个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合程度到底怎么样呢?在统计学中有⼀个术语叫做R^2(coefficient ofdetermination,中⽂叫判定系数、拟合优度,决定系数,系统不能上标,这⾥是R^2是“R的平⽅”),⽤来判断回归⽅程的拟合程度。
⾸先要明确⼀下如下⼏个概念:
总偏差平⽅和(⼜称总平⽅和,SST,Sum of Squaresfor Total):是每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平⽅和,即,反映了因变量取值的总体波动情况。如下:
SST公式
回归平⽅和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平⽅和,即,它是由于⾃变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。
SSR公式
残差平⽅和(⼜称误差平⽅和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平⽅和,它是除了x对y的线性影响之外的其他因素对y变化的作⽤,是不能由回归直线来解释的。
这些概念还是有些晦涩,我个⼈是这么理解的:
就拿⼴告费和销售额的例⼦来说,其实⼴告费只是影响销售额的其中⼀个⽐较重要的因素,可能还有经济⽔平、产品质量、客户服务⽔平等众多难以说清的因素在影响最终的销售额,那么实际的销售额就是众多因素相互作⽤最终的结果,由于销售额是波动的,所以⽤上⽂提到的每个⽉的销售额与平均销售额的差的平⽅和(即总平⽅和)来表⽰整体的波动情况。
回归线只表⽰⼴告费⼀个变量的变化对于总销售额的影响,所以必然会造成偏差,所以才会有实际值和回归值是有差异的,因此回归线只能解释⼀部分影响
那么实际值与回归值的差异,就是除了⼴告费之外其他⽆数因素共同作⽤的结果,是不能⽤回归线来解释的。
因此SST(总偏差)=SSR(回归线可以解释的偏差)+SSE(回归线不能解释的偏差)
那么所画回归直线的拟合程度的好坏,其实就是看看这条直线(及X和Y的这个线性关系)能够多⼤程度上反映(或者说解释)Y值的变化,定义R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好
假如所有的点都在回归线上,说明SSE为0,则R^2=1,意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系
还是回到最开始的⼴告费和销售额的例⼦,这个回归线的R^2为0.73,说明拟合程度还凑合。
四、相关系数R和判定系数R^2的区别
判定系数R^2来判断回归⽅程的拟合程度,表⽰拟合直线能多⼤程度上反映Y的波动。
在统计中还有⼀个类似的概念,叫做相关系数R(这个没有平⽅,学名是⽪尔逊相关系数,因为这不是唯⼀的⼀个相关系数,⽽是最常见最常⽤的⼀个),⽤来表⽰X和Y作为两个随机变量的线性相关程度,取值范围为【-1,1】。
当R=1,说明X和Y完全正相关,即可以⽤⼀条直线,把所有样本点(x,y)都串起来,且斜率为正,
当R=-1,说明完全负相关,及可以⽤⼀条斜率为负的直线把所有点串起来。
如果在R=0,则说明X和Y没有线性关系,注意,是没有线性关系,说不定有其他关系。
就如同这两个概念的符号表⽰⼀样,在数学上可以证明,相关系数R的平⽅就是判定系数。
变量的显著性检验
变量的显著性检验的⽬的:剔除回归系数中不显著的解释变量(也就是X),使得模型更简洁。在⼀元线性模型中,我们只有有⼀个⾃变量X,就是要判断X对Y是否有显著性的影响;多元线性回归中,验证每个Xi⾃⾝是否真的对Y有显著的影响,不显著的就应该从模型去掉。
变量的显著性检验的思想:⽤的是纯数理统计中的假设检验的思想。对Xi参数的实际值做⼀个假设,然后在这个假设成⽴的情况下,利⽤已知的样本信息构造⼀个符合⼀定分布的(如正态分布、T分布和F分布)的统计量,然后从理论上计算得到这个统计量的概率,如果概率很低(5%以下),根据“⼩概率事件在⼀次实验中不可能发⽣”的统计学基本原理,现在居然发⽣了!(因为我们的统计量就是根据已知的样本算出来的,这些已知样本就是⼀次实验)肯定是最开始的假设有问题,所以就可以拒绝最开始的假设,如果概率不低,那就说明假设没问题。
其实涉及到数理统计的内容,真的⽐较难⼀句话说清楚,我举个不恰当的例⼦吧:⽐如有⼀个⼝袋⾥⾯装了⿊⽩两种颜⾊的球⼀共20个,然后你想知道⿊⽩球数量是否⼀致,那么如果⽤假设检验的思路就是这样做:⾸先假设⿊⽩数量⼀样,然后随机抽取10个球,但是发现10个都是⽩的,如果最开始假设⿊⽩数量⼀样是正确的,那么⼀下抽到10个⽩的的概率是很⼩的,但是这么⼩概率的事情居然发⽣了,所以我们有理由相信假设错误,⿊⽩的数量应该是不⼀样的……
总之,对于所有的回归模型的软件,最终给出的结果都会有参数的显著性检验,忽略掉难懂的数学,我们只需要理解如下⼏个结论:
T检验⽤于对某⼀个⾃变量Xi对于Y的线性显著性,如果某⼀个Xi不显著,意味着可以从模型中剔除这个变量,使得模型更简洁。
F检验⽤于对所有的⾃变量X在整体上看对于Y的线性显著性
T检验的结果看P-value,F检验看Significant F值,⼀般要⼩于0.05,越⼩越显著(这个0.05其实是显著性⽔平,是⼈为设定的,如果⽐较严格,可以定成0.01,但是也会带来其他⼀些问题,不细说了)
下图是⽤EXCEL对⼴告费和销售额的例⼦做的回归分析的结果(EXCEL真⼼是个很强⼤的⼯具,⽤的出神⼊化⼀样可以变成超神),可以看出F检验是显著的(Significance F为0.0017),变量X的T检验是显著的(P-value为0.0017),这俩完全⼀样也好理解,因为我们是⼀元回归,只有⼀个⾃变量X。
⽤Excel做线性回归分析
还有⼀点是intercept(截距,也就是Y=aX+b中的那个b)的T检验没有通过,是不显著的,⼀般来说,只要F检验和关键变量的T检验通过了,模型的预测能⼒就是OK的。
最后推荐⼀个很好的统计学课程
这门课是统计学⼊门课程,将涵盖统计学所有的主要知识,包括:随机变量、均值⽅差标准差、统计图表、概率密度、⼆项分布、泊松分布、正态分布、⼤数定律、中⼼极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、⽅差分析、回归分析等内容。
⼀共80多条视频,全长800多分钟,只能说这是我看过的最好的统计学教程,没有之⼀,如果本科能看到这个⽔平的教程,我也不会靠考场上的纸条过这门课了。
其实如果懂⼀点真正的统计学,⽣活中会多⼀些看问题的⾓度,还是挺有意思的。
⼀元线性回归就说到这⾥,谢谢⼤家!
使⽤Excel数据分析⼯具进⾏多元回归分析
在“数据”⼯具栏中就出现“数据分析”⼯具库,如下图所⽰:
给出原始数据,⾃变量的值在A2:I21单元格区间中,因变量的值在J2:J21中,如下图所⽰:
假设回归估算表达式为:
试使⽤Excel数据分析⼯具库中的回归分析⼯具对其回归系数进⾏估算并进⾏回归分析:
点击“数据”⼯具栏中中的“数据分析”⼯具库,如下图所⽰:
在弹出的“数据分析”-“分析⼯具”多⾏⽂本框中选择“回归”,然后点击 “确定”,如下图所⽰:
弹出“回归”对话框并作如下图的选择:
上述选择的具体⽅法是:
在“Y值输⼊区域”,点击右侧折叠按钮,选取函数Y数据所在单元格区域J2:J21,选完后再单击折叠按钮返回;这过程也可以直接在“Y 值输⼊区域”⽂本框中输⼊J2:J21;
在“X值输⼊区域”,点击右侧折叠按钮,选取⾃变量数据所在单元格区域A2:I21,选完后再单击折叠按钮返回;这过程也可以直接
在“X值输⼊区域”⽂本框中输⼊A2:I21;
置信度可选默认的95%。
在“输出区域”如选“新⼯作表”,就将统计分析结果输出到在新表内。为了⽐较对照,我选本表内的空⽩区域,左上⾓起始单元格为
K10.点击确定后,输出结果如下:
第⼀张表是“回归统计表”(K12:L17):
其中:
Multiple R:(复相关系数R)R2的平⽅根,⼜称相关系数,⽤来衡量⾃变量x与y之间的相关程度的⼤⼩。本例R=0.9134表明它们之间的关系为⾼度正相关。(Multiple:复合、多种)
R Square:复测定系数,上述复相关系数R的平⽅。⽤来说明⾃变量解释因变量y变差的程度,以测定因变量y的拟合效果。此案例中的复测定系数为0.8343,表明⽤⽤⾃变量可解释因变量变差的83.43%
Adjusted R Square:调整后的复测定系数R2,该值为0.6852,说明⾃变量能说明因变量y的68.52%,因变量y的31.48%要由其他因素来解释。( Adjusted:调整后的)
标准误差:⽤来衡量拟合程度的⼤⼩,也⽤于计算与回归相关的其它统计量,此值越⼩,说明拟合程度越好
观察值:⽤于估计回归⽅程的数据的观察值个数。
第⼆张表是“⽅差分析表”:主要作⽤是通过F检验来判定回归模型的回归效果。
该案例中的Significance F(F显著性统计量)的P值为0.00636,⼩于显著性⽔平0.05,所以说该回归⽅程回归效果显著,⽅程中⾄少有⼀个回归系数显著不为0.(Significance:显著)
第三张表是“回归参数表”:
K26:K35为常数项和b1~b9的排序默认标⽰.
L26:L35为常数项和b1~b9的值,据此可得出估算的回归⽅程为:
该表中重要的是O列,该列的O26:O35中的 P-value为回归系数t统计量的P值。
值得注意的是:其中b1、b7的t统计量的P值为0.0156和0.0175,远⼩于显著性⽔平0.05,因此该两项的⾃变量与y相关。⽽其他各项的t统计量的P值远⼤于b1、b7的t统计量的P值,但如此⼤的P值说明这些项的⾃变量与因变量不存在相关性,因此这些项的回归系数不显著

本文发布于:2024-09-21 22:04:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/359556.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:回归   变量   分析   拟合   程度   因变量   直线
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议