虽然线性回归能够满⾜⼤部分的数据分析的要求,但是,线性回归并不是对所有的问题都适⽤, 因为有时候⾃变量和因变量是通过⼀个已知或未知的⾮线性函数关系相联系的,如果通过函数转换,将关系转换成线性关系,可能会造成数据失真或更为复杂的计算,导致结果出现偏差 证券公司监督管理条例
回归分析中,变量转换的⽅法,如下所⽰:独眼喙鼻
举例说明⼀下公式的转换过程:幂函数: 我们将两边取对⼿ (以⾃然数e 为底的对数)得到
Y'=Iny x'=Inx 将Y'和X‘分别代⼊⽅程得到:Y'=In=Ina + In= Ina + βInx = Ina + βX' 此公式分解是请参考:对数的运算性质
此时,我们⼀般会采⽤“曲线评估”来寻⼀个简单⽽⼜适合的模型。 今天还是以教学案例数据为例:⼴告⽀付和销售量之间的关系,数据如下所⽰: caj
点击“分析”—回归——曲线评估,进⼊如下所⽰的界⾯:
将“销售量”作为因变量,“⼴告费⽤”作为⾃变量分别拖⼊“因变量”和“⾃变量”框内,选择“线性”和“⼆次项”两个模型,同时勾选“包含常量”和“模型绘图”两个选项
接着,点击“保存”按钮,进⼊如下界⾯:
点击继续,返回原来界⾯,再点击”确定“按钮,得到如下分析结果:
结果分析:
1:在“模型描述”中可以看出:
因变量为“销售量”,⾃变量为:⼴告费⽤,并且具备两个⽅程:⽅程1为线性⽅程,⽅程2为:⼆次曲线⽅程
压差计包含:常数项等信息
2:从“个案处理摘要”可以看出,排除的个案为0,说明变量中所有的个案都不带有“缺失值”,个案总数为24个
3:从“模型汇总和参数归集值”表中,可以看出:
“⼆次曲线模型的拟合度”⾼于“线性模型拟合度”(0.908 > 0.839),F统计量的显著值都等于0.00,远远⼩于0.01,说明两个模型都显著,并且都具备常数项,分别为:6.584和3.903, 参数估计值:线性具备⼀个参数估计值,⽽⼆次曲线具备两个参数估计值,⼀个为正,⼀个为负
线性⽅程为:销售量 = 6.584 + 1.071* ⼴告费⽤
⼆次曲线⽅程为: 销售量 = 3.903 + 2.854 * ⼴告费⽤ — 0.245 * ⼴告费⽤²
赫塔米勒我们可以看出,随着⼴告费⽤的增加,销售量也会逐渐增加,根据⼆次曲线模型得出,当⼴告费⽤增加到⼀定数额时候,销售量不会随着增加,相⽐之下,会呈现下降趋势 (这个就是为什么会出现两个参数估计值为⼀正,⼀负的情况了) 成都理工学院学报那么,我们如何计算:投⼊与产出最⼤化呢?即指:当⼴告费⽤投放达到多少时,销售量将不会再增加,即指:转折点
转折点 = 2.854/2*0.245 = 5.824
我们来分析⼀下,这个转折点的推理过程! 其实转折点,就是所谓的极限,简单来说,可以理解为求导数
1:y=β0 + β1x + β2x² 对y进⾏求导运算得出: y'=β1+2β2x :
2:因为随着⼴告费⽤的增加,销售量也会随着改变,所以求增量: Δy=( β1 + 2β2x) Δx
3:求⽐值:Δy/Δx=β1 + 2β2x
4:求极限:β1 + 2β2x =0 得出 x =| -β1/2β2 | (这⾥取绝对值)= 2.854/2*0.245 = 5.824
4:从“销售量”的图表中可以看出:⼆次曲线更好的反应了,随着⼴告费⽤的增加,销售量的变化情况,⽽线性模型,却⼀直呈现增加的趋势