16种常用的数据分析方法-方差分析

震惊世界的中国秘方16种常⽤的数据分析⽅法-⽅差分析
⽅差分析(Analysis ofVariance,简称ANOVA),⼜称“变异数分析”,⼜叫F检验。是R.A.Fisher发明的,⽤于两个及两个以上样本均数差别的显著性检验。
⽅差波动来源轨道式起重机
由于各种因素的影响,研究所得的数据呈现波动状,⽽⽅差分析的基本原理认为不同处理组的均数间的差别基本来源有两个:⼀是不可控的随机因素,另⼀是研究中施加的对结果形成影响的可控因素。
实验条件,即不同的处理造成的差异,称为组间差异。
钛磁铁矿⽤变量在各组的均值与总均值之偏差平⽅和的总和表⽰,记作SSb,组间⾃由度dfb。
随机误差,如测量误差造成的差异或个体间的差异,称为组内差异。
⽤变量在各组的均值与该组内变量值之偏差平⽅和的总和表⽰,记作SSw,组内⾃由度dfw。
总偏差平⽅和 SSt = SSb +SSw。
⽅差分析应⽤场景
⽅差分析在⼯作场景中如何应⽤呢?看案例:
果蝇唾腺染体
假如产品针对⽤户提出了三种提⾼客单价的策略A、B、C,现在要评估3种策略对提⾼客单价的效果差异。
如何知道3种策略效果有什么不同?最简单的⽅法就是做⼀个实验。
如:随机挑选⼀部分⽤户,然后把这些⽤户分成三组A、B、C组,A组⽤户使⽤A策略、B组⽤户使⽤B策略、C组⽤户使⽤C策略,
策略实施⼀段时间以后,分析3组分别的客单价⽔平。哪组平均客单价⾼,就说明哪组策略有效。
可是,这样得出的结论是否有偏差呢?
当然有,出现偏差的来源:
其⼀是实验的⽤户是随机挑选的,有可能客单价⾼的那部分⽤户(如⾼价值⽤户)集中出现在某⼀组中,造成这组的策略效果更好。
当然,按照⽅差原理的差别基本来源,还有可能由于策略执⾏过程中,实验条件造成的策略结果差异。
为了排除实验结果中,上述两种来源造成的结果偏差,就需要使⽤⽅差分析去证做进⼀步证实。最终获得更严谨、更有说服⼒的策略结论。
⽅差分析中的名词解释
⽅差:⼜叫均⽅,是标准差的平⽅,是表⽰变异的量。
因素:⽅差分析的研究变量;例如,研究裁判打分的差异,裁判就被称为因素;
⽔平:因素中的内容称为⽔平;例如,总共有3个裁判打分,则裁判因素的⽔平就是3;
观测因素:⼜称观测变量,指对影响总体的因素;
控制因素:⼜称控制变量,指影响观测变量的因素;
⽅差分析的3个假定基础
1.每组样本数据对应的总体应该服从正态分布;
正态检验主要有两种⼤的⽅法,⼀种是统计检验的⽅法:主要有基于峰度和偏度的SW检验、基于拟合度的KS、CVM、AD检验;另⼀种是⽤描述的⽅法:Q-Q图和P-P图、茎叶图,利⽤四分位数间距和
标准差来判断。
2.每组样本数据对应的总体⽅差要相等,⽅差相等⼜叫⽅差齐性;
⽅差齐性的主要判断⽅法有:⽅差⽐、Hartley检验、Levene检验、BF法。
3.每组之间的值是相互独⽴的,就是A、B、C组的值不会相互影响。
单因素⽅差分析-F检验
⽅差分析把总的变异分为组间变异和组内变异:
组间变异:各组的均数与总均数间的差异;
组内变异:每组的每个测量值与该组均数的差异
离差平⽅和为:SS总=SS组间+SS组内
三江源证券
F统计量可表述为:F=MS组间/MS组内。
F值结论理解:通过计算得到的F值就可以查到P值,P值⼩于0.05,则拒绝原假设,认为其是有统计学意义的。
案例:
饮料⽣产企业研制出⼀种新型饮料。饮料的颜⾊共有四种,分别为橘黄⾊、粉⾊、绿⾊和⽆⾊透明。
这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同,先从地理位置相似、经营规模相仿的五家超级市场上收集了前⼀期该种饮料的销售量情况
表中20个数据各不相同,原因可能有两个⽅⾯:
⼀、销售地点影响。相同颜⾊的饮料在不同超市的销售量不同。案例中五个超市地理位置相似、经营规模相仿,因此把不同地点的销售量差异做为随机因素影响。
⼆、饮料颜⾊不同的影响。在同⼀超市不同颜⾊的饮料销售量不同。即使营养成分、味道、价格、包装等⽅⾯因素都相同,销售量也不相同。
这种不同虽然有类似抽样随机性造成,但更可能是⼈们对不同颜⾊的偏爱造成的。
根据上述分析,把案例分析问题归结为:检验饮料颜⾊对销售量是否有影响。
分析过程
⼀、建⽴假设:原假设“颜⾊对销售量没有影响”
⼆、计算不同颜⾊饮料销售量⽔平均值
⽆⾊饮料销售量均值=136.6÷5=27.32箱
粉⾊饮料销售量均值=147.8÷5=29.56箱
桔黄⾊饮料销售量均值=132.2÷5=26.44箱
绿⾊饮料销售量均值=157.3÷5=31.46箱
李人志
三、计算各种颜⾊饮料销售量的总均值
各种颜⾊饮料销售量总的样本平均数=(136.6+147.8+132.2+157.3)÷20=28.695箱
四、计算离差平⽅和、F值
F值=组间⽅差/组内⽅差=76.8455/(4-1)/ 39.0840/(20-4)=10.486
五、算出P值,做出结论
P值=根据F值算出P值=0.000466
结论解读:
P-值=0.000466<显著⽔平标准=0.05,假设不成⽴,说明饮料的颜⾊对销售量有显著影响。

本文发布于:2024-09-22 14:26:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/267985.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:饮料   销售量   差异   分析
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议