方差分析怎么做?用3个假设来验证流程

⽅差分析怎么做?⽤3个假设来验证流程
背景
假如你们现在针对⽤户提出了三种提⾼客单价策略A、B、C,现在想看⼀下这三种策略最后对提⾼客单价的效果有什么不同,那我们怎么才能知道这三种策略效果有什么不同?最简单的⽅法就是做⼀个实验,我们可以随机挑选⼀部分⽤户,然后把这些⽤户分成三组A、B、C组,A组⽤户使⽤A策略、B组⽤户使⽤B策略、C组⽤户使⽤C策略,等策略实施⼀段时间以后,我们来看⼀下这三组分别的客单价是什么⽔平?哪组平均客单价⾼,就说明哪组策略有效果。真的可以得出这的结论吗?是可以,但是不够严谨。
为什么说不够严谨呢?是因为我们⽤来做实验的⽤户是随机挑选的,有可能客单价⾼的那部分⽤户(⽐如⾼价值⽤户)本⾝就要⽐其他⽤户体的客单价⾼,那为了避免这种可能是因为随机抽样造成的结果不⼀致问题,我们就需要去证明下,到底是不是因为随机挑选的原因,如果不是,我们就可以去⽐较各组的平均客单价,哪组客单价较⾼,就说明哪组策略更有效果。
我们的最终⽬的其实就是为了⽐较各组的平均客单价,但是在⽐较均值之前,我们需要先证明下各组之间的结果不同是因为策略的原因还是随机挑选的原因,我们把这个过程叫做⽅差分析。
三个假设
摆平就是水平
⽅差分析有三个假设:
•每组样本数据对应的总体应该服从正态分布
•每组样本数据对应的总体⽅差要相等,⽅差相等⼜叫⽅差齐性
•每组之间的值是相互独⽴的,就是A、B、C组的值不会相互影响
正态检验主要有两种⼤的⽅法,⼀种是统计检验的⽅法:主要有基于峰度和偏度的SW检验、基于拟合度的KS、CVM、AD检验;另⼀种是⽤描述的⽅法:Q-Q图和P-P图、茎叶图,利⽤四分位数间距和标准差来判断。
未来的冲击⽅差齐性的主要判断⽅法有:⽅差⽐、Hartley检验、Levene检验、BF法。
由于篇幅问题,关于上⾯涉及到的⽅法以后专门来讲,有兴趣的同学可以先⾃⾏查阅。
平台设计方案
⽅差分析流程
1. 建⽴假设
H0:各组的客单价均值相等
组织结构
H1:各组的客单价均值不相等或不全等
检验⽔准为0.05
2. 计算检验统计量F值
F值 = 组间⽅差/组内⽅差。我们主要是通过⽐较F值的⼤⼩来判断各组之间是否存在显著差异
汉译英所谓的组间⽅差就是⽤来反映组与组之间的差异程度,组内⽅差就是⽤来反映各组内部数据的差异程度。
如果各组之间的客单价相等,即假设H0成⽴,也就意味着各组之间是没啥区别的,也就是组间⽅差会很⼩甚⾄为0,与之对应的⽅差很⼤的概率会很低,所以如果F值越⼤,表明在假设H0成⽴的前提下出现出现这⼀结果的概率越⼩,相当于我们前⾯提到的⼩概率事件,如果⼀旦⼩概率事件发⽣了,我们就有理由去拒绝原假设。
要来计算⽅差,我们需要先计算平⽅和。为了让⼤家能够更加理解,我们来举个例⼦来讲解各个指标怎么计算。
现在有两组数据:
现在有两组数据:
第⼀组:80、85、96
第⼆组:110、125、130、145、160
第⼀组和第⼆组的总算术平均值为:
(80+85+96+110+125+130+145+160)/8 = 116.375。
第⼀组的算术平均值:(80+85+96)/3 = 87
第⼆组的算术平均值:
(110+125+130+145+160)/5 = 134
组间平⽅和(SSA):
= 第⼀组平均值与总体平均值的平⽅和×第⼀组样本数+第⼆组平均值与总体平均值的平⽅和×第⼆组样本数
= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875
组内平⽅和(SSE):
= 第⼀组平⽅和 + 第⼆组平⽅和
=(80-87)^2+(85-87)^2+(96-87)^2
+(110-134)^2+(125-134)^2+(130-134)^2
+(145-134)^2+(160-134)^2
小黑眼
=134+1470=1604
总体平⽅和(SST):
=所有样本数据与总体平均值之间的平⽅和
=(80-116.375)^2+(85-116.375)^2+(96-116.375)^2
+(110-116.375)^2+(125-116.375)^2+(130-116.375)^2
+(145-116.375)^2+(160-116.375)^2
=5745.875
通过以上数据,我们可以看出 SST = SSA + SSE。
总平⽅和会有⼀个问题,就是随着数据量越⼤,这个值会越⼤,所以我们引⼊另外⼀个概念:均⽅。均⽅=平⽅和/⾃由度,其中⾃由度是样本数-1。
组间均⽅(MSA) = SSA/⾃由度 = 4141.875/(2-1) = 4141.875
组内均⽅(MSE) = SSE/⾃由度 = 1604/(8-2) = 267.333
组内均⽅(MSE) = SSE/⾃由度 = 1604/(8-2) = 267.333
MSA⼜称为组间⽅差,MSE称为组内⽅差。
F = MSA/MSE = 4141.875/267.333 = 15.4933
3. 确定边界值并做出决策
此时我们就可以通过查F表,来获得置信度为95%时的F边界值:
如果F<F边界值表⾯各组数据之间没有显著差异,接受H0假设;
如果F≥F边界值表⾯各组数据之间存在明显差异,拒绝H0假设,接受H1假设。
如果我们证实了各组数据之间是存在明显差异的,这个时候就可以去拿各组的均值来进⾏⽐较,均值越⼤,可以说明策略效果越好。
F值表:
⼀般最后我们都可以得到下⾯这么⼀个表:
以上就是简单的⽅差分析的基本原理与流程,也是单因素⽅差分析(单因素,就是只有策略这⼀个维度),还有双因素⽅差分析,就是不⽌考虑策略这⼀个维度,还需要别的维度,⽐如时间、地域之类的,还有交叉作⽤的双因素分析,就是不⽌策略和地域分别的影响,这两者结合在⼀起可能会产⽣第三种影响。关于⽅差分析的更多内容,我们之后再来分享。

本文发布于:2024-09-22 00:55:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/267991.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   策略   差异   检验   单价   假设
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议