#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样( 二 )


当我有足够大的样本量 , 把用户分成两组 。 A组(对照组)和B组(实验组) 。 由于样本量充足 , 理论上来说 , A组和B组的各项原始指标表现应当是差不多的 。
AB实验是在对照组的基础上 , 做一个feature改动 。
假设这个feature改动是不影响指标的 。 是没有作用的 。
观察B组的指标 , 经过统计学方法计算 , 在H0成立的情况下 , B组这种指标表现出现的概率 。 根据这个概率去判断我们是该接受3的假设、还是拒绝3的假设 。
在统计学上 , 我们称 , 依照原假设 , 得到实际这种或更加极端情况的概率值为P-value , 也就是p值 。 在这个背景问题中 , P值为0.003 。 一般来说 , 我们规定0.05是判断显著与否的阈值(当然 , 这个阈值可以调整) , 也就是这一part的结论:我怎么衡量一个指标是否有显著变化?——利用p值进行判断 。 一般来说p值<0.05 , 认为指标有显著变化 。
当你看到指标显著时:是真的显著吗?
结论:不一定是真的显著 。
原因:犯了第一类错误!(常说的alpha错误)
看到这 , 有的小伙伴可能有点迷茫 。 什么意思??不是刚刚说p值远小于0.05 , 拒绝原假设了吗?怎么又不一定真的显著呢??
这里解释一下 。 我们刚刚说了 , 我们拒绝了H0 , 不是因为100%确定H0是错的 , 而是因为H0为真的概率太低了 , 所以我们选择拒绝了它 。 但是不代表它一定就是错的 , 有可能药是确实没有作用 , 只是我们选的小鼠刚好反应巨快!!鼠中佼佼者!!! 。。

#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样
本文插图

也就是说 , AB实验告诉我 , 显著了!指标显著发生了变化!!!喜大普奔!!!这个时候 , 我们仍然是有可能犯错的 。 可能我们的样本指标就是落在了那个5%的区间里 。
你可能会想 , 完犊子了 。 那我们这还咋评估啊 。

#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样
本文插图

但是!!!!虽然我们不敢说100%数据就一定会像表现的那样涨 , 我们可以给出 , “实际没涨 , AB实验看起来涨了”的犯错概率 。 这个过程 , 就是将“不确定性”进行“量化”的过程 。 一般如果给定P值0.05 , AB实验看起来显著的涨了 , 但实际没涨 , 犯这种错误的概率是5% 。
总而言之 , 我们不可能“准确”的预估产品feature上线后的表现 , 但是它能将“不可预知”的风险 , 转换为“可以量化”其“不确定性”的问题 。
当你看到指标不显著时 , 是真的不显著吗?
结论:不一定真的不显著 。
原因:犯了第二类错误!(常说的beta错误)
嗯嗯嗯又来了 , 看到不显著 , 也不一定是真的不显著……
那这又是为什么呢?我们会可能犯第二类错误:其实策略有效 , 只是没有被检测出来 。
这种错误的概率被记为β 。 而统计功效(power , 也被称为检验效力) , 被定义为1-β , 表示的是“假设我的新策略是有效的 , 我有多大概率在实验中检测出来” 。
什么意思呢?让我们画图来看 , 右边这个红色曲线是实验组 , 左边这个蓝色曲线是对照组 。 大家可以知道的是 , 如果我实验组取的样本落在了图中蓝色涂满的这部分 , 其实是应该拒绝原假设的!!但是由于它不在蓝色曲线的拒绝域里 , 所以我们接受了它 。 这就是第二类错误了 。 第二类错误的概率取决于两个曲线的分布情况 。

#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样
本文插图

一个合适的AB实验指标判断怎么给出?

#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样
本文插图


推荐阅读