#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样
后台收到一些旁友的留言 , 想学习AB测试相关知识 , 但市面上的教程要么太“正式” , 要么知识点比较零散 。 今天给大家分享的这篇文章 , 可谓既干货又生动活泼:
让我们想象一下 , 在公司的某产品研发讨论会上……
“这个功能要不要上?”
“我觉得没问题 , XX指标肯定能涨一大截 。 ”
“我不这么想 , XX指标说不定也会受到影响 , 你不能只想着可能的收益呀 。 ”
blahblah无限循环争吵中……
“好啦 , 别吵了 , 让我们开个AB看一下效果吧 。 ”
当现在越来越多的app都已经日活百万千万 , 新功能是绝对不敢、也绝无必要轻易上线的 。 (因为一旦全量上线引起用户反感 , 损失不可估计 。 )这个时候 , AB实验就成为了大型功能上线前的必备利器——进行小流量的测试 , 利用测试的效果来预估上线后的效果 。
OK , 那一个AB实验开启了之后 , 我们(常常是数据分析师)该怎么评估这个AB实验的效果 , 给出这个需求到底要不要上线的分析结论呢?这就是本文的重点所在了 。
一个合格的分析师 , 可以问自己以下几个问题:
我怎么衡量一个指标是否有显著变化?
当你看到指标显著时:是真的显著吗?
当你看到指标不显著时 , 是真的不显著吗?
一个合适的AB实验指标判断结论怎么给出?
我会遇到哪些问题、分别应该怎么处理?
接下来 , 让我们一起看看这些问题该怎么解答吧~
我怎么衡量一个指标是否有显著变化?
结论:利用p值进行判断 , 一般来说p值<0.05 , 认为指标有显著变化 。
原因:假设检验的相关知识 。
嗯……AB实验就是一种假设检验吗?那假设检验是怎么一回事呢?
这里我举一个公开课里看到的例子 。 非常生动形象 。 看看我们在一个实际的Case中 , 怎么拒绝/接受一个假设的 。
【#埃尔法哥哥#数据分析误区:AB测试=简单对照?NO!正确打开方式应该是这样】
背景:神经学家测试一种药物对小老鼠反应时间的影响 , 给实验组100只小老鼠注释某种药物 。 神经学家知道 , 没有注射药物的老鼠平均反应时间是1.2s , 注射了药物的老鼠平均反应时间1.05s , 样本标准差0.5s 。 你认为这个药物对于老鼠的反应时间有影响吗?
依照我们上面说的步骤逐步拆解:
我们先假设药物是没有影响的 。 (H0:药物无影响 。 ps.此处还有一个备择假设H1:药物有影响)
如果药物没有影响 , 换句话说 , 实验组的小鼠在注射药物之后 , 他们的反应时间均值应该是1.2s 。
假设总体小鼠的反应均值就应该是1.2s , 那么我们得到的这个样本——平均反应时间1.05s的概率是多大?
求解:
(1)已知总体均值为1.2s ;
(2)已知样本均值为1.05s, 样本标准差0.5s
(3)由于样本量尚可 , 利用样本标准差估计总体标准差(这部分如果不懂的可以去补一下抽样分布 , 不详细展开说):0.5/10 = 0.05
(4)计算1.05距离1.2有几个标准差那么远?—— 1.05-1.2/0.05 = 3个
(5)当我们抽出一个样本 , 它落在距离总体均值1.2三个标准差的地方、甚至更远 , 概率是多少?——概率是正态分布钟形曲线下 , 3sigma之外的面积(包括正、负3sigma) 。 可以通过查正态分布得知 , 概率是0.3%
(6)事已至此 , 我们可以得到的结论是:如果接受原假设 , 药物没作用 , 出现我们这种抽样结果的概率是——0.003... 我们居然就抽到了??所以 , 这个时候 , 虽然不是100%确定 , 但我们倾向于拒绝原假设(药物无影响) , 接受备择假设(药物有影响) 。
本文插图
那么 , 当我们做一个实验时 , 判断feature是否有用 , 我们的思路是这样的:
推荐阅读
- 「阿尔法工场」索尼为何要花4亿美金,去拉B站的手?
- 『中国证监会』胆子太大了!营业部高管竟用办公电脑,操纵哥哥账户400多次,炒股1个多亿!罚单来了
- 『阿尔法证券』为在美国市场的中概股敲响警钟
- #阿尔法工场#奶粉行业供应链大考,断货“灰犀牛”是否来了?
- 阿尔法工场:市场动荡中的科技公司价值估值
