|优秀产品人必懂的增长策略设计模型( 二 )


  • 蓝色按钮的页面访问量是6238次 , 按钮点击次数为368次 , 转化率为5.9% 。
  • 红色按钮的页面访问量是6122次 , 按钮点击次数为588次 , 转化率为9.6% 。
  • 那么此时 , 是否能确定红色按钮是否效果更好呢?但样本数量是否可信呢?
在实验上线1年后 , 又进行了一次数据统计:
  • 蓝色按钮的页面访问量是132892次 , 按钮点击次数为6110次 , 转化率为4.6% 。
  • 红色按钮的页面访问量是140021次 , 按钮点击次数为9641次 , 转化率为7.5% 。
  • 那么此时 , 是否就可以非常的肯定的说红色按钮较蓝色按钮的转化率更好?
通过上述案例可发现从结果可靠性的角度看 , 样本量越大 , 实验时间越长 , 实验结果则越可靠 。
但从实际工作的成本角度出发 , 样本量越小 , 实验时间越短 , 实验的试错成本就越小 , 实验迭代速度也越快 。
因此在保障实验结果可靠性的同时又尽可能最小化样本量 , 不会浪费过多的实验时间显得至关重要 。 我们可以通过对增长实验结果进行统计显著性检验找到这个平衡点 。
统计显著性(Statistical significance):是指零假设为真的情况下拒绝零假设所要承担的风险水平 , 又叫概率水平 , 或者显著水平 。 在增长实验中是指对照组和实验组之间转化率差异的真实水平程度 。
如:对比对照组和实验组的某个实验指标发现转化率有差别 , 而统计显著性为90% 。 则代表造成差别中有90%的可能性是真实存在的 。 而10%的可能性是随机误差引起的 。
当统计显著性越高 , 则随机误差的可能性就越低 , 得到的结果就越可靠 。 我们可通过确认结果统计性显著所需的最小样本数来预估实验所需样本数量 。
影响实验所需样本数量的因素主要有三个:
  1. 原版本的转化率:如原版本的转化率越低 , 则实验所需要的样本数量越大 。
  2. 新版本的转化率:如果新版本和原版本的转化率差别越小 , 则检测所需的敏感度越高 , 实验所需要的样本数量越大 。
  3. 统计显著性要求:统计显著性要求越高 , 对结果的需求越确定 , 则实验所需要的样本数量越大 。 建议一般情况统计显著性要求至少为95% 。
我们继续刚才的案例 。 假设原版本 , 也就是蓝色按钮的点击转化率为10% , 而预计改为红色后 , 点击转化率为12% , 我们通过第三方A/B测试样本计算器工具 , 在统计显著设置为95%的情况下 , 预估出实验所需要的样本数量为2900 。 我们预估每天的的页面访问数为500 。 而这个实验一共存在红色按钮和蓝色按钮两个实验样本 , 则样本总数为5800 , 所以需要的实验时长是12天 。
三、设计实验版本
在完成了确定实验指标和实验对象后 , 就可以开始设计实验版本了 。 在设计实验版本时 , 需要思考实验组相比对照组都做了哪些改动 。 确定实验版本数量 , 版本之间的关联和区别是什么 。 实验受众的流量在实验版本之间如何分配 。实验版本的数量和区别可以通过以下三个方面来确定:
  1. 版本数量取决于实验假设的数量 , 只选择高质量的实验假设 。
  2. 明确实验类型 , 是优化型实验还是探索型实验 。 优化型实验:每个版本只改变单一变量 , 明确改动的影响 。 探索型实验:可以同时改变多个变量 , 设计全新的实验版本 。
  3. 版本数量越大 , 则需要的总样本数量越大 。
实验受众的流量在实验版本之间分配原则是保证每个实验版本的样本分流均匀随机 。 样本分流是否均匀随机 , 会极大影响实验结果的可信性 。 均匀随机的样本分流可消除一切外在因素的影响 。 保证对照组和实验组唯一区别就是实验改动 。
样本科学分流是A/B测试工具的重要功能之一 , 需要达到以下四个标准:


推荐阅读