深入了解技术交易中最强大的工具:A/B测试是如何工作的?( 二 )


但是CEO想要的东西难度更大 。 她的问题只能通过实时流量实验来回答:当不同的用户在你网站上进行日常业务时 , 为他们提供不同版本的徽标 。
实验基础架构
如果想进行实时流量实验 , 那么你需要一些特殊的基础架构 。 与工程师合作 , 建立为不同用户随机提供不同待遇的能力 , 以及根据待遇条件跟踪CEO期望指标(某些网站元素的点击率)的能力 。
为什么人们不常做实时流量实验 , 答案通常与高昂前期成本有关 。 就像Google甚至在我们不知道要进行哪些实验之前 , 就和在我们的大多数系统中构建实验基础架构一样 , 传统公司可能一开始会忘记添加此功能 , 进而会发现自己落后于更懂技术的竞争对手 。 但要注意 , 如果你想进入应用的ML /AI游戏 , 那么就必须具备实验基础架构 。
示例
你非常谨慎 , 不想因为突然出现新徽标而吓到用户 。 更明智的做法是对一部分用户进行实验抽样 , 然后进行逐步部署(如果更改造成无法预料的坏结果 , 那么可以选择将其还原为灰色) 。
控制
如果想了解用户对新奇事物的反应(他们是否会因为徽标的更改而点击更多)可以将灰色徽标处理用作对照组 。 但这不是的CEO想要回答的答案 , 她的关注点在于单独的橙色相对于蓝色的因果影响 , 因此 , 考虑到她制定决策的方式 , 对照组应该是显示蓝色徽标的用户 。
深入了解技术交易中最强大的工具:A/B测试是如何工作的?
本文插图
但是 , 在系统实际向用户显示蓝色徽标之前 , 实验基础架构会翻转虚拟硬币 , 以随机将一些用户重新分配给橙色处理 , 向他们显示橙色 。
深入了解技术交易中最强大的工具:A/B测试是如何工作的?
本文插图
如果随后观察到橙色版本的平均点击率较高 , 则可以说是橙色方案导致了行为上的差异 。 如果统计上的差异高于10% , 那么CEO会很乐意按照她的承诺改成橙色 。 如果没有 , 那么她会选择蓝色 。
为什么是10%?因为这是CEO愿意接受的最小效应量 。 如果决策者关心效应量 , 那么应该将其纳入假设检验中 。 检验“无差异”的零假设是一个明确的陈述 , 即你不会对效果大小有所怀疑 。
深入了解技术交易中最强大的工具:A/B测试是如何工作的?
本文插图
秘密在于随机性
如果不是随机执行此操作 , 例如 , 如果向所有登录用户提供了橙色方案 , 同时向其他所有人(游客)显示蓝色方案 , 那么就不能说是橙色方案导致了区别 。 因为不管使用哪种颜色的徽标 , 也许登录的用户对你们公司的忠诚度更高也更喜欢你们的产品 。 无论以何种颜色显示 , 登录的用户都可能有较高的点击倾向 。
随机化是关键 , 是让你得出因果关系的结论 , 这就是为什么随机性如此重要的原因 。 样本量大(没有大量统计能力的情况下无法进行实验) , 随机选择会创建差异较大的组 。 从统计学上讲 , 两组是彼此可信的克隆体 。
深入了解技术交易中最强大的工具:A/B测试是如何工作的?
本文插图
决策标准越直接 , 样本量越大 , 实验设计就越不需要复杂 。 A/B测试很棒 , 但是更多的高级实验设计使你可以明确控制一些混杂因素(例如2x2设计 , 可以将已登录的用户与未登录的用户分开 , 并在每个组中运行微型A/B测试 , 以让随机性为你处理其余的工作) 。 当你很想知道橙色徽标对登录用户的影响有何不同 , 并且希望将其纳入决策时 , 这个功能特别有用 。 无论哪种方式 , 随机选择都是必须的 。
依靠随机选择 , A/B测试的蓝色和橙色条件下的用户组在所有方面都一直相似(总体而言) , 传统上人们会考虑挑选参与者以平衡他们的研究:如性别、种族、年龄、受教育程度、政治观点、宗教信仰等 。


推荐阅读