一、什么是 A/B 实验

A/B 实验源自于生物医学里的双盲测试。在双盲测试中,病人被随机分成两组,在病人不知情的情况下分别给予安慰剂和测试用药进行服用。经过一段时间的观察,实验人员比较这两组病人的病情变化是否具有差异,并以此来判断测试用药是否有效。

互联网公司的 A/B 实验也延用了该概念。

假设目前产品迭代中有A、B两个方案(例如方案A使用红色banner,方案B使用蓝色banner),业务可以通过对两个或多个属性相似的用户群体,分别在测试A方案和B方案带来的效果,收集相关数据,然后基于数据分析,给出最好产品方案并进行上线使用。

二、为什么要进行 A/B 实验

【真实线上反馈】通过 A/B 实验可以明确方案A和方案B在线上带来的效果差异,并从统计学的角度证实该上线方案与效果间的因果关系,同时较为准确与有效的量化上线策略所带来的增量

【小成本、低风险】大型互联网公司,每年每个季度要上线各种优化策略(包含:UI设计、算法优化等等), A/B 实验可以帮助业务在做决策时在小成本和低风险的情况下完成对最优解决方案的判断,并且使其决策的收益最大化

三、适用场景

产品:

产品功能迭代 :头痛产品升级核心功能该采用哪一版本?用小部分流量进行互斥 A/B 测试,让您在不影响用户体验的同时,从多种方案中找到最优解。

用户路径设计 :多种用户路径设计方案,哪个版本转化效果更好?建立 A/B 测试,重点观测转化漏斗指标,计算用户路径转化过程中各个环节的转化率,将转化最好的方案全量发布至线上。

UI&交互优化 :不同的页面布局、界面交互,哪个才是理想的方案?UI&交互大改版,可通过 A/B 测试,通过对比不同方案下点击、转化、留存等指标,找到最佳迭代版本。

运营:

活动页面优化 :对活动落地页的文案、图片、按钮、颜色等进行持续优化,让各要素都最大程度上地提高活动转化和付费留存,帮助运营人员提高整体投入产出比。

页面方案择优 :选择推送文案/落地页,依靠经验下判断不免存在偏颇。开启推送测试,小流量先验,根据分析报告,做出科学选择。

研发:

推荐算法优化 :优化后的算法是否可以提升相应业务的数据指标?可通过 A/B 实验进行小规模验证,避免负向表现带来大范围影响,适用于基于内容、协同过滤和关联规则的各类推荐算法优化。算法包括基于内容的推荐算法(根据用户的历史记录推荐相似内容)、基于协同过滤的推荐算法(根据有相似兴趣用户的行为推荐相关内容)、基于关联规则的推荐算法(根据内容本身的相关性给用户推荐),最终提高用户使用黏性。

灰度发布 :发版前的功能/性能测试盲区,极有可能留下隐性问题,影响用户体验甚至导致用户流失。

四、进行 AB 测试的价值

  • 加快迭代:多组 A/B 实验同时进行,能显著加快产品迭代速度。

  • 优胜劣汰:没有 A/B 实验,平台之前,需求都要排队,一个一个上,很多优秀的点子连排期的机会都没有,而某些比较差的方案却最终被发布到了线上。有了 A/B 实验 平台,所有的方案都需要经过实验验证,最终用数据说话,优秀的方案就会脱颖而出,而不够优秀的方案会不断优化调整,直到达到预期效果为止。

  • 降低成本:AI时代,推荐算法、策略、模型的评测/验证非常复杂。虽然可以通过建立测试集来验证各种算法、模型,但成本昂贵、测试集的效果可能和线上真实效果存在偏差。 A/B 实验的创建维护简单、线上数据真实可靠,成本低而且效果好。

  • 降低风险:小流量实验,不会影响大盘整体的稳定性,有效降低新策略对线上用户的影响,降低系统风险。如果发现实验效果较差,可以立刻下线实验,无需回滚代码。

五、 AB 测试的特征

A/B 实验主要有以3个主要特征:

  • 【实验组和对照组】至少两组相似的用户群体,对比分析策略的影响效果;

  • 【保持随机性】保证进入实验组与对照组的实验单元是相互独立且随机的,来排除实验假设以外的因素的影响;

  • 【足够的样本量】基于统计学的中心极限定理,当样本量足够大时,便可以基于统计学理论验证两个实验方案之间是否具有显著差异,同时证明该实验效果并非随机产生的。