背景信息

二战期间,美国统计学家亚伯拉罕.沃德接受美国海军的邀请,运用统计知识给出战机应该如何加强防护才能降低被炮火击落概率的建议。沃德教授根据盟军轰炸机遭受攻击后的数据,分析研究后发现:分布在机翼的弹孔最多,分布在发动机的弹孔最少,因此美国海军指挥官认为机翼是最容易被攻击的位置,应该对机翼加强防护,但沃德教授给出的结论是“应该加强对发动机的防护”。

原因和依据就是:

  • 统计样本中不包含因被击中坠毁的飞机。
  • 假设中弹点均匀分布在机身,而安全返回战机中弹数量较多的区域应该是被击中也不易导致坠机的部分。
  • 机翼被多次击中仍可安全返航。
  • 被统计到的发动机弹孔较少并非发动机不宜中弹,而是发动机一旦中弹,则安全返航概率极低。

这就是著名的“幸存者偏差”(survivorship bias),科学分析应该关注不会说话的missing value。类比到AB实验中,有什么启发呢?对预先设置好流量比例的实验组A和B,当观察到的样本量和预设有统计上的显著差异时,这种“不成比例”的、和预期样本量有偏差的样本数据的分析就会是没有意义的。

具体来说,在AB实验中,我们会设定各个实验组别的流量比例,流量按照预设比例进行分配。在实验进行过程中,由于现实情况中的随机混杂因素(如:不是所有的用户都会抵达实验实施页),各实验组的用户数不会恒等于期望的样本数量(注名:命中实验的用户数=实验样本量;期望样本数量=总流量*期望流量比例),但是没有外部其他因素的影响下,随机因素应该是均匀分布在实验组和对照组的。而监控真实流量比例符合预期比例是很重要的,一方面可以及时发现诸如实验上报时的问题,另一方面只有样本量符合预期的实验结果才是真实有效的,所以进行样本均衡性监控是很有必要的。实验平台一般会提供样本均衡性监控能力,以及时发现样本不均问题(SRM,Sample Ratio Mismatch)。  

什么是SRM

SRM全称为sample ratio mismatch,流量比例(sample ratio)是指实验组和对照组之间的流量比值,考虑一种最普遍的情况,实验组流量占比50%,对照组流量占比50%,那么流量比例就等于1。样本不均衡(SRM,simple ratio mismatch)是指观测到的真实流量划分比例不符合预期的流量划分比例。

TAB采用卡方检验(Chi-Squared Test)对实验组的样本量是否均衡进行监控,当计算的P值小于阈值时,判定样本量不均衡,并在“实验信息”处给出样本量不均衡的指标告警提示。

案例

查表可得,在95%的置信度下的值为3.841,4 > 3.841, 所以认为分流不均匀。

会造成SRM问题的不规范行为

实验配置及上报阶段

根据历史数据问题排查经验,该类错误占比达90%以上。

实验配置阶段:实验组、对照组的配置不同,导致SRM问题。

举例:实验组没有配置标签限制,对照组配置标签限制(如:只限定一线城市用户),显然,实验组对照组的样本量并不会满足实验开始时设定的初始比例。   实验上报阶段:实验组、对照组的上报时机不同,导致SRM问题。

举例:对于视频推送策略的实验,实验组要求用户进行3刷后才推送策略,对照组对用户下刷次数没有要求,那么策略的触发时机不一致,显然会导致SRM问题。  

实验分析阶段

实验组、对照组在进行数据统计分析的时候,剔除某些天的数据(一天或多天),只对剔除某几天后的时间段数据进行汇总分析。

原因:

  • 实验平台采用累计计算的方式,样本量也是累计的方式,总样本量分为初始分流样本和每日新增用户样本,初始分流样本是均匀的,每日新增用户数不受实验策略的影响,所以实验期间累计去重用户数是均匀的
  • 但是,当剔除某些天的数据后,实验的累计样本量就发生了变化,当实验策略对用户的留存有正向或负向影响的时候,晚于剔除日期后的新增用户数则会收到实验策略的影响,就会导致样本量不均衡的SRM问题。