实验的样本比例偏差问题（Sample Ratio Mismatch，SRM）指实验组和对照组样本比例偏离预期，所带来的对实验分析结论的影响。平时大家可能没有特别关注SRM问题，但是它在很多环节都存在。有时它的差别可以忽略不计，有时却能够颠覆实验结论。我们先介绍SRM问题可能带来的影响，接着列举可能产生SRM问题的原因，以及应对方法。

SRM问题的影响

SRM问题的核心，是实验组和对照组的实际比例和理论比例有所偏差，而分析时使用的是理论比例，这个偏差就使分析结果失真，严重时会得到错误结论。比如，我们选取一个人群按照50%/50%的比例设计了实验组和对照组，这时的理论样本比例为1.0/1.0；假设实验下发过程中因为某种原因，部分的对照组也被策略影响（或污染）到了，使得实际的样本比例是1.05/0.95。这会造成什么后果？

如前面实验分析的文章所说，在分析效果时，需要以理论的样本比例为基础，来对比实验组与对照组的指标之差。也就是说，没做实验时，这个指标差应该是0，做了实验它会偏离0，这个偏离值大小就是实验带来的影响。这个例子中，便于理解不妨把实验前各组的指标都设为100（可以不用在意是什么），SRM问题的影响可概括如下表：

表1 SRM对实验结果分析的影响示例

注：有SRM-实验组的实验后指标为105*1.05=110.25；其中1.05是策略的提升效果

如表1所示，这个例子中SRM问题将实验效果夸大了两倍以上，虽然实际工作中，SRM一般不会如例子中这么明显，但依然需要注意。比如，实际样本比例是1.01/0.99，上述例子中实验效果偏差依然可以达到41%；而实际样本比例低至1.001/0.999，实验效果偏差也还有0.2%左右（感兴趣的同学可以自行计算）。判断样本偏差是否显著，可以使用卡方检验；而造成SRM问题的原因很多，也可能遍及实验各主要环节，下一小节将详细介绍。

SRM问题如何产生

SRM问题存在于实验部署、执行、数据采集、实验分析等主要环节，以及实验时的外部干扰。这五个原因，来自一篇SRM论文的概括，我结合实践经验给出如下一些理解，如果大家对全文感兴趣可以进一步细读（文末参考文献）。

1 实验部署

实验部署阶段，涉及到分层、分组的随机算法的性能和稳定性。包含但不限于能否完成理想的正交分层，能否完成大量、实时的随机分组，能否在一段时间后依然保持这种效率。这算是SRM问题产生的主要根源。此外，一些实时服务的Bug，也会导致分组不符合预期，实验平台在有重要迭代或修改后，尤其需要测试是否对分层分组产生影响。

2 实验执行

实验部署完毕，下一步就需要下发策略，而下发策略需要对齐时机。假设客户端需要给用户展示两套UI，这个策略需要同时对实验组和对照组来下发，以避免下发时机不同带来的偏差。如果实验组下发完，再下发对照组，很可能两个时间段网络情况不一致、用户活跃度有差异，引发很多不必要的变量，最终会体现到实际样本比例的偏差上。

即使是同时下发，也需要注意避免引入“不必要的过滤条件”，比如我们经常会遇到的实验场景，A组下发某策略、B组不下发，如果实验具体执行时是A组下发而B组不下发，最后拿A组下发策略的用户来和B组对比，可能引入了一个“过滤条件”。因为A组并非100%能下发成功，如果拿A中下发成功的用户对比整个B组，可能会出错。如果A组下发策略，B组不是不发而是下发“空策略”，那么“下发成功”这一层过滤可以避免掉。

3 数据采集

这里主要关注实验组和对照组的数据上报是否一致、是否准确，数据存取过程是否可靠。这些需要实验平台、策略下发平台、用户端产品联动来检查确认，并且每增加一个需要实验的功能点、资源位，都需要确保数据上报的方式、数据质量是否能满足未来实验分析的要求，即数据可比性。

4 实验分析

分析过程中的SRM问题，类似于前面提到的不满足“可比性”，即分析时因为一些样本偏差被忽视，以理论的样本比例进行分析造成的错误。这里具体会涉及到分析起点问题——即选取那两个人群进行对比，一般需要从样本源头来分析，保证可比性。这个问题比较宽泛，我们后面结合一些具体案例继续讨论。

5 外部干扰

外部干扰通常来自用于实验设计之外的不可控因素。比如AB两套落地页实验，其中一套不小心被用到了其他活动，分析时，实际样本比例就会和理论值有较大的偏差。

SRM问题如何应对

上面提到的造成SRM的可能原因，可以简单的分为两类来处理：哪些是实验平台需要克服，哪些是实验分析需要注意。表2做了简要的梳理。

表2 主要的SRM问题原因及应对方法

SRM问题的产生原因很多，但其最终影响到实验分析结果时，都是通过破坏了实验组和对照组间的“可比性”来实现，和我们之前提到的很多分析错误可谓殊途同归。实验平台设计和实验分析时，需要针对具体问题来找合适的应对方法。

以上是我个人理解，经验和能力所限，难免会一些偏差或错误，还请指出。

这是尾巴

好了，这就是实验三部曲之3的下篇，主要供有一些实验经验、或者对实验感兴趣的同学了解。至此《实验三部曲》暂告段落，但并不能覆盖增长实验中的很多细节，我们后续继续用这种小篇幅的文章来做单点突破。欢迎对用户增长实验感兴趣的你，留言分享你认为实验分析中容易被忽视的坑，一周后我会给点赞最高（截至4月29日18点）的留言主送去一份神秘礼物。

——

题图来自网络

参考文献：

Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners

点击 “阅读原文” 可以找到PDF下载链接

转发是最大的打赏，在看的你最好看~

本文系作者：运营那些事儿授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报