ABTest 平台设计 - 如何进行流量分桶

Solrex Shuffling 2019-03-26 22:21:54 累计浏览 2,976 次

本机暂存

标签 Go 微服务流量分桶

内容概览

这篇讲的是ABTest平台设计中一个看似简单却容易踩坑的环节：如何进行用户分桶。作者从很多初创公司常见的错误做法——直接用UserID取模分桶——出发，点明了这种看似随机的方法在长期、交叉实验场景下会导致流量利用率低、实验结果互相干扰以及桶间用户行为产生偏差的三大问题。

为了解决这些痛点，文章引出了业界主流的解决方案：可重叠的分层分桶方法。核心思路是将流量划分为多个逻辑层（如UI层、算法层），在每层内使用不同的随机算法（如Hash(Layer, Tag) % 1000）进行正交分桶。这样，同一份流量可以同时穿过多个实验层而互不干扰，极大提升了实验效率。文章还对比了适用于大公司的“无限分层”探索，指出其对组织管理和数据能力的更高要求。

作者最后提到了Google相关论文作为延伸，并预告下一篇将讨论实验开关与信息传递，为搭建完整的ABTest平台提供了清晰的脉络参考。

在 2018 年，我相信 ABTest 这个名词已经不用过多地解释了。但我发现很多公司，尤其是初创企业，虽然能理解这件事是什么，却不知道这件事该怎么做，以及该怎么做好。

这一系列文章，就是想讲清楚在设计具体的 A/B 测试平台这种基础架构时，要考虑哪些问题，以及有哪些推荐的做法。

今天先谈一谈：

如何进行用户分桶

我们都知道互联网产品的 ABTest 主要是围绕用户进行的实验，从统计意义上观察用户对不同的产品设计、交互体验、业务流程的反馈，从而指导产品的改进方向。

那么很重要的一点就是，怎么圈定哪些用户进行 A 实验，哪些用户进行 B 实验。

一种错误做法

在我工作过的一家公司，他们是这样做的：

“使用用户的 UserID 对 1000 取模分成 1000 个桶，然后选择不同的桶分配给 A 或者 B。”

我问研发人员为什么这么做？他们给的理由是：

“UserID 是自增 ID，跟用户注册顺序有关，有一定的随机性。可以保证用户随机地分到 A 或者 B 中。”

A/B 的流量圈定的一个重要原则就是无偏，不然无法进行对比评估。上面的做法看起来倒也有一定的道理。（还常见的一种做法是，用手机尾号最后一位来进行分桶，优惠多少就看你手机尾号是否运气好了 ^_^ ）

单单考虑孤立实验，这样做也无可厚非。但如果考虑到长期交叉、连续的实验，这样做有很大的问题。

首先，这种设计只能进行单层实验，也就是说一份流量只能通过一个实验。

如果实验人员选择了在任意一个桶中同时进行 X, Y 两个实验的话，那两个实验的结果就会相互干涉，导致最终结果不可信。例如：在尾号为 001 的桶里进行了两个促销活动“降价10%”和“满100减10块”的实验，最终 001 桶的用户订单数比其它桶高，那到底是哪个促销更有效果呢？

其次，这种设计在长期会造成桶间用户行为有偏。

也许刚开始因为其随机性，桶间用户行为差异很小。但第一个实验过后，桶间就开始有了行为差异——这也是 ABTest 的目标。N 个实验过后，桶间行为的差异可能就变得非常大了。

比如你总是在 001 桶的用户上实验幅度较大的促销活动，那么 001 桶的用户留存就会显著高于其它桶。那实验人员为了让实验效果更好看，可能会偷偷地继续选择 001 桶进行实验。

最后，这种设计的实验效率太低。因为一份流量只能通过一个实验，无法对流量进行充分的利用。

那该如何设计用户分桶，才能满足 ABTest 的需求呢？

一种正确方法

目前业界应用最多的，是可重叠分层分桶方法。

具体来说，就是将流量分成可重叠的多个层。因为很多类实验从修改的系统参数到观察的产品指标都是不相关的，完全可以将实验分成互相独立的多个层。例如 UI 层、推荐算法层、广告算法层，或者开屏、首页、购物车、结算页等。

单单分层还不够，在每个层中需要使用不同的随机分桶算法，保证流量在不同层中是正交的。也就是说，一个用户在每个层中应该分到哪个桶里，是独立不相关的。具体来说，在上一层 001 桶的所有用户，理论上应该均匀地随机分布在下一层的 1000 个桶中。

通过可重叠的分层分桶方法，一份流量通过 N 个层可以同时中 N 个实验，而且实验之间相互不干扰，能显著提升流量利用率。

从实操上来说，我们通常采取下面的方法：

首先，确定 Layer，确定请求 Tag。例如从 UserID，DeviceID、CookieID、手机号中选一个，支持匿名流量的，一般会选用 DeviceID 或者 IMSI 等作为请求 Tag。

然后，选一个你喜欢的 Hash 函数，尽量选个使用方便、随机性更强的；

最后，通过 Hash(Layer, Tag) % 1000 确定每层分桶。如果 Hash 函数支持 seed，那么使用 Layer 作为 seed，否则作为 SALT，即将 "Layer+Tag" 作为输入参数。

在完成分桶以后，还可以进行一定的流量筛选。例如来自北京和上海的用户，可以允许分别进行不同的实验。

可重叠分层分桶方法的系统性介绍，可以参见 Google 在 KDD 2010 发表的论文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》，感兴趣的同学可以延伸阅读一下。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

Go Reflect 性能（累计阅读 14,155）
面向“接口”编程和面向“实现”编程（累计阅读 13,910）
15个最好的免费开源电子商务平台（累计阅读 12,541）
好的API设计（累计阅读 12,395）
Twitter/微博客的学习摘要（累计阅读 12,261）
面试题 – 为什么我的朋友圈不见了？（累计阅读 11,953）
Facebook 网站架构（累计阅读 11,112）
Feed架构-我们做错了什么（累计阅读 8,732）
架构师给程序员的一封信（累计阅读 7,986）
Java技术路线（累计阅读 7,725）