在线随机对照实验概览

Last updated on 2022-8-15…

本篇从实验类别出发，概述各类别实验的特点与应用场景。

普通AB实验

Causal Inference: What If

SUTVA无干扰假设：

stable unit treatment value assumption：任何个体的潜在结果都不随分配给其他个体的处理水平而变化，而且处理水平对于所有个体都是相同的。

这是潜在结果模型的核心假设。

潜在结果模型：

假设一共有 N 个样本，用 i 来代表第 i 个样本，i = 1,2,…,N。考虑一共有两种策略:处理 (treat) 和对照 (control)。用 Ti 表示样本 i 接受处理与否，处理取 1，对照取 0。记 Yi(1) 表示样本 i 接受处理的潜在结果 (potential outcome)，Yi(0) 表示样本 i 接受对照的潜在结果。

平均处理效果（Average Treatment Effect, ATE）：

ATE估计的无偏性推导略

贝叶斯推断

问题：离线指标使用的是基于固定样本量的T检验。需要实验前确定样本量，依据达到样本量时的指标结果来做决策，T检验控制的第一类错误。如果每天都看实验，出现显著就做决策，会有peeking的问题。平台第一类错误会变高

场景：直播等迭代快的场景，希望上线实验几分钟就能看结果

办法：如果业务不关注第一类错误，使用实时指标能够快的得出结论。实时指标的模型是贝叶斯推断，停止条件是优于对照组的概率和选择某个组的期望损失，这两个参数在peeking时仍然能控制住。不过要注意的是peeking时仍然无法控制第一类错误，如果第一类错误业务无法容忍，还是要使用固定样本量的T-检验

hubble实时看板

反转实验（Interleaving）

Netflix推荐系统模型的快速线上评估方法——Interleaving

问题：能用于实验的流量有限，积累不够一定的power

场景：搜索混排场景

办法：对于一次搜索请求，合并两个策略的排序结果呈现给用户，通过用户的点击喜好来选出好的策略

大大缩短实验周期（所需流量减少，实验power大大提升）

MAB实验

MAB多臂老虎机智能调优的基本原理

问题：当实验策略数过多、业务需要短时间内快速决策时，或者实验策略的好坏会随时间动态变化的情况下希望实验过程中收益最大化

场景：广告/营销素材的组合，以及运营文案等时效性强的场景

办法：根据实验组的短期效果实时地调整组流量，效果好的组分流比例随着时间的推移逐渐变大。当潜在剩余价值（PVR）曲线大小逐渐收敛接近于0时，停止实验。

当无干扰假设不成立

一个人的结果受到其他人是否被处理的影响的现象被称为干扰(interference)，也叫做网络效应 (network effects), 同群效应(peer effects)，溢出效应(spillover effect)

从数学的角度上讲，SUTVA 意味着 E(Yi

T) = E(Yi

Ti)。而干扰意味着这个式子不再成立

当spill-over效应存在的时候，普通的AB实验无法准确地估计出策略的效果

社交网络实验

问题：社会传染(social contagion): 一个人的行为会影响到其他人的行为。如果一个人被分配到处理，那么他的家人，朋友或者认识的人可能也会间接地受到处理的影响。例如，如果一个人周围的人都打了疫苗，那么即使他没有打疫苗，那么他得病的风险也会降低

场景：朋友圈点赞等有分享性质的场景

办法：通过划分cluster、对cluster随机，让网络效应只存在于同一个cluster内，从而得到包含网络效应的预估值

步骤：划分cluster -> 假设cluster之间独立 -> 相同cluster之内的用户命中同一种实验策略

实验的关键在于如何划分 cluster。常见的方法是 graph cluster randomization，即根据一个关系图去划分 cluster

问题：外溢，抢夺(displacement)。例如，提高一个网站内某些广告的曝光率会降低其它同类型广告的曝光率;一个外卖平台上的新策略导致处理组的用户更快地订购外卖，这会导致相同地区的对照组用户可供使用的外卖员减少

场景：直播（主播与观众）、广告（广告主与用户）、电商（商品与消费者）等两种不同类型用户相互影响的场景

办法：通过分流四宫格实验、counteractual interleaving实验和列联表联合采用实验方式，来解决供给方和需求方的溢出效应

switch-back实验

问题：延滞效应(carryover effects)。在 within-subject analysis 中，上一个阶段受到的处理会影响下一个阶段的潜在结果。例如，如果一个人之前收到了促销，再次收到它可能不会有与第一次收到相同的效果

场景：平台商品定价问题等

办法：对于carry-over效应明显的场景，可以尝试switch-back实验，在一定的实验对象上进行实验组策略和对照组策略上的反复切换，从而消除spill-over效应

Synthetic control、Observational study

小程序实验

为小程序开发者提供一些基础的指标、简化实验创建流程、提供自定义纬度分析功能，方便中小企业做实验，快速迭代出有效策略

Previous
行业观察笔记

0 comments

Markdown is supported

Be the first person to leave a comment!

普通AB实验

反转实验（Interleaving）

MAB实验

当无干扰假设不成立

社交网络实验

switch-back实验

小程序实验

Recommend

Java 在Word中合并单元格时删除重复值

Automate API Documentation and TypeScript Types with OpenAPI

Figma Widgets: what are they, and why are they useful? | Prototypr

Andreessen Horowitz to invest in Adam Neumann's new real estate firm

治理不实信息，抖音联合多方共建辟谣平台_业界_科技频道首页_财经网 - CAIJING.COM.CN

一文搞懂│mysql 中的备份恢复、分区分表、主从复制、读写分离

明码标价、公示概率盲盒不再“盲”

Africa's coolest fashion designers will soon have their clothes in a s

幻核周岁哑火腾讯数藏大撤退|幻核|腾讯_新浪科技_新浪网

To Fix Tech, Democracy Needs to Grow Up

About Joyk