2

在线随机对照实验概览

 1 year ago
source link: https://coladrill.github.io/2022/08/14/%E5%9C%A8%E7%BA%BF%E9%9A%8F%E6%9C%BA%E5%AF%B9%E7%85%A7%E5%AE%9E%E9%AA%8C%E6%A6%82%E8%A7%88/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Last updated on 2022-8-15…

本篇从实验类别出发,概述各类别实验的特点与应用场景。

普通AB实验

Causal Inference: What If

SUTVA无干扰假设:

stable unit treatment value assumption:任何个体的潜在结果都不随分配给其他个体的处理水平而变化,而且处理水平对于所有个体都是相同的。

这是潜在结果模型的核心假设。

潜在结果模型:

假设一共有 N 个样本,用 i 来代表第 i 个样本,i = 1,2,…,N。 考虑一共有两种策略:处理 (treat) 和对照 (control)。用 Ti 表示样本 i 接受处理与 否,处理取 1,对照取 0。 记 Yi(1) 表示样本 i 接受处理的潜在结果 (potential outcome),Yi(0) 表示样本 i 接受对照的潜在结果。

1.jpg

平均处理效果(Average Treatment Effect, ATE):

2.jpg

ATE估计的无偏性推导略

贝叶斯推断

问 题:离线指标使用的是基于固定样本量的T检验。需要实验前确定样本量,依据达到样本量时的指标结果来做决策,T检验控制的第一类错误。如果每天都看实验,出现显著就做决策,会有peeking的问题。平台第一类错误会变高

场 景:直播等迭代快的场景,希望上线实验几分钟就能看结果

办 法:如果业务不关注第一类错误,使用实时指标能够快的得出结论。实时指标的模型是贝叶斯推断,停止条件是优于对照组的概率和选择某个组的期望损失,这两个参数在peeking时仍然能控制住。不过要注意的是peeking时仍然无法控制第一类错误,如果第一类错误业务无法容忍,还是要使用固定样本量的T-检验

3.png

hubble实时看板

反转实验(Interleaving)

Netflix推荐系统模型的快速线上评估方法——Interleaving

问 题:能用于实验的流量有限,积累不够一定的power

场 景:搜索混排场景

办 法:对于一次搜索请求,合并两个策略的排序结果呈现给用户,通过用户的点击喜好来选出好的策略

4.png

大大缩短实验周期(所需流量减少,实验power大大提升)

MAB实验

MAB多臂老虎机智能调优的基本原理

问 题:当实验策略数过多、业务需要短时间内快速决策时,或者实验策略的好坏会随时间动态变化的情况下希望实验过程中收益最大化

场 景:广告/营销素材的组合,以及运营文案等时效性强的场景

办 法:根据实验组的短期效果实时地调整组流量,效果好的组分流比例随着时间的推移逐渐变大。当潜在剩余价值(PVR)曲线大小逐渐收敛接近于0时,停止实验。

5.png

当无干扰假设不成立

一个人的结果受到其他人是否被处理的影响的现象被称为干扰(interference),也叫做网络效应 (network effects), 同群效应(peer effects),溢出效应(spillover effect)

从数学的角度上讲,SUTVA 意味着 E(Yi T) = E(Yi Ti)。而干扰意味着这个式子不再成立

当spill-over效应存在的时候,普通的AB实验无法准确地估计出策略的效果

社交网络实验

问 题:社会传染(social contagion): 一个人的行为会影响到其他人的行为。如果一个人被分配到处理,那么他的家人,朋友或者认识的人可能也会间接地受到处理的影响。 例如,如果一个人周围的人都打了疫苗,那么即使他没有打疫苗,那么他得病的风险也会降低

场 景:朋友圈点赞等有分享性质的场景

办 法:通过划分cluster、对cluster随机,让网络效应只存在于同一个cluster内,从而得到包含网络效应的预估值

步 骤:划分cluster -> 假设cluster之间独立 -> 相同cluster之内的用户命中同一种实验策略

实验的关键在于如何划分 cluster。常见的方法是 graph cluster randomization,即根据一个关系图去划分 cluster

6.png

问 题:外溢,抢夺(displacement)。例如,提高一个网站内某些广告的曝光率会降低其它 同类型广告的曝光率;一个外卖平台上的新策略导致处理组的用户更快地订购外卖, 这会导致相同地区的对照组用户可供使用的外卖员减少

场 景:直播(主播与观众)、广告(广告主与用户)、电商(商品与消费者)等两种不同类型用户相互影响的场景

办 法:通过分流四宫格实验、counteractual interleaving实验和列联表联合采用实验方式,来解决供给方和需求方的溢出效应

7.png

switch-back实验

问 题:延滞效应(carryover effects)。在 within-subject analysis 中,上一个阶段受到的处 理会影响下一个阶段的潜在结果。例如,如果一个人之前收到了促销,再次收到它 可能不会有与第一次收到相同的效果

场 景:平台商品定价问题等

办 法:对于carry-over效应明显的场景,可以尝试switch-back实验,在一定的实验对象上进行实验组策略和对照组策略上的反复切换,从而消除spill-over效应

8.png

Synthetic control、Observational study

小程序实验

为小程序开发者提供一些基础的指标、简化实验创建流程、提供自定义纬度分析功能,方便中小企业做实验,快速迭代出有效策略


0 comments

Be the first person to leave a comment!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK