12

P值:对抗不确定的世界

 2 years ago
source link: https://www.volcengine.com/docs/6287/73321
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

不确定的世界 #

我们每个人与生俱来地与不确定性共同生活,出门会不会下雨,今天会不会停电......我们有时候享受不确定性带来的新鲜感,有时候又想消除它带来的意外 ——特别是在作出重大决策之前,我们总是想尽量缩小不确定性,少出岔子。

在产品上,每一个细小的改动都可能造成重大的影响。算法的某个参数从0.1变到0.2,页面某个按钮从红色变成绿色,到底会让用户体验变好还是更差?这是大家常常会面临的 产品形态的不确定性 。单纯问这个问题我们无从回答,因此我们需要借助一些工具来 转化量化 这种不确定性。

转化不确定 - 实验与指标 #

把一小部分流量切出来,一半接受新策略,一半维持原策略,针对改动影响的用户体验设计合理的指标,通过观察指标的涨跌,我们就能消除产品形态的不确定性吗?

如此使用小流量进行实验,实验结果一定会有优劣之分,表面上消除了产品形态的不确定性,实则仅仅做了不确定性的搬运工,把 产品的不确定性 转化为了 统计的不确定性

何谓统计不确定?已知瑞士人均收入为中国的十倍(数据来源),那么,随机抽三个瑞士人和三个中国人,能保证样本里这三个瑞士人的平均收入是三个中国人的十倍吗?反而言之,在1%的流量下抽取的样本,组A比组B的平均阅读数高10%,能保证策略A就比策略B在全流量也好10%吗?

很显然,抽样误差带来的不确定性使得我们无法直接依赖小流量试验组之间的对比数值,那我们为什么还要做实验,但是很幸运,不同于无从着手的产品不确定性,对于抽样的不确定性,我们有一套方法来量化这种不确定性到底有多大。换而言之,通过随机试验和指标设计,我们将一个 无法量化的产品不确定性 问题 转化 为了一个 可以量化的统计不确定性 问题。

量化不确定 - 中心极限定理 #

我们可以量化抽样误差的根基在于中心极限定理 的存在,它有很多种表述方式,其中之一告诉我们,如果从一个固定总体(相当于全DAU)里不断的抽样并且计算样本的均值(相当于不断做小流量试验),那么这很多次抽样的样本均值(相当于我们每一次观测到的实验结果)从近似服从一个确定的分布 - 正态分布。这个分布的以总体的期望真值为中心,越靠近真值出现的概率越大,反之越偏离真值出现的概率就越小

image.png

image.png

假设在原策略下全DAU的人均阅读数是10,现在已经有理论支持告诉我们在这一个均值为10的总体中不断地进行抽样,样本的平均阅读数应该满足一个什么样的概率分布,对比这个分布,我要怎样来量化这次实验的效果?

image.png

对比上图,假如我们的新策略并没有产生作用,总体平均阅读的真值是10,直觉上我的抽样均值(小流量实验结果)应该落在图中靠近10的深蓝色区域里,这时我们就没有多大的信心说新策略产生了作用 —— 单凭抽样误差样本均值也极有可能落入这个区间;(为了叙述方便,假设人均阅读的标准差为2)如果我们观察到的新策略人均阅读数在12~14之间,从图中可读单凭抽样的随机性到达这个区间的概率已经显著下降,我们就有了更高的信心说我的新策略确实产生了影响;而当我们观察到的新策略人均阅读数超过了14,上图的分布告诉我们,单凭抽样随机性到达>14这个区间的概率已经只有~2.2%,那么我们的信心就更强了,这意味着如果我们的新策略实际上没有啥用,仅仅有2.2%的机会能在一次实验里观察到大于14的人均阅读指标。

在实际的统计计算中,我们把“假如策略没有用,有多大可能通过抽样误差让你看到你现在观察到的,以及甚至更极端的结果”量化为一个统计指标,即常常提起但并不清楚是啥的 p value 。习惯上,当p_value小于5%时,就是我们常说的实验效果已经“ 统计显著 ”,它意味着你观测到的差异来源于随机抽样误差的概率已经小于5%,反过来说,你的策略大概率(大于95%)是有效的。

在A/B测试上找到它 #

在A/B测试上,我们给出了大多数指标的天级p值。当p值小于0.05时,意味着我们可以以比较大的信心使用小流量样本的观测值做出结论,这时我们也会用对应的颜色区别正向与负向的统计显著,方便大家阅读实验报告。
image.png

更多 #

上面以一种典型的均值指标,通过中心极限定理配合均值检验(student-t检验)的范式对NHST的原理进行了一些直观的解释,那么,有经验的用户可能会问:这种setup是否可以覆盖所有的case?会不会出现这一套方法不适用的情况?

答案是肯定的,这类困难的主要来源是中心极限定理仅仅告诉我们“样本均值”这一统计量的抽样分布,当我们关心的指标不是这种形式,而是样本中位数,95%分位点,乃至于两个均值之商的时候,我们便无法方便地获得抽样分布函数。

火山引擎A/B测试统计引擎已经覆盖到了各种复杂的指标定义,并且一一给出了解决方案,以保证给大家提供科学合理的实验结论。究其精要,各个方法的核心逻辑都是相似的,不同点仅仅在于如何获取抽样分布。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK