P值：对抗不确定的世界

不确定的世界 #

我们每个人与生俱来地与不确定性共同生活，出门会不会下雨，今天会不会停电......我们有时候享受不确定性带来的新鲜感，有时候又想消除它带来的意外 ——特别是在作出重大决策之前，我们总是想尽量缩小不确定性，少出岔子。

在产品上，每一个细小的改动都可能造成重大的影响。算法的某个参数从0.1变到0.2，页面某个按钮从红色变成绿色，到底会让用户体验变好还是更差？这是大家常常会面临的 产品形态的不确定性 。单纯问这个问题我们无从回答，因此我们需要借助一些工具来转化与量化这种不确定性。

转化不确定 - 实验与指标 #

把一小部分流量切出来，一半接受新策略，一半维持原策略，针对改动影响的用户体验设计合理的指标，通过观察指标的涨跌，我们就能消除产品形态的不确定性吗？

如此使用小流量进行实验，实验结果一定会有优劣之分，表面上消除了产品形态的不确定性，实则仅仅做了不确定性的搬运工，把 产品的不确定性 转化为了 统计的不确定性 。

何谓统计不确定？已知瑞士人均收入为中国的十倍（数据来源），那么，随机抽三个瑞士人和三个中国人，能保证样本里这三个瑞士人的平均收入是三个中国人的十倍吗？反而言之，在1%的流量下抽取的样本，组A比组B的平均阅读数高10%，能保证策略A就比策略B在全流量也好10%吗？

很显然，抽样误差带来的不确定性使得我们无法直接依赖小流量试验组之间的对比数值，那我们为什么还要做实验，但是很幸运，不同于无从着手的产品不确定性，对于抽样的不确定性，我们有一套方法来量化这种不确定性到底有多大。换而言之，通过随机试验和指标设计，我们将一个 无法量化的产品不确定性 问题转化为了一个 可以量化的统计不确定性 问题。

量化不确定 - 中心极限定理 #

我们可以量化抽样误差的根基在于中心极限定理 的存在，它有很多种表述方式，其中之一告诉我们，如果从一个固定总体（相当于全DAU）里不断的抽样并且计算样本的均值（相当于不断做小流量试验），那么这很多次抽样的样本均值（相当于我们每一次观测到的实验结果）从近似服从一个确定的分布 - 正态分布。这个分布的以总体的期望真值为中心，越靠近真值出现的概率越大，反之越偏离真值出现的概率就越小

假设在原策略下全DAU的人均阅读数是10，现在已经有理论支持告诉我们在这一个均值为10的总体中不断地进行抽样，样本的平均阅读数应该满足一个什么样的概率分布，对比这个分布，我要怎样来量化这次实验的效果？

对比上图，假如我们的新策略并没有产生作用，总体平均阅读的真值是10，直觉上我的抽样均值（小流量实验结果）应该落在图中靠近10的深蓝色区域里，这时我们就没有多大的信心说新策略产生了作用 —— 单凭抽样误差样本均值也极有可能落入这个区间；（为了叙述方便，假设人均阅读的标准差为2）如果我们观察到的新策略人均阅读数在12～14之间，从图中可读单凭抽样的随机性到达这个区间的概率已经显著下降，我们就有了更高的信心说我的新策略确实产生了影响；而当我们观察到的新策略人均阅读数超过了14，上图的分布告诉我们，单凭抽样随机性到达>14这个区间的概率已经只有～2.2%，那么我们的信心就更强了，这意味着如果我们的新策略实际上没有啥用，仅仅有2.2%的机会能在一次实验里观察到大于14的人均阅读指标。

在实际的统计计算中，我们把“假如策略没有用，有多大可能通过抽样误差让你看到你现在观察到的，以及甚至更极端的结果”量化为一个统计指标，即常常提起但并不清楚是啥的 p value 。习惯上，当p_value小于5%时，就是我们常说的实验效果已经“ 统计显著 ”，它意味着你观测到的差异来源于随机抽样误差的概率已经小于5%，反过来说，你的策略大概率（大于95%）是有效的。

在A/B测试上找到它 #

在A/B测试上，我们给出了大多数指标的天级p值。当p值小于0.05时，意味着我们可以以比较大的信心使用小流量样本的观测值做出结论，这时我们也会用对应的颜色区别正向与负向的统计显著，方便大家阅读实验报告。

不确定的世界 #

转化不确定 - 实验与指标 #

量化不确定 - 中心极限定理 #

在A/B测试上找到它 #

更多 #

Recommend

乐视大厦要14亿整栋出售？乐视方面回应：尚不确定

乐视网：不确定FF资金与贾跃亭欠款关联，达成三项抵债方案

长生生物“被ST”:停产所有疫苗产品复产时间不确定

区块链：尽管不稳定和不确定，但前景仍然乐观

害怕不确定，我宁愿先主动选择坏结局 | 如何应对不确定焦虑？

史上最贵iPhone创新乏力：黄牛犹豫不确定是否入手

乐视网高层坦言无法改变现状年底是否退市仍不确定

《三寡妇对抗世界》在线观看完整版-高分电影-雷神影院

CIO如何在一个不确定的世界中成为稳定的支柱

为了对抗世界末日，他造出了ChatGPT

About Joyk