

P值:对抗不确定的世界
source link: https://www.volcengine.com/docs/6287/73321
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

不确定的世界 #
我们每个人与生俱来地与不确定性共同生活,出门会不会下雨,今天会不会停电......我们有时候享受不确定性带来的新鲜感,有时候又想消除它带来的意外 ——特别是在作出重大决策之前,我们总是想尽量缩小不确定性,少出岔子。
在产品上,每一个细小的改动都可能造成重大的影响。算法的某个参数从0.1变到0.2,页面某个按钮从红色变成绿色,到底会让用户体验变好还是更差?这是大家常常会面临的 产品形态的不确定性 。单纯问这个问题我们无从回答,因此我们需要借助一些工具来 转化 与 量化 这种不确定性。
转化不确定 - 实验与指标 #
把一小部分流量切出来,一半接受新策略,一半维持原策略,针对改动影响的用户体验设计合理的指标,通过观察指标的涨跌,我们就能消除产品形态的不确定性吗?
如此使用小流量进行实验,实验结果一定会有优劣之分,表面上消除了产品形态的不确定性,实则仅仅做了不确定性的搬运工,把 产品的不确定性 转化为了 统计的不确定性 。
何谓统计不确定?已知瑞士人均收入为中国的十倍(数据来源),那么,随机抽三个瑞士人和三个中国人,能保证样本里这三个瑞士人的平均收入是三个中国人的十倍吗?反而言之,在1%的流量下抽取的样本,组A比组B的平均阅读数高10%,能保证策略A就比策略B在全流量也好10%吗?
很显然,抽样误差带来的不确定性使得我们无法直接依赖小流量试验组之间的对比数值,那我们为什么还要做实验,但是很幸运,不同于无从着手的产品不确定性,对于抽样的不确定性,我们有一套方法来量化这种不确定性到底有多大。换而言之,通过随机试验和指标设计,我们将一个 无法量化的产品不确定性 问题 转化 为了一个 可以量化的统计不确定性 问题。
量化不确定 - 中心极限定理 #
我们可以量化抽样误差的根基在于中心极限定理 的存在,它有很多种表述方式,其中之一告诉我们,如果从一个固定总体(相当于全DAU)里不断的抽样并且计算样本的均值(相当于不断做小流量试验),那么这很多次抽样的样本均值(相当于我们每一次观测到的实验结果)从近似服从一个确定的分布 - 正态分布。这个分布的以总体的期望真值为中心,越靠近真值出现的概率越大,反之越偏离真值出现的概率就越小
假设在原策略下全DAU的人均阅读数是10,现在已经有理论支持告诉我们在这一个均值为10的总体中不断地进行抽样,样本的平均阅读数应该满足一个什么样的概率分布,对比这个分布,我要怎样来量化这次实验的效果?
对比上图,假如我们的新策略并没有产生作用,总体平均阅读的真值是10,直觉上我的抽样均值(小流量实验结果)应该落在图中靠近10的深蓝色区域里,这时我们就没有多大的信心说新策略产生了作用 —— 单凭抽样误差样本均值也极有可能落入这个区间;(为了叙述方便,假设人均阅读的标准差为2)如果我们观察到的新策略人均阅读数在12~14之间,从图中可读单凭抽样的随机性到达这个区间的概率已经显著下降,我们就有了更高的信心说我的新策略确实产生了影响;而当我们观察到的新策略人均阅读数超过了14,上图的分布告诉我们,单凭抽样随机性到达>14这个区间的概率已经只有~2.2%,那么我们的信心就更强了,这意味着如果我们的新策略实际上没有啥用,仅仅有2.2%的机会能在一次实验里观察到大于14的人均阅读指标。
在实际的统计计算中,我们把“假如策略没有用,有多大可能通过抽样误差让你看到你现在观察到的,以及甚至更极端的结果”量化为一个统计指标,即常常提起但并不清楚是啥的 p value 。习惯上,当p_value小于5%时,就是我们常说的实验效果已经“ 统计显著 ”,它意味着你观测到的差异来源于随机抽样误差的概率已经小于5%,反过来说,你的策略大概率(大于95%)是有效的。
在A/B测试上找到它 #
在A/B测试上,我们给出了大多数指标的天级p值。当p值小于0.05时,意味着我们可以以比较大的信心使用小流量样本的观测值做出结论,这时我们也会用对应的颜色区别正向与负向的统计显著,方便大家阅读实验报告。
更多 #
上面以一种典型的均值指标,通过中心极限定理配合均值检验(student-t检验)的范式对NHST的原理进行了一些直观的解释,那么,有经验的用户可能会问:这种setup是否可以覆盖所有的case?会不会出现这一套方法不适用的情况?
答案是肯定的,这类困难的主要来源是中心极限定理仅仅告诉我们“样本均值”这一统计量的抽样分布,当我们关心的指标不是这种形式,而是样本中位数,95%分位点,乃至于两个均值之商的时候,我们便无法方便地获得抽样分布函数。
火山引擎A/B测试统计引擎已经覆盖到了各种复杂的指标定义,并且一一给出了解决方案,以保证给大家提供科学合理的实验结论。究其精要,各个方法的核心逻辑都是相似的,不同点仅仅在于如何获取抽样分布。
Recommend
-
86
乐视大厦要14亿整栋出售?乐视方面回应:不能确认消息的真实性来源:北京晨报北京晨报讯(记者韩元佳)近日,有多家房产中介公司透露,位于四环边朝阳公园附近的乐视大厦整栋大楼将出售,总面积为2万平方米,售价为14亿元。北京晨报记者联系乐视控股及乐
-
79
贾跃亭创办的美国电动汽车制造商Faraday Future宣布迎来恒大入股后,乐视网(300104)股价迎来一个涨停板,但这未必意味着贾跃亭已经有钱还给乐视...
-
68
澎湃新闻记者林倩7月24日晚间,长生生物发布公告称,公司股票自7月26日开市起被实施其他风险警示,公司股票简称由“长生生物”变更为“ST长生”,公司股票代码仍为“002680”,公司股票交易日涨跌幅限制为5%。长生生物表示,除了百白破联合疫
-
71
这世上没有什么事比轻松赚钱更能诱惑人的,比特币和它支持的区块链技术的出现让一些早期的投机者成为百万富翁。但它也让很多人面临破产,这给加密货币和区块链蒙上了一层阴影。
-
53
-
84
史上最贵iPhone创新乏力黄牛犹豫iPhoneXsMax高配版售价12799元,“双卡双待”被指讨好中国用户;有黄牛称不确定是否入手北京时间9月13日凌晨,苹果发布了三款新品iPhone,价格再创新高。其中,iPhoneXsMax国行版高
-
60
原标题乐视年底是否退市仍不确定记者 张钦上周五刚刚发布了一份前三季度预计亏损近15亿元的公告,紧接着本周一就召开临时股东大会。话题公司乐视网这种少有的安排,使得公司的生存问题成为了昨天这场股东大会上的主要话题。不过按照乐视网高管的
-
3
三寡妇对抗世界剧情简介 2022年上映,由Hyrul Anuar执导,Khatijah Tan,Normah Damanhuri,Raja Azura等主演的《三寡妇对抗世界》在印度...
-
8
CIO如何在一个不确定的世界中成为稳定的支柱 作者:计算机世界 2023-01-10 08:47:44 CIOAge 自 IT 领导者的角色诞生以来,他们一直在应对不确...
-
5
为了对抗世界末日,他造出了ChatGPT 看天下 发表于 2023年03月19日 09:39 51...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK