0

统计学的编年史-读《女士品茶》

 1 year ago
source link: https://blog.devtang.com/2022/06/08/the-lady-tasting-tea-book-summary/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

book cover

最近读完了《女士品茶-统计学如何变革了科学和生活》。这是一本科普性质的统计学发展编年史,在让大家了解统计学的发展之余,本书也八卦了费希尔,内曼,皮尔迩等统计学家的生活故事。

以下是一些笔记和思考。

一、女士品茶的故事

为了和书名呼应,全书中的开场就讲述了一个女士品茶的八卦故事。故事发生在 20 世纪的英国剑桥,一些大学教员和他们的妻子在喝下午茶,其中一个女士坚持认为:将茶倒进牛奶和将牛奶倒进茶里味道不同。

可想而知,在座的大学教授们觉得可笑至极,因为两种化合物在化学成分上没有任何区别。但是,现场的一位身材矮小的男子严肃地对待了这个事情。

他跑到厨房一顿操作之后,开始了他的实验:男子把第一杯茶递给女士,女士品尝了一分钟,判断这个是牛奶倒在茶里制作出来的。男子记录下来,没有发表任何观点,然后把第二杯茶递给她。最后大家惊讶的发现,女士真的辨别正确了所有的测试。

书中没有对女士如何做到这个做过多展开,迅速切到本书男主角的角度。

故事中的这个男子就是男主角费希尔。费希尔是整个现代统计学的开创者,出版了影响巨大的《研究工作者的统计方法》和《实验设计》。

二、P 值与显著性检验

我们现在做产品的过程,常常伴随着用户研究测试。在用研过程中,我们会做一些假设,然后用显著性检验来看这个假设是否显著。

为了判断假设是否显著,我们引入了 P 值,用以表示推翻这个假设的概率。

那刚刚那个女士品茶的故事举例。如果我们只测试一次,那这个女士其实有 50% 的概率猜对,P 值为 0.5。显然,这个 P 值不够显著。

但是,如果我们连续测试 10 次,女士都猜对了。那么这个时候 P 值只有 0.001。这个时候 P 值已经非常显著了。

三、真实数据很重要

统计数据很多时候会撒谎,所以不能盲信数据,最好的办法还是深入用户,查看原始数据。

这方面的案例很多,书中举了一个犯罪率与刑罚时间的统计案例。

在案例中,人们做了一项研究:对成年男子囚犯获刑时间与重新犯罪的关系进行比较。结果表明:获刑时间较短的囚犯重新犯罪的比例非常高。人们以此为据,认为应该给这类人长期的刑法。

书中的 “坎利夫” 负责审查这项调研。她不满足验算统计表格,而希望和背后的原始数据:即刑犯聊聊。结果她很快发现,几乎所有这些刑犯都是 “可怜又可悲的老人,因为他们没有去处,所以通过犯罪来获得回到监狱的机会”。而研究人员在制作表格时,把他们的多次入狱算作了不同的犯人。

在删除这些数据之后,服刑时间和再犯罪率之间就没有明显关系了。

四、统计工作的复杂性

统计工作其实很复杂,稍微不注意就可能得出误导性的结论。书中介绍了很多这样的坑,也提出了一些解决办法。

4.1 案例一:作物收成研究

费希尔在研究作物收成的时候,发现很难保证每块地都是完全一模一样的样本,某些地可能因为历史用过一些肥料而影响现在的测试,这样实验数据就会被干扰。

费希尔为此引入了随机过程,让农田分割成若干块,每次实验的实验组与对照组均通过随机的办法来决定。

随机使得样本的个体差异被均匀性摊薄,在实验数量到达一定程度后,个体差异就很难只聚集在某一实验组内了。

4.2 案例二:吸烟与肺癌的关系

现代观点大多认为吸烟与肺癌是呈显著的相关性的。但是费希尔却认为研究不够严谨,他提出了这样一种假设:

假如有一种基因 A,携带这个基因的人普遍比不携带这个基因的人更容易喜欢上抽烟;同时,这个基因天然容易患上肺癌。

于是你就能观察到吸烟的人和患肺癌的人相关,但可能背后原因是他们携带这个基因,即使他们不吸烟,这个基因也一样让他们会容易得肺癌。

满足费希尔的挑战:你只能随机选择两组人,一组人强行要求他们吸烟,另外一组强行要求他们不吸烟。以此来排除 “喜爱抽烟基因” 的干扰。但是,从道德和伦理层面上,这种实验根本无法实施。

你看,要在统计上证明因果其实很难很难。

4.3 案例三:癌症药物的有效性测试

书中举了一个癌症药物治疗组与对照组的实验困境。因为病人会对疗效的感受做反应,如果一个对照组病人感受到没效果,就可能放弃当前的治疗,转投别的治疗方案。这样,安慰剂组中留下来的可能都是自身免疫力好而感觉治疗 “起效果” 的人。

最终,测试结果可能是安慰剂的效果甚至比药物效果还好。

但是,从人道和法理上,你又不能强行要求一个癌症患者必须冒着生命危险结束安慰剂治疗。这里面又发展出了更多研究,最终现代医学会追求接受安慰剂这种 “非最佳治疗” 的病人数量最小作为分析测试标准。

4.4 案例四:决策悖论

假如我们接受假设检验和显著性检验的思想。那如果一件事情发生的概率只有万分之一,那我们就应该拒绝这个假设。

但是我们考虑这样一个场景:我们组织一个抽奖活动,活动中有 1 万张彩票,每张彩票中奖概率相同。

所以,1 号彩票中奖概率是 0.0001,我们拒绝了这个假设。

2 号彩票中奖概率是 0.001,我们也拒绝了这个假设。

对于任何一张彩票,我们都会拒绝这个假设。

类似的决策悖论其实很多。

五、小概率的决策

很多时候我们面临小概率,但是我们还是应该满怀期待,为小概率努力。

比如:大家的孩子考上清华北大的概率不到 0.01,但是大家还是会努力培养孩子。

又比如,如果我们遇到一个疾病,存活率只有 0.01,我们还是应该期待奇迹,配合治疗。

面对小概率事件的时候,世界就是同步分裂成多个的平行宇宙,我们都有可能是幸运事件(小概率)发生的那个平行宇宙。

满怀希望,尽人事,听天命。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK