46

思维的误区:有偏采样

 6 years ago
source link: http://mp.weixin.qq.com/s/uCJSHwm8YNxVK31b6lyYoQ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

思维的误区:有偏采样

刘雪峰 刘雪峰的思维空间 2017-07-11 10:51 Posted on

我们在中学开始学习写议论文的时候,就被教会了议论文的写作方法:给出你要论证的论点,然后找出支持该论点的论据并用论据去支持和证明该论点。议论文本来是培养科学的思维的一个重要的手段,然而,现在回头看起来,我们的语文老师或者说整个教育体系似乎更重视论证是否富有文采,排比是否规整而有气势,是否引用了名家名言等等,而忽略了找到的论据是否准确以及整个论证过程是否严密而科学。这种重文采而轻逻辑的训练,使得长大以后的我们在思考问题的时候会不自觉的坠入很多思维陷阱而不自知。今天要说的是人们在收集证据的过程中,最容易犯的一个思维错误:有偏采样(biased sampling)

有偏采样简单的说,就是在收集证据的时候有遗漏。基于有偏采样得到的证据做出的结论就会出现错误。

下面是一些有偏采样的例子。

例子1:飞机的装甲

在第二次世界大战期间,英国几乎每天派遣轰炸机飞越英吉利海峡,许多飞行员在这个冒险行动中不幸牺牲。为了提高飞行员的生存机会,英国工程师决定为飞机加装甲。问题是,该装在什麽地方呢?

海军分析中心的研究人员对从执行任务后返回的飞机造成的损害进行了统计,他们发现,机翼的弹孔最多,而飞行员的座舱和飞机尾部的发动机位置则是被击中最少的部分(见下图)。因此决定在机翼加装一个额外的防护罩。而美国统计学家亚伯拉罕·瓦尔德(Abraham Wald)在研究该问题时,提出了一个恰好相反的解决方案:装甲位置不该是弹孔最密集的机翼,而是未中弹的座舱和尾部发动机的位置。因为做统计的都是被击中但安全返航了的飞机,而机座舱和发动机部分很少发现中弹的原因并不是因为这些部位不会中弹,而是因为它一旦中弹了飞机就很难回来。也就是说,恰恰是那些没有弹孔的部位才是重点需要保护的。

后来事实证明教授的建议是正确的,英国军方还动用了敌后的工作人员收集了部分坠毁在德国境内的飞机残骸,发现果真如沃德所预料,主要集中在座舱与尾部发动机的位置。

海军分析中心的研究人员所犯的错误就是一种典型的有偏采样,统计学家给这种错误取了个名字-幸存者偏差(survivorship bias)。简单地说,就是我们在采样的时候只考虑到了幸存者而没能接触到更重要但无法幸存的样本,因而导致结论出现错误。

例子2:过去的质量比现在的质量好

当今社会质量问题频发,导致了很多人有一个观点:过去的东西,包括家电、设备、乃至房子的质量比现在要好。例如:

  • 你看看过去的东西质量多好!我妈家里买了一个冰箱,用了二十多年,现在好好的,可是现在我家冰箱用几年就出问题。唉,现在的奸商太多了。

  • 现在的开发商偷工减料,质量越来越差!你看很多六七十年代建的楼,到现在一点问题都没有。哪像现在的楼,十年不到就有裂缝。再远一点,过去的像赵州桥、大雁塔、布达拉宫这些上千年的古建筑都能够保存到现在,可是现在有什么建筑能坚持几十年的?

这些乍一听起来似乎很有道理,仔细推敲起来却有问题。就家电的例子,我来模拟一段对话来反驳这些人`现在的家电质量不如之前'的结论:

  • A: 现在的家电质量不如之前了!我妈家里买了一个冰箱,用了二十多年,现在好好的,可是我们家冰箱用几年就老出问题。

  • B:哎,你用你妈家里的一台冰箱,就得出`现在的家电质量不如过去'这个结论,是不是犯了`用个例来代表统计'这个推理错误啊,你妈妈家里的冰箱是不是特例啊?

  • A: 哪里是特例?我特地去我们小区做了一个统计,有很多的家里都有使用了20多年的电器,质量都非常好。

  • B: 是啊,保留下来的都是质量好的。老东西如果质量不好,恐怕早就被扔了吧。你计算过那些质量不好因此被淘汰掉了老家电么?

  •  A: 喔。。。。

A 的推理过程就是典型的有偏采样。在得出`现在的家电质量不如之前'这个结论的过程中,采样的都是质量好的老家电,因为质量不好的老家电早就已经被扔掉了。

房子也是一样,你看到老房子都是质量好的房子,质量不好的房子,早就倒塌或者被拆掉了。同样,中国古代的建筑成千上万,但保留下来的就那么少数几个,凭借少数几个存下来的建筑,不能得出过去的建筑质量比现在高这个结论。

例子3:成功的秘诀

市面上有非常多所谓和成功学相关的电视、电影、书籍和讲座。不知是否受到了金庸小说里`张无忌跳崖后方拿到九阳真经,杨过断臂后才练成黯然销魂掌'的影响, 媒体也特别喜欢报道那些经历磨砺和艰难困苦,最终成就梦想的人。例如某些致富创业节目中的套路经常是这样:

  • 主角最初从别人那里或者通过自己思索有了一个灵感。

  • 自己尝试去做,然后取得了初步成功。

  • 正欣欣向荣之极,突遇天灾人祸或者其他因素,坠入事业谷底。

  • 从绝望中寻找希望,经历各种艰难困苦,终于从逆境中奋而崛起,终成人生赢家!

这些成功者与命运搏斗的例子,看完后让人心潮澎湃,久久不能平静(小学生标准用语)。

进而有人根据这些成功人士的共有特点,总结了一套成功学的理论。总体来说,无外乎是成功的人需要具备的几个素质:例如坚毅的性格、百折不挠的勇气、不怕失败的精神,以及独立思考、勤奋等等。

结尾还不忘有意无意的暗示一句:根据对无数成功人士的经验总结发现,成功可以复制,只要你按照这些去做,你也可以成功!

通过总结成功者的共有特点来得出如何成功,在我眼里犯了一个典型的有偏采样的错误。只采样成功者总结出的成功者的素质,哪怕总结的再准确也没用。你要是不信我说一句:按照这些成功学的逻辑,我现在可以大声宣布,通过我调查世界上的所有成功者,我发现了一个他们一个无一例外的特点:他们每天都在吃饭!

哎,对啊!可是我每天也吃饭,怎么没成功啊?

想要知道`什么样的人的比较容易成功',我们绝对不能只采样成功者,还要采样那些不成功的人。只有这两类人的统计意义上的不同点才对于我们有意义。下图中就说明了这一点。只采样成功的人可以得到成功者的特点(红色圆圈)。我们必须同时也要找到不成功者的特点(蓝色圆圈),并将这两组的他们共有特点剔除(区域B,包括每天吃饭、睡觉、呼吸等)。那些在统计意义上能够区别成功和失败的特征(区域A或者区域C)才对我们有意义。因为我们想要的不是成功者的特点,而是成功者区别于不成功者的特质!

顺便说几句,现在公认的几个能够区别成功人士和失败者的特质有如下几个,它们都是通过同时采样成功人士和不成功人士对比找到的:

  • 良好的家庭教育(从统计意义上说,成功者的家教普遍良好而很多不成功者的家庭教育普遍缺失)

  • 良好的判断力(从统计意义上说,成功者在诸多关键点上判断正确而很多不成功者在关键地方选择错误)

  • 良好的自控力(从统计意义上说,成功者普遍具有较好的自控力而很多失败者自控力较差)

  • 良好的人际关系(从统计意义上说,成功者的人际关系要好于未成功者),以及很重要的,

  • 好运气(成功者赶上了好时代,以及出乎意料的好运气,而很多失败者之所以失败,是运气不好而已)

最后说一句,成功学之所以现在越来越像鸡汤,其中一个原因是它只告诉你应该怎么做,但是没有告诉你一个残酷的现实:你基本上做不到。而对我们普通人来讲最有用的,是那些能够告诉你为什么做不到的文章。这些文章会从你的认知入手,指出你的认知误区,从内而外的帮你提高你的认知从而提高你成功的概率。没错,你现在看的文章就属于这一类!(笑)

例子4:被打脸的民调

2016年11月美国的总统大选的最终结果震惊整个了世界,共和党参选人特朗普挫败了希拉里而当上第58届美国总统。

之所以说这是震惊,是因为自2016年9月中旬以来,有20家包括国家网路,知名报纸和新闻电视的主要机构进行了80多次民意调查,除了洛杉矶时报与USC调查公司合作的一家机构,其他所有机构都认为川普有优势。此外,这次大选投票开始前一天的最后一次大型全国民调中,路透社、华盛顿邮报、NBC新闻网、CBS新闻网、FOX新闻网等机构公布的民调结果都显示希拉里领先特朗普3-6个百分点。知名的政治预测网站FiveThirtyEight因此显示希拉里胜选的几率为81.5%,特朗普仅为18.4%。甚至到了大选投票日早上,《纽约时报》还给予希拉里70%-90%的获胜几率。

然而,这些知名机构的民调,都被现实打脸了。因此美国的主流媒体都在震惊错愕与一脸茫然中,不断重复着同样的问题:为什么民调和我们的预测错得这么离谱?

大选后有很多分析为什么民调会出错的文章,提出了很多观点,例如`后摆效应'(late swing)和`羊群效应'(Herding behaviour)。后摆效应是选民在投票前突然改变主意而支持另外一个候选人,很多人认为因为大选前FBI对希拉里重启邮件门调查而引发了后摆效应。羊群效应是当一个调查机构发现他们的结果和大部分的调查机构的结果不同时,它有可能会调整模型的一些参数,使得其结果和主流趋同而看起来更正常。

这些都可能是民调错误的原因。但在我看来最大的问题,是这些调查机构进行了有偏采样!

例如,第一次总统候选人辩论后,CNN的民调显示大部分的受访者认为希拉里赢得了辩论。该结果被广大媒体广泛转载,一时间希拉里风头无量。然而从CNN的详细数据报告中可以发现,总共521名受访者中有41%的受访者支持民主党(希拉里所在政党),26%的受访者支持共和党(特朗普所在政党)。而2016年选民中,民主党与共和党注册党员的比例为32%比28%。也就是说,CNN将民主党受访者的比例放大了9%,而共和党受访者的比例则被缩小了2%。这就是有偏采样。

为什么会出现这种结果?美国很多主流的媒体采用的电话民调系统是这样的,由计算机随机生成一个电话号码并拨出,接通后再由调查人员询问受访者。这种系统看起来似乎可以近似完全随机的对选民进行采样,但是仔细研究可以发现很多问题。例如,经过统计,60%的最终样本来于正常工作时段所接听的固定电话号码。试问谁会在正常的工作时间,在家里的固定电话上接听一个民意调查访问呢?跟多的是那些没有工作、在家享受政府劳保的贫困线以下人群,以及退休在家的老年人。而这些人,往往在政治立场上更偏向于民主党。

此外,用随机拨打的电话来进行调查的一个问题是愿意接受电话访问的人的比率很低。根据美国著名调研机构皮尤中心的一项报告显示,普通民众的民调配合意愿在2015年仅有7%,即100个随机抽样到的访问人群中只有7个人愿意回答民调机构的民意调查。这个7%本身没问题,但经过统计发现,特朗普的支持者和希拉里的支持者愿意接受采访的比例很可能不一样。因为顾忌道德和社会压力,或者是基于对传统主流媒体的不满和抵制,最终投票给特朗普的支持者人群可能更倾向于拒绝参与民意调查(直接挂断电话),即使接受采访,也不愿意公开自己的立场。这就导致了看似公平的采样,实际上没有反映真实的情况。

民调就是一种采样技术,如果民调出现了采样偏差(有的是无意的错误,而有的则是有意的误导),很可能被最后的结果打脸。

例子5:幸运数字和墨菲定律

很多人都相信幸运数字。例如我自己。我曾经和父母讲过,我的幸运数字和2,5,7相关,因为我的生日是这些幸运数字的组合、我名字的笔画数量之和是27、高三的学号是57号、我的高考成绩也和这三个数字相关,乃至前段时间我考驾照的车号都和这三个数字有直接的关系。怎么会有这么多巧合?这不是冥冥中自有天意?

其实仔细思考一下就会想明白其实没有什么天意,有这么多的巧合其实主要有两个原因:

  1. 我的幸运数字太多了,有3个。在从1到9这9个数字中,我这三个幸运数字已经占了3分之一了,从基本概率上而言,已经不小了。

  2. 更重要的是,几乎所有的人(包括我自己)都有一种选择性遗忘或者选择性记忆的习惯。实际上这么多年,我遇到了无数的数字及其组合,例如出国时间、毕业的日子、结婚的日子、孩子的出生日期等等等等,而这些数字,因为和我的幸运数字没关系,因此我有意或者无意识就遗忘了幸运数字这回事。而一旦这些数字突然出现的时候的时候,我一下子就想到了幸运数字,立刻就记住了这个例子。这样我所能记住的,都是支持我幸运数字的例子,而那些不支持我的幸运数字的例子都被我忘掉了。

因此,幸运数字,实际上是因为有偏采样带来的结果:当支持幸运数字的例子出现时你立刻记住了,而幸运数字之外的数出现时,你却选择性的遗忘了。

还有一个很有意思的现象是墨菲定律:如果一件事情可能会变坏,那么真的会变坏(Anything that can go wrong will go wrong)。例如,你是不是经常发现:

  • 越想找到的资料越找不到,经常是只有你要找的资料找不到而其他没用资料全部被你找出来了。

  • 越是着急要打车就越打不到车:你会发现在你需要车的时候街上所有的计程车不是有客就是根本不搭理你;而当你不需要租车的时候,却发现有很多空车在你周围呼呼的过去。

  • 开车的时候,越是着急赶路,越是一路红灯。

  • 在商城里排队结账、在ATM前排队取钱或者是过海关的时候,自己排队的那一段,永远是行进最慢的。

  • 祈祷今天不要下雨好让你把衣服晾出去,可是偏偏一晾出去就下雨了。

墨菲定律看似很神奇,其实仔细分析一下并没有那么难理解。原因有两个。第一是你开始为一件事担心并祈祷自己好运时,这件事最终不好概率很可能已经超过一半。第二,人会不自主的进行有偏采样:很多情况下,只有当这件事情变坏的时候,你才会立刻想起墨菲定律:怎么这么倒霉啊,喝凉水都塞牙,墨菲定律又起作用啦!而当某件事出现了转机突然变好了,每个人都暗自庆幸,想到的是赶紧去烧香拜佛还愿,哪里会想得起墨菲定律出来?因此当一个人被问起墨菲定律是否准的时候,他脑子里想的起来的就是那些可能变坏并真的变坏的事情而遗忘掉了那些柳暗花明又一村的时刻,因而导致了墨菲定律的流行。

例子6:医生罢工导致死亡率下降?

这是几个月前一个晚上发生在我和我岳父之间的一段对话(A:我岳父,B:我):

  • A:你看看这个微信朋友圈的文章,现在的医生不仅不能治病,而且会把本身能多活几年的人治死。

  • B:啊?怎么会这样?这是特例吧?

  • A:什么少量案例,我身边就有很多这样的人。查出了癌症之后住院化疗,没几个月就去世了,没准不住院不化疗还能多活几年。

  • B:我觉得化疗在总体上,还是能够提高生存率的。因为你听到的这些都是癌症晚期的病例,这本身治愈率都不高。那些早期的癌症病例,也有很多缓解甚至治愈的啊。

  • A:现在的医院还是有问题。你看这篇文章上面还有一个例子,以色列全国医生进行了为期大罢工,结果全国死亡人数下降了50%!所以这篇文章说的对啊,最好的保健就是顺其自然,没事还是少去医院,还能多活几年。

  • B: 这。。。是真的么?我要查一下文献!

我查了一下文献,发现这个例子竟然是真的。该数据出自于医学权威期刊《柳叶刀》,作者是个叫斯莱特,题目就叫`在1983年医生罢工期间的耶路撒冷的死亡率'(Mortality in jerusalem during the 1983 doctor strike)。原作者在文章中的观点和微信朋友圈的类似:大夫罢工期间死亡率下降,这个发现让我们有理由怀疑基础医疗对于降低死亡率到底做出多大贡献。

这是怎么回事?

我仔细查了很多资料,包括知乎、果壳粉碎机后找到了答案。于是有了下面一段对话:

  • B:我查到了,医生罢工而死亡率下降是真的。

  • A:那你就是同意我的观点喽?

  • B:不不不,虽然医生罢工的期间死亡率下降这是事实,但是不能得出`基础医疗反而提升了死亡率'这个结论。

  • A:为什么?

  • B:你想想啊,要动手术的病,本身风险就很大,有很多在病床上就没下来的例子。从这个角度说,动手术确实会在短期内提高病人的死亡率。但是医生不做手术了,虽然短期内不会有人因为做手术死亡,但是长期下来一定会有人因为没有及时治疗而死亡。因为有很多不动手术只能活几个月,但是动了手术就可以长期生存的患者啊。

  • B:所以说,这个数据只考虑了短期死亡率,而没有把长期死亡率考虑进去。很可能长期看来,死于不手术而得病去世的病人会远远多于死在手术台上的病人的数量,因此得出了`基础医疗反而提升了死亡率'是没有依据的。

  • A:哦,这也有道理啊。

所以说,只采样到做手术使得短期的死亡率上升的缺点,而没有做手术使得长期死亡率下降的优点,就会得出`基础医疗反而提升了死亡率'这样荒谬的推论。

例子7:为什么朋友圈的人都比我幸福,以及别人家的孩子

赵传的《我是一只小小鸟》里唱到:每当夜深人静的时候我总是睡不着,我怀疑是不是只有我的明天没有变得更好。这句歌词,唱到了无数人的心里。尤其是看着别人在微信圈里天天出去旅游、晒娃、晒工作升迁、晒创业、晒锻炼身体,怎么就自己好像一事无成的样子。

我一直很反对心灵鸡汤,但是今天终于可以给大家一个科学的心灵鸡汤了:别相信微信朋友圈,因为微信朋友圈是一个典型的有偏采样群!

微信朋友圈之所以能风靡,是因为它满足了人们的一个展示对自己生活的需求。但关键是,人们在朋友圈这样的社交网络上只会展示自己最好的那一面。

大部分人都希望别人来羡慕自己、肯定自己,所以偷偷把现实生活中那些拿不出手的部分或者平实无华的部分偷藏了起来,只露出了最光鲜亮丽的那一面。这是人固有的虚荣心,也是天性使然。

你看到A在朋友圈里晒着塞班岛的旅游照,其实他为了这次旅游吃了两个月的泡面;你看到B和他的老婆秀恩爱,其实她俩前几天刚刚大吵过一架;你看C在朋友圈自拍健身照,事实上这是他这个月唯一一次去健身;你看见D在朋友圈里发了一些非常有深度的思考和见解,实际上可能是他刚刚从别人那里看到的。这种精心挑选之后的展示,使得你从朋友圈看到的样本基本上都是有偏的。而这些人在日常生活中没那么光鲜的一面,或者是哪些从来很少发朋友圈的人的生活是你看不到的。看多了朋友圈,就会让人有一种只有自己的生活没有变得更好的感觉。

怎么破?屏蔽!

还有一个现象,叫做`别人家的孩子'。对于一个孩子而言,总是有这么一个让人痛恨的存在:

  • 你看看人家某某多勤快啊!在家里什么都帮妈妈做。可是你呢?什么都不会做!

  • 你看人家学习多自觉啊!你怎么就知道玩呢?你什么时候也能给我们争口气?像某某一样考个第一名回来?

  • 你看看人家多懂礼貌啊,看看你,见人也不会打招呼。

有没有觉得这些话很熟悉?这些儿时父母对你的唠叨是不是也演变成如今你对自己孩子的训导?这些别人家的孩子永远比你孝顺、比你赚得多、比你成功,别人家的孩子在你父母眼里是完美的,为什么?

对`别人家的孩子'这一现象,绝大多数育儿专家的观点是父母不要拿自己的孩子跟`别人家的孩子'比较,比来比去,只会让孩子觉得自己真不行。如果真的要比,就让孩子自己跟自己比,不断指出孩子今天比昨天、这次比上次的进步,孩子自然就会积极向上、充满自信。

可是有没有人想过这个问题,真的自己的孩子不如那个`别人家的孩子'么? 真的别人家的孩子要处处超过自家的孩子么?

答案是No! 我在这里,想从科学的角度来解释这个现象。因为家长拿`别人家的孩子'和自己的孩子比较时,至少犯了多次有偏采样的错误:

  1. 别人家的孩子真的有这么好么?哪怕是你自己亲眼看见,可不可能别人家的孩子在你或者在外人面前表现的很好,而在家里是另外一个样子呢?如果你仅仅根据自己的观察或者是从别人嘴里的听说的,那么你很可能采样是有偏的。

  2. 只有表现好的孩子才能有更多的机会被你知道;而表现一般的孩子更多的是默默无闻。至于表现差的孩子,即使你知道了,你会把他和你孩子比么?

  3. 有没有发现家长嘴里的`别人家的孩子'每次都会变的:体育好的是小A,孝顺父母的是小B,数学好的是小C,文学好的是小D,听父母话的是小E。这说明,家长实际上是通过有偏采样,把所有知道的周围优秀的孩子的优点全部集中在一起,形成了一个别人家的孩子模版。

  4. 此外,家长还对自己的孩子进行有偏采样,专门拿`别人家的孩子'的优点和自己自己孩子不足之处相比,哪方面不行就比哪样。例如你数学没考好,你妈一定和你比数学第一名的小C和你比;而你一旦不听话了,你妈又找出最听话的小E和你比。这么一进一出,当然自己的孩子就比下去了。

所以说这个`别人家的孩子'之所以处处超过你,实际上就是家长有偏采样得到的结果,这对于自己的孩子是不公平的。

本章中总结的7个例子,只是有偏采样的一些特例。我在后文会谈到给我们更大影响的有偏采样的来源:媒体。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK