3

统计学上的创造力

 4 years ago
source link: https://cosx.org/2019/08/creativity-in-statistics/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

统计学上的创造力

Terence Speed

关键词:创造力; 数据分析

译者:李杰桠

本文翻译自 Terence Speed 发表在 IMS 主席专栏上的文章 Creativity in Statistics。本文已获得原作者授权。

Terence Speed

你可能听说过那句老话 : 有的人虽然在做数据分析,但却好像是醉汉抱着路灯一样,是来支撑平衡防止摔倒而不是为了照明。对于其他非统计学家和非应用统计学家而言,他们又是如何知道我们到底是在用数据来 “照明”,而不是“支撑” 自己呢?或者甚至连 “支撑” 都不是呢?

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我认为,不仅别人不知道,而且我们自己也常常刻意保持沉默。

这种沉默一部分是由于我们不愿意承认所做的很多统计分析的主观性。我们经常看到数据后才会决定使用哪些经典频率统计学派的分析方法。但这些方法往往会让数据面目全非。数据变换就是其中一个简单的例子。

这里显示出了一个悖论:那些本可用来展示我们创造力和想象力的东西往往也是数据科学家们力图规避的,比如我们经常会说:“大家可以发现,经过这样的数据变换,最后的分析结果会更好。” 而这,往往会被别人当作我们向数据妥协的例证。

当然啦,在有人做数据变换的时候,我们通常不会声嘶力竭地反对。但当我们使用各种工具做真正的数据分析时,难道会不厌其烦地记录下所有的操作吗?我们会保存所有的列联表、直方图、箱形图、散点图、集群图、主成分分析图和自己设计的那些图表吗?会记录下那些我们设计的数据分层吗?那些年我们所有输入的模型、模型检验的结果、拟合的参数和异常值,又会出现在最后的数据分析报告中吗?(答案往往是不会)数据分析是一个由简单到逐渐深入的过程。开始的时候往往只是进行数据简化、可视化和其他一些探索性分析,但是会慢慢深入。有些情况下,当我们注意到数据中出现一段异常高峰或出现一个错误的斜率时,我们通常会做一些处理。如直接舍弃某部分数据,截断异常数据,做数据变换,或直接放大招修改模型。在另外一些情况下,我们还需要考虑模型中的干扰变量,选择性偏差,数据整合,还有可能的数据缺失等等。但凡有过数据分析经验的人都知道,类似的情况还有很多很多。但我们往往只会尝试很少的一些我们熟悉的方法,快速(甚至可能是无意识的)排除掉其他可能性,来达到我们最终想要的结果。

在某些情况下,以模型预测为例,我们想要尽可能控制预测误差,上面提到的这些基础的处理可能会非常重要。而在其他情况下,却可能没有那么重要。经验丰富的数据分析师也大都知道如何避免过度拟合,例如,通过使用一部分数据训练模型,再用另外的数据做模型检验。数值模拟也是一个经常被用到的方法。

如果我们是一个团队中的数据咨询师或统计学家,我们不太可能会把上述这些准备工作不记录在最终的分析报告中。根据我的经验,事实上我们很少把它们全部记录下来。只有在特殊情况下,我们才会看到书中有相关的讨论,2011 年 Peter Huber 的专著《数据分析》[1] 就是一个很好的例子。在撰写报告时,我们通常只描述最终的分析结果。这不禁让人想起 1963 年 Peter Medawar 的那篇论文《科学界的论文是骗局吗?是的,它错误地展示了科学的思想》[2]。

这些到底重要吗?我有一个印象(在以后的专栏中会有更多的探讨):许多非统计学家(我敢说,即使是数据科学家)都不会在意这些基础的工作,不知道它的重要性,更不了解其中带给人的满足和乐趣。但是,如果我们对别人隐瞒这些工具、技术和思路,回过头来却意识到它们被其他人重新 “发现”,变成了数据科学或大数据的一部分而不是统计学的一部分,我们又能抱怨什么呢?更重要的是,如果我们不讨论这些数据分析处理的知识和经验,又怎么能把它传给后人呢?我们究竟应该做些什么呢?

我们常说要超越 “食谱” 式的数据分析方式,但这通常意味着我们想要传递对理论的理解,而不是鼓励创造性的“烹饪”。让我们开始重视,乃至强调创造力在数据分析和统计入门课程中的重要作用吧!如今,大多数期刊都开始刊登论文的补充性材料,使得我们论文中的技术性细节更加通俗易懂,并且很多人已经这么做了。我们更应该谈论这个创造性的过程,不只是那些创造性的工具和技术,更有它在我们每天的生活中发挥的重要作用。

  1. Peter J. Huber. 2011. Data Analysis: What Can Be Learned From the Past 50 Years. John Wiley & Sons, Inc. https://doi.org/10.1002/9781118018255

  2. Peter Medawar. 1963. Is the scientific paper a fraud? Listener. 70: 377-378. http://blog.thegrandlocus.com/static/misc/is_the_scientific_paper_fraudulent.pdf

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 什么是政府统计 从统计地显著到显著地统计 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK