7

数据科学家的崛起

 2 years ago
source link: https://cosx.org/2012/11/the-rise-of-data-scientists/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
数据科学家的崛起 | 统计之都

美国 2012 总统大选是奥巴马的胜利,但实际上也是统计学家的胜利。奥巴马当选之夜,我看见推特上有一条消息被疯狂转载:

NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES

当然这是一句玩笑话,但 Nate Silver 是谁?他号称 “竞选预测之神谕”:2008 年的总统大选他预测对了最终结果,而且美国 50 州的投票结果他预测对了 49 个;今年的大选他又预测对了,并且是 50 州全对。Silver 是一名统计学家,毕业于芝加哥大学,随后在毕马威会计师事务所 “度过了令自己后悔的四年时间”(不喜欢那里的工作),后来转向预测棒球选手的成绩,再后来转向政治方面的数据分析和预测。总统大选的预测是一件噪声很大的工作,各家有各家的预测和分析,各种突发事件可能会导致某位候选人的支持短期内大幅变动。Silver 的工作就像机器学习中的 “集成学习”(他自己的描述是 “贝叶斯统计”,用自己的先验信息和数据得到后验),集合众多民意调查结果,根据自己的经验判断去平均它们(具体过程我不清楚)。

我想说的不是这个预测本身,而是我所感觉到的统计学家的变化。换个时髦的词,叫数据科学家。他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。不仅如此,大家都会玩编程、做数据可视化。看看 Silver 在纽约时报的博客就有感觉了。

数据科学家正在 “入侵” 一些我们以前不能想象的行业,例如总统竞选。除了 Silver 和其他一大批统计学家做预测之外,奥巴马还有一个数据分析部门,利用各种预测建模和数据挖掘手段来提高奥巴马连任总统的概率;例如这里有他们一则招聘广告,里面提到了 R、MySQL、Python 等工具。我再给自己无耻地打一个广告:今天我在推特上看见这个部门里的一位数据分析师(见下图,左为奥巴马,右为数据分析师)提到了 RStudio 和我的 knitr 包,本码农以后也可以海吹一下牛皮 “曾经间接帮助美国总统赢得大选”……

奥巴马与knitr

如果你搜索一下数据科学家,你会看到各种光鲜的描述(什么炙手可热啦性感啦),很多光鲜的东西都是坑,当然不绝对;我上大学时大家都觉得精算师像神一样,读(人大)统计的很多同学都是奔精算去的,但我觉得精算就是坑(因为我不喜欢它,再神对我也没用)。媒体报道容易流于表面,这没什么奇怪的,数据科学家应该是一类综合人才,他并不应该只是一门技术的好手,例如纯统计。对统计学家来说,贝叶斯谁不会?半夜三点把你叫醒你都能三秒内背出贝叶斯定理,但让你把贝叶斯统计用到总统竞选上,可能就没多少人做得了这事情了(参见施涛老师的考古文)。一方面,你要会收集数据(各种网络数据来源需要恶心的清洗整理),另一方面,你要有靠谱的先验信息(自己的经验也好,舆情分析也好),可是你只有那个贝叶斯公式,就像卖火柴的小女孩手中的火柴。

我并不想跟传统学院派打仗,但我认为统计教育需要轻微改革。我们需要增强数据和编程方面的教育,诸如实变函数和测度论之类的数学课对统计专业来说应该改为选修,这并不是说让学生偷懒,而是学科细化分支的结果:知识在一代一代积累更新,我们不能要求每一代学生都从盘古开天辟地时的知识学起。有志于投身学术研究的可以那样追根溯源皓首穷经,但统计学家在这个数据时代有更丰富的使命。既然现实中的数据都是恶心得要死(各种不整齐、各种求程序包养),何不在学生时代就先恶心一下?信息时代图形的重要性也日益突出,但 Excel 的三维饼图条形图只能让人觉得图形有个毛线用;各种软件输出的静态图形在网络时代只能看不能 “摸”,要鼠标干嘛(去看看前文提到的 Silver 的博客,或者通向白宫的 512 条路,那些才是网络时代该有的统计图形)。

数据科学家的概念在美国提出也就是近两年的事情,在中国发展如何,我们拭目以……

最后来个问答题:你心目中谁像数据科学家?为什么?(对于突出的提名,统计之都将在后期文章中安排个人专访)

中国人民大学统计硕士,爱荷华州立大学统计学博士,R 包 knitr 的主要作者。现为 RStudio 软件工程师,曾负责 Shiny 包相关开发工作,后转入 R Markdown 相关扩展包的开发,包括 bookdownblogdown。对统计计算、可视化、以及各类网页相关技术感兴趣,有志于对技术写作工具做减法工作,坚信人类浪费了太多时间在期刊论文、学位论文、书籍的排版上。平时主要活跃在 Github 上。个人主页在 https://yihui.name,思想偏激,流水账、意识流甚多,小人之心甚重,慎入。谢益辉

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 大话统计:Frequentist or Bayesian 第五届中国 R 语言会议(上海会场)纪要 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK