7

COS 访谈第 36 期:邵军老师

 3 years ago
source link: https://cosx.org/2018/05/interview-of-jun-shao/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

COS 访谈第 36 期:邵军老师

关键词:cos 访谈; 重抽样; 缺失数据; Rao-Shao 方法; 生物等价性; 时间分配

编辑:王小宁、范超 审稿:朱雪宁

简介 邵军教授 1987 年 8 月获美国威斯康星 - 麦迪逊分校统计学博士学位,1996 年获美国数理统计学会 Fellow,1999 年获美国统计学会 Fellow,多次获得美国自然科学基金,曾任 JASA、Statistica Sinica 副主编,Journal of Multivariate Analysis 和 Sankhya 联合主编,现任 Journal of Nonparametric Statistics 主编,Journal of System Science and Complexity 联合主编,2017 年联合创立 Statistical Theory and Related Fields 并担任总编辑。曾担任美国威斯康星 - 麦迪逊分校统计系系主任(2005-2009)、泛华统计学会会长(2007),现兼任美国国家统计局高级研究员,并任美国多家制药厂的统计顾问,2009 年入选 “国家千人计划”,现为美国威斯康星 - 麦迪逊分校统计系教授和华东师范大学特聘教授。邵教授的 6 本统计学专著和课本之一的《数理统计》已成为数理统计理论名著,并成为北美和中国多个大学的统计学研究生教材。自 1987 年以来邵教授共发表学术论文 180 余篇,其中 50 余篇为医药统计方面论文,在重抽样技术、变量选择、生物统计和缺失数据的统计处理等方面做了大量的开创性工作。

图1,邵军教授

王小宁:您本科专业是数学,当初报数学是因为对数学感兴趣选的数学么?为什么最后选择了统计学?

邵老师:我是从中学生的时候就比较喜欢数学,所以是当时对数学比较喜欢才报的数学专业。那么为什么后面选的统计,我觉得是老师的关系。当时华东师范大学的数学系里面有搞统计的老师,有搞概率的老师,也有搞函数论的老师。选谁做导师,选哪个方向,是大四的时候要做的一个决定。后来搞统计的老师开了一个讨论班,我就去参加那个讨论班,然后就觉得好像这个东西反正也跟数学差不多,但是我觉得统计比较有用处。函数论那个东西太抽象,所以最后选择了统计。

王小宁:您又是为什么选择来国外读统计呢?

邵老师:当时刚开始的时候实际上是公派出来的。当时数学系有两个名额,整个数学系我们大概有 200 来学生,有两个名额是出国进修或者出去念博士的,数学系只分了两个人,一个名额分给了统计专业,另外一个分给了应用数学专业。我那时候已经考了研究生,有了这个名额后系里的老师就找我谈话,说你如果放弃这个研究生,可以直接出国去念博士。因此当时这个出国名额就到了我的手上,也不是我自己选择的要去国外读书,但是如果我放弃这个机会就只能在国内读研究生了。综合考虑了一下,感觉出国更好一些,因此后来我就选择出国读博士了。

王小宁:在接受泛华统计学会的访谈中您也提到了,当时选择了好几个学校,当时差一点就去了其他学校,您能再分享一下那个过程么?

邵老师:我当时申请了四个学校,那个时候主要是老师建议,然后有些学校实际上比较有名气。比如加州伯克利分校和斯坦福大学都选了,选威斯康星是因为刁锦寰老师和吴建福老师都去过华东师大访问过,所以也知道了威斯康星 - 麦迪逊分校。第四个学校选了我当时的导师魏宗舒老师的母校,他是从爱荷华大学毕业的,他推荐我也选了这个学校的统计系,所以就选了四个。四个学校的申请资料送出去了以后,斯坦福大学因为是私立学校,学费很贵,因为当时是公派的,所以这个后面就不了了之了,因为这个学校如果接收了我,学费也付不起,公派的不可能帮忙交那么多的学费。伯克利没有结果,也就是没拿到录取通知书。最先收到的就是爱荷华大学的录取通知书, 当时就用爱荷华的录取通知书开始办签证,签证还没有送去的时候,因为当时是公派的,教育部把要出去的这些学生一块召集起来,办一个学习班,在最后一天会让大家把表格填好交上去,要统一去办签证了。就在办签证的前一天威斯康星的录取通知书来了,当时已经把爱荷华的交上去了,但是威斯康星的来了,所以我就去问那个老师,我说 “可不可以换?”,那个老师开始说不能换,但是后来大概因为那一段时间有很多人都遇到了这种问题,所以最后他宣布说,只要你们原来单位同意就可以换,但必须在第二天就要定下来。我赶紧在当天晚上就去找我们系负责的茆诗松老师,我和他说了具体情况,茆诗松老师说威斯康星比爱荷华要好的多了,因此他第二天早上很早就跑到学校里面去先取得系里的同意然后和学校进行了沟通。后来就告诉我说:“行了,学校已经批准了。” 我就赶紧去提交资料,所以就差一天功夫,如果说威斯康星的那个再迟个一天来的话,可能大概就不能再换了,可能就会跑去爱荷华大学了。

王小宁:有没有想过,如果真的去了爱荷华大学,可能的学术道路和现在的这条路有什么区别吗?

邵老师:我觉得可能会有区别。因为后面碰到的一些事情都是好像有前面才会有后面,如果去爱荷华的话,假如说我做论文的时候没有做得很好,那大概就没有什么好发展了,也有可能就很快就回国了。

王小宁:您能简单的介绍一下在博士阶段的主要方向和成果么?

邵老师:因为当时在威斯康星的时候,一开始本来是想跟刁锦寰先生学习,那时候他主要的研究方向一个是时间序列,还有一个是贝叶斯统计。当时就觉得这个挺好,但是我来的那一年刁先生去了芝加哥大学任教。所以我修课还是照样修,那个时候去做什么问题呢,时间序列和贝叶斯有其他老师,但我觉得不好,就没有去做相关的研究。后来就跟吴建福老师搞了一些东西,因为他当时给我出了一个问题,他当时对重抽样(Jackknife)很感兴趣,那时已经搞了几年,他已经证明出来一个结果,他说关于这个问题更广泛的结果还没有做出来,所以就把这个问题的一般性情况交给我来证明。那个时候正好暑假,他说你没事情可能弄弄看。后来我就证明出来了,证明出这个问题后好像自然而然的就选这个作为我的研究方向,那后面的研究方向就基本上都是重抽样的 Jackknife 和 Bootstrap 这些方法。当时在 80 年代的时候,那个东西是蛮好的一个课题,因为 79 年的时候,Efron 发表了第一篇关于 Bootstrap 的文章,所以 80 年代正好很多人都研究 Bootstrap,我当时也研究这个问题。

图2,1987年邵老师博士毕业

王小宁:后来您的方向就是跨的领域也比较多,包括重抽样、抽样技术、缺失数据后面又做高维变量选择,您能介绍一下您取得一些成果及其该领域的最新进展么。

邵老师:做重抽样的时候,完成了我的毕业论文,然后写了几篇文章,那些都是有关重抽样的。后来我去了加拿大,在加拿大的渥太华通过吴建福老师的介绍,就认识了 J.N.K. Rao,他是抽样里面的一个大人物,所以当时就觉得好像跟他在一个城市里面,可以跟他做一些差不多的东西。所以实际上抽样不是我的主要研究方向,抽样的研究大多已经很完善了。主要在抽样里面有一些缺失数据,就去做这个缺失数据了。一开始就是跟 J.N.K. Rao 合作做了很多的缺失数据研究 (Rao and Shao 1992,1996,1999;Shao and Rao 1993a,1993b)。在 90 年代的时候,跟他一块写了好几篇文章,其中有一篇 92 年的文章 (Rao and Shao 1992),那篇文章里的方法后来被大家称作 Rao-Shao 方法。

图3,Rao-Shao方法(Rao and Shao 1992)

后来为什么去做变量选择呢,是因为重抽样做到后面就变成了用交叉验证 (Cross-Validation) 来去做变量选择。所以是从那个地方去做了变量选择,发现变量选择自己本身有一大串事情可以做。当时做的变量选择中变量的个数不是太大,不是现在的那种高维度,比如说你从 10 个里面选 2 或 3 个变量这样子的做法,所以当时除了做这个缺失数据之外,对那个变量选择主要开始是从重抽样的角度去研究,后来发现你不用重抽样,其他的方法也可以来做变量选择。高维度的研究是到了 2010 年以后,那个时候才发现原先做的那些变量选择已经跟不上趟了,之前的只能处理很小的维度。

另外以前好像觉得变量选择做到后面,感觉已经做的也差不多了,没什么东西好做了,但是高维度数据的出现又使得变量选择又有很多新的要求。所以在 2010 年以后也开始做维度比较高的变量选择。

王小宁:谈到统计应用方面,您也发了一些关于生物统计的文章,看到您能介绍一下您在这块做的一些工作吗?

邵老师:刚开始的时候是朋友问问题,有一些朋友都是从药厂里面来的,有些问题可能是一锤子买卖,就是说解决了就完事了。但是有几个问题是比较有系列性的,然后也就这个方面就做了一些东西,做着做着也对他们那种东西也产生了兴趣,所以也就做进去了。我现在可以说说做的比较好的几个问题,有一个概念叫生物等价性 (bioequivalence),所谓生物等价的意思就是说名牌药到了一定时候,其他人就开始仿造了,仿造药不需要去做临床实验,只要把仿造药的分析成分和名牌药的成分相当一致,或在一个范围里面就可以,所以叫它生物等价性。美国食品药品监督管理局(FDA) 对具体问题有不同处理方法,所以当时就研究了这个问题,基于这个问题后来写了几篇文章,这是其中一个。比较近期的是基于协变量自适应设计 (covariate-adaptive design), 也就是说在临床试验(Clinical Trial) 中,如果它有两种处理 (treatment),两个处理中如何对人群进行分组呢,完全随机地分,这种处理方式有的时候不太好。所以有人现在搞出来一个跟协变量(covariates) 有关的一种方法,来分两种不同处理方式,比如说年纪大的按年纪大的分,病重的按病重的分,如果完全随机的话,有可能病重的都在一个处理里面,那结果就惨了,所以别人提出了基于协变量自适应设计,但是没人做过任何理论。

这个问题一上来听上去也是比较难的,好像很难做什么理论出来。大概在 08、09 年的时候,有一次我就把那个问题的最初的一个结果搞出来了,是在线性模型里面做了一个结果,当时我觉得这个结果是蛮不错的,告诉人家说你这样子弄了以后,你的分析方法也要改善。他们药厂里面的人,大多数在分人的时候用基于协变量自适应设计方法,在处理实验结果的时候假装根本就没用那个方法,还是采用随机采样那样的处理方法来处理数据。FDA 就提出了一个疑问,简单随机采样的显著性水平等于 0.05,而现在使用复杂的抽样设计,显著性水平是不是超过了 0.05?所以一开始就不大愿意告诉别人那种药用了这种新方法,药厂的人等于是在偷偷地用,然后再找 FDA 来批这个药,所以有一个朋友就问我说,你能不能帮忙解决下。因为他们做了很多模拟结果显示这些结果都是比较保守的,本来显著性水平是 0.05,但是实际上变成 0.02 了。如果是这样子对的话,那么照道理 FDA 应该可以通过了,因为你把第一类错误(Type one error)压低了,这个是更保守,所以如果你说这个药有用应该是可以的,对吧?但是没有人去证明这么一个结果,模拟做出来都是对的。模拟做出来主要两个结果,一个结果是保守的,另外一个结果你把设计时使用的协变量统统放到模型里面去,它就对了,正好就是 0.05。如果你不放在里面,它就是保守的,这两个结果大家都知道,但是都是从模拟得到的。我第一篇文章 (Shao, Yu and Zhong, 2010) 是 2010 年发的,之前的文章全是模拟结果,所以当时就有人跟我提这个问题,我说也不一定能做出来,但是后来慢慢就做出来,所以我们发了这篇文章。我觉得这个还是挺有用的,这个是第一篇有理论上的结果,证明了这两件事情。

我这个东西做出来是线性模型,实际上最有用的是在生存分析里面,如果不是做生存分析,人家也不大用这个东西。但是线性模型做出来了,生存分析这块我就一直没有去弄出来,因为做这块要去把生存分析好好地搞清,正好我有一个学生 Ye Ting,这个学生本身学了生存分析的知识,所以交由她来弄了。我觉得这个不错,因为你如果说没有把生存分析解决,这个问题不算是最后解决了。当然一开始也碰到一些问题,因为这个问题是非线性的,非线性有的时候就麻烦,线性的很简单,你弄出来一减一加就出来了,但是非线性的好像还不知道从何处着手。这个学生还不错,最终做出来了。所以我觉得生存分析里面还是有很多问题,这些问题被解决的话,我觉得这个是一个蛮好的情况。

王小宁:您之前写了一本书《数理统计》(Mathematical Statistics),国内现在也有影印版,在国内外很多高校的统计专业也把这本书当做研究生的教材。您对学习这本书有什么建议?

邵老师:如果是博士生,我建议可以用这本书。如果是硕士生,这本书可能要求太高了一点。对于博士生,因为有些东西总归要学,从不同的书里面大家都可以学。我上课基本上就是那个样子,所以这本书是按照我们上课的东西写出来的,因此比较适合学生上课用。因为我本来是中国人,虽然那本书是英文写的,但我觉得中国学生读我的书比较容易读懂,因为我们可能至少有些思维是一样的,你要看美国人写的书,当然有些人还是写的可以,但是有些人的书里面都是话,没有公式,或很少用公式来表达。

用话来表达就对语言要求比较高,我是如果能有公式表达,尽量用公式表达,当然也要有话,你不能干巴巴的。不管怎么样,我总归还是比有些人写书要比较公式化多一点,所以这个书可能比较适合中国学生读。一方面是语言,另外一方面我的解释都是用公式什么的,也可能因为中国学生整个的数学基础都比较好,来读统计博士的数学基础是更高,那些人读我那本书没问题,相反如果去读一些不给公式的话,那要靠你自己去想象,他们可能读起来比较难。因为现在读统计的有很多是中国学生,对我的书反映也比较好。

王小宁:您除了做研究之外,还担任几本杂志的主编或者是副主编,您是如何分配学术、工作和生活的时间?

邵老师:我一直觉得对我来讲好像很自然,这个事情好像没有什么。有的时候一些学生总是说他们抽不出时间来,我都觉得不以为然。对我来说,一开始工作的时候我主要要解决的问题就是怎么摆平做研究和上课的时间分配。因为我是从助理教授(Assistant professor)做起,上课也挺重要的,但是我发现如果上课的那个内容不是我很熟悉、很喜欢的,也就是不是我做研究的那些内容,我上课大概上的不大好,课堂可能就比较干巴巴的。如果说这个课程正好是我很熟悉的,也就是我正研究的领域,那么我可能这个课就上得比较好,我讲的东西可能也比较活。这种课大多是研究生的课,本来就很少。所以我把上课的时间控制在最小,也就是研究时间保持最大!上课时间控制最小,是因为我觉得如果哪怕每天再增加几个小时,大概也不会有什么好的结果,但是我如果把那几个小时放在我的研究上面,我这个研究可能就会好一点,也就是说我走我自己的强项,我的强项多花点时间,我的研究成果就比较多。

教书这件事,我再花时间在这上面也不会再好到哪里去,可能稍稍再好一点,但是这个好的就没多少了,所以我就干脆只要能够过得去就行了。这个是一开始(工作)是这种情形,没有孩子的时候,好像一天除了工作,其他顶多就看看电影什么的。有了孩子以后家里面的事情就开始多了,包括后来孩子上学什么的,你总有些事情要做,时间的安排我觉得不是卡得很死的,有的时候这个地方多花点时间,那么别的地方就少花点时间,都看你自己的安排。所以有了家庭,有了孩子以后,这些事情肯定是对研究是有些影响的,但是好在我觉得影响不大。

从 97 年以后,系里面要我当开始当副系主任,在那之前基本上系里面事情,除了上课外我是百事不管,顶多有一些比如考试要出个题啊什么的,这种事情当然会管。但是系里面的事情我是不大过问的,后来从 97 年以后当了副系主任,除了我自己的研究、上课、家里面的事,还加上了系里面的一些事,比如说副系主任要安排课程,还要安排助教,还有一些乱七八糟的事情,我也没有觉得那些事情真的好像妨碍了我的研究,我觉得还是总归能够处理的。因为有些事情后来想想你不能总叫别人去做,我自己也要做一点嘛,包括现在也是,我们现在在搞 “3+2 计划”, 这个本来好像跟我也不一定有什么关系,但是既然觉得这是件好事情就应该做完。做了肯定也花掉一些时间,这些东西我觉得总归是会有些影响研究,但是我觉得影响不是那么大。

所以再说回来了,对于有的学生,我说你这个学期里面怎么什么东西都没做,他说主要去找工作了。找工作时其他东西都放下了,我就觉得不大可理解。找工作无非就是说你要面试了,要准备准备对吧,自己的这个履历要准备准备,然后你要上网去搜一些地方,什么地方会有工作去或写一封信什么的,但是这些东西都干完了,你总不见得脑子一天到晚在想这个工作,我怎么去把它找到,对吧!你总有闲暇的时候,那你就该把你的论文做一做,你没有道理说这个学期我主要是找工作,所以论文就放下了,一点都不做了。但是好像有的学生就是一心不能两用,我是觉得不太理解,我觉得一心是可以两用的,包括我儿子小的时候要我跟他玩,我说好好跟你玩跟你玩,我一边在跟他玩一边实际上在想自己的问题。他跟我打牌,我有的时候牌都出错了,实际上我的思维跑到我的研究上了。我觉得你总归有办法的,只要你觉得应该是可以这样做,所以我没有想到还有学生说我这个学期上课太忙了,根本没时间做研究,能忙到这个样子的程度吗?当然上课会影响你,但是我就觉得你也不至于说这一个学期就上那些课,你就没时间了,研究就该放下了。有时会让学生做模拟,然后我让他把那个证明也弄出来,有的学生就只能弄一样,他说我做模拟就弄不了这个证明。下次我弄证明就不做模拟了,我说这两个事情可以同时做的。模拟可以放到电脑上去跑,在跑程序的时候你就可以开始看证明了。

所以有些事情还是事在人为,我觉得越到后面事情越多。但是到后面也有好处,大多数时候都不是一个人在单干,后面会有越来越多的学生来干,所以我可以让学生去干一些事情,我就可以脱出手来,就没必要什么事情都要我自己去搞,这样子也就过来了。

王小宁:对于统计系的博士生对研究方向的选择,您有什么建议?

邵老师:这个东西实际上是挺难说的,尤其是我们搞统计的,因为首先你要清楚问题的背景,它得有应用的价值。现在已经没有人去研究一个纯理论的统计问题了,包括我这一代好像已经不大有了,我研究的东西也都不是去为了要证明一件什么事情去做研究,而一般来说都是这个方法在某一个地方用,然后人家问我说能不能这样用,或者用了会有一些什么结果,有些什么好处。这个是一个大的方向,其他的呢就很难说了,因为有的时候你如果研究方向搞得比较好,是会有很大的收获。我可以举我自己的例子,为什么当时就会跟 J. N. K. Rao 老师去搞那个缺失数据,在抽样里面的缺失数据,我发现好像那个地方没什么人去做,然后做的东西又不是那么很难很难的。

王小宁:现在这个领域感觉人很多。

邵老师:其实缺失数据领域研究的人一直也不少,但是统计里面好些个有名的人不在这个领域里。所以就有这样一个部分,你不用花好多时间先要去研究人家干了些什么。有的地方你证明了一个问题,可以称为该领域的第一步,那个是最有用的,数学又是最简单的,跟到后面再去就难了。比如说一阶的性质,这个是用的最多的,一阶的收敛性都没有,你这个东西肯定就不对了。做完了以后,如果你是想做理论的人,就会想二阶的收敛速度是多少呢,那东西就难很多了,然后做出来也不一定有人关心。所以一般来说你找一个问题,没人怎么做的,你做了以后就等于是第一手。所以这种问题是比较建议的。

不是每个人都那么幸运,哪有那么多好问题呢,我觉得可能最好的方法就是你要从实际问题中去找出一个问题来,然后把它解了,解了以后可能就觉得你这太简单了,怎么没人做过呢,对吧?这么简单的东西,我做出来连自己不大敢相信这个东西没人做过。但是确实是没人做过,因为没有人有这个要求要去做这件事情。所以非常简单的一个问题都没有人去做,这是因为你不干这个事,你怎么会想到那个事情,对吧?所以这个这些问题是比较建议的,就是说你特别是一开始的时候,你如果是做这种方面的问题,那你的结果就多了。因为很简单,你就挖来去做,你突然发现一个领域里面啥都没做过,连最基本的这个相合性都没有,你从那个地方开始做起,做出来的东西都是你的。等到你那些都做完了,人家要再来做,那东西就麻烦了。 就像缺失数据,一开始完全随机缺失 (MCAR) 当然不是很现实,Rubin 就搞出来一个随机缺失 (MAR),是可忽略的 (ignorable)。那个东西后来就做了很多研究了。有了那个假设,那么你就做了,等到那个东西都做完了,那么下面剩下的是不可忽略的 (nonignorable),这个就比较麻烦了,就需要花很多力气了。所以一开始如果你捕捉到一个问题,那个问题是一个随机缺失的,然后又没人做过, 是一个特别的问题,蛮重要的就是没人做过,那你想想看你就不需要去搞 nonignorable,你就搞那玩意,它而且又是 Missing at Random,所以做出来应该比较容易。所以这个想象不可能是哪天从天上掉下来一个问题正好砸在你的头上,你正好用那个问题。一般来说,我觉得还是要去跟人家搞应用的人,能够结交一些朋友,他有一个问题,你一听这个问题是可以把它上升到统计的一个高度的。这个问题如果你说解决了他很高兴,你自己又可以发表一篇文章,如果这是一个蛮好的研究,那你的收获就大了。所以我想这个就是建议。

王小宁:统计之都之前对王汉生老师的采访中他说您是 too nice!请您谈下,您是怎么选学生和培养学生的?

邵老师:选学生的话,大概也没有很在意的去选,因为我这十多年一直是上研究生的数理统计基础课,通过那门课一般来说我都对每个学生的学业能力很了解了。

上完两个学期,这个学生他什么地方比较强我都比较清楚,一般来说我选的学生都是从那个地方来,其实我自己很少跑去选学生。通常都是那门课结束以后,学生他自己就找我,然后我一看这个学生可以,我觉得在我的范围之内,我就收了。也有个别学生不是学的那么好的,他跑来找我,有的时候我也收了,有的时候我就找些借口没收,这种情况不多。因为学我上的课那些学生也对我比较了解,所以来找我的人那门课修的也比较好才会来找我,好像有个别的那个课没怎么修得很好的人来找我。后来有些我也收了有些没收,这些实际上也没有特意去选。

图4,2017年邵老师和家人学生

培养学生的话,我觉得学生可以初分成两类,一类学生应用的能力很强,但是他对搞理论的东西不大感兴趣。另外一类学生会整理论,可能对应用不太感兴趣。当然也有学生是应用和理论都擅长的,也有学生是两个都差的。我一般来说就是按照学生大概是哪方面比较强,我就给找一个问题,比如说学生本身做研究、推导比较厉害,我就找一个比较细的问题,需要推导的。有的学生可能计算比较厉害,其他的可能不擅长,我也不会去找一个非常麻烦的题目。但不管怎么样,我的学生基本上总要证明一点什么东西,总要有点新的东西,然后发表至少一篇文章,有的学生弄好了以后,从来不再做这个研究了。

所以我觉得学生一般来说还比较自然,就是把问题交给他,学生拿去做。大概有几个情形是比较特殊的,大多数学生拿到问题后就做完了,有时一开始的时候问题还比较小,做着做着这个问题就不小了,所以通常到了做的差不多的时候,学生也就毕业了。如果说没有什么进展,那个时候我可能比学生还急,所以汉生讲我的 too nice 可能就这个。现在有的学生跟我讲,说外面有传闻说你跟着邵老师做,到时候毕不了业的话没关系,邵老师会把你弄毕业,说 too nice 是这方面的意思。有些学生确实有时也给我来了一个问题,比如跟我说找到了一个工作,找工作之前没跟我说,这种学生一般来说都是找的公司的工作,因为找学术界的工作的话,你不可能不让老师知道,你不让老师知道你咋找得到?但是我现在在学校里工作的学生大概也不过就六七个,所以很多学生都是去业界找了工作。我不知道他们去找工作了,然后找我说邵老师我找到了工作,我说什么时候要去?他说三个月以后,意思就是说三个月要毕业了。但是有的学生没问题,因为他那个东西基本上已经做好了。有的学生我觉得就有点问题,因为我觉得你这个论文还没有完全成形,你三个月怎么能毕业,那个时候就是要想办法把他整毕业了,有的时候也只能稍微放低一点要求了。因为我好像觉得学生找到一个工作,你不让他去,要他放弃,好像不是对学生很 nice 的,对吧?

找到工作也不容易,但是至少也要完成自己的这部分东西。所以有的时候我跟学生说,我说你毕不了业,你先去工作,工作了以后你再回来考试,但是最终能够做到这一点的人也很少,后来跑来考试的也就是跟前面考试差不多了,也没有说因为这个过了半年他又做的怎么样了。

图5,邵老师和他的博士毕业生

王小宁:作为一名统计学家您对大数据有什么看法?

邵老师:到目前为止,大数据实际上已经喊了好多年了。这个概念刚出来的时候,好像有一点要把原来整个统计的东西给替换掉了。因为原来我们搞统计的人先是采集数据,有了数据以后再做推断,这是我们统计的精髓。

大数据刚一出来的时候,被描写成所有的数据都在那里,也就是说你的母体实际上是在那里,在大数据的情况之下它都在那里了。所以有人说搞统计的要失业了,因为不需要统计了,可能需要的东西就是把那些东西给弄一弄不就好了,也不用抽样了,所以好像听上去是一个时代的变化了。有没有道理呢?可能也是有,因为以前你没办法记录那些数据,现在都有了,都在那里,随时都有,有些数据根本没有被人用到。但是整了那么多年下来以后,也没有人说要把统计给淘汰掉了,其实我现在发现至少我们还没到那个社会,你说的这种母体全部都有的事情还是很少。可能你可以举一两个例子,说那东西实际上都在那里了。但是很多问题实际上还是没有全的数据。即便是有全的数据,虽然是大数据,但是缺这少那的,实际上你还是要用一些统计的方法或者计算机的方法,或者从一大堆数据里面去捞一些数据出来分析,所以出现了一些机器学习算法。确实由于现在有很多方法都可以把数据弄下来,所以对统计的要求好像就不大一样了,跟以前有些不一样,但是还没有到一个使得我们好像不需要统计了。

当数据很大的时候,就会有一些传统的方法就用不上了。高维数据也是一种大数据的形式,传统的方法可能适合 10 个变量里面去选 3 到 4 个,结果做的很好,现在突然告诉你说有 2000 个变量,样本量只有 300,原来你说 10 个变量 300 个样本量,传统的方法我就把它找出来了, 你现在该怎么做?所以就会有很多新的问题。大数据年代来了,对我们来讲好像有很多新东西。但是也没有到一开始的时候说的那样子,好像大数据一来就不用烦了,好像就不用干活了,大数据都在那里。有的时候即便数据都在那里,但是它里面有很多噪音数据,你要想办法把有用的东西捞出来。我们统计里面有一个充分统计量 (sufficient statistic),虽然现在已经不大有人提这个概念了,但是实际上这么复杂的数据,里面有用的可能就是一部分,需要把它里面有用的总结出来。你要把有用的东西弄出来就是你的成果了,你弄出来以后一看就是这么回事,大数据能直接看的出来是什么东西吗!所以统计里面有很多东西还是有用的。

当然有很多新的东西出来,现在的统计的方法大多数都要大量的计算,计算方法有很多。我觉得好像大数据到了现在也没有一个很系统的方法,对大数据我怎么弄,没有这样的一个系统。大家对一个问题应该去考虑怎么解决,你首先要有相应的数据。我觉得大数据有的时候也搞的挺抽象的,有些人要搞大数据,就成立一个大数据中心,雇了很多研究员,但具体是干啥的呢,目标却不怎么明确。

王小宁:谈谈统计思维和工程思维的区别?

邵老师:我们搞统计的人总归是要想,你有一大堆数据,然后你去里面找出一些结果,你的结果说出来的时候,是一种比较有规律的东西,不是偶然的东西 (noise),就像假设检验一样,你的原假设 $\theta = 0$。你的数据结果是 $\theta \neq 0$,到底因为是偶尔的性质,还是真的有差异。所以我觉得我们搞统计的人去做数据分析,可能会比较注重于怎么来说明我发现的这个东西是有道理的。计算机的或者是工程的人做,一般来说就找到一个现象,然后他一般不去研究这个现象到底是什么,是不是真的。比如说有人就举过这些例子,啤酒跟尿布放在一起可以提高销量,到底这个东西是有规律的还是只是一个偶尔的现象,还不得而知。还有人说欧洲杯足球赛的时候,妇女都去购物了,网购就大大的增加,这个到底是数据拿出来糊弄糊弄人家的,还是真的有那么一回事?这是我们搞统计积极的方面,但我们也有缺点。

有的时候我们太讲究理论了,使得有一些东西我们就放掉。有一次我们在谈论的时候,有人这样子举例子,就像造一辆车,要是一个搞工程的人,他会想办法造出一辆车,使得那辆车马上就能上街跑,那辆车也很漂亮,那他的成果就来了,人家就赚钱了。如果你找个搞统计的人去搞怎么办?那辆车还没造出来,我可能要想这辆车保险系数是多少,这车在路上开的时候它出问题了咋办?把这些东西都研究好了,那个时间已经过掉了,人家不需要你这个车了。所以我们有的时候说为什么同样是搞大数据,一些搞计算机的人做得挺响亮的,而我们统计的人就没什么声音。

搞计算机的人一出成果它就放出来,放出来就有声音了,别人就知道谁谁谁在干啥。至于搞得搞得好不好不知道,谁也不知道。统计的人可能就不敢说出来,因为我自己先在那里担心了,当我听到啤酒跟尿布放在一起到底是不是真的有道理,还是只是一个偶尔的现象,我还在那里纠结,是不是该把这个消息告诉大家的时候,说不定这个事情已经过去了,人家不再需要了。那些人放出这个消息,一下子大家都很积极,即便是错的,可能也有一时的效果。所以好像看上去那些做机器学习的没有统计的人在搞,实际上统计的人也在搞,但有些东西我搞不出来我就不说了。

王小宁:请您介绍一下去年办的杂志《Statistical Theory and Related Fields》。

图6,Statistical Theory and Related Fields 杂志封面

邵老师:因为多年中国本土没有一个英文的统计杂志,所以当时觉得这是第一本英文杂志,我们以前有的都是中文的,或者不是中国本土的,所以从去年开始出了第一期和第二期,现在为了这个事情在奋斗,为了稿源在奋斗。

王小宁:最后一个问题,就是您对我们统计之都有什么寄语吗?

邵老师:我觉得你们这个做法和想法实际上都挺好。我只是好像大概知道有那么一回事,所以说寄语也说不准。我建议你们一定要做点让大家能够知道你们存在的事情,特别是学校里面的这些人,着重做研究不大听外面干的事的,就像我这种类型的。

你想想如果我是业界公司,就比较容易听到你们的声音,但是有些人专心在那地方搞东西,好像不大容易知道,要想一些办法来让这些人也知道你们做的,能够使得这些人觉得有那么一回事,而且觉得跟他们打交道会有益处,因为老实说做研究的人其实都比较忙,所以说有些什么事情跟我没啥关系,我不愿花时间去搞你那玩意。我觉得如果说能够有一些益处,那么这些人可能会比较认真对待,甚至于可能写一些文章,或者还能干些什么事情。

王小宁:谢谢邵老师接受我们统计之都的采访。

参考文献

1.Rao J N K, Shao J. Jackknife Variance Estimation with Survey Data Under Hot Deck Imputation[J]. Biometrika, 1992, 79(4):811-822.

2.Rao J N K, Shao J. On Balanced Half-Sample Variance Estimation in Stratified Random Sampling[J]. Publications of the American Statistical Association, 1996, 91(433):343-348.

3.Rao J N K, Shao J. Modified Balanced Repeated Replication for Complex Survey Data[J]. Biometrika, 1999, 86(2):403-415.

4.Shao J, Rao J N K. Jackknife inference for heteroscedastic linear regression models[J]. Canadian Journal of Statistics, 1993a, 21(4):377-395.

5.Shao J, Rao J N K. Standard Errors for Low Income Proportions Estimated from Stratified Multi-Stage Samples[J]. Sankhyā: The Indian Journal of Statistics, Series B (1960-2002), 1993, 55(3):393-414.

6.Shao J, Xinxin Yu, Zhong B. A theory for testing hypotheses under covariate-adaptive randomization[J]. Biometrika, 2010, 97(2):347-360.

中国人民大学统计学院博士,喜欢跑步,研究兴趣为抽样技术和机器学习。王小宁

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:[email protected]),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都微信二维码。

统计之都微信二维码

← 深入对比数据科学工具箱: SparkR vs Sparklyr 第十一届中国 R 会议(北京)参会报名通知 →

发表 / 查看评论


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK