有关最近两个深度学习的争论

Original 陈怡然陈老师有话说 2017-12-08 07:40 Posted on

“ 明天飞卡塔尔，所以今晚早早回了酒店，并没有参加NIPS晚上的各种program。坐在餐厅吃饭等牛排的这点时间，敲些有关最近深度学习两个争论的字。”

第一个是NIPS 2017上获得时间检验文章大奖的Ali和LeCun关于深度学习（可解释性）理论研究的争论。起因是Ali在获奖感言上用“炼金术”来比喻深度学习理论解释不足的现状。LeCun对此非常不满意，直言历史上很多有用的发明（比如飞机）均是工程突破先于理论发展。随后Ali做了解释性的回应。然后LeCun一直的盟友Bengio也跳出来表示对LeCun表示支持。

第二个争论是南大周志华老师在朋友圈和微博发表感想说有人讲深度学习的爆发主要是计算能力的提升，他对此表示不同意，认为主要是算法和模型发展的贡献。中科院计算所的包云岗研究员回应说模型发展和计算能力提升是相辅相成的关系。后者的贡献还是应该肯定。之后周老师回复说这些年模型效率提高了大约六万倍，然后包老师说计算能力这些年也提高了大约一万倍以上。

1
——

我仔细读了Ali一开始的获奖感言和他和LeCun的之间的争论，发现他俩说的并不矛盾，甚至都不是一回事：Ali的意思是我们现在对深度学习模型缺乏明确的理论解释，这部分需要加强。否则如果未来有可以解释的理论模型出现，而且能够达到现有深度学习模型的效果，大家肯定会弃深度学习而转投其他模型，就好像之前发生过的一样。“炼金术”只是他为了活跃气氛打得一个比喻。而LeCun的意思是没有明确的解释并不影响深度学习去解决问题，理论发展可以滞后。少有逻辑的人都知道两人说的并不矛盾。

我和几位老师私下里聊了一下，都觉得LeCun的反应有些过激，尤其是他反对的恰好并不（至少并不完全）是Ali的意思。实际上，深度学习现在的几大宗师经常会对深度学习的各种批评甚至是只是不正面（都不能说是负面）的学术看法有这样的激烈反应。这除了他们自己多年前的有关深度学习被打压的负面记忆之外，恐怕更多的还是商业利益驱使：哪个投资者会投资一个未来不确定的技术呢？打个比方，如果我现在告诉你我发明了一种中药，实验效果显著，但机理不明确。现在只能用五行相克来解释，你作为投资者敢不敢投？无论是LeCun领导的Facebook AI Research还是Bengio的Element AI，都亟需向老板或投资者证明这样的担心纯属多余。

我个人也觉得这样的担心纯属多余：虽然现有深度学习的理论发展相比于应用进展缓慢，但仍旧在严格的科学框架里面，和炼金术完全不同（即使是中医，现代的理论解释也逐渐向西医所依赖的生物化学基础靠拢）。换句话说，如果还没解释清楚，是我们的技术发展的阶段限制，并不是路走偏了，或者说在现代科学理论框架下也没有更好的路可走。今年NIPS大会深度学习研究的一个热点就是可解释性。但是我也同意Ali的观点，如果有其他方法可以达到深度学习模型的效果而具有更好的可解释性，那么很多研究人员将会再度弃深度学习而去，尽管现在这样的方法还不存在。

2
——

第二个争论由来也很久了。之前很多文章说到深度学习这波高潮的标志性起点是2006年Hinton那篇Science文章。在这篇文章里Hinton其中第一次明确提到计算能力是其研究能成功的三大条件之一：“provided that computers were fast enough, data sets were big enough,and the initial weights were close enough to a good solution”。2014年IBM TrueNoth芯片的发布会我受邀请在现场，当时刚刚加入斯坦福不到两年的李飞飞在她的邀请报告中明确提到CNN等深度学习模型的架构和1989年被发明时并无显著区别，之所以能广泛应用的主要原因时两个主要条件的变化：大数据的出现和运算力的提升（大约提高了一百万倍）。

现在深度学习领域主要包括三部分的科研人员：第一部分是传统上做深度学习算法的那部分学者。其中很多人经历了深度学习的黑暗时期，对一切对于深度学习研究的批评都高度敏感。这部分学者数量并不多。第二部分是做应用的学者，比如计算机视觉和模式识别。传统上这部分研究所应用的方法其实并不是深度学习，但深度学习出来后对这些方向所研究的问题非常有效，所以大部分学者转向深度学习研究。第三部分是做计算优化和平台的学者，比如模型优化、高性能计算和芯片。这部分研究的热点其实一直都在变，深度学习只是最近的一个热点而已。

我个人觉得计算能力的提高对于深度学习的发展还是有很大贡献的。但这个贡献确实至少在一开始是非常被动的。实际上即使是现在大家都公认GPU对于深度学习的大规模应用起到了非常重要的作用，nVIDIA这些公司在战略层次意识到这一点也是非常晚的事情（大家可以查查nVIDIA的发展重点从游戏转向深度学习是哪年的事情）。反过来说，如果将来有一天深度学习不火了，饱和了，LeCun和Bengio会继续suffer，但做计算平台的这些学者只会换到另一个应用去继续为其做研究，不会和这条船一起沉下去。所以我觉得，作为一个搞计算平台的研究者，深度学习这个credit少分一些，也无所谓，毕竟饼你还是狠狠吃了一口的。

——

顺便说，IEEE把对神经网络的研究经常分类到计算智能（Computational Intelligence），但深度学习领域的很多研究人员并不买账。ACM甚至都没有专门对应的SIG，这个很有意思，回头有机会八卦一下。

--END--

作者 | 陈怡然
介绍 | 杜克大学电子与计算机工程系副教授，杜克进化智能研究中心主任，存储、类脑计算与深度学习专家，IEEE Fellow。

关注本公众号，请识别下图二维码▼

有关最近两个深度学习的争论

有关最近两个深度学习的争论

Recommend

第三方组件安全剖析 – ThoughtWorks洞见

[原]解密Airbnb 自助BI神器：Superset 颠覆 Tableau

Golang网络:核心API实现剖析二)

ELK + Filebeat 搭建日志系统 | Beck's Blog

进入量子纪元——火狐浏览器又变快了，靠得是什么？未来还有哪些方面能提高速度？ - 众...

GitHub - sunshineJi/amaze-vue: 一只基于amazeui封装的vue.js组件库。万水千山总是情...

切线空间(Tangent Space) 的计算与应用 | windsmoon 的游戏相关

分享式商业模型

CNN on TensorFlow - 简书

为什么聊天机器人从业者都很委屈？｜甲子光年

About Joyk