【ICML开杠】机器学习研究的四大危机

新智元报道

来源：ICML 2018

报道：金磊

【新智元导读】近期，来自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt两位研究员为顶会ICML举办的Machine Learning: The Great Debate发表文章，并指出现在机器学习研究中的四大危机：混淆阐述与推测、无法明确得到较好结果的原因、数学公式堆积以及语言误用。

学术界在大家的印象里一般是很严肃的，但近期AI顶会ICML在斯德哥尔摩举办了一个辩论会—Machine Learning: The Great Debates (ML-GD)，专供各家学者、研究人员积极探讨领域内技术的现状、瓶颈及对社会的影响。

有AI小网红之称的Zachary C.Lipton携手斯坦福研究员Jacob Steinhardt发表了参会的论文《Troubling Trends in Machine Learning Scholarship》，并发推文，引发了热烈的讨论。

观点提出背景

机器学习(ML)研究人员正在致力于有关“数据驱动算法”知识的创建和传播。据研究，许多研究人员都渴望实现以下目标：

理论性阐述可学习内容
深入理解经验严谨的实验
构建一个有高预测精度的工作系统

虽然确定哪些知识值得探究是很主观的，但是一旦主题确定，当论文为读者服务时，它对社区最有价值，它能创造基础知识并尽可能清楚地进行阐述。

什么样的论文更适合读者呢？我们可以列出如下特征：这些论文应该

(i)提供直观感受以帮助读者理解，但应明确区别于已证明的强有力结论;

(ii)阐述考量和排除其他假设的实证调查 ;

(iii)明确理论分析与直觉或经验之间的关系 ;

(iv)利用语言帮助读者理解，选择术语以避免误解或未经证实的内容，避免与其他定义冲突，或与其他相关但不同的概念混淆。

机器学习研究中的四大危机

尽管机器学习最近取得了一些进展，但这些“理想”状态往往与现实背离。在这篇文章中，我们将重点放在以下四种模式上，这些模式在ML学术(schoolar-ship)中似乎是最流行的:

1. 无法区分客观阐述和推测。

2. 无法确定得到较好结果的原因，例如，当实际上是因为对超参数微调而获得好效果的时候，却强调不必要修改神经网络结构。

3. 数学公式堆积：使用令人混淆的数学术语而不加以澄清，例如混淆技术与非技术概念。

4. 语言误用，例如，使用带有口语的艺术术语，或者过多的使用既定的技术术语。

虽然这些模式背后的原因是不确定的，但会导致社区的迅速扩张、评阅的人数不足，以及学术和短期成功衡量标准（如文献数量、关注度、创业机会）之间经常出现的不平衡。虽然每种模式都提供了相应的补救措施(但不建议这么做)，我们还将讨论一些关于社区如何应对这些趋势的推测性建议。

有缺陷的学术研究可能会误导大众，并阻碍学术未来的研究。实际上，这些问题有许多是在人工智能的历史(更广泛地说，是在科学研究)中循环出现的。1976年，Drew Mc-Dermott[1]指责人工智能社区放弃了自律，并预言“如果我们不能批判自己，别人就会帮我们解决问题”。

类似的讨论在整个80年代、90年代和2008年都反复出现[2,3,4]。在心理学等其他领域，糟糕的实验标准削弱了人们对该学科权威的信任。当今机器学习的强劲潮流归功于迄今为止大量严谨的研究，包括理论研究[5,6,7]和实证研究[8,9,10]。通过提高清晰明了的科学思维和交流，我们可以维持社区目前所享有的信任和投资。

总结

可能有人会认为这些问题可以通过自律、自我纠正来改善。这个观点虽然是正确的，但是机器学习社区需要反复讨论如何构建合理的学术标准以实现这种自我修正。

文献原文地址：

https://www.dropbox.com/s/ao7c090p8bg1hk3/Lipton%20and%20Steinhardt%20-%20Troubling%20Trends%20in%20Machine%20Learning%20Scholarship.pdf?dl=0

参考文献：

[1]Drew McDermott.Artificial Intelligence meets natural stupidity. ACM SIGART Bulletin,(57):4-9,1976.

[2]Timothy G Armstrong, Alistair Moffat, William Webber, and Justin Zobel. Improvements that don’t add up: ad-hoc retrieval results since 1998. In Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009.

[3]Paul R Cohen and Adele E Howe. How evaluation guides ai research: The message still counts more than the medium. AI magazine , 9(4):35, 1988.

[4]RE Korf. Does deep blue use articial intelligence? ICGA Journal , 20(4):243{245, 1997.

[5]Leon Bottou and Olivier Bousquet. The tradeos of large scale learning. In Advances in neural information processing systems (NIPS) , 2008.

[6]John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research (JMLR) , 12(Jul), 2011.

[7]Yoav Freund and Robert E Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of computer and system sciences , 55(1):119{139, 1997.

[8]James Bergstra and Yoshua Bengio. Random search for hyper-parameter optimization. Journal of Machine Learning Research (JMLR) , 13(Feb), 2012.

[9]Xavier Glorot and Yoshua Bengio. Understanding the diculty of training deep feedforward neural networks. In International conference on articial intelligence and statistics (AISTATS) ,2010.

[10]Kevin Jarrett, Koray Kavukcuoglu, Yann LeCun, et al. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision (ICCV) . IEEE, 2009.

【加入社群】

新智元 AI 技术 + 产业社群招募中，欢迎对 AI 技术 + 产业落地感兴趣的同学，加小助手微信号: aiera2015_3 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位；专业群审核较严，敬请谅解）。

Recommend

【亚马逊人脸识别噩梦】贝索斯将AI武器化遭大规模抗议

华为秘密“达芬奇计划”首曝光！自研AI芯片或重创英伟达

基于意图的网络：是否需要推翻和替换我们的现有网络？

DELL 戴尔 XPS 15.6英寸触控笔记本（i5-7300HQ、8GB、256GB、GTX1050 4GB、4K触控） $...

自己开发的一款吃鸡加速器,麻烦大家帮我测测看看效果怎么样,免费测试的

2018 款 MacBook pro 出来了，讨论一下 32G 内存的必要性

从零开始学习如何部署代码

Physics-Based Background Scroll Effects / Coder's Block

Sebastian McKenzie on Twitter: "npm inc are complicit in this?? https://t.c...

Announcing TypeScript 3.0 RC | TypeScript

About Joyk