金句频出，16位大神在ICML上展开了一场机器学习的Great Debates

AI 科技评论按：机器学习圈子这几天发生了一件有趣的事，一群知名学者在 ICML 2018 上抱着吵架（辩论）的心思坐到一起，结果却没能吵起来。

从「奇怪的趋势」开始

在 ICML 2018 开幕之前，卡耐基梅隆大学的助理教授 Zachary C. Lipton 与斯坦福大学博士 Jacob Steinhardt 共同发表了一篇名为《Troubling Trends in Machine Learning Scholarship》（机器学习学术研究中的奇怪趋势）的文章，叙述了他们在近几年的机器学习学术研究中看到的四项奇怪的趋势：

无法在解释和猜测之间做出明确的区分；
当实证实验中得到了改进时，无法确认改进的真正来源，比如过于强调性能提升来源于神经网络架构的非必须的改动，而实际上性能提升是来源于充分的超参数调试；
数学性：使用了很多数学概念和公式只为了混淆概念或者看起来高大上，而不是真的为了做出明确的表达，比如会混淆技术性和非技术性的概念；
语言词汇的滥用，比如用一些时髦的、内涵口语化的词汇，或者给已有的技术词汇增加额外的含义。

除了对这些趋势的解析和批评之外，两位作者也对正确的论文写作风格、如何正确地评审及发表论文给出了自己的建议。

除了这篇文章在推特被广为转发和讨论，实际上 ICML 2018 也以这篇文章为引子，在最后一天的 workshop 中设置了一场辩论（Machine Learning: The Great Debates），邀请了许多知名机器领域的学者参与辩论。

整场辩论共分为四个话题：机器学习科研的严谨性、机器学习的公平性、机器学习的安全性以及深度学习方法的可能性与限制。16 位学者分为四组，每组针对一个话题进行辩论。辩论中也穿插了小演讲，Zachary Lipton 讲解了一些文章中的重要观点，提醒各位学者对有害的做法保持警惕。

来自 Zachary Lipton，谈论文中滥用的语言

暗示性的词汇：思维向量，意识，先验，好奇心，恐惧，语意。这些词仿佛意味着模型有了类人的认知能力，但实际上差之甚远。某个词汇一旦得到了运用、被认为增加了一些技术性的含义，后来的研究者就不得不选择让它延续下去，又或者换用新的词汇。
技术词汇的滥用：反卷积、演绎、生成式模型、拟合、泛化。这些词已经有了本身的技术含义，但是经常被用来表示相似的、有关联但并不相同的含义，也就造成了持续的困惑。
「旅行箱」词汇：平等性，可解释性，意识。这些词可以带有许多不同的含义，一个词就像一个塞的满满的旅行箱。

来自 Zachary Lipton，对论文作者们的建议：

动机、语言运用、经验成果以及理论本身都要有足够的严谨性

动机：要问「为什么」，而不是满足于「有多好」
语言：内容撰写的目的是能够被理解，包括审稿人、学生以及大众（有可能的话）
经验成果的严谨性：共享代码，保证可重复性；做控制变量研究，分析误差；具体描述算法表现不好的状况
理论：要反复问自己，理论是对的吗、是有关系的吗、是简洁有力的吗？

来自 Zachary Lipton，对审稿人们的建议：

引导着研究走向的诱因是来自于审稿人的，所以审稿人要负起责任来。
你的审稿意见体现了对受过训练的科学素养和明确的沟通能力的看重了吗？
你会更愿意/更不愿意接受一篇论文，当它：
- 包括了不好的结果
- 在算法不能正常工作的数据集/问题上做了尝试
- 包括了一个复杂的（但同时也可能变得难以读懂的）定理

辩论金句

整场辩论内容非常丰富，而且观点的当面沟通也擦出了许多火花，在场听众都表示有耳目一新的感觉。虽然由于条件限制无法全文重现给大家，但雷锋网 AI 科技评论摘录了一些讨论中出现的非常经典、令人深思的句子。

「深度学习」话题 —— 当前以及可预见的深度学习方法有着固有的限制，这也限制了用深度学习方法做出高级机器智能的能力，除非我们有其它的方法作为补充

Gary Marcus，纽约大学心理学教授、曾任 Uber 人工智能实验室的负责人

如果你把输入数据稍微改动了一点点，系统就不能好好工作了，那它是不是真的「学到了」任何东西呢？
如果我们把生物演化也算作学习的话，那任何适应性过程都可以算作是「学习」，然后「学习」这个词的所指就会变得非常宽泛，我们现在的辩论也就没有任何意义了。
如果没有任何概念模型，只是做黑箱优化是不行的。

Thomas G.Dietterich，俄勒冈州立大学退休教授、AAAI 前主席

Gary Marcus 家的女儿大脑里通过演化的方式编码了 200 万年的数据，所以她才能弄清楚椅子是怎么回事。
我们不要再把算法拟人化了。算法的名字应当体现出它们是做什么的、如何做的，而不是对智慧、好奇心、梦境之类的人类概念的模糊的比拟。
所以为什么猫有四条腿？（Gary Marcus 接着说：而且四条腿去掉一条以后它还是能走路。）
对于因果关系，我觉得人们高估了因果关系的重要程度，而且人类自己处理因果关系的能力也不怎么样。所以它才是一个有趣的研究课题。
80% 到 90% 的人类智慧可能都是和社交行为、和感情相关的，但这方面我们很难获得数据。
我们这个 ICMLDebates 要辩论的内容，不应该是讨论如何重新定义我们正在讨论的这些词到底是什么意思。

「平等性」话题 —— 为了围绕平等性问题展开有效的讨论，机器学习社区不应该把平等性简化为一个技术性问题。相反地，这个问题应当越来越多地、越来越明显地引起大范围的机构的改变，也要表明政治因素对于技术本身影响的立场

Rodrigo Ochigame，MIT 博士生，MIT 多媒体实验室人工智能道德与管理小组

科技行业如今对平等性做的事情，就和 1980 年代保险行业对保险精算做的事情一样，它成功地终结了这种社会运动。
平等的算法是不存在的。但平等的决定是存在的。声称要开发平等的算法很简单，这也是企业们常用的政治策略；然后他们就得以回避算法平等性问题带来的深远的社会影响。

「严谨性」话题

Zachary Lipton，CMU 助理教授，《Troubling Trends in Machine Learning Scholarship》一作

科学研究的意义在于有价值的贡献，而不是挣大钱。
新手们可能不了解开放性的问题都有哪些，我们也不要给他们添乱。
我们应当优先关注的是新发现的知识，而不是新发现的网络架构。
我们要尽量避免用「平等性」、「可解释性」这样的「旅行箱」式的词汇 —— 当你打开它去看它的时候，谁知道会冒出来什么。基本上每个人都对这些词有不同的理解，在理解它们之前先要做许许多多的解释和定义。

James Bradbury

数学式的严谨性和口语化的可解释性是这根坐标的两端，它们自己并不是问题本身。
我们需要更多的调查和实验论文来验证我们过去做过的选择是否正确。
口语化的人类概念（比如「好奇心」）对于真正的沟通来说非常重要，因为它们可以和更广泛的社会概念以及人类直觉产生联系。

「安全性」话题 —— 如今的机器学习系统如此脆弱，而这个问题又如此关键，以至于我们不应当允许在真实世界场景中广泛地运用它们

Percy Liang，斯坦福大学助理教授，知名 NLP 领域学者

形式上正规的验证是没有用的，但是尝试做这件事是有用的。
攻击的数学模型往往过于简单，无法代表真实世界可行的、有用的状况。
从「AI in vitro」（试管阶段的 AI）到「AI in vivo」（胚胎阶段的 AI）是有切实的区别的。如果我们不尝试部署 AI 系统，我们也就无法学习。

Aleksander Madry，MIT 副教授， CSAIL 小组成员

（对 Percy Liang 说）我喜欢你的观点，这些观点非常有创造力。我完全不同意它们，但我喜欢它们。
可能我们需要提醒年轻的研究者们注意，论文中的内容「不总是」正确的。

辩论的「观后感」

对于这场辩论，大家也许期待学者们自发地分成正反两方，展开激烈的唇枪舌剑。不过显然参与辩论的各位学者都对领域内现存的问题有清醒的认识，以至于多数问题上参与辩论的四个人都能很快达成一致。参与围观辩论的 AAAI 主席、亚利桑那州立大学教授 Subbarao Kambhampati 发推无不遗憾地表示：

目前为止，ICML Debates 似乎很好地支持了那个「舒服地坐在方桌子的同一面的人很难吵起来」的假说
当人们或多或多少彼此认同的时候，确实很难展开扣人心弦的辩论（也可能是他们都太温和，不同意的时候也不会表现出来）

围观了辩论的 Endgame 数据科学技术总监 Hyrum Anderson 也总结出了一件自己觉得值得深思的事情：攻击者可以用意想不到的方法攻击看起来根本不重要的系统，最终造成巨大的后果，「我们当时只不过是有一个廉价的推荐系统而已，现在 Trump 已经当上总统了」。

在论文中发表新的技术固然有意义，但围绕新技术、新风气，还有太多的东西值得我们仔细思考。AI 科技评论报道。

点击文末阅读原文查看 AI影响因子。

┏(＾0＾)┛欢迎分享，明天见！

从「奇怪的趋势」开始

来自 Zachary Lipton，谈论文中滥用的语言

技术词汇的滥用：反卷积、演绎、生成式模型、拟合、泛化。这些词已经有了本身的技术含义，但是经常被用来表示相似的、有关联但并不相同的含义，也就造成了持续的困惑。

「旅行箱」词汇：平等性，可解释性，意识。这些词可以带有许多不同的含义，一个词就像一个塞的满满的旅行箱。

来自 Zachary Lipton，对论文作者们的建议：

动机、语言运用、经验成果以及理论本身都要有足够的严谨性

动机：要问「为什么」，而不是满足于「有多好」

语言：内容撰写的目的是能够被理解，包括审稿人、学生以及大众（有可能的话）

经验成果的严谨性：共享代码，保证可重复性；做控制变量研究，分析误差；具体描述算法表现不好的状况

理论：要反复问自己，理论是对的吗、是有关系的吗、是简洁有力的吗？

来自 Zachary Lipton，对审稿人们的建议：

引导着研究走向的诱因是来自于审稿人的，所以审稿人要负起责任来。

你的审稿意见体现了对受过训练的科学素养和明确的沟通能力的看重了吗？

你会更愿意/更不愿意接受一篇论文，当它：

- 包括了不好的结果

- 在算法不能正常工作的数据集/问题上做了尝试

- 包括了一个复杂的（但同时也可能变得难以读懂的）定理

辩论金句

辩论的「观后感」

Recommend

This Week in Data With Colin Charles 51: Debates Emerging on the Relicensing of...

Text Mining with the Democratic Debates

Should x < $foo < y read from $foo once or twice? Perl debates

Individuals, institutions, and innovation in the debates of the French Revolutio...

Why These Four Developer Debates Are A Waste Of Time

73张#想开了#金句日历，都是打工人的文案哲学

Intel debates buyout of SiFive to bolster chip technology against Arm (source)

Engaging in Product Debates

SYNC2021硅谷科技大会落幕：金句频出，共议重塑未来

Android vs Apple: HackerNoon Debates

About Joyk