ICML 2018大奖出炉：伯克利、MIT获最佳论文，复旦大学榜上有名

2018/06/29 PM 1:19

参与机器之心编辑部

人工智能顶级会议 ICML 2018 即将于 7 月 10 日至 15 日在瑞典首都斯德哥尔摩举行。昨天，大会提前公布了最佳论文获奖名单，在超过 600 篇被接收论文中，来自 MIT 和 UC Berkeley 的研究人员分享了最佳论文的殊荣。值得一提的是，此前攻破 ICLR 2018 大会七篇对抗样本防御方法的研究众望所归地成为了最佳论文。

而复旦大学副教授黄增峰一人署名的论文《Near Optimal Frequent Directions for Sketching Dense and Sparse Matrices》则和 DeepMind、斯坦福大学的两篇论文一同位居「亚军」论文行列。

JVzYrue.png!web

Best Paper Awards

来自 MIT 的 Anish Athalye 与来自 UC Berkely 的 Nicholas Carlini 和 David Wagner 获得了最佳论文。早在今年 2 月份，这项攻破 ICLR 2018 七篇对抗样本防御论文的研究就引起了深度学习社区的热烈讨论。该研究定义了一种被称为「混淆梯度」（obfuscated gradients）的现象。在面对强大的基于优化的攻击之下，它可以实现对对抗样本的鲁棒性防御。这项研究引起了深度学习社区的讨论，GAN 提出者 Ian Goodfellow 也参与其中。机器之心曾对此做过报道。

论文：Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

J7VJveZ.png!web

论文地址：https://arxiv.org/abs/1802.00420

项目地址：https://github.com/anishathalye/obfuscated-gradients

摘要：我们发现了一种「混淆梯度」（obfuscated gradient）现象，它给对抗样本的防御带来虚假的安全感。尽管基于混淆梯度的防御看起来击败了基于优化的攻击，但是我们发现依赖于此的防御并非万无一失。对于我们发现的三种混淆梯度，我们会描述展示这一效果的防御指标，并开发攻击技术来克服它。在案例研究中，我们试验了 ICLR 2018 接收的 8 篇论文，发现混淆梯度是一种常见现象，其中有 7 篇论文依赖于混淆梯度，并被我们的这一新型攻击技术成功攻克。

来自 UC Berkeley EECS 的 Lydia T. Liu、Sarah Dean、Esther Rolf、Max Simchowitz 和 Moritz Hardt 的论文同样也获得了最佳论文奖。由于机器学习系统易受到数据偏见而导致歧视性行为，人们认为有必要在某些应用场景中用公平性准则约束系统的行为，并期待其能保护弱势群体和带来长期收益。该研究探索了静态公平性准则的长期影响，发现结果和人们的期望相去甚远。

论文：Delayed Impact of FairMachine Learning

I3iUvmA.png!web

论文地址：https://arxiv.org/abs/1803.04383

摘要：机器学习的公平性主要在静态分类设置中得到研究，但没有关注这些决策如何随时间改变潜在的群体。传统的观点认为公平性准能提升他们想保护的群体的长期利益。

我们研究了静态公平性标准如何与暂时的利益指标相互作用，例如利益变量的长期提升、停滞和下降。我们证实了即使在一步反馈模型中，常见的公平性准则没有随时间带来改善，并可能实际上给特定案例带来伤害（无约束的目标函数反而不会）。

我们完整地总结了三个标准准则的延迟影响，对照了和这些准则的行为存在质的不同的制度。此外，我们发现一种自然形式的度量误差可以放宽公平性准则能够在其中顺利执行的制度。

我们的结果强调了评估公平性准则的度量和时序建模的重要性，展示了一系列的新挑战和权衡问题。

BAIR 博客此前曾经介绍过这篇论文，参见：前沿 | BAIR 探索机器学习公平准则的长期影响：对弱势群体的善意真的种出了善果？

Best Paper Runner Up Awards

在最佳论文亚军（Runner Up）论文中，复旦大学数据科学学院副教授黄增峰完成的在线流（online streaming）算法获得了这一荣誉，黄增峰为这篇论文的唯一作者。该论文讨论的这种在线流算法可以在只有非常小的协方差误差的情况下，从大型矩阵抽取出最能近似它的小矩阵。

论文：Near Optimal Frequent Directions for Sketching Dense and Sparse Matrices

AfYvimV.png!web

论文地址：http://203.187.160.132:9011/www.cse.ust.hk/c3pr90ntc0td/~huangzf/ICML18.pdf

摘要：给定一个 n×d 维的大型的矩阵 A，我们考虑计算一个 l×d 维的概要矩阵（sketch matrix）B，概要矩阵的维度 l 要显著小于原矩阵 A，但它仍是矩阵 A 优良的近似。我们希望最小化协方差误差：

EbANBrm.png!web

现在我们考虑流模型（streaming model）中的问题，其中的算法只能在有限的工作空间内传输输入一次。而流行的 Frequent Directions 算法（Liberty, 2013）与它的变体实现了最优空间和误差间的权衡。然而运行时间是否能提升还是一个悬而未决的问题。在本论文中，我们几乎可以解决这个问题的时间复杂度。特别是，我们提供了有更快运行时间的新型空间-最优（space-optimal）算法。此外，除非矩阵乘法的当前最优运行时间能显著提升，否则我们算法的运行时间是近似最优的（near-optimal）。

对于大规模矩阵运算，精确的算法通常会非常慢，因此有非常多的研究聚焦于设计一种快速的随机近似算法。为了加速计算，采用小矩阵近似大矩阵的矩阵概要是常用的技术。而在实际应用中，数据通常以流式的形式传输，将整个数据集储存在主内存中通常是不切实际和不可能的。

在本论文中，作者黄增峰研究了在小的协方差下保留概要矩阵的在线流算法。在流模型中，输入矩阵的行秩能一次降低到 1；该算法只允许在有限的工作空间内传输一次，这是持续保留概要矩阵所必须的。

流行的 Frequent Directions 算法在空间占用和近似误差间实现了最优的权衡，该算法目前已经广泛应用于在线学习。然而，我们仍然不太清楚它们的运行时间是否能提升，也许我们只能寄希望于得到线性（稀疏）时间的算法，这在很多矩阵问题上是可能的。本论文主要由以下问题驱动：

是否存在输入稀疏时间的 Frequent Directions 算法，能够实现同等最优的空间-误差权衡？

以下展示了黄增峰提出的主要算法，他的核心思想是在原始 FD 中使用快速逼近的 SVD，产生次优的时间。

EruyIb6.png!web

来自 DeepMind 和牛津大学的研究者也获得了 Best Paper Runner Up Awards。

论文：The Mechanics of n-Player Differentiable Games

作者：David Balduzzi, Sebastien Racaniere, James Martens, Jakob Foerster, Karl Tuyls, Thore Graepel

r2IJbqA.png!web

论文地址：https://arxiv.org/abs/1802.05642

摘要：支撑深度学习的基石是保证目标函数能利用梯度下降收敛到局部极小值。不幸的是，这个保证在某些情况下会失效，例如生成对抗网络，其中有多个交互损失。在博弈中，基于梯度的方法的行为并没有得到很好的理解，随着对抗性和多目标架构的数量激增，这变得越来越重要。在这篇论文中，我们开发了新的技术来理解和控制一般博弈中的动态。主要的结果是将二阶动态分解为两个部分。第一个和潜博弈（potential game）相关，可以用内含的函数简化为梯度下降；第二个和哈密顿博弈相关，这是一种新的博弈类型，遵循一种守恒定律——类似于经典力学系统中的守恒定律。该分解启发了辛梯度调整（Symplectic Gradient Adjustment，SGA），这是一种用于寻找一般博弈中的稳定不动点的新算法。基础实验表明 SGA 的性能和近期提出的寻找 GAN 稳定不动点的算法不相上下，同时可以应用到更多的一般博弈中，并保证收敛性。

同样获得该荣誉的还有来自斯坦福大学的研究者。

论文：Fairness Without Demographics in Repeated Loss Minimization

作者：Tatsunori Hashimoto, Megha Srivastava, Hongseok Namkoong, Percy Liang

N7Rfym3.png!web

论文地址：https://arxiv.org/abs/1806.08010

摘要：机器学习模型（如语音识别器）通常被训练以最小化平均损失，这导致了表征差异（representation disparity）——少数群体（如非母语说话者）对训练目标函数的贡献较少，并因此带来了更高的损失。更糟糕的是，由于模型准确率会影响用户保留，因此少数群体的数量会随着时间而日益减少。本论文首先展示了经验风险最小化（ERM）的现状放大了表征差异，这甚至使得最初公平的模型也变得不公平了。为了缓解这一问题，我们开发了一种基于分布式鲁棒优化（distributionally robust optimization，DRO）的方法，可以最小化所有分布上的最大风险，使其接近经验分布。我们证明了该方法可以控制每个时间步的少数群体风险，使其符合罗尔斯分配正义，同时该方法对群体的标识并不清楚。我们证明 DRO 可以阻止样本的表征差异扩大，而这是 ERM 做不到的，我们还在现实世界的文本自动完成任务上证明了该方法对少数群体用户满意度的改进。

产业

相关数据

对抗样本技术

Adversarial examples

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源： Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

收敛技术

Convergence

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源： Wikipedia Google ML glossary

生成对抗网络技术

Generative Adversarial Networks

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源： Generative Adversarial Networks

梯度下降技术

Gradient Descent

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. Wikipedia

机器学习技术

Machine Learning

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

目标函数技术

Objective function

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

语音识别技术

Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源： What is Automatic Speech Recognition?

时间复杂度技术

time complexity

在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，亦即考察输入值大小趋近无穷时的情况。例如，如果一个算法对于任何大小为 n （必须比 n0 大）的输入，它至多需要 5n3 + 3n 的时间运行完毕，那么它的渐近时间复杂度是 O(n3)。

来源：维基百科

深度学习技术

Deep learning

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。近年来监督式深度学习方法（以反馈算法训练CNN、LSTM等）获得了空前的成功，而基于半监督或非监督式的方法（如DBM、DBN、stacked autoencoder）虽然在深度学习兴起阶段起到了重要的启蒙作用，但仍处在研究阶段并已获得不错的进展。在未来，非监督式学习将是深度学习的重要研究方向，因为人和动物的学习大多是非监督式的，我们通过观察来发现世界的构造，而不是被提前告知所有物体的名字。至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

准确率技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源： Google ML Glossary

机器之心

机器之心编辑

ICML 2018大奖出炉：伯克利、MIT获最佳论文，复旦大学榜上有名