7 papers｜EMNLP 2019最佳论文；Facebook语言模型XLM-R取得SOTA结果；最优学习的85%规...

目录：

Specializing Word Embeddings（for Parsing）by Information Bottleneck
Loss Landscape Sightseeing with Multi-Point Optimization
Unsupervised Cross-lingual Representation Learning at Scale
Understanding the Role of Momentum in Stochastic Gradient Methods
The Visual Task Adaptation Benchmark
The Eighty Five Percent Rule for optimal learning
Confident Learning: Estimating Uncertainty in Dataset Labels

论文 1： Specializing Word Embeddings（for Parsing）by Information Bottleneck

作者：Xiang Lisa Li、Jason Eisner
论文链接：http://cs.jhu.edu/~jason/papers/li+eisner.emnlp19.pdf

摘要：预训练词向量，如 ELMo 和 BERT 包括了丰富的句法和语义信息，使这些模型能够在各种任务上达到 SOTA 表现。在本文中，研究者则提出了一个非常快速的变分信息瓶颈方法，能够用非线性的方式压缩这些嵌入，仅保留能够帮助句法解析器的信息。研究者将每个词嵌入压缩成一个离散标签，或者一个连续向量。在离散的模式下，压缩的离散标签可以组成一种替代标签集。通过实验可以说明，这种标签集能够捕捉大部分传统 POS 标签标注的信息，而且这种标签序列在语法解析的过程中更为精确（在标签质量相似的情况下）。而在连续模式中，研究者通过实验说明，适当地压缩词嵌入可以在 8 种语言中产生更精确的语法解析器。这比简单的降维方法要好。

FzaUfiQ.jpg!web

图 1： 研究者利用瓶颈变量 T 来实例化信息瓶颈。

推荐：这篇论文的两位作者都来自约翰·霍普金斯大学，其中一作更是华人学者。在 11 月 7 日于香港落幕的 EMNLP-IJCNLP 2019 大会上，这篇论文荣获了本届大会最佳论文奖。

论文 2：Loss Landscape Sightseeing with Multi-Point Optimization

作者：Ivan Skorokhodov、Mikhail Burtsev
论文链接：https://arxiv.org/abs/1910.03867
项目地址：https://github.com/universome/loss-patterns

摘要：在本文中，研究者提出了一种多点优化（multi-point optimization）方法，这种优化方法不仅可以同时训练多个模型，而且无需单独保留每个模型的参数。此外，这种优化方法用于对神经网络的损失情况进行全面的实证分析。FashionMNIST 和 CIFAR10 数据集上进行的大量实验表明：1）就其所包含的景观模式而言，损失表面呈现出惊人的多样性； 2）添加批归一化使其更加鲁棒。

Mfiiqmn.jpg!web

图 1： 典型 CNN 模型在 FashionMNIST（a）和 CIFAR10（b）数据集上的损失表面示例。

ziiMn2f.jpg!web

图 2： FashionMNIST 数据集上用于 2D 模式拟合的多点优化方法。

推荐：这篇出自莫斯科物理技术学院（Moscow Institute of Physics and Technology）神经网络与深度学习实验室的论文向读者介绍了多点优化在模型训练中的诸多优势。

论文 3：Unsupervised Cross-lingual Representation Learning at Scale

作者：Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek 等
论文链接：https://arxiv.org/abs/1911.02116

摘要：本文表明，针对多种跨语言的传输任务，大规模地对多语言语言模型进行预训练可以显著提高性能。在使用超过 2TB 的已过滤 CommonCrawl 数据的基础上，研究者在 100 种语言上训练了基于 Transformer 的掩模语言模型。该模型被称为 XLM-R，在各种跨语言基准测试中，其性能显著优于多语言 BERT（mBERT），其中 XNLI 的平均准确度为+ 13.8％，MLQA 的平均 F1 得分为+ 12.3％，而 FQ 的平均 F1 得分为+ 2.1％ NER。XLM-R 在低资源语言上表现特别出色，与以前的 XLM 模型相比，斯瓦希里语（Swahili）的 XNLI 准确性提升了 11.8％，乌尔都语（Urdu）的准确性提升了 9.2％。研究者还对获得这些提升所需的关键因素进行了详细的实证评估，包括（1）积极转移和能力稀释；（2）大规模资源资源的高低性能之间的权衡。最后，他们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。XLM-Ris 在 GLUE 和 XNLI 基准测试中具有强大的单语言模型，因此非常具有竞争力。

rARV7zE.jpg!web

图 1： 跨语言分类结果。 研究者展示了各种模型在 15 中 XNLI 语言上的准确率以及平均准确率。 本文提出的 XLM-R 模型均取得了 SOTA 结果。

FfQnqir.jpg!web

表 1： 各种模型在 CoNLL-2002 和 CoNLL-2003（F1 得分）上的命名实体识别结果。 可以看出，本文提出的 XLM-R 模型在 nl 和 es 取得了 SOTA 结果。

推荐：Facebook 这篇论文提出的 XLM-R 模型是基于 Transformer 的掩模语言模型，其在多个跨语言理解基准测试中的结果都显著优于 BERT（mBERT）。

论文 4：Understanding the Role of Momentum in Stochastic Gradient Methods

作者：Igor Gitman、Hunter Lang、Pengchuan Zhang、Lin Xiao
论文链接：https://arxiv.org/abs/1910.13962v1

摘要：随机梯度方法中动量（momentum）的使用已成为机器学习领域的一种广泛实践。动量的不同变体，包括重球动量、Nesterov 加速梯度（Nesterovs』 Accelerated Gradient，NAG）和准双曲线动量（quasi-hyperbolic momentum，QHM），已在各种任务上取得了成功。尽管在实证上取得了成功，但对动量参数如何影响收敛以及各种算法的不同性能衡量指标缺乏清楚的了解。在本文中，研究者利用 QHM 的通用方法对几种流行的算法进行了统一分析，涵盖了这些算法的渐近收敛条件、稳定区域和平稳分布的特性。另外，通过结合收敛速度和平稳分布的结果，研究者有时会获得反直觉的实际准则来设置学习率和动量参数。

推荐：这篇出自微软研究院人工智能中心（Microsoft Research AI）的论文详细探讨了随机梯度中动量参数对收敛以及不同算法中性能衡量指标的影响。

论文 5：The Visual Task Adaptation Benchmark

作者：Xiaohua Zhai、Joan Puigcerver、Alexander Kolesnikov、Pierre Ruyssen 等
论文链接：https://arxiv.org/abs/1910.04867

摘要：深度学习已经给计算机视觉领域带来了诸多改变。其中，达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征，从而在众多视觉任务上取得了前所未有的性能。但是，「从零开始」学习这些表征通常需要大量的训练样本。为了解决这方面的问题，谷歌 AI 推出了「视觉任务适应性基准」（Visual Task Adaptation Benchmark，VTAB）。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则：在所需领域内数据有限的情况下，更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准，如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari，VTAB 遵循相似的准则：（i）对解决方案施加最小约束，以鼓励创造性；（ii）注重实际；（iii）借助挑战性任务进行评估。

Yj2iiy2.jpg!web

VTAB 基准原理图。

推荐：众所周知，图像分类领域有 ImageNet 数据集，自然语言处理领域有 GLUE 基准，这些基准在对应领域的进展中发挥了重要作用。终于，谷歌推出了视觉任务适应性领域的基准 VTAB（Visual Task Adaptation Benchmark），该基准有助于用户更好地理解哪些哪些视觉表征可以泛化到更多其他的新任务上，从而减少所有视觉任务上的数据需求。

论文 6：The Eighty Five Percent Rule for optimal learning

作者：Robert C. Wilson、Amitai Shenhav、Mark Straccia、Jonathan D. Cohen
论文链接：https://www.nature.com/articles/s41467-019-12552-4
项目地址：https://github.com/bobUA/EightyFivePercentRule

摘要：一直以来，研究人员和教育工作者都在思考一个问题：如何最好地教导他们的客户——无论是人类、动物或者机器。在本文中，研究者检验了单一变量，即训练难度，对学习率的影响。在很多情况下，他们发现存在一个「甜蜜点」，其中训练既不是太简单也没有太困难，并且学习进程最快。研究者在二进制分类任务情境下为一系列学习算法的「甜蜜点」推导出了条件。对于所有这些基于随机梯度的学习算法而言，他们发现训练的最优误差率约为 15.87%，反过来说，最优训练准确率约为 85%。研究证明，『85% 规则』对 AI 中使用的人工神经网络和生物上可信的神经网络的效用被认为可以用来描述动物学习。研究证明了「85% 规则」对 AI 中使用的人工神经网络以及生物学上可信且被认为用于描述动物学习的神经网络的有效性。

mQnYNjJ.jpg!web

应用于感知器的「85% 规则」。 a 横坐标表示每次训练的误差率（error rate），纵坐标表示训练次数（trial number）。 图中的颜色表示训练出的网络的准确率，其中颜色越黄表示准确率越高，颜色越蓝表示准确率越低； b 横坐标表示训练数量，纵坐标表示相对精度（relative precision），三条曲线分别表示 0.36、0.06 和 0.16 的误差率。 可以看出，当误差率为 0.16 时，相对精度的增加是最快的。 这说明 0.16（约为 15.87%）为训练中的最优误差率。

推荐：这是一篇发表在 Nature Communications 上的论文，详细介绍了最优学习的 85% 规则。

论文 7：Confident Learning: Estimating Uncertainty in Dataset Labels

作者：Curtis G. Northcutt、Lu Jiang、Isaac L. Chuang
论文链接：https://arxiv.org/abs/1911.00068
项目地址：https://pypi.org/project/cleanlab/

摘要：学习存在于数据语境中，而置信概念通常注重模型预测，而不是标签质量。基于修剪噪声数据、计数以估计噪声以及示例排序以进行置信训练的原则，置信学习（Confident Learning，CL）已经成为一种表征、识别和学习数据集中噪声标签的方法。在本文中，研究者基于分类噪声过程的假设对 CL 进行泛化，以直接估计噪声（给定）标签和纯净（未知）标签之间的联合分布。这种泛化的 CL 作为 cleanlab 进行开源，在合理的条件下被证明是一致的，并在 ImageNet 和 CIFAR 数据集上具有实验性能，优于最近的方法，例如当标签噪声非均匀时，性能高出 MentorNet30％或更多。cleanlab 还可以量化本体论类重叠，并可以通过提供纯净数据进行训练来提升模型的准确性（如 ResNet）。

BjaMryE.jpg!web