论文推荐｜谷歌推出视觉领域的基准 VTAB；最优学习论文 85% 规则

1年前 ⋅ 1341 ⋅ 0 ⋅ 0

本周论文推荐：谷歌推出了视觉任务适应性领域的基准VTAB，该基准可以减少所有视觉任务上的数据需求、登上 Nature Communications 的最优学习 85% 规则、出自莫斯科物理技术学院神经网络与深度学习实验室的论文向读者介绍了多点优化在模型训练中的诸多优势以及出自微软研究院人工智能中心的论文详细探讨了随机梯度中动量参数对收敛以及不同算法中性能衡量指标的影响。

论文 1：Loss Landscape Sightseeing with Multi-Point Optimization

摘要：在本文中，研究者提出了一种多点优化（multi-point optimization）方法，这种优化方法不仅可以同时训练多个模型，而且无需单独保留每个模型的参数。此外，这种优化方法用于对神经网络的损失情况进行全面的实证分析。FashionMNIST 和 CIFAR10 数据集上进行的大量实验表明：1）就其所包含的景观模式而言，损失表面呈现出惊人的多样性； 2）添加批归一化使其更加鲁棒。

▲图 1：典型 CNN 模型在 FashionMNIST（a）和 CIFAR10（b）数据集上的损失表面示例。

▲图 2： FashionMNIST 数据集上用于 2D 模式拟合的多点优化方法。

推荐：这篇出自莫斯科物理技术学院（Moscow Institute of Physics and Technology）神经网络与深度学习实验室的论文向读者介绍了多点优化在模型训练中的诸多优势。

论文 2：Understanding the Role of Momentum in Stochastic Gradient Methods

作者：Igor Gitman、Hunter Lang、Pengchuan Zhang、Lin Xiao
论文链接：https://arxiv.org/abs/1910.13962v1

摘要：随机梯度方法中动量（momentum）的使用已成为机器学习领域的一种广泛实践。动量的不同变体，包括重球动量、Nesterov 加速梯度（Nesterovs』 Accelerated Gradient，NAG）和准双曲线动量（quasi-hyperbolic momentum，QHM），已在各种任务上取得了成功。尽管在实证上取得了成功，但对动量参数如何影响收敛以及各种算法的不同性能衡量指标缺乏清楚的了解。在本文中，研究者利用 QHM 的通用方法对几种流行的算法进行了统一分析，涵盖了这些算法的渐近收敛条件、稳定区域和平稳分布的特性。另外，通过结合收敛速度和平稳分布的结果，研究者有时会获得反直觉的实际准则来设置学习率和动量参数。

推荐：这篇出自微软研究院人工智能中心（Microsoft Research AI）的论文详细探讨了随机梯度中动量参数对收敛以及不同算法中性能衡量指标的影响。

论文 3：The Visual Task Adaptation Benchmark

作者：Xiaohua Zhai、Joan Puigcerver、Alexander Kolesnikov、Pierre Ruyssen 等
论文链接：https://arxiv.org/abs/1910.04867

摘要：深度学习已经给计算机视觉领域带来了诸多改变。其中，达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征，从而在众多视觉任务上取得了前所未有的性能。但是，「从零开始」学习这些表征通常需要大量的训练样本。为了解决这方面的问题，谷歌 AI 推出了「视觉任务适应性基准」（Visual Task Adaptation Benchmark，VTAB）。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则：在所需领域内数据有限的情况下，更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准，如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari，VTAB 遵循相似的准则：（i）对解决方案施加最小约束，以鼓励创造性；（ii）注重实际；（iii）借助挑战性任务进行评估。

▲VTAB 基准原理图。

推荐：众所周知，图像分类领域有 ImageNet 数据集，自然语言处理领域有 GLUE 基准，这些基准在对应领域的进展中发挥了重要作用。终于，谷歌推出了视觉任务适应性领域的基准 VTAB（Visual Task Adaptation Benchmark），该基准有助于用户更好地理解哪些视觉表征可以泛化到更多其他的新任务上，从而减少所有视觉任务上的数据需求。

论文 4：The Eighty Five Percent Rule for optimal learning

摘要：一直以来，研究人员和教育工作者都在思考一个问题：如何最好地教导他们的客户——无论是人类、动物或者机器。在本文中，研究者检验了单一变量，即训练难度，对学习率的影响。在很多情况下，他们发现存在一个「甜蜜点」，其中训练既不是太简单也没有太困难，并且学习进程最快。研究者在二进制分类任务情境下为一系列学习算法的「甜蜜点」推导出了条件。对于所有这些基于随机梯度的学习算法而言，他们发现训练的最优误差率约为 15.87%，反过来说，最优训练准确率约为 85%。研究证明，『85% 规则』对 AI 中使用的人工神经网络和生物上可信的神经网络的效用被认为可以用来描述动物学习。研究证明了「85% 规则」对 AI 中使用的人工神经网络以及生物学上可信且被认为用于描述动物学习的神经网络的有效性。

▲应用于感知器的「85% 规则」。a 横坐标表示每次训练的误差率（error rate），纵坐标表示训练次数（trial number）。图中的颜色表示训练出的网络的准确率，其中颜色越黄表示准确率越高，颜色越蓝表示准确率越低；b 横坐标表示训练数量，纵坐标表示相对精度（relative precision），三条曲线分别表示 0.36、0.06 和 0.16 的误差率。可以看出，当误差率为 0.16 时，相对精度的增加是最快的。这说明 0.16（约为 15.87%）为训练中的最优误差率。

推荐：这是一篇发表在 Nature Communications 上的论文，详细介绍了最优学习的 85% 规则。

来源：机器之心@微信公众号

file
△ 关注极市平台
获得最新CV干货

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

论文推荐｜谷歌推出视觉领域的基准 VTAB；最优学习论文 85% 规则

论文推荐｜谷歌推出视觉领域的基准 VTAB；最优学习论文 85% 规则

目录：

论文 1：Loss Landscape Sightseeing with Multi-Point Optimization

论文 2：Understanding the Role of Momentum in Stochastic Gradient Methods

论文 3：The Visual Task Adaptation Benchmark

论文 4：The Eighty Five Percent Rule for optimal learning

Recommend

论文推荐 | Quoc V. Le、何恺明等新论文；可扩展集合技术 XGBoost

重磅！13 篇基于 Anchor free 的目标检测方法

论文推荐 | 周志华深度森林新论文；谷歌目标检测新 SOTA

TridentNet：处理目标检测中尺度变化新思路（0130 更新：开源啦！附 GitHub 地址）

论文推荐 | ML 因果关系论文获 Judea Pearl 点赞；华为云端网络压缩新技术

GitHub：深度学习最全资料集锦

【图森未来】【实习】感知算法实习生、定位与高精地图算法实习生等招聘

Exploiting Linux Kernel Heap Corruptions (SLUB Allocator)

Stack Clash Mitigation in GCC - Background - Red Hat Developer

Exploiting the Linux kernel via packet sockets

About Joyk