学完了在线课程？如何开启深度学习论文的阅读模式

在读完书或者完成深度学习在线课程之后，如何才能继续学习机器学习？如何才能「自给自足」地理解这一领域的最新突破？答案就是读论文，机器学习领域的论文是所有前沿思想与技术的孵化所。大多数深度学习概念与技术都是近几年提出来的，想要深入理解它们就必须要看原论文，而不能仅仅关注在线课程、博客甚至是书籍，只有论文才是根本。

在一个 Quora 问答《I want to pursue machine learning as a career but not sure if I am qualified. How can I test myself?》中，问到如何测试某人是否达到了从事机器学习职业的标准。吴恩达说（只要不断学习）任何人都可胜任机器学习的工作。他说，在完成一些机器学习课程之后，「进一步的学习，阅读研究论文。最好是尝试复现研究论文中的结果。」

OpenAI 的研究员 Dario Amodei 说，「为了测试自己是否适合从事 AI 安全或者机器学习的工作，只要尝试快速实现大量模型。从最近的论文中找到一个机器学习模型，实现它，快速的让它能跑起来。」

这表明，读研究论文，对个人进一步了解这个领域极为重要。

每个月都有大量的论文被发表，任何认真学习 ML 的人，都不能只是依靠别人把最新研究分解过的教程类文章或者课程。新的、独创性的研究都是在读文章的时候做出来的。机器学习领域的研究节奏从未如此快过，你能跟上节奏的唯一方法就是养成阅读论文的习惯。

在此文章中，我会尝试给出阅读论文的可行性建议。最后，我会尝试分解一篇论文，从此开始读论文。

如何读论文

arXiv.org

arXiv 是预印本论文的网上发布平台，研究者一般在著名的学术期刊或会议论文发表之前就先将其发布到该平台。

那么为什么先发到 arXiv 上呢？其实事实证明，研究和实际撰写论文并不是终点，将论文提交给某个学术期刊发表是非常漫长的过程。在一篇论文提交给学术期刊后，同行审议的过程一般需要数月甚至一年多的时间。而现在它对于机器学习领域来说是不可取的，因为这个领域发展从未如此迅速。

所以，研究者在预印本资源库 arXiv 上发表论文以快速传播他们的研究，并获得快速反馈。

Arxiv Sanity Preserver

让研究者能轻松的预印论文自然很不错。但对于阅读的人而言，预印论文的数量太多了，对于新手而言肯定不适合（个人观点，想试试也无妨）。

所以，我要向你推荐 Arxiv Sanity Preserver：http://www.arxiv-sanity.com/

Arxiv Sanity Preserver 由 Andrej Karpathy 建立。

arXiv Sanity 对于 arXiv 而言，正如 Twitter 的 newsfeed 对于 Twitter 的作用。在 newsfeed 中，你能看到最有趣的符合你个人口味的推文，arXiv Sanity 也一样。它能让你基于研究趋势、你的过去喜好以及你关注的人的喜好来排序论文。

Machine Learning-Reddit 上的 WAYR thread

WAYR 是 What Are You Reading 的简写。这是一个 Reddit 的子网站（subreddit）Machine Learning上的一个 thread，其中人们在上面推送近期阅读的机器学习论文，并讨论他们发现的有趣结果。

如我所说，每周在 arXiv 上发表的机器学习领域的研究论文数量非常多。这意味着几乎不可能让个人每周都把它们全部读完，同时还能兼顾其它事情。同时，也不是所有论文都值得一读的。

因此，你需要把精力集中在最有潜力的论文上，而以上介绍的 thread 就是我推荐的一种方式。

Newsletter、Newsletter、Newsletter!

Newsletter 是我个人最喜欢的追踪 AI 最新进展的资源。你只需要订阅它们，就可以定期在电子邮件里收到推送。然后，你就能了解到这周里和 AI 相关的最有趣的新闻、文章和研究论文。

我已经订阅了以下 Newsletter：

Import AI（Jack Clark）：这是我的最爱，因为除了推送以上我介绍的那些信息之外，它还拥有称为「Tech Tales」的特色栏目。这个栏目包含新的 AI 相关的基于上周时间的短篇科幻小说。
地址：https://jack-clark.net/
Machine Learning（Sam DeBrule）：他也以相同的名字在 Medium 上发表文章，其中有一些非常有趣的文章，推荐阅读。
地址：https://machinelearnings.co/
Nathan.ai（Nathan Benaich）：以上两个快讯是周报形式，而这个是季刊形式。因此，你能在每三个月收到一封长邮件，其中总结了过去三个月里最有趣的领域进展。
地址：https://www.getrevue.co/profile/nathanbenaich
The Wild Week（Denny Britz）：这个快讯的展示很简洁，但在过去两个月里似乎没那么活跃了。总之我也在这里提一下，万一 Denny 又继续更新了呢。
地址：https://www.getrevue.co/profile/wildml

在 Twitter 上关注「AI 大牛」

另一种追踪领域最前沿的方式是在 Twitter 上关注著名的研究者和研究机构的账号。以下是我的关注列表：

Michael Nielsen
Andrej Karpathy
Francois Chollet
Yann LeCun
Chris Olah
Jack Clark
Ian Goodfellow
Jeff Dean
OpenAI

但我要怎么「开始」？

没错，这才是更加迫切的问题。

首先，确保你理解机器学习的基础，例如回归和其它算法；理解深度学习的基础，一般神经网络、反向传播、正则化，以及一些进阶内容，例如卷积网络（CNN）、循环网络（RNN）和长短期记忆网络（LSTM）的工作方式。我不认为阅读研究论文是理清基础的好办法，有很多其它资源可以用来打好基础。比如吴恩达的《Machine Learning》、《Deep Learning》在线课程，周志华的《机器学习》（西瓜书）、Bengio 等著的《深度学习》教材。

学好基础后，你应该从阅读引入那些基本概念、思想的研究论文开始。从而你可以聚焦于习惯研究论文的形式，不要太担心对第一篇研究论文的真正理解，你已经对那些概念很熟悉了。

我推荐从AlexNet这篇论文开始。

论文地址：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

为什么推荐这一篇？看看下图：

我们可以看到，计算机视觉和模式识别（Computer Visionand Patter Recognition）的论文发表数从 2012 年开始暴涨，而这一切都源于AlexNet这篇论文。

AlexNet的作者是 Alex Krizhevsky、Ilya Sutskever和 Geoffrey Hinton，论文标题为《ImageNetClassificationwith Deep Convolutional Networks》。这篇论文被认为是该领域中影响力最大的论文。它介绍了研究者如何使用称为AlexNet的卷积神经网络赢得了 2012 年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）的冠军。

让计算机观察和识别目标是计算机科学最早期的研究目标之一。ILSVRC 就像是计算机视觉的奥林匹克，其中参赛者（计算机算法）需要准确识别图像属于 1000 个类别的哪一个。而且，在 2012 年，AlexNet在这项竞赛中远远超越了竞争对手：

它获得了 15.3% 的 top-5准确率，第二名仅获得 26.2% 的 top-5准确率。

QBzQ7jV.png!web

毋庸置疑，整个计算机视觉社区都非常令人兴奋，该领域的研究正前所未有地向前加速。人们开始意识到深度神经网络的强大力量，你也可以在该领域尝试获得更多的成果。只要你们了解一些卷积网络的基础，那么掌握AlexNet论文的内容就会很简单，它们将会给你带来更多的知识与力量。

完成这一篇论文后，你可以尝试其它与 CNN 相关的开创性论文，也可以转而了解其它如 RNN、LSTM 和 GAN 等流行的架构。

当然目前还有很多渠道获取重要的研究论文，例如在 GitHub 中就有非常多的论文集合。

论文集合：https://github.com/floodsung/Deep-Learning-Papers-Reading-Roadmap

此外，最后还有一个非常优秀的平台 Distill，是一个现代的交互、视觉化期刊平台，面向现有以及新的机器学习研究成果。Distill 使用了现代用户界面，注重对研究的理解与诠释。

Distill 地址：https://distill.pub (https://distill.pub/)

虽然 Distill 更新非常慢，但它的每一篇都非常经典。

原文链接：https://towardsdatascience.com/getting-started-with-reading-deep-learning-research-papers-the-why-and-the-how-dfd1ac15dbc0

入门

相关数据

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

Alex网络技术

AlexNet

AlexNet是一个卷积神经网络的名字，最初是与CUDA一起使用GPU支持运行的，AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%，比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的，由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

来源： ImageNet Classification with Deep Convolutional Neural Networks

分类问题技术

Classification

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源： Wikipedia

深度神经网络技术

Deep neural network

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

计算机视觉技术

Computer Vision

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

卷积神经网络技术

Convolutional neural network

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press. 维基百科

长短期记忆网络技术

Long-Short Term Memory

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源： Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

机器学习技术

Machine Learning

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

正则化技术

Normalization

规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。通过将属性数据按比例缩放，使之落入一个小的特定区间，如0.0到1.0，对属性规范化。对于距离度量分类算法，如涉及神经网络或诸如最临近分类和聚类的分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比，权重过大。有许多数据规范化的方法，包括最小-最大规范化、z-score规范化和按小数定标规范化。

来源：Jiawei Han;Micheline Kamber著数据挖掘概念与技术机械工业出版社

深度学习技术

Deep learning

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。近年来监督式深度学习方法（以反馈算法训练CNN、LSTM等）获得了空前的成功，而基于半监督或非监督式的方法（如DBM、DBN、stacked autoencoder）虽然在深度学习兴起阶段起到了重要的启蒙作用，但仍处在研究阶段并已获得不错的进展。在未来，非监督式学习将是深度学习的重要研究方向，因为人和动物的学习大多是非监督式的，我们通过观察来发现世界的构造，而不是被提前告知所有物体的名字。至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

模式识别技术

Pattern Recognition

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

准确率技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源： Google ML Glossary

人物

Ilya Sutskever

涉及领域

机器之心

机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。

如何读论文

arXiv.org

Arxiv Sanity Preserver

Machine Learning-Reddit 上的 WAYR thread

Newsletter、Newsletter、Newsletter!

在 Twitter 上关注「AI 大牛」

但我要怎么「开始」？

Recommend

高级CORS利用技术分享

搭建模型第一步：你需要预习的 NumPy 基础都在这了

Issue #316

FreeBSD Desktop - Part 12 - Configuration - Openbox

算法太多挑花眼？此文教你如何选择正确的机器学习算法

DeepMind提出关系RNN：记忆模块RMC解决关系推理难题

用 Font Awesome 给 Markdown 文档加上生动的表情符号

nrss reader 0.3.9本地代码执行漏洞

不要再问我this的指向问题了

波场超级代表选举已经开始然而规则依然含糊不清

About Joyk