大盘点｜卷积神经网络必读的 100 篇经典论文，包含检测 / 识别 / 分类 / 分割多个领域

7个月前 ⋅ 1136 ⋅ 1 ⋅ 4

参考｜学术头条
编辑｜极市平台

作为深度学习的代表算法之一，卷积神经网络（Convolutional Neural Networks，CNN）在计算机视觉等领域上取得了当前最好的效果。

1998 年，Yann LeCun提出LeNet-5，将 BP 算法应用到神经网络结构的训练上，形成当代CNN雏形。2012 年，在 Imagenet 图像识别大赛中，Hinton 组的论文中提到的 Alexnet 引入了全新的深层结构和 dropout 方法，将 error rate 从 25\% 以上提升到了 15\%，一举颠覆了图像识别领域，CNN自此声名大噪并蓬勃发展。在 2016 年，CNN 再次给人们一个惊喜：谷歌研发的基于深度神经网络和搜索树的智能机器人“AlphaGo”在围棋上击败人类。随后利用 ResNet 和 Faster-RCNN 的思想，一年后的 Master 完虐了所有人类围棋高手，达到神一般的境界。

可以说，卷积神经网络是深度学习算法应用最成功的领域之一。

而研读卷积神经网络的经典论文，对于学习和研究卷积神经网络必不可缺。根据相关算法，科技情报大数据挖掘与服务系统平台AMiner从人工智能领域国际顶会/期刊中提取出“卷积神经网络”相关关键词，筛选推荐了 100 篇经典必读论文，内容包含CNN在检测/识别/分类/分割/跟踪等领域的理论与实践，并按被引用量进行了排序整理。

这 100 篇论文大多发表于 2015 年至 2019 年间，主要发表在 CVPR、ICCV、ICML、NeuIPS 等计算机视觉顶级学术会议上。在该领域发表论文最多的学者中，“神经网络之父”、“深度学习鼻祖”Hinton 与 Bengio 双双上榜，为深度学习研究持续贡献了力量。

下文将对这100篇论文进行按被引用量的排序，并对部分作简单评述（文末附打包下载）：

*1. **Fully Convolutional Networks for Semantic Segmentation ｜CVPR2015｜引用量：13136**

作者信息：UC Berkeley｜Jonathan Long，Evan Shelhamer，Trevor Darrell

本篇论文是神经网络大神 Jonathan Long 与他的博士同学 Evan Shelhamer、导师 Trevor Darrell 的代表作，获得了 CVPR 2015 年最佳论文奖。该文的核心贡献，在于提出了全卷积网络（FCN）的概念，它是一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络，针对语义分割训练一个端到端，点对点的网络，达到了 state-of-the-art。这是第一次训练端到端的 FCN，用于像素级的预测；也是第一次用监督预训练的方法训练 FCN。

*2. **Convolutional Neural Networks for Sentence Classification｜EMNLP 2014｜引用量：5978**
论文信息：纽约大学｜Yoon Kim

*3. **Large-Scale Video Classification with Convolutional Neural Networks｜CVPR2014｜引用量：4145**
作者信息：谷歌，斯坦福大学｜Andrej Karpathy，George Toderici，Sanketh Shetty，Thomas Leung，Rahul Sukthankar，Li Fei-Fei

该文研究了多种方法来扩展 CNN 在时域上的连通性，以利用局部时空信息，作者提出一个多分辨率、新颖的框架的方式来加快训练（计算效率）。文章的贡献点主要有三个：1.将 CNN 拓展，用于视频分类；
2.使用两种不同的分辨率的帧分别作为输入，输入到两个 CNN 中，在最后的两个全连接层将两个 CNN 统一起来；两个流分别是低分辨率的内容流和采用每一个帧中间部分的高分辨率流；
3.将从自建数据库学习到的 CNN 结构迁移到 UCF-101 数据集上面。
*4. **How transferable are features in deep neural networks\? ｜NIPS 2014｜引用量：3414**
作者信息：卡耐基梅隆大学，怀俄明大学，蒙特利尔大学｜Jason Yosinski，Jeff Clune，Yoshua Bengio，Hod Lipson

本文是 Bengio 团队关于迁移学习（Transfer Learning）的研究，文章实验了深度神经网络中不同层神经元的泛化性能和特异性，研究了模型的迁移能力两个主要影响因素，对于研究深度神经网络特征的可迁移性具有重要意义。

*5. **Learning Spatiotemporal Features with 3D Convolutional Networks｜ICCV2015｜引用量：2711**

作者信息：Facebook，达特茅斯学院｜Du Tran，Lubomir Bourdev，Rob Fergus，Lorenzo Torresani，Manohar Paluri

这篇文章介绍了在大规模有监督的视频数据集下,训练出了一种简单且高效的三维卷积神经网络的方法来学习时空特征。

3D 卷积网络的优势有三点：
1）同2D 卷积网络相比，3D 卷积网络更适合时空特征的学习；
2）3D 卷积网络的每一层的卷积核的结构是齐次的，并且在很多结构中都适用；
3）将学到的特征成为 C3D，带有一个简单的线性分类器，在 4 个不同的 benchmarks 上测试都实现了最好的性能，并且在另外的 2 个 benchmarks 上与目前的最好的方法相媲美。
*6. **SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation｜引用量：2373**
作者信息：剑桥大学｜Vijay Badrinarayanan，Alex Kendall，Roberto Cipolla

本文提出了一种用于像素级语义分割的深度全卷积神经网络结构 SegNet。SegNet 的创新点在于译码器对输入的低分辨率特征图的上采样处理方式。具体来讲，解码器利用在 max-pooling 过程中计算的池化 indices，计算对应的编码器的非线性上采样。这个操作就省去了上采样过程的学习。上采样后的 map 是稀疏的，再用可学习的 filter 通过卷积计算稠密的特征图。
*7. **XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks｜ECCV2016｜引用量：1713**
作者信息：艾伦人工智能研究所，华盛顿大学｜Mohammad Rastegari，Vicente Ordonez，Joseph Redmon，Ali Farhadi

该文针对标准卷积神经网络提出了两种有效的近似网络：二元权重网络和 XNOR 网络。二元权重网络中，卷积核用两个值来近似表示，从而节省 32 倍的存储空间。在 XNOR 网络中，卷积核和卷积层输入都是用两个值（1 和 -1）表示的。XNOR 网络主要使用二元运算进行卷积运算。这使得卷积操作速度提高了 58 倍，节省了 32 倍的内存。
*8. **Character-level Convolutional Networks for Text Classification｜NIPS2015｜引用量：1701
作者信息：纽约大学｜Xiang Zhang，Junbo Zhao，Yann LeCun
***9. **Towards End-To-End Speech Recognition with Recurrent Neural Networks｜ICML2014｜引用量：1339
作者信息：DeepMind，多伦多大学｜Alex Graves，Navdeep Jaitly
***10. **DRAW: A Recurrent Neural Network For Image Generation｜ICML 2015｜引用量：1186**
作者信息：Google DeepMind｜Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra

本文介绍了一种可应用于图像生成的 Deep Recurrent Attentive Writer（DRAW）神经网络模型，此模型能够生成高质量的自然图像，并提高了在 MNIST 数据集上生成模型表现的最好水平。此外，使用 SVHN 数据集训练的 DRAW 模型生成的图片，裸眼无法分辨其与真实数据的区别。

11. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps｜ICLR2013｜引用量：1170
作者：Karen Simonyan,Andrea Vedaldi,Andrew Zisserman
12. Neural Collaborative Filtering｜引用量：1141
作者：Xiangnan He,Lizi Liao,Hanwang Zhang,Liqiang Nie,Xia Hu,Tat-Seng Chua
13. Image Style Transfer Using Convolutional Neural Networks｜CVPR2016｜引用量：1107
作者：Leon A. Gatys,Alexander S. Ecker,Matthias Bethge
14. Image Super-Resolution Using Deep Convolutional Networks｜IEEE2016｜引用量：1035
作者：Chao Dong,Chen Change Loy,Kaiming He,Xiaoou Tang
15. Distilling the Knowledge in a Neural Network｜引用量：1021
作者：Geoffrey E. Hinton,Oriol Vinyals,Jeffrey Dean
16. Recurrent Convolutional Neural Networks for Text Classification」AAAI2015｜引用量916
作者：Siwei Lai,Liheng Xu,Kang Liu,Jun Zhao
17. Squeeze-and-Excitation Networks｜CVPR2018｜引用量886
作者：Jie Hu,Li Shen,Gang Sun
18. Convolutional Sequence to Sequence Learning｜ICML2017｜引用量：777
作者：Jonas Gehring,Michael Auli,David Grangier,Denis Yarats,Yann N. Dauphin
19. Non-local Neural Networks｜CVPR2018｜引用量：751
作者：Xiaolong Wang,Ross B. Girshick,Abhinav Gupta,Kaiming He
20. Residual Attention Network for Image Classification｜CVPR2017｜引用量：568
作者：Fei Wang,Mengqing Jiang,Chen Qian,Shuo Yang,Cheng Li,Honggang Zhang,Xiaogang Wang,Xiaoou Tang
21. Image Super-Resolution via Deep Recursive Residual Network｜CVPR2017｜引用量559
作者：Ying Tai,Jian Yang,Xiaoming Liu
22. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization｜ICCV2015｜引用量503
作者：Alex Kendall,Matthew Grimes,Roberto Cipolla
23. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks｜引用量：483
作者：Aliaksei Severyn,Alessandro Moschitti
24. Deformable Convolutional Networks｜ICCV2017｜引用量：476
作者：Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,Guodong Zhang,Han Hu,Yichen Wei
25. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting｜引用量399
作者：Xingjian Shi,Zhourong Chen,Hao Wang,Dit-Yan Yeung,Wai-Kin Wong,Wang-chun Woo
26. Fast Training of Convolutional Networks through FFTs｜引用量：385
作者：Michaël Mathieu,Mikael Henaff,Yann LeCun
26. Large Kernel Matters - Improve Semantic Segmentation by Global Convolutional Network｜CVPR2017｜引用量377
作者：Chao Peng,Xiangyu Zhang,Gang Yu,Guiming Luo,Jian Sun
27. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition｜AAAI2018｜引用量353
作者：Sijie Yan,Yuanjun Xiong,Dahua Lin
28. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation｜CVPR2017｜引用量：333
作者：Simon Jégou,Michal Drozdzal,David Vázquez,Adriana Romero,Yoshua Bengio
29. Multi-Oriented Text Detection with Fully Convolutional Networks｜CVPR2016｜引用量：313
作者：Zheng Zhang,Chengquan Zhang,Wei Shen,Cong Yao,Wenyu Liu,Xiang Bai
30. Learning Efficient Convolutional Networks through Network Slimming｜ICCV2017｜引用量310
作者：Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,Changshui Zhang
31. Multi-View 3D Object Detection Network for Autonomous Driving｜CVPR2017｜引用量：276
作者：Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,Tian Xia
32. Very Deep Convolutional Networks for End-to-End Speech Recognition｜ICASSP2017｜引用量：242
作者：Yu Zhang,William Chan,Navdeep Jaitly
33. A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification｜引用量：229
作者：Yingjie Zhang,Byron C. Wallace
*34. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks｜ACL2015｜引用量：212
作者：Yubo Chen,Liheng Xu,Kang Liu,Daojian Zeng,Jun Zhao
*35. ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression｜ICCV2017｜引用量208
作者：Jian-Hao Luo,Jianxin Wu,Weiyao Lin

*36. Relation Extraction: Perspective from Convolutional Neural Networks｜引用量173
作者：Thien Huu Nguyen,Ralph Grishman
*37. DCAN: Deep Contour-Aware Networks for Accurate Gland Segmentation｜CVPR2016｜引用量：166
作者：Hao Chen 0011,Xiaojuan Qi,Lequan Yu,Pheng-Ann Heng
*38. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition｜CVPR2017｜引用量：159
作者：Jianlong Fu,Heliang Zheng,Tao Mei
*39. Interpretable Convolutional Neural Networks｜CVPR2018｜引用量：154
作者：Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu
*40. A systematic study of the class imbalance problem in convolutional neural networks｜引用量：148
作者：Mateusz Buda,Atsuto Maki,Maciej A. Mazurowski
……

在极市平台后台回复CNN100，即可获得上述40篇和未列举的60篇CNN必读论文合集下载链接。

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

大盘点｜卷积神经网络必读的 100 篇经典论文，包含检测 / 识别 / 分类 / 分割多个领域

大盘点｜卷积神经网络必读的 100 篇经典论文，包含检测 / 识别 / 分类 / 分割多个领域

Recommend

论文推荐 | 一种协同注意力机制的深度推荐模型 ACAM；南加大游戏 AI 玩转《毁灭战士》

国防科大提出基于可变形三维卷积的视频超分辨，代码已开源

从 CNN 到 GCN 的联系与区别——GCN 从入门到精（fang）通（qi）

【资源】显著性分割 / 检测的工作及数据集汇总

通俗易懂的解释音素 | Phonetics- 产品经理的人工智能学习库

语音合成标记语言-SSML丨Speech Synthesis Markup Language - 产品经理的人工智能学习...

语音合成（Text to Speech | TTS） - 产品经理的人工智能学习库

一文看懂语音识别 - ASR（基本原理 + 4个实现流程）

一文看懂支持向量机 SVM（附：6个有点+5个缺点）

一文看懂人脸识别（4个特点+4个实现步骤+5个难点+算法发展轨迹）

About Joyk