

混合深度卷积,更少参数下的轻量级网络
source link: https://mp.weixin.qq.com/s/d6PgiqNOEh28HtGY9mRpmA
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

混合深度卷积,更少参数下的轻量级网络
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
原文链接:https://arxiv.org/pdf/1907.09595.pdf
代码链接:
https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet
1、主要思想和创新点
Depthwise卷积在现代高效convnet中越来越流行,但它的核大小常常被忽略。本文系统地研究了不同核大小的影响,并观察到结合多核大小的优点可以获得更好的精度和效率。在此基础上,提出了一种新的混合深度卷积(MixConv),它在一个卷积中自然地混合了多个核大小。作为一个简单的卷积替代结构,论文中的MixConv提高了现有的移动图像对图像分类和COCO对象检测的准确性和效率。
为了证明MixConv的有效性,将其集成到AutoML搜索空间中,并开发了一个新的模型系列,称为MixNets,它优于以前的移动模型,包括MobileNetV2(ImageNet top-1 accurity+4.2%)、ShuffleNetV2(+3.5%)、MnasNet(+1.3%)、ProxylessNAS(+2.2%)和FBNet(+2.0%)。特别是, MixNet-L在典型的移动设置下(小于600万次浮点运算),达到了最新的78.9%的ImageNet top-1精度。
2、模型结构
前期的许多论文提到尺寸较大的卷积核会提高分类模型的准确率,本文通过验证得出,并非卷积核的尺寸越大越好。
论文研究表明了单核尺寸的局限性:既需要大核来捕获高分辨率模式,也需要小核来捕获低分辨率模式,以获得更好的模型精度和效率。基于这一观察,文章提出了一种混合深度卷积(MixConv),它在一个卷积运算中混合不同的核大小,这样它可以很容易地捕获不同分辨率的不同模式。下图显示了MixConv的结构,它将通道划分为多个组,并对每个通道组应用不同的内核大小。我们的MixConv是一个简单的普通卷积替换,但它可以显著提高MobileNets在ImageNet分类和COCO目标检测上的准确性和效率。
文中还给出了MixConv的代码实现:
卷积核的类别和数量:
论文建议可以使用3x3,5x5,7x7,9x9四种卷积核来完成MixConv。信道划分主要有两种形式:第一种针对每类卷积核,都有相同的tensor;第二种针对不同卷积核对应的tensor呈指数级递减。
论文还给出了两类基于MixConv的MixNet结构:
3、实验结果
文章以MobileNetv1和v2作为目标检测网络的基准,并对比了使用Mixconv前后,网络的参数数量和mAP的变化,可以看出,在降低参数的同时,准确率没有下降,甚至有所提升。
论文基于ImageNet数据集,对比了MixNet和各分类模型的参数和准确率:
可以发现,MixNet在减少参数的同时,可以有效提升准确率!
上述内容,如有侵犯版权,请联系作者,会自行删文。重磅!3DCVer-学术交流群已成立欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。Recommend
-
144
Deep Image Prior:深度卷积网络先天就理解自然图像人工智能话题下的优秀答主Deep Image Prior 是昨天发布的一篇非常有趣的研究,地址为
-
46
黑莓的全键盘手机Key2 似乎并不受欢迎,但这并不能阻止 TCL 继续尝试下去。该公司日前推出了 Key2 LE,它本质上是一款配置、价格较低的 Key2,...
-
44
做渠道难,难在不了解渠道属性及质量 “互联网下半场”的概念在2016年由美团CEO王兴提出,大概意思是,中国互联网人口红...
-
29
点击 我爱计算机视觉 标星,更快获取CVML新技术 本文向大家推荐谷歌前段时间发布的论文 FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence ,该文提...
-
50
全文共 1146 字,预计学习时长 5 分钟
-
37
-
18
本文最初发表于 Towards Data Science 博客,经原作者 Logesh Kumar Umapathi 授权,InfoQ 中文站翻译并分享。 如果说机器学习项目是冰山的话,那么位于水下的部分就是项目中的标签和其他数据工作。好消息是,像迁移学习和主动学习...
-
44
云凤蝶如何让你写更少的代码paranoidjk人在少年,梦中不觉,醒后要归去云凤蝶中台...
-
8
爱马仕手表部门CEO:当你拥有更少的库存时,盈利才会更高 左 晓荔 2021-04-12 ...
-
9
在读 PyTorch 的文档和源码的时候,发现写文档的人也不怎么解释啥是卷积,卷积的各个参数是什么意思,只在文档里扔了个链接就完事了,链接那头是一个 GitHub 上的动图演示仓库,是一篇论文《A guide to convolution arithmetic for deep learning》(链接在文末)的...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK