1

阿里创新知识蒸馏方法,论文入选顶会CVPR 2022口头报告

 1 year ago
source link: https://www.51cto.com/article/712251.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

阿里创新知识蒸馏方法,论文入选顶会CVPR 2022口头报告-51CTO.COM

阿里创新知识蒸馏方法,论文入选顶会CVPR 2022口头报告
2022-06-23 12:12:31
6月23日消息,阿里巴巴达摩院自动驾驶实验室创新知识蒸馏方法,在多个计算机视觉基准测试中,显著提升算法性能,超越业界最优方法。相关论文已被顶会CVPR 2022收录为口头报告(Oral)。该技术集成于达摩院自动驾驶算法库,未来有望应用于末端物流无人车“小蛮驴”和自动驾驶卡车“大蛮驴”。

6月23日消息,阿里巴巴达摩院自动驾驶实验室创新知识蒸馏方法,在多个计算机视觉基准测试中,显著提升算法性能,超越业界最优方法。相关论文已被顶会CVPR 2022收录为口头报告(Oral)。该技术集成于达摩院自动驾驶算法库,未来有望应用于末端物流无人车“小蛮驴”和自动驾驶卡车“大蛮驴”。

知识蒸馏是一种模型压缩/模型训练方法,指将训练好的大模型(教师模型)的知识“蒸馏”提取到有待训练的小模型(学生模型)中,让小模型获得与大模型相当的泛化能力。大模型往往体积较大、部署成本高,小模型灵活小巧,能够最大限度降低对计算资源的消耗。

0554858269b21a2a98c13960543cc9783e403a.png

CVPR 2022官网的论文分享

知识蒸馏是业界和学界的热门研究课题。达摩院论文Knowledge Distillation via the Target-aware Transformer指出,以往的知识蒸馏方法,大多以一对一的空间匹配方式,将教师模型的特征提取到学生模型。但由于结构差异,大小模型在同一空间位置上的语义信息通常是不同的,这极大削弱了一对一蒸馏方法的基本假设。

论文提出一种新的基于transformer的一对多空间匹配方法,将教师模型特征的每个像素提取到学生模型特征的所有空间位置,通过参数相关性来衡量以学生特征和教师特征的表征成分为条件的语义距离,并对这种相关性进行建模。

在ImageNet、Pascal VOC和COCOS-tuff10k等基准测试中,新方法表现出色。如,针对ImageNet数据集的图像分类任务,基于同一个学生模型(tiny ResNet18),新方法将模型的top-1准确率从70.04%提高到72.41%,显著高于之前最优蒸馏方法的71.61%。;针对COCO-Stuff10k上的语义分割任务,新方法将mobilenetv2结构的mIoU提高1.75%。

f3185ee859102f48470827e752c9af015966ae.jpg

达摩院研发的物流无人车小蛮驴现已配送订单超过1000万

知识蒸馏方法广泛应用于知识迁移、半监督学习、计算机视觉等下游算法。自动驾驶技术团队更关注其对线上模型性能的提升,让小模型也能起大作用,论文作者于开丞介绍,“自动驾驶是个超级AI系统,每天都要处理海量的图像、点云信息,算法性能关系到终端产品的智能性、安全性、可靠性,可以说,是工业实践推动着技术创新。”

据悉,达摩院研发的L4级自动驾驶产品小蛮驴现已落地超过500辆,在学校、社区等末端场景配送订单超过1000万。达摩院已启动面向干线物流的无人卡车“大蛮驴”的研发。


Recommend

  • 52

    近日,来自 FAIR、MIT 和加州大学伯克利分校的 Tongzhou Wang、朱俊彦等人发布新研究论文,提出一种新的蒸馏方法——数据集蒸馏。这与将知识从复杂网络迁移到较简单模型不同,该方法将原始数据集中大量数据集的知识压缩到少量合成数据上,...

  • 38
    • 微信 mp.weixin.qq.com 4 years ago
    • Cache

    一文总览知识蒸馏概述

    这是一篇关于【知识蒸馏】简述的文章,目的是想对自己对于知识蒸馏学习的内容和问题进行总结。笔者挑选了部分经典的paper详读,希望对于对KD有需求的同学提供一个概览和帮助。 作者:凉爽的安迪 ...

  • 46
    • 微信 mp.weixin.qq.com 3 years ago
    • Cache

    无数据知识蒸馏

    本文是参考文献[1]的阅读笔记。 目前,很多模型上的工作都在使用知识蒸馏来压缩模型,但是,很多情况下,我们得到了大...

  • 5

    论文推荐 | CVPR 2020 获奖论文;知识蒸馏综述 5个月前 ⋅...

  • 1
    • www.52nlp.cn 2 years ago
    • Cache

    知识蒸馏:让LSTM重返巅峰!

    ...

  • 4
    • 微信 mp.weixin.qq.com 2 years ago
    • Cache

    知识蒸馏综述:网络结构搜索应用

    知识蒸馏综述:网络结构搜索应用 ...

  • 5
    • antkillerfarm.github.io 2 years ago
    • Cache

    深度加速(六)——知识蒸馏

    基本概念(续) 一个很大的DNN往往训练出来的效果会比较好,并且多个DNN一起ensemble的话效果会更好。但是实际应用中,过于庞大的DNN ensemble会增大计算量,从而影响应用。于是一个问题就被提出了:有没有一个方法,能使降低网络的规模,但是保持(...

  • 0
    • coladrill.github.io 1 year ago
    • Cache

    知识蒸馏在推荐系统的应用

    Last updated on 2020-06-02… 本篇整理自《知识蒸馏在推荐系统的应用》 推荐系统中,复杂模型推上线时,模型响...

  • 3

    一文读懂数据库发展史 本文力求以简单易懂的语言描述出数据库发展史,尽量避免出现复杂的概念介绍。数据库演进史...

  • 2

    01 知识蒸馏诞生的背景来,深度神经网络(DNN)在工业界和学术界都取得了巨大成功,尤其是在 计算机视觉任务 方面。深度学习的成功很大程度上归功于其具有数十亿参数的用于编码数据的可扩展性架构,其训练目标是在...

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK