0

TT-SRN:基于变压器的视频实例分割框架(三)

 2 years ago
source link: https://panchuang.net/2021/10/02/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6%e4%b8%89/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

你有5秒钟的时间,告诉我什么是TT-SRN?

TT-SRN和VIS到底是什么?

视频实例分割(VIS)是最近引入的计算机视觉研究领域,旨在对视频域中的实例进行联合检测、分割和跟踪。最近的方法提出了高度复杂的多级网络,这些网络实际上是不可用的。因此,在实践中需要使用简单而有效的方法。为了填补这一空白,我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块TT-SRN来解决这一问题。TT-SRN将VIS任务看作是一个单阶段的直接序列预测问题,使得我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生一组实例预测。产生的实例级信息然后通过修改的SRN传递,以获得最终的实例级类ID和边界框,以及自动参与的3-D卷积,以获得分段掩码。在其核心,TT-SRN是一个自然的范例,它通过相似性学习处理实例分割和跟踪,使系统能够产生快速而准确的预测集。TT-SRN采用基于集合的全局丢失进行端到端训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。首次在没有隐式CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。

代码和纸张可在以下位置获得:

TT-SRN的图像级目标检测和图像分割版本:

考虑到论文的深度和字数,我决定为每个部分单独撰写文章。将有4篇文章(3篇+这篇)。在本文中,我们将探讨“建议的方法:TT-SRN”这一主题,并介绍其基本背景。文章-I涵盖I={1,…}的第一节,4}。开个玩笑而已。

文章1:“视频实例分段和TT-SRN简介”

第2条:“相关工作&其他VIS人员在做什么?”

第3条:“拟议办法:TT-SRN”

第四条:“结果与结论”

建议的方法:TT-SRN

我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块,即TT-SRN,以解决VIS任务。我们的方法TT-SRN将VIS任务视为单一状态下的预测问题的直接集合,使我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生实例预测序列。这些由变压器产生的实例级信息然后通过改进的正弦表示网络来获得最终的实例级类ID和包围盒,以及自适应的3-D卷积来获得分割掩码。在其核心,TT-SRN是一个自然的范例,通过相似性学习处理跟踪和分割,使系统能够产生快速而准确的预测集。实例序列匹配算法是在[29]的基础上改进的,用于跨视频帧跟踪实例。TT-SRN通过基于集合的全局丢失进行端到端的训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。第一次,由于双变压器是最快的方法之一,VIS问题在没有隐式CNN架构的情况下得到了解决。我们的方法可以很容易地划分为它的子组件,以产生单独的实例掩码和边界框,这将使它成为许多视觉任务的统一方法。在这一部分中,将TT-SRN划分为其子模块,并对其进行了详细描述。

3.1.双变压器

最近,论文[9]提出了双胞胎的概念,并证明了空间定向视觉转换器的性能优于经典的CNN[9]。在这里,我们将TWINS-SVT网络集成到我们的案例中,以生成实例级功能。他们的孪生变压器基于空间上可分离的自我注意(SSSA)网络,该网络由局部分组自我注意(LSA)和全局亚采样注意(GSA)组成[9]。由于其空间上可分离的模块,功能的质量大大提高了。在小节中,我们将详细描述SSSA模块。

3.1.1本地分组自我注意(LSA)

在LSA中,2-D特征图被划分为子窗口,这些子窗口能够在每个子窗口内实现自我关注。将特征图分成m×n个子窗口,每4个窗口由HWMn个元素组成,其中H,W代表图像尺寸。通过将图像划分为m×n区域,计算量从O(H^2*W^2*d)降低到O(H^2*W^2/(m*n)*d),其中d是自我关注维度。在这一点上,我们没有对窗口中的非重叠区域进行任何进一步的关联。因此,在这里,GSA模块开始发挥作用。

3.1.2全局子抽样注意力(GSA)

由于自我注意机制需要进一步的本土化,需要全局自我注意在不重叠的区域建立联系。在GSA模块中,使用来自本地参与窗口的单个代表性关键字信息来计算全局关注度。但是,随着全局注意力的计算,计算量将增加到O(H^2*W^2*d)。为了避免这种情况,局部关注的特征通过平均池、深度跨度卷积和规则跨度卷积进行子采样。结果表明,正则跨距卷积的性能最好[9]。从数学上讲,SSSA模块执行以下计算。

对于i=1,…,m和j=1,…n其中,LSA表示局部分组的自我关注,GSA表示全局次采样注意,FFN表示前馈网络,LayerNorm表示层归一化层[2]。这两个注意模块都是以多头方式进行的。

3.2.经典变形金刚

采用具有6个编码层和6个解码层的经典转换器体系结构,并带有GELU激活[15]来执行实例级查询生成。经典转换器的输出是实例建议加上附加的无对象查询。该转换器的用法与目标检测模型DETR[7]中的用法非常相似。在训练过程中,通过将预测与基本事实唯一地分配来执行二部匹配来监督模型。没有匹配的预测应该产生“无对象”类预测,因此实例查询的数量应该大于视频帧中的实例数量。在其核心,变压器由其编码器和解码器结构组成,将在以下小节中讨论。

3.2.1时空位置编码

由于变压器结构是排列不变的,因此需要对时空位置编码来建模精确的位置信息。时空位置编码基于正弦波,是经典位置编码的三维版本。我们的位置编码有3个不同的维度,分别是时间维度、水平维度和垂直维度。设最后的级联通道位置编码维数为d,则我们独立使用不同频率的d/3正弦函数,如下所示

其中w_k=(1/10000)^(2*k/(d/3)),位置是该维度中的位置。与传统位置编码的情况一样,这些3-D位置编码被添加到输入。

3.2.2变压器编码器

大小为6的转换器编码层适于学习稍后将传播到解码层以产生最终实例级查询的逐个实例的相似性。从双变压器中提取的特征被传递到具有256个输出潜在大小的单个卷积层。因此,变压器编码器的输入呈R^(NxLxHxW)的形状,其中N是批量大小,L是潜在大小,H和W是单卷积层的输出高度和宽度。注意,根据输入顺序保留时间顺序。每个编码层如常规那样执行多头自注意机制。

3.2.3变压器解码器

然后,编码特征序列通过转换器解码器层,以产生实例查询预测序列。在这一层,一系列可学习的实例查询也被传递到解码器层。实例查询是固定数量的输入嵌入,以表示实例预测的总数。为了安全起见,实例查询的数量总是大于镜像中的实例数量。二部匹配唯一地执行实例赋值,暴露的预测称为“无对象查询”。例如,假设我们在帧t中产生n_t个实例预测,则设q为一般实例查询的大小,使得所有帧中的q>n_t。

3.3。正弦表示网络

正弦表示网络是文献[25]中最近提出的一种表示学习方法。正弦层由完全连接的层组成,其独特的初始化在文[25]中介绍,具有正弦激活层。总体架构如图2所示。在这项工作中,我们针对我们的情况修改了它们的架构,在具有End Gelu非线性的正弦层之间增加了内部丢包层[15],以产生实例级的End特性。然后,这些末端特征被传播到分类、边界框检测和实例分割分支。我们意识到隐式神经表示的周期性激活,并证明这些被称为正弦表示网络或SEREN的网络非常适合密集的预测任务。我们的消融研究表明,用于终端预测层的周期性激活函数可以适用于密集的预测任务。

3.4.实例序列匹配

TT-SRN的一个重要方面,即实例序列匹配,是在文[29]的基础上,通过二部匹配将实例预测唯一地分配给实例预测,以监督模型。此外,此模块使我们能够推断预测实例的精确顺序,以便稍后在视频中启用跟踪实例。匹配损失既考虑了类别预测,也考虑了预测与地面事实的相似性[7]。设y表示对象的地面真值框集合,y˜=˜y^N_i=1表示N个预测的集合。我们的损失产生了预测和基础事实之间的最佳二部匹配。为了计算两个集合之间的二部匹配,计算以下最小化。

其中LMatch(y_i,y_σ˜(I))是基本事实和预测之间的实例匹配成本。这个指派问题是用匈牙利方法计算的,匈牙利方法是一种在多项式时间内求解指派问题的组合优化算法[7]。匹配过程既考虑了类别预测,也考虑了预测真值框和地面真值框的相似性。设注释的每个元素i由y_i=(c_i,b_i)表示,其中ci目标类,bi是表示地面真实归一化坐标的向量。这些坐标被组织为中心、高度和宽度,并且它们相对于图像大小。然后,对于指标为σ(I)的预测,设˜p_σ(I)(Ci)表示分类概率,˜b_σ(I)表示预测盒。因此,我们可以如下定义LMatch(y_i,y_σ˜(I))。

该过程监督模型,在启发式分配过程中起着重要作用。在经典的目标检测或实例分割任务(例如,Mask RCNN[13])中,这些过程相当于匹配建议或锚定到地面真理。与经典方法显著不同的是,二部匹配法是唯一赋值的。在这一点上,我们将预测与它们的基本事实一起分配,所以我们需要计算损失,在我们的例子中,是所有匹配对的匈牙利损失。给定一对一分配,匈牙利损失将损失计算为类别预测的负对数似然、框和实例序列的掩码损失的线性组合,如下所示。

其中σ˜是先前计算的最优分配。此损失用于以端到端的方式训练模型。接下来,我们需要定义L_box和L_MASK。L_box的计算类似于DETR[7]中的计算,如下所示。

其中,λ_IOU和λ_L1是超参数。请注意,损失将根据帧内的实例数量进行规格化。

3.5。实例序列分割

TT-SRN的另一个重要方面,即实例序列分割模块,是从论文[29]中改编来产生末端分割掩码的。在内部,该模块累积帧的实例特征,然后对这些累积的特征执行分割。对于每一帧,由变压器的端解码层收集的实例预测和由变压器的端编码层收集的变压器编码特征通过自关注模块。然后,将这些附加特征与双变压器收集的特征和从变压器的末端编码器生成的编码特征进行融合。此过程与VISTR[29]和DETR[7]的情况非常相似。然后,具有不同大小的实例级特征被馈送到可变形卷积层[10]中,该可变形卷积层[10]利用附加偏移量来增加模块中的空间采样位置,并从目标任务学习偏移量,而不需要额外的监督[10]。然后,将形状为R^(1xCxTxtHxW)的融合地图馈送到具有组归一化[30]和Gelu非线性[15]的3-D卷积层中,其中C是通道维度,T是时间维度,H和W是空间特征维度。在最后一层,单个卷积层具有1个输出通道维度,以获得分段掩码。最后,我们需要定义Lask来完成损失函数。通过组合骰子[22]和焦损[18]来计算L_MASK,如下所示。

这就是这篇文章的结尾。跳到下一个!

[1]A.Athar,S.Mahadevan,A.Osep,L.Leal-taixˇe,和B.Leibe。STEM-SEG:时空嵌入,例如视频中的分割,2020。

[2]J.L.Ba,J.R.Kiros和G.E.Hinton。图层标准化,2016。

[3]G.Bertasius和L.Torresani.利用遮罩传播对视频中的对象实例进行分类、分割和跟踪,2020。

[4]G.Bertasius、L.Torresani和J.Shi.利用时空采样网络进行视频中的目标检测,2018年。

[5]A.Bewley,Z.GE,L.Ott,F.Ramos和B.Upcroft。简单的在线和实时跟踪。2016年9月,IEEE图像处理国际会议(ICIP)。

[6]曹军,R.M.Anwer,H.Cholakkal,F.S.Khan,Y.Pang,L.Shao.SipMask:用于快速图像和视频实例分割的空间信息保存,2020。

[7]N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov和S.Zagoruyko。使用变压器进行端到端目标检测,2020。

[8][8]陈启刚,庞军,王军,熊永强,李祥,孙松山,冯伟,刘振军,石军,欧阳,罗振中,林东东.针对实例细分的混合任务级联,2019年。

[9]楚晓明,田智田,王勇,张斌,任海文,魏晓伟,夏海华,沈春春。“双胞胎:重温视觉变形金刚中空间注意力的设计”,2021年。

[10]戴军,齐海奇,熊勇,李勇,张刚,胡华,魏勇。可变形卷积网络,2017。

[11]A.Dosovitski,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehgani,M.Minder,G.Heigold,S.Gelly等。一张图片价值16×16个字:按比例进行图像识别的变形金刚。arxiv预印本arxiv:2010.11929,2020年。

[12]B.Hariharan,P.Arbelaez,R.Girshick和J.Malik。同时检测和分割,2014。

[13]K.He,G.Gkioxari,P.Dollar和R.Girshick。掩护r-CNN,2018年。

[14]何启和,张小新,任善新,孙军。深度残差学习在图像识别中的应用,2015。

[15]D.Hendrycks和K.Gimpl.高斯误差线性单位(Gelus),2020。

[16]C.-C.Lin,Y.Hung,R.Feris,L.He.使用改进的VAE架构的视频实例分割跟踪。“IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集”,2020年6月。

[17]书名/作者声明:[by]T.Y.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and‘S.Belongie.用于目标检测的特征金字塔网络,2017。

[18]T.Y.Lin,P.GoYal,R.Girshick,K.He,P.Dollar。高密度物体检测的焦点丢失,2018年。

[19]T.Y.Lin,M.Maire,S.Belongie,L.Bourdev,R.Girshick,J.Hays,P.Perona,D.Ramanan,C.L.Zitnick和P.Dollar。‘Microsoft Coco:Context中的常见对象,2015。

[20]刘振荣,林玉云,曹永元,胡海华,魏永元,张振中,林世山,郭斌。旋转变压器:使用移位窗口的分层视觉转换器。arxiv预印本arxiv:2103.14030,2021年。

[21]I.Loshchiov和F.Hutter。解耦的权重衰减正则化,2019年。

[22]书名/作者声明:[font=宋体]F.Milletari,N.Navab,S.-A.Ahmadi.V-Net:用于体积医学图像分割的全卷积神经网络,2016。

[23]A.Paszke,S.Gross,F.Massa,A.Lerer,J.Bradbury,G.Chanan,T.Killeen,Z.Lin,N.Gimelshein,L.Antiga,A.Desmaison,A.Kopf,E.Yang,Z.DeVito,M.Reason,¨A.Tejani,S.Chilamkurthy,B.Steiner,L.Fang,J.Bai和S.Chintala。火炬:势在必行的风格,高性能深度学习库,2019。

[24]O·Russakovsky,J.Dung,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpy,A.Khosla,M.Bernstein,A.C.Berg,L.Fei-fei。2015年ImageNet大规模视觉识别挑战赛。

[25]书名/作者The Sitzmann,J.N.P.Martel,A.W.Bergman,D.B.Lindell,G.Wetzstein。具有周期激活函数的隐式神经表示,2020。

[26]J.Son,M.Baek,M.Cho和B.Han.基于四重卷积神经网络的多目标跟踪。2017年IEEE计算机视觉与模式识别会议(CVPR),第3786-3795页,2017。

[27]H.Touvron,M.Cord,M.Douze,F.Massa,A.Sablayroll,和H.Jegou。通过注意力训练数据高效的图像转换和提炼。arxiv预印本arxiv:2012.12877,2020年。

[28]A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.Kaiser和I.Polosukhin。2017年,你只需要关注就行了。

[29]王勇,徐志忠,王霞,沈春,程兵,沈海文,夏海华。使用变压器进行端到端视频实例分割,2021。

[30][中英文摘要]Y.Wu和K.He。团体正常化,2018年。

[31]杨力,范玉英,徐宁。视频实例分段,2019年。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/02/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6%e4%b8%89/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK