4

TT-SRN:基于变压器的视频实例分割框架(下)

 2 years ago
source link: https://panchuang.net/2021/10/02/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6%e4%b8%8b/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

你有5秒钟的时间,告诉我什么是TT-SRN?

TT-SRN和VIS到底是什么?

视频实例分割(VIS)是最近引入的计算机视觉研究领域,旨在对视频域中的实例进行联合检测、分割和跟踪。最近的方法提出了高度复杂的多级网络,这些网络实际上是不可用的。因此,在实践中需要使用简单而有效的方法。为了填补这一空白,我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块TT-SRN来解决这一问题。TT-SRN将VIS任务看作是一个单阶段的直接序列预测问题,使得我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生一组实例预测。产生的实例级信息然后通过修改的SRN传递,以获得最终的实例级类ID和边界框,以及自动参与的3-D卷积,以获得分段掩码。在其核心,TT-SRN是一个自然的范例,它通过相似性学习处理实例分割和跟踪,使系统能够产生快速而准确的预测集。TT-SRN采用基于集合的全局丢失进行端到端训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。首次在没有隐式CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。

代码和纸张可在以下位置获得:

TT-SRN的图像级目标检测和图像分割版本:

考虑到论文的深度和字数,我决定为每个部分单独撰写文章。将有4篇文章(3篇+这篇)。在本文中,我们将探讨“VIS的相关工作”这一主题,并介绍其基本发展。文章-I涵盖I={1,…}的第一节,4}。开个玩笑而已。

文章1:“视频实例分段和TT-SRN简介”

第2条:“相关工作&其他VIS人员在做什么?”

第3条:“拟议办法:TT-SRN”

第四条:“结果与结论”

视频实例分割的相关工作

在文献中有各种方法来解决视频实例分割的任务,因为它通常被认为是多阶段问题,即分割/检测和跟踪组件在不同阶段被处理。然而,最近的研究已经提出了单阶段的、简单的、计算上有效的方法来解决这个问题,尽管单阶段方法的性能并不比多阶段方法好。因此,计算机视觉研究界扩展了论文[31]中所做的工作,提出了Mask-Track R-CNN的变体或用于视频实例分割任务的新方法。STEM-Seg算法是针对这一任务的另一种新算法,特别是,他们将视频片段建模为单个3D时空体积,并提出了一种新的方法,可以在单个阶段内跨空间和时间分割和跟踪实例[1]。

然后是林中青等人。针对视频实例分割任务,提出了一种基于变分自动编码器的分割跟踪算法,该算法构建了一个共享编码器和三个并行解码器,为预测未来帧、对象检测框和实例分割掩码产生了三个互不相交的分支[16]。为了促进这一问题的研究,曹佳乐等人提出了另一种称为SipMask的单步新算法,该算法通过将实例的掩码预测分离到检测到的包围盒的不同子区域来保留特定于实例的空间信息[6]。然后,VISTR被提出为基于单级变压器的VIS体系结构,它将VIS任务视为直接的端到端并行序列解码/预测问题[29]。我们的一些工作改编自VisTR模块。具体地说,我们集成了他们的实例序列匹配和分割模块,对完整的实例进行监督和分割。实例序列匹配在输出实例序列和地面真实实例序列之间执行二部图匹配,并监督TT-SRN,从而TT-SRN学习实例之间的相似性[29]。实例序列分割模块执行自适应3-D卷积以学习像素级相似性。因此,解决时域实例级分割问题有多种不同的方法,在本文中,我们将视频实例分割问题视为预测问题的直接集合,提出了我们的解决方法。即使将视频实例分割的概念归类为一个新的课题,文献中也存在各种类似的问题,如图像级实例分割、视频对象检测、视频对象跟踪、视频对象分割等。我们将简要描述一下类似的问题。

2.1.图像级实例分割

实例分割不仅将像素分组到不同的语义类,而且还将它们分组到不同的对象实例[12]。通常采用两阶段范例,其首先使用区域提议网络(RPN)生成对象提议,然后使用聚集的ROI特征预测对象边界框和掩码[12]。在我们的例子中,我们不仅为个人生成分割掩码,而且还将它们与视频序列相关联。

2.2.视频对象检测

视频对象检测的目的是检测视频中的对象,这是作为ImageNet视觉挑战的一部分首次提出的[24]。即使关联和提供身份改善了检测质量,该挑战也限于用于每帧检测的空间保留的评估度量,并且不需要联合对象检测和跟踪[31]。然而,在我们的例子中,我们的目标是联合检测、分割和跟踪,而不是视频对象检测任务。

2.3.视频对象跟踪

视频目标跟踪任务通常被认为是基于检测和无检测的跟踪方法。在基于检测的跟踪算法中,对象被联合检测和跟踪,从而跟踪部分提高了检测质量,而在无检测方法中,我们被给予初始边界框并试图跨视频帧跟踪该对象[26,31]。由于基于检测的方法与我们的情况类似,视频实例分割需要时间分割掩码。因此,与以前的基本计算机视觉任务不同,视频实例分割需要多学科的聚合方法。

2.4.视频实例分割

由于视频实例分割任务是有监督的,因此需要对具有预定义类别的包围框和二值分割掩码进行以人为本的高质量标注。设Ci是属于i=1,…的数据集D的对象类别,K,其中K是D中包括背景的唯一类别的数目。然后,设B ti j和S ti j是第j个∈C1,…的第j个边界框和二进制掩码,视频帧ti∈T中的CK对象,其中T表示给定视频序列中的帧数。假设在推理阶段,VIS算法产生N∈C1,…,CK实例假设,使得Hti nj表示由VIS产生的对第n个j个实例和第t个时间的预测。因此,H ti nj包括置信度分数s ti j∈[0,1]作为实例与预定义类别、ˆB ti j和ˆS ti j的标识概率。因此,我们试图最小化人工创建的注释和产生的假设,因为它需要快速和最佳的检测、跟踪和分段估计。

这就是这篇文章的结尾。跳到下一个!

[1]A.Athar,S.Mahadevan,A.Osep,L.Leal-taixˇe,和B.Leibe。STEM-SEG:时空嵌入,例如视频中的分割,2020。

[2]J.L.Ba,J.R.Kiros和G.E.Hinton。图层标准化,2016。

[3]G.Bertasius和L.Torresani.利用遮罩传播对视频中的对象实例进行分类、分割和跟踪,2020。

[4]G.Bertasius、L.Torresani和J.Shi.利用时空采样网络进行视频中的目标检测,2018年。

[5]A.Bewley,Z.GE,L.Ott,F.Ramos和B.Upcroft。简单的在线和实时跟踪。2016年9月,IEEE图像处理国际会议(ICIP)。

[6]曹军,R.M.Anwer,H.Cholakkal,F.S.Khan,Y.Pang,L.Shao.SipMask:用于快速图像和视频实例分割的空间信息保存,2020。

[7]N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov和S.Zagoruyko。使用变压器进行端到端目标检测,2020。

[8][8]陈启刚,庞军,王军,熊永强,李祥,孙松山,冯伟,刘振军,石军,欧阳,罗振中,林东东.针对实例细分的混合任务级联,2019年。

[9]楚晓明,田智田,王勇,张斌,任海文,魏晓伟,夏海华,沈春春。“双胞胎:重温视觉变形金刚中空间注意力的设计”,2021年。

[10]戴军,齐海奇,熊勇,李勇,张刚,胡华,魏勇。可变形卷积网络,2017。

[11]A.Dosovitski,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehgani,M.Minder,G.Heigold,S.Gelly等。一张图片价值16×16个字:按比例进行图像识别的变形金刚。arxiv预印本arxiv:2010.11929,2020年。

[12]B.Hariharan,P.Arbelaez,R.Girshick和J.Malik。同时检测和分割,2014。

[13]K.He,G.Gkioxari,P.Dollar和R.Girshick。掩护r-CNN,2018年。

[14]何启和,张小新,任善新,孙军。深度残差学习在图像识别中的应用,2015。

[15]D.Hendrycks和K.Gimpl.高斯误差线性单位(Gelus),2020。

[16]C.-C.Lin,Y.Hung,R.Feris,L.He.使用改进的VAE架构的视频实例分割跟踪。“IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集”,2020年6月。

[17]书名/作者声明:[by]T.Y.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and‘S.Belongie.用于目标检测的特征金字塔网络,2017。

[18]T.Y.Lin,P.GoYal,R.Girshick,K.He,P.Dollar。高密度物体检测的焦点丢失,2018年。

[19]T.Y.Lin,M.Maire,S.Belongie,L.Bourdev,R.Girshick,J.Hays,P.Perona,D.Ramanan,C.L.Zitnick和P.Dollar。‘Microsoft Coco:Context中的常见对象,2015。

[20]刘振荣,林玉云,曹永元,胡海华,魏永元,张振中,林世山,郭斌。旋转变压器:使用移位窗口的分层视觉转换器。arxiv预印本arxiv:2103.14030,2021年。

[21]I.Loshchiov和F.Hutter。解耦的权重衰减正则化,2019年。

[22]书名/作者声明:[font=宋体]F.Milletari,N.Navab,S.-A.Ahmadi.V-Net:用于体积医学图像分割的全卷积神经网络,2016。

[23]A.Paszke,S.Gross,F.Massa,A.Lerer,J.Bradbury,G.Chanan,T.Killeen,Z.Lin,N.Gimelshein,L.Antiga,A.Desmaison,A.Kopf,E.Yang,Z.DeVito,M.Reason,¨A.Tejani,S.Chilamkurthy,B.Steiner,L.Fang,J.Bai和S.Chintala。火炬:势在必行的风格,高性能深度学习库,2019。

[24]O·Russakovsky,J.Dung,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpy,A.Khosla,M.Bernstein,A.C.Berg,L.Fei-fei。2015年ImageNet大规模视觉识别挑战赛。

[25]书名/作者The Sitzmann,J.N.P.Martel,A.W.Bergman,D.B.Lindell,G.Wetzstein。具有周期激活函数的隐式神经表示,2020。

[26]J.Son,M.Baek,M.Cho和B.Han.基于四重卷积神经网络的多目标跟踪。2017年IEEE计算机视觉与模式识别会议(CVPR),第3786-3795页,2017。

[27]H.Touvron,M.Cord,M.Douze,F.Massa,A.Sablayroll,和H.Jegou。通过注意力训练数据高效的图像转换和提炼。arxiv预印本arxiv:2012.12877,2020年。

[28]A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.Kaiser和I.Polosukhin。2017年,你只需要关注就行了。

[29]王勇,徐志忠,王霞,沈春,程兵,沈海文,夏海华。使用变压器进行端到端视频实例分割,2021。

[30][中英文摘要]Y.Wu和K.He。团体正常化,2018年。

[31]杨力,范玉英,徐宁。视频实例分段,2019年。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/02/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6%e4%b8%8b/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK