基于关系蒸馏网络的视频目标检测算法

127 浏览量更新于2023-10-12 收藏 2.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7023基于关系蒸馏网络的视频目标检测算法Jiajun Deng†，Yingwei Pan‡，Ting Yao‡，Wengang Zhou†，Houqiang Li†，andTao Mei‡†中国科学技术大学GIPAS中科院重点实验室，中国合肥‡JD AI Research，北京，中国{djiajun1206，panyw.ustc，tingyao.ustc}@ gmail.com，{zhwg，lihq}@ ustc.edu.cn，tmei@jd.com摘要已经很好地认识到，对对象到对象关系进行建模将有助于对象检测。然而，这个问题并不是微不足道的，特别是当探索对象之间的相互作用，以提高视频对象检测器。该困难源于视频中的可靠对象关系不仅应取决于当前帧中的对象，而且还应取决于在视频的长范围跨度上提取在本文中，我们介绍了一种新的设计，以捕捉跨对象的时空背景下的具体来说，我们提出了关系蒸馏网络（RDN）-一种新的架构，新颖的聚合和传播对象的关系，以增强对象的检测功能。从技术上讲，对象提案首先通过区域规划网络（RPN）生成。然后，RDN一方面通过多阶段推理对所学习的关系验证了在改进每个帧中的对象检测和跨帧的框链接两者上的功效。在ImageNet VID数据集上进行了广泛的实验，并且与最先进的方法相比，报告了优异的结果更值得注意的是，我们的RDN分别使用ResNet-101和ResNeXt-101实现了81.8%和83.2%的mAP当进一步配备连接和rescoring，我们获得迄今为止最好的报告mAP的83.8%和84.7%。1. 介绍卷积神经网络（CNN）的进步已经成功地推动了极限，并改进了图像和视频理解的最先进技术[16，18，19，22，24，25，35，34，37，42，43，44]。为一体的最基本的任务，静止图像中的对象检测吸引了研究兴趣的激增，最近的方法，*这项工作在JD AI Research进行。图1.通过采用（a）图像内的堆叠关系和（b）跨视频帧的级联方式的蒸馏来对对象关系进行建模。ods [3，5，10，14，39]主要沿着从R-CNN [11]的工作导出的基于区域的检测范例进行在定位和识别视频中的对象的进一步步骤中，视频对象检测探索时空相干性以通常通过框级关联[8，13，20，21]和特征ag的两个方向来提升检测器。分离[46，49，53，54]。前者深入研究了从连续帧中跨边界框的关联以生成tubelet。后者通过聚集附近的特征来改进每帧特征不管这些不同的配方，增强视频对象检测，一个共同的问题没有充分研究的是利用对象的关系，这被认为是有帮助的检测。对象关系表征对象之间的相互作用或几何位置。在文献中，已经存在关于使用对象关系来支持各种视觉任务的有力证据，例如，识别[48]、对象检测[17]、跨域检测[2]和图像字幕[52]。采用对象关系的一个代表性工作是[17]用于图像中的对象检测。其基本思想是将一个对象的关系特征度量为图像中其他对象的外观特征的如图1（a）所示的堆叠关系模块聚集关系特征并以多步方式增强对象特征。验证了该方法在建模对象（b）第（1）款参考框架采样支持框架先进支持性建议区域提案图像（一）FCFCFC关系关系FC关系FCFC关系关系关系7024最终增强图像对象检测的关系然而，由于复杂的时空背景，将图像中的对象关系挖掘扩展到视频中是非常具有挑战性的。参考框架中的物体和从附近框架中提取的所有支持物体都应考虑在内。如果直接利用[17]中的对象关系度量，这种区别会导致计算成本和内存需求的巨大增加，更不用说支持对象提议的增加会导致更多的无效提议，这可能会影响关系学习的整体稳定性。为了缓解这些问题，我们提出了一种新的多级模块，如图1（b）所示。我们独特的设计是渐进式地安排关系蒸馏。我们从所有支持框架中选择具有高对象性得分的对象pro-pro-alms，并且仅用对象关系来增强这些建议的特征，以进一步提取关于参考框架中的propo-als的关系这种级联方法一方面可以减少计算量，过滤掉无效的建议，另一方面可以更好地细化对象关系。通过整合时空背景下对象关系建模的思想，我们提出了关系蒸馏网络（RDN）来增强视频对象检测。具体地说，区域建议网络（RPN）被用来从参考框架和所有的支持框架中产生对象建议。从支持框架中提取的对象建议我们的RDN的目标是通过在支持池中的提案上聚合其关系特征来增强参考框架中每个对象提案的特征。RDN采用多级推理结构，分为基本推理阶段和高级推理阶段。在基础阶段，RDN利用支持池中的所有建议来测量关系特征，这些关系特征基于外观和地理信息来测量。在此阶段，无论建议的有效性如何，都将在所有支持性建议中全面探索相互作用。相反，处于高级阶段的RDN很好地选择了具有高对象性得分的支持性建议，并首先赋予这些建议的特征与所有支持性建议的关系。然后，这种聚合特征又加强了相对于参考框架中的建议的关系蒸馏。最后利用每个具有对象关系的提案的升级特征进行提案分类和回归。此外，学习到的关联关系也有利于框链接的后处理.请注意，我们的RDN适用于任何基于区域的视觉任务。2. 相关工作物体检测。深度卷积神经网络[16，22，43，44]和注释良好的数据集[28，40]的最新进展激发了图像对象检测[5，10，11，14，15，23，26]的显着改进，27、30、38、39、41]。物体检测一般有两个方向。一种是基于建议的两级检测器（例如，R-CNN [11]、Fast R-CNN [10]和Faster R-CNN [39]），另一种是无建议的一级检测器（例如，[30][38][39]最近，在NLP领域[9，45]注意力模型成功的激励下，[17，47]通过利用区域/CNN特征之间的注意力/关系来扩展注意力机制以支持计算机视觉任务。特别是[17]提出了一个对象关系模块，通过区域建议的外观特征和坐标信息之间的相互作用来建模区域建议的关系。[47]将非本地操作插入到传统的CNN中，以实现CNN特征图中的关系交互，旨在捕获上下文信息，并最终提升对象检测和视频分类任务。我们所研究的关系蒸馏网络也是一种对象间的关系建模与为图像中的对象检测而开发的[17]不同，我们超越了一个图像中对象关系的挖掘，旨在探索视频对象检测的复杂时空背景中多帧之间的对象交互此外，一个渐进式的关系蒸馏的时间表被设计来细化对象关系，同时减少计算成本测量对象之间的关系参考框架和所有附近的支持框架。视频对象检测。将静止图像检测器推广到视频域并非微不足道，这是由于空间并且视频中存在时间复杂变化，更不用说某些帧中的对象外观可能由于运动模糊或遮挡而恶化。一个常见的解决方案来修改这个问题是功能聚合[1，29，49，53，54，55]，通过聚合附近帧的功能来增强每帧的功能。具体而言，FGFA[54]利用FlowNet的光流[7]以引导在用于特征聚合的相邻帧的特征图上的像素级运动补偿[49]设计时空存储器模块以执行逐帧空间对准以用于聚集。视频对象检测的另一个方向是框级关联[8，13，20，21，46]，其通过链接/跟踪的独立过程将来自连续帧的边界框关联以生成tubelet。Seq-NMS [13]根据连续帧的边界框之间的jaccard重叠构建时间图D T [8]积分跟踪公式到R-FCN [5]中，以同时执行对象检测和跨帧跟踪回归。[46]进一步扩展FGFA [54]，在框级上校准对象特征，以提高视频对象检测。尽管特征级和框级方法通常都具有更高的定量分数来增强视频对象检测，但是对象关系并不完全被理解。7025τ=t−Tτ=t−T我τ=t−T图2.用于视频对象检测的关系蒸馏网络（RDN）概述给定输入参考系It和所有支撑框架{Iτ}t+T区域建议网络（RPN）首先被用来产生对象建议（即，关注区域（RoI））从参考框架和所有支撑框架。我们从参考框架中选取前K个对象建议作为参考对象集并将来自支持框架的所有top-K对象建议打包到支持池Rs中。在此之后，RDN的设计，以增加每个参考建议在Rr的功能，通过聚合其关系功能的支持建议在Rs，使对象关系的建模在时空背景下。具体地说，RDN是一个多级模块，包括基本阶段和高级阶段，以支持多级推理和关系蒸馏。在基础阶段，利用RS中的所有支持性建议，通过探索所有支持性建议之间的相互作用，度量RR中每个参考建议的关系特征，输出一组细化的参考建议RR1。在高级阶段，我们首先选择Rs中具有高客观性得分的r%支持性建议以形成高级支持性池Rsa，其中每个支持性建议的特征被赋予与所有支持性建议的关系。这样的聚合特征然后反过来加强相对于来自基本阶段的Rr1中的提议的关系蒸馏最后，从高级阶段输出的所有参考建议（Rr2）的升级功能被用于建议分类和回归。用于视频中的对象检测。其中，中心坐标系It被设置为参考坐标系。trast，我们利用空间对象关系的建模，相邻帧的整个序列{Iτ}t+T采取时间上下文以促进视频对象检测。本最后，我们设计了一种新的关系蒸馏网络，用于跨帧聚集和传播对象关系，以级联的方式增加对象特征用于检测。3. 用于视频对象检测的在本文中，我们设计的关系蒸馏网络（RDN），以促进视频中的对象检测，通过捕捉对象在时空背景下的相互作用。具体来说，首先利用区域建议网络（RPN）从参考文献中获取目标建议作为支持帧，T表示时间跨度支持框架的范围。因此，视频对象检测的目标是通过适当地利用支持帧中的空间-时间相关性来检测参考帧中的对象。由于最终目标是在时空背景下建模对象关系以提高视频对象检测，因此首先利用RPN来生成参考帧和所有支持帧的对象建议。从参考帧中选择的前K个对象提议的集合被从参考帧中选择。记为Rr={R r}。来自支持框架的所有前K个对象建议被分组为支持池，表示为如Rs={Rs}。此外，我们进一步细化支持框架和所有支撑框架。然后，RDN聚合，通过支持性建议传播对象关系，池Rs我通过抽样r%支持对象提案，增加每个参考对象建议的功能，高客观性得分，导致高级支持性池Rsa={R sa}。两个支持池R和侦测。在RDN中采用多级模块，通过多阶段推理同时建模对象关系-我高级支持池RSA将用于我们的...通过以级联方式精炼具有高客观性分数的支持对象建议来提取和逐步提取关系。学习到的关系可以在用于检测的分类回归和后处理中的检测盒连接中进一步利用。我们的RDN架构的概述如图2所示。3.1. 概述记法。在视频对象检测的标准任务中，我们给定相邻帧序列{Iτ}t+T建立关联蒸馏网络，以实现关系蒸馏的动态调度。问题表述。受到最近在各种视觉任务中探索对象关系的成功的启发（例如，识别[48]和对象检测[17]），我们通过对时空上下文中的对象之间的交互进行建模来制定我们的视频对象检测方法给定参考建议集Rr、支持性池Rs和高级支持性池Rsa，我们有兴趣逐步增加fea。区域特征提取前K基础阶段ROI1RoI2RoI3ROI1RoI 2RoI K关系模块+...FCROI1RoI2RoI K关系模块+ROI 1RoI2RoI3ROI1RoI2RoI K高级阶段关系前r%模块+FC关系模块+ROI1RoI2RoI3仓鼠0.9299分类回归0.火腿.................................ResNetRPNResNetRPNResNetRPNRoIPoolingFCRoIPoolingFC支持池RoIPoolingFC高级支持池7026我我我雷拉岛ij LjRr中的每个参考建议的真实性，以及与Rs和Rsa中的支持建议的关系。为此，aRi和它的外观特征，我们最终得到对象关系模块输出的本文在此基础上构造了一种新型的关系蒸馏网络f（R，R）=f+concat[{fm（R，R）}M]中。（二）精液检测器Faster R-CNN [39].一个多阶段的现实-rm i i雷拉岛m=1RDN采用基本级和高级级的分层结构，以级联方式逐步调度关系这种级联方法的设计不仅减少了计算量，滤除了无效方案，而且逐步细化了参考方案与支持方案的对象关系，提高了检测效率。在基础阶段，利用RS中的所有支持性建议，从外观和几何两个方面度量Rr中的参考建议的关系特征试试信息。因此，来自基本阶段的细化参考提案的输出集合Rr 1={R r1}经由堆叠关系模块获得，该堆叠关系模块探索参考提案和所有支持提案之间的相互作用，而不管提案的有效性。发达在此阶段，我们首先增强高级支持池Rsa中每个选定支持方案的特征，并将其与Rs中所有支持方案相关联。这些支持性建议的聚集特征反过来又加强了从基本阶段输出的Rr1 一旦提出了改进的参考方案Rr2={R r2}，直接用于改进参考系中的目标检测。的详细情况我们的RDN的多阶段推理结构将在3.3节此外，通过表征跨帧的对象之间的自然交互，可以进一步利用所学习的关系来引导后处理中的检测框链接，这将在第3.4节中呈现。3.2. 对象关系模块我们首先简要回顾用于图像中的对象检测的对象关系模型[17]受[45]中的多头注意力的启发，给定建议R={Ri}的输入，对象关系模块被设计为通过测量M个关系特征来增强每个建议Ri，作为其他方案外观特征的加权和注意，我们用其几何特征gi（即，对象建议的4维坐标）和外观特征f1（即，对象提议的RoI池化特征形式上，建议Ri的第m个关系特征是以R为条件计算的：3.3. 关联蒸馏网络与[17]探索用于对象检测的图像内的对象关系不同，我们通过利用复杂时空背景下跨多帧的对象交互来促进视频对象检测中的对象关系建模。将图像中的关系增强检测器扩展到视频的一种自然方式是对[17]中的对象关系模块进行然而，这种方式会导致计算成本的大幅上升，更不用说支持性建议的增加会导致更多的无效建议，从而不可避免地影响关系学习的整体稳定性。为了缓解这个问题，我们设计了关系蒸馏网络，通过一个多阶段的推理结构，其中包含基本阶段和高级阶段，逐步调度关系蒸馏，以提高检测。其背后的精神遵循这样的哲学：基础阶段从整体上探索所有支持性建议与参考建议之间的关系，高级阶段通过提炼支持性建议逐步提炼关系，并通过关系进一步加强参考建议。基础阶段。形式上，给定参考方案集Rr和支持池Rs，基本阶段预测每个参考方案的关系特征，经由堆叠关系模块对来自所有支持性建议的特征进行加权和：r1 r sR =N碱性（R，R），⑶其中，Nbasic（·）表示基本级中的经验证的关系模块的功能，Rr1表示输出从基础阶段开始增强参考建议。请注意，在视频对象检测的复杂时空背景下，单个关系模块不足以对多个帧之间的对象之间的交互进行建模。因此，我们以一种堆叠的方式来描述关系推理，这种堆叠的方式配备了Nb个对象关系模块，以便更好地表征关于参考建议的所有支持性pro-price之间的关系。具体来说，对于基础阶段的第k个对象关系模块，第i个引用.Σfm（R，R）=ωm·（Wm·f），m=1，···，M，（1）J利用支持性池R中的所有提议上的关系特征来增强存在性提议：其中Wm表示变换矩阵。ω.是一个rsLijRr1，k=frm（Ri，R），k= 1，（四）关系权重矩阵ω中的元素，并且表示建议Ri和Rj之间的明智关系是指，FRM（h（Rr1，k−1），Rs），k >1，基于它们的外观和几何特征来确定通过连接每个提议的所有M个其中h（·）表示用全连接层加上ReLU实现的特征变换函数每个我7027S我RR1saR2τ=t−Tτ=t−TMIJ我 J我J我我J算法1 RDN的推理算法其中Ra表示第i个细化的支持性建议。Af-1：输入：视频帧{I，t}，时间跨度范围T。我因此，经过改进的支持性建议Ra={Ra}第二章：对于t=1到T+1，是否初始化建议特征缓冲区3： Rt =NRoI（It）区域建议和特征提取4：Rt=样本顶部-K（Rt）=样本顶部-K建议用于进一步提取与参考有关的关系基本阶段的建议Rr1Rr2= fr1a5：结束6：对于t=l至∞，do7： R=RtS参考建议集Si rm（Ri，R），（7）其中Rr2表示第i个升级的参考建议。最后，所有升级的参考建议Rr 2={Rr2}8：R = Rmax（1，t-T）∪··· ∪Rt+T支持池i俄.西9： R =Nbasic（R，R）basicstage用于提案分类和回归。10：R =样本顶部-r%（Rs）最高-r%提案的最高样本训练与推理在训练阶段，我们采用11： R =Nadv（Rr1，Rs，Rsa）晚期时间退出策略[54]随机选择两个R212： Dt=Ndet（R分类与回归支撑框架It+τ1和It+τ2（τ1，τ2∈[−T，T]），13： Rt+T+1=NRoI（It+T+1）S相邻帧{Iτ}t+T。因此，整个RDN14： Rt+T+1=样品顶部-K（Rt+T+1）15：更新建议特征缓冲器16：结束17：输出：检测结果{Dt}是最优化的分类和回归损失以端到端的方式在来自高级阶段的关系增强的参考建议Rr2在推理过程中，我们遵循[54]并使用滑动建议特征缓冲区顺序处理每个帧相邻帧{I τ}t+T。本提案的容量关系模块采用引用来自先前关系模块的建议作为参考输入。我们在基本阶段堆叠Nb个关系模块，并且将来自第Nb个关系模块的所有增强参考建议作为基本阶段的输出Rr1高级阶段。基础阶段的关系推理只研究了参考建议与所有支持建议之间的交互关系的建模，而没有研究R中支持建议之间的关系。此外，我们提出了一个新的高级阶段，以探索支持性建议之间的相互作用，通过加强对所有支持性建议的关系，蒸馏支持性建议。其次，利用增强的、提炼的支持性建议，通过相互之间的关系推理，从基础阶段进一步这种在高级阶段逐步提取支持建议的设计不仅降低了测量支持建议之间的关系的计算成本，而且过滤掉无效的支持建议进行关系推理，最终提高检测。从技术上讲，给定输出参考建议Rr1特征缓冲器被设置为相邻帧的长度（即，2T+1），除了开始和结束T帧。算法1给出了RDN的详细推理过程。3.4. 使用关系链接为了通过对连续帧中的各个检测框重新评分来进一步提高视频对象检测结果，我们采用了跨帧链接检测框的后处理，如[12，13，21]所示尽管框级后处理方法通常以更高的定量分数增强了视频对象检测，但是对于框链接，检测框之间的对象关系没有被充分研究相比之下，我们将学习的对象到对象关系集成到框链接的后处理中，以进一步在高相关检测框之间传播置信度得分，从而提高检测。具体来说，我们制定的后处理框链接作为一个最佳路径寻找问题。请注意，由于框链接是独立应用于每个类的，为了简单起见，我们在这里省略了class的标记两个德-来自连续帧I的检测盒d t和d t+1和从基础阶段、支持池Rs、高级阶段支持池Rsa，高级阶段进一步加强所有参考建议Rr1，通过逐步扩展-It+1，它们之间的链接得分计算为：S（dt，dt+1）={st+st+1+iou（dt，dt+1）}·eω<$ij，（8）联系蒸馏：其中ST和ST+1是两个框的置信度分数，I jR2R =NR1adv（R萨，R，R），（五）并且i〇u（·）指示在er_l_ap上的jaccard。ω¯ij表示pair-两个盒子DT和DT+1之间的明智的关系权重，I j其中Nadv（·）表示高级操作，Rr2表示输出关系增广参考它是所有M关系的平均值在基本阶段的最后一个关系模块中得到的权重Σ：先进阶段的建议。具体来说，我们首先saij=1Mm=1 ωm 因此，对于每个类，我们寻求在R中提炼出支持性的建议有关的最优路径为：S7028反对R中所有支持性建议的推理：P¯*=argmax1L−1S（Dt，Dt+1），（9）Ra=f萨（6）Li rm（Ri，R），P¯t=17029我其中Dt={d t}表示帧I t中的检测框的集合，并且L是视频的持续时间。这个问题可以通过Viterbi算法来解决[12]。一旦最佳路径对于链接框，我们遵循[8]，并通过添加该路径中框的前50%分类得分的平均值来对每个管中的检测框4. 网络架构骨干我们利用两种骨干，即。，ResNet-101 [16]和ResNeXt-101-64×4d [50]，用于我们的RDN。具体来说，为了扩大特征图的分辨率我们将卷积层的最后一级中的第一卷积块的步长从2修改为1。这样，该阶段中的有效步幅从32个像素变为16个像素。此外，该阶段中的所有3×3 conv层都通过“孔算法”[4，32]进行修改（即，补偿感受野区域特征提取我们利用 RPN [39]在用于区域特征提取的Conv4级的顶部。特别是，我们利用12个锚点，{642，1282，2562，5122}和3个纵横比{1： 2，1：1，2： 1}分类和回归。在训练和-参考中，我们首先挑选出具有最高客观性分数的6，000个建议，然后采用阈值为0.7的交并比（IoU）的非最大值抑制（NMS），以获得每个帧的N=300在生成区域建议后，我们应用RoI池，然后在conv 5阶段的顶部应用1，024-d全连接层，以提取每个建议的RoI特征。关系蒸馏网络对于RDN中的每个关系模块，关系特征的数量被设置为M=十六岁每个关系特征的维数为64。这样，通过如等式2中那样连接所有M=16个关系特征，关系增强特征的维度关系模块的输出为1，024。在基本阶段，我们堆叠了Nb=2个关系模块。在高级阶段，首先采用一个关系模块来增强高级支持池RSA中的建议。接下来，我们应用另一个关系模块来加强从基本阶段输出的参考建议。最后，我们利用两个并行分支（即，分类和回归）以基于来自高级阶段的细化的RoI特征获得检测5. 实验5.1. 数据集和评价我们通过对视频（VID）数据集的ImageNet对象检测进行实验，经验性地验证了我们的RDN的优点ImageNet VID数据集是视频对象检测任务的大规模基准，由来自30个类的3,862个训练视频和555个验证视频组成。考虑到官方测试集的基本事实并不公开，我们遵循广泛表1.在ImageNet VID验证集上与最先进的端到端视频对象检测模型进行性能比较方法骨干碱基检测器最大平均接入点（%）FGFA [54]ResNet-101ResNet-101R-FCNFaster R-CNN76.377.5移动自组网[46]ResNet-101R-FCN78.1THP [53]ResNet-101 + DCN[6]R-FCN78.6STSN [1]ResNet-101 + DCN[6]R-FCN78.9RDNResNet-101ResNeXt-101-64×4dFaster R-CNNFaster R-CNN81. 883岁2采用[8，20，46，49，54，53]中的设置，以报告验证集的平均精密度（mAP）。遵循[8，46，49，54]中的常见协议，我们利用ImageNet VID和ImageNet对象检测（DET）数据集来训练我们的RDN。由于ImageNet VID中的30个类是ImageNet DET数据集中200个类的子集，因此我们采用ImageNet DET中重叠的30个类中的图像进行训练。具体来说，由于相邻帧之间的冗余，我们从ImageNetVID 中的每个视频中采样 15 帧进行训练。对于ImageNet DET，我们从每个类中选择最多2，000个图像，以使类分布更加平衡。5.2. 实现细节在训练和推理阶段，时间跨度范围设置为T=18。我们从每个支持框架中选择具有最高客观性得分的前K=75个建议，并将它们打包到支持性池Rs中。我们通过从Rs中抽取20%具有最高客观分数的支持性提案来获得高级支持性池Rsa。我们主要在Pytorch 1.0上实现RDN [36]。首先调整输入图像的大小，使短边为600像素。整个架构在四个Tesla V100 GPU上训练，具有同步SGD（动量：0.9，权重decay：0.0001）。每个GPU中有一个小批，每个小批包含一个图像/帧。对于参考帧，我们以1：3的比率对128个RoI进行采样，用于阳性：阴性。我们采用两个阶段的战略来培训我们的RDN。在第一阶段，我们在ImageNet VID和ImageNet DET的组合训练集上训练基本阶段和骨干RPN，进行120k次迭代。学习率在前80k次迭代中设置为0.001，在接下来的40k次迭代中设置为0.0001。在第二阶段，整个RDN架构在组合训练集上进行另外60k次迭代。学习率设置为在前40k次迭代中为0.001，在最后20k次迭代中为0.0001。整个训练过程第一阶段约15小时，第二阶段约8小时。在推理时，我们采用阈值为0.5 IoU的NMS来抑制重复检测盒。5.3. 性能比较端到端模型。不同端到端视频对象检测模型在ImageNet VID7030表2.与最先进的视频对象检测方法以及ImageNet VID验证集上的后处理的BLR：第3.4节中使用关系的框链接。方法骨干碱基检测器最大平均接入点（%）T-CNN [21][51]第三十三话：一个人的世界R-CNN73.8FGFA [54]+[13]ResNet-101R-FCN78.4Aligned Inception-ResNetR-FCN80.1ResNet-101R-FCN79.8D T [8]ResNet-101Faster R-CNN80.2inception-V4R-FCN82.0STMN [49]ResNet-101R-FCN80.5RDN +[13]ResNet-101Faster R-CNN82.6ResNeXt-101-64×4dFaster R-CNN83.9RDN +[12]ResNet-101Faster R-CNN83.4ResNeXt-101-64×4dFaster R-CNN84.5RDN + BLRResNet-101Faster R-CNN83岁8ResNeXt-101-64×4dFaster R-CNN84. 7验证集如表1所示。请注意，为了公平的通信，这里我们只包括最先进的端到端技术，这些技术纯粹是通过以端到端的方式增强每帧特征来学习视频对象检测器，而不需要任何后处理。总体而言，在相同的骨干下的结果表明，我们提出的RDN实现更好的性能对国家的最先进的端到端模型。特别是，使用ResNet-101，RDN的mAP可以达到81.8%，这使得2.9%的绝对提高，最好的竞争对手STSN。正如预期的那样，当配备更强的骨架（ResNeXt-101-64×4d）时，我们的RDN的mAP进一步提高到83.2%。通过额外捕获全局运动线索，利用实例级校准，MANET表现出更好的性能比FGFA在光流的引导下执行像素级校准。不同于流引导方法（FGFA、MANET和THP）估计跨帧的运动以扭曲特征图，STSN从相邻帧中空间地采样特征以进行特征聚集，并且实现更好的性能。然而，STSN的性能仍然低于我们的RDN模型的对象关系的时空上下文。结果突出了聚合和传播对象关系以增强视频对象检测的对象特征的优势添加后处理。在本节中，我们通过进一步应用框链接的后处理，将我们的RDN与其他最先进的方法进行比较。表2总结了ImageNet VID验证集的结果。一般来说，当配备现有的后处理技术（ Seq-NMS 和 TubeLinking）时，我们的RDN表现出比其他最先进的基于后处理的方法更好的性能此外，通过利用我们的BoxLinking with Relations（BLR）将学习到的对象关系集成到 Tube Linking 中， RDN 的性能进一步提升到83.8%，ResNet-101和ResNeXt-101-64×4d。这证实了在检测通过我们的BLR中的框链接与高关系框。表3.在对象关系度量上，即在对象关系度量上，不同方法的性能比较。，单帧上的更快R-CNN，不考虑关系，[17]中帧内的堆叠关系，RDN仅在基本阶段（BASIC）中具有关系，RDN的完整版本具有高级阶段（ADV））。主干是ResNet-101。方法基本ADV最大平均接入点（%）Faster R-CNN+ 联系人[17]75. 478岁5↑3。1Faster R-CNN+基本C八十9↑5。5RDNC C81. 8 ↑6。4图3.在我们的RDN中，通过不同的关系建模方法获得视频对象检测结果的示例。5.4. 实验分析消融研究。在这里，我们将研究RDN中的每个设计如何影响整体性能。Faster R-CNN[39]简单地在单个帧上执行对象检测而不考虑对象关系。[17]通过堆叠的关系模块对图像中的关系建模。我们扩展了这个想法来学习视频帧中对象之间的交互，并在我们的实验中重新实现[17]。Faster R-CNN +BASIC的运行只利用了关系推理的基本阶段，RDN进一步集成了高级阶段。表3详细说明了不同方法在对象关系度量上的性能直接在单帧上执行Faster R-CNN 可以实现 75.4% 的mAP。[17]中的关系的挖掘导致3.1%的提升。结果验证了探索对象关系以改进视频对象检测的想法，即使在每个帧内测量关系的情况下也是如此通过在基本阶段捕获跨帧的对象交互，Faster R-CNN + BASIC将mAP从75.4%提高到80.9%。这些改进表明，时空背景下的学习关系优于空间维。RDN得益于高级段的串级关联精馏机理，最终RDN的mAP达到81.8%。图3显示了一个例子，视频对象检测结果与不同的方式，关系建模在我们的RDN。如图所示，随着关系建模的设计越来越多，检测结果变得越来越鲁棒。时间跨度范围T的影响。为了探索时间跨度T在我们的RDN中的影响，我们展示了松鼠0.438松鼠0.574松鼠0.976松鼠0.353松鼠0.687松鼠0.394Faster R-CNNFaster R-CNN+基本RDN7031表4.在我们的RDN中使用不同的时间跨度范围T的性能和运行时间比较#T3691215182124最大平均接入点（%）80.380.780.981.381.6 81. 8 81.781.7运行时间（ms）90.190.391.593.093.594.297.3103.1表5.在基本阶段使用不同数量的关系模块的性能比较。人数01234最大平均接入点（%）75.479.4八十980.880.4通过在表4中的3的间隔内将该数字从3变化到24来改进性能和运行时间。当时间跨度范围设置为T=18时，获得最佳性能。特别地，当时间跨度范围大于12时，时间跨度范围的变化对RDN性能的影响较小，这为RDN中时间跨度范围的选择提供了方便。同时，扩大时间跨度范围通常会增加推理的运行时间。因此，节奏跨度范围根据经验设置为18，这是性能和运行时间之间的良好折衷。关系模块数Nb在基础阶段的作用。表5示出了在基本阶段中采用不同数量的关系模块的性能。在Nb=0的极端情况下，没有使用关系模块，模型在单帧上退化为Faster R-CNN。在仅使用一个关系模块的情况下，mAP从75.4%至79.4%。这基本验证了关系建模在目标检测中的有效性。mAP进一步提高到80.9%的两个模块的设计，但性能略有下降时，堆叠更多的模块。我们推测这可能是支持框架重复不必要的信息的结果，这双重证明了RDN设计高级阶段的动机。在实践中，数量Nb通常被设置为2。基础阶段采样数K和高级阶段采样率r%的影响。我们首先在基础阶段将K从25变化到300，以探索K和K之间的关系。在性能/运行时间和采样数K之间的运输。如表6所示，采样数K的变化对性能的影响很小。具体地，当采样数K为75时获得最佳性能。同时，随着采样次数的增加，推理的运行时间也逐渐增加因此，我们实际上将采样数K设置为75。接下来，为了研究在高级阶段中采样率%的影响，我们通过在表7中将采样率从10%变化到100%来进一步比较性能和运行时间的结果。当采样率设置为20%时，获得最佳性能同时，当采样率变化时，性能相对平稳。这实际上简化了在高级阶段中采样率r%的选择。此外，当采样率增加时，运行时间显著缩短-表6.在RDN的基础阶段，使用不同的采样数K进行性能和运行时间的比较#K255075100150200250300最大平均接入点（%）80.280.580.980.780.480.480.280.1运行时间（ms）80.081.784.986.394.9107.2125.3152.7表7.在我们的RDN的高级阶段，使用不同的采样率r%的性能和运行时间的比较#r（%）10203040506080100最大平均接入点（%）81.381.881.781.681.581.581.381.3运行时间（ms）92.894.296.9100.2104.0108.9114.8125.6皱了皱。因此，采样率根据经验设置为r=20%，这寻求性能和运行时间之间的更好的折衷。两个阶段的互补性。在RDN中，基本阶段利用支持性建议的关系特征扩充参考建议，从而在星形图上从支持性建议中扩充出具有一阶关系的参考建议然后，高级阶段逐步对具有高客观性分数的支持提案进行采样，并首先增强与所有支持提案相关的采样/高级提案。通过这种方式，高级支持方案被赋予来自全连通图上的支持方案的一阶关系。其次，高级阶段用高级支持性建议加强参考性建议。因此，参考建议进一步被赋予了与支持性建议的更高层次的关系，这些支持性建议与基本阶段自然互补。6. 结论我们提出了关系蒸馏网络体系结构，它跨帧建模对象关系，以提高视频对象检测。特别是，我们研究的观点，采用多阶段推理和调度关系蒸馏逐步问题。为了验证这一点，我们利用RPN在参考和支持框架中生成对象建议支持库由从支持框架中提取的所有建议组成在基础阶段，RDN度量参考框架中的每个目标建议与支持池中所有建议的关系，并使用关系来增强特征。在高级阶段，RDN首先用与所有支持性方案的关系对所选择的支持性方案进行自我调整，然后利用所选择的支持性方案提取各方案在参考系中的关系。在ImageNet VID数据集上进行的广泛实验验证了我们的建议和分析。更值得注意的是，在连接和重新评分的后处理之后，我们实现了迄今为止报道的最好的mAP84.7%。致谢本工作得到了国家自然科学基金的部分支持，合同号为61836011号61822208，不。61632019及中国科学院青年创新促进会（编号： 61632019 ）。2018497）。7032引用[1] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在ECCV，2018。[2] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR，2019年。[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割ICLR，2015年。[5] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。在NIPS，2016年。[6] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017.[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。CVPR，2015。[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。InICCV，2017.[9] Jonas Gehring ， Michael Auli， David Grangier ， DenisYara

下载后可阅读完整内容，剩余1页未读，立即下载