BoxMask：视频对象检测中的边界框监督

3 浏览量更新于2023-10-16 收藏 2.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2030−BoxMask：重新审视用于视频对象检测的边界框监督Khurram Azeem Hashmi Alain Pagani Didier Stricker Muhammad Zeshan Afzal DFKI -德国人工智能研究中心，凯泽斯登[0]第一个名字[1]. lastname@dfki.de摘要本文提出了一种新的、简单而有效的上举视频目标检测方法.我们观察到，先前的工作对实例级特征聚合进行操作，其直接忽略了细化的像素级表示，导致共享相似外观或运动特征的对象之间的混淆为了解决这个问题，我们提出了BoxMask，它通过结合类感知的像素级信息来有效地学习判别表示。我们简单地将边界框级注释视为每个对象的粗糙掩码来监督我们的方法。所提出的模块可以毫不费力地集成到任何基于区域的检测器中，以提高检测能力。在ImageNet VID和EPIC KITCHENS数据集上进行的大量实验表明，当我们将BoxMask模块插入到许多最新的最先进的方法中时，性能得到了一致和显著的改善。该代码将在https://github.com/khurramHashmi/BoxMask上获得。1. 介绍随着深度卷积神经网络的最新进展在每一帧上应用基于图像的检测器以执行视频对象检测（VOD）的天真想法因此，利用视频中的编码时间信息[67，68，58，24]已成为应对这些挑战的事实上的选择。早期的利用时间信息的视频对象检测技术主要在两种范式下操作第一类方法对时间信息进行后处理，使静止图像对象检测结果[30，36，35，3]更加一致和稳定。或者，第二组利用时间信息的特征聚合[67，8，58，63，11，24]。尽管这些基于区域的最先进的系统极大地促进了VOD的性能，他们遭受区分具有相似外观或匀速运动属性的混淆对象。我们观察到，大多数以前的方法[67，58，24，11]都是在实例级特征聚合上操作的，这些方法直接忽略了细化的像素级表示，导致可接受的定位，但分类较差。如图1的前两行所示，尽管对象检测器利用来自支持帧（t，s和t+s）的时空上下文来细化建议，特征，它通过分类回-在目标帧t处，将船只与汽车错误分类。为了克服这一障碍，我们设计了一个新的模块称为BoxMask，利用类感知像素级的时间信息，以提高VOD。受[31]在静态图像中的启发，BoxMask预测每个感兴趣区域的类感知分割掩码以及传统的分类和定位。由于本文涉及视频中的对象检测问题，因此我们研究了边界框级别的注释来生成监督我们的BoxMask网络的粗掩码。采用我们的BoxMask头的优点有两个。首先，类感知的像素级特征减少了具有低空间和时间类间方差的对象之间的硬误报其次，由于预测掩模的大小与目标区域相同，因此细粒度像素级学习有助于检测器精确定位。我们总结本文的主要贡献如下：• 我们观察到，对象误分类是限制现有视频对象检测方法的上限的关键障碍。我们进一步重新审视利用边界框注释来监督回归和掩码预测的想法（参见图1）。• 我们提出了BoxMask，一个非常简单但有效的模块，通过结合类感知像素级信息来学习额外的判别表示，以提高VOD。• 我们的BoxMask是一个即插即用模块，可以集成到任何基于区域的检测方法中。2031−汽车（0.64）船舶（0.94）支撑架（t-s）目标帧（t）支撑架（t+s）目标帧（t）熊（0.67）B熊（0.67）耳（0.55）(a) 熊(b) 船只熊（0.91）熊（0.99）(a) 熊(b) 船只图1.动机尽管利用了来自支持帧t_s和t+s的时空信息，但是现代VOD方法对具有相似外观和均匀运动特性的对象进行了错误分类。例如，背景中的移动物体在（a）中被归类为熊，而在（b）中被误认为是汽车为了解决这个问题，我们设计了一个简单的BoxMask模块，通过引入关键的判别线索来学习像素级特征，以提高对混淆对象类别的检测。请注意，通过细粒度的像素级学习，我们的BoxMask消除了（a）中背景的错误分类，并正确地分类了（b）中的Watercraft最好在屏幕上看。通过我们在最近最先进的方法中引入的新颖的类感知像素级学习，我们在ImageNet VID和EPICKITCHENS基准测试中分别实现了mAP 1.8%和mAP 2.1%的绝对增益。2. 相关工作图像中的目标检测。现有的基于图像的目标检测方法主要可以分为单级检测器[42，44，45，46，9，21]和多级检测器[42，44，45，46，9，21]。阶段或基于区域的检测器[47，6，7，26，34]。MaskR-CNN [31]用RoIAlign代替了RoI Pooling，并引入了一个额外的实例分割头，不仅改善了实例分割，还提高了对象检测。Cheng等人[12]将弱分类头归咎于非劣检测，并建议集成Faster R-CNN [47]和R-CNN [23]的分类分数作为补救措施。IoU-Net [33]提出了一种单独的本地化置信度机制双头R-CNN [59]通过使用完全连接的头处理分类和使用卷积头处理回归来解开检测头。沿着这个方向，开创性的工作[51]将TSD纳入了基于区域的检测器[47]，该检测器可以学习不同的分类和回归特征。后来，分别损失添加到整个损失函数以优化检测。类似于静止图像中的这些工作[31，59，51，33]，我们观察到基于区域的检测器[47]中的幼稚兄弟头混淆了具有相似运动特征的对象，并导致次优视频对象检测。图像中的框监督语义和实例分割利用边界框注释来增强静态图像中的弱监督主要原因是边界框包含关于每个对象的精确位置的知识，并且它们的注释速度比每像素标记快约35倍[19，2]。除了类似的方向，我们的工作利用框级注释来生成粗糙的掩码，最终提高视频对象检测。视频中的对象检测。用于视频对象检测的现有方法具有两个方向。一个方向通过结合光流[68，65]，尺度时间网格[8]，强化学习能力[63]和热图[62]来利用视频帧中的冗余，通过将关键帧特征传播到视频中的其他帧来降低特征提取过程的成本另一项工作是利用视频中编码的时间信息来提高VOD，我们的工作就是在这个趋势上进行的。现有技术，基于区域的现代VOD方法加入BoxMask头后目标混淆和定位不精确自信的分类和低假对象混淆精确定位阳性2032ROI特征提取ROI提案损失支撑框架分类时间ROI特征提取语义特征用于检测的聚合损失回归BoxMask预测损失目标帧ROI特征提取ROI提案模块介绍在支持框架最近VOD方法功能流支撑框架来自支持框架的来自目标框架的骨干网络RPN图2.现代基于区域的VOD方法的架构概述和我们提出的模块以洋红色突出显示。除了时空特征外，我们的方法还引入了重要的类感知像素级特征，这些特征有效地解决了对象混淆问题，从而提高了现代基于区域的视频对象检测方法的性能。以两种方式利用时间信息。第一种方法是使用后处理方法[30，36，35]来细化检测结果。虽然这些方法提高了VOD的性能，但它们严重依赖于在没有时间信息知识的情况下训练的基于图像的检测器。相反，第二个方向是在训练阶段将时间信息大写[67，57，20，5、25、50、58、17、68、65、8、60、16、53、10、11、24、64]。其中一些方法利用光流[18]来扭曲和聚合帧[67，57，35]上的特征。尽管有改进，基于光流的方法在遮挡的情况下失败大多数现有的基于区域的VOD方法[67，67，58，24]通过聚集时间特征来解决固有的挑战。然而，它们主要依赖于实例级特征聚合，这付出的代价较小，3. 方法本节首先通过深入研究第3.1节中固有的误分类问题来概述VOD中基于现代区域的检测器。稍后，我们将分别在3.2节和3.3节中解释所提出的BoxMask模块及其学习3.1. VOD中基于区域的检测器研究图2描绘了VOD中基于区域的检测器的概述。首先，骨干网络从目标帧（需要对其执行检测的实际帧）和支持帧（辅助对目标帧的检测的其他视频帧）提取空间特征。随后，区域建议网络（RPN）[47]预测每个帧的对象建议，并旨在最小化对目标提案的内容，造成混淆，具有相似外观和运动的物体之间的相似性回归损失Lreg 分类损失LCLS定义为：特色最近，TransVOD [64]通过使用时间变换器扩展可变形DETR [66]来引入基于变换器的VOD方法，以从不同视频帧聚集对象查询。解决视频中的对象混淆问题。Han等人。[29]是第一个强调对象混淆作为VOD中他们建议利用视频间和视频内的建议关系来解决对象混淆。另一个开创性的工作[27，28]试图通过设计更好的特征聚合方案来解决这个问题，该方案尽管在检测方面取得了令人满意的改进，但这些方法依赖于基于区域的检测器，该检测器更多地关注于区分背景和前景区域，而不是区分各种前景区域[12]。此外，这些方法在复杂的管道上操作以产生令人印象深刻的结果。另外，我们设计了一个简单但有效的BoxMask模块，在集成到最近的基于区域的VOD方法后，达到类似的性能。Lrpn=Lcls（p，p）+p.Lreg（t，t）（1）其中p是提议是对象的估计概率，并且p表示1或0，这取决于锚框的标签。项t表示预测对象提议的坐标，并且t是地面实况。这里，注意，等式1中的分类损失Lcls仅关注于改进建议的对象性而不是对象分类。在第二阶段中，在视频中的目标帧和支持帧的对象建议特征之间执行特征聚合这些聚合特征由RoI Align池化操作符进行池化，并传播到设计用于优化多类分类和回归的检测头。对于训练，检测损失由下式给出：Ldet=Lcls （ pc ， y ） +Lreg （ t ， t ）（2）其中pc表示预测的类别分布，y是目标帧中对象的类标签。有关RPN参数化的详细信息，2033−∈不××联系我们k=1{}t+s映射{Ft+s}N/2从骨干网生成其中FFt+s（s=0s=N/2t表示目标帧的特征图，以及0) 表示支撑框架的特征图。第一、(a) 输入帧(b) SELSA中的学习功能(c) 使用我们的BoxMask学习功能我们提取的RoI特征的目标帧Rt通过应用CON，目标帧建议上的ventional RoIAlign，以及目标帧特征图F。然后，为了提取图3.SELSA学习类激活图的可视化SELSA+BoxMask。(a)显示了一个带有红色目标边界框的示例输入帧。(b)强调了现有的实例级聚合方法，如SELSA[58]，迫切需要较少关注模糊和部分遮挡的对象，导致错过不最相似的支持帧RoI特征Rt+s对于目标帧RoI特征Rt，我们如下计算支持帧特征映射Ft+s和目标帧RoI特征Rt之间的余弦相似性Ct+sRH×W：检测（以绿色突出显示）。(c)描述了我们的细粒度像素级学习带来了额外的区分线索，Ct+s =Rt {Ft+s（3）丰富目标对象特征并抑制不需要的特征。我们建议读者参考[47]。由于这些基于区域的检测器的优化依赖于累积和（Lcls+Lreg），因此它收敛于两个任务的折衷次优值[12]。因此，尽管聚合了来自若干支持帧的对象建议特征，但是由于由相似外观和均匀运动特性引起的潜在对象混淆，当前最先进的VOD方法的性能降级。然而，大多数现有方法都是在实例级特征聚合上操作的，这会忽略模糊和部分遮挡的实例，从而导致错过检测，如图3（b）所示。在本文中，我们的目标是减轻这些限制，通过将类感知像素级信息的检测头，带来额外的歧视性功能。为此，我们提出了BoxMask，其通过增强目标对象特征并阻止不相关的特征来辅助检测头的优化，如图3（c）中所示。3.2. BoxMask在通过RPN提取对象建议之后，在第二阶段中，我们还具有来自目标和支持帧的聚合建议特征集合O={ok}K，其中K其中表示矩阵乘法，和。突出了矩阵转置。之后，类似于[24]，我们采用多头自注意[55]来聚合目标RoI特征Rt和支持帧RoI特征Rt+s，以形成目标帧Rt的时间RoI特征：Rt=MSA（Rt，Rt+s）（4）其中MSA是多头自注意操作[55]。时间RoI特征提取的概述如图2所示。我们请读者参考[24]，了解RoI特征的时间注意特征聚合的实例特征提取和预测。Box- Mask头是一个完全卷积的[43]实例分割头，其中，首先，时间RoIAlign操作，提取物1414传播的RoI要素到一个单一的3 3卷积层来学习实例特征。对于复杂的实例分割，问题[31，7]，我们的目标是预测矩形边界框的像素掩码。因此，我们根据经验确定单个卷积网络是最佳选择（见4.4节）。如图4所示，我们的预测头包含步长为2的2×2反卷积，然后是预测大小为C的输出掩码的1×1卷积。（m×m），其中C表示总数是提案的数量。 BoxMask头预测，用于分类和回归的每个RoI的二进制掩码。请注意，与在Mask R-CNN [31]中预测实例掩码相反，我们的方法预测完整边界框的掩码以及分类和定位，以简化整个多级流水线。图4显示了BoxMask模块在基于区域的VOD方法中的集成BoxMask头部的时间ROI特征提取。RoIAlign [31]池化在提取每个RoI的特征图方面胜过RoIPool [22]代替传统的RoIAlign操作，我们的方法遵循[24]的精神，并利用时间信息来提取RoI特征。给定一组（m×m）是分辨率。3.3. 学习和优化为了解决视频中的目标混淆和不精确定位问题，我们将检测问题看作是一个像素级的分类问题。此外，由于我们的方法以端到端的方式运行，因此它对各种数据集和骨干网络具有鲁棒性。生成Ground Truth。考虑到我们的工作涉及视频对象检测，一个准确的对象掩模注释是不可用的。因此，我们重新审视了VOD中边界框的开发[14，41，39]，并使用给定的边界框注释生成一个掩码来监督BoxMask头部。从“束缚”的基本事实来看-由Bbox∈RK×5表示的ing box，其中K表示视频帧的数量VN/2s=−N/2 和对应的特征由4个坐标组成的边界框集，2034∈M7 x 7fcX 512FC10241024box类箱头14 x 14 x 512Conv14 x 14 x 5123x3德孔夫28 x 28 x 5122x2Conv28 x 28 x 301x1掩模BoxMask头时间ROI特征图4.该图显示了底部配备BoxMask头的检测阶段的整体架构块上的数字表示空间分辨率和通道，而箭头上的数字是内核的大小。在BoxMask头中，Conv和Deconv分别表示卷积和去卷积。由于其简单的设计，所提出的盒掩模头可以集成到任何基于区域的VOD方法。对应的类标签。我们定义包围盒掩码张量为M盒Rm×（L+1），其中m是预测的空间分辨率，（L+1）表示L个对象类和背景。我们创建了一个边界框掩码ten-sorM框，通过用相应的类标签标记框内的所有像素。根据[37，39]，如果两个框重叠，我们认为一个较小的框在前面，并将像素标记为一类较小的边界框。其余的像素，没有包装在任何边界框，属于背景类。BoxMask Loss和多任务学习我们采用包括3862个训练视频和555个验证视频，具有30个类别的标记边界框。遵循示例方法[58，24，67，68]，我们通过利用[67]中提供的拆分，在ImageNet DET和VID数据集的交集上训练我们的模型[49]为了与之前的作品进行直接比较训练和推理细节。我们使用ResNet- 50 [32]作为消融研究的骨干网络。除了ResNet-50之外，我们还利用更强大的ResNet- 101 [32]和ResNeXt-101 [61]来比较现有方法的性能。骨干网络使用ImageNet [38]预训练的权重进行初始化。我们使用SGD在7个epoch上训练我们的模型，在8个GPU上的总批量大小为8。训练以0.01的初始学习率开始，在第4和第6个时期除以10。为了直接比较，我们从同一视频中采样一个训练帧在推理过程中，我们采样T帧（支持帧），从同一视频除了目标帧。采用[5，24]，如果支持帧超过视频开始/结束，则复制视频的第一个/最后一个帧。由于我们的方法检测目标帧中的对象，因此在推理过程中关闭了类似于先前的作品[24，58，67]，非最大抑制，包围盒掩码张量M框优化掩模预处理，引入了IoU阈值为0.5的版本（NMS）以减少重复检测。帧的大小调整为通过最小化交叉熵损失Lbm来进行判决：在训练和推断期间，600像素的较短边L先生。有关网络体系结构的详细摘要Lbm =−1M（i，c）log（y（i，c））（5）参考补充材料（第1节）。c=0i=1其中Lbm允许网络预测每个采样RoI中每个像素的类别。这将简化掩码和类标签的预测。此外，它有助于定位的特征学习，因为预测的掩模旨在与目标边界框成比例地相同。在将BoxMask头集成在基于区域的视频对象检测方法中时，等式2中解释的检测损失变为Ldet=Lcls+Lreg+λLbm（6）其中λ是控制BoxMask损失权重的超参数。在所有实验中，我们根据经验设定λ=0.5，除非另有说明（参见补充材料中的第24. 实验和结果4.1. 实验装置数据集和评估指标。我们在ImageNet VID数据集上进行了广泛的实验[49]。数据集4.2. BoxMask对ImageNet VID基准的影响我们比较了配备BoxMask模块的最先进系统之间的性能，并在表1中总结了结果。为了进行公平比较，我们再现了最近方法的结果[11，13，24，58，67]通过使用作者的原始代码。因此，对于TF-混合器[13]，我们包括了在FGFA [67]中制作的模型的结果。看看结果在Ta- 表1中，我们提出的BoxMask在并入具有所有三个主干的现有最先进的方法中时带来了一致和显著的增益。当BoxMask插入TROI [24]时，我们在ResNet-50主干上实现了80.7% mAP的最新结果。此外，利用我们的BoxMask模块，具有类似主链的所有方法[11，13，24 ，58， 67]在 mAP 中享有从0.4%（ResNeXt-101）到1.8%（ResNet-50）的收益。我们认为，以前的特征聚合方法严重依赖于骨干网络的能力，这导致在ResNet-50的相对较弱的骨干上性能较差。或者，我们的像素级功能信息-2035龟|0.99时间龟|0.99鸟|0.69龟|1.00龟|0.99龟|1.00FGFA + BoxMask75.6↑0.9 78.7↑0.7 80.0↑0.4SELSA + BoxMask79.5↑1.1 81.1↑0.9 83.5↑0.4MEGA + BoxMask78.2↑0.982.3↑0.7-TF-Blender + BoxMask76.3↑0.9 79.9↑0.6 80.4↑0.3TROI + BoxMask80.7↑1.883.2↑1.284.8↑0.5表1.与ImageNet VID数据集上现有的最先进方法进行比较。SFB代表单帧基线，更快的R-CNN，在所有实验中用作基础检测器。R和RX表示ResNet和ResNeXt骨干网络。两个最佳结果以红色和蓝色突出显示。BoxMask中的tion补充了[58，24]中现有的时间特征聚合方案，获得了卓越的性能增益4.3. 定性分析目视检测结果。图5说明了检测结果的两个最近的国家的最先进的方法与我们的BoxMask模块集成在奇数和偶数行，分别。我们可以看到，在（a）中的罕见姿势的情况下，SELSA [58]会产生假阴性（海龟作为背景）和假阳性（海龟作为鸟）另一方面，这些错误的检测减少了我们的框掩码模块的引入。类似地，在运动模糊和部分遮挡的情况下，我们的方法通过学习细粒度的像素级时间信息来消除错误分类（通过TROI[24]将水运工具作为汽车）。这些结果表明，采用BoxMask模块在基于区域的VOD方法中引入了跨不同视频帧的类感知像素级特征聚合，从而有助于在可扩展条件下的VOD。更多定性分析请参考补充材料。视觉提案特征分析。在[29]之后，我们在目标帧上分类之前提取学习的建议特征，并在图6中使用t-SNE对其进行可视化我们可以看到，SELSA的提案特征将提案错误地分类到不正确的聚类中。例如，由于相似的外观和运动特征，船只和公共汽车的提案不正确地落入汽车的集群中。或者，当BoxMask集成到SELSA [58]中时，我们观察到混淆对象类别的建议特征彼此明显分离。主要原因是像素级特征聚合使网络能够通过减少类内方差和增加类间方差来正确区分提案。(a) 龟(b) 船只图5.定性分析现有方法，在不同场景下将BoxMask模块集成到ImageNet VID数据集中。显然，我们的BoxMask模块有助于SELSA [58]和TROI [24]分别在罕见姿势（（a）海龟）、运动模糊和部分遮挡（b）船只）的情况下减轻错误分类和不精确定位。最好在屏幕上查看并放大。对象类别分析由于我们的工作主要是解决视频中的对象混淆问题，因此我们比较了现代基于RoI的VOD方法[58]在使用和不使用BoxMask模块的情况下每个类别的mAP的性能。我们在图7中列出了前5个改善最多的很明显，我们的像素级特征学习的引入在摩托车，家猫和牛中产生了显着的性能增益。原因是这些对象由于相似的外观和运动特性而具有低的类间方差我们的BoxMask中的像素级学习有效地解决了这一挑战，并提高了整体性能，如图5所示。4.4. 消融研究取样支架。我们遵循[58]和[24]的精神，分析了测试中帧数和采样步长的影响。此外，我们研究了在整个视频中采样的支持帧的数量。图8（a）展示了支撑框架T的数量增加的影响。我们从单帧检测器开始，将帧步幅S设置为1。mAP随着帧数的增加而提高，并且在T=26时趋于稳定在74.4mAP。稍后，我们将T设置为26，并开始增加帧步幅S。如图8（b）所示，mAP随着步幅的增加而持续改善，并最终稳定在S=7。最后，为了利用整个视频信息，我们使S自适应于与支持帧数目T相对应的视频长度。W车|0.39车|0.99船只|0.99船只|0.87船只|0.63飞机|0.84TROI + BoxMaskSELSA + BoxMaskSELSATroi方法mAP（%）R-50mAP（%）R-101mAP（%）RX-101[47]第70.174.176.4FGFAICCV74.777.879.6[58]第五十八话78.480.283.1[11]第十一届全国人大代表77.381.6-[13]第十三话75.479.380.1[24]第二十四话78.982.084.3SFB + BoxMask71.2↑1.175.0↑0.977.2↑0.82036×车总线摩托车熊摩托车车总线船只4熊摩托车车总线船只水上交通工具熊图6.在SELSA中使用和不使用我们的BoxMask模块的情况下，学习到的建议功能的t-SNE可视化[58]。仅在SELSA中使用实例级特征聚合，具有相似运动特征的对象（公共汽车、汽车和船只）的建议会错误地落入彼此我们在BoxMask中的类感知像素级学习引入了区分性线索，缓解了这种对象混淆，如SELSA+BoxMask所示最好的颜色。有关所有30个类别的完整数字，请参阅补充材料。方法AP0.5（%）AP0.75（%）AP0.5：0.95（%）LPS（FPS）（一）（b）第（1）款FGFA + BoxMask 75.6↑0.9 54.2↑2.2 49.4↑2.3 17.3↓2.0SELSA + BoxMask 79.5↑1.1 55.7↑3.2 50.6↑2.0 13.0↓0.9TROI+ BoxMask80.7 ↑1.857.8↑5.0 51.8↑3.2 7.2↓0.1图7.性能比较（每类的mAP）。子图（a）和（b）表示当在SELSA中装备BoxMask时，五个最大的改进和最大的下降类别[58]。表2.使用ResNet-50作为骨干网络的拟议BoxMask的有效性和效率之间的权衡在单个DGX A100 GPU上测试了运行时间。之间的有效性和效率的建议框掩码模块。查看表2，我们观察到，当配备了我们简单而有效的BoxMask模块时，所有4种方法都有规律和实质性的改进。采用（一）（b）第（1）款（c）第（1）款图8.帧采样方法的消融研究。(a)通过将帧步幅固定为1来研究不同帧数的影响。(b)通过将支撑架的数量固定为26，检查不同框架步幅的效果（c）评估在整个视频上采样的不同数量的支持帧的效果图8（c）示出了通过仅利用在整个视频上采样的2个支持帧，实现了75.4的mAP，超过了26个后续支持帧上的mAP。随着支撑架数量的增加，性能进一步提升，最终稳定在14个。除非另有说明，我们在所有实验中使用T=14BoxMask的功效为了研究我们方法的灵活性和有效性，我们重现了4种现有的基于ROI的VOD方法[24，58，67，68]，并结合了我们的BoxMask模块。表2总结了以下权衡：TROI 中的 BoxMask ，我们实现了 80.7 （ % ）的mAP@0.5，这是ResNet-50上的最新结果。类似地，在增加0.75的IoU阈值时，我们注意到当BoxMask配备TROI时，mAP显著增加了5个点。这反映了我们的像素级学习不仅消除了对象混淆，而且还产生了高质量的预测。对增加卷积的影响。我们在像素级预测之前研究了BoxMask网络的设计。具体来说，对于实例特征提取头，我们研究了越来越多的3 - 3卷积层Nc的影响。如表3所示，mAP随着Nc的增加而下降。我们认为，这种行为有两个主要原因。首先，由于我们的BoxMask旨在预测矩形目标对象的掩码，因此卷积层数量的增加会引入不必要的复杂参数，从而导致过拟合。其次，考虑到我们的BoxMask是在边界框注释上监督的SELSASELSA + BoxMask每个类别的最大平均接入点DFF [68]70.345.742.758.8FGFA [67]74.752.047.119.3SELSA [58]78.452.548.613.9TROI [24]78.952.848.67.3DFF + BoxMask71.3↑1.047.7↑2.044.6↑1.951.8↓8.02037××由于N_c的大小增加，网络会学习不必要的高级特征，这会导致对象混淆。ROI特征的大小。如第3.2节所述，我们执行时间RoiAlign以提取空间分辨率为7 - 7的RoI特征。RoI特征然后被上采样到大小14 14。此外，我们研究了不同的分辨率设置的ROI和上采样功能的完整性。如表4所示，我们在将RoI和上采样特征大小分别设置为7和14时，实现了性能和效率之间的（Nc）mAP（%）FPS参数RoI上采样mAP（%）FPS180.77.20.87778.37.4280.56.81.571480.77.2380.46.62.172879.46.5480.26.22.6141480.75.2方法SELSA [58]TROI [24]AP0.50（S1）AP0.75（S1）AP0.50（S2）AP0.75（S2）38.842.210.2 36.7 9.213.3 39.6 11.3TROI + BoxMask 44.3↑2.1 18.5↑5.2 41.3↑1.7 15.7↑4.4SELSA + BoxMask40.7↑1.914.7↑4.538.1↑1.412.8↑3.6表5.在EPIC KITCHENS测试集上，使用和不使用BoxMask模块的性能比较S1和S2分别表示Seen和Unseen拆分。从而将mAP提高到（4. 五分之三。6）SELSA的积分和（5）。四分之二4）可见/不可见分裂的TROI积分。这表明，将我们简单的BoxMask模块结合到基于区域的检测器中，即使在复杂的数据集上，也可以提高VOD的性能。4.6. 限制尽管在VOD系统中集成我们提出的模块大大提高了检测，我们注意到，表3. BoxMask中增加卷积层数量（ Nc ）的效果。参数表示参数数量×106。表4.对增加ROI特征尺寸的影响如图7（b）所示，某些对象类别的性能下降。我们观察到，我们的方法产生假阴性（混淆对象与背景）和假阳性（混淆背景与对象类）。这种行为是由于监督错误的对象掩模没有信息的对象边界。在那里-计算分析。为了简洁起见，我们提出了表2中的BoxMask模块的实时性能。我们可以观察到SELSA和SELSA+BoxMask在单个DGX A100 GPU上的速度分别为13.9和13.0 FPS。此外，当我们的方法在TROI [24]中采用时，速度下降了0.1 FPS，同时实现了1.8点的mAP增益这表明BoxMask模块带来了显着的性能增益，而计算量的增加可以忽略不计。4.5. EPIC KITCHENS数据集和实现详细信息。与ImageNet VID数据集一起，我们在更具挑战性的EPIC KITCHENS数据集上评估了我们的方法[15]。该数据集中的VOD任务包括32个独特的厨房，包括290个类。我们采用在28个厨房中捕获的272个视频序列进行训练，而为了评估，在相同的28个厨房中收集106个序列（S1），并且从其他4个看不见的厨房收集54个序列（S2）。为了与以前的作品[24，58]直接比较，我们采用了[58]中解释的相同的实现设置。性能分析。我们在EPIC KITCHENS数据集上重新实现了先前的工作[58，24]，并在0.5和0.75的IoU阈值上评估了结果。如表5所示，当在SELSA [58]和TROI [24]中配备所提出的BoxMask时，我们观察到一致且显著的性能增益。需要强调的是，在较高的IoU阈值0.75上，我们的BoxMask fur-因此，我们的BoxMask网络将背景部分视为通过学习类感知像素级信息，将边界框作为对象掩码因此，在边界框上应用Grab- Cut [48]和MCG [1]等方法来减少对象遮罩中的背景内容是解决这个问题的一种可能方法。此外，以弱监督的方式从粗BoxMask中学习细化的实例掩码，如在静态图像中所做的那样[40，54]将引入细化的对象边界，从而减轻前地和背景像素之间的混淆5. 结论在本文中，我们解决了对象混淆的关键问题，限制了视频对象检测模型的上限，并提出了一个简单而有效的BoxMask模块作为补救措施。我们的方法引入了类感知的像素级信息，这些信息带来了增强分类和定位的关键判别该模块概念简单，可以应用于任何基于区域的检测方法，以提高性能。在ImageNet VID和EPIC KITCHENS数据集上的大量实验谢谢。这项工作部分由德国联邦教育和研究部在项目DECODE（01IW21001）下资助，部分由欧洲项目INFINITY（883293）资助。2038引用[1] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费兰·马克斯和吉滕德拉·马利克.多尺度组合分组在Proceedings of the IEEE conference on computer visionand pattern recognition，第328-335页[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么欧洲计算机视觉会议，第549-565页。施普林格，2016年。[3] Hatem Belhassen，Heng Zhang，Corinie Fresse，and El-Bay Bourennane.用seq-bbox匹配改进视频对象检测。在VISIGRAPP（5：VISAPP），第226-233页，2019年。[4] M´ıriamBellver Bueno，Amaia Salvador Aguilera，JordiTor-resVi n´ als，andX a vierGi ro´Nieto.Budget-aw是半监督语义和实例分割。在IEEE计算机视觉和模式识别会议（CVPR）研讨会，2019年，第93-102页[5] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频对象检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第331-346页[6] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[7] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，et al.用于实例分段的混合任务级联。在IEEE/CVF计算机视觉和模式识别会议论文集，第4974-4983页[8] Kai Chen，Jiaqi Wang，Shuo Yang，Xingcheng Zhang，Yuan-jun Xiong，Chen Change Loy，and Dahua Lin.通过尺度时间网格优化视频对象检测。在IEEE计算机视觉和模式识别会议论文集，第7814-7823页，2018年[9] Qiang Chen ， Yingming Wang ， Tong Yang ， XiangyuZhang，Jian Cheng，and Jian Sun.你只看一个层次的功能。在IEEE/CVF计算机视觉和模式识别会议论文集，第13039-13048页[10] Xingyu Chen ， Junzhi Yu ， Shihan Kong ， ZhengxingWu，and Li Wen.用于图像和视频中实时精确目标检测的联合锚点特征细化。IEEE Transactions on Circuitsand Systems for Video Technology，31（2）：594[11] Yihong Chen，Yue Cao，Han Hu，and Liwei Wang.用于视频对象检测的存储器增强的全局-局部聚合。在IEEE/CVF计算机视觉和模式识别会议论文集，第10337-10346页，2020年。[12] Bowen Cheng ， Yunchao Wei ， Honghui Shi ， RogerioFeris，Jinjun Xiong，and Thomas Huang.重温rcnn：论快速 rcnn 分类能力的觉醒。在欧洲计算机视觉会议（ECCV）的Pro-ceedings中，第453-468页[13] 崔一鸣，严立奇，曹志文，刘东方。Tf- blender：用于视频对象检测的时间特征混合器IEEE/CVF计算机视觉国际会议论文集，第8138-8147页，2021年[14] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEinternational conference on computer vision ，第 1635-1643页，2015年。[15] DimaDamen ， HazelDoughty ， GiovanniMariaFarinella ， Sanja Fidler ， Antonino Furnari ， EvangelosKazakos ， Davide Moltisanti ， Jonathan Munro ， TobyPerrett，Will Price，et al.缩放自我中心的愿景：epic-kitchens数据集。在欧洲计算机视觉会议（ECCV）的论文集，第720-736页[16] Hanming Deng，Yang Hua，Tao Song，Zongpu Zhang，Zhen-gui Xue，Ruhui Ma，Neil Robertson，and HaibingGuan.用于视频对象检测的对象引导外部存储器网络在IEEE/CVF计算机视觉国际会议集，第6678-6687页[17] Jiajun Deng，Yingwei Pan，Ting Yao，Wengang Zhou，Houqiang Li，and Tao Mei.用于视频对象检测的关系蒸馏网络。在IEEE/CVF计算机视觉国际会议论文集，第702

下载后可阅读完整内容，剩余1页未读，立即下载