没有合适的资源?快使用搜索试试~ 我知道了~
8138TF-Blender:用于视频对象检测的YimingCui1*,LiqiY an2*,Zhiwen Cao3,Dong fang Liu4†1美国佛罗里达大学2中国复旦大学3美国普渡大学4罗切斯特理工学院,美国cuiyiming@ufl.edu,yanliqi@westlake.edu.cn,cao270@purdue.edu,dongfang. rit.edu摘要视频目标检测是一项具有挑战性的任务,因为孤立的视频帧可能会遇到外观畸变,这给检测带来了很大的混乱流行的解决方案之一是利用时间信息,并通过从相邻帧的aggre- gating功能增强每帧表示。尽管在检测中实现了改进,但是现有方法集中于选择用于聚合的更高级别的视频帧,而不是对更低级别的时间关系进行建模以增加特征表示。为了解决这个限制,我们提出了一种名为TF-Blender的新解决方案,其包括三个模块:1)时间关系对当前帧与其相邻帧之间的关系进行建模以保留空间信息。2)的情况。Fea-(a) 特征聚合过程(b)(c)我们的汇总方法真正的调整丰富了每一个相邻的代表性。方法ODS钻孔特征图; 3)特征混合器组合来自前两个模块的输出,并为后面的检测任务产生更强的特征。由于其简单性,TF- Blender可以毫不费力地插入任何检测网络,以改善检测行为。对ImageNet VID和YouTube-VIS基准的广泛评估表明,在最近的最先进方法上使用TF-Blender的性能保证。代码可在https://github.com/goodproj13/TF-Blender上获得。1. 介绍随着基于学习的计算机视觉的发展,最近的研究工作已经从图像任务扩展到更具挑战性的视频领域。视频任务,如对象检测[11]、视频实例分割[40]和多对象跟踪和分割[33],具有现实应用的价值潜力[24,33,25,26]*平等捐款。†通讯作者。图1.特征聚合方法的比较(a)来自相邻帧的特征在聚合期间被相等地加权(b)当前的聚合方法仅推理当前帧与相邻帧之间的(c)我们提出的方法在聚集过程中计算邻域中的每对帧。(i.e.、自动驾驶或视频监控)。视频对象检测的主要挑战是解决由相机抖动或快速运动引起的视频帧上的特征退化。在这种情况下,静止图像的检测算法对于视频任务是不适定的尽管如此,视频具有丰富的时间信息,在该时间信息上,相同的对象可以在多个帧中出现一定的时间跨度。这种时间信息的价值在先前的研究中使用后处理范式进行了探索[16,19,19,21]。这些方法首先对单个帧执行静止图像检测,然后使用不相交的后处理步骤(即,运动估计和对象跟踪)。上述方法中,没有一个是...8139以一种端对端的方式吃。此外,如果在单帧上的检测产生弱预测,则组装方法不能改善检测结果。或者,已经有几次尝试使用特征聚合来提高视频检测的性能。[25,33,43]利用光流来对跨帧的特征移动进行建模,并传播时间特征以增加用于检测的特征表示。随着特征的增强,检测结果得到了显著的改善。然而,这样的时间特征被直观的集总操作利用,这是过度简化的。就如何在聚合中组织要素而言,我们认识到两个重要的前身,FGFA [42]和SELSA [36]。与集总解决方案[25,33,43]相比,这两种方法都使用相似性得分来选择更有帮助的特征进行聚合。聚合特征由在每个空间位置处的自适应权重组织以用于它们的表示(如图1(a)中所示 尽管优于先前的努力,但FGFA [42]和SELSA [36]在实现最佳性能方面遇到了几个障碍:1)它们专注于对每个相邻帧的全局关系进行建模,而忽略了用于聚合的局部空间信息的保存; 2)它们主要考虑与当前帧的全局特征关系,而在相邻帧之间的特征学习中没有约束(参见图1(b)); 3)它们采用固定数量的相邻帧用于特征聚合,这是启发式的而不是一般的。在这项工作中,我们试图更深入地了解视频对象检测,并通过组织时间信息在一个更严格的原则,CIPLE提高性能保证。受[42,36,7]的启发,我们提出TF-Blender在两个范围内一致且相应地对特征进行有机建模。具体来说,我们加强局部相似性特征空间的连续性和连贯性的视觉模式,同时识别跨帧的语义对应关系,这使得时间表示的外观变化,形状变形和局部遮挡鲁棒。在该设计中,TF-Blender能够通过鼓励视频表示和捕获有用的视觉内容来概括特征聚合,以提高检测性能。具体而言,我们能够做出以下贡献:• 我们提出了一个称为TF-Blender的框架,该框架描述了时间特征关系,并混合了有价值的相邻特征,以增加跨帧的时空特征表示。• 在TF-Blender中,我们设计了一个时间关系模块来管理时间信息,并设计了一个特征调整模块来在特征学习中添加约束,以在特征聚合过程中保留空间信息。因此,我们将特征学习组织为-补间每对帧和聚合功能在整个邻域(见图1(c))• 我们的方法是通用和灵活的,它可以在任何检测网络上制作。采用新的特征增强策略,可以获得大于0. 在ImageNet VID基准测试中,mAP为7%,1. 最近最先进方法的YouTube-VIS基准上的mAP为5%2. 相关作品2.1. 视频对象检测视频对象检测。 与图像对象检测不同,视频对象检测面临挑战性的情况(即,运动模糊、遮挡和散焦),这些在图像中很少发生[8,15,44]。为了应对视频领域的挑战,一些作品[20,19,16]在静止图像检测器之上使用后处理技术。例如,Seq-NMS [16]将跨帧的边界框与IoU阈值链接,并对链接的边界框进行重新排序; TCN [20]引入了tubelet模块,并应用时间卷积网络来嵌入时间信息,以改善跨帧的检测; T-CNN[19]应用图像对象检测器来生成结果,然后使用光流来关联检测到的结果。尽管实现了改进,但是它们中没有一个是端到端训练的,并且它们的性能仍然是次优的。最近的工作[43,42,36,12,7,41,38]的另一个焦点是聚合时间特征以改进用于检测的这些方法可以分为三类:局部聚合、全局聚合和组合聚合。局部聚合方法[42,34,12,25,41,38,13,3]通常集中在视频序列上的短范围内传播特征。其中,FGFA [42]和MANET [34]是使用光流[18,14]来校准和聚合局部帧的特征的代表。相反,全局聚合方法[36,32,10]依赖于远程语义信息。一项开创性的工作来自SELSA[36],其计算当前帧与整个视频中的相邻帧之间的语义相似性与局部或全局利用特征的方法不同,MEGA[7]引入了一个存储器模块,使用局部和全局特征来增强当前帧的视觉表示。聚合方法实现了比后处理方法更进一步的性能增益,但是它们通常集中在更高级别的视频帧选择上,而不是探索更低级别的时间特征利用。视频实例分割。类似于视频对象检测,MaskTrackR-CNN [40]将实例分割[4,5]从图像域扩展到视频域。8140WFFW∈ NΣ图2. 我们的TF-Blender框架包括三个关键模块:a)时间关系模块:特征关系函数g(fi,fi)用作输入以学习用于特征混合器的自适应权重(fi,fi)。2)特征调整模块:每个相邻帧特征fj与其他相邻特征聚合以生成特征表示(fi,fj)。3)功能搅拌机模块:(fi,fj)和 (fi,fi,j)被组合以将当前帧的特征与相邻帧的动态数量的特征进行聚合。 跳转这需要跨帧分割和跟踪实例。然而,当前的大多数方法,如MaskProp [2]、EnsembleVIS [30],关注于如何跨帧跟踪实例,而不是如何生成用于检测、分割和跟踪的高质量特征。因此,在这项工作中,我们提出了一个更有原则的解决方案,有效地转换和利用视频对象检测任务的宝贵的时间特征。2.2. 关系学习关系学习被广泛用于不同的任务(即,点云分析[29,9]和图像理解[28,39])来描述当前特征及其相邻 特 征 之 间 的 关 系 RS-CNN [29] 扩 展 了 规 则 网 格CNN,以使用点之间的几何拓扑约束来捕获局部点云特征。类似地,PointConv [37]通过计算局部协方差和局部方差来对特征关系进行建模。不同于这些方法,我们提出了一个更一般的方法,关系学习的特征聚合。我们的TF-Blender可以鲁棒地描绘当前帧和邻近帧的特征之间的显著对应关系,并且仅利用有价值的特征进行更强的检测。3. TF-Blender3.1. 初步和总体管线传统的特征聚合方法[42,36,25,34]通常以受约束的方式工作。给定当前帧的一组相邻帧FjFi,Fj(Fi),它们的对应特征f j基于与F i的特征相似性被相等地加权,以便聚合时间特征Δfi:坐标和点云密度。这两种方法都在几何空间中捕获 相反,DGCNN[35]定义了捕捉局部点关系∆fi=Fj∈N(Fi)(wij×fj)。(一)并在每一层动态地更新核的邻域。类似地,一些最近的工作尝试利用关系学习用于对象检测。受[17]提出的用于静止图像对象检测的对象关系模块的启发,RDN [12]引入了关系蒸馏网络来基于对象关系聚合特征,以改善视频对象检测的特征。MEGA [7]扩展了RDN的关系学习,并提出了一种内存增强的全局-局部聚合网络,该网络有组织地管理用于聚合的远程(全局)特征和短程(局部)特征,以增加当前时间的特征表示用于检测。然而,上述方法[17,12,7]的焦点是选择用于聚合的较高级视频帧,而不是对较低级时间关系进行建模以增加特征表示。因此,特征聚合的主要问题是计算权重wij并选择表示特征f j。不同于上述简单的范例,我们从一个一般的角度来开发的时间特征。为了实现这一目标,我们的TF-Blender工艺品上的三个新的架构模块,时间关系模块,特征调整模块,和特征混合器模块,以启动检测性能(见图2)。3.2. 时间关系我们的时间关系模型之间的关键帧和它的邻居的对应关系为了实现该目标,现有方法使用W(fi,fi)来计算特征图中的每个像素上 这种方法在聚合过程中忽略了特征图的局部空间信息,这导致了特征图中严重的离群点问题。如图3(a)所示,两个相邻的-8141WMWWWM∈N/F(a) 输入帧(b) 输入帧(c) 时间关系图3. 具有全局权重的特征聚合问题的示例:a)示出了两个相邻帧,其中移动的汽车(绿色矩形)小于交通锥(红色矩形)。b)可视化两个帧的特征图,其中除了汽车之外,交通锥也具有高响应。使用全局权重时,除非全局权重的值非常小,否则无法抑制交通锥(红色矩形)c)示出了我们提出的时间关系模块的结果,该模块为特征图中的每个像素分配自适应权重,并且可以抑制不相关的特征。镗架具有一个速度快的车和一个分别用绿色和红色矩形标记的静止交通锥输入帧的特征图被可视化为图3(b),并且交通锥的特征是汽车检测的离群值。对于全局权重,如果配对帧之间的权重是非零的,则在聚合期间不能移除不相关的特征(参见图3(b))。在处理遮挡或小尺度对象时,此问题经常发生。为了解决这个问题,我们的时间关系模块为特征图上的每个像素生成自适应权重(fi,f j),以代替全局权重W(fi,f j)。我们将(fi,fi)建模为具有与用于聚集的特征代表相同大小的张量。对于当前帧Fi的每个相邻帧Fi,我们使用时间关系模块来计算自适应权重(fi,fi)(参见图2)。该过程被公式化为:W(fi,fi)=M(g(fi,fi)),(2)其中g是描述fi和fi之间的时间关系的特征关系函数,M是掩蔽函数图4. 时态关系模块的可视化。fi和fj的输入特征分别被可视化为蓝色和红色长方体。特征关系函数g对fi和fj(灰色长方体)之间的时间关系进行建模。在迷你网络中,卷积层(黄色立方体)被应用以生成最终结果(紫色立方体)。中间层的结果可视化为棕色长方体。以基于g计算自适应权重。如图3(c)所示,我们的时间关系可以增强来自感兴趣区域的特征表示并抑制不相关的特征。更具体地说,我们在Eq中计算。2使用迷你网络(见图4)。与LMP [44]中的CoefNet相比,我们的特征调整模块构建在更轻的架构上,这使得我们的TF-Blender具有计算效率。模块的输入是fi和fj,分别标记为红色和蓝色长方体。特征关系函数g描述fi和fj之间的关系,并生成微型网络的输入(灰色立方体. 之后,我们应用三个卷积层(黄色立方体)来生 成最终的 自 适 应 权 重 ( fi , fj) ( 紫 色 立 方体)。 特征关系函数g的选择将在4.1中讨论。3.3. 要素校正我们的特征调整模块的目的是表示特征的一致性和显著性的特征聚合的相邻帧。简单的解决方案[42,36,7]是直接使用来自帧Fj的特征fj,如下所示:F(fi,fi)= fi→i。(三)然而,不能保证fj对于聚集是有价值的,因为在这些邻近特征。因此,我们在聚合当前帧特征fi之前聚合每个相邻帧特征fi。我们通过将fj与其他相邻特征fm,Fm进行聚合得到特征代表(fi,fj)(Fi),Fm=Fi(见图2)。在特征调整过程中,我们使用时间关系模块为相邻特征聚合生成自适应权重,并使用8142ΣW⊗WM×个- -我ΣJ我 J我 J我过程可以表示为:F(fi,fi)=Fm∈N( Fi)方法mAP(%)运行时间(FPS)W(fj,fm)fj(4)Fm FJ其中是逐元素乘法,是除了其自身之外的相邻帧的特征,并且(fj,fm)是等式2,其在这里可以被表达为:W(fj,fm)= M(g(fj,fm))(五)Fm∈ N(Fi),Fm Fj3.4. 功能混合器在我们的特征混合器模块中,我们首先用非线性函数ReLU增强时间关系模块的结果,使得可以捕获感兴趣区域和背景之间的对比度(参见图2中的混合器模块)。我们将此过程表述为:W(f,f)=ReLU(W(f,f)).(六)表1. 在ImageNet VID验证集上与最近最先进的视频对象检测模型进行性能比较。主干是ResNet-101,运行时在单个RTX2080 Ti GPU上进行测试4. 实验4.1. 实现细节评估指标。 在[43,42]之后,我们报告所有使用平均精密度(mAP)的结果同时,我们在所有通道上使用softmax函数对特征调整模块的结果进行归一化,以提高模型的泛化能力。在图2中的特征混合器模块的顶部,蓝点通过softmax函数在紫色双箭头的引导下被归一化为绿点。该过程可以表示为:F(fi,fj)=softmax(F(fi,fj)).(7)在我们的特征混合器模块中,我们强制如果调整后的相邻要素与在图2的特征混合器模块部分中示出为虚线紫色双箭头的当前帧的特征。我们使用余弦距离来描述F(fi,fj)和fi之间的相似性。如果余弦距离大于δW(fi,fj)是强制为0的。我们将此过程定义为:视频对象检测设置。我们使用MEGA [7]、SELSA[36]、FGFA [42]和RDN[12],三个最先进的系统。我们在ImageNet VID基准测试[31]上进行了训练和评估,其中包含3,862个用于训练的视频和555个用于验证的视频。遵循[42,7,36]中广泛使用的协议,我们在ImageNet VID和DET数据集的组合上训练我们的模型。我们实现我们的方法主要是基于原方法的源代码。整个网络在8个带有SGD的RTX 2080Ti GPU上进行训练在训练和推理过程中,每个GPU保持一组图像或帧。在训练过程期间,编码器参数被冻结,并且采用0.5 IoU来抑制检测冗余。视 频 实 例 分 割 设 置 。 我 们 还 使 用 最 先 进 的MaskTrack R-CNN [22]和SipMask [6]评估了我们提出的方法。我们在YouTube-VIS基准[40]上进行培训和评估,其中W(f,f)=0,如果F(fi,fj)·fiˆ> δ。(八)有3,471个视频用于培训,507个视频用于评估。Ij|F(f,f)||F|我们有这种设计,因为大多数当前基于特征聚合的方法[7,36,12,42]具有固定数量的聚合相邻帧。然而,对于包括严重运动模糊或散焦问题的相邻帧,聚合它们是不相关的和冗余的,这可能导致不希望的模糊。最后,我们使用逐元素乘法来组合来自等式的结果。7、Eq. 8以执行特征聚合:idation 在训练过程中,我们使用权重预在MS-COCO [23]上训练并使用8个RTX 6000 GPU和SGD。在训练和评估中,原始帧大小被调整为640360。参数对于等式中的微型网络(2)中,引入三层CNN以使信道适应于特征聚合。特征关系函数g被定义为fi、fj、fi fj、fj fi和等式(1)中的δ的连接张量(8) 设置为0.7。4.2. 主要结果∆fi=Fj∈N(Fi)FGFA[42]77.87.3SELSA[36]81.510.6RDN[12]81.7-超级[7]82.95.3FGFA(我们的)SELSA(我们的)RDN79.3 ↑1. 582.5 ↑1. 082.4 ↑0. 783.8 ↑0. 96.910.1-4.98143.W(fi,fj)F(fi,fj)Σ(9)ImageNet VID 基 准 测试结果。我们比较国家的最先进的系统制作我们的方法与他们的原始实现。为了公平比较,我们使用8144图5. 在ImageNet VID和YouTube-VIS基准测试上集成了我们的TF-Blender和没有TF-Blender的方法之间比较的定量示例。的原始文件提供的代码,并重新实现他们与我们提出的方法。结果示于表1中。基于这些结果,我们提出的方法大大提高了表中列出的具有相同骨架的每个比较方法的性能。对于头对头比较,具有相同主干的所有方法都可以利用我们提出的方法来提高它们在0附近的检测结果上的性能。7%-1。5%的准确度。其中,FGFA与我们提出的方法相比,具有最高的改善与其他方法。其中,与RDN [12]和MEGA [7]等组合聚合方法相比,FGFA[ 42]和SELSA [36]等局部聚合和全局聚合方法可以使用我们提出的方法进行更好的改进我们认为,有限的性能增益来自组合聚合方法,它考虑了局部和全局特征,使检测更强大的问题,如视频中的运动模糊。图5示出了集成了我们的方法的检测结果的一些示例。基于实例,我们可以看到,我们提出的方法可以帮助解决的问题,弱检测与罕见的姿态和部分遮挡的情况。YouTube-VIS基准测试。我们还在YouTube-VIS数据集上评估了我们提出的方法[40],并将我们的验证结果报告为[40,6,1]。目前的视频实例分割方法大多集中在如何生成高质量的蒙版,以及如何利用主干提取的特征将跨帧的像ResNet,而其中只有少数注意到改进掩模生成和对象跟踪的特征。我们将我们提出的方法添加到这些视频实例分割方法中,以评估我们的TF- Blender在视频中的运动模糊和散焦等问题上的有效性。使用ResNet-50作为主链的结果示于表2中。从表2中,我们提出的方法在所有评估指标下实现了竞争性结果。使用我们提出的方法,MaskTrack R-CNN和SipMask可以改进超过1。6%的AP指标。图5的底部示出了利用我们的集成的检测和分割结果的示例4.3. 消融研究我们进行了广泛的消融研究,以发现与使用FGFA的系统的不同设置相关的最佳设置[42]。分析贡献组件。我们首先对我们提出的方法中的每个组分的效果进行实验,结果示于表3中。基线模型a是原始FGFA。我们提出的方法(时间关系,功能调整,和功能混合器)的每个组件有助于提高检测精度的整体性能 通过引入时态关系模块,模型b的性能可提高0。百分之七。模型c将我们的特征调整模块添加到基线中,并得到0的改进。3%,与基线模型a相比。我们加入我们的fea-8145WGfi,fi+fjfi,fi,fi+fifi−fjfi−fj,fi+fjmAP(%)78.378.677.978.178.578.9fi,fj,fi−fj,fj−fi79.3fi,fj,fi−fjMMM×个- -×个--- -×× ×方法类别APAP50AP75AR1AR10FPS股骨柄分段[1]30.650.733.531.637.112.1股骨柄-节段(我们的)31.351.534.132.137.911.3SipMask [6]SipMask(我们的)一期33.735.154.155.535.836.935.436.140.141.328.026.6SG-Net [27]34.856.136.835.840.822.9SG-Net(我们的)35.757.137.636.642.021.3MaskTrack R-CNN [22]两级30.351.132.631.035.510.0MaskTrack R-CNN(我们的)31.452.333.531.936.59.4表2.与YouTube-VIS验证集上最新的视频实例分割模型的性能比较主干是ResNet-50-FPN,模型在MS-COCO上进行预训练运行时在单个RTX TITAN GPU上进行测试表3. 将每个功能模块集成到基线中对精度的影响。TR、FA和FB分别代表时间关系模块、特征调整模块和特征混合器模块。真混合器模块对A建模以生成用于特征聚集的相邻帧的动态数目,并且得到模型D,其为0。在mAP度量上比原始模型好5%。模型e、f和g来自模型a、b和c的组合。如表3所示,通过组合我们提出的每两种方法,可以进一步提高视频与基线模型a相比,我们的全模型h可以获得1的绝对增益。5%的视频对象检测准确率时间关系分析。我们对方程中g的选择进行消融研究。(二)、在这些实验期间,所有其他实验设置保持相同。 我们首先在FGFA [ 42 ]上针对g尝试fi和fi的不同组合,如表4所示。一个简单的想法是只使用fi和fj作为输入,并且存在0。FGFA改善5%我们认为,由于只考虑了单个帧的特征,不足以描述fi和fj之间的关系,所以性能是有限的。因此,我们将fi和fj之间的差引入到g,并得到0的改进。FGFA为8%然后,我们使用f i和f j的和作为g来生成(f i,fj),但只有0。1%的改善。我们还将f i+f j与上述其他选择进行组合(likefi , fj , andfi-fj ) ,but the results of thecombination表4.特征关系函数g的不同设计的结果。比原来的更糟糕 我们认为fi+ fj不适合描述fi和fj之间的关系的原因是fi+ fj的工作原理类似于平均滤波器,它将特征图中具有较高响应的像素和具有较低响应的像素混合在一起。 除上述实验外,我们还尝试了fi,fj,fi,fj,并得到了1的改进。百分之一。最后,我们选择fi,fj,fifj,fjfi作为我们的特征关系函数g,它具有最高的检测精度。 因为fi和fi分别表示当前特征和相邻特征。 帧Fi可以是当前帧Fi之前或之后的帧。因此,必须计算f i f j和f j f i两者,因为它们对不同的时间对应性和一致性进行建模。上的实验。我们对时态关系模块的设计进行了实验,特别是对时态关系模块的层数进行了实验微型网络的。 模型a是最简单的设计,其中仅存在具有核大小11的一个卷积层。 通过保持内核大小固定并再添加一个卷积层,模型b可以将mAP增加0。百分之二。当有三个卷积层的核大小为11时,检测精度可达79.2%作为模型C。然而,当添加更多卷积层时,如在模型d中,检测精度开始降低。我们认为,卷积层数的增加在迷你网络中引入了复杂的参数,从而导致过拟合。 在模型e中,我们将核大小从1 1改变为3 3,并且检测精度提高了0。百分之一。方法abcdefTRFACCCCCFB mAP(%)77.878.578.1C78.378.6C78.8GhC C C79.3C C78.58146NN.Σ。Σ.Σ。Σ。ΣONO N.Σ·ON聚合帧的数量。 通常,O Ntkr = 1 + 0。NΣ+ O NΣ模型层数mAP(%)一178.8B279.0C379.2D479.1e379.3表5. M的层数的影响。有两个主要来源:1.特征提取(编码)网络EX; 2.任务网络tk.因此,上述方法的运行时复杂度为:O Nex+O Ntk(10)虽然采用了所提出的TF-Blender方法,但计算成本可以定义为:O. NexΣ + i·O. NtfΣ + O.其中Ntf是TF-混合器模块的成本。e和Σi是ex和tfex。因此,成本比r可以表示为:输入输出NtfΣexTK(十二)(a) 运动速度(b)物体尺寸图6. 提高不同运动速度和物体尺寸的性能。分析物体大小和运动速度。我们还调查了我们的TF-搅拌机上的对象的大小和运动速度的对象的效果。我们使用与MS-COCO [23]和FGFA [42]相同的定义分别用于对象大小和运动速度。我们使用mAP作为评估指标,并将具有不同大小和运动速度的对象的性能改进可视化为图6。我们注意到,我们的方法有不同的改进对象与不同的运动速度。 如图6(a)所示,与具有快速和中等速度的对象相比,具有慢速运动速度的对象有更高的改善。我们认为可能有两个原因。一个是,即使我们提出的方法可以帮助提高检测精度的对象与快速运动速度,它另一个原因是慢动作的物体占37。ImageNet VID基准测试中为9%,而具有中等和快速运动速度的人为35。9%,26。2%。我们实验的另一个关键观察结果是,我们的方法可以为大型物体的检测提供最高的改进,如图6(b)所示。这与我们提出的方法的假设有关:由于大的对象具有较大的特征图尺寸,因此相应的像素可以更多地受益于用于细粒度特征编码的单独权重。对于小对象,由于其特征图较小,因此用于聚合的权重对特征表示改进的贡献较小。速度-精度权衡。对流方法的计算负荷(即,[47]第41话这种增加的计算成本是负担得起的,因为itf的影响可以忽略不计。我们将FGFA [47]的速度-精度权衡可视化为示例(参见图7)。随着输入帧数量的增加,FGFA与TF-Blender在准确性方面取得了显着的提高,同时运行时间的增加保持在一个可承受的范围内。图7. 使用ResNet-50在FGFA上演示使用和不使用TF-Blender的速度-准确性权衡。5. 结论在本文中,我们讨论了视频对象检测的问题,并介绍了一个名为TF-Blender的框架,它包含时间关系,特征调整和特征混合器模块,以解决视频帧中的特征降级的问题我们的方法是灵活和通用的,它可以通过任何基于学习的检测网络,以实现更好的性能。大量的实验表明,与我们提出的方法的集成,目前的国家的最先进的方法可以提高视频对象检测准确性Ima-geNet VID和YouTube-VIS的基准由一个大的margin。我们相信,我们的TF-Blender可以是一个有价值的补充,现有的方法,时间特征aggregation视频检测和TF-Blender可以扩展到其他视频分析任务,如视频实例分割。8147引用[1] AliAthar,Sabarinath Mahadevan,Aljosˇa Osˇep,LauraLeal-Taixe´, andBastianLeibe.Stem-seg : Spatio-temporalembeddingsfor instance segmentation in videos ,2020.六、七[2] Gedas Bertasius和Lorenzo Torresani分类,分割,并跟踪对象实例在视频中与掩模传播。在IEEE/CVF计算机视觉和模式识别会议论文集,第9739- 9748页三个[3] Gedas Bertasius,Lorenzo Torresani,and Jianbo Shi.视频中的对象检测与时空采样网络,2018。二个[4] Daniel Bolya,Chong Zhou,Fanyi Xiao,and Yong JaeLee.Yolact:实时实例分割。在ICCV,2019年。二个[5] Daniel Bolya,Chong Zhou,Fanyi Xiao,and Yong JaeLee. Yolact++ : 更 好 的 实 时 实 例 分 割 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,2020。二个[6] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask:用于快速图像和视频实例分割的空间信息保留。arXiv预印本arXiv:2007.14772,2020。五、六、七[7] Yihong Chen,Yue Cao,Han Hu,and Liwei Wang.用于视频对象检测的记忆增强全局-局部聚合。2020. 二三四五六[8] Daniel Cores,V 'ıctor M.Brea和Manuel Mucientes。用于视频对象检测的短期锚链接和长期自我引导注意。图像和视觉计算,110:104179,2021。二个[9] Yingming Cui,Xin Liu,Hongmin Liu,Jiyong Zhang,Alina Zare,and Bin Fan.用于点云分析的几何注意力动态图卷积神经网络神经计算,432:300-310,2021。三个[10] H.邓,Y. Hua,T.宋,Z. Zhang,Z.薛河,巴西-地马,N. Robertson和H.关。用于视频对象检测的对象引导外部存储器网络。2019年IEEE/CVF国际计算机视觉会议(ICCV),第6677-6686页,2019年。二个[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。一个[12] Jiajun Deng,Yingwei Pan,Ting Yao,Wengang Zhou,Houqiang Li,and Tao Mei.视频对象检测的关系蒸馏网络,2019年。二三五六[13] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测,2018年。二个[14] Philipp Fischer,Alexey Dosovitskiy,Eddy Ilg,PhilipH¨usser , CanerHazırbaså , VladimirGolkov, PatrickvanderSmagt,Daniel Cremers,and Thomas Brox.Flownet:使用卷积网络学习光流,2015年。二个[15] Qichuan Geng,Hong Zhang,Na Jiang,Xiaojuan Qi,Liangjun Zhang,and Zhong Zhou.用于视频对象检测的对象感知特征聚集,2020。二个[16] Wei Han , Pooya Khorrami , Tom Le Paine , PrajitRamachan-dran , Mohammad Babaeizadeh , HonghuiShi,Jianan Li,8148Shuicheng Yan,and Thomas S Huang.用于视频对象检测 的 Seq-nms 。 arXiv 预 印 本 arXiv : 1602.08465 ,2016。一、二[17] Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,andYichen Wei.对象检测的关系网络,2018。三个[18] Eddy Ilg ,Nikolaus Mayer ,Tonmoy Saikia, MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.流动网络2.0:深度网络光流估计的演进,2016年。2[19] Kai Kang,Hongsheng Li,Junjie Yan,Xingyu Zeng,BinYang , Tong Xiao , Cong Zhang , Zhe Wang ,Ruohui Wang,Xiaogang Wang,et al. T-cnn:使用卷积神经网络的Tubelets,用于视频中的对象检测。IEEETransactionsonCircuitsandSystemsforVideoTechnology,28(10):2896-2907,2017。一、二[20] Kai Kang , Wanli Ouyang , Hongsheng Li , andXiaogang Wang.用卷积神经网络从视频管中检测目标。2016年IEEE计算机视觉和模式识别会议,2016年6月。二个[21] Byungjae Lee、Enkhbayar Erdenee、Songguo Jin、MiYoung Nam、Young Giu Jung和Phill Kyu Rhee。基于变化点检测的多类多目标跟踪。欧洲计算机视觉会议,第68施普林格,2016年。一个[22] Chung-Ching Lin , Ying Hung , Rogerio Feris , andLinglin He.基于改进vae架构的视频实例分割跟踪。在IEEE/CVF计算机视觉和模式识别会议论文集,第13147-13157页,2020年。五、七[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 五、八[24] Dongfang Liu,Yiming Cui,Zhiwen Cao,and YingjieChen.大规模模拟数据集:提高特殊天气条件下的探测精度。2020年国际神经网络联合会议(IJCNN),第1-8页一个[25] Dongfang Liu,Yingming Cui,Yingjie Chen,JiyongZhang,and Bin Fan.自动驾驶的视频对象检测神经计算,409:1 一、二、三[26] Dongfang Liu,Yiming Cui,Xiaolei Guo,Wei Ding,Baijian Yang, and Yingjie Chen. 自 动 驾 驶 的视觉定位:绘制城市迷宫中的准确位置,2020年。一个[27] Dongfang Liu,Yiming Cui,Wenbo Tan,and YingjieChen. Sg-net:用于单阶段视频实例分割的空间粒度网络 。 在 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的会议记录中,第9816-9825页,2021年6月。七个[28] 刘东方,崔一鸣,严立奇,Christos Mousas,杨柏剑 , 陈 英 杰 .Densernet : Weakly supervised visuallocalization using multi-scale feature aggregation,2021.三个8149[29] Yongcheng Liu , Bin Fan , Shiming Xiang , andChunhong Pan.用于点云分析的关系形状卷积神经网络,2019年。三个[30] Jonathon Luiten、Philip Torr和Bastian Leibe。视频实例分割2019:一个成功的方法,结合检测,分割,分类和跟踪。在IEEE/CVF计算机视觉国际会议(ICCV)研讨会上,2019年10月。三个[31] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,Alexander C.伯格和李飞飞。2015年Imagenet大规模视觉识别五个[32] M. Shvets,W.Liu和A.伯格。利用视频对象检测
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功