基于内在相关性学习的边缘聚合网络用于移动对象分割

142 浏览量更新于2023-10-25 收藏 12.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

181490一种用于移动对象分割的端到端边缘聚合网络0Prashant W. Patil，Kuldeep M. Biradar，Akshay Dudhane和SubrahmanyamMurala CVPR实验室，印度理工学院罗帕尔分校，印度02017eez0006@iitrpr.ac.in0摘要0对于基于安全的应用（如自动化室外视频监控）来说，视频中的移动对象分割（MOS）是一项高度需求的任务。大多数现有的MOS技术都高度依赖于在测试序列的第一帧上微调模型或复杂的训练过程，这导致算法的实际可用性有限。本文提出了一种基于内在相关性学习的边缘提取机制（EEM）和稠密残差块（DRB）的判别性前景表示方法，用于MOS。多尺度EEM模块通过编码器将与前景边缘相关的有效信息传递给解码器，通过后续尺度的跳跃连接。此外，光流编码器流和最后一个EEM模块的响应被嵌入到桥接网络中。桥接网络由具有密集连接的多尺度残差块组成，以学习有效和高效的前景相关特征。最后，为了生成准确和一致的前景对象映射，提出了一个解码器块，其中包括来自相应的多尺度EEM模块特征图和前一帧输出的下采样响应的跳跃连接。具体而言，所提出的网络不需要任何预训练模型或对测试视频的初始帧进行微调的参数。通过不同的配置（如不相交，交叉数据和全局训练测试技术）评估了所提出网络的性能。进行了消融研究以分析所提出网络的每个模型。为了证明所提出框架的有效性，对四个基准视频数据集进行了全面分析。实验结果表明，所提出的方法在MOS方面优于现有方法。01. 引言0在不受控制的天气，不同的照明条件或动态背景下捕获的视频的移动对象分割（MOS）对于许多计算机视觉应用（如自动化视频）来说是一项具有挑战性的任务。0图1.所提出框架在（a）天气恶劣的视频，（b）多对象的交通视频和（c）单对象的拥挤视频上的样本结果。0监视 [30]，交通监控 [4]，异常检测[27]等等。它旨在为前景对象自动生成精确和一致的像素掩码。室内视频的准确性比室外视频高，因为室外视频受到多种因素的影响，如能见度差，恶劣天气情况，低对比度，局部运动等等。此外，自动化视频应用的一个重要注意点是，超过70%的像素信息对于高级处理任务是冗余和无关紧要的[3]。这些冗余信息降低了视频监控，交通监控等自动化应用的整体性能。基于学习的方法显著提高了许多计算机视觉应用的性能[35]，[34]，[14]，[23]，[37]，[15]，[26]，[2]，[4]，[1]，[40]，[24]。许多方法[26]，[40]，[43]，[4]，[1]提出了使用测试序列的第一帧进行预训练模型的微调。此外，一些技术[24]，[37]通过高系统复杂性实现了显著的性能。尽管这些方法取得了令人印象深刻的结果，但这些方法的实际可用性是有限的。81500有限。因此，MOS是日常生活中从多个方面具有挑战性的任务。所提出的MOS框架的主要动机是设计一个不依赖于在测试序列的第一帧上对预训练模型进行微调的模型。此外，考虑到系统复杂性，即系统应该简单，快速，端到端和强大。为了实现这个目标，本文提出了一种多帧多尺度编码器-解码器对抗学习网络，其中包括边缘提取机制和稠密残差块，用于MOS。编码器-解码器网络中非常重要和关键的一步是如何将像素级多尺度编码器特征以有意义的方式连接到解码器的相应尺度。此外，在设计网络时，滤波器大小的选择对于更好地学习特定任务的特征起着重要作用。为此，提出了一种基于内在相关性的边缘提取机制。此外，使用前一帧的预测输出与后续尺度一起，为解码器提供当前帧和前一帧之间的一致匹配，以学习判别性前景表示。图1显示了天气恶劣，多对象交通和单对象拥挤视频的一些样本结果。02. 相关工作0现有的MOS算法可以广泛分为无监督、半监督、在线和传播方法。下面简要介绍了现有的MOS方法。无监督视频目标分割方法[9]，[45]在无约束视频上自动分割前景-背景，不需要任何用户注释。Brent等人提出了一种基于运动和视觉显著性的MOS方法。[45]中提出了一种基于前向传播的方法来估计目标提案。Wang等人提出了一种无监督的MOS方法，其中包括动态视觉注意力预测和时空域和空间域中的注意力引导目标分割。半监督视频目标分割依赖于预先提供的地面真值掩码。Paul等人提出了语义像素级特征串联和全局局部匹配技术用于移动目标检测。[14]中提出了一种概率生成方法来预测目标和背景的外观。为了进行高效的特征提取，使用了生成外观、骨干特征提取器和预测模块。现有最先进的基于学习的方法的主要重点是学习外观和基于运动的帧分割特征。除了这些特征外，Lu等人提出了一种共同注意机制。0为了改进具有辨别性的前景表示，NISM提出了一种数据增强技术，即半监督视频目标分割（VOS）的清晰数据梦想。[15]提出了一种带有记忆模块的双流网络，用于获取基于外观和运动的特征。一些研究人员使用基于跟踪的方法来检测VOS的感兴趣区域[7]。Luiten等人提出了一种具有语义提案生成、细化和合并技术的方法用于MOS。[24]中提供的结果令人印象深刻，但系统的复杂性很高，因为他们同时使用了四个不同的网络进行微调。0基于在线学习的方法[11]，[40]，[26]，[6]，[43]是主要依赖于在测试序列的第一帧上对预训练模型进行微调的半监督方法。基于前景运动与背景运动不同的假设，提出了基于运动引导的级联细化网络用于MOS。Maninis等人提出了一种不依赖于时间信息的正交方法用于VOS。在这里，使用在ImageNet上学习的特征来传递通用的语义信息，用于前景-背景分割（FBS）。使用CNN训练模型和光流来编码空间和时间依赖性。最近，基于生成对抗网络（GAN）的方法在各种计算机视觉应用中取得了显著的改进，如图像去雾[8]，FBS[29]，水下MOS[31]等。为了捕捉外观和运动线索，[40]中利用了以对抗方式进行的时间一致性分支的预训练。基于学习到的线索，提出了空间分割分支，用于准确分割对象。Akilan等人提出了基于3DCNN的方法，其中包括3D转置卷积和残差连接，基于编码器-解码器CNN技术和多视图感受野，以及基于缓慢编码器-解码器和步进卷积的背景生成。在这里，作者在基线视频上训练了他们的模型，并在目标视频的帧上进行微调，以获得更好的泛化和准确的前景检测。在基线视频上训练、在更多帧上微调以及在目标视频的剩余帧上测试导致算法的实际适用性有限。0基于传播的方法[38]，[37]，[41]，[39]利用前一帧的输出来实现高效和有效的MOS。除了视觉和空间指导外，Linjie等人[41]引入了一个调制器来管理分割网络的中间层的学习。Seoung等人[38]提出了一个相同的编码器网络来独立处理关键帧和参考帧。最后，使用具有残差学习的细化模块进行快速MOS。类似地，Ziqin等人[37]提出了一种排名注意技术来整合匹配和81510基于传播的编码器-解码器网络用于VOS。在[39]和[44]中，除了输入帧外，还使用光流[12]作为输入来指导前景运动聚类的传播过程。所提出的方法克服了[2]，[4]，[1]的训练数据较少以及[11]，[40]，[26]没有对目标视频的帧进行微调的缺点。此外，所提出的方法使用了使用[22]的光流和具有相应比例的前一帧的输出来指导传播过程。所提出的工作具有以下主要贡献：01.提出了一种端到端的多帧多尺度编码器-解码器对抗学习网络，用于移动目标分割。02.提出了一种新颖的边缘提取机制（EEM），通过跳跃连接将多帧像素级多尺度编码器特征与相应的解码器特征进行整合。03.提出了一种具有密集残差块的桥接网络，用于嵌入从光流编码器流和最后一个EEM模块提取的运动特征的特征图。04.在四个基准视频数据库上使用不相交、全局和交叉数据训练-测试技术对所提出的方法进行了MOS的有效性检验，并与现有方法进行了比较。03. 提出的系统框架0各种研究人员利用卷积神经网络（CNN）[7]，[6]，[38]，[44]，[20]，[28]的预训练模型进行MOS。此外，一些方法对测试视频的初始帧进行了预训练网络的微调，用于MOS[11]，[40]，[26]，[43]，[2]，[4]，[1]。此外，一些方法[24]，[37]取得了最先进的性能，但计算复杂度很高。所有这些因素使得MOS的实际可用性受到限制。这促使我们设计了一种端到端的MOS网络，不依赖于微调，并且更具实际可用性。MOS任务面临两个主要挑战。首先，将前景对象与背景分离。基于不同的背景-前景运动假设[37]，我们提出了一种多帧多尺度编码器-解码器网络用于MOS。所提出的网络以视频帧和光流作为输入，学习三个连续帧的多尺度编码器特征之间的内在相关性。由于多帧编码器给出了前景-背景概率图，因此需要学习多帧多尺度编码器特征，并以有效而有意义的方式传播到解码器网络中。为此，我们提出了多帧多尺度边缘提取机制与相关性学习。0在这项工作中，我们提出了一种新的方法。此外，我们使用最后一个EEM模块对编码的前景边缘相关特征进行编码，并使用桥接网络将光流编码器流的编码特征图与前景相关特征进行融合，以学习稳健的前景特征。其次，通过视频帧之间的一致分割前景对象。基于这样的假设，即前一帧的前景对象对于当前帧来说没有太大偏差，我们利用估计的前一帧输出与相应的比例来引导解码器网络，以获得有区分性的前景特征表示。所提出网络的详细可视化如图2所示。03.1. 多帧多尺度编码器0所提出的方法以RGB视频帧（It ∈ R3 × M × N ×3）和提取的光流（Ot ∈ R M × N ×3）[22]作为输入。这里使用基于多帧的编码器来获取与前景相关的多尺度边缘信息，即将三个帧分别输入到三个不同的编码器流中。每个编码器流块由两个卷积滤波器组成，卷积核大小分别为3×3和7×7，后面跟一个泄漏整流线性单元（ReLU），以提取像素级的多尺度特征。此外，对帧对（t-1，t，t+1）之间的估计光流[39]提供给第四个编码器流以学习运动特征。为了更好地可视化，光流被视为HSV表示[25]，其中色调和饱和度分别表示运动的方向和幅度。在这项工作中，只考虑幅度，并将其附加三次以获得三通道图像。由于光流流特征与外观流特征的早期或晚期融合效果不佳[39]，因此在所提出的方法中考虑了光流编码器流特征和最后一个EEM模块特征的中级融合。编码器块定义为EN L L × f;[L ∈ (1, 4), f =32]}，其中L和（L×f）分别表示编码器级别和编码器中的滤波器数量（更多细节请参考图2）。03.2. 边缘提取机制模块0由于编码器提供前景-背景概率图[37]，因此需要有效地学习多帧编码器与多尺度特征之间的内在相关性。为此，提出了基于学习的边缘提取机制（EEM）模块。在编码器网络的每个尺度上应用EEM模块，以侧重于前景相关特征的学习并忽略背景区域。首先，在编码器的一个尺度特征与另一个编码器的另一个尺度特征之间进行逐像素减法。将所有减法特征连接起来，得到该特定编码器级别的整体响应，如公式（1）所示。0C = Ψ {X S k, Y S k, Z S k} (1)MSBn =n−1�i=1MSBi ; n > 1(2)81520图2.MOS提出框架的概述。首先，借助所提出的边缘提取机制（EEM）模块，从三个连续帧中提取与前景对象相关的多尺度特征。将光流编码器流和最后一个EEM模块的编码特征图嵌入以学习与前景相关的有效特征。最后，为了分割当前帧，在解码器网络中将前一帧的下采样输出响应和相应的EEM模块特征图进行组合。0其中，Ψ表示减法特征的连接，X S k = W(i,j)(k)(S) �W(i,j)(k+4)(S+1); k = 3, S ∈ (1, 2)0Y S k = W(i,j)(k)(S) � W(i,j)(k-4)(S+1); k = 7, S ∈ (1, 2)0Z S k = W(i,j)(k)(S) � W(i,j)(k)(S+2); k ∈ (3, 7), S = 10其中，�表示逐元素减法，W(i,j)(k)(S)是S流在(i,j)位置上的特征，使用k×k大小的卷积核。进行消融研究以展示多尺度特征提取中连接操作对加法操作的影响（请参考表4）。给出了第一个EEM模块样本特征图的详细可视化结果（见图3）。每个EEM模块的响应基本上被保留用于分割，并通过跳跃连接传递给相应的解码器网络，以获得有效且有意义的前景表示。03.3. 桥接网络0桥接网络用于将光流编码器流的运动特征与编码器的最后一个EEM模块特征嵌入。EEM模块表示为{EEM L L × f; [L ∈(1, 4), f =32]}。用于自动化视频应用的方法需要处理大量的训练数据。更深层次网络的训练经历了梯度消失问题。0为了克服这些限制，提出了具有密集连接的多尺度残差块(MSBs)，称为密集残差块(DRB)，用于学习与前景相关的显著特征。具体来说，我们进行消融研究，分析了所提出网络中DRB块的重要性(请参考表5)。密集连接的技术定义如下：0其中，MSB n 是第n个MSB模块的输入，MSB i是第i个MSB模块的响应，n ∈ (1,6)。每个MSB都有并行的卷积滤波器，内核大小为3×3、5×5和7×7，然后是ReLU。为了有效学习，我们使用连接操作将多尺度特征进行整合，然后是单独的卷积块。最后，将每个连接特征的响应相加，通过残差连接得到不同尺度的鲁棒特征(请参考图2了解更多细节)。03.4. 通过传播进行前景预测0ios like illumination, occlusion, motion blur, etc. Also, forautomated video surveillance applications, reference frameobject(s) may completely vanish after a few frames, and thenew foreground object(s) may come in the current frame.However, the matching between current and previousframes usually referred to avoid false positive matchesbecause motion is less. Hence, we make use of a simplemask propagation method the same as [37] i.e. predictedoutput of the previous frame is used to guide the subsequentdecoder layer with respective scale to improve the potentialof the proposed network for systematic foreground segmen-tation. Along with bridge network features and previousframe output with subsequent scale, the correlated featurefrom the respective EEM module is given to the decodernetwork for ﬁnal foreground segmentation. The decoderblock is deﬁned as {DEL L×f; [L ∈ (4, 1), f = 32]}.Thus,proposedgeneratorisrepresentedas:ENL L×f→EEML L×f ; [ L ∈ (1 , 4), f = 32],DEL L×f; [L ∈ (4, 1), f = 32]Additionally, we are able to train the proposed networkin end-to-end manner for single object, multi-object andthermal data based segmentation with disjoint, global andcross-data training-testing techniques.81530图3. 第一个EEM模块映射的两个特征图样本的可视化。04. 所提方法的训练过程0所提方法采用端到端的对抗训练过程，故意简单。因为MOS是一个类似于图像到图像转换[13]的任务，其目标是学习提供的输入帧与期望的响应即前景对象之间的映射。所提框架的一个优点是它不需要在测试视频的第一帧上进行预训练模型或微调。我们以三种不同的配置对所提出的网络进行了对抗性训练：(1)在数据库中将训练和测试视频分开，没有重叠[16](不相交的训练-测试)；(2)将训练和测试视频帧分开，没有重叠[1](全局0训练-测试)和(3)训练和测试数据集完全不同[30](交叉数据训练-测试)。每个配置的训练细节将在下一小节中讨论。请注意，所提出的网络训练过程比现有方法[24]，[26]，[38]要简单得多，我们不需要在测试视频的初始帧上要求预训练模型或对所提出的网络进行微调。04.1. 不相交的训练-测试（DTT）0对于不相交的训练-测试（DTT），使用了DAVIS-2016[32]和SegTrack-v2[18]数据库。DAVIS-2016数据库有50个具有不同属性的视频，如快速运动、动态背景、尺度变化、背景杂波、交互对象等。从中选择了30个视频（以及相应的真值）进行训练。为了涵盖更具挑战性的实际场景，如慢动作、复杂变形、外观变化、背景-前景颜色相似性等，还包括了SegTrack-v2数据库。从14个序列中随机选择了8个视频进行训练。因此，总共使用了38个（30+8）个视频进行训练，剩余的（20+6）个视频用于测试，类似于STCRF[16]。在训练过程中，进行了数据增强，包括水平翻转，类似于[21]。04.2. 全局训练-测试（GTT）0对于全局训练-测试（GTT），考虑了CDnet-2014数据库[36]，类似于[2]和[4]。CDnet-2014数据库涵盖了各种实际场景，如恶劣天气、相机抖动、阴影、交通等视频。在[2]、[4]、[1]中，70%的视频帧用于训练网络，剩余的30%的视频帧用于检验网络的有效性。对于理想情况，网络应该能够在较少的训练数据上表现良好，没有一个确定的规则来选择能够获得最佳性能的帧数。在提出的方法中，每个视频的50%的帧被一起用于训练，剩余的帧用于测试，不进行视频级微调。具体而言，我们训练了提出的网络，使用了每个视频50%的帧，即没有对基准视频进行训练，也没有对测试序列的帧进行微调，类似于[1]。04.3. 跨数据训练-测试（CTT）0CDnet-2014数据库[36]和GTFD[17]分别用于跨数据训练和测试。从CDnet-2014中，选择了热视频类别用于提出方法的训练。选择了来自热视频类别的共5690个视频帧。据我们所知，这是第一种使用不同数据库进行训练和测试的方法。对于这种技术，光流编码器流被从处理中移除。LGAN(G, D) = EI, S[log D(I, S)]+EI, Z[log(1 − D(I, G(I, Z))](3)L(G, D) = arg minG maxD(LGAN + LSSIM + LEdge)(4)FEELVOS [34]✓-CVPR-190.822AGAME [14]--CVPR-190.822LUCID [15]✓-IJCV-190.820DTNet [44]✓-ICCV-190.835CNIM [6]✓✓CVPR-180.850OSVOS [26]✓✓PAMI-190.875RANet [37]--ICCV-190.876PReMVOS [24]✓-ACCV-180.886STMN [28]--ICCV-190.899MGAVOS [20]✓-ICCV-190.902PM---0.915DSL [19]CVPR-160.734STCRF [16]TIP-180.899UOVOS [45]TIP-190.64381540即只使用热帧进行训练和测试。提出方法的所有训练配置的其余设置与[13]类似。所有训练-测试技术中提出网络的权重参数都是随机初始化的，并使用学习率为0.0002的随机梯度下降（SGD）算法进行迭代学习。网络的权重参数在NVIDIA DGX工作站上进行更新，处理器为2.2 GHz，Intel XeonE5-2698，NVIDIA Tesla V100 16 GB GPU。05. 网络损失0在对抗训练中，生成器网络与鉴别器（D）的目标函数定义为：0其中，I、S和Z分别表示输入、真实值和随机噪声向量。为了最小化生成器网络的损失，考虑结构相似性指数度量（SSIM）和边缘损失（Sobel算子）。因此，损失函数定义为：06. 实验0在本节中，我们在四个基准数据库DAVIS-2016[32]、SegTrack-v2 [18]、CDnet-2014 [36]和GTFD[17]上评估了提出的网络在MOS和多目标分割上的性能。通过平均F-measure和视觉结果来评估和验证与MOS的最新方法的定量结果。此外，还进行了多个消融实验，以全面了解提出方法在DAVIS-2016上的性能。06.1. DTT的结果分析0对于DTT模型，我们在DAVIS-2016和SegTrack-v2数据库的测试集上以平均F-measure为指标评估了其有效性。我们将所提出的方法的结果与最近发表的10种方法进行了比较，即FEELVOS [34]、AGAME [14]、LUCID [15]、CNIM[6]、OSVOS [26]、RANet [37]、PReMVOS[24]、DTNet[44]、STMN [20]、MGAVOS[28]。定量结果分别在DAVIS-2016和SegTrack-v2数据库的表1和表2中给出。此外，将DAVIS-2016和SegTrack-v2数据库上的视觉结果与最先进的方法进行了比较，并在图4和图5中给出。一些最近发表的工作[6]、[26]和[37]在准确性方面取得了显著的改进，但这些模型使用了预训练的权重或需要在测试视频的第一帧（帧）上进行微调。DeepLabv2VGG16在PASCALVOC上进行了预训练，并被用作初始权重参数[6]。0图4.DAVIS-2016数据库上的视觉结果。（a）输入帧，（b）至（e）分别是RANet-[37]、OSVOS-[26]、PReMVOS-[24]、所提出的方法的结果，（f）真值。0图5.在SegTrack-v2数据库上，所提出方法（PM）与现有方法[16]的视觉结果。0方法 PT OF 年份 F-measure0表1.在DAVIS-2016上，所提出方法（PM）与现有最先进方法的定量结果比较。我们使用“�”表示具有预训练（PT）模型或在线微调（OF）的方法。0方法发表年份 F-measure0所提出的方法 - 0.9180表2.在SegTrack-v2数据库上，所提出方法与现有方法的结果比较。0[6]中使用了VGG-Net作为骨干网络，并使用了[6]中的初始权重参数。类似地，[26]中提出了一个三阶段（基础、父级和测试）网络。首先，父网络在DAVIS训练集上进行了训练，并使用预训练的ImageNet权重。81550通过基础网络对ImageNet的权重进行训练。此外，对于VOS，训练的父网络在每个测试序列的一个帧上进行微调，并与每个测试序列的真值一起训练。类似地，网络在MSRA10K、ECSSD和HKU-IS上进行了训练，用于静态图像分割。然后，对DAVIS-2016数据库进行了微调，用于MOS。在MOS中，提出了一种用于语义提议生成、细化和合并的技术。[24]中提供的结果令人印象深刻，但系统的复杂性很高，需要很长的计算时间，因为他们同时使用了四个不同的网络进行微调。另一方面，所提出的方法在没有预训练模型或对测试视频的第一帧进行微调的情况下，实现了最先进的MOS性能（请参考表1和2）。表1、2和图4、5表明，所提出的网络在DAVIS-2016和SegTrack-v2上优于其他现有的最先进的MOS方法。06.2. 消融研究0为了研究所提出网络的各个组成部分的效果，我们在DAVIS-2016数据库上进行了全面的消融研究。所提出的网络使用了三个连续的RGB帧和光流作为输入。因此，需要分析每个输入的贡献。为此，我们评估了在组合和单独输入存在时的有效性，通过平均F-measure和平均绝对误差（MAE）进行了定量比较。与单独输入相比，将输入帧与光流相结合的效果更好。在所提出的方法中，四个输入流（三个RGB帧和光流）被并行处理。三个RGB帧的并行处理是否对所提出的网络有贡献？为了检验这一点，我们使用了三个流（两个RGB帧和光流）和四个流来获得结果。此外，从每个尺度的每个编码器级别提取的特征在EEM模块中进行了减法和连接。特征连接对于模块的重要性有多大？为了评估重要性，我们在EEM模块中检查了加法和连接操作的结果。在设计网络时，滤波器大小对于有效的特征学习起着关键作用。因此，通过将3×3滤波器与5×5和7×7滤波器相结合来分析准确性。具体来说，将EEM模块中的3×3和5×5滤波器与附加操作相结合的结果被表示为3 5ADD，其他所有组合也是如此。所有组合的结果如表4所示。从表4可以得出结论，使用3×3和7×7连接操作的四个流的并行处理，即3 7CONCAT，在EEM模块中优于其他组合。来自光流编码器的运动特征0输入 F-measure MAE0仅光流（OF） 0.8648 0.02960仅输入帧（IFs） 0.8246 0.03950光流和输入帧的组合 0.9149 0.01910表3. 在DAVIS-2016上使用不同输入组合的结果消融。0使用方法03流 4流0F-measure MAE F-measure MAE03 5 ADD 0.8545 0.0258 0.8635 0.023903 5 CONCAT 0.8601 0.0249 0.8733 0.026503 7 ADD 0.8793 0.0222 0.8937 0.021503 7 CONCAT 0.8908 0.0219 0.9149 0.01910表4. 在DAVIS-2016上对多尺度特征进行融合的结果消融。0方法 F-measure MAE0没有DRB 0.8701 0.02290使用一个DRB 0.8917 0.02010使用两个DRB 0.9149 0.01910使用三个DRB 0.8667 0.02390表5.在DAVIS-2016数据库上使用不同数量的DRB进行桥接网络的结果分析。0流与最后一个EEM模块的基于外观的特征通过桥接网络进行了融合。桥接网络如何帮助所提出的方法学习有效的前景相关特征？在桥接网络中，使用DRB块进行有效的特征学习。因此，我们验证了不使用DRB和不同数量的DRB的所提出网络的性能。使用DRB融合的定量结果见表5。与其他现有组合相比，具有两个DRB的所提出网络显示出了改进的性能。总之，我们验证了每个组件（并行处理，多尺度滤波器，DRB块）如何帮助所提出的网络对前景对象分割进行有效和显著的特征学习。06.3. GTT的结果分析0在这些实验中，使用全局训练的网络在CDnet-2014数据集上验证了所提出方法的检测准确性。视频帧的空间分辨率从320×420到720×480不等，视频的持续时间从900到7000帧，包含不同数量的移动物体。考虑了来自不同视频类别的视频，包括基线（高速公路，办公室，行人，PETS2006），恶劣天气（暴风雪，滑冰），相机抖动（林荫大道，交通）和阴影（后门，复印机，人和阴影）。准确性以平均F-measure的形式进行衡量，并与最先进的方法[2]，[4]和[1]，[30]，[5]进行比较。定量和视觉结果分别在表6和图6中进行了说明。其中一些81560图6. 使用sEnDec [1]在CDnet-2014数据库上的视觉结果。0方法出版物 F-measure0MSFgNet [30] TITS-18 0.9150DeepBs [5] PRL-18 0.9320sEnDec [1] TITS-19 0.96103DLSTM [2] TITS-19 0.9640MRCNN [4] TVT-19 0.9410提出的方法-0.9690表6.在CDnet-2014数据库上，所提出方法与现有方法在MOS任务上的平均F-measure比较。0[2]，[4]和[1]等方法在CDnet-2014数据库上使用基线视频训练并在目标视频的某些帧上进行微调取得了有希望的结果。从表6和图6可以清楚地看出，所提出的方法在没有对目标视频帧进行微调（仅使用全局训练）的情况下优于现有的最先进方法[2]，[4]和[1]，[30]。06.4. CTT的结果分析0GTFD数据库是最近发布的用于MOS任务的视频数据库之一，包含RGB和热数据。为了分析在没有光流的情况下所提出方法的有效性，进行了基于热数据的训练和测试。GTFD数据库包含25个视频，具有高度多样性，并且在低照明等不同挑战性情况下进行了拍摄。为了进行结果分析，每个视频帧都由一个人手动注释，以保持高一致性。所提出方法的定量结果与现有的最先进方法在平均F-measure方面进行了比较，结果见表7。样本的视觉结果如图7所示。从图7和表7的视觉和定量结果可以看出，所提出的方法在热数据上的MOS任务中优于现有的最先进方法。性能分析：与现有的端到端模型[34]，[14]，[15]，[44]，[6]，[26]，[37]，[24]，[20]，[28]相比，所提出的方法在准确性方面达到了最先进的性能。一些现有方法在系统复杂性或需要对测试视频的第一帧进行微调的情况下也取得了有希望的结果[24]，[11]，[40]，[26]，[28]。此外，所提出方法在天气恶劣或多目标交通视频上的准确性更好。0图7.使用CLoD [42]在GTFD数据库上的视觉结果。0方法出版物 F-度量0CLoD [42] TCSVT-18 0.660WELD [17] TCSVT-17 0.670F-WELD [17] TCSVT-17 0.730提出的方法-0.750表7.在GTFD数据库上，将所提出的方法与现有最先进的方法进行定量结果比较。0比[2]，[4]更好。在NVIDIADGX工作站的单个GPU上，我们测量处理一帧所需的平均时间为51毫秒，包括光流时间。这些观察结果使得所提出的方法更具实用性。最后，我们观察到了两种情况下所提出方法的性能受限。（1）具有移动背景的多对象场景（2）具有长期遮挡的复杂运动。这可能是由于快速移动的背景和长期遮挡引起的。07. 结论0MOS是自动化室外视频监控的一项高度要求和具有挑战性的任务。许多方法针对MOS任务提出了有益的结果，但其中一些由于复杂的训练过程或系统复杂性而具有有限的实用性。因此，我们提出了一种基于内在相关性学习的边缘提取机制（EEM）和密集残差块（DRBs），并对RGB帧和光流进行并行处理，以获得有区分性的前景表示。此外，为了生成准确一致的前景对象掩码，使用解码器块与后续多尺度EEM特征的跳跃连接以及先前帧输出的相应下采样版本。为了证明所提出框架的有效性，我们在四个基准和具有挑战性的数据集上进行了实验，即DAVIS-2016、SegTrack-v2、CDnet-2014和GTFD。实验分析表明，与无任何预训练模型或对测试视频帧进行微调的模型相比，所提出的网络实现了有利的性能。0致谢0这项工作得到了印度科学与工程研究委员会（DST-SERB）的支持，授予号码ECR/2018/001538。81570参考文献0[1] Thangarajah Akilan和Qingming JonathanWu。sendec：一种改进的图像到图像CNN用于前景定位。IEEE智能交通系统交易，2019年。[2] Thangarajah Akilan，QingmingJonathan Wu，Amin Safaei，Jie Huo和Yimin Yang。基于3DCNN-LSTM的图像到图像前景分割。IEEE智能交通系统交易，2019年。[3] Thangarajah Akilan，QM Jonathan Wu和YiminYang。基于融合的前景增强的背景减法，使用多元多模型高斯分布。信息科学，430：414-431，2018年。[4] ThangarajahAkilan，QM Jonathan Wu和WandongZhang。使用多视图接收场和编码器-解码器DCNN进行视频前景提取，用于交通和监控应用。IEEE车辆技术交易，2019年。[5]Mohammadreza Babaee，Duc Tung Dinh和GerhardRigoll。用于视频序列背景减法的深度卷积神经网络。模式识别，76：635-649，2018年。[6] Linchao Bao，Baoyuan Wu和WeiLiu。MRF中的CNN：基于CNN的高阶时空MRF中的视频对象分割。在CVPR的IEEE会议论文集中，页5977-5986，2018年。[7]Jingchun Cheng，Yi-Hsuan Tsai，Wei-Chih Hung，ShengjinWang和Ming-HsuanYang。通过跟踪部分快速准确的在线视频对象分割。在CVPR的IEEE会议论文集中，页7415-7424，2018年。[8] AkshayDudhane，Harshjeet Singh Aulakh和Subrah-manyamMurala。Ri-gan：用于单幅图像去雾的端到端网络。在CVPRW的IEEE会议论文集中，页0-0，2019年。[9] Brent Griffin和JasonCorso。Tukey启发的视频对象分割。在2019年IEEE冬季计算机视觉应用会议上，页1723-1733。IEEE，2019年。[10] KaimingHe，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在计算机视觉和模式识别的IEEE会议论文集中，页770-778，2016年。[11] Ping Hu，GangWang，Xiangfei Kong，Jason Kuen和Yap-PengTan。用于视频对象分割的运动引导级联细化网络。在CVPR的IEEE会议论文集中，页1400-1409，2018年。[12] Eddy Ilg，NikolausMayer，Tonmoy Saikia，Margret Keuper，AlexeyDosovitskiy和Thomas Brox。Flownet2.0：使用深度网络进行光流估计的演变。在计算机视觉和模式识别的IEEE会议论文集中，页2462-2470，2017年。[13] PhillipIsola，Jun-Yan Zhu，Tinghui Zhou和Alexei AEfros。具有条件对抗网络的图像到图像翻译。在CVPR的IEEE会议论文集中，页1125-1134，2017年。[14] JoakimJohnander，Martin Danelljan，Emil Brissman，FahadShahbaz Khan和Michael Felsberg。一种生成性的应用0外观模型用于端到端视频目标分割。在IEEECVPR会议论文集上，第8953-8962页，2019年。[15] AnnaKhoreva，Rodrigo Benenson，Eddy Ilg，Thomas Brox和BerntSchiele。用于视频目标分割的清晰数据梦想。《计算机视觉国际杂志》，127(9)：1175-1197，2019年。[16] Trung-NghiaLe和AkihiroSugimoto。使用时空深度特征的视频显著对象检测。《IEEE图像处理交易》，27(10)：5002-5015，2018年。[17] ChenglongLi，Xiao Wang，Lei Zhang，Ji

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于内在相关性学习的边缘聚合网络用于移动对象分割

基于标签相关性的卷积神经网络多标签分类.pdf

基于标签相关性的卷积神经网络多标签分类算法.pdf

基于时空相关性的无线传感器网络数据融合算法研究.pdf

基于散斑相关性的图像重建方法不能很好地对彩色图像进行重建吗？

神经网络可以用于做相关性分析吗

集成学习各学习器之间相关性

你可以帮我写基于频谱相关性的语音修复的代码吗

为什么说基于深度学习和散斑相关性的图像重建方法不适合对彩色图像进行重建？

用什么网络提取关键点坐标间的相关性特征

对于200多个对象怎么做相关性分析

深度学习相关性分析常用方法

主成分分析用于相关性

根据所述相关性系数进行特征选择，选取相关性系数top24维特征 用于深度模型学习

基于深度可分离卷积的图像分割

皮尔逊相关性用于特征选择

基于图论的序列相关性分析

皮尔逊相关性在机器学习中的作用

java 相关性分析算法

基于机器学习的基金换手率与基金收益率相关性研究

社交网络分析中的度相关性

最新资源

根据所述相关性系数进行特征选择，选取相关性系数top24维特征用于深度模型学习