视频显著对象检测中的运动引导注意力

86 浏览量更新于2023-10-12 收藏 707KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7274表车型运动引导注意力在视频显著目标检测中的李浩峰1陈冠奇2李冠斌2余一舟1，31香港大学2中山大学3Deepwise AI Lablhaof@foxmail.com，chengq26@mail2.sysu.edu.cn，liguanbin@mail.sysu.edu.cn，yizhouy@acm.org摘要（一）视频显著对象检测旨在发现视频中最具视觉特色的对象。如何在视频过程中有效地考虑对象运动（二）视频光流外观运动我们的GT显著对象检测是关键问题。现有的最先进的方法要么没有明确地建模和捕获运动线索，要么忽略光流图像内的空间上下文。在本文中，我们开发了一个多任务的运动引导视频显著对象检测网络，它学习完成两个子任务使用两个子网络，一个子网络的显著对象检测在静态图像和其他的运动显著性检测在光流图像。我们进一步介绍了一系列新颖的运动引导注意模块，它们利用运动显著性子网络来关注和增强静态图像的子网络这两个子网通过端到端的训练学习彼此适应。实验结果表明，该方法显着优于现有的国家的最先进的算法在广泛的基准测试。我们希望我们的简单有效的方法将作为一个坚实的基线，并有助于简化未来的视频显着对象检测的研究将提供代码和模型。1. 介绍视频显著对象检测的目的是发现视频中视觉上最有特色的对象，并识别覆盖这些显著对象的所有像素。视频显著性检测任务可以大致分为两组。第一组集中在预测视频中观看者的眼睛注视第二组需要从潜在的杂乱背景中分割出最重要或视觉上最突出的对象。在本文中，我们试图解决第二个问题，即视频显着对象检测（SOD）。一个可视化的SOD模型可以作为一个重要的-通讯作者是李冠斌。图1.我们所建议的网络的有效性。基于外观的显著性模型和基于运动的显著性模型分别以RGB视频帧和光流图像为输入，各有优缺点。我们提出的方法成功地补充了外观分支与运动分支，并优于其中任何一个。用于许多应用的静态预处理组件，例如，图像和视频压缩[16]，视觉跟踪[45]和人员重新识别[50]。静态图像与视频最重要的区别在于视频中的物体具有运动性，这也是引起视觉注意的关键因素也就是说，某些对象的运动可以使该对象比其他对象更突出如何在视频显著对象检测期间有效地考虑对象运动是一个关键问题，原因如下首先，视频中的对象显著性不仅由对象外观（包括颜色、纹理和语义）确定，还受连续帧之间的对象运动的影响。 Itti等人[17]表明由对象运动引起的连续帧之间的差异对人类注意力更有吸引力。第二，物体运动提供了空间相干性的基本线索。具有相似位移的相邻图像块很可能属于同一前景对象或背景区域。第三，利用运动线索使得视频中的显著对象的分割更容易，并且因此产生更高质量的显著性图。例如，在RGB帧中，背景可以包含具有不同颜色和纹理的各种内容，并且前景对象可以由具有尖锐边缘和不同外观的部分组成。在没有运动线索的情况下，在这样的视频帧中定位和分割完整的显著对象是具有挑战性的。视频显著性检测是计算机视觉领域的一个研究热点怎么-7275然而，现有的视频SOD算法没有充分利用对象运动的特性。基于图形的方法[43，4，28]旨在基于时空相干性将外观显着性与运动线索相结合，但它们受到手工制作的低级特征的使用和缺乏训练数据挖掘的限制。因此，这种基于图的算法不能自适应地收获复杂场景中的运动模式和对象语义的准确特征。这些方法很难捕捉物体运动和高层语义的对比性和唯一性基于完全卷积网络的方法[35，44]通过简单地将过去的帧或过去预测的显着图与当前帧联系起来以形成卷积神经网络（CNN）的输入来对时间相干性进行建模这些基于CNN的方法不采用显式运动估计，例如光流，并且受到来自视频外观的干扰和杂乱背景的影响。目前，视频显著对象检测的最新结果是通过基于递归神经网络的算法[23，33]实现的这些重现模型中的一些[23]利用流扭曲将先前特征与当前特征对齐，但忽略了光流图像内的空间基于上述观察结果，本文提出了一种多任务运动引导视频显著对象检测网络，该网络对运动显著性进行建模并利用运动显著性来识别视频中的显著对象。为了明确地研究运动对比度如何影响视频显著性，我们将视频显著对象检测任务划分为两个子任务，静态图像中的显著对象检测和从光流图像推断的运动显著性。我们首先用两个独立的分支执行这两个子任务。然后我们将这两个分支整合在一起来完成整个任务。具体地说，该方法将光流图像分支产生的运动显著性加入到静态图像分支中，计算视频对象的整体显著性此外，为了实现上述注意机制，我们开发了一组新的运动引导注意模块，该模块集合了剩余学习以及空间和通道注意的优点。我们声称所提出的方法是一个强基线，它不需要像基于Con-vLSTM的算法那样的长距离历史特征[21，44]，而只需要从前一帧计算的短距离上下文总之，本文的贡献总结如下。• 我们介绍了一系列新颖的运动引导注意力模块，它们可以通过运动特征或运动来关注和增强感知特征。显著性• 我们开发了一种新的网络架构的视频显著对象检测。该网络是COM-提出了一个用于静态图像中显著目标检测的外观分支，一个用于光流图像中运动显著性检测的运动分支，以及我们提出的连接这两个分支的注意模块。• 大量的实验验证了所提出的注意力模块和网络的有效性。实验结果表明我们提出的方法在广泛的数据集和度量上显著地超过了现有的最先进的算法。2. 相关工作2.1. 视频显著目标检测许多视频显著对象检测方法[43，42，28，44，23，33，21，10]最近进行了研究特别地，基于深度学习的视频SOD算法已经取得了显著的成功，并且分为两类，逐区域标记和逐像素标记。STCRF [21]提取图像区域的深度特征，并提出时空条件随机场来计算基于区域特征的显著性图。视频SOD的密集标记模型也分为两种主要类型，一种是使用全卷积网络（FCN），另一种是使用递归神经网络。FCNS [44]采用基于当前帧预测显著性图的静态显著性FCN和将预测的静态显著性、当前帧和下一帧作为输入以产生最终结果的动态显著性 FCN 。 FGRNE [23]利用一个ConvLSTM来细化以前的光流，用细化的流来扭曲以前的视觉特征，并采用另一个ConvLSTM来聚合以前和当前的特征。PDB [33]采用两个并行的扩张双向ConvLSTM来隐式地发现长距离时空相关性，但不考虑明确的独特运动以及它们如何影响视频中的对象显著性2.2. 视觉注意模型注意力机制是根据位置或节点的重要性来突出不同位置或节点的机制，在计算机视觉领域得到了广泛的应用 Xu等人开发一个基于随机硬注意和确定性软注意的图像字幕模型[47]。Wang等人提出了一种建立在堆叠的剩余注意力模块上的剩余注意力网络[38]Fu等人介绍了一种递归注意力卷积神经网络（RA-CNN）[11]，它递归地探索区分空间区域并收获基于多尺度区域的特征，用于细粒度图像识别。Wu等人提出采用结构化注意机制7276一一一一��′��′′1x1转换间隙softmax(d)MGA-tmc乙状1x1转换以在轨迹级集成局部时空表示[46]，用于更细粒度的视频描述。在本文中，我们是第一个探索的互补增强效果的运动信息的外观对比度建模的角度来看，各种注意方案。2.3. 运动建模光流表示视频中两个连续帧之间的像素级运动。下面简要介绍一些流行的光流估计方法[8，15，34]，它们在基于运动的建模中的应用 [18 ， 36 ， 37]。Dosovitskiy等人[8]通过连接两个连续帧作为输入并获取两帧之间的分片相似性来计算光流。FlowNet 2.0 [15]采用两个并行流分别估计小位移和大位移，并最终融合它们。融合- seg [18]采用外观流和运动流来对视频分割进行建模，但简单地将它们与元素乘法和最大值相融合。 Tokmakov等人。 [37]还利用双流架构，尝试通过级联和卷积存储单元（ConvGRU）融合两个流。现有的基于运动的深度学习方法缺乏研究运动线索（特别是运动显著性）如何以注意方式影响外观特征3. 方法3.1. 运动引导注意力让我们考虑如何利用运动信息来突出外观特征中的一些重要位置或元素。我们将外观特征定义为由一些隐藏层生成的特征张量，例如外观分支中的一些运动信息可以分为两类。第一组去注释运动分支中最后一层产生的运动显著性图这样的运动显著性图可以用Sigmoid激活函数来预测，因此它们的元素在[0，1]的范围内。第二组表示由运动子网络内部的一些中间ReLU函数产生的运动特征考虑一个简单的情况，利用运动显著图来关注外观特征。运动显著性图表示为Pm（运动分支的预测），外观特征表示为fa。一种计算关注外观特征f ′的直接方法是f′=fa<$Pm，其中f′、fa和Pm的大小为C×H×W，��′(a)MGA-m��′(b)MGA-t1x1转换（c）MGA-tm图2.运动引导注意力模块检测任务，与背景具有相似位移的图像部分最有可能被预测为Pm中的0。考虑在一些视频帧中仅显著对象的一些部分移动，如图1（i）所示。然后，显著对象的静止部分可以在Pm中为0，因此它们在f′中的对应特征被抑制。在这种情况下，朴素的乘法注意不能保持完整的显着对象。为了缓解上述问题，我们提出了一种变体，该变体不是“阻挡”不显著运动区域，而是仅突出显著运动区域，其被f′=fa <$Pm+fa（1）其中+表示逐元素加法。基于乘法的注意力用作等式（1）中的残差项。附加项+fa补充了可能被faPm错误抑制的特征。因此，残差公式有希望参加显著运动部分，丢弃静止但突出的区域。我们将等式（1）和图2（a）中提出的注意力模块命名为MGA-m。MGA表示运动引导注意，并且下面讨论如何使用运动特征张量fm来引起对外观特征fa中的一些元素的注意。与使用乘法和加法方式的MGA-m一致，我们首先在下面提出了具有两个张量输入的f′=fag（fm）+fa（2）其中fa和ftm的大小为C×H×W和C′×H×W尊重我。g（·）是一个1×1的卷积，a aC×H×W和H×W。X表示元素-明智的乘法，即，应用元素明智的多，Pm和fa的每个通道切片之间的乘法运算。这种基于乘法的注意力是简单的，但具有局限性。由于运动分支是用运动显著性训练的运动特征的形状与外观的功能.然后，在外观特征和g（·）的输出之间，以逐元素乘法和加法方式的注意机制是适用的。所提出的运动引导注意力模块在等式（2）和图2中示出��′1x1转换乙状7277一一一一一一a aa一图2（b）被称为MGA-t，其中受利用运动信息作为空间注意力权重的MGA-m模块的启发，我们设想了一个变量，通过预先将运动特征转换为空间权重来与另一个张量一起参加张量。这种注意力模块可以公式化为：f′=fa <$Sigmoid（h（fm））+fa（3）其中h（·）表示具有1个输出通道的1×1卷积。因此，Sigm oi d（·）的输出是大小为H×W的注意力图。在等式（3）和图2（c）中示出的上述模块被命名为MGA-tm，其中从运动分支输入的特征张量在一开始就被转换成让我们讨论MGA-t模块和MGA-tm模块之间的差异MGA-tm模块可以被视为将空间注意力与运动特征一起应用，而在MGA-t模块中，空间和通道方向的注意力经由注意力权重的3D张量同时实现注意，在我们提出的方法中，运动分支仅将光学流图像作为输入，用作向外观分支传递消息，并且不知道外观信息。因此，单独利用运动特征来实现通道式注意力然而，对于MGA-tm模块，它缺乏强调与视觉显著性或显著运动对象密切相关的重要通道。基于这些考虑，我们提出了第四个MGA模块：f′=fa <$Sigmoid（h（fm）），（4）f′′=f′[Softmax（h′（GAP（f′）·C]+fa（5）其中fa，f′和f′′都是大小为C×H×W的张量。fm是在图2（d）中表示为“softmax”，并且省略了乘以C。等式（5）中的f′k[·]是将f′的每个空间位置处的特征列乘以归一化的注意力向量。总而言之，MGA-tmc模块首先强调具有显著运动的空间位置，然后选择有可能对基于运动关注的外观特征的显著性进行建模的属性，最后添加输入特征作为补充。我们提出的注意力模块（MGA-m、MGA-t、MGA-tm和MGA-tmc）的有效性将在第4节中进行验证。3.2. 网络架构如图3所示，我们提出的网络架构由外观分支、运动分支、预先训练的流估计网络和桥接外观和运动分支的一组运动图3中表示为“光流估计”的流估计网络实现为[15]。外观子网络和运动子网络的架构非常相似但不同。运动子网络利用比外观网络更轻的设计，因为光流图像不包含与RGB图像一样多该方法将视频显著对象检测任务分为基于外观的静态显著性检测和运动显著性检测两个子任务。我们首先介绍了分别训练时的外观子网络和运动子网络的结构。外观分支和运动分支都由编码器、无空间金字塔池（ASPP）模块和解码器三部分编码器通过提取低级到高级视觉特征并降低特征图的分辨率来工作。编码器包括五层：一个头部卷积和四个残差a aaC′×H×W张量r.h（·）和h′（·）都实现了作为1×1卷积，其输出通道是1和C关于iv el y。GAP（·）表示空间维度中的全局平均池化等式（5）中的C是单个标量并且等于的Softmax函数的输出中的元素的数量在等式（4-5）和图2（d）中示出的所提出的运动引导的注意力模块被命名为MGA-tmc，其中最后的让我们介绍MGA-tmc模块背后的更多原理。 f ′是已经被运动特征空间突出的外观特征。 GAP（f ′）获取f′的全局表示并输出C元素的单个向量。基于全局表示，h′（·）预测通道的C标量权重的向量。这些通道式注意力权重旨在选择或加强响应的基本属性，如某种边缘，边界，颜色，纹理和语义。 Softma x（·）·C不对h′（·）的输出进行归一化，使得注意力权重的平均值等于1。F或s隐式y，Softmax（·） ·C表示为残差-i（i∈ {1，2，3，4}）的层。头-卷积有64个输出通道，7×7内核大小和步幅2，然后是批量归一化和ReLU功能对于外观分支，这四个残差层包含3、4、23和3个基于残差学习的tlenective'[12]，分别具有256、512、1024和2048个输出通道。对于运动分支，其残差层采用3、4、6和3个基本残差学习块[12]，并且分别具有64、128、256和512个输出通道这四个剩余层的步长在两个子网络中分别设置为2、2、1和1。因此，编码器将输入特征图的空间大小减小为原始大小的1/8。ASPP模块通过扩张卷积在特征图内收获长程依赖性，并将它们与局部和全局表示相集成，这可以增强捕获长程对比度以进行显著性建模。如图3所示，ASPP模块将输入五个平行的层是一个1×1的点，7278RGB图像��−1��光流估计��−1,��1x1率6率12率18GAP地面实况光流图像图3.运动引导注意力网络。蓝色部分表示外观分支，而绿色部分表示运动分支。当外观分支单独解决静态图像SOD子任务时，蓝色虚线被连接。当在运动图像SOD子任务上单独训练运动分支时，绿色虚线被链接。橙色部分是提议的运动引导注意力模块，并且仅在解决视频SOD任务时工作。BCE损失表示二进制交叉熵损失。wise卷积，分别具有12、24和36的膨胀率的三个3×3卷积，以及全局平均池化层。这五个平行层的输出是一致的，与深度的维度一起被指定，这产生单个特征图。解码器通过将低级特征和高级特征融合在一起来恢复特征图的空间大小，以预测具有准确对象边界的高分辨率显著图。如图3所示，ASPP模块的输出通过解码器中的1×1卷积在将低级特征与高级特征连接之后，接着是具有256个输出通道的第一级、表示为“conv-3”和“conv-4”的两个3×3卷积。接下来，一个1×1卷积决定最终的单通道显著图。为了简单起见，运动分支的解码器使用类似于conv-{3-5}的三个层来直接推断运动显著性图。重要的是，让我们介绍如何适应出现分支和运动分支，我们提出的运动引导的注意力模块的视频显着对象检测。从图3中可以看出，MGA-i（i∈ {0，1，2，3，4，5}）表示我们提出的多注意力模块中的六个注意力模块。任务网络MGA-0将来自外观子网络和运动子网络的两个头卷积的输出作为其输入。MGA-i将来自两个分支的残差-i的输出特征作为其输入。注意，在外观子网络中，其编码器内的五个层之间的直接MGA-0的输出替代了要通过的头部转换器的输出进入外观分支中的残余-1层。类似地，外观分支中的residual-i使用MGA-（i-1）而不是residual-（i-1）产生的输出作为其输入。MGA-4代替残差-4与外观子网中的ASPP模块与外观分支不同，在运动中的编码器分支仍然保持其内部链接，并提供副输出作为MGA-{0-4}的输入。MGA-{0-4}位于编码器侧，而MGA-5工作在解码器侧。 MGA-5采用运动分支，以及外观分支中的低级和高级特征的融合，作为其输入。MGA- 5的输出还替换了要传递到外观子网络中的“conv- 3”中的融合特征。由于MGA-5的运动输入是单通道显着图，因此它只能被使用MGA-m模块实例化。至于MGA-{0- 4}，它们的实现可以在MGA-t、MGA-tm和MGA-tmc中选择。3.3. 多任务训练计划我们开发了一个多任务管道来训练我们提出的运动引导注意力网络。首先，我们使用在ImageNet [6，31]上预训练的ResNet-101 [12]初始化其次，我们实现了光流图像被计算为从先前帧到当前帧的前向流。第三，使用ImageNet预训练的ResNet-34 [12]模型初始化运动子网络，然后在这些合成模型上进行训练。BCE损失解码器ASPP模块残差-4残差-3残差-2残差-1MGA-5头部转向器MGA-4MGA-3MGA-2MGA-1MGA-0残差-4残差-2残差-3残差-1头部转向器编码器Conv-2编码器ASPPconcat解码器conv-3conv-4conv-5Sigmoidconv-1concat7279方法年Mae戴维斯S-MmaxFMaeFBMSS-MmaxFMae维沙尔S-MmaxF护身符[48]ICCV'170.1090.7480.7190.1330.7530.7460.0580.8740.888UCF [49]ICCV'170.1640.6980.7420.1950.7080.7180.1190.7980.880SRM [40]ICCV'170.0400.8400.7950.0730.8050.7920.0280.9140.916[第13话]CVPR'170.0470.8270.7730.0810.7990.7850.0260.9270.921MSR [22]CVPR'170.0620.7980.7620.0810.8100.7920.0450.8920.890NLDF [29]CVPR'170.0590.8030.7600.0850.7940.7710.0220.9250.920R3Net [7]IJCAI'180.0640.7860.7460.0900.7900.7590.0250.9210.911C2SNet [26]ECCV'180.0520.8130.7710.0730.8110.7820.0230.9220.924瑞典皇家科学院[5]ECCV'180.0570.7850.7290.0780.8160.8070.0190.9300.925DGRL [41]CVPR'180.0560.8120.7630.0570.8290.8020.0220.9160.917PiCANet [27]CVPR'180.0440.8420.8010.0590.8450.8190.0220.9370.932GAFL [43]TIP'150.1220.6970.6580.1990.6150.5750.1010.7740.759SAGE [42]CVPR'150.1370.6480.5690.1920.6240.5980.0940.7810.771SGSP [28]TCSVT'170.1430.6780.7070.2110.5900.6010.1710.6940.682FCNS [44]TIP'180.0560.8020.7500.1030.7750.7630.0410.8970.892FGRNE [23]CVPR'180.0440.8380.7970.0780.8140.7940.0490.8710.845PDB [33]ECCV'180.0290.8790.8620.0700.8460.8290.0210.9280.936我们0.0220.9130.9020.0270.9070.9100.0150.9440.947表1.与最先进的视频显著对象检测算法的比较。三个性能最好的算法分别用红色、绿色和蓝色标记。视频GAFL SAGE SGSPFCNS DSSDGRL FGRNE PiCANetPDB我们的GT图4.与最先进的视频显著对象检测方法的定性比较视频显著对象检测数据集中的大小的光流图像及其对应的显著性图。最后，提出的MGA模块集成了这两个分支，形成了我们提出的网络，该网络使用静态图像和视频显著对象检测数据集的混合进行调整。由于静态图像或视频中第一帧的训练样本没有对应的运动图像，因此我们认为它们的前一帧与它们本身相同。也就是说，这些样本中的对象不处于运动中，并且不存在显著运动。对于这种情况，我们简单地在MGA模块的运动输入中填充零4. 实验在本文中，我们选择DUTS [39]，DAVIS [30]和FBMS [2] 的训练集作为我们的训练集。我们在DAVIS，FBMS和ViSal [43]基准上评估了视频显著对象检测方法。DUTS是一种常用的静态图像显著对象检测数据集。ViSal数据集可以用于对视频显著对象检测模型的泛化进行评级，因为所有视频SOD算法都没有使用ViSal的任何子集进行训练平均绝对值误差（MAE）、结构-测度（S-m）[9]、最大F-测度（maxF）[1]、查准率-查全率（P-R）曲线和F-测度-阈值曲线被选为标准。PR曲线和Fmeasure-Threshold曲线的结果可以在补充材料中找到。SGD算法用于训练所提出的网络，初始学习率为10−8，权重衰减为0.0005，动量为0.9。无论流量估计如何，所提出的4.1. 与最新技术水平的如表1所示，我们提出的方法与11个现有的静态图像显著对象检测模型相比较，包括Amulet [48]，UCF[49]，SRM [40]，[13] ， MSR [22] ， NLDF [29] ， R3Net [7] ， C2SNet[26]，RAS [5]，DGRL [41]，PiCANet [27]和6种最先进的视频 SOD 算法，包括 GAFL [43] ， SAGE [42] ， SGSP[28]，FCNS [44]，FGRNE [23]，PDB [33]。我们的亲-在MGA-{0-4}处采用MGA-tmc模块，在MGA-5处采用MGA-m模块，实现了所提出的方法我们的方法的结果见表17280没有任何后处理。我们利用公共发布的代码和PDB的预训练权重，其性能略高于其原始论文[33]。如表1所示，所提出的方法在所有三个基准点DAVIS、FBMS和ViSal上实现了在DAVIS数据集上，所提出的方法比第二好的模型PDB高出3. 4% S-m 和4.0%maxF。在FBMS基准测试中，我们的算法明显超过第二好的方法 PDB 6. 1% S-m 和 8.1%maxF 。该网络的 MAE 比FBMS上的第二好算法DGRL小3.0%。至于ViSal数据集，我们提出的方法分别比第二好的模型PiCANet和PDB 高出 0. 7% S-m 和 1.1%maxF 。由于与 DAVIS 和FBMS相比，ViSal是一个相对较小且容易的基准，因此包括我们在内的最先进方法的数值结果非常接近。ViSal确实反映了视频SOD模型的泛化能力，因为现有的方法都不是用ViSal数据集的视频训练的。因此，我们提出的方法不仅建立了一个新的国家的最先进的视频显着对象检测任务，但也有希望在实际应用中享有优越的泛化。图4给出了最新算法和所提出的网络之间的定性比较。更多的定性结果放在补充材料中。如表2所示，所提出的方法与9种最新的无监督视频分割算法兼容，包括SAGE [42]，LVO [37]，FSEG[18]，ARP [19]、PDB [33]、MSGSTP [14]、MBN [25]、IET[24][32]第32话。为了评估这些模型的性能，我们采用了广泛使用的评估指标，DAVIS数据集的J均值、F均值和FBMS基准的平均交集（mIoU）。如表2所示，使用条件随机场（CRF）[20]细化，在DAVIS上实现最佳J均值和F均值，在FBMS上实现最佳mIoU我们提出的方法也表现出了卓越的性能，DAVIS上的第二好F均值和FBMS上的第二好mIoU。4.2. 拟议网络架构的有效性在表3中，我们验证了所提出的双分支网络架构的有效性，该架构在编码器和解码器侧都部署了所提出的注意力模块。 ‘Appearance branch’ denotes theappearance sub-network in Figure 3 while ‘motion branch’represents the ‘Dual由两个分支组成，其中MGA模块在编码器侧，即MGA-{0-4}。如表3所示，方法年J戴维斯平均F是说FBMSMiouSAGE [42]CVPR'1541.536.961.2LVO [37]ICCV'1775.972.165.1FSEG [18]CVPR'1770.765.368.4[19]第十九话CVPR'1776.270.259.8PDB [33]ECCV'1874.372.872.3PDB+CRFECCV'1877.274.574.0MSGSTP [14]ECCV'1877.675.060.8[25]第二十五话ECCV'1880.478.573.9IET [24]CVPR'1878.676.171.9[32]第三十二话ICRA'1977.277.4我们80.280.882.6我们的+CRF81.481.082.8表2.与最先进的无监督视频分割算法的比较。三个性能最好的算法分别用红色、绿色和蓝色标记方法Mae戴维斯S-MmaxFMaeFBMSS-MmaxF外观分支0.0310.8820.8650.0940.8330.867运动分支0.0350.8590.8130.0830.7550.767双分支+MGA-D0.0240.9000.8890.0290.8990.891双分支+MGA-E0.0210.9130.8990.0300.9030.893我们0.0220.9130.9020.0270.9070.910表3.拟议网络架构的有效性在FBMS上，双支+MGA-D优于外观支6.6% S-m和运动支14.4% S-m。在DAVIS上，双分支+MGA-E超过外观子网络3.4%maxF，运动子网络超过8.6%maxF。上述统计数据表明，将注意力模块放置在编码器或解码器侧可以改善我们提出的双分支架构。在编码器和解码器侧都具有注意力模块的所提出的网络在FBMS上超过双分支 + MGA-D 1.9%maxF 和双分支 +MGA-E1.7%maxF这意味着在编码器和解码器中部署MGA模块可以略微互补，并进一步提高性能。4.3. 建议的运动引导注意力的有效性为了探索我们提出的运动引导注意力模块的有效性，我们将MGA模块与一些朴素融合进行比较，这些朴素融合包括级联、逐元素乘法和加法，在表4中分别表示为具体而言，Concat融合首先沿着深度维度，然后应用1×1卷积，C输出通道。为了融合两个张量，Mul模块首先通过1×1卷积将C′通道运动特征调整为C通道，然后将运动特征与C通道外观特征元素相乘。为了融合张量和地图，Mul模块将外观特征的每个通道切片乘以运动显著性7281方法Mae戴维斯S-MmaxFMaeFBMSS-MmaxFConcat0.0300.8760.8440.0680.8150.822Mul0.0300.8770.8470.0790.7850.810添加0.0270.8910.8640.0400.8880.898我们0.0220.9130.9020.0270.9070.910方法预训练外观？预训练动议？Mae戴维斯S-MmaxFMaeFBMSS-MmaxF的t0××0.0430.8700.8590.0360.8930.879Tm×C0.0260.8920.8730.0590.8350.856不是C×0.0250.8970.8850.0350.8960.881T马CC0.0220.9130.9020.0270.9070.910表4.与初始融合的比较方法Mae戴维斯S-MmaxFMaeFBMSS-MmaxFE-Concat0.0300.8800.8450.0600.8280.841E-Mul0.0320.8730.8460.0820.7860.804E-Add0.0260.8950.8760.0380.8900.893E-MGA-t0.0230.9070.8990.0300.9060.901E-MGA-tm0.0260.9020.8930.0280.9060.907E-MGA-tmc0.0220.9130.9020.0270.9070.910D-Concat0.0240.9040.8940.0300.9020.894D-Mul0.0210.9130.9000.0290.9040.900D-Add0.0230.9070.8990.0330.8980.902D-MGA-m0.0220.9130.9020.0270.9070.910表5.在编码器和解码器侧提出的运动引导注意模块的有效性。地图添加融合的工作方式类似于多融合。对于表4中的Concat、Mul和Add融合，它们对应的融合算子分别替换图3中的MGA-{0-5}，形成它们自己的模型。从表4中可以看出，我们提出的运动引导atten-在DAVIS上，MGA模块比最好的朴素融合算法如表5所示，我们分别验证了所提出的MGA-m、MGA-t、MGA-tm和MGA-m的有效性。表6.建议的多任务培训计划的有效性图像显著对象检测或预先在运动显著性检测上训练运动分支。T0方法使用预训练的图像分类模型[12]对编码器进行训练，随机化其他参数，并在视频SOD任务上训练整个拟议的网络。与T0不同的是，Tm方法只对运动显著性检测子任务进行运动分支的预训练，而Ta方法对静态图像SOD子任务进行外观分支的预训练。tma代表我们提出的多任务训练方案，该方案在端到端训练整个网络之前分别调整两个分支的相应子任务。如表 6 所示， Tma 在 DAVIS 上超过第二好的 Ta1.7%maxF，在FBMS上超过1.9%maxF请注意，与T0相比，Tm在DAVIS上显示出更好的结果，但在FBMS上显示出更差的结果。这可能是由于来自FBMS的视频通常包含多个显著对象，并且并非所有这些对象都具有可区分的运动模式。因此，仅被预先训练以定位显著运动的Tm模型可能在某种程度上过度依赖于运动线索，并且难以获得更准确的外观对比度。MGA-tmc。“E-A”表示在编码器处部署注意或融合模块A，具体地，MGA- { 0-4 }的位置。“D-1”是指将模块1放置在解码器侧，即MGA-5的位置。“*-Mul”和“*-Add”的实现方式与表4中的相同。对于“E-T”模型，它们在解码器侧的注意力模块被选择为MGA-m。对于“D-1” 模式，它们在编码器侧的注意类型是MGA-tmc。如表4所示，我们提出的所有MGA模块都优于原始融合。例如， E-MGA-tm 在 DAVIS 上超过 E-Add1.7%maxF，E-MGA-t在FBMS上获得比E-Add高1. 6%S-m。在编码器端，MGA-tmc模块达到了最佳的效果。对于解码器端，MGA-m实现了最高的精度，在FBMS上超过D-Add 0.9% S-m和0.8% maxF。4.4. 拟议培训计划我们研究是否是有益的视频SOD任务分为两个子任务，并提前解决这些子任务。如表6所示，T0表示不训练静态外观分支的训练方案。5. 结论本文介绍了一种新的运动引导的注意力网络，建立了一个新的国家的最先进的基线视频显著对象检测任务。据我们所知，该网络是第一个成功地模拟显着运动模式如何影响对象显着性的注意力计划。所提出的运动引导的注意模块有效地实例化这样的注意机制来模拟从显著运动到视觉显著性的影响使用运动线索从前一帧，我们提出的方法充分利用时间上下文，优于现有的远程记忆为基础的模型。确认本工作得到了香港博士基金、国家自然科学基金（ U1811463 、 61702565 ）、中央高校基金（ 18lgpy63 ）和商汤科技研究基金（ SenseTimeResearch Fund）的资助。7282引用[1] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk.频率调谐显著区域检测。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1597-1604页，2009年。[2] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析的在欧洲计算机视觉会议（ECCV）的会议记录中，第282-295页施普林格，2010年。[3] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在A.菲茨吉本等人（编），编辑，欧洲计算机视觉会议（ECCV）论文集，第IV部分，LNCS 7577，第611-625页。Springer-Verlag，Oct. 2012年。[4] Chenglizhao Chen，Shuai Li，Yongguang Wang，HongQin，and Aimin Hao.基于时空融合和低秩相干扩散的视频显著性检测。 IEEE Transactions on ImageProcessing，26（7）：3156[5] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意。在欧洲计算机视觉会议（ECCV）的会议记录中，第234-250页[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248-255页[7] Zijun Deng，Xiaowei Hu，Lei Zhu，Xuemiao Xu，JingQin，Guoqiang Han，and Pheng-Ann Heng. R3net：用于显著性检测的循环残差细化网络。在第27届国际情报联合会议（IJCAI）的会议记录中，第684AAAI Press，2018.[8] Alexey Dosovitskiy、Philipp Fischery、Eddy Ilg、PhilipHausser、Caner Hazirbas、V Golkov、Patrick Van DerSmagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习 opti- cal flow 。 IEEE InternationalConference on Computer Vision（ICCV），第2758-2766页，2015年[9] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新

下载后可阅读完整内容，剩余1页未读，立即下载