视频显著对象检测的的数据集和性能分析

66 浏览量更新于2023-10-17 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8554将更多注意力转移到视频显著对象检测范登平1王文冠2程明明1沈建兵2，31南开大学计算机科学与工程学院2北京理工大学人工智能研究院http://mmcheng.net/DAVSOD/摘要在过去的十年中，人们对视频显著对象检测（VSOD）的兴趣越来越大。然而，研究社区长期缺乏代表具有高质量注释的真实动态场景的完善的VSOD数据集。为了解决这个问题，我们随机收集了一个视觉注意力一致的密集注释VSOD（DAVSOD）数据集，其中包含226个视频，23，938帧，涵盖各种现实场景，对象，实例和运动。与相应的真实人类眼睛注视数据，我们获得精确的地面真理。这是第一个明确强调显着性转移挑战的工作，即，视频显著对象可以动态地改变。为了进一步为社会贡献一个完整的基准，我们系统地评估了17个代表-在现有的7个VSOD数据集上和我们的DAVSOD上的VSOD算法，总共有84K帧（最大规模）。利用三个著名的指标，我们然后提出了一个全面的和有见地的性能分析。此外，我们提出了一个基线模型。它配备了一个突出-shift-aware convLSTM，它可以通过学习人类注意力转移行为来有效地捕获视频显着性动态。广泛的实验1开辟了有前途的未来方向模型的发展和比较。1. 介绍显著对象检测（SOD）的目标是从静态图像[17]或动态视频中提取最引人注目的对象。该任务起源于对人类视觉注意行为的认知研究，即，人类视觉系统（HVS）快速将注意力定向到视觉场景中信息量最大的部分的惊人能力。以往的研究[6，45]定量地证实了这种外显的、物体水平的显著性判断（物体显著性）与内隐的视觉注意分配行为（视觉注意机制）之间存在很强的相关性。*M.M.程（cmm@nankai.edu.cn）为通讯作者。1数据集和代码可在www.example.com上获得帧注意转移固定实例级VSODGT对象级VSOD GT显著性转移显著目标数量：342视频美食：动物对象类别：狮子摄像机型号：慢对象编号：慢图1：DAVSOD数据集的注释示例。丰富的注释，包括显著性偏移，对象/实例级地面真值（GT），显著对象数量，场景/对象类别和相机/对象运动，为VSOD任务提供了坚实的基础，并有利于广泛的潜在应用。因此，视频显著对象检测（VSOD）对于理解一般自由观看期间HVS背后的潜在机制是重要的，并且对于广泛的现实世界应用是重要的，视频分割[74，83]，视频字幕[57]，视频压缩[27，29]，自动驾驶[91]，机器人交互[82]，弱监督注意力[95]。除了其学术价值和实际意义外，由于视频数据所带来的挑战（多样的运动模式、遮挡、模糊、大对象变形等），VSOD也带来了很大的困难。以及人类视觉注意力行为的固有复杂性（即，选择性注意力分配，注意力转移[5，37，60]）。因此，在过去的几年里，它引起了显着增加的研究兴趣[7，25，31，36，38，39，61]（表2）。然而，与VSOD建模的蓬勃发展形成鲜明对比的是，标准的、具有代表性的VSOD基准的研究工作仍然严重滞后。虽然有几个数据集[35，40，43，52，56，59，75]被提议用于VSOD，但它们存在以下不足。首先，在动态观看过程中，注意资源的分配不仅是有选择的，而且随着视频内容的变化，注意资源在不同输入部分之间的分配也是动态变化的。然而，先前的数据集是经由静态帧注释的，而没有动态人眼注视引导的注释方法，并且因此没有揭示在动态注视期间真实的人类注意力行为8555图2：来自DAVSOD数据集的示例视频序列，覆盖了实例级GT和固定。观看其次，它们通常在可扩展性、覆盖范围、多样性和难度方面受到限制。因此，现有数据集的这些局限性抑制了该分支的进一步发展。本文提出了两个贡献。首先，我们收集了一个专门为VSOD设计的大规模DAVSOD• 它包含了226个视频序列，这些序列严格按照真实的人类注视记录进行注释（图1）。2）的情况。更重要的是，两个基本的动态人类注意特征，选择性注意和注意转移都被考虑。在DAVSOD中，显著对象可以在不同的时间改变（图1）。1），这更真实，需要完整的视频内容理解。上述努力导致视觉注意一致的VSOD数据集。• 此外，这些视频经过精心挑选，涵盖了各种场景/对象类别、运动模式，并使用每帧像素精确的地面实况（GT）进行了密集注释。• DAVSOD的另一个区别性特征是对象和实例级注释的可用性，有利于更广泛的潜在研究方向，例如实例级VSOD、视频显著对象subitizing、显著性感知视频字幕等。其次，利用已建立的DAVSOD数据集和7个VSOD数据集[35，40，43，52，56，59，75]，我们对17个最先进的模型[8，11，35，41，44，52，53，62，67，68，70，74它是最完整的VSOD基准。此外，我们还提出了一个基线模型，命名为SSAV（显着转移感知VSOD）。它通过使用显著性转移感知的convLSTM模块来学习预测视频显著性，该模块显式地对人类视觉注意力转移行为进行动态建模。场景在上述基准上的令人鼓舞的结果清楚地证明了其有效性。我们的两个贡献代表了一个完整的基准套件与必要的工具进行补充评估，带来了更有见地的一瞥VSOD的任务，并推动更多的研究工作朝着这个方向。表1：以前的VSOD数据集和提议的DAVSOD数据集的统计，显示DAVSOD提供了更丰富的注释。#Vi. ：视频数量。#AF。：注释帧的数量。DL：是否提供密集（每帧）标记。AS：是否考虑注意力转移。FP：是否根据注视记录注释显著性观察结果。EF：是否提供注释显著对象的眼睛注视记录。IL：是否提供实例级注释。2. 相关工作VSOD数据集。在过去的几年中，已经创建了几个数据集（表1）或将其引入VSOD。具体来说，SegV2[40]和FBMS[56]是两个早期采用的数据集。由于它们是为特定目的而设计的，因此它们不太适合VSOD任务。另一个数据集 MCL[35] 只有 9 个简单的视频示例。ViSal[75]是第一个专门设计的VSOD数据集，但仅包含17个具有明显对象的视频序列。最近，Wanget al. [76]为VSOD引入了DAVIS[59]，这是一个著名的视频分割数据集，包含50个具有挑战性的场景。虽然上述数据集在不同程度上推进了VSOD领域，但它们严重限于小规模（只有几十个视频）。此外，这些数据集没有考虑动态场景中真实的人类注意力，而是仅通过少数注释者任意手动地识别显著对象注释是在每个帧上单独执行的，在复杂的动态场景中未能考虑时间特性。最近的一个更大规模的VOS[43]数据集部分弥补了上述局限性。但它的多样性和通用性是相当有限的，因为它包含了许多简单的室内，稳定的相机场景。总的来说，我们的DAVSOD与上述数据集有显著区别：i）通过对真实人类动态注意行为的深入分析，观察到视觉注意转移现象，从而首次强调了动态场景中显著物体的转移，数据集年#Vi.#AF。DL作为FPEFIL[40]第四十话2013141,065CFBMS[56]201459720MCL[35]20159463维塞尔[75]201517193戴维斯[59]2016503,455CUVSD[52]2017183,262CVOS[43]20182007,467C8556号模型年Pub.#培训训练集基本类型的SPS-measurePCT代码1SIVM [62]2010ECCV通用报告格式，统计不0.481 0.60672.4*M C++2DCSM [36]2011TCSVTSORM距离不0.023*C++3RDCM [47]2013TCSVTgabor区域对比不 J9.8*N/A4SPVM [53]2014TCSVTSP，直方图不J0.470 0.72456.1*M C++5CDVM [20]2014TCSVT压缩域不1.73*M6TIMP [92]2014CVPR时间映射不 J0.539美元0.667美元69.2*M C++7 [21]第二十一话2014尖端不确定性加权不 J50.7*M8EBSG [55]2015CVPR完形原则不 JN/A9SAGM [74]2015CVPR测地距离不 J J0.615 0.74945.4*M C++10ETPM [64]2015CVPR眼动追踪先验不 JN/A11RWRV [35]2015尖端随机游走不0.330 0.59518.3*M12 [75]第七十五话2015尖端梯度流不 J J0.613 0.75753.7*M C++13[第87话]2015ICCV最小障碍距离不0.552磅0.726磅0.02*M C++14MSTM [70]2016CVPR最小生成树不0.5400.6570.02*M C++15SGSP [52]2017TCSVT直方图不 J J0.557 0.70651.7*M C++16SFLR [8]2017尖端低阶相干不 J J0.470 0.724119.4*M C++17STBP [81]2017尖端背景先验不J0.533 0.75249.49美元 *M C++18VSOP [28]2017TYCB对象提议不 J JM C++19[第38话]2017BMVC44（6+8+30）个夹子10C+S2+DVRCL [48]DPy Ca20VQCU [3]2018TMM谱的、图结构不J0.78*M21CSGM [77]2018TCSVT联合视频共显著性不 J J3.86*M C++22STUM [2]2018尖端局部时空邻域线索不N.A.23SAVM [78]2018TPAMI测地距离不 J J0.615 0.74945.4*M C++24bMRF [7]2018TMMMRF不 J J2.63*N/A25LESR [93]2018TMM局部估计，时空的不 J J5.93*N/A26TVPI [61]2018尖端测地距离不J2.78*M C27SDVM [4]2018尖端时空分解不N/A28SCOM [11]2018尖端10K帧对MKDCL [42]D J J0.555磅0.832磅38.8N/A29STCR [39]2018尖端44（6+8+30）个夹子10C+S2+DVCRFDJN/A30DLVS [76]2018尖端18K帧对MK+DO+S2+FS[54]第五十四话D J J0.682磅0.881磅0.47Py Ca31 [68]第六十八话2018TCSVT11K帧对MK+S2+FSVGGNet [66]D J J0.674 0.79438.5N/A32FGRN [41]2018CVPR10K帧对S2+FS+DVLSTMD J0.693 0.8610.09Py Ca33SCOV [33]2018ECCV[46]第二十二话：一个人的世界不 J J3.44N/A34 [44]第四十四话2018ECCV13K帧对[49]第四十九话：一个人基于运动的DeepLab [9]D J0.637 0.8982.63N/A35PDBM [67]2018ECCV18K帧对MK+DO+DV华盛顿特区[85]D0.698 0.9070.05Py Ca36UVOS [31]2018ECCV标准边缘检测器D J JN/A37SSAV（我们的）2019CVPR13K帧对DAVSOD val + DO +DVSSLSTM，PDC [67]D0.724英镑0.941英镑0.05Py Ca表2：总结了36个以前的代表性VSOD方法和提出的SSAV模型。训练集：10C = 10-剪辑[24]。S2 =SegV2[40]。DV=DAVIS[59].DO =DUT-OMRON[84].MK =MSRA10K[12]。MB =MSRA-B[51]。FS =FBMS[56]。VOC12= PASCAL VOC2012 [16].基本：CRF =条件随机场。SP =超像素。SORM = self-ordinal similarity measure自序相似性度量。马尔可夫随机场（Markov Random Field）类型：T =传统。D =深度学习。OF：是否使用光流。SP：是否使用超像素过分割。S-测量[18]：表4中8个数据集的评分范围。PCT：每帧计算时间（秒）。由于[3，7，11，33，44，47，68，93]没有发布实现，相应的PCT从他们的论文中借用或由作者提供。代码：M = Matlab。Py = Python。Ca=咖啡。N/A =文献中未提供。“*”indicates CPU视觉注意一致性的独特注释。ii）其多样性、大规模密集注释以及全面的对象/实例级显著对象注释、丰富的属性注释（例如，对象数量、运动模式、场景/对象类别），共同为VSOD奠定了坚实而独特的基础。VSOD模型。早期VSOD模型[8，26，28，35，52，53，62，63，74，75]是建立在手工制作的功能（颜色，运动等），并且在很大程度上依赖于图像显著对象检测领域中的经典算法（例如，中心-环绕对比[12]，背景先验[79]）和视觉注意的认知理论（例如，特征集成理论[69]，引导搜索[80]）。他们还探索了通过不同的计算机制整合空间和时间显着性特征的方法，例如梯度流场[75]，测地线距离[74]，重新开始的随机游走[35]和谱图结构[3]。传统的VSOD模型局限于显著的特征工程和手部特征的有限更多详情请参见表2最近，基于深度学习的VSOD模型[31，855738，39，41，67，68，76]受到将深度神经网络应用于图像显著性检测的成功的启发，已经获得了更多的关注[13更具体地说，Wanget al. [76]代表了为VSOD训练完全卷积神经网络的早期尝试另一项并行工作[38]使用3D滤波器将空间和时间信息合并到时空CRF框架中。后来，时空深度特征[39]，RNN [41]，金字塔扩张convLSTM[67] 提出了更好地捕捉空间和时间的显着性特征。这些深度VSOD模型由于神经网络强大的学习能力而获得了更好的性能。然而，这些模型忽略了显著性转移现象，这是非常重要的理解人类视觉注意机制。相比之下，我们的SSAV模型利用显着性转移线索实验，产生一个有竞争力的VSOD模型。在这项工作中，我们系统地基准17个国家的最先进的VSOD模型在七个以前的数据集和拟议的DAVSOD数据集，这代表了最大8558每个视频羊(a)（b）第（1）款600400动物百分之三十五百分之十七体育（c）第（1）款2000040030020050100150200视频显著对象人类拍照1000050100150200视频鸟黑猩猩车辆百分之十五百分之五十七占7%百分之十四每日（d）其他事项0.60.5伪影艺术百分之八18%社会0.40.30.20.1000.10.20.30.40.50.60.7 0.80.9ra图3：建议的DAVSOD数据集的统计数据。（a）场景/物体类别。（b，c）带注释的实例和图像的分布帧，分别。（d）对象/实例的比例分布（e）（a）中场景类别之间的相互依赖性VSOD领域的性能评价。通过我们广泛的定量结果，我们对VSOD提出了深刻的见解，并指出了一些有前途的研究方向。3. 拟议数据集一些示例帧可以在图中找到。图1和图2。详情请参阅我们的网站。我们将从以下 4 个关键方面展示DAVSOD3.1. Stimuli收藏DAVSOD的刺激来自DHF1K[73]，这是目前最大规模的动态眼动跟踪数据集。使用DHF1K创建数据集有几个优点。DHF1K2收集自Youtube，涵盖了多样化的真实场景、不同的对象外观和运动模式、各种对象类别以及动态场景中的大跨度主要挑战，为我们构建大规模和代表性基准提供了更重要的是，伴随的视觉固定记录允许我们产生合理的和生物启发的对象级显着性注释。我们手动修剪成镜头剪辑的视频（图。3（c））并删除暗屏过渡。这样，我们最终得到了一个大规模的数据集，包含226个视频序列，共23938帧，798秒的持续时间。3.2. 数据注释显著性偏移注释。人类注意力行为在现实的动态场景中更加复杂[37，60]，即，选择性注意力分配和明显的注意力转移（由于突然发生、新的动态事件等）都可能发生。通过DHF 1K的眼动追踪记录，我们还观察到刺激驱动的注意力转移[23]无处不在，每个视频对象/实例大小实例对象（e）tio舞蹈#帧频率实例数8559对象根据真实的人类固定，以及注意力转移发生的时间位置，第一次，强调了显着性转移3在这一领域的挑战。场景/对象类别标签。与[73]一致，每个视频都手动标记有类别（即，动物、载体、微生物、人类活动）。人类活动有四个子类：体育，日常，社会和艺术活动。对于对象类，遵循MSCOCO[49]，只包括“事物”类别而不是“东西”。然后我们建造了大约70个最常出现的场景/对象的列表。图在图3（a）（e）中，我们分别示出了场景/对象类别及其五个注释者被要求注释对象标签。实例级/对象级显著对象注释。20名人工注释者接受了10个视频示例的预训练，他们被指示根据相应的固定记录每帧选择多达5个对象，并仔细注释它们（通过跟踪边界而不是粗糙的多边形）。他们还被要求区分实例并单独注释它们，总共产生23，938个对象级地面真值掩码和39，498个实例级显著对象注释。3.3. 数据集特征和统计信息为了提供更深入的见解建议DAVSOD，我们讨论了它的几个重要特征。足够的显著对象多样性。DAVSOD中的显着对象跨越了一个大的类集合（图1）。3（a））如动物（例如，狮子，鸟），车辆（例如，汽车，自行车），人工制品（例如，盒子，建筑物），以及各种活动中的人（例如，舞者、骑手），从而能够全面理解动态场景中的对象级显著性。如图1.一、然而，以前的工作都没有在VSOD区域明确强调了这种基本的视觉注意行为。在DAVSOD中，我们注释了2下载：https://github.com/wenguanwang/DHF1K3显着性转移的概念。这种显著性的变化不仅仅表现在作为二进制信号，w.r.t.，是否发生在某个特定的框架中。由于我们专注于对象级别的任务，因此我们根据人类注意力的转移来改变不同对象的显着性值。8560k=1k=1′t=1DAVSOD相机Mo。对象莫。Ob数量ject 实例慢快速稳定慢快速123≥4#视频10212411772371341254633表3：DAVSOD数据集中关于相机/对象运动和显著对象实例数量的统计。突出物的数量现有的数据集缺少数量有限的显著对象实例（表1）。然而，先前的研究[34]表明，人类可以在不计数的情况下一眼准确地列举出多达五个物体。在表3中，DAVSOD因此被设计为包含更多显著对象（每帧≤5个显著对象实例，平均：1.65）。分布在...每个视频中的指定实例可以在图中找到。3（b）款。突出物体的大小。对象层次的显著性的大小- t对象被定义为前景对象的比例。 t像素到图像。在图3（d）中，比率分布在DAVSOD中为0。29%，91. 3%（平均值：11.5%），范围更广。不同的相机运动模式。DAVSOD含有二-图4：DAVSOD和现有VSOD数据集的中心偏倚。并同时考虑了时间动态和显著性漂移，得到了相应的VSOD结果金字塔扩张卷积（PDC）模块。语义分割和VSOD的最新进展[10，67]表明，堆叠一组平行的扩张卷积层，由于多尺度信息的利用和空间细节的保留，采样率可以带来更好的性能。我们使用PDC模块[67]作为我们的静态特征提取器。形式上，设Q∈RW×H×C表示一个三维输入帧I∈Rw×h×3的特征张量。扩张的卷积具有扩张率d >1的层Dd可以应用于Q以获得输出特征P∈RW×H×C，其保持原始空间分辨率，同时考虑更大的接收。tive字段（采样步骤d）。 PDC是通过以下方式实现的相对于相机运动（总结在表3中）。算法布置一组K个扩张卷积层{Ddk}K与D-接受过这种数据培训的人可能会处理现实的数据，不同的扩张率{dk}K同时：动画场景更好，因此更实用。多种物体运动模式。DAVSOD继承了DHF1K的优点，它涵盖了各种（表3）逼真的动态场景（例如，对象运动从稳定到快速）。避免过度拟合和客观准确地对算法进行基准测试是至关重要的。中心偏差。为了描述中心偏差的程度，我们计算每个数据集所有帧的平均显着图。DAVSOD和现有数据集[35，40，43，52，56，59，75]的中心偏倚见图。4.第一章3.4. 数据集拆分现有的数据集不维护保留的测试集，容易导致模型过度拟合。因此，我们的视频是S-X=[Q，P1，. . . ，Pk，. . . ，PK]，（1）′其中X∈RW×H×（C+KC），Pk= Ddk（Q）. [.， . ]表示级联操作。PDC增强功能X是更鲁棒的表示（通过利用多尺度信息）并且保留原始信息Q（通过残差连接）。显著性偏移感知convLSTM（SSLSTM）。我们提出了一个显著性转移感知的convLSTM，它为convLSTM[65]配备了一个显著性转移感知的注意力机制。它是一个功能强大的递归模型，不仅捕捉时间动态，而且还区分显着对象从背景以及编码注意力转移信息。更具体地说，通过PDC模块，我们按比例分成单独的训练集、验证集和测试集，获得静态表示{Xt}T输入视频4：2：4。在随机选择之后，我们得到一个唯一的分割包含90个训练视频和46个验证视频，其中包含已发布的注释，以及90个测试视频，其中保留了用于基准测试的注释。测试集进一步分为35个容易的，30个正常的，和25个困难的子集，T型框架。在时间步长t处，给定Xt，显著性移位-aware convLSTM输出对应的显著对象掩码St∈[0，1]W×H：隐藏状态：Ht=convLSTM（Xt，Ht−1），显著性转移感知注意：At=FA（{X1，···，Xt}），VSOD任务的难度注意力增强功能：Gm，t =At 你好m，t，（二）4. 该方法4.1. 显著移位感知VSOD模型模型概述。拟议的SSAV模型有两个基本组成部分：金字塔扩张卷积（ PD-C ） [67] 和显著性偏移感知convLSTM（SSLSTM）。前者用于鲁棒的静态显著性表示学习。后者扩展了传统的convLSTM [65]，具有显着性转移感知注意力（SSAA）机制。它以PDC模块中的静态特征序列作为输入显著对象预测：St=σ（wS<$Gt），其中H∈RW×H×M表示三维张量隐藏状态。注意力图A∈[0，1]W×H是从显著性偏移感知注意力网络FA计算的，该网络考虑了先前的帧Gt∈RW×H×M表示时间t上的注意力增强特征。Gm，t∈RW×H表示Gt在第m个通道（m∈[1，M]）上的二维特征切片⊙是元素乘法。采用1×1卷积核wS∈R1×1×M作为显著目标读出[[[353535]]]第三十五届中国第三十五届中国第三十五届中国国际纺织国际纺织品服装品服装品服装展览展览展览会会会[[[434343]]]第第525252话话话：：你你你是是我的女人我的女人我的女人8561不t=1t=1t=1It-1ResNet50+PDCSSLSTM损失2HAt-1一LAttt-1LVSOD4CXt-1Ht-1ItGt-1SFt-1t-1Mt-18LAtt2P1HAt t一164P2LVSODQtCXtHtItStMt8+1个P3HAt+1Ft显著性移位2At+1LAtt16P4LVSOD4CHt+1St+1Mt+1Ft+1816Gt+1GtDC扩张卷积级联按元素相乘Xt+1图5：建议的SSAV模型的总体架构。SSAV由两部分组成：金字塔扩张卷积（PDC）模块和显著性移位感知convLSTM（SSLSTM）模块。前者用于有效的静态显著性学习，后者同时捕获时间动态和显著性转移。详见§4。函数，表示conv运算，σ是sigmoid激活函数上述模块的关键组成部分是显著性转移感知注意网络FA。显然，它充当了神经注意力机制，因为它被用来对convLSTM的输出特征H进行此外，还需要足够有效地对人的注意力转移行为进行建模。考虑到这种任务也是不同的，引入了一个小的convLSTM来构建FA，生成一个convLSTM。vLSTM结构：显著性转移感知注意：At=FA（{X1，···，Xt}），记录，见表1）。当相应的注意符号丢失时，错误不能被传播回来。更重要的是，当α（·）=0时，显著的c-y-shift-αw是等式中的注意力模型FA。3是内隐训练的，可以看作是一种典型的神经注意机制。当地面实况注意力是可用的（（·）=1）时，FA以显式的方式训练。通过convLSTM结构，FA足够强大，可以准确地将我们的VSOD模型的注意力转移到重要的对象上（见图2）。（六）。4.2. 实现细节PDC模型的基本CNN网络是从注意力特征提取：HA= convLSTM A（Xt，HA）、（3）ResNet-50中的conv块[30]和conv步幅不注意力映射：At=σ（wA<$HA），t−1将最后两个块的值更改为1。所有输入帧图像被调整为473×473的空间分辨率，并且Q∈注意，第一个方程是由最后两个公式表示的方程其中wA∈R1×1×M表示一个1×1的连续体，将注意力特征HA映射为符号的v内核R60×60×2048。在[67]之后，我们设置K = 4，C =512，dk=2k（k∈{1，···，4}）. F或等式（1）中的convLSTM。2、我们一使用3×3×32conv内核。在Eq. 3icance矩阵和sigmoidσ映射显著性值到[0，1]。然后，采用注意力At来增强等式中的显著对象分割特征H。二、由于convLSTMA的应用，我们的注意力模块获得了强大的学习能力，这为学习外显和内隐的注意力转移使用3×3×16Conv内核。对于训练协议，我们遵循[67]中的相同设置（不包括MSRA-10 k [12]数据集）。此外，我们还进一步利用了DAVSOD明确地训练显著性转移感知注意模块。礼节. 令{It∈ Rw×h×3}T表示T帧训练视频，{Ft∈[0，1]W×H}T表示人眼跟踪注释序列，{Mt∈ {0，1}W×H}T表示视频显著对象的地面真实值，{At∈ {0，1}W×H}T注意力模型和最后的5. 基准评估结果5.1. 实验设置评估指标。为了定量评估模型性能，我们采用了两个流行的评估指标：t=1公司简介绝对误差（MAE）M[58]，F-测量F[1]，视频显著对象估计{St∈{0，1}}t=1：最近发布的结构测量S-测量S[18]。ΣTL =t=1.ΣL（It）·LAtt（At，Ft）+ L VSOD（St，Mt）、（四）基准模型。我们总共对17个模型进行了基准测试（11个传统方法，6个基于深度学习的模型）。这些其中LAtt和LVSOD都是交叉复制丢失。（·）∈{0，1}指示注意力注释是否可用（因为大多数当前8562VSOD数据集缺乏眼睛注视根据以下两个标准选择模型：i）具有已发布的实现，以及ii）具有代表性。基准协议。提供全面85632010-20152016-20172018公制SIVM TIMP SPVM RWRV MB+M SAGM GFVM MSTM STBP SGSP SFLR SCOM SCNN DLVS FGRN MBNM PDBMSSAV†[六十二][92][53][35][87][74][70][81][52][8][11] †[68]<$[76]<$[41]<$[44]<$[67]<$最大F↑.522.479.700.440.692.688.683.673.622.677.779.831.831.852.848.883.888.939S ↑.606.612.724.595.726.749.757.749.629.706.814.762.847.881.861.898.907.943M↓.197.170.133.188.129.105.107.095.163.165.062.122.071.048.045.020.032.020最大F↑.426.456.330.336.487.564.571.500.595.630.660.797.762.759.767.816.821.865S ↑.545.576.515.521.609.659.651.613.627.661.699.794.794.794.809.857.851.879M↓.236.192.209.242.206.161.160.177.152.172.117.079.095.091.088.047.064.040最大F↑.450.488.390.345.470.515.569.429.544.655.727.783.714.708.783.861.855.861S ↑.557.593.592.556.597.676.687.583.677.692.790.832.783.794.838.887.882.893M↓.212.172.146.199.177.103.103.165.096.138.056.048.064.061.043.031.028.028最大F↑.581.573.618.438.554.634.592.526.640.673.745.764******.716.800.801S ↑.605.644.668.583.618.719.699.643.735.681.804.815******.809.864.851M↓.251.116.108.162.146.081.091.114.061.124.037.030******.026.024.023最大F↑.293.338.404.281.339.414.426.336.403.544.562.420.550.564.630.550.863.801S ↑.481.537.581.536.563.629.628.551.614.601.713.555.712.721.745.698.901.861M↓.260.178.146.180.169.111.106.145.105.165.059.206.075.060.042.079.018.025最大F↑.420.598.595.446.261.422.406.313.607.645.669.422.628.551.625.698.798.774S ↑.548.642.665.577.539.615.613.540.700.679.734.569.730.682.709.755.856.819M↓.185.113.105.167.178.136.132.171.078.100.054.204.054.060.044.119.021.027最大F↑.439.401.351.422.562.482.506.567.526.426.546.690.609.675.669.670.742.742S ↑.558.575.511.552.661.619.615.657.576.557.624.712.704.760.715.742.818.819M↓.217.215.223.211.158.172.162.144.163.236.145.162.109.099.097.099.078.073最大F↑.298.395.358.283.342.370.334.344.410.426.478.464.532.521.573.520.572.603S ↑.486.563.538.504.538.565.553.532.568.577.624.599.674.657.693.637.698.724M↓.288.195.202.245.228.184.167.211.160.207.132.220.128.129.098.159.116.092表4：7个数据集上17个最先进VSOD模型的基准测试结果：SegV2 [40]，FBMS [56]，ViSal [75]，MCL [35]，DAVIS [59]，UVSD[52]，VOS [43]和拟议的DAVSOD（35个简单测试集）。请注意，仅在9个短VOS序列上测试了TIMP，因为它无法处理长视频。“**”表示模型已在此数据集上训练。“-T”表示此数据集的测试集上的结果。“†”表示深度学习模型。颜色越深表示性能越好。最好的分数用粗体标出。基准，我们评估了17个代表性的方法在ex-approximat 7数据集和建议DAVSOD数据集。FBMS[56]（30个剪辑）、DAVIS[59]（20个剪辑）、DAVSOD（35个简易剪辑）数据集和整个ViSal[75]（17个剪辑）、MCL[35]（9个剪辑）、SegV 2[40]（13个剪辑）、UVS- D[52]（18个剪辑）数据集的测试集用于测试。对于VOS[43]数据集，我们随机选择40个序列作为测试集。那里共有182个视频，848，340（47，130 ×18）帧。5.2. 性能比较和数据分析在本节中，我们提供了一些有趣的发现，这将有利于进一步的研究。传统模式的表现。基于表4中的不同指标，我们得出以下结论：“SFLR [ 8 ]、S-GSP [ 52 ]和STBP [ 81 ]是VSOD的三大非深度学习模型。”SFLR和SGSP都明确地考虑了光流策略来提取运动特征。然而，计算成本通常是昂贵的（见表2）。值得注意的是，所有这些模型都利用超像素技术在区域级别上整合时空特征。深度模型的性能。本基准中的前 3 个模型（即，SSAV，PDBM [67]，MBNM [44]）都是基于深度学习技术，这证明了神经网络的强大学习能力对于ViSal数据集（第一个专门为VSOD设计的数据集），它们的平均性能（例如，最大 E-measure [19] ，最大 F-measure或S-measure）甚至高于0.9。传统vs深VSOD模型。在表4中，几乎所有的深度模型都优于传统算法，因为可以从网络中提取更强大的显着性表示。另一个有趣的发现是类引导方法（SFLR[8]）比一些深度模型（例如，SCOM [11]）在MCL、UVSD、ViSal和DAVSOD数据集上的数据。这表明，研究更有效的深度学习架构，利用人类的先验知识的VSOD是一个很有前途的方向。数据集分析。我们在表4中用灰色标记分数。较暗的颜色意味着特定度量的较好性能（例如，最大F、S和M）。我们发现ViSal和UVSD数据集相对容易，因为前两个模型：SSAV 和PDBM [67]获得了非常高的性能（例如，S>0。第9段）。然而，对于更具挑战性的数据集，如DAVSOD，VOSD模型的性能急剧下降（S<0. 第73段）。结果表明，VOSD模型的整体性能和个体性能都有丰富的未来研究的空间。运行时分析。表2报告了以前的VSOD方法和建议的SSAV方法DAVSOD-TMCLUVSD SegV2DAVIS-T FBMS-TViSal8564（一）（二）（三）（四）（五）(a) 框架（b）固定（c）GT（d）SSAV（e）MBNM [44]（f）FGRN [41] (g)PDBM [67] (h)SFLR [8](i)SAGM [74]图6：在拟议DAVSOD数据集上，与前3个深度（MBNM [44]，FGRN [41]，PDBM [67]）模型和2个传统经典（SFLR [8]，SAGM [74]）模型进行了视觉比较。我们的SSAV模型成功地捕捉到显着性转移现象(in PCT柱）。对于已发布代码的型号，在同一平台上测试时序：Intel Xeon（R）E5- 2676v3@2.4GHz ×24和GTX TITAN X。其余的时间都是从他们的论文中借来的。请注意，亲-设定的模型不应用任何预/后处理（例如，CRF），因此处理速度仅需约0.05s。5.3. 消融研究内隐与外显显著性转移注意机制为了研究所提出的SSAA模块的不同训练策略的影响，我们得出2条基线：显式和隐式，指的是显式或隐式训练的SSAV模型。我们只使用VSOD注释（不包括DAVSOD）来获得隐式基线。根据表5中的统计数据，我们观察到外显注意的SSAV优于内隐注意的SSAV。它表明，利用固定

下载后可阅读完整内容，剩余1页未读，立即下载