在根据下述论述总结出一个20字中文标题时，可以选择以下内容：弱监督视频对象定位中的TCAM方法及其定位精度

60 浏览量更新于2023-10-16 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

137TCAM：用于弱标记无约束视频Soufiane Belharbi1，Ismail Ben Ayed1，Luke McCaffrey2和Eric Granger11LIVIA，部门加拿大蒙特利尔高等技术学院系统工程系2古德曼癌症研究中心，部门。加拿大蒙特利尔麦吉尔大学肿瘤学系ens.etsmtl.ca，{ismail.benayed，eric.granger}@ etsmtl.ca，luke. mcgill.ca摘要弱监督视频对象定位（WSVOL）允许只使用全局视频标记（如对象类）定位视频中的对象。现有技术的方法依赖于多个独立的阶段，其中使用视觉和运动线索生成初始时空提议，然后识别和细化突出对象定位涉及解决一个或多个视频的优化问题，并且视频标签通常用于视频聚类。这个过程需要每个视频或每个类别的模型，从而进行昂贵的推理。此外，局部区域不一定是判别式的，因为这些方法依赖于无监督的运动方法，如光流，或从优化中丢弃的视频标签。在本文中，我们利用成功的类激活映射（CAM）的方法，设计的WSOL基于静止图像。介绍了一种新的时间CAM（TCAM）方法，用于训练区分性深度学习（DL）模型以利用视频中的时空信息，其在连续CAM上使用CAM-时间最大池化（CAM-TMP）聚合机制。特别地，感兴趣区域（ROI）的激活是从由预训练的CNN分类器产生的CAM中收集的，并且生成用于训练解码器的逐像素伪标签此外，全局无监督的尺寸约束，和局部约束，如CRF被用来产生更准确的CAM。对单个独立帧的推断允许对帧剪辑的并行处理和实时定位。在两个具有挑战性的YouTube-Objects数据集上进行的大量实验1表明，CAM方法（在独立帧上训练）可以产生不错的定位精度。我们提出的TCAM方法在WSVOL精度方面达到了新的最先进水平，视觉结果表明它可以适应后续任务，如对象检测和跟踪。1代码：https://github.com/sbelharbi/tcam-wsol-video。图1：用于由预训练的CNN分类器生成的n+ 1个连续CAM的ROI聚合的CAM-时间最大池化（CAM-TMP）模块的示例它要依赖跨独立CAM在位置p处的最大激活以产生输出CAM，Cstect，其包含更多辨别性部分。符号描述见第3节。1. 介绍大量的视频可以很容易地在互联网上访问由于视频共享平台的快速增长[63，69]。因此，需要开发自动方法来处理和分析这些视频是必要的。很大的兴趣。视频对象定位任务将播放对视频内容理解的关键作用。它可以提高后续任务的性能，例如视频摘要[83]，事件检测[11]，视频对象检测[14，26，63]和视觉对象跟踪[8，44]。视频通常是在野外拍摄的，质量参差不齐138并且大部分没有约束（移动对象和相机、视点改变、解码伪像和编辑效果）。然而，尽管数量丰富，但将这些视频用于下游任务仍然是一个持续的挑战，主要是由于注释的高成本。与静态图像相比，标记视频是一个更困难和昂贵的过程，因为视频通常包含大量的帧。对于对象定位任务，每个帧都需要边界框考虑到这个成本，视频通常使用类标签进行弱标记[30，72]弱标签是针对整个视频定义的，并且通常描述视频中出现的主要对象或概念，而没有详细的时空信息。然而，这转化为帧级的噪声/损坏的标签-标签被分配给整个视频，而只有其帧中的一些帧可能包含感兴趣的对象。虽然使用弱标签大大降低了注释的成本，但它为对象定位等视觉识别任务带来了额外的挑战弱监督学习已经成为一种重要的范式，可以利用粗糙或全局注释（如视频标签），减少对边界框注释的需求。尽管WSVOL的重要性，它已经看到有限的研究[32，37，38，57，58，84]。相反，关于弱监督视频对象分割（WSVOS）的文献占主导地位[17，22，25，43，72，71，73，79，85]，其中假设通过后处理产生边界框。大多数现有的WSVOL方法是传统的，除了[17，71，84]。它们通常使用视觉和运动线索生成时空片段或建议，然后通过后处理识别和细化突出对象。虽然它们通常产生良好的性能，但这些方法存在几个限制。它们都需要多个连续的阶段，并且没有以端到端的方式进行训练。它们在推理时的成本也很高，因为解决方案通常针对单个视频或同一类的一组视频进行优化此外，它们需要为每个类或每个视频构建一个模型，这在现实世界的应用中很麻烦，并且对于大量类的扩展性很差。这些方法通常是无差别的因此，本地化对象不一定在语义上与视频标签对齐类似地，由于几乎所有方法都使用运动线索，例如光流[40，68]，因此它们容易出现这种对齐问题，因为这种运动线索不考虑语义。最后，无约束视频中的运动信息是非常嘈杂的，由于相机和对象的移动。为了缓解上述限制，提出了一种新的 Tem-poralCAM（TCAM）方法，通过弱监督学习来训练单个判别式DL模型。我们的方法只需要视频标签注释，不依赖于额外的假设。它是有动机的通过类激活映射（CAM）方法[91]的成功，应用于静态图像上的弱监督对象定位（WSOL）任务[7，16，20，24，31，64，75，91]。仅使用全局图像类标签，CAM方法允许以可区分的方式端到端地训练DL模型，以定位有区别的图像区域。因此，局部ROI与图像的语义标签对齐在推理时，CNN可以快速分类图像并定位相应的ROI。这种方法可以很好地扩展到大量的类，使其适合于现实世界的应用程序。然而，这些方法仅限于单个图像，并且不能利用视频中帧之间的时间依赖性。为了利用该时空信息，引入新的CAM时间最大池化（CAM-TMP）机制以从CAM序列聚合ROI（参见图1 ）。我们的 CAM-TMP通过从连续的 CAM 中收集ROI，从而提供对象的更好覆盖，来模拟每个帧中ROI上的联合我们的TCAM方法依赖于U-Net风格架构[59]来对图像进行分类，并通过全分辨率CAM定位相应的使用预训练的CNN对帧进行分类，我们的DL模型在一系列连续帧上进行训练，其中CAM-TMP用于累积ROI。这些被用来生成可靠的伪标签，用于在像素级训练解码架构按照惯例[20，91]，CAM中的强激活被认为是前景，而低激活是背景。在每个随机梯度下降（SGD）步骤中，我们在独立CAM [7，5]内对前景（FG）和背景（BG）像素伪标签进行随机采样以训练解码器。这种随机取样允许探索FG/BG区域，并促进一致CAM的出现。与WSOL的标准CAM相比，我们的CAM-TMP生成的激活图提供了更好的真实对象覆盖范围，从而更好地对FG和BG像素进行采样。为了缓解CAM的常见问题，例如小ROI，我们使用无监督大小先验[7，5，6，55]作为全局约束，以鼓励FG和BG区域的增长，并避免学习不平衡的CAM。CRF损失[70]还用于通过利用图像的统计属性（如像素颜色和像素之间的接近度）将CAM与对象一旦训练了DL模型，就可以在独立帧上快速执行推理，而不考虑时间依赖性。这比其他最先进的WSVOL方法更适合于实时应用，因为TCAM不需要处理整个视频以定位在单个帧内。我们的工作旨在提高WSVOL的最新性能，同时鼓励这一领域的新研究我们的主要贡献总结如下。(1) 我们介绍了TCAM方法，第一个基于CAM的139WSVOL 的方法。与最先进的 WSVOL 方法相比，TCAM允许训练一个单一的判别DL（U-Net风格）模型来一次处理所有类。我们的方法是在无约束的视频上训练的，每个视频都用一个全局类标签标注，并且没有任何额外的假设。一旦经过训练，TCAM就能够快速预测基于任何CAM方法估计的对象的边界框位置，以及每个独立帧上的相应类别标签。(2) 与限于静止图像的标准CAM 不同，TCAM 利用CAM序列中的时空信息使用CAM-TMP模块，我们从由预训练的CNN分类器提供的通用CAM序列中提取相关ROI。CAM-TMP然后产生具有更好的对象覆盖的单个精确CAM。我们的损失利用这个CAM训练解码器，随机采样，从FG/BF区域。额外的约束损失，包括尺寸先验和CRF，用于获得平衡和准确的CAM。请注意，我们的TCAM是通用的，可以集成在任何CAM方法之上。(3) 在两个具有挑战性的公共数据集上进行的广泛实验- YouTube-Objects v1.0和v2.2 -由不受约束的视频组成，表明：（a）为静止图像上的WSOL设计的标准CAM方法可以在来自测试集视频的帧上实现高水平的定位精度;（b）我们的TCAM方法可以在WSVOL精度方面达到最新水平。结果表明，TCAM可以适应具有挑战性的下游任务，如视觉对象检测和跟踪。2. 相关工作弱监督视频对象定位。这类研究的有限数量往往是基于非歧视性和非深度模型。这些方法[37，38，57，58，84]主要使用视觉外观和运动特征，在考虑时空约束的同时，初始化并选择要细化的突出方案。不同的方法使用突出的建议作为监督来训练定位器[57，84]。其他人依赖于分割[58]，然后使用GrabCut [61]进行额外的细化。单个或集群的视频被认为是一次优化。例如，POD方法[37]考虑了一种迭代方法来定位视频中的主要对象，假设该主要对象出现在大多数帧中，但不是所有帧中。它是在识别空帧时实现的。区域提案最初通过[2]生成。每一个前景都被分成前景和背景。建立前景、背景和主要对象的模型。建立了一个迭代方案，以进化的方式改进每个模型。最终的主模型用于选择候选方案并定位边界框。最近，SPFTN [84]考虑了一种深度学习（DL）框架，该框架联合学习分割和定位具有噪声的对象。使用先进光流的透视估计[40]。自定进度的学习被认为是为了减轻模糊/嘈杂的其他方法[32]依赖于在一组视频或图像上共同定位共同对象。弱监督视频对象分割。大多数方法都是基于非深度和非歧视性的模型。它们经历多个步骤来执行分割。它们通常对单个视频或一组视频进行操作，并通过后处理获得边界框。一组方法通过使用例如无监督方法[3，77]提取独立的时空片段[27，69，77，79]这些对象的部分，然后收集使用不同的功能，主要包括视觉外观和运动线索，同时保持时间的一致性。这通常使用基于图形的模型来完成，例如条件随机场（CRF）或GrabCut类方法[61]。DL模型很少使用。例如，作者在[43]中提出了视频之间基于最近邻的标签视频首先被分割成时空超体素[77]，然后使用颜色，纹理和运动在高维特征空间中构建多视频图，并且使用外观，该图模型鼓励相同视频中的时空相邻超体素与跨其他视频具有相似外观的超体素之间的标签平滑度这产生最终的像素分割。M-CNN [71]将运动线索与全卷积网络（FCN）。高斯混合模型用于通过运动估计前景外观潜力[54]。这些潜力与FCN预测相结合，以使用类似GrabCut的方法来估计前景的标签预测[61]。这些标签用于安装FCN。作者只在少数视频上使用微调阶段其他方法利用共分割来基于对象在多个图像上的出现来分割对象。一种主流的方法是使用视频间和视频内的视觉和运动线索来找到共同的片段。图，如CRF和图切割，用于模型变量段之间的关系[13，22，72，85]。例如，[72]中的作者使用预训练的FCN生成类似对象的tracklet在从所有视频中收集tracklet之后，它们通过图形链接一个子模块的优化制定定义的对应关系之间的tracklet的基础上，它们的相似性，同时占对象属性，如外观，形状和运动。在最大化该子模块化函数之后，tracklet使用它们的相互相似性进行排名，从而允许在每个视频中发现突出对象。虽然所有之前的方法都使用标签来聚类同一类的视频，但其他方法不使用标签。不过，一般的过程是大致相同的，自1961年以来-140i=1t=1|∈⊂∈{· ··}不不现有方法在其优化中不明确地利用标记。对前景区域的初始猜测进行估计[17，25，54，73]。这可以通过[68]（如[54]）中的运动提示，[25，73]中的主成分分析（PCA）或[17]中的视频PCA算法[66]来实现这种最初的猜测不一定是歧视性的。然后通过使用图[61]进行细化来获得最终分割。例如，作者在[17]中提出了一个DL模型。它基于迭代学习过程，在每次迭代中，CNN教师都被训练来发现视频中的对象。使用VideoPCA算法[66]实现对象发现，该算法利用对象的外观，形状，运动和位置在视频中利用时空由教师估计的前景被馈送给CNN学生进行监督训练。通过迭代，构建了几个学生，并取代对象发现，提供更可靠的对象分割。静态图像中的弱监督目标定位。WSOL的早期工作[60]集中在设计不同的进入空间池层，包括全局平均池（GAP）[42]，加权GAP [91]，最大池[52]，LSE [56，67]，PRM [92]，WILDCAT [20[21]，多实例学习池（MIL）[29]。然而，这些方法都有其局限性，因为CAM只能覆盖物体的小的可区分部分。随后的工作旨在通过改进CAM来改进这方面的工作。这通过三种不同的方式实现：（1）通过扰动输入图像的数据增强，例如HaS [64]，Cut-Mix [81]，AE [76]，ACoL[87]，MEIL [45]和MaxMin [6];图2：我们提出的TCAM方法。左：训练时间依赖性n=2。右：推断（无时间依赖性）。参见第3节中的符号。3. 该方法或通过SPN [93]、GAIN [41]和ADL [16]中的扰动特性，或（2）通过架构更改，记法。设D={（V，y）i}N其中，V={Xt}t=T表示训练集是输入视频，在NL-CCAM [80]，FickleNet [39]，DANet [78]，I2 C[89]，ICL [35]和TS-CAM [24]，或（3）通过使用伪标签进行微调，如SPG [88]，PSOL [82]，SPOL [75]，FCAM[7]，NEGEV [5]和DiPS [48，47]。其他冰毒-ODS的目标是直接生成边界框而无需CAM [46]。所有上述方法都从模型中的前向传递中提取局部化。其他方法依赖于向前和向后传递来估计CAM。这包括（1）生物启发的方法，如反馈层[10]和激励反向传播[86]，或（2）依赖梯度聚合，如GradCAM [62]、GradCam++[12]、XGradCAM [23]和LayerCAM [31]，或（3）使用置信聚合避免梯度饱和[1，36]，如消融-CAM [18]、评分-CAM [74]、SS-CAM [50]和IS-CAM [49]。尽管这些方法取得了成功，但它们仅限于静止图像，并且它们不具备利用视频中的时间信息的能力。我们的建议受益于CAM方法的简单性此外，我们的TCAM方法利用时空T帧，和Xt：R2是视频中的第t帧;是视频全局类标签，其中K是类的数量，并且k是离散图像域。作为-确认所有帧继承与视频全局类标记相同的类标签我们的模型是一个U-Net风格的架构[59]（图2）。它由两部分组成：（a）具有参数W的分类模块g。它执行图像分类。(b)分割模块（解码器）f，参数为θ。它输出两个CAM，一个用于前景，另一个用于背景。分类器g由用于构建特征的编码器主干和用于产生分类分数的池化头组成。我们用g（X）[0，1]K表示每类分类概率，其中g（X）k=Pr（kX）.使用标准交叉熵训练分类器g，以正确地对独立帧进行分类，minW− log（g（X）[y]）。训练后，其权重W被冻结，不被考虑为了将来的训练。分类器g可以产生目标y的CAM，称为C。我们将Ct记为在时间Xt的帧的对应CAMt.解码器生成softmax激活映射，表示为St=f（Xt）∈[0，1]| Ω| ×2。注意，S0，S1视频中的信息参考背景和前景图，相应141S{···}S{···}不M不−US联系我们S∈-哦RΣ不不不不不不不不不不OΣΣΣ活泼地设St（p）∈[0，1]2表示矩阵St的一行，下标p∈φ表示φ内的一点. 运算S（·，n）提供n个前邻居的集合在同一个视频中的一个元素，加上它的元素-self.比如说，（Xt，n）=Xt，Xt−1，，Xt−n是帧Xt的n个先前帧的集合，并且（Ct，n）=Ct，Ct−1，，Ct−n是CAM C t的n个先前CAM的集合。CAM时间最大池化（CAM-TMP）。视频中的帧序列通常捕获具有最小变化的相同场景因此，场景内的对象具有小的位移。然而，这个小的变化可能会导致CAM略有不同，并突出显示对象的不同最小部分作为ROI。我们利用这种行为来制造罪恶-角凸轮，C形，一次可覆盖多个零件该CAM将稍后用于对前景/背景区域进行采样。为此，我们提出了一个连续的CAM之间的聚合方法，我们在每个CAM中的所有斑点ROI之间执行一个联合操作这是通过在CAM序列的相同位置上的激活时间内获取最大CAM激活来这类似于CNN中常用的空间最大池化操作，它在小的空间邻域中寻找对象的存在我们的时间最大池旨在确定是否有一个CAM已激活的对象在一系列CAM。在空间位置p处，我们通过取所有空间中的最大值来制定我们的CAM-TMP。而另一个单个像素作为背景伪标签。它们的位置表示在，′=M（C+）<$U（C−），（3）其中（C+）是前景区域上的多项式采样分布函数，其使用仅位于C+中的像素激活的幅度对单个位置进行采样。因此，强激活更可能被采样为前景。均匀抽样分布（C−t）用于从C t采样单个背景像素。由于背景是均匀分布在图像上的，因此我们倾向于均匀随机地探索背景区域。然而，前景区域仅分布在对象所在的一个地方我们用Y t表示样本Xt的部分伪标记掩模，其中Y t（p）0，12，标记0用于背景，1用于前景。该掩模保持等式中的采样位置。3、伪标签具有未知伪标签的位置被编码为未知。整体训练损失。我们的训练损失考虑帧Xt及其n个先前帧，即，（Xt，n），以利用视频中的时空信息。时间位置t在视频中被均匀且随机地采样。损失由三部分组成。a）使用伪标记Yt的逐像素对准。这是使用部分交叉熵实现的Hp（Yt，St）=相同位置的CAM，01Cstect （ p）=max{C1 （ p）， ··· ， Cn+1 （ p）} ，Ci∈S（Ct，n），其中Ci是集合的第i个（Ct，n），和p？伪标签采样。为了指导解码器f的训练，我们利用从预编译的CAMCstect中收集的像素级伪监督，t. 我们依赖于一个普遍的假设，CAM中的激活更可能是前景，低激活被认为是背景[7，5，20，91]。我们将C+表示为前景区域，通过以下操作估计：+。它被确定为具有大于在Cstect 上估计的Otsu阈值[53]的激活的像素。通过运算-估计的剩余覆盖区域被认为更可能是背景Ct。C+=O+（Cstect），C−=O−（Cstect）。（二）-（1 − Y t（p））log（1 − St（p））− Y t（p）log（St（p））。b）为了避免常见的不平衡问题CAMSt，其中背景支配前景（或相反），考虑全局约束我们不假设背景是否大于前景[55]，也不假设相反。这个约束会使两个区域都变大，并且它被公式化为不等式约束，然后通过标准的对数障碍方法[9]求解。c）为了避免ASC的平凡解决方案，其中一半图像是前景而另一半是背景，我们使用利用包括颜色和接近度的像素统计的自适应局部项。特别是，包括CRF损失[70]，以确保CAM激活与对象边界和采样区域一致。我们的总损失公式为，前景和背景区域都是噪声和不确定的。区域C-仍然可能包含部分minθHp（Yt，St）+λR（St，Xt），p∈T′t（五）不object.同样，C++也可以包含背景。由于这种不确定性，我们避免直接将这些区域拟合到模型中。相反，我们考虑对每个区域进行随机采样，以避免过拟合并允许出现一致区域[7，5]。对于每个帧，并且在每个SGD步骤，我们随机选择一个像素作为前景伪标签，S.T.Sr≥0，r∈ {0，1}，其中S0、S1分别是背景和前景区域的面积大小我们的方法的训练（Eq.5）仅需要视频全局标签y来训练分类器g，并且适当地估计（四）（一）142不不××--∈{· ··}伪标记掩码Yt对应于在视频中标记的正确这确保了S1中前景的语义含义与真实标签y对齐。 CAM之间的时空依赖性在Eq.1计算Cstect ，然后将其用于样本Yt.我们的最终训练模型在单个独立帧上进行评估，从而为帧中的对象及其空间定位S1生成类预测。因此，帧可以并行处理，节省更多的推理时间。标准方法可用于CAM中的边界框估计（图2，右）[15]。4. 结果和讨论4.1. 实验方法数据集。为了评估，我们在WSVOL任务的无约束视频数据集上进行实验，其中使用类标签对视频进行全局标记以进行训练，并提供帧边界框以进行评估。特别是，我们考虑两个具有挑战性的公共数据集：YouTube-Objectv1.0 （ YTOv1[57] ）和 v2.2（YTOv2.2 [33]）数据集。我们遵循WSVOL任务的通用协议[33，57]。YouTube-Object v1.0（YTOv 1）[57]：该数据集由通过查询10个对象类的名称从YouTube2每个班级有9到24个视频，时长从30秒到3分钟不等它包含155个视频，每个视频都被分成短时间的片段，称为镜头。共有5507个镜头，每个镜头都收集了多个帧，总共达到571089帧。在每个镜头中，只有少数帧被标注有边界框以定位感兴趣的对象。作者将数据集分为27个测试视频，共有396个标记的边界框，以及128个用于训练的视频。通常使用部分训练视频作为验证集。在我们的实验中，我们考虑每个类5个随机视频，总共有50个视频用于验证。YouTube-Object v2.2（YTOv2.2）[33]：这是YTOv1的扩展和改进。它包含更多的帧，总共722040帧更重要的是，作者提供了更多的边界框注释。他们将数据集分为106个视频用于训练，49个视频用于测试。对于验证集，在我们的例子中，我们考虑来自训练集的每个类的3个随机视频与YTOv1相比，测试集包含更多的注释。它包含1781帧边界框注释，总共2667个边界框。这使得这次发布更具挑战性。评估措施。对于定位性能，使用CorLoc度量[19]。它表示预测边界框的预测与地面实况之间的交集大于并集（IoU）大于一半（IoU > 50%）的百分比。此外，标准分类2https://www.youtube.com准确度CL用于测量分类性能。它是在具有边界框的帧上测量的。实现细节。在我们所有的实验中，我们用32个小批量训练了100个epoch。在WSOL任务[15]之后，我们使用ResNet50 [28]作为主干。图像大小调整为256 256，然后随机裁剪为224224训练等式1中的时间依赖性n经由来自集合n1，10的验证集合来设置。在公式5中，CRF的超参数λ被设置为与[70]中相同的值，即2e−9。对于对数屏障优化，超参数t被设置为与[4，34]中相同的值。它被初始化为1，并以因子1增加。01，最大值为10。在所有实验中，我们使用的学习率为0。1，0。010 001使用SGD优化。我们的分类器是在独立帧上预训练的。在我们所有的实验中，由于每个视频有大量的冗余帧，我们在每个时间点的每个镜头中随机选择一个不同的帧这允许在合理的时间内通过视频训练基线方法。为了验证，我们将我们的方法与现有的结果进行比较。特别是，我们比较[17，25，32，38，54，57，58，71，72]，POD [37]，SPFTN [84]，[73]第73话此外，我们还实现了几种基于CAM的方法，以便进一步比较。这包括CAM [91]、GradCAM[62]、GradCam++ [12]、Smooth-GradCAM++ [51]、XGradCAM [23]和LayerCAM [31]。基于CAM的方法在独立的帧上训练。在我们所有的实验中，我们使用LayerCAM [31]来生成CAM用于构建完整的CAMCstect（p）（等式1），然后用于构建伪标签Yt（等式5）。注意，我们的方法是泛型的。它可以与任何CAM方法一起使用。4.2. 结果与最新技术水平的比较3. 选项卡. 1给出了在数据集YTOv1和YTOv2.2上获得的结果。我们首先注意到，CAM为基础的方法是非常有竞争力的比较，以前的国家的最先进的方法。特别是， GradCAM++ [12] 和LayerCAM [31]实现了CorLoc的平均定位性能为63。百分之一，六十五。比YTOv1高6%，61. 2%，66。比YTOv2.2高0%。以前的最先进的方法产生了67。3%，56。5%，分别。这证明了对CAM进行区分训练的益处，即使它们不知道时间依赖性。训练我们的基于CAM的方法与帧之间的时间意识，提高了定位性能，进一步达到新的最先进的结果。同一个表还显示，所有方法在不同的对象之间的性能存在差异，其中一些类比其他类更容易例如，“火车”这门课似乎很难。在基于CAM的方法中，我们注意到3补充材料提供了一些额外的结果，演示视频。143数据集方法（地点）Aero鸟船车猫牛狗马姆比凯火车Avg时间/帧[57]（自愿和重返社会中心，2012年）51.765.425.156.560.871.564.366.176.377.079.785.184.766.497.377.017.567.331.266.454.674.063.259.871.467.567.572.772.773.827.872.334.438.927.858.034.744.873.363.165.077.268.376.278.263.381.164.734.765.238.576.857.472.368.972.558.968.469.668.469.683.465.167.422.346.341.239.919.252.044.454.068.054.559.459.460.454.556.679.217.940.228.469.342.146.462.564.955.968.375.076.780.058.972.558.313.565.333.950.435.871.971.466.270.672.078.777.378.761.359.574.726.748.435.656.330.454.652.350.633.356.748.346.751.745.481.845.241.239.023.153.011.745.978.639.369.744.148.548.550.055.579.480.425.025.025.031.011.432.123.142.542.434.939.546.546.530.122.142.628.5N/A4sN/AN/AN/AN/AN/AN/A0.35s0.02s0.02s0.02s0.15s不适用不适用0.29秒[54]（国际公民投票理事会，2013年）50.1[32]（欧洲共同体气候变化中心，2014年）31.0[38]（iccv，2015年）55.7[58]（IVC，2016）35.8[71]（eccv，2016）56.6POD [37]（cvpr，2016）60.2[72]（eccv，2016）57.9[25]（ICCV，2017）61.1[17]（LowRes-Netiter1）（ijcv，2019）62.163.5[17]（LowRes-Netiter2）（ijcv，2019）65.8[17]（DilateU-Netiter2）（ijcv，2019）67.3YTOv1[17]（MultiSelect-Netiter2）（ijcv，2019）SPFTN（M）[84]（tpami，2020）59.3SPFTN（P）[84]（tpami，2020）64.3[73]第73话：你是谁？65.8[91]第91话：你是谁？75.055.563.085.159.270.488.970.443.269.781.881.860.687.878.875.733.345.475.742.433.375.584.852.462.052.461.952.461.981.032.437.864.956.737.864.981.074.214.850.050.056.250.050.056.250.050.10.2msGradCAM [62]（iccv，2017）86.951.367.718.556.427.8msGradCAM++ [12]（wacv，2018）79.837.864.533.363.228.0msSmooth-GradCAM++ [51]（corr，2019）78.656.764.540.757.1136.2msXGradCAM [23]（bmvc，2020）79.854.064.537.056.714.2msLayerCAM [31]（IEEE，2021）85.745.964.533.365.617.9msTCAM（我们的）90.562.264.570.473.018.5ms[25]（ICCV，2017）76.375.778.174.982.281.768.556.051.850.751.851.554.552.749.050.751.554.150.457.360.560.962.062.559.846.944.845.750.949.742.457.062.360.164.868.853.548.952.954.455.555.930.044.048.942.945.750.453.527.230.630.635.333.360.756.254.657.855.957.054.90.35s0.02s0.02s0.02s0.02s0.15s[17]（LowRes-Netiter1）（ijcv，2019）52.253.4[17]（LowRes-Netiter2）（ijcv，2019）52.9[17]（DilateU-Netiter2）（ijcv，2019）55.6[17]（BasicU-Netiter2）（ijcv，2019）56.5[17]（MultiSelect-Netiter2）（ijcv，2019）YTOv2.2[91]第91话：你是谁？GradCAM [62]（iccv，2017）52.344.166.468.478.183.244.584.594.925.050.038.238.245.847.275.766.461.169.764.264.073.561.739.751.856.749.646.855.368.887.879.334.756.061.657.344.071.375.053.647.061.952.057.060.862.445.444.843.051.144.955.772.143.742.451.50.2ms27.8ms54.5GradCAM++ [12]（wacv，2018）74.784.344.361.228.0msSmooth-GradCAM++ [51]（corr，2019）74.182.142.459.5136.2msXGradCAM [23]（bmvc，2020）68.286.445.054.614.2msLayerCAM [31]（IEEE，2021）80.083.648.166.017.9msTCAM（我们的）79.487.145.072.218.5ms表1：YTOv1[57]和YTOv2.2[33]测试集的定位性能（CorLoc）因为它们经常一起出现。此外，该对象通常是从近距离拍摄的，在站处，导致大对象，其通常覆盖整个帧，使得其定位困难。消融研究。我们对损失函数的关键组成部分进行了消融研究，使用LayerCAM [31]作为基线来生成伪标签的CAM（见表2）。我们观察到，仅使用伪标签将定位准确度从65. 6%至68。百分之五添加CRF有助于本地化，但与单独使用基线相比，仅使用大小限制并没有提供太多好处结合伪标签，CRF，和大小约束产生了最好的本地化性能为70。5%，但不考虑时间依赖性。添加我们的时间模块CAM-TMP，将定位精度提高了73%，表明了它的好处。此外，还研究了时间范围依赖性的影响（见图3）。如所预期的，与仅查看即时帧（n= 0）相比，考虑先前帧（n >0）有助于改善定位。然而，长范围依赖性阻碍了n= 1之后的性能。在n= 4之后，定位性能下降到n= 0的情况之下。这被认为是由物体位移引起的。邻近帧中的空间位置通常覆盖相同的物体。因此，CAM中的ROI预计将落在相同的对象上。因此，通过等式1收集ROI预期是有益的。然而，移动到远处的帧使相同的空间位置覆盖不同的对象，因此收集错误的对象。因此，虽然我们提出的模块，即。CAM-TMP可以利用视频中的时间依赖性来改善定位，但它仅限于短距离帧。尽管如此，使用长范围时间依赖性仍然比基线方法LayerCAM产生更好的性能[31]（图3）。根据我们的结果，我们建议使用短程依赖。我们提到，这种因素与视频帧速率密切相关。在快速帧速率下使用长范围依赖性可能是安全的。但是，应谨慎考虑低帧速率我们注意到，在所研究的数据集中没有提供视频帧速率的信息方法CorLocLayer-CAM [31]（IEEE，2021）65.6我们的+C++C−t t68岁5n= 0Ours +C++C−+ CRFt t69岁。6我们的+C++C−+ ASCt t66岁。2我们的+C++C−+ CRF + ASCt t七十5n >0我们的+C++C−+ CRF + ASC + CAM-TMPt t七十三。0改进+7.4表2：在YTOv1测试集上具有不同损失的TCAM的定位精度（CorLoc）。144图3：TCAM在YTOv1测试集上具有不同时间依赖性n的定位精度（CorLoc）。目视检查结果。图4示出了标记的地面实况帧上的预测情况。我们的方法产生的CAM往往覆盖整个对象，前景和背景之间有明显的区别。它可以很好地处理多实例和部分可见的对象。第二行显示了一个具体的情况，其中随机采样防止过拟合过小而强的ROI（右下），并允许其他一致和有区别的对象从低激活中出现（船在中心）。图5显示了我们的方法的它们表现为对微小物体的过度激活这主要是由于在用于生成伪标签的基线CAM上大量存在错误的ROI激活。不幸的是，在这种情况下，占主导地位的错误伪标签可能导致我们的方法中的错误定位。它们在基线CAM中的早期检测和处理对于这项工作的未来扩展至关重要。这些问题通过噪声标签进行学习，这仍然是一个正在进行的活跃领域[65]。这突出了我们的方法对骨干CNN分类器和基线CAM的准确性5. 结论基于CAM的方法在WSOL任务的静态图像中取得了很大的成功。由于在WSVOL任务的当前工作中的几个限制，我们建议利用CAM来完成这项任务。然而，由于CAM的目的不是为了从视频中的时间信息中受益，我们提出了一个新的模块，CAM-TMP，允许CAM这样做。它旨在从一系列CAM中收集可用的ROI，这些CAM用于生成用于训练的伪标签。结合局部和全局约束，我们能够为WSVOL任务训练我们的模型。在两个公开的基准无约束的视频进行评估，我们证明了简单的CAM方法可以产生有竞争力的结果。我们的方法产生了新的最先进的本地化性能。我们的消融表明，我们的方法中的本地化改进可以通过利用短时间依赖性来完成。演示视频表明，我们的建议可以很容易地适应图4：测试集框架的预测示例。左：TCAM（我们的）。右：基线CAM方法，层- CAM [31]。边界框：地面实况（绿色），预测（红色）。第二列是在图像上预测的CAM。图5：我们的方法在测试集上的典型失败案例。左：TCAM（我们的）。右：基线CAM方法，层- CAM[31]。边界框：地面实况（绿色），预测（红色）。第二列是在图像上预测的CAM。后续任务，如视频对象跟踪和检测。确认这项研究得到了加拿大健康研究所、加拿大自然科学和工程研究委员会以及加拿大数字研究联盟（alliancecan.ca）的部分支持145引用[1] J. Adebayo，J. Gilmer，M.穆利岛Goodfellow，M. Hardt，和B.Kim.显著性图的健全性检查。NeurIPS，2018。[2] B. Alexe，

下载后可阅读完整内容，剩余1页未读，立即下载