未修剪视频中的时间动作定位方法AutoLoc:弱监督下的外-内-对比技术

55 浏览量更新于2023-10-14 收藏 715KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

AutoLoc：未修剪视频郑寿1[0000 - 0002 - 7681 - 2166]、高航1、张磊2、宫泽和之3、常世富11哥伦比亚大学，纽约，美国2美国华盛顿州雷德蒙市微软研究院3日本三菱电机抽象。未修剪视频中的时间动作定位（TAL）对于许多应用是重要的但是，注释片段级基础事实（动作类和时间边界）是非常昂贵这引起了在弱监督下解决TAL的兴趣，即在训练期间仅视频级注释可用）。然而，最先进的弱监督TAL方法仅关注随时间生成良好的类激活序列（CAS），但对CAS进行简单的阈值化以定位动作。在本文中，我们首先开发了一个新的弱监督TAL框架称为AutoLoc直接预测每个动作实例的时间边界我们提出了一种新的外-内-对比（OIC）损失自动发现训练这样的边界预测所需的段级监督。我们的方法实现了显着提高的性能：在IoU下的thresold0。5，或由13. 7%至21.2%，ActivityNet的mAP从7.4%至27.3%。这也是非常鼓舞人心的看到，我们的弱监督的方法实现了与一些完全监督的方法相当的结果。关键词：时间动作定位;监督不力;外-内-对比;类激活序列1介绍在过去的两年中，已经取得了令人印象深刻的改进，以解决未修剪视频中的临时动作定位（TAL）[30，19，54，76，77，60，62，63]。58、44、29、82、22、75、15、14、21、7、6、78、61、20]。这些方法是针对全监督设置提出的：模型训练需要充分的注释每个动作实例的地面实况时间边界（开始时间和结束时间）。然而，未修剪的视频通常很长，在时间上具有大量背景内容。因此，手动注释新的大规模数据集的时间边界是非常昂贵和耗时的[81]，因此可能会禁止将全监督方法应用于缺乏足够的具有完整注释的训练数据的新领域。这促使我们开发TAL方法，这些方法需要更少的地面实况注释进行训练。如示于图1、在本文2Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常预测（1）操作类和（2）边界（开始时间和结束时间）弱监督的时态动作定位模型监督最小化OIC损失（外-内-对比）=平均值（外部）时间time培训视频仅视频级标签：CliffDivingAction分类测试视频类别激活序列（CAS）：悬崖跳水随着时间图1.一、我们研究了弱监督的时间动作定位问题：在训练期间，我们只有带有视频级别标签的视频，但在测试期间，我们需要预测（1）动作类和（2）每个动作实例的时间边界为了获得用于训练动作定位模型以直接预测边界的分段级监督，我们设计了一种基于动作类激活序列的新颖的外-内-对比（OIC）损失我们将预测的动作段边界表示为内边界。外边界是通过扩展内边界以包括其周围区域而获得的。理想的边界预测应该在内部绿色区域中具有高激活，但在外部红色区域中具有低激活因此，OIC损失可以用于近似地确定用于训练定位模型所需的段级监督我们关注以下场景：在训练期间，我们只有视频级标签，与边界注释相比，视频级标签更容易收集;在测试期间，我们仍然旨在预测（1）动作类和（2）时间边界（即，开始时间和结束时间）。我们把这种情况称为弱监督设置，本文的工作最近，已经提出了一些方法来解决在这样的弱监督设置中的TALUntrimmedNet [73]和Hide-and-Seek [65]实现了最先进的性能，并以类似的方式进行本地化给定训练视频，若干段被随机采样并且一起被馈送到网络中以产生视频级类别预测。在测试过程中，经过训练的网络随时间推移而滑动，以产生每个动作随时间推移的分类分数序列得分序列类似于[83]中的类激活最后，一个简单的阈值方法应用于CAS本地化的开始时间和结束时间方面的每个动作实例然而，通常经由阈值化执行定位可能对CAS中的噪声不具有鲁棒性：有时，在高激活的间隔内存在低激活的几个下降，使用大的阈值可能将一个动作实例过度分割成几个段;但是使用小的阈值可能包括动作实例之前和之后的太多不相关的背景。一个可能的解决方案是提高CAS的质量或者，代替阈值，许多全监督TAL方法直接在片段级别检测动作实例一些工作进一步采用边界回归模型来学习预测更准确的边界[44，22，75，21]。因此我们AutoLoc：弱监督的时间动作定位3设计了一个AutoLoc框架，通过预测每个动作实例的中心位置和持续时间，直接进行边界预测但是如何在没有地面实况边界标注的情况下训练边界预测模型仍然是未解决的。为了解决这一挑战，我们提出了一种新的外-内-对比（OIC）损失，以提供训练边界预测模型所需的分段级监督给定CAS是地面实况动作，我们将内边界表示为预测动作实例的边界，并且我们稍微膨胀内边界以获得外边界。如示于图1，我们提出OIC损失为外部红色区域中的平均激活减去内部绿色区域中的平均激活。通过最小化OIC损失以找到高内部激活但低外部激活的区域，我们可以在CAS上进行显著间隔的期望定位，这可能与地面真实片段良好对齐配备OIC损失，AutoLoc可以自动从视频级注释中发现片段级监督，用于训练边界预测模型。节中5、我们将实验与国家的最先进的方法，并研究我们的模型的几个变种。总之，我们在本文中做出了三个新的贡献：(1) 据我们所知，AutoLoc是第一个弱监督TAL框架，它可以直接预测每个动作实例的时间边界，仅在训练期间提供视频级注释，特别是在分段级别解决定位任务。(2) 为了能够训练这样的参数边界预测模型，我们设计了一种新的OIC损失来自动发现分段级监督，并且我们证明了OIC损失对于底层边界预测模型是可微的(3) 我们证明了AutoLoc在两个标准基准点上的有效性。AutoLoc显著优于最先进的弱监督TAL方法，甚至达到了与一些在训练期间使用边界注释的完全监督方法相当的结果。当在评估期间重叠IoU阈值被设置为0.5时，我们的方法从公式13改进了THUM0S’14上的mAP。7%到21。2%（54. 7%的相对收益），并将ActivityNet上的AP从7.4%提升至27.3%（268.9%的相对收益）。2相关作品视频分析详细的评论可以在最近的调查中找到[74，50，2，13，3，39]。在过去的几年里，研究人员不仅开发了许多用于图像分析的骨干网络[26，27，33，10，12，9]，而且开发了相当多的深度网络。用于视频分析的网络，如3D ConvNets [69，35，70，11]，LSTM [17]，双流网络[64]，I3D [8]等。例如，Wang et al.提出了时间段网络[72]，其采用双流网络对视频中的长距离时间结构进行建模，并在各种视频分析任务中充当有效的骨干网络，例如识别[72]，定位[82]，弱监督学习[73]。4Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常已经为TAL创建了几个大规模视频数据集，例如Charades [63，62]，ActivityNet [28]，THUMOS [37，24]。为了获得地面实况时间边界以提供用于训练全监督TAL模型的全监督，需要大量的努力来注释这样的大规模数据集中的因此，开发可以仅在弱监督下训练的TAL模型是有用且重要的视频级注释是一种可以更容易地收集的弱监督Sun等人。[67]是第一个考虑TAL的人，在训练期间只有视频级别的注释可用，作者发现了来自网络图像的额外监督。最近，Singh et al.设计了Hide-and-Seek[65]，以解决弱监督检测方法通常专注于最具辨别力的部分而忽略目标实例的其他相关部分的 Wang 等人。 [73] 提出了一个名为UntrimmedNet的框架，由一个执行动作分类的分类模块和一个检测重要时间段的选择模块组成。这些最近的方法在训练期间有效地学习动作分类模型，以便随着时间的推移生成相当好的类激活序列（CAS）。但是为了检测时间边界，在测试期间在CAS上应用简单的阈值处理。因此，虽然这些方法可以在视频级的动作识别，时间定位的性能仍然有很大的改进空间。然而，全监督TAL方法（在训练期间可用的边界注释）已经超越了简单的阈值方法。首先，一些研究人员在片段级进行定位：他们首先通过滑动窗口或建议方法生成候选片段，然后将每个片段分类为某些动作[60，22，75，21，7]。受单次拍摄对象检测方法[46，52，51]的成功的启发，Lin等人[44]删除了建议阶段，并直接以单次方式进行TAL，以同时预测时间边界和动作类。其次，最近，通过锚点生成和边界回归的直接边界预测已经从对象检测[46，52，51，53，23]适应于完全监督的TAL，并被证明在检测更准确的边界[44，82，22，75，21]相当有效这促使我们将片段级定位和直接边界预测推广到弱监督TAL：我们开发AutoLoc以首先生成锚片段，然后回归其边界以获得预测片段;为了训练边界回归器，我们提出了OIC损失来提供段级监督。过去也探索了用于动作检测的其他类型的弱监督例如，Huang etal.[32] Richard et al.[55]两者都利用动作的顺序作为训练期间使用的监督。Mettes等人[47]仅使用点级监督进行训练的时空动作检测AutoLoc：弱监督的时间动作定位5O2弱监督深度学习方法在其他视觉任务中也得到了广泛的研究，例如物体检测[83，84，57，43，38，18，68，80，66，5，40，25]、语义分割[42，31，49，4]、视频字幕[56]、视觉关系检测[79]等。作为弱监督视频TAL的对应物，弱监督图像对象检测通过结合多实例学习（MIL）[16]和深度网络[57，38，68，5，40]得到了显着改进：建立在Fast-RCNN [23]上，这些方法首先预先生成候选候选方案;然后，他们采用深度网络对每个建议进行分类，并且将来自所有建议的分数融合在一起，以获得用于整个图像的一个标签预测，以与图像级标签进行比较。这样的基于MIL的深度网络之一是ContextLocNet[40]，其进一步膨胀预测框以获得其外部框以考虑上下文信息。我们的工作绕过了成本高昂的建议生成，并以单次拍摄的方式从原始输入视频虽然我们专注于视频TAL在本文中，它也将是有趣的，以适应我们的方法在未来的图像对象检测。3外-内-对比损失在本节中，我们将制定如何计算AutoLoc网络前向传递期间的建议OIC损失，并证明OIC损失在后向传递期间可与基础边界预测模型微分。AutoLoc的整个管道和详细信息将在第4.第一章3.1向前如图1中右下部分所示2，对于每个预测的段Φ，我们可以计算其OIC损失。每个预测片段Φ由动作/内边界[X1，X2]、膨胀的外边界[X1，X2]和动作类k组成。这些边界处于片段级粒度（例如，边界x= 1对应于第一片段的位置）。为了在CAS上获取对应的片段级激活，我们将连续值的每个边界四舍五入到其最接近的整数（即最近的片段的位置）。我们将动作k的CAS上第x个片段处的类激活表示为fk（x）。预测Φ的OIC损失被定义为外部区域中的平均活化A〇（Φ）减去内部区域中的平均活化Ai（ΦL（φ）=A（φ）−A（φ）=X2x2∫fk（u）du−∫fk（u）duX1x1X2∫fk（u）du-x1。OIC〇 i（X— X1 + 1）−（x2— X1+1）（x2— X1+1）`A（）x `A（Ωφ）X（一）在训练期间，我们将k设置为地面实况动作，并且我们最小化LOIC（φ）以鼓励内部的高激活并惩罚外部的高激活。我6Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常……X1x 1x2 X2输入视频（CliffDiving）T片段特征图（2048-D xT）(a) 分类分支片段级激活生成器S(b) 本地化分支边界预测器B类激活序列（CAS）T片段边界变换预测选择悬崖跳水的CAS边界（内边界）充气时间最小化外-内-对比度（OIC）损失=平均（外）x1x2图二. AutoLoc的网络架构。给定训练期间的输入视频，视频被分块成T个15帧长的片段而没有重叠。我们为每个片段提取D维的特征向量。除了这些功能之外，AutoLoc还会随时间推移滑动两个独立的分支：一个分类分支，用于预测每个片段的动作得分以获得类激活序列（CAS）;一个定位分支，用于直接预测真实动作边界，该真实动作边界表示为内边界，并被膨胀以获得外边界。基于地面实况视频级动作的CAS，我们可以计算外部-内部-对比损失（外部红色区域中的平均激活减去内部绿色区域中的平均激活）以提供训练边界预测器所需的片段级监督3.2落后我们证明了OIC损失是可微的内部和外部边界。因此，由OIC损失发现的监督可以被反向传播到底层边界预测模型。对应于预测段Φ相对于其内边界[x1，x2]的梯度如下：LOIC（φ） =x1fk（x1）−Ao（φ） −（X2−X1+1）−（x2−x1+1）Ai（φ）−fk（x1）（x2−x1+1）（二）`Ao（φ）x1x`Ai（φ）xx1LOIC（φ）x2Ao（φ）−fk（x2） −（X2−X1+1）−（x2−x1+1）fk（x2）−Ai（φ）（x2−x1+1）.（三）`Ao（φ）x2x`Ai（φ）xx2拟分段分级监管外边界X1X 2持续时间长度中心选址15帧15帧15帧…………特征提取时间转换时间转换时间转换时间转换=AutoLoc：弱监督的时间动作定位7xx1xx对应于预测段φ相对于其外边界[X1，X2]的梯度如下：LOIC（φ）X1LOIC（φ）X2=Ao（φ）X1=Ao（φ）X2Ao（φ）−fk（X1）（X2−X1+1）−（x2−x1+1）fk（X2）−Ao（φ）（X2−X1+1）−（x2−x1+1）;（4）.（五）注意，这些梯度确实具有关于如何调整边界的物理意义。例如，在等式2中，Ai（φ）表示1平均内部活化Ai（φ）高于活化fk（x1）。左内边界x1。如果平均内部激活比内部左边界x1处的激活高得多，则 x1可能属于背景，因此我们希望在正（右）方向上移动 x1同样地，Ao（φ）表示左内边界x1处的激活高多少比一般的外部激活要多。OIC（φ）是OIC（φ）的对抗结果。1000万美元和φ Ai（φ）。因此，LOIC（φ）指示模型想要如何调整x1左内边界x1x1最终：如果LOIC（φ）1<0，x1向积极（右）方向;如果LOIC（φ）>0，x1向负（左）方向移动。4AutoLoc在本节中，我们将介绍AutoLoc的流程，如图所示二、AutoLoc中的训练和测试管道非常相似因此，当出现任何差异时，我们只4.1输入数据准备和特征提取输入AutoLoc的每个输入数据样本都是一个未经修剪的视频。遵循UntrimmedNet [73]，对于每个输入视频，我们首先将其划分为15帧长的片段，没有重叠，并单独提取每个片段的特征。特别地，时间段网络（TSN）[72]是用于视频分析的最先进的双流网络。UntrimmedNet [73]已被证明在仅使用视频级标签训练TSN分类器方面是有效的因此，我们首先提前训练一个UntrimmedNet网络（软版本），然后使用训练好的网络作为特征提取的骨干。该骨干网络由接受RGB输入的一个空间流和接受光流输入的一个时间流组成。对于每个流，我们使用具有批量归一化的Inception网络架构[34]并在全局池层提取1024维特征最后，对于每个片段，我们将提取的空间特征和时间特征连接成一个2048维的特征向量。对于总共T个片段的每个输入视频，我们通过T（片段）获得形状为2048（通道）的特征图。==18Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常4.2分类处分类分支的目标是获得类激活序列（CAS）。我们基于UntrimmedNet构建激活生成器S在全局池层的顶部，UntrimmedNet附加了一个由K个节点组成的全连接（FC）层，将每个片段分类为K个动作类别，并附加了另一个仅由1个节点组成的全连接（FC）层，以预测每个片段的注意力得分（重要性）。对来自空间流和时间流的对应分数对于每个视频，我们使用预先训练的UntrimmedNet中的这两个FC层，分别提取形状K（动作）乘T（片段）的分类得分序列和T维的注意力得分序列。对于每个片段，当它的注意力分数低于所述分数时，我们将其所有类的分类分数设置为0（7是在所述片段上的选择性分类，并且在ActivityNet上也很好地工作）;则我们将这样的门控分类分数视为激活，其范围在[0，1]内。最后，对于每个视频，我们通过T（片段）获得其形状K（动作）的CAS。4.3本地化分部概况. 定位分支的目标是学习用于直接预测片段边界的参数模型最近的全监督TAL方法[44，82，22，75，21]已经显示了回归锚点用于直接边界预测的有效性：所述锚是所述可能段的假设;通过分别回归（1）锚点段的中心位置和（2）锚点段的时间长度来获得预测边界;多锚机构用于覆盖不同时间尺度的可能片段。因此，我们设计了一个定位网络B来查看特征图上的每个时间位置，并为每个锚点输出所需的两个边界回归值。然后，我们使用这些回归值对锚点进行回归，以获得预测的动作边界（内部边界），并对内部边界进行膨胀，以获得外部边界。最后，基于CAS，我们引入了一个OIC层，配备了OIC损失，以生成最终的段预测。给定输入视频，其由T个片段组成的形状为2048个通道的特征图被馈送到B中。B首先堆叠3个相同的时间卷积层，其随时间滑动卷积滤波器。每个时间卷积层具有128个滤波器，它们在时间上都具有内核大小3，步幅为1，填充为1。每个时间卷积层之后是一个批处理归一化层和一个ReLU层。最后，B再添加一个时间卷积层pred以输出边界回归值。pred中的过滤器在时间上的内核大小为3，步幅为1，填充为1。类似于YOLO[52，51]，B预测的边界被设计为类不可知的。这允许我们学习通用边界预测器，其可以用于生成针对未来看不见的动作的动作提议因此，pred中的滤波器的总数是2M，其中M是AutoLoc：弱监督的时间动作定位9(a)锚代WaSX(c)边界膨胀X1X2Cx(b)边界回归X1WX2Cxwtx图3.第三章。边界预测程序的图示，该程序依次由三个步骤组成：（1）锚点生成，以获得边界假设;（2）边界回归，以获得动作片段的预测边界（表示为作为内部边界）;（3）边界膨胀，得到外边界。分数序列为CAS，橙色分数条表示边界预测器当前查看的时间位置锚标的数量。对于每个锚点，B预测两个边界回归值：（1）tx指示如何移动锚的中心位置，以及（2）tw指示如何缩放锚的长度。边界变换的细节由于特征图上的每个时间位置和CAS上的每个时间位置都对应于输入片段的相同位置，因此我们以片段级粒度进行边界预测我们在图中概述了边界预测过程3.第三章。锚代。在特征图上的时间位置Sx处，我们生成长度为Wa的假设片段（锚点）。在实践中，我们使用多尺度锚点。我们根据训练集中地面实况片段的持续时间范围来确定它们的尺度。边界回归如上所述，对于时间位置sx处的每个锚点，B预测两个边界回归值tx和tw。我们可以通过回归中心位置cx=sx+wa·tx和时间长度w=wa· exp（tw）来获得预测片段。我们将这个预测片段的边界表示为内边界，可以通过x1=cx−w/ 2和x2=cx+w/2计算。此外，我们裁剪预测的边界x1和x2以适合整个视频的范围。边界膨胀与xl之前和x2之后的上下文区域相比，地面实况片段通常在内部区域[xl，x2]内的CAS上表现出相对较高的激活。因此，我们将内边界膨胀一个比率α，得到相应的外边界X1= x1− w·α和X2= x2+w·α。实验探索表明，将α设置为0.25是一个较好的选择。用于获得最终预测的OIC层最后，我们引入OIC层，其使用OIC损失来测量每个段包含动作的可能性，然后移除不太可能包含动作的段在测试期间，该OIC层输出一组预测片段。期间10Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常通过训练，该OIC层进一步计算总OIC损失并将梯度反向传播到底层边界预测模型。具体地，给定输入视频，分类分支生成其CAS，并且定位分支预测候选类别不可知片段。注意，由于B中的所有时间卷积层以步幅1随时间滑动，因此在特征图上的每个时间位置处预测的片段集合和CAS上的每个时间位置处的激活被配对，对应于相同的输入片段。因此，在每个片段的时间位置处，B已经预测了M个类别不可知的锚点片段。然后，对于每个动作，我们在CAS上迭代地执行以下步骤，以获得最终的特定于类的细分预测。请注意，在训练期间，我们只考虑地面实况动作，而在测试期间，我们考虑所有动作。如果时间位置在CAS上具有低于0.1的激活，则我们丢弃对应于该时间位置的所有预测。对于剩余位置中的每一个，在其M个锚分段预测中，我们仅保留具有最低OIC损失的一个，这意味着选择最可能尺度的锚。最后，对于所有保留的片段预测，我们移除具有高于-0.3的OIC损失我们在重叠IoU阈值为0.4的所有分段预测上执行非最大值抑制（NMS）所有这些阈值都是通过在ActivityNet上记录和存储的HUM14上的分级存储来选择的。在训练期间，总损失是由每个保留的段预测生成的OIC损失的总和。我们可以根据Sec. 3.2然后将它们累加在一起以更新基础边界预测器B。在测试过程中，所有保留的片段预测都作为我们的最终片段预测输出。每个片段预测包括（1）预测的动作类，（2）置信度分数，其被设置为1减去其OIC损失，以及（3）通过将内边界[x1，x2]从片段级别粒度（在四舍五入到其最近整数之前的连续值）转换为时间而获得的开始时间和结束时间。5实验在本节中，我们首先介绍两个标准基准测试和相应的评估指标。请注意，在训练期间，我们仅使用视频级标签;在测试期间，我们使用具有边界注释的地面实况片段来评估时间动作定位的性能。我们将我们的方法与最先进的方法进行比较，然后进行一些消融研究，以研究我们方法的不同变体。5.1数据集和评估THUMMOS’14中的子组件局部校准包含20个动作。它的验证集有200个未修剪的视频。每个视频至少包含一个动作。我们使用验证集中的这200个视频进行训练。在包含213个视频的测试集上对训练好的模型进行测试。AutoLoc：弱监督的时间动作定位11ActivityNet v1.2 [28]为了便于比较，我们遵循Wang等人。[73]使用ActivityNet发布版本1.2，其中涵盖100个活动类。训练集有4,819个视频，验证集有2,383个视频。我们在训练集上训练，在验证集上测试。评估指标给定测试视频，系统输出排名列表动作片段的预测。每个预测都包含操作类、开始时间和结束时间以及置信度得分。我们遵循惯例[37，1]来评估平均精密度（mAP）。仅当（1）预测的类是正确的并且（2）其与地面实况片段的时间重叠IoU超过评估阈值时，每个预测才被认为是正确的我们不允许对相同的地面实况片段进行重复检测。5.2实现细节我们使用Caffe实现AutoLoc [36]。我们使用随机梯度下降算法来训练AutoLoc 。通过实验研究，我们发现在 1 个训练周期后，在THUM0S’14和Ac i v i- tyNet数据集上的正确率是有限的在FasterR-CNN [53]之后，在每个小批量期间，我们处理一个完整的未修剪视频。学习率初始设置为0.001，并且每200次迭代降低一个数量级。我们将权重衰减设置为0.0005。我们选择片段级长度为1、2、4、8、16、32或THUM_0S’14和16、32、64、128、256、512或Ac_t_t的锚。我们使用CUDA 8.0和cuDNN v5。我们使用一个NVIDIA GeForce GTXTITAN X GPU。5.3与最新技术水平的表1中示出了关于THUM0S’14的结果。我们的hodsignifican t i c ntly执行仅用视频级标签训练的最先进的弱监督TAL方法。关于最近的弱监督TAL方法（即，[65]和王等人。[73]），尽管它们可以生成相当好的CAS，但是TAL是通过对CAS应用简单的阈值来完成的，这可能对CAS中的噪声不鲁棒。我们的方法直接预测段边界的上下文信息考虑在内。我们的方法甚至可以达到更好的或类似的结果，一些完全监督的方法（例如。S-CNN [60]），其用分段级边界符号训练SSN [82]的结果对应于与我们相同的骨干网络结构的模型ActivityNet v1.2上的结果如表2所示，我们的方法可以再次实现实质性的改进Wang等人[73]没有在他们的论文中报告但是他们的训练模型和源代码已经在网上公开发布，因此我们也可以在ActivityNet上评估他们的结果。12Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常表1.与最先进的方法在时间定位AP（%）和THUMOS' 14测试中所述的时间差方面的比较。 Weak监督意味着仅使用视频级标签进行培训。完全监督指示在训练监督IoU阈值0.30.40.50.6 0.7充分Karaman等人[41个] 0.50.30.20.2 0.1充分Wang等人[第七十一届]14.6十二点一8.54.71.5充分Heilbron等人[30个]- -13.5--充分Escorcia等人[19个]- -十三点九--充分Oneata等人[48个]28.8 21.8 15.08.5第3.2节充分理查德和高尔[54]30.023.2 15.2充分Yeung等人[76个]36.026.4 17.1充分Yuan等人[77个国家]33.626.1 18.8充分Yuan等人[78个国家]36.5二十七点八十七点八充分S-CNN [60]36.3 28.7 19.0充分SST [7]37.8 - 23.0充分CDC [58]40.1 29.4 23.3充分Dai等人[14个]-33.3 25.6 15.9 9.0充分SSAD [44]43.035.0 24.6充分旋转龙头[22]44.134.9 25.6--充分R-C3D [75]44.735.6 28.9充分SS-TAD45.7 - 29.2 - 9.6充分Gao等人[21日]50.1 41.3 31.0充分SSN [82]51.9 41.0 29.8 19.6 10.7弱Sun等人[67个]8.55.2 4.4弱[65]第六十五话19.512.7 6.8--弱Wang等人[73个国家]28.221.1 13.7--弱我们的-AutoLoc35.8 29.0 21.2 13.4 5.85.4讨论在本节中，我们将定量地解决几个问题来分析我们的模型。Q1：建议的OIC损失有多大影响？为了评估所提出的OIC丢失的有效性，我们以片段级粒度枚举所有候选片段（例如，在第2个片段的位置处开始并且在第6个片段的位置处结束的片段我们利用OIC损失来衡量每个片段包含动作的可能性，然后选择最可能的动作。具体地，对于每个段，我们计算其作为每个动作的OIC损失然后我们跟着SEC。4.3移除具有高OIC损失的段我们将这种方法表示为OIC选择。如表3所示，尽管不如AutoLoc好，OIC选择仍然显著改善了最先进的结果[73]。因为OIC损失明确地倾向于内部具有高活化和外部具有低活化的段，并且这样的低OIC损失的段通常是优选的。AutoLoc：弱监督的时间动作定位13表2.在ActivityNet v1.2验证集上，在不同IoU阈值下，与最先进的方法在时间定位mAP（%）方面进行比较弱监督意味着仅使用视频级标签进行培训完全监督指示在训练监督IoU阈值0.50.550.60.650.70.750.80.850.9 0.95 Avg充分SSN [82]41.3 38.8 35.9 32.9 30.4 27.0 22.2 18.2 13.226.6弱Wang等人[73个国家]7.46.1 5.2 4.5 3.9 3.2 2.5 1.8 1.2 0.73.6弱我们的-AutoLoc27.3 24.9 22.5 19.9 17.5 15.1 13.0 10.0 6.8 3.3 16.0高斯拉普拉斯（LoG）滤波器我们的外-内-对比度损失（膨胀率0. 25）中涉及的阶跃函数图4.第一章LoG滤波器和OIC损耗的图示，OIC损耗实际上是阶跃函数很好地对准地面实况片段。这证实了拟议的OIC损失的有效性。Q2：研究内部区域和外部区域之间的对比有多重要？OIC损失的核心思想是鼓励内部区域的高激活，同时惩罚外部区域的高激活。我们考虑另一种变体，也可以发现段级监督，但不模拟内部和外部之间的对比具体而言，我们将AutoLoc中的OIC损失更改为仅内部如表3所示，性能下降了很多。因此，在设计用于训练边界预测器的损失时，考虑内部区域和外部区域之间的对比度是非常重要和有效的值得注意的是，查看内部和外部之间的对比度的想法与用于斑点检测的高斯拉普拉斯（LoG）滤波器的使用有关[45]。计算OIC损失的操作是有效地将CAS与图11所示的阶跃函数卷积。4，其可以被认为是LoG滤波器的变体，以便于网络训练。在数学上，我们可以证明LoG滤波器的积分和阶跃函数的积分在范围（−Inf，+Inf）上都为零此外，我们接近的多锚点机制和边界回归方法的斑点检测中的尺度尽管OIC损失很简单，但事实证明，它在实践中对定位可能的行动片段非常有效。Q3：与直接优化测试视频上的边界相比，在训练视频上学习模型的优势是什么？AutoLoc在训练视频上训练模型，然后应用14Z. Shou，H.高湖，加-地Zhang，K.Miyazawa，S.-F.常表3.ActivityNet v1.2验证集上不同IoU阈值下的时间定位mAP（%）所有的方法都是在监督不力的情况下训练出来的IoU阈值0.50.550.60.650.70.750.80.85 0.9 0.95 AvgWang等人[73个国家]7.46.1 5.2 4.5 3.9 3.2 2.5 1.8 1.2 0.73.6我们的-AutoLoc27.3 24.9 22.5 19.9 17.5 15.1 13.0 10.0 6.83.316.0Q1：OIC选择15.8 13.7 11.9 10.38.87.56.45.13.6二、二8.5Q2：内部损失4.63.7 2.7 1.9 1.3 0.9 0.5 0.2 0.1 0.01.6Q3：直接优化21.8 19.6 17.8 15.8 13.8 11.79.87.85.52.7 12.6训练模型对测试视频进行推理或者，在不对训练视频训练边界预测器B的情况下，我们可以直接在每个测试视频上从头开始训练/优化B：我们遵循第2节中所述的测试流程。4.3同时我们还进行反向传播以更新B，从而迭代地找到每个测试视频上的可能片段我们将这种方法称为直接优化。如表3所示，其性能并不差，这再次证实了OIC损失的有效性但它仍然不如AutoLoc。因为直接优化优化了对测试视频的C AS的预存边界区域的访问，而这可能不是非常准确。最终，直接优化过度拟合这种不准确的 CAS，从而导致不完美的边界预测。在AutoLoc中，B已经在多个训练视频上训练，因此对CAS中的噪声具有鲁棒性因此，即使当测试视频的CAS不起作用时，AutoLoc仍可预测良好边界。此外，DirectOptimiz优化测试视频上的边界预测直到收敛，因此其测试速度比AutoLoc慢得多。例如，在ActivityNet上，直接优化在25次训练迭代（25次向前传递和25次向后传递）后收敛。然而，AutoLoc直接应用经过训练的模型来对测试视频进行推断，因此在测试期间仅需要一次正向传递。6结论和未来工作在本文中，我们提出了一种新的弱监督TAL框架，以单次方式直接预测时间边界，并提出了一种新的OIC损失，以提供所需的段级监督。将来，将AutoLoc扩展到图像中的对象检测将是有趣的。补充细节见[59]。7确认我们感谢三菱电机对该项目的支持。AutoLoc：弱监督的时间动作定位15引用1. Activitynet挑战赛2016. http://activity-net.org/challenges/2016/（2016）2. Aggarwal，J.K. Ryoo，M.S.：人类活动分析：审查.在：ACM计算调查（2011）3. A sadi-A ghbolaghi，M.， CLAPES 亲爱的，M Escalante，H. J. Ponce-Lo'pez，V.， Bar´o，X.，我是古永岛， Kasaei，S.， Escalera，S. 本文提出了一种用于图像序列中的动作和姿势识别的基于自适应的方法。在：FG（2017）4. Bearman，A.，Russakovsky，O.，法拉利，V。，李菲菲：重点是什么：带有点监督的语义分割。In：ECCV（2016）5. Bilen，H.，Vedaldi，A.：弱监督深度检测网络见：CVPR（2016）6. Buch，S.，Escorcia，V.加尼姆湾Fei-Fei，L.尼布尔斯，J.C.：端到端，单流时间动作检测未修剪的视频。在：BMVC（2017）7. Buch，S.，Escorcia，V. Shen，C.，加尼姆湾尼布尔斯，J.C.：单流时间动作建议。在：CVPR（2017）8. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR（2017）9. 陈玉，Jin X冯杰，Yan，S.：训练具有特权信息的群正交神经网络。在：IJCAI（2017）10. 陈玉，Jin X康湾冯杰，Yan，S.：在深度神经网络中通过集体张量因式分解共享剩余单元。在：IJCAI（2018）11. 陈玉，Kalantidis，Y.，李杰，Yan，S.，Feng，J.：用于视频识别的多光纤网络。In：ECCV（2018）12. 陈玉，李杰，Xiao，H.，Jin XYan，S.，Feng，J.：双路径网络。In：NIPS（2017）13. Cheng，G.，Wan，Y.，美国，Saudagar，A.N.，Namuduri，K.，带扣， B.P. ： Advances in Human Action Recognition ： A Survey（2015），http://arxiv.org/abs/1501.0596414. Dai，X.，辛格湾张，G.，戴维斯，L.S.，Chen，Y.Q.：用于视频中活动定位的时间上下文网络。In：ICCV（2017）15. Dave，A.Russakovsky，O.，Ramanan，D.：用于动作检测的预测-校正网络在：CVPR（2017）16. 你说得对，T。G.，拉特赫罗普河H、 Lozano-P'erez，T. ：解决平行轴矩形的多重迭代问题（1997）17. Donahue ， J. ，洛杉矶的亨德里克斯 Guadarrama ， S.， Rohrbach ， M.，Venugopalan，S.，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。参见：CVPR（2015）18. Durand ， T. ， Mordan ， T. ， Thome ， N. 脐带， M. ： Wildcat ： WeaklySupervised Learning of Deep Convnets for Image Classification ， pointwiselocalization and segmenta- tion.在：CVPR（2017）19. Escorcia，V.海尔布隆足球俱乐部尼布尔斯，JC Ghanem，B.：Daps：用于行动理解的深度行动建议。In：ECCV（2016）20. 高，J.，Chen，K.，内华达河：Ctap：补充时间行动建议生成。ECCV（2018）21. 高，J.，杨志，内华达河：用于时间动作检测的级联边界回归在：BMVC（2017）22. 高，J.，杨志，孙角，澳-地Chen，K.，内华达河：Turn tap：用于时间动作建议的时间单位回归网络。In：ICCV（2017）23. Girshic

下载后可阅读完整内容，剩余1页未读，立即下载