弱监督定位完整性的多分支网络

93 浏览量更新于2023-10-17 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1298弱监督时态动作定位刘道长1，蒋婷婷1，王一舟1，2，31NELVT，北京大学EECS学院媒体网合作创新中心2鹏程实验室，3Deepwise AI实验室{daochang，ttjiang，yizhou.wang}@ pku.edu.cn摘要时间动作定位对于理解未修剪的视频至关重要。在这项工作中，我们首先确定了两个不足的问题，即动作完整性建模和动作上下文分离的时间动作本地化的弱监督。然后通过提出一种新的网络结构及其训练策略，对这两个问题进行了深入的研究。具体来说，为了对动作的完整性进行建模，我们提出了一个多分支神经网络，其中分支被强制发现独特的动作部分。因此，通过融合来自不同分支的激活，可以定位完整的激活。为了将动作实例与其周围的上下文分开，我们使用不动的视频片段不太可能是动作的先验来生成用于训练的硬否定数据。在数据集 THUMOS'14 和ActivityNet上进行的实验特别是，ActivityNet v1.2上的平均mAP从18.0%显著提高我们的代码将很快发布。1. 介绍时间动作定位是一项重要的视觉任务，在视频监控[42]、视频摘要[28]、技能评估[16]等方面具有潜在应用我们的目标不仅是预测动作标签，还包括来自未修剪视频的每个动作实例的开始和结束时间完全监督的时间动作定位最近取得了显着进展[39，48，15，9，37，51、47、8、2、31]。然而，精确地注释动作实例的时间范围是劳动密集型和耗时的，这破坏了真实世界大规模场景中的完全监督方法。因此，弱监督设置，其中只有视频级类别标签在训练期间可用，更实用，并引起越来越多的关注。这纸管用图1.这两个问题的说明上图：使用建议的多分支网络进行完整性分支被训练以发现不同的动作部分，使得可以使用分支上的平均激活来定位完整的动作a）足球点球的动作实例的地面实况。b）来自我们训练模型的一个分支的类激活序列（CAS），定位玩家射击部分。c）另一分支的CAS，定位球飞行部分。d）平均CAS，完全本地化实例。下图：使用硬负视频生成的上下文分离。e）台球的动作实例的地面实况。f）获得的背景剪辑，区分共同出现的上下文。右边是从相应颜色箭头的时间位置截取的四帧。最好用彩色观看。时间动作定位的研究大多数现有的弱监督方法[45，33，38，36，52]都属于多实例学习（MIL）[54]的框架。在这个框架中，视频被视为一个采样帧或片段的袋子，并送入视频级分类网络。然后使用类激活序列（CAS）[38]（每个动作的1D时间分类评分序列）对动作实例进行本地化与完全监督的时态动作定位相比，弱监督时态动作定位引入了两个新的挑战，即动作完整性建模和动作上下文分离。这两个问题以前没有得到很好的考虑，而且明显限制了每一个人的能力1299表演。第一个挑战是如何在没有完整注释的情况下完整地检测动作实例。动作本质上是基本子动作的时间组合[20]，这些子动作应该完全包括在预测中，没有遗漏。在完全监督设置中，动作是否完成直接从时间边界的基础事实中学习。相比之下，当弱监督时，细粒度注释的缺乏使完整性建模复杂化，因为本地化任务现在被公式化为视频级别上的分类。识别动作的一个片段对于视频级分类是足够的，但对于片段级定位是不够的例如，足球点球这个动作可以大致分为两个子动作，球员射门和球的飞行。仅在更有区分力的球员投篮部分上的激活足以对视频进行分类，但留下球飞行部分用于定位的假阴性。动作-上下文分离的第二个挑战是如何用弱标签将动作实例与它们的上下文区分开。同一类的动作实例通常被视觉上相似的剪辑包围，例如动作台球通常被评论剪辑包围，屏幕中有一个静态台球桌。在大多数视频中，这样的片段与真实的动作一起出现，因此在本文中被称为上下文。上下文剪辑在视频中的分布方面不同于普通背景剪辑。背景片段在大多数情况下与真实动作共现，并且不涉及其他动作类别的视频，而背景片段是类独立的并且随机分布。出于这个原因，上下文剪辑可以被视为硬底片。视频级分类器学习具有相同标签的视频之间的相关性并发现它们的共同内容，不幸的是，这些内容不仅包括共同动作（例如，台球），但也有共同的上下文（例如，静态台球桌）。我们认为，行动背景分离是天生的困难与弱监督，除非采用的先验知识的行动。针对这两个问题，我们分别提出了一种多分支网络结构和一种硬否定数据生成方案。为了对动作完整性进行建模，从输入视频中提取的特征序列被并行地馈送到具有多个分类分支的网络中。设计多样性损失以确保由不同分支输出的类激活序列之间的不相似性，使得每个分支被训练以定位动作的不同部分如图所示1，可以通过聚合来自多个分支的激活来检索完整的类激活，然后汇集随着时间的推移与时间的注意力，产生一个视频级的类别分布。我们计算它的交叉熵与地面真理，即，标准MIL损失，其与分集损失一起被最小化以学习网络参数。对于动作上下文分离，我们提出了一个简单而有效的方法，有效的策略，挖掘硬否定使用的先验，行动应该是运动。我们在训练视频中搜索静止的剪辑，如图所示。1.然后使用静态剪辑生成伪视频，并使用新的背景类进行标记。这样的策略可以帮助模型拒绝公共上下文，只要生成的伪视频中包含一些硬底片在两个基准数据集THUMOS'14 [21]和ActivityNet [6]上总之，我们的贡献有三方面：1）提出了一种具有多样性损失的多分支网络模型来描述动作完备性。2)设计了一种硬否定视频生成方案，分离了公共上下文。3）我们的方法在以下方面取得了优异的结果：两个基准数据集。2. 相关作品裁剪视频上的动作识别在过去已经被广泛研究早期的方法主要是基于手工制作的功能[26，43，34]。近年来，已经提出了各种深度网络，例如双流网络[40，46]，LSTM [12]，3D ConvNets [41]，I3D[7]等[23，44，53]。请参阅最近的调查[1，3，22，19]详细说明。完全监督的时间动作定位方法主要基于建议加分类范式[39，37，51，15，5，9，47，8，31]，其中首先生成时间建议，然后进行分类。也研究了其他类别的方法，例如基于单次检测器[4，30]或顺序决策过程[48，2]的方法。给定完整的注释，提案加分类方法通常通过二元动作性分类器在提案阶段过滤掉共同的上下文。对于完备性模型，Zhaoet al. [51]使用了结构化的时间金字塔池，然后是显式的二元分类器来确定实例是否完整。Hou等人[20]将动作的视频片段聚类为不同的子动作，然后将整个动作检测为有序的子动作序列。Yuan等[49]把一个动作分成三个部分，即：开始，中间和结束，来模拟它的时间演变。但它们都需要完整的注释。关于时空动作检测[17]和视频时间分割[27]的其他工作超出了我们的范围。弱监督时间动作定位算法大多属于多示例学习(MIL)[54]第 54 段。 Wang 等人 [45] 提出了一个名为UntrimmedNet的框架，由分类模块和选择模块组成，基于此，稀疏正则化后来在[33]中引入。Paul等[36]使用协同相似性损失来加强同一类的本地化实例之间的特征相似性。而不是1300图2. 概述体系结构。多分支网络由特征提取模块、特征嵌入模块、多分支分类模块和时间注意模块组成。在分类模块中，利用多样性损失训练多个分支，以发现不同的动作部分。在CAS上进行阈值处理，AutoLoc [38]直接预测时间边界以检测动作。关于第一个挑战，有两个先前的工作，试图模型动作的完整性。Hide-and-Seek [25]在训练时隐藏随机帧序列，以迫使网络响应多个相关部分。然而，随机隐藏帧并不总是保证发现新的部分，也会破坏训练过程。最近，Zhonget al. [52]通过从输入视频中删除前任分类器的预测，迭代地训练一系列分类器以找到互补片段这种方法的主要缺点是训练多个分类器的额外时间成本和动作-语境分离的另一个挑战本质上是棘手的，在文献中尚未探索。UntrimmedNet[45]中的选择模块旨在消除不相关的背景片段，而不是语义相关的上下文。研究人员还研究了其他类型弱监督的动作本地化，例如电影脚本[13]，有序动作列表[11]和Web图像[14]。多样性损失最初被引入文本嵌入[32]，以提取句子的不同方面再-cently，Liet al. [29]利用多样性损失来处理遮挡问题。与以往的工作不同，我们使用多样性损失模型的动作完全性，这是不同的规格和动机。3. 该方法在本节中，我们提出了弱监督时间动作定位的方法输入是具有不同帧长度的未修剪视频设独热向量yP t0，1uC`1表示地面实况视频级类别标签，其中C是动作类的数量，并且C` 1表示新添加的背景类。在测试时间期间，每个测试视频的输出是一组局部动作实例tpsi，ei，ci，qiqu，其中si和e i表示第i次检测的开始时间和结束时间，c i表示预测类别，q i表示置信度得分。3.1. 硬负视频生成弱监督模型倾向于将真实动作与其周围的上下文相混淆，即。硬否定，特别是当上下文出现在该类的大多数视频中时。我们观察到，正是运动使一个动作不同于它的背景。动作必须涉及人或其他主体的移动，而上下文剪辑被允许保持静态（例如，静态台球桌）。因此，我们使用固定的视频剪辑生成硬负训练数据，用新的背景类标记它们具体地说，对于训练集中的每个视频，我们使用TV-L1算法[50]计算其光流，并对每帧中的强度进行由于动作类别之间的运动幅度不同，甚至一些动作表现出微小的运动，因此从每个视频中单独挑选出具有最低光流强度的视频帧的小的预定义百分比-年龄ρ然后，从同一视频中挑选的帧被连接成一个伪视频，该伪视频被标记为背景类并添加到训练集。我们希望生成的视频部分-13012CLSCLS基本上包括提议的网络的硬否定和丢弃提示，以处理动作上下文分离的挑战。补充材料中提供了详细信息和生成的视频示例。3.2. 多分支网络为了对动作完整性建模，一个多分支网络以表明它已经经历了softmax。对于动作完整性建模，我们期望来自多个分支的CAS彼此不同。然而，如果没有约束，分支可以懒惰地集中在一个单一的相同的行动部分。为了避免分支给出相同结果的这种退化情况，基于余弦相似性的多样性损失被施加在CAS上：它的设计是这样的，每个分支侧重于不同的交流-1C'1K'1KAi？Aj部件。如图2、建议多分支网络由特征提取模块、嵌入模块、多分支分类模块和LdivZcx，cx，ci（四）时间注意力模块，具体如下。特征提取模块。给定输入视频，首先通过预先训练的深度网络提取片段式特征序列XPRTD，其中T表示片段的数量，D表示特征维度。提取的特征序列提供了输入视频的外观和运动的高级表示，并被馈送到网络中的下一层注意，T和D取决于特征提取网络的选择在这是来自ev的CAS之间的余弦相似性每两个分支，在所有分支对和动作类别上平均A ix，cPRT表示来自第i个分支的类别c的激活序列，Z“1 Kp K ′ 1 qp C ` 1 q是归一化因子。通过最小化这种多样性损失，鼓励分支在不同的作用部分上产生激活。然后，来自多个分支的CAS被平均，并沿着类别维度通过softmax实验，我们专注于两个现成的模型，即AavgK阿k（5）[45]和I3D [7]。嵌入模块。特征提取模块之后是嵌入模块。由于这些特征最初可能不是针对弱监督动作局部化进行训练的，因此需要特定于任务的特征嵌入。我们利用一个时间卷积层，然后是一个ReLU激活层来嵌入特征：φpXqbemb是时间滤波器的权重和偏置，φpXq PRT<$F表示学习的嵌入，F是滤波器的数量。时间卷积集成了来自相邻时间位置的信息，使网络能够捕获时间结构。然后将嵌入的特征序列传递到后续层。多分支分类模块。在这个模块中，K个分类分支被并行组织，以发现动作的互补部分。每个分支输入将特征序列嵌入到时间卷积层中，并输出分类分数的序列：k其中Aavg第此外，softmax操作在背景类的分数较大时抑制动作类的激活，从而减少上下文剪辑上的误报。我们根据经验注意到，来自某些分支的Ak往往几乎全为零，而来自其他分支的A k则爆炸，这可能会破坏训练过程。更重要的是，如果一个分支占主导地位，平均CAS有效地响应单个动作部分，而不是整个动作。从另一个角度来看，这些平行的分支可以被认为是处于对抗关系，彼此竞争以找到不同的区分动作段。预计各分支机构将保持平衡，具有可比的实力。类似的想法可以在生成对抗网络的训练策略中看到[18]。因此，我们在没有softmax的原始得分序列的范数上引入另一个正则化项：AkφpXq`bk（二）1C`1KCLS其中AkPRTpC`1q，WkBKCLS分别是L范数KpC`1 qcAix，c} ′}Aavgx，c}（7）第k分支中的分类分数、过滤器权重和过滤器偏差。然后，每个Ak沿着类别维度通过softmax，在每个时间位置产生类分布Ak其中Ak被称为类激活序列（CAS）。为了清楚起见，我们在本文中使用条形符号它是偏离Aavg的范数，在分支和类别上平均。多分支设计具有多样性损失和范数正则化的特点，可以在不完全监督的情况下发现不同的动作部分，从而对动作的完整性进行建模。暂时注意力模块。由于输入视频是未经修剪的，包含不相关的背景，我们使用时间注意力模块来学习的重要性，K1302视频片段注意力模块将嵌入的特征序列馈送到时间卷积层中，随后是沿着时间维度的softmax：t m ax p W a tt φ p X q ` b a t t q的U其中，Watt和batt是时间滤波器的权重参数和偏置，并且UPRT表示学习的类不可知注意力的序列。为了获得视频级分类预测，我们沿着类别维度对由注意力加权的Aavg电子邮件pt其中pPRC`1是包括背景类在内的动作类上的概率分布。那么它与地面事实的交叉熵，即，计算标准MIL损失：C组1Lmilc最后，我们将MIL损失与多样性损失和范数正则化相结合Lsum其中α和β是系数。所有三个分量至少具有子梯度，并且可以使用梯度下降来最小化3.3. 动作本地化在测试过程中，我们利用训练好的多分支网络对测试视频进行分类和动作定位。由于多个类别的动作可以发生在一个视频中，我们首先阈值的视频级分类分数。给定一个测试视频，我们检测每个非背景类别c的动作实例，其中pc大于0。1.一、然后，我们对c类的平均CAS进行阈值，即，一个avg x，c，用于本地化操作实例. 设tpsi，ei，c，qiqu表示相应的输出检测。与[38]中提出的外-内-对比损失类似，我们使用实例本身及其周围区域的平均激活之间的对比度对每个局部实例进行评分：qi4. 实验在本节中，我们首先讨论数据集和我们的实现细节。然后，提出的方法和国家的最先进的方法之间的比较。最后，我们通过消融研究来检验每个模型组件的影响。在补充资料中，报告了更多的实验结果。4.1. 数据集在两个大规模基准上进行了广泛的实验：THUMOS'14 [21]和ActivityNet [6]。两个数据集中的视频都是未经修剪的，只有视频级别的类别标签用于训练。THUMOS'14. 包括20个动作类的THUMOS'14的子集被提供有时间注释并用于本地化任务。按照之前的约定，我们使用200个视频的验证集进行训练-ing和213个视频的测试集进行评估。根据训练数据，生成152个硬负视频1这个数据集每个视频有大量的动作实例，视频的长度变化很大。ActivityNet. 实验在两个版本的ActivityNet上进行。ActivityNet1.3涵盖200个动作类，包括10，024个培训视频，4，926个验证视频和5，044个测试视频，7323个硬使用训练视频生成的负面视频。我们在训练集上进行训练，并在验证集和测试集上报告结果。为了便于比较，我们还在ActivityNet1.2上进行了评估，这是1.3版本的一个子集在ActivityNet1.2上生成了3469个硬底片视频。我们使用训练集进行训练，使用验证集进行评估。评估指标。我们按照标准评估-测定方案和报告平均精密度（mAP）在不同阈值的时间交集超过联合（IoU）。使用数据集提供THUMOS'14上的所有结果Activi-tyNet 1. 3测试集上的性能通过将结果提交给评估服务器获得。4.2. 实现细节两个具有双流架构的深度网络被尝试用于特征提取，即UntrimmedNet [45]和I3D [7]，它们在训练期间被预先训练和固定minnermouuter（十二）ing. UntrimmedNet在ImageNet上进行了预训练[10]，并将1个RGB帧和5个堆叠光流帧的视频片段作为输入。I3D是在Kinetics上预先训练的[7]，其中，r？s表示连接，li表示“iq{4}是将不重叠的16帧块作为输入，两条溪流。视频片段每15帧充气长度视频级分数pc被组合为：与系数γ。1详情请参阅补充资料。1303监督方法阈值法0.10.20.30.40.50.60.7平均值（0.1：0.5）充分S-CNN [39]，CVPR 201647.743.536.328.719.0-5.335.0充分R-C3D [47]，ICCV 201754.551.544.835.628.9--43.1充分SSN [51]，ICCV 201760.356.250.640.829.1--47.4充分Chao等人[8]，CVPR 201859.857.153.248.542.833.820.852.3弱《捉迷藏》[25]，ICCV 201736.427.819.512.76.8--20.6弱UntrimmedNet [45]，CVPR 201744.437.728.221.113.7--29.0弱Zhong等[52]，ACM MM 201845.839.031.122.515.9--30.9弱STPN（UNT）[33]，CVPR 201845.338.831.123.516.29.85.131.0弱W-TALC（UNT）[36]，ECCV 201849.042.832.026.018.8-6.233.7弱AutoLoc（UNT）[38]，ECCV 2018--35.829.021.213.45.8-弱我们的（UNT），完整53.546.837.529.119.912.36.037.4弱STPN（I3D）[33]，CVPR 201852.044.735.525.816.99.94.335.0弱W-TALC（I3D）[36]，ECCV 201855.249.640.131.122.8-7.639.8弱我们的（I3D），完整版57.450.841.232.123.115.07.040.9表1.THUMOS'14测试集的结果报告了不同IoU阈值下的mAP值，AVG列表示IoU阈值从0.1到0.5的平均mAPUNT和I3D分别是UntrimmedNet features和I3D features的缩写通过UntrimmedNet和I3D功能，我们的完整模型在大多数IoU上的性能优于最先进的方法。验证测试方法约乌0.50.750.95AVGAVG[33]第十三届全国政协委员29.316.92.6-20.1我们的（I3D）34.020.95.721.223.1表2. ActivityNet1.2验证集上的结果。列AVG指示IoU阈值0.5：0.05：0.95处的平均mAP。所提出的方法大大超过了以前的方法。对于UntrimmedNet，每16帧为I3D。两个网络的每个流的特征维数都是1024。对于UntrimmedNet，我们采用RGB和光流流的早期融合，对于I3D，我们采用后期融合。所提出的方法是用PyTorch实现的[35]。网络参数使用带有Adam优化器的小批量随机梯度下降来学习[24]。在多分支分类模块中，分支数设置为K时间卷积的核大小在分类模块中设置为3，在嵌入模块和注意模块中设置为1。嵌入特征的尺寸设置为F方程中的系数α和β(11)在等式中均设置为0.2和γ(12)设定为0.25。硬负开采的选择比ρ其他细节见补充材料。4.3. 与最新技术水平的比较在THUMOS'14测试集上的实验结果如表1所示。我们提出的多分支网络以及硬否定挖掘与现有的弱监督时间动作定位方法以及几种完全监督的方法进行了比较。我们的模型最多优于以前的弱监督方法表3. ActivityNet1.3上的结果。列AVG指示IoU阈值0.5：0.05：0.95处的平均mAP。我们的方法也取得了优异的性能。IoU阈值与特征提取网络的选择无关由于观察到我们的模型有时会产生过度完整的实例，导致误报，因此在较高的IoU下，收益并不显著。请注意，AutoLoc [38]回归了局部化的时间动作边界，因此在较高的IoU阈值下获得较高的mAP，而我们仅对CAS进行阈值处理，仍然获得了相当的结果。我们认为，他们的方法和我们可以进一步提高性能，如果结合起来。表2列出了ActivityNet1.2验证集的结果在这个大数据集的两个版本上，所提出的方法显著优于最先进的方法，验证了处理动作完整性建模和上下文分离的有效性4.4. 消融研究为了分析每个模型组件的贡献，我们进行了一组消融研究，THU- MOS 14测试集的结果如表4所示。我们的最佳模型与基线和其他配置进行比较，其中删除了以下每个组件：1）多分支设计; 2）硬负生成; 3）多样性损失和范数正则化; 4）仅范数正则化;方法约乌0.50.750.95AVGZhong等[五十二]27.314.72.915.6[38]第38话27.315.13.316.0我们的（UNT）33.919.95.120.5W-TALC（I3D）[36]37.0--18.0我们的（I3D）36.822.05.622.41304方法平均值（0.1：0.5）我们的（UNT），单个+Lmil（基线）28.8我们的（UNT），单通道+Lmil+ HN32.7我们的（UNT），多个+L总和34.8我们的（UNT），多个+Lmil+ HN34.7我们的（UNT），多个+Lmil+Ldiv+ HN35.6我们的（UNT），多个+L总和+ HN（无TA）36.3我们的（UNT），多个+L总和+ HN（完整）37.4表4. THUMOS 14测试集的消融研究结果。‘Sin- gle’ and‘Multiple’ indicate the number of branches in the classi- ficationmodule, and ‘HN’ denotes that hard negative videos are used图3. 左：分支编号的实验。右：多样性减肥实验.报告了IoU阈值为0.1至0.5时的平均mAP图4.具有不同分支编号的类特定结果最佳分支数取决于动作的复杂度。左：Shotput的结果。右：悬崖跳水的结果。报告了IoU阈值为0.1至0.5时的平均mAP比百分之十五百分之二十百分之二十五百分之三十AVG32.433.332.732.8表5.选择比ρ对硬岩负开采的影响AVG表示IoU阈值为0.1至0.5时的平均mAPporal注意模块。结果表明，要使系统达到最佳性能，需要所有这些部件，其中多支路设计尤为重要。此外，我们使用UntrimmedNet特征进行实验，研究分支数、多样性损失权重以及选择率对硬否定挖掘的影响分行编号。对比实验是根据-在分支号上形成，其中分支号K从1变为8。为了避免在测试数据上调整参数，我们在THUMOS的14个验证集上进行了这个实验用于训练的那个。如图所示的结果。3、所有多分支模型均明显优于单分支模型，2 ~ 8分支模型间差异不显著。由于动作的复杂性在类别之间变化，因此每个动作类的最佳分支数可能不同。如图所示的例子。4、复杂的动作如Shotput由更多的部分组成，因此需要更大的分支数量，而简单的动作如悬崖跳水的结构只需要两个分支就可以捕获。多样性的损失。另一个关于多样性损失权重的比较实验是在THU-MOS '14验证集上进行的，结果在图中公布。3. 以来范数正则化和分集损失用于联合约束多个分支，系数α和β被设置为相同的变化值。实验表明，当多样性损失权重大于0.2时，该模型对多样性损失权重不敏感，证明了该方法的鲁棒性。硬负开采中的选择比在选择静态跳转由于硬阴性视频是从确认集生成的，因此本实验在THU-MOS '14测试集上进行。单分支模型产生的结果如表5所示，其在不同比率下稳定4.5. 定性结果我们在图中绘制了几个有趣的局部化动作和相应的CAS的例子。5.从质量上显示解决这两个挑战的有效性。示例来自使用UntrimmedNet功能的THUMOS在跳水的第一个示例中，红色边界框中显示的未完成动作，例如仅包含“入水”部分的动作和仅包含“站在平台上”部分的动作，由单个分支发现，但由于不完整而被排除在最终预测之外。在台球的第二个例子中，语义上类似于真实动作（粉红色框）的评论剪辑（黄色框）使用硬否定生成被有效地过滤掉。在跳高的第三个例子中，来自多个分支的CAS非常多样化，定位不同的动作部分。5. 讨论和未来工作我们设计了一个简单而有效的数据生成方案来分离动作上下文，而背后的假设可能并不适用于所有情况。我们发现它的效果与动作类密切在未来，更先进的技术，如生成式对抗网络，可以应用于挖掘更深层次的硬否定。至于动作完整性建模，1305图5.三个预测的例子每种情况下的八个条形码分别是：1）动作实例的基本事实2）基线模型的预测，即，没有硬负生成的单分支网络3）我们完整模型的预测4）我们完整模型的平均CAS上：潜水。不完整的动作（红框）只激活单个分支，因此被平均CAS排除。中：台球。所提出的方法专注于真实的动作（粉红色的盒子）和语义相似的上下文（黄色的盒子）的误报减少。下一篇：HighJump在所有示例中，每个分支输出不同的CAS。所提出的多分支模块以无监督的方式自动发现动作部分。在实践中，学习的动作部分可能不完全对应于语义上有意义的子动作。相反，模型可以捕获不同的动作模式、方面、阶段或其他底层结构，这取决于哪种表示对学习目标最有利。沿着将动作划分为部分的关键思想，对于弱监督的时间动作定位，可能存在许多潜在的未来方向，包括但不限于1）使用学习的部分表示来理解动作或测量动作复杂性2）对动作部分的时间配置进行建模3）分层地表示动作以处理歧义或主观注释偏差。6. 结论在这项工作中，我们确定了时间动作本地化的弱监督所带来的两个挑战，即动作完整性建模和动作上下文分离。为了解决第一个问题，提出了一个多分支网络来发现不同的动作部分，从而在它们的完整性中定位动作实例。与此同时，我们挖掘了硬否定来处理第二个问题，即动作-上下文分离。在两个基准测试上的实验表明，我们的框架有效地解决了这两个问题，并优于最先进的方法。谢谢。本研究得到了国家基础研究计划（973计划）项目 2015CB351803 和国家自然科学基金项目61572042、61527804、61625201的部分支持。我们感谢北京大学高性能计算平台感谢黄静佳提供光流数据。1306引用[1] Jake K Aggarwal和Michael S Ryoo。人类活动分析综述.ACM Computing Surveys（CSUR），43（3）：16，2011.[2] Humam Alwassel，Fabian Caba Heilbron，and BernardGhanem.行动搜索：发现视频中的动作及其在时间动作定位中的应用。在欧洲计算机视觉会议（ECCV），2018年9月。[3] Maryam Asadi-Aghbolaghi 、 Albert Clapes 、 MarcoBellanto-nio 、 HugoJairEscalante 、 V'ıctorPonce-Lo' pez 、Xa vierBaro' 、 Isabelle Guyon 、 Shohreh Kasaei 和 SergioEscalera。基于深度学习的图像序列动作和手势识别方法综述在自动人脸识别（FG 2017）中，2017年第12届IEEE国际会议，第476-483页。IEEE，2017年。[4] S Buch ， V Escorcia ， B Ghanem ， L Fei-Fei 和 JCNiebles。端到端、单流、未修剪视频中的时间动作英国机器视觉会议（BMVC），2017年。[5] Fabian Caba Heilbron、Wayner Barrios、Victor Escorcia和Bernard Ghanem。SCC：语义上下文级联，用于有效的动作检测。在IEEE计算机视觉和模式识别会议，2017年7月。[6] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。ActivityNet：人类活动理解的大规模视频基准。 IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[7] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，2017年7月。[8] 放大图片作者：赵玉伟， SudheendraVijayanarasimhan，Bryan Sey- bold，David A. Ross，JiaDeng，and Rahul Sukthankar.重新思考用于时间动作定位的Faster R-CNN架构。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[9] 戴希阳，巴拉特·辛格，张古月，Larry S.戴维斯和严秋晨。用于视频中2017年10月在IEEE计算机视觉国际上发表[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248-255页。IEEE，2009年。[11] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在IEEE计算机视觉和模式识别会议上，2018年6月。[12] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[13] Olivier Duchenne ， Ivan Laptev ， Josef Sivic ， FrancisBach，and Jean Ponce.中人类行为的自动注释视频. IEEEInternational Conference on Computer Vision（ICCV），第1491-1498页。IEEE，2009年。[14] Chuang Gan，Chen Sun，Lixin Duan，and Boqing Gong.通过对相关网络图像和网络视频帧进行相互投票的网络监督视频识别。在欧洲计算机视觉会议（ECCV）中，第849- 866页。施普林格，2016年。[15] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检测的级联边界回归。2017年英国机器视觉会议（BMVC）的开幕式上。[16] Yixin Gao，S Swaroop Vedula，Carol E Reiley，NargesAh-midi ， Balakrishnan Varadarajan ， Henry C Lin ，Lingling Tao ， LucaZappella ， BenjamınBe´ja r ， D avidDYuh ， etal. JHU-ISI 手势和技能评估工作集（JIGSAWS）：用于人体运动建模的在MIC- CAI工作坊中：M2 CAI，第3卷，第3页，2014年。[17] Georgia Gkioxari和Jitendra Malik。找活动管。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NIPS），第2672- 2680页，2014年[19] Samitha Herath、Mehrtash Harandi和Fatih Porikli。深入到行动识别：一个调查。Image and Vision Computing，60：4[20] Rui Hou，Rahul Sukthankar，and Mubarak Shah.基于子动作发现的未裁剪视频中实时动作定位。在英国机器视觉会议（BMVC）的会议记录中，第2卷，第7页，2017年。[21] Haroon Idrees ， Amir R Zamir ， Yu-Gang Jiang ， AlexGorban，Ivan Laptev，Rahul Sukthankar，and MubarakShah.thumos挑战视频动作识别“在野外”。计算机视觉和图像理解，155：1[22] Soo Min Kang和Richard P Wildes。动作识别与检测方法综述。arXiv预印本arXiv：1610.06906，2016。[23] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月。[24] Diederik P Kingma和Jimmy Ba。 Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。[25] Krishna Kumar Singh和Yong Jae Lee。捉迷藏：迫使网络对弱监督的对象和动作定位进行细致的处理。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表[26] 伊万·拉普捷夫关于时空兴趣点。International Journal ofComputer Vision，64（2-3）：107[27] 主演：Michael D.Flynn，Rene Vidal，Austin Reiter，and Gregory D.海格用于动作分割和检测的时间卷积网络在IEEE会议上1307计算机视觉和模式识别（CVPR），2017年7月。[28] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。在IEEE计算机视觉和模式识别会议中，第1346-1353页IEEE，2012。[29] Shuang Li ，Slawomir Bak ，Peter Carr，and XiaogangWang.基于视频的人再识别的多样性正则化时空注意。在IEEE会议上计算机视觉和模式识别（CVPR），2018年6月。[30] 林天威，赵旭，郑寿。单次瞬时动作检测。2017年ACM多媒体会议论文集，第988-996页。ACM，2017。[31] 林天威，赵旭，苏海生，王崇景，杨明。BSN：用于临时行动建议生成的边界敏感网络。在欧洲计算机视觉会议（ECCV），2018年9月。[32] Zhouhan Lin ， Minwei Feng ， Cicero Nogueira dosSantos，Mo Yu，Bing Xiang，and Yoshua Bengio.一个结构化的自我关注的句子嵌入。arXiv预印本arXiv：1703.03130，2017.[33] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan。基于稀疏时间池网络的弱监督动作定位。在IEE

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

弱监督定位完整性的多分支网络

多输入卷积神经网络与多分支神经网络的对比

你能提供多分支孪生网络实例吗

多分支企业网络的设计与实现

单分支网络指的就是一条支路的网络吗

机器学习中的单分支神经网络指的就是一条支路的网络吗，双分支神经网络的优点是什么

定位到代码的分支、参数需要哪些步骤

双分支网络分割医学图像

多分支transformer模型

双分支的卷积神经网络比单分支的卷积神经网络耗费时间

DBMA光谱分支和空间分支

辨析单分支二分支与多分支

写一维多分支多尺度卷积神经网络代码keras

多分支神经网络训练不平衡怎样解决

你能提供多分支孪生网络实例应用的链接吗

设计一个带有辅助训练分支的图像语义分割网络

vscode 分支提交 合并分支

双分支CNN卷积神经网络

asic分支和sim分支

基于 Transformer 编码的多层次甲状腺结节特征融合网络使用了哪种特征融合方式来融合全局分支和局部分支的特征

最新资源

vscode 分支提交合并分支