ActionBytes学习修剪视频以本地化操作

103 浏览量更新于2023-10-25 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1ActionBytes：学习修剪视频以本地化操作Mihir Jain1岁，Amir Ghodrati1岁，Cees G. M. Snoek21Qualcomm AI Research†，Qualcomm Technologies NetherlandsB.V.2阿姆斯特丹大学QUVA实验室mijain@qti.qualcomm.comghodrati@qti.qualcomm.comcgmsnoek@uva.nl摘要培训测试本文处理的问题，本地化的行动，在长的未修剪的视频。与现有的作品不同，这些作品在训练过程中都使用注释的未修剪视频，我们只从短的修剪视频中学习。这使得能够从最初设计用于修剪视频数据集操作类查询动作分类我们提出了一种训练动作定位网络的方法，该网络将视频分割成可解释的片段，我们称之为视频分割。我们的方法联合学习聚类算法，并使用聚类分配作为伪标签来训练局部化网络。通过这样做，我们在经过修剪的短视频上进行训练，这些视频将成为未经修剪的视频。在单独或合并时，这些措施也可作为有效的行动方案。实验表明，我们的边界引导训练可以推广到未知的动作类，并在Thumos14，MultiThumos和ActivityNet1.2的长视频中本地化动作此外，我们还展示了零镜头定位和传统弱监督定位的优势，这些定位在长视频上进行训练，以实现最先进的结果。1. 介绍本文的目标是确定一个长的未修剪的视频中的每个动作实例的开始，结束和类。最先进的动作定位方法是在未经修剪的视频上滑动经过训练的模型，以随着时间的推移产生分类分数序列[5，18，40]。它们依赖于训练时的开始、结束和动作类标签弱监督方法[28，32，34]已经证明，即使在长的未经修剪的训练视频仅带有动作类标签时，这种方法也有效。与所有这些工作不同的是，我们将通过从仅标记其action类的短修剪视频中学习来定位长未修剪视频中的动作实例。平等贡献†Qualcomm AI Research是Qualcomm Technologies，Inc.图1：从短的，修剪的视频，我们学会了本地化的行动，在长的，未经修剪的视频。在训练过程中，我们的方法联合学习从Action中生成伪标签，并将它们定位在短视频中。在测试过程中，我们的本地化模型检测未修剪视频中的查询动作类的实例。修剪过的短视频非常受欢迎，并且易于访问以进行动作分类。这个领域的数据集包含大量的样本和标签[3，4，8，24]。例如，Kinetics-700 [3]有近650k的修剪过的短视频剪辑，分为多达700个动作类。在这项工作中，我们利用通常用于动作分类的数据集，什么，处理动作本地化的任务，什么时候。这为以下方面1)从具有更多动作类的较大数据集学习，以及2）通过在修剪和未修剪的视频数据集之间传递知识来定位未知类。然而，在训练过程中只提供简短的修剪视频几乎没有机会学习动作边界。为了克服这个限制，我们采用了一种自监督的方法来正则化我们的网络来学习边界感知模型。具体来说，我们使用CNN模型的中间层将修剪后的视频分解为多个原子动作，称为修剪。从这些我们生成伪标签来训练CNN在视频中定位视频这个模型可以用来提取一组新的标签，所以我们在更新标签和使用新的伪标签训练本地化模型之间进行切换给定一个较长的测试视频，我们将训练好的模型滑动到它上面，为查询动作生成一个分类分数序列，从而定位它的实例，参见图1。1171在长视频中本地化动作0生成100字节伪标签列车定位模型知识转移…1172i=1i=1我们在这篇论文中做了三个贡献。首先，我们定义了What2When，这是一个使用常用于动作分类的短修剪视频来定位长未修剪视频中的动作的任务。其次，我们引入Action-：可解释的、时间尺度不变的视频片段，能够发现动作的部分。第三，我们提出了一种迭代方法，用于从短视频中训练边界感知模型。我们通过实验证明了我们的方法在Thumos 14 [10]，MultiThu-mos [38]和ActivityNet [1]上的有效性。由于我们的方法将动作类知识从修剪的视频转移到未修剪的视频中，因此它非常适合零镜头应用程序。我们在零拍摄场景中评估我们的模型，其中短修剪训练视频和长未修剪测试视频的标签集是不相交的。最后，我们在弱监督动作定位任务上进行了实验。虽然我们的方法不是为从长视频中学习而设计的，但我们展示了将视频作为行动建议的好处，以获得与最先进技术相一致的良好性能。2. 相关工作从短视频学习以定位长视频中的动作的问题涉及视频中的多个识别任务中层代表。一些工作已经提出了通过将动作分割成原子动作来自动发现中级表示的方法[9，15，33]。Lan等人[15]通过以下方式聚类时空片段。这是在每个类的基础上完成的.在[6，9]中，作者自动获得有意义的动作片段，但他们需要时间动作符号来这样做。或者，[39]也使用了动作的一部分，但利用了它们的有序方式。与上述所有方法不同，我们的学习器是类不可知的，这使得它们适合将知识转移到看不见的类的视频。伪标记。最近，自监督方法已经被提出用于表示学习中的伪标记数据[2]，用于半监督学习的标签传播[11]和语义分割[16]。这一行依赖于聚类来从未标记的数据创建伪标签。我们还在训练过程中为每个视频生成伪标签，但出于不同的目的，我们使用它们来正则化我们的定位模型，使其对边界敏感。自我训练。我们的方法也可以被认为是应用于视频域的自训练过程，并适用于What2When任务中的本地化。它不同于其他自我训练方法[17，29，42]在许多方面方式，但主要是因为伪标签是在子视频级别生成的，并且被正则化以用于定位。具有较弱的监督形式，例如视频级标签。UntrimmedNets [34]和STPN [26]将弱监督动作定位制定为多实例学习问题，同时注意定位视频中的动作。AutoLoc [32]引入了一个基于外-内-收缩损失的边界预测器。W-TALC [28]介绍了一种协同活动相似性损失，该损失在包含共同动作类的一对视频中寻找相似的时间区域。Nguyen等人[27]提出对前景和背景进行建模，而[39]则利用视频片段之间的时间关系。所有这些方法都依赖于长视频中存在多个动作来学习区分前景动作和背景动作。不同的是，我们提出了一种方法来学习动作边界从短视频通过我们的字节挖掘。零射击学习许多零次和少次学习的方法都集中在可见和不可见类之间的数据集内分裂[7，14，19，37]。当其他人试图交叉数据集动作识别[12，20，41]，其中一些仅从图像域学习以识别视频中的动作[12，20]。为了避免跨数据集使用公共类，Roitberget al.[30]通过过滤源和目标之间非常相似的类来进行评估。零触发学习中的常见做法是通过语义嵌入空间（例如属性、词向量或视觉特征）来传递其中，词向量已被优选，因为仅需要类别名称来构造语义嵌入空间。在本文中，我们还采用词嵌入映射源类到目标类，同时精确地遵循零射击制度。3. 方法在本节中，我们将解释我们提出的方法，该方法从短的修剪视频中学习，以在长的未修剪视频中暂时定位我们首先正式定义了What2When动作本地化的问题。然后，我们解释图2所示的方法及其组成部分。我们首先介绍我们的方法的基本构建块，并解释如何从视频中提取它们。接下来，我们将解释我们的两步迭代管道，该管道利用自训练的方式在短视频上训练本地化模型。最后，我们讨论了潜在的视频本地化的背景下，作为行动建议本身问题陈述。给定一个长的测试视频，我们的目标是预测该视频中存在的一组动作类别，以及它们的开始和结束时间。在训练过程中，一组n短的单动作视频x短 ={xi}n是假定每个视频x具有单个标签c，属于将集合C标记为短={ci}nc . 在测试过程中，监督不力最近，在-未修剪的视频长x ={x′}n′，其中，对于每个i i=1对开发可以训练的模型的兴趣增加视频x′，目标是找到所有动作的边界，117300#集群第1第1.聚类0...字节提取你你however，伪标签培训本地化模式操作类标签修剪视频数据集…不字节提取分类损失潜伏投射层L线性分类器定位损失不DeepCNNL转移层分类损失操作类标签伪标签t=1100100−p1101..1…不剪辑视频数据集DeepCNN字节挖掘图2：建议的挖掘管道将视频分割成视频。然后，这些被聚类并被分配伪标签，伪标签被用作监督信号以训练定位模型。Action类标签来自Cshort。立场，并从标签中预测它们的类别标签c′n′设C长={c′}c。在本文中，除非另有明确规定-i i=1明智地说，我们在x短时间内训练，在x长时间内评估。3.1. however，众所周知，从CNN中提取的连续帧的高级特征通常随时间平滑变化[13，35]。因此，特征空间中的任何突然变化都我们利用这个属性将视频分割成可解释的片段，我们称之为片段。假设F={ft}T是针对每个时刻t使用深度模型表示的d维特征，其中T是时间序列长度。我们学习使用潜在投影模块将这些特征映射到潜在空间潜在投影模块的输出L∈Rl×T在每个时刻保持与l个潜在概念的亲和性（图3）。对于一个给定的视频，我们通过寻找与潜在概念的亲和力与前一时刻相比突然变化的时刻来找到100字节边界BΣlB={t|t：|L[i，t]−L[i，t−1]|>τ}（1）i=1其中，τ被设置为第p个百分位数，因此视频中的动作-重复的数量与其长度T成正比。一般来说，第p个百分位数会导致T×100−p。每一个的长度随视频内容而变化，平均长度等于100。集合B 中的每个边界都从一个字节开始，Ai=（Bi，Bi+1−1），结果是：|B|-100%。这样的界限是以一种阶级不可知论的方式获得的，但它们将视频分割成可解释的片段。这些行动是时间尺度不变的，因为它们的长度是图3：本地化模型和字节提取。本地化模型通过伪标签上的分类和本地化损失进行训练潜在输出L用于提取潜在输出。类标签来自CShort。3.2. 采矿业接下来，我们讨论如何从短视频中学习模型。人们可以在短视频上训练分类模型然而，这样的模型对于短视频内的边界是不可知的，并且可能不能生成用于本地化的良好的类激活分数。在这里，我们利用网络，从短视频中训练一个区分的、边界感知的模型这是通过将视频分解为多个标签来完成的，我们从中生成伪标签来训练我们的模型。图2所示为拟建的采矿管道。它有两个步骤，在从机器学习生成伪标签和用伪标签训练本地化模型之间迭代。对于伪标签的创建，我们从Caron等人那里获得灵感。[2]的文件。我们首先从一组训练视频中提取N个潜在特征，并通过平均其边界内的潜在特征来表示它们中的每一个。接下来，我们使用k-均值算法将所有聚类分组为K个聚类，适应于视频内容。例如，单个Action- Byte可以捕获原子操作，而不管操作是什么min1ΣNminan−Cyn速度图4中显示了一些示例。C∈IRl×KNn=1 yn∈{0，1}K21174t=1图4：两个Baseball Pitch示例的提取出的箭头，以不同的颜色突出显示。该图将动作分为四个部分，可解释为（1）(3)“交付”（粉色）和（4）“后续”（绿色）。时间尺度是尺度不变的，并且可以适应于变化的时间尺度，在这两个例子中，其中，an是从字节n获得的特征向量。解决这个问题提供了质心矩阵C，其用于将集群id分配给视频中的每个字节。最后，视频的伪标签向量被定义为分配给该视频的所有集群ID。在获得每个训练视频的多个伪标签之后，我们在第二步中更新定位网络的参数，以分类和定位视频中的视频（如图3所示）。这样的训练导致模型的潜在概念L的更好表示，这进而导致更好的动作集。因此，我们跳过了这两个步骤，即提取定位点和训练定位模型。这种方法可以被看作是一种正则化技术。通过使用伪标签训练模型，我们避免了将模型过度拟合到类标签的风险。本地化模型。我们在管道的第二步中使用的完整本地化模型如图3所示。该模型的作用是学习将标签分类和本地化到指定的伪标签中。这是弱监督时间局部化的模型的一个重要部分，其中每个视频具有多个动作实例，并且时间注释不可用。带着这个动机，我们现在描述我们的本地化。我们首先从预训练的深度网络提取特征F={ft}T时间序列长度。我们将提取的特征传递给潜在投影模块，以将特征映射到一组潜在概念，从中提取隐藏概念。对于潜在投影模块，我们简单地使用一个完全连接的层，然后是ReLU [25]。L=ReLU（WprojF）其中Wproj∈Rl×d是潜在投影矩阵，l是潜在概念的数量潜在的输出投影层L通过线性分类器以获得伪类随时间的激活分数。在这些激活序列上，按照[28]，我们将k-max多实例学习损失应用于分类和协同学习。活动相似性损失。对于k-最大MIL损失，对应于类的预测分数被计算为在时间维度上其k计算类激活序列和L上的协同活动相似性损失。对于给定的视频和类，计算类激活序列与L（第1个潜在概念）的每一行之间的相似性向量。具有共同类别标签的一对视频将与相同的潜在概念具有这就是这种损失所强制执行的，这使得它在我们的方法中成为合适的在我们的挖掘中使用这个模型，我们得到了伪标签的预测。为了将其转化为训练类的预测，我们在线性分类器的顶部添加了一个传输层这是再次学习的FC层，具有k-max MIL损失，但使用类标签（参见图3）。对于测试时的本地化，我们在传输层的输出上遵循[28]的两阶段知识转让。在交叉数据集评估中，看到的短视频的标签集合C短可以不同于看不见的长视频的标签集合C长。对于这种情况下的知识转移，我们遵循Objects2Action [12]。我们采用word 2 vec [21，22]的skip-gram模型作为语义嵌入函数，将给定类别标签的每个单词嵌入为向量。对于多词类标签，我们采用嵌入词的平均向量[12，23]来表示标签。来自Cshort和Clong的类标签之间的亲和力通过它们的嵌入之间的余弦相似性来计算。因此，短C的类别激活分数被转移到长C的类别激活分数。这两组类别标签虽然不同，但可能有一些重叠。为了在纯零拍摄定位设置中进行评估，我们还进行了一个实验，其中在C短的子集上进行训练，使得该子集不与测试标签集C长重叠。3.3. 来自联合国的将视频分割成视频片段对于从短视频中学习可靠的本地化模型此外1175对于这一点，作为一个信息动作单元，字节本身也适合于动作本地化。我们展示了如何使用它们在测试期间的长视频中形成行动建议。因此，我们还证明了该实用程序的What2When设置不仅限于，而且还扩展到弱监督设置。由于一个字节代表一个动作的可解释部分，一个或多个字节一起形成一个好的动作建议。对于给定的测试视频，我们通过合并m∈M生成动作建议PAB，其中集合M包含要被合并的子集合的数目。视频中的班级是10。5（与1。1in Thumos14），使其成为更具挑战性的多标签数据集。Activi- tyNet1.2有4，819个用于训练的视频和2，383个用于验证的视频，在文献中用于评估。它有100个班级，平均1。每个视频5个动作实例。该数据集中视频的平均长度为115秒。实作详细数据。作为基础网络，我们使用在Kinetics-400上预训练的I3 D[4]我们提取RGB，来自最后平均汇集层的流特征（每个流的1024维）。我们用TVL1来计算光流。从非重叠的16-PAB= [m∈M|−m|−mi=1（Bi，Bi+m−1）（2）帧视频块。我们不微调特征提取器。该网络在PyTorch中实现，并使用Adam优化器进行训练，学习率为0。001。其中Bi是第i个字节的开始。（Bi，Bi+m−1）是从Bi到Bi+m−1的行动建议。这些建议中的每一个都在时间上抖动，以包括最多一个neigh-无聊的时间步这是为了确保在行动建议中包括边界的直接用于弱监督定位的搜索引擎。弱监督动作定位是一个流行的任务，在长视频上进行训练和测试，即。L短=L长第3.2节中介绍的字节挖掘对于从短视频中学习至关重要。但是，当在弱监督设置中对长视频进行学习时，不需要生成伪标签，因为长视频在w.r.t.上已经是未经修剪的了实际的行动标签。因此，只有本地化模型，没有传输层，就足以学习质量好的分类得分序列和分类器。4. 实验在本节中，我们首先解释我们训练和评估我们提出的方法的数据集，然后是实现细节。然后，我们提出了我们的方法的消融研究，接下来，我们比较我们的模型与基线的What2When设置。我们还进行了一个实验，在零拍摄设置和比较我们的模型与国家的最先进的模型在弱监督制度。数据集。我们使用Kinetics-400[4]的验证集来训练我们的模型。它包含17281个单一的修剪动作视频，属于400个动作类，最长10秒。为了进行评估，我们报告了未修剪的Thumos 14[10]、MultiThumos[38]和Ac-tivityNet1.2[1]。Thumos14包含200个验证视频和212个测试视频，时间注释属于20个动作类，大约有15个。平均每个视频5个动作实例该数据集中的视频长度平均为212秒。MultiThumos拥有与Thumos14相同的视频集，但它将后者从20个动作扩展到20个动作。类0。每帧3个标签，65个类别，1. 每帧5张。此外，不同动作我们通过在val上训练来初始化本地化模型，Kinetics-400数据集。对于k-max MIL损失，我们将k设置为视频长度的1/8。在所有的实验中，我们对我们的管道进行了3次迭代。p百分位数的值（在等式中设置τ）1）确定从给定视频中提取多少个视频为Thumos 14 和 MultiThumos 我们设置 p=50 ，对于ActiveNet1.2我们使用p ∈ {92，95，97。五，九十九，九十九。5}。在所有实验中，我们在等式中设置 M={1 ， 2} 二、我们报告了常用的平均精度（mAP）指标，用于评估检测的片段级粒度。对于弱监督设置，实验设置与[28]保持相似。测试时的本地化。对于测试时的本地化，我们使用我们的训练模型在未修剪的测试视频上生成类激活序列。我们遵循[28]的两阶段阈值方案来定位动作。第一个阈值用于过滤掉置信度分数小于平均置信度分数的类。沿时间轴应用第二阈值以获得检测。当添加了“最大字节”建议时，也会应用非最大抑制。4.1. 消融研究在消融中，我们在未修剪的Thumos 14上进行测试，并在修剪的Kinetics-400数据集的验证集上进行训练。固定长度与标度不变长度。首先，我们评估的效果，我们运行两个设置：第一个使用固定大小的片段，沿着视频均匀采样，第二个使用我们自动提取的100字节边界。对于第一个设置，我们将视频统一分割成两个片段的块，以便使其与Action的平均长度相当。IoU = 0时的最终本地化性能。5是14。1%的固定大小段和15。5%的行动-行动。自动提取的100字节边界优先于均匀采样的边界。集群数量的影响。接下来，我们评估1176图5：集群数量对本地化性能的影响。性能增加到500，然后下降，因为过粒度的集群可能无法表示单个100字节。用于生成伪标签的簇的数量对最终定位性能的影响。图5显示，性能随着集群数量增加到500而增加，然后下降。这是有意义的，因为对于大量的集群，一个100字节可能不会由单个集群质心表示。因此，在所有的实验中，我们将集群的数量固定为500。挖掘迭代次数。在图6（左）中，我们展示了性能如何随着训练迭代而变化。它增加到一个点，然后稍微减少。这主要是因为，经过几个时期，我们的迭代挖掘达到一个平衡点，在这个点上，聚类损失停止下降（见图6（右）），模型收敛到最优值。图6：迭代挖掘。（左）挖掘迭代上的动作本地化mAP只要集群损失（右）减少，性能就会增加，然后两者都会饱和。Byte作为建议。如第3.3节所述，当合并在一起时，动作代理可以充当动作代理。在这种消融中，我们展示了合并的双列直插的数量如何影响定位性能。如图7所示，与不使用100字节建议相比，使用单个100字节建议（M ={1}）可以将性能提高3%以上。这说明这些建议的有效性。合并多达4个字节（M={1，2，3，4}）可以进一步提高定位性能。然而，这是有代价的，图7：将Bytes作为本地化建议。与不使用100字节建议相比，单100字节建议（M ={1}）可改进mAP。我们在所有实验中设置M={1，2}，因为添加更多的建议会增加计算成本，同时带来边际改进。处理更多的提案。为了保持计算成本和性能之间的平衡，我们在剩余的实验中设置M={1，2}由于建议书的长度不同，建议书的长度也不同。这是雷米尼-常用锚定长度的百分之[32]。对于所选的M和p，建议长度的范围为 Thu-mos 14/MultiThumos 从 1 到 70 ，ActivityNet从6到3694.2. What2When动作本地化在What2When动作本地化实验中，我们展示了与基线相比，我们挖掘的搜索结果的好处对于训练，我们使用Kinetics- 400数据集的验证集对于评价，我们遵循文献中的通用方案，并在Thumos 14和MultiThumos的测试集以及Activ- itynet1.2的验证集上进行评价。基线是在Kinetics-400验证集上训练的定位模型，没有重复和迭代训练。该模型在未修剪的长视频上为400个类生成置信度分数。然后，我们将类得分转移到目标类，如第3.2节所述，并使用两阶段阈值定位动作。我们提出的是深度挖掘方法，它类似于基线（并在相同的数据集上训练），除了我们在训练过程中使用伪标签来正则化模型。为了进行公平的比较，我们在评估期间保持所有最后，对于Ours（+ Proposals），我们在本地化过程中向提案池中添加100Byte提案。如表1所示，对于IoU = 0，Thu-mos 14数据集的基线性能。五是八。4%，显示了任务的难度。使用我们的模型，性能增加到11。百分之三。这很有趣，考虑到弱监督机制下该数据集的最新性能，其中在同一数据集上进行训练和测试，仅为26。5%[27]（见表3）。最后通过1177表1：What2When在Thumos14、ActivityNet1.2和MultiThumos上的动作本地化性能0.30.40.50.70.30.40.50.70.30.40.50.7基线18.812.78.41.724.021.719.48.07.54.93.20.6我们21.115.611.32.824.422.420.18.28.15.74.11.0我们的（+提案）26.120.315.53.724.722.720.38.310.88.16.11.4表2：What2When设置中Thumos14和MultiThumos上的零拍摄动作定位0.10.20.30.40.5Thumos14基线13.811.17.14.73.1我们14.912.68.56.14.1我们的（+提案）17.815.511.38.76.3MultiThumos基线6.45.143.12.01.3我们7.05.73.72.51.7我们的（+提案）9.48.05.64.13.0如果添加100字节建议，性能将增加到15。5%即整体相对改善84%。这也显示了我们的毛里求斯提案的有效性，这主要是由于它们对基线提案的补充性质。这些改进是在整个IoU中获得的，特别是对于更高的IoU。对于ActivityNet1.2，基线获得的mAP为19。4%，IoU= 0。5，而我们的完整模型达到20。百分之三。与Thumos 14相比，收益较小，但在整个IoU中保持一致。减少的收益可以归因于时间注释的性质，其将几个附近的动作实例和中间停顿合并为一个实例。这意味着额外的假阳性，因为MIByte提案在将动作与时间上下文分离方面做得很好。对于MultiThumos上的结果，趋势与Thu-mos相似14，挖掘，然后是MIByte建议在IoU阈值上持续提高性能。很有希望的是，所提出的方法在这个更具挑战性的多标签数据集上保持其增益。4.3. 零拍动作定位对于这组实验，我们的设置与之前的What 2 When实验类似，除了我们坚持零射击前提并排除源Kinetics-400数据集和目标数据集之间的公共类。因此，在训练过程中，我们排除了18类Kinetics- 400的Thumos 14/MultiThumos。类似地，ActivityNet1.2排除了72个Kinetics-400类，这使得类在语义上与表3：Thumos14数据集上的弱监督定位。（*）表示I3D特征。0.30.40.50.7强监管Shou等人[三十一]40.129.423.37.9Xu等[36个]44.835.628.9-Zhao等人[第四十届]50.640.829.1-Chao等人* [5]53.248.542.820.8监管不力Nguyen等人* [26]35.525.816.94.3Shou等人[32个]35.829.021.25.8Paul等* [28]40.131.122.87.6Yu等人* [39]39.5-24.57.1Nguyen等人* [27]46.637.526.59.0我们的 *（提案）43.035.829.09.5ActivityNet1.2.其余的类在语义上与ActivityNet1.2的类有很大的不同，导致更低的基线mAP为2。6%，IoU=0 。 3 号线到 24 号线。在 What2When 实验中，由于Activi- tyNet1.2不适用于Kinetics- 400的零发射传输，因此我们对表2中的其他两个数据集进行了评估。与What2When结果相比，性能有所下降，考虑到任务的难度，这是意料之中的。然而，同样的趋势仍然存在：我们的挖掘模型的性能比基线更好，并且添加Ac-tionByte建议进一步增加了本地化性能。同样，我们观察到Thumos14和MultiThumos的基线都有相当大的收益，从而导致整个IoU的持续改进。我们相信，这是第一个零拍时间定位结果报告的 Thumos14 和MultiThumos。4.4. 与最新技术在这里，我们展示了我们的Action- Byte提案在弱监督设置中的有效性，如第3.3节所述。我们采用现成的模型保罗等人。[28]作为基线，并在此基础上增加可供参考的建议对于Thumos14数据集，我们在验证集上训练模型，并在测试集上进行评估和以前一样，我们使用探测和地面实况之间的IoU作为评估，Thumos14 ActivityNet1.2 MultiThumos11781基线我们基线我们图8：定性结果显示了Soccer Penalty和Basketball Dunk样本视频的顶级定位。表示动作实例的帧用橙色框突出显示，而背景帧用蓝色框突出显示。在这些框架下面，地面实况以红色绘制，时间以秒为单位。对于基线检测以及使用“定位字节”建议的检测，本地化边界以其他颜色显示在Soccer Penalty示例中，只有一个真阳性被基线错过，而它由我们的建议填充，其中一个检测到它。这两种方法都有假阳性。第二个Basketball Dunk的例子是一个超过10分钟的视频，包含许多动作实例。在所示的16个实例中，我们的方法可以定位6个，同时在IoU = 0时得到3个假阳性。五、这些假阳性中的两个是重复检测（在青色中接近620s和650s）。基线可以定位两个动作实例，其中一个是假阳性。我们的方法有一些误报和漏检，但它可以定位一些非常困难的动作实例。最佳的颜色。度量如表3所示，我们的方法在更高的重叠阈值上优于现有技术。我们的改进在IoU = 0时尤其显著。5，我们将最先进的技术提高了2。百分之四它validates，我们的100字节的建议是适合What2When和弱监督的任务。在表4中，报告了ActivityNet1.2的结果。我们在除0以外的所有IoU方面都优于最先进的技术。7 .第一次会议。在表5中，我们报告了MultiThumos的结果。据我们所知，唯一的视频级定位结果报告的MultiThumos是由叶等。 [38]第 30 段。而他们在 IoU = 0 时报告了32.4%。1，利用帧级监督，我们仅利用弱监督来达到该mAP。据我们所知，这是MultiThumos上的第一个我们还在这个数据集上评估了我们的基线[28]，并在IoU阈值上不断改进。总之，我们的方法可以改善基线，并在所有三个数据集上取得有希望的结果这表明了XNUMBERByte提案的有效性我们在图8中显示了我们检测的一些定性结果。5. 结论我们引入了新的任务，即从短的修剪视频中学习，以定位长的未修剪视频中的动作。为了解决这个新任务，我们提出的管道被联合训练，将视频分割成视频片段，并在短视频中进行本地化。我们的方法可以考虑-表4：ActivityNet1.2数据集上的弱监督定位。（*）表示I3D特征。0.30.40.50.7Wang等人[34个]--7.43.9Shou等人[32个]--27.317.5Paul等* [28]45.541.637.014.6Yu等人* [39]--28.318.9我们的 *（提案）47.844.039.415.4表5：MultiThumos数据集上的弱监督定位。（*）表示I3D特征。[28]我们的评价0.10.20.30.40.5强监管Yeung等人[38个]32.4----监管不力Paul等*†30.724.017.112.68.9我们的 *（提案）32.426.820.515.712.1作为一种技术，在训练过程中规范动作边界。在三个数据集上的实验表明，该方法不仅对所提出的任务有效，而且对零镜头动作定位和弱监督动作定位也有效。这证明了通过我们的方法训练的模型的适应性，因为我们在基线上进行了相当大的改进，并获得了最先进的结果。……1179引用[1] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。二、五[2] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV，2018。二、三[3] 若昂·卡雷拉，埃里克·诺兰，克洛伊·希利尔，安德鲁·兹瑟曼.关于动力学-700人类行动数据集的简短说明。arXiv预印本arXiv：1907.06987，2019. 1[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。一、五[5] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR，2018年。1、7[6] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。动作的时空定位。IEEE Transactions on Pattern Analysis andMachine Intelligence，35（11）：27822[7] 庄乾、杨天宝、龚伯庆。学习属性等于多源域泛化。在CVPR，2016年。2[8] Raghav Goyal、Samira Ebrahimi Kahou、Vincent Michal-ski 、 Joanna Materzynska 、 Susanne Westphal 、 HeunaKim、Valentin Haenel、Ingo Fruend、Peter Yianilos、Moritz Mueller-Freitag 、 Florian Hoppe 、 ChristianThurau、Ingo Bax和Roland Memisevic。学习和评估视觉常识的InICCV，2017. 1[9] Rui Hou，Mubarak Shah，and Rahul Sukthankar.基于子动作发现的未裁剪视频中实时动作定位。在BMVC，2017年。2[10] Haroon Idrees ， Amir R Zamir ， Yu-Gang Jiang ， AlexGorban，Ivan Laptev，Rahul Sukthankar，and MubarakShah.thumos挑战视频动作识别“在野外”。计算机视觉和图像理解，155：1- 23，2017。二、五[11] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在CVPR，2019年。2[12] Mihir Jain、Jan C van Gemert、Thomas Mensink和CeesGM Snoek。目标2行动：分类和本地化的行动没有任何视频的例子。在ICCV，2015年。二、四[13] Dinesh Jayaraman和Kristen Grauman缓稳特性分析：视频中的高阶时间相干性。在CVPR，2016年。3[14] Elyor Kodirov，Tao Xiang，Zhenyong Fu，and ShaogangGong。无监督域自适应零射击学习。在ICCV，2015年。2[15] Tian Lan，Yuke Zhu，Amir Roshan Zamir，and SilvioSavarese.由分层的中级动作元素进行动作识别。在ICCV，2015年。2[16] 曼斯·拉尔森，埃里克·斯滕博格，卡尔·托夫特，拉尔斯·哈姆-马斯特兰德，托尔斯滕·萨特勒，弗雷德里克·卡尔.细粒度分割网络：用于改进长期视觉定位的自监督分割。在ICCV，2019年。2[17] D.李你伪标签：简单有效的深度神经网络半监督学习方法。2013年，《国际反洗钱法》。2[18] 林天威，赵旭，苏海生，王崇景，杨明。BSN：用于临时行动建议生成的边界敏感网络。在ECCV，2018。1[19] Jingen Liu，Benjamin Kuipers，and Silvio Savarese.通过属性识别人类行为。CVPR，2011。2[20] Pascal Mettes和Cees GM Snoek。空间感知对象嵌入，用于零拍摄定位和动作分类。InICCV，2017. 2[21] 放大图片作者：Thomas Mikolov，Kai Chen，Greg S.科拉多和杰弗里·迪恩。向量空间中词表示的有效估计。InICLR，2013. 4[22] 放大图片作者：Tomas Mikolov，Ilia Sutskever，KaiChen，Greg S. 科拉多和杰弗里·迪恩。单词和短语的分布式表示及其组合性。在NIPS，2013年。4[23] Dmitrijs Milajevs ， Dimitri Kartsaklis ， MehrnooshSadrzadeh，and Matthew Purver. 评价基于张量的组合设置中的神经词表征在EMNLP，2014年。4[24] Mathew Monfort，Alex Andonian，Bolei Zhou，KandanRa- makrishnan ， Sarah Adel Bargal ， Yan Yan ， LisaBrown，Quanfu Fan，Dan Gutfreund，and Carl Vondrick.Moments in time数据集：100万个视频用于事件理解。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。1[25] Vinod Nair和Geoffrey E Hinton。校正线性单元改善受限玻尔兹曼机。ICML，2010年。4[26] Phuc Nguyen 、 Ting L

下载后可阅读完整内容，剩余1页未读，立即下载