视频动作检测的端到端半监督学习方法及其有效性

31 浏览量更新于2023-10-26 收藏 13.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

147000视频动作检测的端到端半监督学习0Akash Kumar Yogesh Singh RawatCenter for Research in ComputerVision University of Central Florida0akash k@knights.ucf.edu yogesh@crcv.ucf.edu0摘要0在这项工作中，我们专注于半监督学习的视频动作检测，利用了带标签和无标签的数据。我们提出了一种简单的端到端一致性方法，有效利用了无标签数据。视频动作检测需要进行动作类别预测以及动作的时空定位。因此，我们研究了两种类型的约束，即分类一致性和时空一致性。视频中主要背景和静态区域的存在使得利用时空一致性进行动作检测具有挑战性。为了解决这个问题，我们提出了两种新的正则化约束，即时间连贯性和梯度平滑性。这两个方面利用了视频中动作的时间连续性，并且对于利用无标签视频进行动作检测非常有效。我们在两个不同的动作检测基准数据集UCF101-24和JHMDB-21上展示了所提出方法的有效性。此外，我们还展示了所提出方法在Youtube-VOS上进行视频对象分割的有效性，证明了其泛化能力。与最近的完全监督方法相比，所提出的方法仅使用UCF101-24上20%的注释，就取得了有竞争力的性能。在UCF101-24上，与监督方法相比，在0.5f-mAP和v-mAP上分别提高了+8.9%和+11%。代码和模型将公开在以下网址：https://github.com/AKASH2907/End-to- End-Semi-Supervised-Learning-for-Video-Action-Detection。01. 引言0我们已经在视频动作分类[4, 6, 9, 39, 42-44,46]方面取得了很大的进展，其中大规模数据集的可用性是其中的一个关键因素[18, 20,38]。另一方面，视频动作检测要困难得多。0图1.提出的半监督方法与有监督基线的比较，显示在UCF-101-24数据集上标记样本数量变化时f-mAP和v-mAP的绝对增益。所提出的方法优于有监督基线，并且仅使用20%的标记样本，与使用100%标签训练的完全监督方法的性能相匹配。Sup表示有监督，Sup100表示使用100%标签的有监督方法。0在视频中进行时空定位是一项具有挑战性的任务。此外，为这个问题获取大规模数据集更具挑战性，因为对每一帧进行注释是一项耗时且成本高昂的任务。在这项工作中，我们专注于视频动作检测的半监督学习，该方法利用了一小部分带注释样本和多个无标签样本。对于带注释的样本，我们具有视频级别的类别标签以及帧级别的定位信息。据我们所知，这是第一个专注于视频动作检测的半监督学习的工作。半监督学习已经成功应用于图像分类[3, 36,45]，并且在目标检测[10, 16, 17, 41,47]中也有一些最近的工作。伪标签[14,29]和一致性正则化[36, 45,47]是半监督学习的两种主要方法。伪标签依赖于多次迭代，而一致性正则化则依赖于单步训练。由于训练视频动作检测模型已经具有计算上的昂贵性，因为输入维度很高，因此我们提出了一种基于一致性的高效解决方案。视频动作检测需要对每个样本进行类别预测以及时空定位。147010因此，我们研究了两种不同的一致性约束来利用无标签样本；分类一致性和时空定位一致性。分类一致性的一致性正则化已被证明非常有效[3,36]，但它依赖于丰富的数据增强。将这些数据增强扩展到视频领域以实现时空一致性并不总是可行的。我们提出了一种简单的时空一致性公式，其中它针对视频中的每个像素进行计算。将传统的一致性目标扩展到时空领域可以捕捉像素级的变化，但它无法捕捉任何时序约束，因为一致性是独立计算每个像素的。为了解决这个问题，我们研究了视频中动作的时序连贯性。我们认为运动具有一定的时序连贯性，并尝试利用这一点来规范时空一致性。我们研究了两种不同的捕捉运动连贯性的方法，时序连贯性和梯度平滑性。时序连贯性旨在改进区分前景和背景的不确定边界区域，梯度平滑性强制实现时序一致的定位。所提出的方法在利用有标签和无标签样本的同时进行端到端训练，无需任何迭代，使其高效。我们通过对UCF101-24和JHMDB-21两个不同数据集进行了大量实验来证明其有效性。我们表明，即使在有限的标签情况下，它也能与完全监督方法相媲美，并超过所有弱监督方法。此外，我们还展示了所提方法在Youtube-VOS上进行视频对象分割的泛化能力。我们在这项工作中做出了以下贡献。0•我们提出了一种简单的半监督视频动作检测的端到端方法。据我们所知，这是第一个专注于这个问题的工作。0•我们研究了两种不同的一致性正则化方法，用于视频动作检测；分类一致性和时空一致性。0•我们提出了两个新颖的正则化约束，用于时空一致性、时序连贯性和梯度平滑性，重点关注视频中动作的时序连贯性。02. 相关工作0视频动作检测在近年来取得了显著的进展[22, 27, 32, 35,51, 53,54]，这主要归功于卷积神经网络。早期的尝试从2D提议开始，然后转向3D提议，[13]中的作者将2D提议扩展到3D立方体，用于定位视频中的动作。0类似地，[19]利用一系列帧输出一个用于动作定位的锚定立方体。在[51]中，作者提出了在训练过程中逐步更新粗糙提议的方法，证明了其有效性。为了利用更长的时间序列，[37]中的作者利用了循环方法和ConvLSTM的帮助。一些方法还依赖于光流[12,54]，但这会增加额外的计算成本。大多数现有方法都利用了基于提议的方法[12, 13, 51,54]，这需要一个两步过程，使得这些方法变得复杂。在这项工作中，我们利用胶囊路由[7]作为动作检测网络的简单架构，这是一种端到端的方法。尽管[7]中的作者提出了一种简单的架构，但3D路由的要求使其计算成本很高。因此，我们使用修改后的模型作为基线动作检测网络，并使用2D路由[30]来使其计算效率高。0弱监督动作检测视频动作检测需要对视频的每一帧进行定位的注释。为了减少这种高昂的注释成本，最近提出了一些弱监督方法[1, 5,8]。在[5]中，作者探讨了不同级别的监督对动作检测的影响。在[8]中，作者利用帧间的孪生相似性和由目标检测器生成的演员提议来定位动作。类似地，在[1]中，作者使用在图像数据集[23]上训练的现成人体检测器，并借助多实例学习来检测动作。尽管弱监督方法减少了每一帧的注释成本，但这些方法的性能仍远远低于完全监督方法。此外，它需要所有样本的类标签，并且还依赖于来自Detectron[11]和Faster-RCNN[28]等最先进检测器的附加边界框定位。0半监督学习半监督学习利用有限数量的标记样本和大量的未标记样本。伪标签[14, 21,29]是一种迭代方法，它在视频动作检测中计算上是昂贵的且不适用。一致性正则化利用对输入数据的扰动，并试图最小化同一样本的增强版本的预测之间的差异[2, 3, 16, 36,50]。由于它不需要多次迭代，与伪标签相比，它更高效。最近，这些方法已经在半监督动作识别[15, 29,34]和图像目标检测[10, 16, 17, 41,47]中得到了探索。[15]保留了在UCF-50活动上训练的动作库，其特征进一步用于半监督训练。[34]引入了一种组对比损失来提高分类得分。147020图2.我们提出的方法概述。输入视频的原始视图和增强视图通过网络传递。分类器头部倒数第二层的激活被用于分类一致性，时空定位被用于定位一致性。利用时空定位计算出用于时序一致性和梯度平滑的注意力掩码M var和Mgrad。此外，对于标记样本，还计算传统的监督分类和定位损失。0然而，后者需要多阶段的训练，而前者使用了从相同类别预训练的权重。对于图像中的目标检测，大部分工作都遵循师生网络的设置。受到π-模型一致性方法的简单性和在分类和目标检测中的成功的启发，我们提出了一种基于一致性的视频动作检测方法。此外，据我们所知，目前还没有关于半监督视频动作检测的现有工作。03. 方法0给定一个视频v = (v1, v2, ...,vn)，我们希望进行时空定位，为整个视频提供一个类别标签p和每帧vi上的定位图l。定位图l可以是像素级预测[18]或边界框[38]。在半监督学习中，数据集由一个标记集(DL)和一个未标记集(DUL)组成。我们将整个训练集表示为X，标记子集表示为XL：{v0l, v1l, ...,vNll}，未标记子集表示为XU：{v0u, v1u, ...,vNuu}。我们希望利用这两个集合来训练一个动作检测模型M。每个训练样本v被增强以获得第二个视图v'(A(v))。动作检测模型M用于预测每个样本v的类别标签和时空定位cls，loc =M(v)。对于标记样本，计算分类(Llcls)和定位(Llloc)的传统监督损失。我们对标记和未标记样本都使用一致性正则化。我们计算样本(vu)与其增强视图(v'u)之间的一致性差异。我们研究了两种不同的一致性损失，即分类一致性(Lconstcls)和时空一致性(Lconstloc)。所提出方法的概述如图2所示。接下来，我们详细介绍0关于动作检测模型M和这两个一致性正则化损失项的详细信息。03.1. 动作检测模型0我们提出了一种基于VideoCapsuleNet[7]的简单动作检测模型（M）。VideoCapsuleNet是一种基于3D卷积的编码器-解码器架构。它利用时空特征来检测和定位视频中的动作。虽然它是一个简单的架构，但使用3D胶囊路由会显著增加计算开销。我们建议在特征的时间维度池化后使用2D路由[31]而不是3D路由，并发现在不降低太多性能的情况下更高效。我们在实验中使用了这个适应的模型。该模型M为输入视频提供分类预测p和时空定位l。03.2. 分类一致性0我们希望样本及其增强视图的分类预测结果相似。我们研究了网络中原始视图feat(X)和增强视图feat(X′)的潜在特征输出。直觉是它们之间的分布变化应该是最小的。为了强制执行这一点，我们采用Jenson-Shannon散度（JSD）来计算它们之间的差异。使用JSD，分类一致性损失（Lconstcls）定义如下：0Lconstcls = LJSD = JSD(feat(X), feat(X′)). (1)03.3. 时空一致性0在这个一致性约束中，网络学习检测视频的多个视图的时空定位。使用样本v，动作检测网络（M）输出一个定位图l(v)，其中l(v)是像素级的预测，每个像素都有动作或非动作的概率。n.(4)147030（M）输出一个定位图（l(v)），它是一种像素级的预测，每个像素都有动作或非动作的概率。如果我们增强原始样本（v），模型应该能够一致地预测动作区域（l(v′)）。使用时空一致性，我们提出将这些预测结果靠近彼此。首先，单独分析空间一致性，我们需要评估增强视图（loc(X′)）和原始视图（loc(X)）的两个预测定位图之间的像素差异。为了比较这些预测结果，我们需要反转增强视图（loc(X′)）的数据增强，以便在计算差异时像素位置的映射是相同的。为了最小化这种预测差异，我们使用L2损失。时空一致性损失（Lconstloc）定义如下：0Lconstloc = LL2 = L2(loc(X), (loc(X′) - 1)), (2)0其中，loc(X′) -1表示增强的反转。上述定义的时空一致性（公式（2））仅捕捉了不同预测定位图的空间变化，没有强制施加任何时间约束。因此，它的工作原理类似于基于一致性的图像目标检测。然而，视频中有第三个维度，即时间维度，沿着这个维度移动，我们可以强制执行连续性和平滑性约束。这意味着预测不仅应该是连续的，而且每帧之间的过渡也应该是平滑的。因此，我们在视频中探索了动作的时间连续性，以有效利用时空一致性。我们关注时间连续性的两个不同方面，即时间连贯性和梯度平滑性。时间连贯性捕捉了动作边界在时间上的相对变化，并有助于细化检测边界。另一方面，梯度平滑性有助于检测预测结果在时间上的突变。0时间连贯性时间连贯性被描述为前景像素（动作区域）在时间维度上的相对位移，跨越一定数量的帧（fn）。我们通过测量当前帧中像素在未来和过去帧中的位置的相对移动来计算每个像素的方差。这个像素级方差是针对视频中所有像素计算的，并被称为方差图Mvar。方差图Mvar关注短期细粒度变化，集中在预测的连续性上。分析特定帧的方差，它将具有两个不同的区域（图2），即明确和模糊。如果模型确信一个像素是动作或非动作，我们称之为明确，否则我们称之为模糊。由于模型已经0对于那些在模糊区域上有自信的区域，我们关注后者。其中一些模糊区域将描绘连接前景和背景的边界。使用方差图，我们旨在更多地关注这些区域。这将帮助模型利用时空维度中的模糊性。我们将方差图用作注意力来规范化时空一致性损失。这个规范化的损失L_const_var定义如下0L_const_var = w. (M_var ⊙ L_L2) + (1 − w). (L_L2),(3)，其中，掩码M_var计算如下：0M_var =0i =1 (loc_i − µ_n)^20这里，loc_i表示计算方差的第i帧的定位，n表示总帧数。µ_n表示n帧的平均值。w表示时空连贯性和非注意力L2损失的权重因子。然而，在训练开始时，模型只能对动作的空间定位有基本的认知。因此，在训练的初始阶段，我们从w=0开始，视频中的每个像素具有相等的重要性。随着训练的进行，模型可以识别动作的粗略定位，但仍然不确定边界区域。因此，我们通过指数级地增加用于L2损失的时空连贯性注意力掩码（M_var）的权重（w），逐渐减少非注意力L2损失的影响。最后，为了利用更长的时间信息，我们使用增强视图。我们反转空间增强并在时间上翻转，将其附加到原始视图上，除了最后一帧和第一帧，并计算这个更长剪辑的方差。由于这个新剪辑可以用来形成一个重复的循环，因此被称为循环方差。0梯度平滑性更深入地观察定位的时间特性，演员定位的过渡应该是平滑的。为了保持这种平滑性约束，我们使用二阶梯度分析输出定位概率分数图的变化。梯度反映了方向的变化。沿着时间维度的时空区域的一阶梯度提供了一个时间梯度流图。由于时间维度上的偏移很小，一阶梯度图应该是平滑的。取二阶梯度表示一阶梯度的变化。由于偏移很小，二阶梯度应该为零。二阶梯度图中的尖峰确定了时空梯度流图连续性的变化。我们将这个图M_grad用作对时空定位的长期平滑性的注意力。我们计算梯度平滑一致性损失如下0L_const_grad = (M_grad ⊙ L_L2) , (5).(6)147040其中掩码M_grad计算如下0M_grad = ∂^(loc)0∂t^2，其中∂(l0∂t = loc_t+1 − loc_t−10∂z使用中心差分导数掩码来近似计算。03.4. 总体训练目标0为了规范化最终的训练目标，我们有监督损失和一致性损失。我们计算分类的有监督损失（L_l_cls）和定位的有监督损失（L_l_loc）。对于一致性，我们有分类的一致性损失（L_const_cls），时空的一致性损失（L_const_loc），时间连贯性损失（L_const_var）和梯度平滑损失（L_const_grad）。整体的有监督损失计算如下0L_labeled = L_l_cls + L_l_loc, (7)0并且综合一致性损失计算如下0L_const = λ_1 L_const_cls + λ_2 (L_const_var /L_const_grad), (8)0其中λ1和λ2分别是分类和时空一致性的权重参数。最终的训练目标是这两者的组合，0L total = L labeled + λ L const . (9)0这里（λ）是用于一致性损失的权重参数。04. 实验0数据集对于我们的动作检测实验，我们使用UCF101-24[38]和JHMDB-21[18]数据集。UCF101-24包含3207个未修剪的视频。训练和测试视频的数量分别为2284和923。它包含24个动作类别。这些类别主要属于体育运动，并从原始的UCF101数据集中进行了子采样，该数据集包含101个动作类别。剪辑的原始分辨率为320x240。动作持续时间占视频总持续时间的近78%。JHMDB-21包含928个视频，分为21个动作类别。这些类别与UCF类似，都是体育场景。它是一个修剪过的数据集，动作发生在整个视频持续时间内。帧分辨率与UCF101-24相同。为了证明我们的方法可以推广到其他领域，我们还在YouTube-VOS数据集上进行了实验。该数据集有3471个训练视频和589个评估视频。0实现细节在我们的实验中，我们使用224x224的帧分辨率。我们的批量大小为8。在每个批次中，标记样本与未标记样本的比例为1:1。因此，在一个批次的八个剪辑中，四个来自标记子集，其余四个来自未标记子集。0子集。然后，它们被随机洗牌。每个剪辑的帧数为8。我们选择跳过率为2的帧。我们的实验中，标记和未标记样本的分布为UCF101-24数据集的20/80和JHMDB-21数据集的30/70。我们使用I3D [4]作为骨干网络，使用来自Kinetics[20]和Charades [33]的预训练权重。0训练细节我们使用Adam优化器，初始学习率为1e-4，如果训练损失在最后5个时期内没有改善，则使用0.1的调度器衰减率。我们在UCF101-24上训练100个时期，在JHMDB-21上训练50个时期。一致性损失的λ值设置为0.1。方程（8）中的参数λ1和λ2分别设置为0.3和0.7。为了计算剪辑中每个帧的时间一致性，选择2个未来帧和2个过去帧，其中使用增强视图的定位。这用作计算L2损失的注意力掩码。对于梯度平滑性，我们使用单个剪辑在时间维度上的时空预测的二阶梯度来计算L2损失的掩码值。对于标记样本，我们使用边际损失[7]作为分类损失（L l cls），并使用二元交叉熵加Dice损失来衡量定位损失（L l loc）。0评估指标我们计算帧度量平均精度（f-mAP）和视频度量平均精度（v-mAP）来评估动作检测性能。f-mAP根据给定IoU的与真实帧重叠的帧数计算得分，而v-mAP则基于视频重叠计算得分。我们展示了帧mAP和视频mAP在0.2和0.5时的结果。0基线为了将我们的工作与现有方法进行比较，我们将一些半监督图像分类方法扩展到视频领域。特别是，我们研究了伪标签[14]，MixMatch[3]和一致性物体检测（Co-SSD（CC））[16]。伪标签需要多次迭代训练，而MixMatch依赖于随机数据增强。标记子集与未标记子集的比例为20比80，在我们所有的实验中保持一致。我们使用与[3]中描述的类似的增强策略，并生成两个视图，一个弱视图和一个强视图。04.1. 结果0首先，我们分析了分类和时空一致性损失。结果如表1所示。0UCF101-24从表1中我们可以看到，当我们将分类一致性应用于动作特征时，f-mAP和v-mAP都有很大的提升，在0.5上相对于监督方法提高了4-5.1％。接下来，我们研究基于时空定位的一致性。在UCF101-24JHMDB-21CCLC0.20.50.20.50.20.50.20.585.1 ± 0.9561.0 ± 0.7591.3 ± 0.2561.1 ± 1.2587.9 ± 0.6561.1 ± 1.4092.5 ±0.8559.5 ±0.20✓87.8 ± 0.85 (↑ 2.7)65.0 ± 0.90 (↑ 4.0)93.7 ± 0.60 (↑ 2.4)66.2 ± 1.10 (↑ 5.1)89.1 ± 1.32 (↑ 1.2)62.9 ± 2.14 (↑ 1.8)94.1 ± 0.60 (↑ 1.6)61.2 ±2.43 (↑ 1.7)✓89.6 ± 0.30 (↑ 4.5)69.8 ± 0.05 (↑ 8.8)95.2 ± 0.15 (↑ 3.9)71.8 ± 0.05 (↑ 10.7)89.0 ± 1.70 (↑ 1.1)63.4 ± 1.90 (↑ 2.3)94.8 ± 0.60 (↑ 2.3)61.6 ± 1.70 (↑ 2.1)✓✓89.1 ± 0.85 (↑ 4.0)69.5 ± 0.65 (↑ 8.5)95.1 ± 0.30 (↑ 3.8)71.8 ± 0.50 (↑ 10.7)89.2 ± 2.35 (↑ 1.3)63.6 ± 2.45 (↑ 2.5)94.4 ± 0.67 (↑ 1.9)62.8 ±1.95 (↑ 3.3)147050一致性 f-mAP v-mAP f-mAP v-mAP0表1.UCF101-24和JHMDB-21数据集上包含单独和组合一致性损失的性能。第一行表示监督训练结果。这里CC和LC分别表示分类和定位一致性。0一般来说，时空一致性优于分类一致性。特别是在v-mAP@0.5上，相对于监督基线，性能提高了10.7％。这证明了时空一致性能够使网络学习到更好的特征。最后，两者的组合在0.5的指标上相对于分类一致性提高了4.5-5.6％，但相对于时空一致性，性能几乎相似。这表明后者比分类一致性具有更大的影响力。0JHMDB-21是一个相对较小的数据集，每个类别的视频数量较少，存在过拟合问题。因此，我们对不同子集的性能进行了检查，并且最终我们使用了数据集的30％作为标记子集，其中包括189个标记样本和471个未标记样本。相对于30％的监督训练，我们在分类和定位一致性方面都获得了大约1-2％的提升（表1）。使用两种一致性的组合在v-mAP@0.5上提供了大约1％的增益。我们观察到在表1中，结合分类和时空一致性并没有显著影响。由于分类一致性的性能较低，我们只依赖于时空一致性进行进一步的实验。接下来，我们分析了时间约束对一致性正则化的影响。从表1和3中，我们评估了非注意力L2与时态一致性加非注意力L2之间的性能增益。对于UCF101-24，f-mAP和v-mAP在0.5上，后者分别比非注意力L2提高了0.1和0.3％。对于JHMDB-21，我们看到了更好的改进幅度，f-mAP提高了1％，v-mAP提高了2％。对于梯度平滑性，UCF101-24和JHMDB-21的v-mAP在0.5上分别比非注意力L2提高了0.6％和1.5％。这证实了我们的论断，即时态一致性和梯度平滑性确实有效地强制执行时间连续性约束。04.2. 比较0我们首先将提出的方法与半监督基线以及现有的弱监督方法进行比较0我们的工作是关于半监督视频动作检测的首个工作，据我们所知，因此为了公平比较，我们引入了几个标准化的半监督基线。这包括两个主要子领域：一致性（MixMatch，Co-SSD（CC））和伪标签。0半监督为了与半监督方法进行比较，我们将MixMatch、伪标签和Co-SSD扩展到视频动作检测。在所有方法中，MixMatch的性能最低（表2）。与伪标签相比，在v-mAP@0.5上，我们的方法在UCF101-24上超过了5-6%，在JHMDB-21上超过了7-8%。Co-SSD在v-mAP@0.5上超过了伪标签方法，然而，我们在两个数据集上都以4-5%的优势击败了该方法。我们在不同标记样本百分比下展示了这个比较（图3）。0弱监督这些方法[1, 5,8]使用100%的类别标签以及最先进的演员检测器，在整个视频中获取边界框。另一方面，我们在80%的数据中没有使用任何边界框或类别标签信息。我们在UCF101-24上的最佳报告分数超过了35%左右。表2显示了比较。0监督表2显示了与几种现有的监督动作检测方法的比较。我们观察到，对于UCF101-24只有20%的标记数据，我们在v-mAP@0.2和0.5上的得分超过了所有方法。f-mAP@0.5优于大多数方法，除了[51]、[37]和[12]。然而，它们都使用光流作为第二个模态。光流作为额外的监督信号起作用。对于JHMDB-21，我们在f-mAP@0.5和v-mAP@0.2上能够击败一些方法。05.消融研究0为了更深入地了解注意力约束如何提高准确性，我们对时间一致性和梯度平滑模块的各个组件进行了研究。由于JHMDB-21是一个小数据集，我们对三种不同的种子变化进行了结果分析。✓68.370.361.961.4✓68.4 (↑ 0.1)70.8 (↑ 0.5)63.0 (↑ 1.1)61.5 (↑ 0.1)✓✓68.8 (↑ 0.5)71.6 (↑ 1.3)63.3 (↑ 1.4)62.4 (↑ 1.0)✓✓69.9 (↑ 1.6)72.1 (↑ 1.8)64.4 (↑ 2.5)63.5 (↑ 2.1)✓69.672.463.263.1✓✓69.4 (↓ 0.2)72.0 (↓ 0.4)63.1 (↓ 0.1)62.2 (↓ 0.9)147060方法骨干网络 UCF101-24 JHMDB-210f-mAP v-mAP f-mAP v-mAP02-D 3-D 0.5 0.2 0.5 0.5 0.2 0.50完全监督0Singh等人[35] † � - 73.5 46.3 - 73.8 72.0 Kalogeitan等人[19] � 69.5 76.5 49.2 65.7 74.273.7 Yang等人[51] † � 75.0 76.6 - - - - Song等人[37] † � 72.1 77.5 52.9 65.5 74.1 73.4Zhao和Snoek[54] † � - 78.5 50.3 - - 74.7 Li等人[22] � 78 82.8 53.8 70.8 77.3 70.2Hou等人[13] � 41.4 47.1 - 61.3 78.4 76.9 Gu等人[12] † � 76.3 - 59.9 73.3 - 78.6Sun等人[40] � - - - 77.9 - 80.10Pan等人[26] � 84.3 - - - - - Duarte等人[7] � 78.6 97.1 80.3 64.6 95.1 - 我们的方法 �69.2 95.3 71.9 68.1 96.8 68.40弱监督0Mettes等人[25] � - 37.4 - - - - Mettes和Snoek[24] � - 41.8 - - - - Cheron等人[5] � - 43.917.7 - - - Escorcia等人[8] � 45.8 19.3 - - - - Arnab等人[1] � - 61.7 35.0 - - -Zhang等人[52] � 30.4 45.5 17.3 65.9 77.3 50.80半监督0MixMatch [3] � 20.2 60.2 13.8 7.5 46.2 5.8 Psuedo-label [14] � 64.9 93.0 65.6 57.490.1 57.4 Co-SSD(CC) [16] � 65.3 93.7 67.5 60.7 94.3 58.50我们的方法 � 69.9 95.7 72.1 64.4 95.4 63.50表2显示了与现有的监督和弱监督作品以及半监督基线在UCF101-24和JHMDB-21上的比较。†表示方法使用光流。0实验 UCF101-24 JHMDB-210V G VC L2 f-mAP@0.5 v-mAP@0.5 f-mAP@0.5 v-mAP@0.50表3.使用UCF101-20%和JHMDB-21-30%标记子集分析时间约束对一致性正则化的影响。V、G、VC和L2代表方差、梯度、循环方差和非注意力L2损失。0在JHMDB-21上的每个组件上的消融分数显示在表3中。对于JHMDB，分数是三次运行的平均值。0时间一致性：从表3中可以看出，当我们仅应用注意力掩码时，我们的性能优于监督基线。使用循环方差提高了得分0对于UCF101-24数据集，UCF101-24数据集的准确率分别提高了0.1-0.5％和0.1-1.1％。加入非注意力L2损失后，我们看到两个数据集的准确率都有了大约1％的增加。最后，结合非注意力L2和循环方差，我们获得了额外的提升1％。这表明不仅时序方差有帮助，而且更长的时序信息（循环方差）也能够提升基础得分。我们还注意到，当我们使用像素级预测掩码（JHMDB-21）时，改进的幅度更大。0梯度平滑性：按照时间相干性的路径，我们首先使用非注意力L2进行梯度平滑性。然而，与独立的梯度平滑性损失相比，这并没有进一步提高得分。仅使用梯度平滑性损失，我们看到它在两个数据集的v-mAP@0.5上优于非注意力L2。这是预期的，因为梯度平滑性关注整个剪辑，而不是时间相干性。147070图3。伪标签[14]，Co-SSD（CC）[16]和我们的方法在5％，10％，15％和20％标记数据上的比较。0数据集 f-mAP（％） v-mAP（％） 0.20.5 0.2 0.50修剪 90.2 69.9 96.2 72.1 未修剪 90.169.5 96.0 71.30表4。使用未修剪的视频而不是修剪的视频在UCF101-24数据集上的性能比较，其中动作在所有视频帧中发生。我们观察到了小到可忽略的性能下降，这表明我们的方法也可以利用未修剪的视频。0图4。当使用来自外部来源的额外未标记视频时，我们观察到性能提升，例如Kinetic-400（K400）和UCF-101（来自UCF-101的其他77个动作类别）。06. 讨论0在本节中，我们讨论了一些关于半监督活动检测的问题。未标记样本的数量是否重要？对于这项研究，我们将标记样本的数量保持为20％不变。然后，我们将未标记样本的数量从20％（1倍）增加到80％（4倍）。（图5）我们看到所有指标的性能都有持续的提升。这表明未标记样本的数量越多，性能越好。使用未修剪的数据集而不是修剪的数据集会有什么影响？在修剪的视频中，视频样本中的所有帧都包含动作，然而，在未修剪的视频中，可能有一些没有任何动作的帧。在我们的实验中，我们假设UCF101-24有修剪的视频可用。我们进行了一系列实验，其中未标记的视频可以是未修剪的。该数据集中有一些完全没有活动的视频。评估结果为0图5。性能随未标记数据量的变化。0方法半监督平均 J S J U F S F U0LSTM [48] 10.1 11.6 10.1 9.6 9.2 � 36.8 43.1 31.4 40.8 31.80Sup.（100％）47.9 55.7 39.6 55.2 41.30表5。在Youtube-VOS数据集上的评估。我们使用了10％的数据进行监督训练。底部行显示了在100％数据上进行监督训练的结果。0在表4中显示。我们只观察到性能的轻微或可忽略的下降，这表明了所提出的时空一致性对未修剪的视频的鲁棒性。这也可以从我们的下一组实验中看出，我们利用来自外部数据集的额外未修剪的未标记视频。额外的数据可以作为监督信号吗？最后，我们探索如何利用UCF101中剩余的（未标记的）动作，并超过监督准确性。在图4中，我们观察到即使来自Kinetics数据集的额外视频样本也有助于提高性能。然而，当视频来自相似分布（在这种情况下是UCF-101）时，增益更为显著。06.1. 对视频对象分割的泛化0我们还证明了我们的方法在不同任务上具有泛化能力。对于VOS数据集[49]，我们在监督基线上整体改进了30%（表5）。我们展示了使用时序一致性一致性损失的分数。07. 结论0在这项工作中，我们提出了一种新颖的半监督视频动作检测的端到端方法。据我们所知，这是半监督学习中首次尝试动作检测。我们提出了使用一致性正则化来实现高效和有效的检测性能。我们证明了时序一致性和梯度平滑约束对时空定位的积极影响。所提出的方法在有限标签的监督基线上取得了显著的性能提升，并且优于弱监督方法。[1] A. Arnab, Chen Sun, Arsha Nagrani, and C. Schmid.Uncertainty-aware weakly supervised action detection fromuntrimmed videos. ArXiv, abs/2007.10703, 2020. 2, 6, 7[2] David Berthelot, Nicholas Carlini, E. D. Cubuk, Alexey Ku-rakin, Kihyuk Sohn, Han Zhang, and Colin Raffel. Remix-match: Semi-supervised learning with distribution alignmentand augmentation anchoring. ArXiv, abs/1911.09785, 2019.2[3] David Berthelot, Nicholas Carlini, Ian Goodfellow, NicolasPapernot, Avital Oliver, and Colin A Raffel. Mixmatch: Aholistic approach to semi-supervised learning. In H. Wal-lach, H. Larochelle, A. Beygelzimer, F. d'Alch´e-Buc, E. Fox,and R. Garnett, editors, Advances in Neural Information Pro-cessing Systems, volume 32. Curran Associates, Inc., 2019.1, 2, 5, 7[4] Joao Carreira and Andrew Zisserman.Quo vadis, actionrecognition? a new model and the kinetics dataset. In Pro-ceedings of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), July 2017. 1, 5[5] Guilhem Ch´eron, Jean-Baptiste Alayrac, Ivan Laptev, andCordelia Schmid. A flexible model for training action local-ization with varying levels of supervision. In S. Bengio, H.Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, andR. Garnett, editors, Advances in Neural Information Process-ing Systems, volume 31. Curran Associates, Inc., 2018. 2, 6,7[6] Ugur Demir, Yogesh S Rawat, and Mubarak Shah. Tinyvirat:Low-resolution video action recognition. In 2020 25th Inter-national Conference on Pattern Recognition (ICPR), pages7387–7394. IEEE, 2021. 1[7] Kevin Duarte, Yogesh S Rawat, and Mubarak Shah. Video-capsulenet: A simplified network for action detection. Ad-vances in Neural Information Processing Systems, 2018. 2,3, 5, 7[8] Victor Escorcia, C. D. Dao, Mihir Jain, Bernard Ghanem,and Cees G. M. Snoek. Guess where? actor-supervision forspatiotemporal action localization. Comput. Vis

下载后可阅读完整内容，剩余1页未读，立即下载