弱监督时间动作定位中的动作完整性学习

118 浏览量更新于2023-10-13 收藏 13.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

GolfSwingBackgroundActiontimetimeemeGolfSwing136480从点中学习动作完整性以进行弱监督的时间动作定位0Pilhyeon Lee 1 Hyeran Byun 1,2*01 韩国延世大学计算机科学系 2韩国延世大学人工智能研究生院0{ lph1114, hrbyun } @yonsei.ac.kr0摘要0我们解决了仅具有每个动作实例的单帧标签用于训练的情况下，定位动作时间间隔的问题。由于标签稀疏性，现有方法无法学习动作的完整性，导致动作预测不完整。在本文中，我们提出了一种新颖的框架，通过生成密集的伪标签为模型提供完整性指导。具体而言，我们首先选择伪背景点来补充点级别的动作标签。然后，通过将这些点作为种子，我们搜索可能包含完整动作实例并与种子一致的最佳序列。为了从获得的序列中学习完整性，我们引入了两种新的损失函数，分别从动作分数和特征相似性方面对动作实例与背景实例进行对比。实验结果表明，我们的完整性指导确实帮助模型定位完整的动作实例，尤其在高IoU阈值下获得了大幅度的性能提升。此外，我们在四个基准测试集（THUMOS'14，GTEA，BEOID和ActivityNet）上展示了我们方法优于现有最先进方法的优越性。值得注意的是，我们的方法在比全监督方法便宜6倍的注释成本下表现出可比性。我们的代码可在https://github.com/Pilhyeon找到。01. 引言0时间动作定位的目标在于定位动作实例的起始和结束时间戳，并对其进行分类。由于各种应用的存在[33，45，48]，时间动作定位引起了研究人员的广泛关注，并在全监督设置（即帧级标签）[27，41，43，50]中取得了快速和显著的进展。同时，为了减少逐帧注释的昂贵成本，人们开始设计具有视频级标签的弱监督模型[7，32，46，56]。0*通讯作者0模型0动作分数0（针对GolfSwing类）0完整性指导0种子0最佳序列0输入视频0搜索0点级别标签0图1：我们的想法的简化说明。我们使用点作为种子来找到最佳序列，进而为模型提供完整性指导。0然而，它们在很大程度上落后于全监督方法，主要是因为它们无法有效区分动作和背景帧[17，18，38，52]。为了缩小它们之间的性能差距，最近提出了另一种弱监督设置，即点级别监督。在这种设置中，仅对每个动作实例的单个时间戳（点）进行注释，并标注其动作类别。在标注成本方面，与视频级别标签相比，点级别标签需要几乎没有额外的成本，而与帧级别标签相比便宜6倍（每1分钟视频50秒 vs.300秒）[31]。尽管成本可承受，但它提供了粗略的位置以及动作实例的总数，从而为模型提供了强大的动作检测能力。因此，在低交并比（IoU）阈值下，点级别监督方法显示出与全监督方法相当甚至更好的性能。然而，研究表明，在高IoU阈值下，它们的预测不完整，导致性能大幅下降。我们推测这个问题是由于点级别标签的稀疏性所致，这使得模型只学习了动作的一小部分而不是完整的动作实例。换句话说，它们无法从点注释中学习动作的完整性。尽管SF-Net[31]通过挖掘伪动作和背景点来缓解标签稀疏性，但它们是不连续的，因此无法提供完整性线索。136490本文旨在使模型在点监督设置下学习动作的完整性。为此，我们引入了一个新的框架，根据点注释生成稠密的伪标签（即序列），以向模型提供完整性指导。整体工作流程如图1所示。从技术上讲，我们首先选择伪背景点来增强点级别的动作标签。如前所述，这些点注释是不连续的，因此从中学习完整性是不可行的。为此，我们提出在与点标签一致的候选序列中搜索覆盖完整动作实例的最佳序列。然而，如何衡量每个候选序列中的实例完整性是一个非常复杂的问题，因为我们没有完全的监督。为了实现这一点，我们借鉴了外部-内部对比概念[42]作为实例完整性的代理。直观地说，一个完整的动作实例通常显示出较大的得分对比，即内部帧的动作得分远高于周围帧的得分。相反，一个残缺的实例可能在其外部区域（仍然在动作内部）具有较高的动作得分，导致得分对比较小。这也适用于背景实例。基于这个特性，我们通过聚合构成序列的动作和背景实例的得分对比来推导输入序列的得分。通过最大化得分，我们可以获得最佳序列，该序列很可能与我们没有的真实标签很好地对齐。在实验中，我们展示了最佳序列的准确性以及得分对比与完整性之间的相关性。从获得的序列中，模型应该学习动作的完整性。为此，我们设计了得分对比损失，通过增加序列的完整性来最大化模型输出与最佳序列之间的一致性。通过这个损失，模型被训练来区分每个动作（背景）实例与其周围的动作得分。此外，我们引入特征对比损失来促进动作和背景实例之间的特征差异。实验证实，所提出的损失函数有助于模型检测完整的动作实例，在高IoU阈值下取得了很大的性能提升。总结起来，我们的贡献有三个方面。0•我们引入了一个新的框架，在点监督设置下生成稠密的最佳序列，为模型提供完整性指导。0•我们提出了两种新的损失函数，通过对比动作实例与背景实例的动作得分和特征相似性，来促进动作完整性的学习。0•我们的模型在四个基准测试中取得了新的最优结果，并且甚至在与全监督方法的比较中表现出色。02. 相关工作0全监督的时间动作定位。为了解决时间动作定位问题，全监督方法依赖于精确的时间注释，即帧级别的标签。它们主要采用两阶段的方法（提议生成和分类），并且可以根据生成提议的方式大致分为两组。第一组使用滑动窗口技术[4, 41,43, 49, 53, 55,62]生成大量的提议。另一组首先预测每个帧作为动作实例起始（结束）点的概率，然后使用可能的起始和结束点的组合作为提议[21, 22, 23,61]。同时，还有一些图建模方法将片段[1,51]或提议[57]作为节点。与利用昂贵的帧级别标签进行动作完整性学习的全监督方法不同，我们的方法通过引入一种新的框架，只使用点级别标签就能实现动作完整性学习。0弱监督时序动作定位。为了减轻帧级标签的成本问题，最近已经尝试在弱监督设置中解决相同的任务，主要使用视频级标签。Untrimmednets[46]通过选择对视频级分类有贡献的片段来解决这个问题。STPN[37]对关键帧施加了稀疏的约束。此外，在视频监督设置下还有背景建模方法[9, 17, 18,38]。为了学习可靠的注意力权重，DGAM[40]设计了一种生成建模方法，而EM-MIL[30]采用了期望最大化策略。同时，度量学习被用于动作表示学习[10, 36,39]或动作-背景分离[34]。还有一些方法探索子动作[11,29]或利用RGB和光流模态的互补性[54,58]。此外，一些方法利用外部信息，例如动作计数[36,52]、姿势[60]或音频[16]。此外，一些方法旨在通过聚合多个预测[25]、擦除最具有区分性的部分[44,63]或直接回归动作间隔[28, 42]来检测完整的动作实例。0最近，开始探索点级监督，这提供了以可承受的成本获取丰富信息的机会。Moltisanti等人[35]首次利用点级标签进行动作定位。SF-Net[31]采用伪标签挖掘策略来获取更多标记帧。同时，Ju等人[13]基于关键帧预测进行边界回归。然而，他们没有明确考虑动作的完整性，因此产生的预测只覆盖了部分动作实例。相反，我们提出通过将动作实例与周围背景实例进行对比，从密集的伪标签中学习动作的完整性。在第4节中，我们的方法的有效性在高IoU阈值下得到了明显的验证，性能显著提升。RGBFlow��: Concatenation: Temporal top-�� pooling: Element-wise productCPCP��Optimal sequence ��∗��~~ : Complement operator1ˆpvid[c] = 1kmaxS⊂ ˆP [c,:]�∀m∈Sm,(1)Lvideo = −C�c=1�yvid[c] log ˆpvid[c]]+ (1 − yvid[c]) log (1 − ˆpvid[c])�.(2)136500特征提取器 ��0视频级0分类损失0点级0分类损失0基准0完整性学习0最佳序列0搜索0得分0对比损失0特征0对比损失0动作实例特征：背景实例特征：相互推动：相互拉动0仅适用于GT类别（例如GolfSwing）0点级动作标签0背景得分 ��0嵌入特征 ��0提取的特征 ��0��动作得分 ��0��最终得分 � ��0图2：提出方法的概述。除了传统的目标，即视频级和点级分类损失，我们还提出了学习动作完整性（下部分）。根据最终的动作得分，从与点级标签一致的候选序列中选择最佳序列。它反过来通过两个提出的损失函数将动作实例与背景实例在动作得分和特征相似性方面进行对比，提供完整性指导。03. 方法0在本节中，我们首先描述问题设置并详细介绍基线设置。然后，详细说明最优序列搜索，接着介绍我们的动作完整性学习策略。最后，我们解释模型的联合学习和推理。我们的方法的整体架构如图2所示。问题设置。按照[13,31]的方法，我们设置了点监督的时序动作定位问题。给定一个输入视频，为每个动作实例提供一个单独的点和类别，即 B act = { ( t i , y t i ) } M act i =1 ，其中第 i个动作实例在第 t i 个片段（帧）上标记有其动作标签 y t i，而 M act是输入视频中动作实例的总数。点按时间顺序排序（即 t i< t i +1 ）。标签 y t i 是一个二进制向量，如果第 i个动作实例包含第 c 个动作类别，则 y t i [ c ] = 1，否则对于 C 个动作类别为 0。值得注意的是，视频级别的标签 y vid可以通过聚合点级别的标签得到，即 y vid [ c ] =0i =1 y t i [ c ] > 0 ，其中 1 [ ∙ ] 是指示函数。03.1. 基线设置0我们的基线模型如图2的上部所示。我们首先将输入视频分为16帧的片段，然后将其输入到预训练的特征提取器中。按照[17,39]的方法，我们同时使用RGB和光流两个流，并进行早期融合。两个流的特征通过连接进行融合，得到 X ∈ R D × T，其中 D 和 T分别表示特征维度和片段数量。提取的特征经过一个单一的一维卷积层和ReLU激活函数处理，得到0将提取的特征 X 转换为嵌入特征 F。在实践中，我们将嵌入特征的维度设置为与提取特征 X相同，即 F ∈ R D × T。然后，将嵌入特征输入到一个带有sigmoid函数的一维卷积层中，以预测段级别的类别得分 P ∈ R C × T ，其中 C表示动作类别的数量。同时，我们得到类别无关的背景得分Q ∈ R T，用于建模不属于任何动作类别的背景帧。然后，我们将动作得分与背景概率的补集融合，得到最终得分 ˆ P ，即 ˆ p t[ c ] = p t [ c ](1 − q t )。这种融合策略类似于[18]，尽管我们的模型中没有考虑分布建模。然后，将段级别的动作得分聚合为单个视频级别的类别得分。我们使用时间上的 top-k 池化进行聚合，与[17,39]中的方法相同。形式上，视频级别的概率计算如下。08 � 且 S 表示包含 k 个片段的 ˆ P [ c, :] 的所有可能子集，即| S | = k。我们的基线模型分别使用视频级别和点级别标签来计算两个损失函数。如前所述，视频级别的类别标签 y vid [ c ]可以通过累积点级别标签来得到。然后，使用二元交叉熵计算视频级别的分类损失。Lactpoint = −1M act�∀(t,yt)∈Bact�C�c=1�yt[c](1 − ˆpt[c])β log ˆpt[c]+ (1 − yt[c])ˆpt[c]β log (1 − ˆpt[c])+ qβt log (1 − qt) ,Lbkgpoint = −1M bkgbkg�Cˆpt[c]β log (1 − ˆpt[c]) + (1 − qt)β log qt�,�Lpoint = Lactpoint + Lbkgpoint.(5)R(πc) = 1NcNc�n=1� 1lcnecncucn(t)−1δlcn + δlcnccucn(t) +ecn+⌊δlcn⌋cucn(t)��,136510点级别的分类损失也是通过二元交叉熵计算的，但是为了有效训练Q，它还涉及到背景项。此外，我们采用了焦点损失[24]来促进训练过程。形式上，动作点的分类损失定义如下。0(3) 其中，M act 表示视频中的动作实例数量，β是聚焦参数，根据原始论文[24]的设定为2。仅使用动作点进行训练会导致网络始终产生较低的背景分数，而不是学习将动作和背景分开。因此，我们收集一些伪背景点来补充动作点。我们选择的原则是在两个相邻的动作实例之间至少要放置一个背景帧来将它们分开。根据问题定义，两个不同的动作点是从不同的实例中采样的，因此我们使用动作点作为相应实例的替代品。具体而言，在两个相邻的动作点之间，我们找到背景分数q t大于阈值γ的片段。如果在一个区段中没有满足条件的片段，我们选择背景分数最大的一个。同时，对于在一个区段中选择多个背景点的情况，我们将它们之间的所有点标记为背景，因为在那里明显没有动作存在。在实践中，与全局挖掘[31]相比，这种策略被证明更加有效，可以收集更多的困难点。给定伪背景点集合 B bkg = { t j } M bkg j =1，背景点的分类损失计算如下：0(4) 其中，M bkg 表示选择的背景点的数量，β是聚焦因子，与(3)中相同。对于伪背景点，我们惩罚所有动作类别的最终分数，同时鼓励背景分数。点级别的总损失函数定义为动作点和伪背景点的损失之和。03.2. 最优序列搜索0如第1节所讨论的，点级别的分类损失不足以学习动作的完整性，因为点标签只覆盖了动作实例的一小部分。因此，我们提出生成密集的伪标签，可以提供关于模型动作完整性的一些提示。0为了模型提供关于动作完整性的一些提示，我们考虑与动作和伪背景点一致的所有可能的序列候选项。在其中，我们找到能够为模型提供良好完整性指导的最优序列。然而，没有完全监督的情况下，衡量候选序列覆盖完整动作实例的程度是非常困难的。为了实现这一点，我们将外部-内部对比概念[42]重新用作判断序列完整性得分的代理。直观上，完整动作实例的内部和外部分数之间的对比可能较大，而片段性的动作实例则较小。需要注意的是，我们的目的与原始论文[42]不同。它最初是设计用于参数边界回归。相反，我们将其作为一个评分函数来搜索最优序列，从中模型可以学习动作的完整性。在详细介绍评分函数之前，我们介绍候选序列的表达方式。由于时序动作定位具有多标签的特性，我们为每个动作类别考虑类别特定的序列。注意，属于其他动作类别的所有片段都被视为类别c的背景。然后，一个序列被定义为多个连续交替的动作和背景（包括其他动作）实例。形式上，类别c的序列可以表示为πc = { ( s c n , e c n , z c n )} N c n =1 ，其中s c n和e cn分别表示第n个实例的起始和结束点，N c是类别c的实例总数。此外，z c n ∈ { 0 , 1}表示实例的类型，即如果第n个实例是类别c的动作，则z cn =1，否则为0（背景）。给定一个输入序列，我们通过计算包含在序列中的各个动作和背景实例的对比分数的平均值来计算其完整性得分。需要注意的是，背景实例的对比分数也包含在计算中，这对于找到更准确的最优序列是有效的，如第4.3节所示。形式上，第c个动作类别的序列πc的完整性得分计算如下：0� �� 内部得分0� �� 外部得分0其中 u c n ( t ) =0� ˆ p t [ c ] , 如果 z c n = 1. 1 − ˆ p t [ c ] , 否则 . ,0(6) l c n = e c n − s c n + 1 是 π c的第n个实例的时间长度，δ是调整外部范围的超参数（设为0.25），N c是类别c的动作和背景实例的总数。然后，最优序列为Pseudo backgroundselection𝑻ℛ 𝜋𝑐1 = 0.4Lscore =1Cc=1 yvid[c]C�c=1yvid[c]�1 − R(π∗c)�β,(7)c=1 zcn > 1C�c=11zcn > 1 ℓcfeat,Nczcn log̸̸136520（a）低估0� � � 2 = 0.6 （b）高估0类别�的种子0最终得分� �[�, : ]0点级别动0对于类别� �0所有可能的候选者0图3：类别c的最优序列搜索。给定最终得分和点级别标签，我们选择伪背景点。然后，在所有可能的候选者中，我们搜索最优序列，以最大化完整性得分（6）。0可以通过找到最大化得分的序列来获得类别c的最优序列，即，π � c = arg max π c R ( π c)，使用（6）。最优序列搜索过程如图3所示。通过评估完整性得分，我们的方法可以拒绝低估（图3a）和高估（图3b）的情况。因此，我们获得了最有可能包含完整动作实例的最优序列。然而，随着T的增加，搜索空间呈指数增长，导致最优序列搜索的巨大成本。为了缓解这个问题，我们在有限的预算下使用贪婪算法实现了搜索过程，从而大大节省了计算成本。附录B中详细介绍了算法和成本分析。请注意，最优序列搜索仅针对视频中包含的动作类别进行。03.3. 动作完整性学习0给定类别特定的最优序列{ π � c } C c=1，我们的目标是让模型学习动作的完整性。为此，我们设计了两个损失函数，通过对比动作实例和背景实例来实现完整性学习。这有助于完整的动作预测，如第4节所验证的。首先，我们提出了得分对比损失，通过最终得分将动作（背景）实例与周围环境分离开来。它也可以解释为将模型输出拟合到最优序列（图2a）。形式上，损失函数计算如下：0其中我们使用β的平方项来关注与最优序列不一致的实例（β= 2）。其次，受到对比学习[5, 8,14]的最近成功的启发，我们设计了特征对比损失。我们的直觉是，具有相同动作类别的不同实例的特征应该比同一视频中的任何其他背景实例更接近彼此（图2b）。我们注意到我们的损失与[5, 8,14]不同，因为它们拉动输入图像的不同视图，而我们的损失则吸引给定视频中的不同动作实例。此外，我们的损失不需要从不同图像进行负采样，因为背景实例是从同一视频中获得的。0为了提取每个动作（或背景）实例的代表性特征，我们通过将感兴趣的段（SOI）池化 [4]中的最大池化替换为随机采样来进行修改。具体而言，我们将每个输入实例均匀地分成三个区间，从每个区间中随机采样一个段。然后，对采样段的嵌入特征进行平均，得到表示第 n 个实例的序列 π � c 的代表性特征 f cn。将归一化的实例特征 ¯ f c n作为输入，我们得到特征对比损失。该损失仅计算那些动作计数大于1的类别，即视频中至少存在两个动作实例的类别。请注意，背景实例不会相互吸引。给定最优序列 � π � c = {( s c n , e c n , z c n ) } N c n =1 � C c=1，提出的特征对比损失的公式如下：0L feat = 10� N c �0ℓ c feat = -1 � N c n =1 z cn0� o ≠ n z c o exp ( ¯ f c n∙ ¯ f c o /τ ) � m ≠ n exp (0(8) 其中 ℓ c feat 是类别 c 的部分损失，τ 是温度参数，1 [∙]是指示函数。03.4. 联合训练和推理0我们模型的整体训练目标如下所示。0L total = λ 1 L video + λ 2 L point + λ 3 L score + λ 4 L feat ,0其中 λ �是用于平衡损失的权重参数，经验性地确定。在测试时，我们首先使用 θ vid 对视频得分 ˆ p vid进行阈值处理，以确定要定位的动作类别。然后，仅对剩余的类别，我们使用 θ seg 对段级别的最终得分 ˆ p t进行阈值处理，选择候选段。然后，连续的候选段被合并成一个单独的提案，成为一个定位结果。我们将每个提案的置信度设置为其外部-内部对比得分，与 [17, 25]中的方法相同。为了增加提案池，我们使用多个 θ seg阈值，并进行非极大值抑制（NMS）以去除重叠的提案。请注意，最优序列搜索不会在测试时执行，因此不会影响推理时间。)136530监督方法 mAP@IoU (%) AVG AVG0帧级别（全）0BMN [22] - - 56.0 47.4 38.8 29.7 20.5 - 38.50P-GCN [57] 69.5 67.8 63.6 57.8 49.1 - - 61.6 -0G-TAD [51] - - 54.5 47.6 40.2 30.8 23.4 - 39.30BC-GNN [1] - - 57.1 49.1 40.4 31.2 23.1 - 40.20Zhao et al. [61] - - 53.9 50.7 45.4 38.0 28.5 - 43.30视频级别（弱）0Lee et al. [18] 67.5 61.2 52.3 43.4 33.7 22.9 12.1 51.6 32.90CoLA [59] 66.2 59.5 51.5 41.9 32.2 22.0 13.1 50.3 32.10AUMN [29] 66.2 61.9 54.9 44.4 33.3 20.5 9.0 52.1 32.40TS-PCA [26] 67.6 61.1 53.4 43.4 34.3 24.7 13.7 52.0 33.90UGCT [54] 69.2 62.9 55.5 46.5 35.9 23.8 11.4 54.0 34.60点级别（弱）0SF-Net † [31] 71.0 63.4 53.2 40.7 29.3 18.4 9.6 51.5 30.20Ju et al. † [13] 72.8 64.9 58.1 46.4 34.5 21.8 11.9 55.3 34.50我们的方法 † 75.1 70.5 63.3 55.2 43.9 33.3 20.8 61.6 43.30Moltisanti et al. ‡ [35] 24.3 19.9 15.9 12.5 9.0 - - 16.3 -0SF-Net ‡ [31] 68.3 62.3 52.8 42.2 30.5 20.6 12.0 51.2 31.60Ju等人‡ [13] 72.3 64.7 58.2 47.1 35.9 23.0 12.8 55.6 35.40我们‡ 75.7 71.4 64.6 56.5 45.3 34.5 21.8 62.7 44.50表1：在THUMOS'14上的最新比较。我们还包括视频级和帧级监督方法供参考。平均mAP在IoU阈值0.1:0.5和0.3:0.7下计算，步长为0.1。†表示使用来自[31]的手动注释标签，‡表示使用在[35]中自动生成的标签。04. 实验04.1. 实验设置0数据集。THUMOS'14[12]包含20个动作类别，验证集和测试集分别包含200和213个未修剪的视频。由于长度多样且动作实例频繁出现，该数据集被认为具有挑战性。按照惯例[37]，我们使用验证视频进行训练，使用测试视频进行测试。GTEA[19]包含28个厨房中的7个细粒度日常动作视频，其中21个视频用于训练，7个视频用于测试。BEOID[6]有58个视频，共30个动作类别。我们遵循[31]提供的数据划分。ActivityNet[2]是一个大规模数据集，有两个版本。版本1.3包括10,024个训练视频，4,926个验证视频和5,044个测试视频，涵盖200个动作类别。版本1.2包括4,819个训练视频，2,383个验证视频和2,480个测试视频，涵盖100个类别。我们在两个版本的验证集上评估我们的模型。需要注意的是，我们的模型只使用点级注释进行训练。评估指标。按照时序动作定位的标准协议，我们计算在不同交并比（IoU）阈值下的平均精度（mAP）。我们注意到在小的IoU阈值下的性能表现出发现动作的能力，而在高的IoU阈值下的性能表现出动作预测的完整性。实现细节。我们使用在Kinetics-400[3]上预训练的双流I3D网络[3]作为特征提取器。0为了进行公平比较，我们在实验中没有对特征提取器进行微调。我们使用TV-L1算法[47]来获取光流图。每个视频被分割成16帧的片段，这些片段作为特征提取器的输入，为每种模态（即D =2048）生成1024维的特征。我们使用原始的片段数T而不进行采样。我们的模型使用学习率为10^-4和批量大小为16的Adam进行优化。超参数通过网格搜索确定：γ = 0.95，τ =0.1。视频级阈值θ_vid设置为0.5，而片段级阈值θ_seg从0到0.25，步长为0.05。NMS使用阈值0.6进行执行。04.2. 与最先进方法的比较0在表1中，我们在THU-MOS'14上将我们的方法与最先进的模型在不同级别的监督下进行了比较。我们注意到，相对于弱监督模型，全监督模型需要更昂贵的注释成本。在比较中，我们的模型明显优于最先进的点级监督方法。我们还注意到在高IoU阈值下存在较大的性能差距，例如，在mAP@0.6上约为11％，在mAP@0.7上约为9％。这证实了所提出的方法有助于定位完整的动作实例。同时，我们的模型在与可比的标注成本下也大大超过了视频监督方法。此外，我们的模型在更低的标注成本下甚至在平均mAP方面也表现出色。然而，由于缺乏边界信息，我们的模型在高IoU阈值下落后于全监督方法。GTEASF-Net [31]58.037.919.311.931.0SF-Net∗ [31]52.937.621.713.731.1BEOIDSF-Net [31]62.940.616.73.530.9SF-Net∗ [31]64.642.227.312.236.5Frame-levelSSN [62]41.327.06.126.6AUMN [29]42.025.05.625.5UGCT [54]41.825.35.925.8CoLA [59]42.725.75.826.1Point-levelSF-Net [31]37.8--22.8.2..ndurh a-r-iv-verer-instosBMN [22]50.134.88.333.9P-GCN [57]48.333.23.331.1G-TAD [51]50.434.69.034.1BC-GNN [1]50.634.89.434.2AUMN [29]38.323.55.223.5TS-PCA [54]37.423.55.923.7.3..51.937.120.36.028.770.758.140.716.147.375.164.444.520.052.072.160.542.117.949.075.764.645.321.852.8tsmAP@ IoU (%)AV G0.10.30.50.7op-elar-,yndshe136540数据集方法 mAP@IoU (%) AVG 0.1 0.3 0.5 0.70Ju等人 [ 13 ] 59.7 38.3 21.9 18.1 33.70Li等人 [ 20 ] 60.2 44.7 28.8 12.2 36.40我们的方法 63.9 55.7 33.9 20.8 43.50Ju等人 [ 13 ] 63.2 46.8 20.9 5.8 34.90Li等人 [ 20 ] 71.5 40.3 20.3 5.5 34.40我们的方法 76.9 61.4 42.7 25.1 51.80表2：GTEA和BEOID上的最新比较。AVG表示在阈值0.1:0.1:0.7下的平均mAP。*表示官方实现的再现结果。0监督方法 mAP@IoU (%) AVG 0.5 0.75 0.950视频级别0Lee等人 [ 18 ] 41.2 25.6 6.0 25.90我们的方法 44.0 26.0 5.9 26.80表3：ActivityNet1.2上的最新比较。AVG是在阈值0.5:0.05:0.95下的平均mAP。0我们在GTEA和BEOID基准测试中提供了实验结果，见表2。在这两个数据集上，我们的方法与现有最先进方法相比具有较大的差距。值得注意的是，我们的方法在0.5和0.7的高阈值下显示出显著的性能提升，验证了所提出的完整性学习的有效性。表3和表4总结了在ActivityNet上的结果。我们的模型在所有现有的弱监督方法上都显示出更好的性能。还可以观察到，与THUMOS'14相比，基于视频级别标签的性能提升相对较小，我们推测这是由于动作实例较少（每个视频1.5个实例 vs. 15个实例）所致。04.3. 分析0每个组件的影响。在表5中，我们进行了消融研究，以调查每个组件的贡献。上部分报告了基线性能，我们观察到点级别监督带来了较大的得分增益，特别是在低IoU阈值下。这主要来自背景建模[ 17 , 18 , 38]和点注释在定位动作实例方面的帮助。另一方面，下部分展示了所提出方法的结果，其中为模型提供了完整性指导。我们观察到绝对平均mAP增益分别为4.7%和1.7%。0监督方法 mAP@IoU (%) AVG 0.5 0.75 0.950帧级别0Zhao等人 [ 61 ] 43.5 33.9 9.2 30.10视频级别0Lee等人 [ 18 ] 37.0 23.9 5.7 23.70点级别我们的方法 40.4 24.6 5.7 25.10表4：ActivityNet1.3上的最新比较。AVG是在阈值0.5:0.05:0.95下的平均mAP。0L视频 L点 L分数 L特征 mAP@IoU (%) AVG 0.1 0.3 0.5 0.70表5：THUMOS'14上的消融研究。AVG表示在IoU阈值0.1:0.1:0.7上的平均mAP。0评分方法序列准确率0基准 N/A 70.7 58.1 40.7 16.1 47.30(a) 内部得分 74.0 74.7 61.4 40.9 15.2 49.0 (b) 对比-激活 80.1 74.3 63.343.6 19.5 50.8 (c) 对比-全部 83.9 75.7 64.6 45.3 21.8 52.80表6：THUMOS'14上不同评分方法的比较。AVG表示在IoU阈值0.1:0.1:0.7上的平均mAP。0关于得分和特征相似性的对比损失，进一步提升了性能至52.8%。这清楚地表明了我们提出的两个损失是互补的，并且对于精确的动作定位是有益的。值得注意的是，高IoU阈值下的得分显著提高，验证了我们的完整性学习的有效性。不同评分方法的比较。在表6中，我们比较了不同的序列评分方法，包括训练集中的帧级准确率以及THUMOS'14测试集中的定位性能。具体而言，我们研究了三种变体：(a)动作实例的内部得分和(b)得分对比，以及(c)动作和背景实例的对比。结果显示，与内部得分相比，对比方法生成了更准确的最优序列，并在高IoU阈值下带来了更大的性能提升。此外，我们观察到将背景实例纳入得分计算有助于找到高度准确的最优序列，从而提高了测试时的定位性能。GTComparison - THUMOSVideo_test_00000635Video_test_00000541mAP@IoU (%)AVG0.30.50.7er-r-136550最终得分0(SF-Net [31])0检测0(SF-Net [31])0最终得分0(我们的)0检测0(我们的)0时间0时间0图4：在THUMOS'14上与SF-Net[31]的定性比较。我们提供了两个不同动作类别的示例：(1)挺举和(2)足球点球。对于每个视频，我们展示了SF-Net和我们模型的最终得分、检测结果以及地面真实动作区间。我们的方法的检测阈值设置为0.2，SF-Net的阈值设置为原始论文中的平均得分。红色框表示SF-Net误分类但被我们的方法检测到的帧。请注意，我们所有的检测结果与地面真实值的IoU都很高( >0.6)。0方法分布序列准确率0SF-Net [31]0手动 N/A 53.3 28.8 9.7 40.60均匀分布 N/A 52.0 30.2 11.8 40.50高斯分布 N/A 47.4 26.2 9.1 36.70Ju等人[13]0手动 N/A 58.1 34.5 11.9 44.30均匀分布 N/A 55.6 32.3 12.3 42.90高斯分布 N/A 58.2 35.9 12.8 44.80手动 83.7 63.3 43.9 20.8 51.70均匀分布 76.6 60.4 42.6 20.2 49.30高斯分布 83.9 64.6 45.3 21.8 52.80表7：THUMOS'14上不同分布的点级标签的比较。AVG表示在IoU阈值0.1:0.1:0.7上的平均mAP。0不同标签分布的比较。在表7中，我们探索了不同的标签分布。'手动'表示使用[31]中的人工注释，而其他标签表示相应分布的模拟标签。结果显示，我们的方法无论选择哪种分布都明显优于现有方法，表现出其鲁棒性。我们还观察到，与其他分布相比，我们的方法在'均匀'分布中表现稍差。我们推测这是因为较少有区分度的点更有可能被注释。它们的邻居可能具有较低的置信度，可能导致贪婪算法产生次优序列。事实上，最优序列准确率在均匀分布中最低，这支持了我们的说法。04.4. 定性比较0我们在图4中与SF-Net[31]进行了定性比较。可以清楚地看到我们的方法更准确地定位了动作实例。具体而言，在左侧示例中，SF-Net产生了不完整的预测，包括漏报，而我们的方法则检测到了完整的动作实例而没有将其分割。在右侧示例中，虽然0SF-Net对动作实例的误报较多，而我们的方法通过很好地对比动作帧和背景帧产生了精确的检测结果。红色框标出了左侧和右侧示例中SF-Net的误报和漏报。我们注意到，我们模型在这两个示例中的所有预测与相应的真实实例的IoU都大于0.6，验证了我们的完整性学习的有效性。有关其他基准测试和更多可视化结果的比较，请参见附录的第C节。05. 结论0在本文中，我们提出了一种新的点监督时间动作定位框架，其中密集序列为模型提供了完整性指导。具体而言，我们根据完整性得分找到与点标签一致的最佳序列，该得分通过贪婪算法高效实现。为了从获得的序列中学习完整性，我们引入了两种新的损失函数，分别鼓励动作得分和特征相似性方面的动作和背景实例之间的对比。实验证实了最佳序列的准确性，并且所提出的损失确实有助于检测完整的动作实例。此外，我们的模型在四个基准测试中取得了新的最优结果，与完全监督方法相比，平均性能更好，尽管监督程度较低。0致谢0该项目部分得到了韩国国家研究基金会（MSIT）（编号2019R1A2C2003760）和韩国信息通信技术规划与评估研究所（IITP）（编号2020-0-01361：人工智能研究生院项目（YONSEIUNIVERSITY））的资助。136560参考文献0[1] Yueran Bai, Yingying Wang, Yunhai Tong, Yang Yang,Qiyue Liu, and Junhui Liu.用于时间动作提案生成的边界内容图神经网络. 在ECCV中,页码121-137, 2020. 2 , 6 , 70[2] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem,and Juan Carlos Niebles. Activitynet:用于人类活动理解的大规模视频基准. 在CVPR中, 页码961-970,2015. 60[3] Joao Carreira and Andrew Zisserman. Quo vadis,动作识别？一种新模型和动力学数据集.

下载后可阅读完整内容，剩余1页未读，立即下载