无监督边界对比学习用于通用事件边界检测的文件

63 浏览量更新于2023-10-25 收藏 15.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

200730UBoCo：用于通用事件边界检测的无监督边界对比学习0康孝琳*，金进宇*，金泰贤，金善柱0延世大学0{ hyolimkang，jinwoo-kim，kimth0101，seonjookim } @yonsei.ac.kr0摘要0通用事件边界检测（GEBD）是一种新提出的视频理解任务，旨在找到事件的更深层语义边界。作为自然人类感知和视频理解之间的桥梁，它具有各种潜在的应用，包括可解释和语义有效的视频解析。目前处于早期开发阶段，现有的GEBD求解器是相关视频理解任务的简单扩展，忽视了GEBD的独特特征。在本文中，我们提出了一种新颖的无监督/监督GEBD框架，使用时间自相似矩阵（TSM）作为视频表示。新的递归TSM解析（RTP）算法利用TSM中的局部对角线模式来检测边界，并与边界对比（BoCo）损失结合，训练我们的编码器生成更多信息丰富的TSM。我们的框架可以应用于无监督和监督设置，两者在GEBD基准测试中都取得了巨大的最先进性能。特别是，我们的无监督方法在性能上超过了先前的最先进的“监督”模型，表明其异常的有效性。01. 引言0随着视频平台的普及，视频理解任务在计算机视觉社区引起了广泛关注。目前视频处理的主流惯例[3, 15, 16, 21,28]仍然将整个视频分成短的非重叠片段，每个片段具有固定的持续时间，忽略了视频的语义连续性。另一方面，认知科学家观察到人类将视觉流视为一组事件[39]，这暗示着有研究空间来找出一种保留视频片段的语义有效性和可解释性的方法。从这个角度来看，通用事件边界检测（GEBD）[37]可以看作是将人类感知机制与视频理解相互连接的一种新尝试。GEBD的目标是确定内容更改时刻，人类将其视为事件边界。为了反映人类感知，该任务的标签按照找到比视频级事件更深层次的边界的指示进行注释，而不考虑动作类别。这个特点使GEBD与以前的视频定位任务[42]有所不同，因为标签仅由自然人类感知给出，而不是预定义的动作类别。最近发布的Kinetics-GEBD[37]是GEBD的第一个数据集。数据集的独特之处在于事件边界标签由5个不同的注释者注释，使数据集传达了人类感知的主观性。此外，[37]还包括了GEBD任务的各种基线方法。基于与时间动作定位（TAL）的相似性，许多建议的GEBD方法是以前TAL作品的扩展[26, 27]，而一些无监督方法则利用了镜头检测方法和事件分割理论[25, 36,43]。关于基线GEBD方法的详细说明可以在第2节中找到。然而，现有方法的直接采用存在明显的局限性，因为它们直接使用预训练特征来预测边界点。由于这些特征是从分类预训练网络（如ResNet-50[19]）中提取的，它们不可避免地关注特定类别或对象中心的信息。然而，许多事件边界，特别是那些难以检测的边界，不涉及场景变化（例如，图1中的“待机”帧和“运行”帧共享大部分场景信息）。对于捕捉事件边界，真正重要的是相邻帧之间的关系，这意味着需要一种新的方法0* 相等贡献，按姓氏排序0来保留语义有效性和可解释性的视频片段。从这个角度来看，通用事件边界检测（GEBD）[37]可以看作是将人类感知机制与视频理解相互连接的一种新尝试。GEBD的目标是确定内容更改时刻，人类将其视为事件边界。为了反映人类感知，该任务的标签按照找到比视频级事件更深层次的边界的指示进行注释，而不考虑动作类别。这个特点使GEBD与以前的视频定位任务[42]有所不同，因为标签仅由自然人类感知给出，而不是预定义的动作类别。最近发布的Kinetics-GEBD[37]是GEBD的第一个数据集。数据集的独特之处在于事件边界标签由5个不同的注释者注释，使数据集传达了人类感知的主观性。此外，[37]还包括了GEBD任务的各种基线方法。基于与时间动作定位（TAL）的相似性，许多建议的GEBD方法是以前TAL作品的扩展[26,27]，而一些无监督方法则利用了镜头检测方法和事件分割理论[25, 36,43]。关于基线GEBD方法的详细说明可以在第2节中找到。然而，现有方法的直接采用存在明显的局限性，因为它们直接使用预训练特征来预测边界点。由于这些特征是从分类预训练网络（如ResNet-50[19]）中提取的，它们不可避免地关注特定类别或对象中心的信息。然而，许多事件边界，特别是那些难以检测的边界，不涉及场景变化（例如，图1中的“待机”帧和“运行”帧共享大部分场景信息）。对于捕捉事件边界，真正重要的是相邻帧之间的关系，这意味着需要一种新的方法……200740待机完成跑步0B0S0S D0D0边界附近的相似性模式时间自相似矩阵0边界（B）相似（S）0相似（S）0不相似（D）0跑步轨迹0图1.GEBD是一项比视频级别事件更细粒度的边界查找任务。（a）帧之间的关系表明相邻帧之间的局部相似性得分保持不变，除了在事件边界附近。（b）事件边界B附近的相似性模式，黄色区域S表示高相似性得分，蓝色区域D表示低相似性得分。（c）时间自相似矩阵（TSM）表示视频帧之间的成对自相似性得分。在事件边界中观察到相似的模式，我们可以通过从TSM中挖掘这种模式来检测边界帧。0为了充分利用TSM，我们引入了一种新的方法来发现通用事件边界，该方法可以应用于无监督和有监督的设置中。我们的主要观察来自于观察视频的自相似性，将其可视化为时间自相似矩阵（TSM）。尽管TSM被认为是分析周期性视频的有用工具，因为它对噪声具有鲁棒性[1, 2, 14,34]，但我们发现TSM的潜力不仅限于周期性视频，而且可以扩展到分析非周期性视频，只要我们关注其局部对角线模式。具体而言，我们可以通过将TSM作为GEBD求解器的信息瓶颈来利用TSM的鲁棒性，使其在未见过的场景、对象甚至动作类别上表现良好[14]。图1简要说明了我们的观察。对于给定视频中的一系列事件，事件边界处存在语义不一致，导致边界点附近的相似性中断。由于TSM描绘了视频帧之间的自相似性得分，这种相似性中断在TSM上产生了独特的模式（图1（c）），这可以是检测事件边界时的有意义线索。因此，我们将TSM作为给定视频的最终表示，并设计了一种新的方法来检测事件边界，即递归TSM解析（RTP）。结合我们的边界对比损失（BoCo损失），RTP可以扩展到无监督边界对比（UBoCo）学习，这是一种完全无标签的事件边界检测训练框架。更进一步，我们还提出了用于GEBD任务的有监督边界对比（SBoCo）学习方法，该方法利用TSM作为可解释的中间表示。与使用算法方法解析TSM的UBoCo不同，这种有监督方法具有TSM解码器，它是一个标准神经网络。通过合并二进制交叉熵（BCE）和BoCo损失，我们的有监督方法在最近的官方GEBD挑战中取得了最先进的性能[1]。总结起来，本文的主要贡献如下：0与使用算法方法解析TSM的UBoCo不同，这种有监督方法具有TSM解码器，它是一个标准神经网络。通过合并二进制交叉熵（BCE）和BoCo损失，我们的有监督方法在最近的官方GEBD挑战中取得了最先进的性能[1]。总结起来，本文的主要贡献如下：0•我们发现时间自相似矩阵（TSM）的特性与通用事件边界检测（GEBD）任务非常匹配，并提出使用TSM作为视频的表示来解决GEBD问题。0•利用TSM的独特边界模式，我们提出了递归TSM解析（RTP）算法，这是一种分而治之的方法，用于检测事件边界。0•通过结合RTP和新的边界对比（BoCo）损失，引入了一种无监督的GEBD框架。使用BoCo损失，视频编码器可以在没有标签的情况下进行训练，并生成更具有区分性的TSMs。我们的无监督框架不仅优于先前的无监督方法，还优于有监督方法。0•我们的框架可以通过添加解码器轻松扩展到监督设置，并以大幅度（16.2%）实现最先进的性能。01 CVPR’21 长视频理解（LOVEU）Kinetics- GEBD挑战2https://github.com/Breakthrough/PySceneDetect2007502. 相关工作02.1. 通用事件边界检测0通用事件边界检测（GEBD）[ 37]是一项新引入的视频理解任务，旨在发现与人类感知相一致的事件边界。GEBD与流行的视频事件检测任务，即时动作定位（TAL）具有重要特征，即模型应该意识到视频中发生的动作。在许多TAL方法中，BMN [ 27]具有计算动作实例的起始点和结束点概率的中间阶段，使其更容易扩展到GEBD。因此，[ 37]引入了一种称为BMN-StartEnd的方法，将BMN模型的中间动作起始-结束检测结果视为事件边界。除了扩展TAL外，将GEBD任务视为逐帧二分类（边界或非边界）可以实现更好的性能。对于网络架构，已经测试了使用TCN [ 26 , 29]进行时间建模，但是使用连接的平均特征的简单线性分类器（在[ 37]中表示为PC）获得了最佳性能。对于无监督的GEBD，一种直接的方法是利用先前的镜头边界检测器2。然而，通用事件边界包括各种类型的事件边界，包括动作、主题和环境的变化，这意味着只有少部分事件边界可以通过镜头边界方法检测到。因此，[ 37]设计了一种新颖的无监督GEBD求解器，利用可预测性是人类事件感知的主要因素[ 25]。在许多建议的无监督方法中，PA（PredictAbility）方法获得了最佳性能。除了PA方法外，许多建议的GEBD方法只是之前针对其他视频任务的直接扩展，这引发了对GEBD专门解决方案的需求。我们专注于GEBD的独特特点，提出了一种利用TSM表示的新方法，在边界附近显示出独特的模式。02.2. 时间自相似矩阵0随着自注意力在计算机视觉领域的受欢迎程度越来越高，最近，时间自相似矩阵（TSM）作为视频的可解释中间表示也受到了很多关注。对于给定的具有L帧的视频，TSM中位置（i，j）处的每个值是使用帧i和j之间的余弦或L2距离相似性计算得出的，从而得到一个L×L矩阵。由于TSM表示了不同帧之间的相似性0在视频中，它经常用于重复计数[ 14 , 34 ]，步态识别[ 1 ,2 ]和语言-视频定位[ 32]等任务。此外，由于TSM有效地反映了特征之间的时间关系，一些需要一般视频表示的工作，如动作分类[ 5]和表示学习[ 24]，也利用TSM作为中间表示。由于局部时间关系是事件边界检测的关键特征，我们的方法还利用TSM作为视频表示，提高了整体性能。02.3. 对比表示学习0对比学习因其广泛性和简单性在计算机视觉社区中越来越受到关注。其主要思想是将语义匹配的样本吸引到一起，并将不匹配的样本排斥。需要注意的是，在对比学习中，确定一对样本是否语义匹配并没有固定的方法。因此，虽然许多最近的工作[ 7 – 9 , 17 , 18]将对比学习与数据增强相结合，并将其视为自监督方法，但一些工作将对比学习扩展到标准的监督学习[ 10 , 23]。由于我们的边界对比损失利用了（伪）边界标签进行对比学习，因此它与监督对比学习有着密切的关系。此外，还有许多关于对比视频表示学习的工作，从时间[ 33 ]、时空[ 35]和时空等变换[ 20 ]的角度看待对比学习。特别是，[ 6]将自监督对比预训练任务应用于学习适当的特征表示，证明了其在检测镜头帧上的有效性。然而，它仍然需要下游任务训练（监督学习）才能获得最终结果，而我们的方法直接产生事件边界。03. 提出的方法0给定具有L帧的视频，GEBD求解器返回一个包含事件边界帧索引的列表。在本节中，我们介绍了我们的新型无监督/监督GEBD求解器，该求解器在中间阶段利用了TSM。03.1. 概述0图2显示了我们的无监督边界对比学习框架（UBoCo）的概述。在过程的第一阶段，使用神经特征提取器从原始视频帧中提取逐帧特征。特征提取器包括一个预训练的帧编码器（ImageNet预训练的ResNet50[19]）和一个额外的编码器。预训练编码器的权重固定，而自定义编码器的权重可训练。使用提取的特征，计算帧之间的自相似性，形成时间自相似性P.S.200760视频0（L帧）0编码器0Res500[b1 b2 ... bn]0特征提取器0预测的0边界索引0特征（L，C）0BoCo掩码0（L，L）0⊙ BoCo损失0TSM（L，L）0递归TSM解析0Σ0边界检测划分TSM0零填充对角线0卷积0P.S.：成对相似性0：转置0：反向传播0：哈达玛积 ⊙0：正向传播0：停止梯度0图2. 无监督边界对比（UBoCo）学习框架的概述。0（a）未经训练（b）使用BoCo损失进行训练0图3.（a）在训练的早期阶段可以观察到噪声TSM。（b）随着训练的进行，TSM变得更加清晰，显示出明显的边界模式。0矩阵（TSM）。给定一个TSM，递归TSM解析（RTP）算法（第3.2.1节）产生边界索引预测。将此预测视为伪标签，编码器可以使用标准的梯度下降算法使用BoCo损失（第3.2.2节）进行训练，从而丰富编码器以产生边界敏感特征。请注意，梯度直接流向TSM，绕过不可微的RTP传递。我们的伪标签框架的概念类似于流行的k均值聚类算法[30]。在k均值算法中，前一阶段聚类向量的均值成为当前聚类阶段的新标准。k均值聚类的质心类似于我们方法中的伪标签，因为当前训练步骤是基于上一步的结果进行的。在训练的早期阶段，由于未经训练的特征编码器（图3），TSM不是完全有区别的。在这个阶段，只有涉及明显视觉变化的明显边界才能被RTP算法检测到。随着训练的进行，BoCo损失使特征编码器能够生成更强的TSM（图3），使TSM的区分能力更强。随着更好的特征编码器生成更好质量的伪标签，随着训练的进行，BoCo损失也变得更加强大。这种渐进改进是我们UBoCo框架的关键特性，并且其对整体性能的影响将在实验部分中展示。0以产生更强大的TSM（图3），使TSM的区分能力更强。随着更好的特征编码器生成更好质量的伪标签，随着训练的进行，BoCo损失也变得更加强大。这种渐进改进是我们UBoCo框架的关键特性，并且其对整体性能的影响将在实验部分中展示。03.2. 无监督边界对比学习03.2.1 递归TSM解析0通过图1中所示的直觉，我们设计了一种称为递归TSM解析（RTP）的新方法，用于从给定的TSM中检测事件边界。作为一种分而治之的方法，RTP算法以TSM作为输入，并以递归方式产生边界索引，如图4所示。首先，输入的TSM被填充为零，以便在角元素上应用卷积操作（图4（a））。然后，TSM的对角元素与“对比核”进行卷积，该核是图1中边界模式的具体化。对比核与对角线卷积后，产生表示边界性的标量值（图4（b））。较高的边界分数意味着局部TSM模式与对比核匹配良好，表明是事件边界的概率较高。计算出边界分数后，除了受零填充影响的分数外，其他分数通过多次RTP传递进行共享。通过计算出的边界分数，我们选择对应于事件边界的索引。对于这个过程，我们形成了边界分数的分类分布。为了减少过多的随机性，我们只保留前k％的分数。然后，通过使用计算出的分布进行采样来确定边界帧索引（图4）0.20.50.91.70.80.40.30.20.1110-1 -1110-1 -100000-1 -1011-1 -101100.20.40.60.811.21.41.61.80123456789101112200770低0高0boundaries.append(3)0(d)按采样位置划分TSM (采样0(b)对角卷积0对比核0分类分布0图4.该图演示了递归TSM解析（RTP）的工作原理，假设有一个9x9的TSM和一个5x5的对比核。TSM中的黄色区域表示高相似度分数，而蓝色区域表示较低分数。使用输出的边界索引，TSM被分成较小的TSM，然后再经过相同的过程。请注意，在此示例中，小的子TSM达到预定义的最小长度后，递归停止。0(d)）。通过用这种采样策略替换直接的最大操作，我们可以多样化训练样本，弥补训练数据的限制。现在给定边界帧索引，TSM被划分为两个单独的TSM，每个TSM都被转发到RTP算法的另一个运行中（图4(d)）。上述过程递归执行，直到满足以下其中一个终止条件之一：a）解析的TSM小于预定义阈值T1，或b）最大边界分数与平均边界分数之间的差异小于阈值T2。第一个条件表示对事件段的最小长度的先验假设，第二个条件处理长事件段的情况。请注意，最高分数与平均值之间的小差异意味着没有可区分的点。尽管它可能被视为一个次要步骤，但零填充在RTP中起着重要作用。TSM的角点之一是以下之一：视频的起点、终点或接近检测到的边界的点。这表明角点不太可能是边界帧。因此，除了在角点启用边界计算外，零填充还允许为角点分配相对较低的边界分数，抑制错误或重复的事件边界检测。03.2.2 边界对比损失0与RTP类似，边界对比损失（BoCo损失）在图1中共享相同的“边界模式”直觉。BoCo损失的目标是训练特征编码器，以产生信息丰富的TSM，而RTP的目标是从给定的TSM中提取边界索引。通过RTP计算的边界索引，BoCo损失帮助TSM在边界处更具区分性（图3）。受到对比学习的最新成功的启发，BoCo损失采用度量学习策略。图5解释了如何选择正样本和负样本以用于BoCo损失。0间隔 = 40(a)局部相似性先验 (b)语义连贯性先验0哈达玛积0感兴趣区域（1）0(c) BoCo掩码0不感兴趣区域（0）0相似（+1）0不相似（-1）0图5.给定边界索引列表（如上例中的[3,8]），(c)表示计算BoCo损失的掩码。先前的(a)和(b)通过逐元素相乘合并。0BoCo损失。由于我们的任务关注短期帧关系，远距离帧之间的相似性不会提供太多关于检测事件边界的信息。基于这个假设，我们提出了局部相似性先验，如图5(a)所示。该先验意味着我们只关心在预定义的间隔内帧之间的相似性，或者换句话说，“间隔”。给定n个边界帧索引，一个视频可以被解析为n+1个片段。回想一下，同一片段中的视频帧是语义连贯的，意味着它们之间的帧相似性应该很高，而不同片段中的帧之间的相似性应该很低。这个假设可以通过图5(b)所示的语义连贯性先验掩码来实现。通过逐元素相乘，我们可以结合这两个假设，得到图5(c)中表示有效正负对的BoCo掩码。一旦确定了正样本和负样本，就可以计算BoCo损失。01010…[ ]0.30.2…[ ]200780⊙ Σ0BoCo损失0解码器BCE损失0预测真实标签0: 前向传播0: 反向传播0⊙：哈达玛积0图6.带有解码器的监督GEBD框架。通过监督，我们可以用神经解码器替换RTP，并通过额外的BCE损失提高GEBD性能。0确定正/负对之后，有几种度量学习的选择，包括[23]。然而，为了计算效率和简单实现，BoCo损失仅仅是计算图5（c）中蓝色区域和黄色区域的均值之差。尽管这种简单的方法可以得到令人满意的结果（第4节），但我们的算法的度量学习损失函数可能是我们未来工作的一个方向。03.3. 带有解码器的监督边界对比学习0通过将伪标签替换为真实标签，UBoCo可以转换为监督边界对比学习（SBoCo）。虽然这种简单的SBoCo版本效果很好，但我们可以用TSM解码器（图6）替换RTP算法，TSM解码器由卷积神经网络[19]和Transformer[40]组成。在这种方法中，可以直接从解码器获取事件边界的概率，只需要简单的后处理（例如阈值处理）。0采用神经TSM解码器有几个优点。首先，可以额外利用二元交叉熵损失这一广泛使用的损失项。它使模型在训练过程中接收到更多有信息的梯度信号。此外，由于它允许直接预测，我们可以避开RTP的递归过程，从而实现更快的推理。最后，由于神经网络具有强大的表示能力，我们可以使用多通道TSM来弥补单通道TSM表达能力的限制。这种方法与[14]的基本思想相同，后者将TSM用作可解释的中间表示。有关解码器的更多细节将在补充材料中提供。0方法 F1@0.05 平均F10无监督0SceneDetect 27.5 31.90PA-Random 33.6 50.60PA 39.6 52.70UBoCo-Res50（我们的方法）70.3 86.70UBoCo-TSN（我们的方法）70.2 86.70监督0BMN 18.6 22.30BMN-StartEnd 49.1 64.00TCN-TAPOS 46.4 62.70TCN 58.8 68.50PC 62.5 81.70SBoCo-Res50（我们的方法）73.2 86.60SBoCo-TSN（我们的方法）78.7 89.20表1.Kinetics-GEBD上无监督（上）和监督（下）方法的结果。先前方法的得分来自[37]。04. 实验04.1. 基准数据集0Kinetics-GEBD由训练集、验证集和测试集组成，每个集合中都有来自Kinetics-400数据集的约18K个视频[22]。由于测试集的真实标签未发布，我们使用Kinetics-GEBD的验证集作为测试集，就像[37]中所做的那样，并将Kinetics-GEBD的训练集分为训练集（80%）和验证集（20%）进行实验。对于评估指标，我们在F1@0.05上验证我们的实验。0.05是关系距离（Rel.Dis.）的阈值。给定一个Rel.Dis.，如果预测点与真实时间戳之间的差异小于阈值，则将预测点视为正确。根据[37]和官方挑战，我们主要在这个阈值上分析我们的结果。在表1中，我们还提供了平均F1分数，即使用从0.05到0.5的阈值，间隔为0.05的F1分数的平均值。正如我们在补充材料中展示的那样，其他阈值的结果仍然显示了我们方法的竞争力。04.2. 实现细节0我们使用在ImageNet上预训练的ResNet-50[19]作为我们的主要骨干网络，使用torchvision[31]提供的权重，以便与之前的方法[37]进行公平比较，这些方法也使用了相同的特征。我们还使用在Kinetics数据集[22]上预训练的TSN[41]进行了额外的测试，以最大化模型的性能。所有实验都在一台配备了单个Nvidia RTX 2080 TiGPU的机器上进行。我们使用批量大小为32的AdamW优化器和学习率为1e-3进行模型训练。我们的模型的编码器由1D CNN和Mixer[38]组成，分别用于捕捉短期和长期表示。有关我们的特征提取和模型的更多细节，请参阅补充材料。30.066.069.669.870.070.270.4F1@0.050.00.51.01.52.02.53.03.532.266.469.669.769.969.970.070.2≈≈……UBoCo-Res50UBoCo-TSN70.370.2✓71.1 (+0.8)75.5 (+5.3)✓✓73.2 (+2.9)78.7 (+8.5)er.200790图7. UBoCo作为模型的编码器在自我监督方式下训练的改进情况。04.3. Kinetics-GEBD结果0表1展示了我们的模型在无监督和监督条件下与之前的工作的结果。我们的模型不仅在无监督设置下（比SOTA高30.7%），而且在监督设置下（与SOTA相比提高了10.7%），使用相同的特征（ResNet-50）也超过了之前的模型。我们可以证明，我们的无监督模型UBoCo非常强大，以较大的优势超越了之前的监督最先进模型7.8%。我们注意到，使用TSN模型提取的特征对于监督设置有显著的改进，相比之前的SOTA提高了16.2%。04.4. 消融研究04.4.1 伪标签的自我监督0从无监督模型（UBoCo）中，我们可以生成伪标签，如第3.2节所述。使用这些伪标签，我们可以使用梯度下降训练我们的UBoCo模型，这可以看作是一种自我监督的方法。图7展示了性能的逐步提升。我们可以观察到，随着训练的进行，准确性显著提高，显示了使用BoCo损失的自我监督的能力。另一个有趣的观察是在第0个epoch时的性能（33.2%），与现有的无监督模型（39.6%）相当。这表明，即使是训练不充分的特征编码器，我们的RTP也能捕捉到一些明显的事件边界。04.4.2 递归TSM解析0表2展示了递归TSM解析算法（RTP）与其他直接算法的有效性。为了提取事件边界0阈值法 27.3 27.3 局部极大值法 68.1 68.8RTP无零填充 55.3 54.8 (我们的方法) RTP70.3 70.20表2展示了不同解析算法对应的F1@0.05分数。ZP代表零填充。它们在计算边界分数之前共享相同的过程。对于阈值法，sigmoid值大于阈值的点被预测为事件边界。我们使用从0.1到0.5的不同阈值的最佳分数。0监督解码器 SBoCo-Res50 SBoCo-TSN0表3. 监督和解码器效果的F1@0.05分数。0从TSM中，还有其他选项，包括简单的阈值法和找到对角边界分数的局部极大值[37]。可以观察到，RTP获得了最佳性能，零填充对RTP过程至关重要。我们将性能的提升归因于它与GEBD的基本假设“更深层次的语义”的巧合。换句话说，RTP的递归方式很容易捕捉到动作片段的内在层次结构，每个递归阶段代表一种不同层次的层次结构。图8定性地展示了RTP的性能。它显示RTP在早期阶段检测到大的变化，并开始以迭代方式捕捉到细微的变化。04.4.3 监督模型的扩展（SBoCo）0通过将第3.2节中的伪标签转换为人工标注的真实标签，我们可以将无监督模型（UBoCo）扩展为监督模型（SBoCo）。此外，如第3.3节所解释的，我们添加了解码器层，使模型不仅可以显式地利用TSM，还可以隐式地利用TSM。两种方法的结果如表3所示，表明监督和解码器层有助于性能提升，尤其是对于SBoCo-TSN模型。通过将输入从图像级特征（在ImageNet上预训练的ResNet-50）转换为视频级特征（在Kinetics上预训练的TSN），我们还观察到性能的额外提升，达到了Kinetics-GEBD的最新水平。此外，为了验证BoCo损失在监督设置中的作用，进行了关于BoCo损失的消融研究。实验结果表明，将BCE损失与BoCo损失结合使用可以提高性能。…C.A.C.O. & S.C.C.A.C.O. & S.C.C.A.C.A.T.P.T.P.F.N.T.P.T.P.F.P.T.P.F.P.er-reuch200800TSM0C.A.：动作变化 S.C.：镜头切换 C.O.：物体变化：正确区域0T.P.：真阳性 F.P.：假阳性 F.N.：假阴性0人工标注0RTP级别10RTP级别20RTP级别30最终预测0图8.上图说明了RTP如何从给定的TSM中检测事件边界。如图所示，明显的边界，包括镜头切换，在RTP的早期级别被捕捉到，而更微妙的边界则推迟到最后一级。0SBoCo-Res50 SBoCo-TSN0仅BCE损失71.8 77.5BCE损失和BoCo损失73.2（+1.4）78.7（+1.2）0表4. 监督模型（SBoCo）中没有和有BoCo损失的F1@0.05分数。0（a）没有使用BoCo损失进行训练（b）使用BoCo损失进行训练0图9.监督模型中的BoCo损失使TSM更具可解释性和信息量。与（a）中的边界模式相比，（b）中的边界模式更加可辨别。0ResNet特征和TSN特征都被用于训练（表4）。定性结果（图9）也说明了BoCo损失使给定视频的TSM更具可解释性。05. 讨论和结论0通用事件边界检测（GEBD）有潜力成为进一步视频理解的基础任务，因为它可以改变现有的视频分割约定，转向更具人类可解释性的方式。重新思考任务的本质，我们发现事件边界实际上与局部帧关系有关，这意味着TSM的对角线局部模式可能是边界检测的有意义线索。0局部模式可能是边界检测的有意义线索。扩展这一思想，我们提出了一种利用TSM的局部区别相似性模式的新型无监督/监督GEBD求解器。我们的两种方法在无监督/监督GEBD设置中均取得了最新的成果，促进了该任务的进一步研究。此外，我们的无监督方法可以在没有任何人工标注的情况下产生合理的事件边界，这表明它在其他无监督视频理解任务中具有巨大的潜力。0此外，还存在一些限制，促进了未来的研究。首先，我们使用了固定的对比核作为我们直觉的实现。尽管其性能异常出色，但未来的研究可以采用不同的变体，甚至可学习的核。此外，由于目前唯一可用的GEBD基准数据集Kinetics-GEBD仅包含持续时间相对相似的视频，无法进行持续时间不同的视频实验。这需要在不久的将来为各种类型的视频提供更多的GEBD标签，从短视频到完整电影。06. 致谢0这项工作部分得到了韩国政府（MSIT）信息通信技术规划评估研究所（IITP）资助的资助，人工智能创新中心在2021-0-02068号和人工智能研究生院项目在2020-0-01361号下资助。[17] Jean-Bastien Grill, Florian Strub, Florent Altch´e, CorentinTallec, Pierre H Richemond, Elena Buchatskaya, Carl Do-200810参考文献0[1] Chiraz BenAbdelkader, Ross Cutler, Harsh Nanda, andLarry Davis. Eigengait：基于图像自相似性的人物运动识别.在AVBPA，2001年. 2, 30[2] Chiraz BenAbdelkader, Ross G Cutler, and Larry S Davis.使用图像自相似性的步态识别. EURASIP，2004年. 2, 30[3] Shyamal Buch, Victor Escorcia, Chuanqi Shen, BernardGhanem, and Juan Carlos Niebles. SST：单流时序动作提议.在CVPR，2017年. 10[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.使用Transformer的端到端目标检测. 在ECCV，2020年. 30[5] Da Chen, Xiang Wu, Jianfeng Dong, Yuan He, Hui Xue,and Feng Mao. 带有图网络的分层序列表示. 在ICASSP，2020年.30[6] Shixing Chen, Xiaohan Nie, David Fan, Dongqing Zhang,Vimal Bhat, and Raffay Hamid.用于场景边界检测的镜头对比自监督学习. 在CVPR，2021年. 30[7] Ting Chen, Simon Kornblith, Kevin Swersky, MohammadNorouzi, and Geoffrey Hinton.大型自监督模型是强大的半监督学习器.arXiv预印本arXiv:2006.10029，2020年. 30[8] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He.使用动量对比学习改进基线.arXiv预印本arXiv:2003.04297，2020年. 30[9] Xinlei Chen and Kaiming He. 探索简单的孪生表示学习.在CVPR，2021年. 30[10] Jiequan Cui, Zhisheng Zhong, Shu Liu, Bei Yu, and JiayaJia. 参数化对比学习. 在ICCV，2021年. 30[11] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. ImageNet：一个大规模的分层图像数据库.在CVPR，2009年. 60[12] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. Bert：用于语言理解的深度双向Transformer的预训练.arXiv预印本arXiv:1810.04805，2018年. 30[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly等.一张图值得16x16个单词：用于图像识别的Transformer.arXiv预印本arXiv:2010.11929，2020年. 30[14] Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson,Pierre Sermanet, and Andrew Zisserman.计算时间：野外中的无类别视频重复计数. 在CVPR，2020年. 2, 3,60[15] Victor Escorcia, Fabian Caba Heilbron, Juan CarlosNiebles, and Bernard Ghanem. Daps:用于动作理解的深度动作提议. 在ECCV，2016年. 10[16] Jiyang Gao, Zhenheng Yang, Kan Chen, Chen Sun, andRam Nevatia. Turn tap：用于时序动作提议的时序单元回归网络.在ICCV，2017年. 10ersch, Bernardo Avila Pires, Zhaohan Daniel Guo,Moham- mad Gheshlaghi Azar, et al. Bootstrap yourown latent：自监督学习的新方法.arXiv预印本arXiv:2006.07733，2020年. 30[18] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and RossGirshick. 动量对比用于无监督视觉表示学习. 在CVPR，2020年. 30[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别. 在CVPR，2016年. 1, 3, 60[20] Simon Jenni和HailinJin。时间等变对比视频表示学习。在ICCV中，2021年。30[21] Hyolim Kang, Kyungmin Kim, Yumin Ko和Seon JooKim。Cag-qil:通过q模仿学习的上下文感知动作分组用于在线时态动作定位。在ICCV中，2021年。10[22] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang,Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, TimGreen, Trevor Back, PaulNatsev等。动力学人类动作视频数据集。arXiv预印本arXiv:1705.06950，2017年。60[23] Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna,Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu和DilipKrishnan。监督对比学习。arXiv预印本arXiv:2004.11362，2020年。3，60[24] Giorgos Kordopatis-Zilos, Symeon Papadopoulos,Ioannis Patras和Ioannis Kompatsiaris。Visil:细粒度时空视频相似性学习。在ICCV中，2019年。30[25] Christopher A Kurby和Jeffrey MZacks。事件的感知和记忆中的分割。《认知科学趋势》，2008年。1，30[26] Col

下载后可阅读完整内容，剩余1页未读，立即下载