基于多级密集差异图的通用事件边界检测的渐进式注意力

118 浏览量更新于2023-10-25 收藏 13.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

jqtang@smail.nju.edu.cn, zyliumy@gmail.com, {qianchen, wuwenyan}@sensetime.com, lmwang@nju.edu.cn0.30.60.50.30.40.50.10.10.40.60.60.20.10.50.50.10.10.20.20.10.20.20.10.333550基于多级密集差异图的通用事件边界检测的渐进式注意力0唐佳琪1 刘朝阳2 钱晨2 吴维炎2 王立民1 �01. 新型软件技术国家重点实验室，南京大学，中国 2. 商汤研究0摘要0通用事件边界检测（GEBD）是视频理解中一项重要且具有挑战性的任务，旨在检测人类自然感知的事件边界时刻。这项任务的主要挑战是感知各种不同事件边界的时间变化。为此，本文提出了一种有效且可端到端学习的框架（DDM-Net）。为了应对事件边界的多样性和复杂语义，我们进行了三个显著的改进。首先，我们构建了一个特征库，用于存储空间和时间的多级特征，以便在多个尺度上进行差异计算。其次，为了缓解先前方法对时间建模的不足，我们提出了密集差异图（DDM）来全面地描述运动模式。最后，我们利用多级DDM上的渐进式注意力来联合聚合外观和运动线索。结果，DDM-Net在Kinetics-GEBD和TAPOS基准上分别取得了14%和8%的显著提升，并且在LOVEUChallenge@CVPR2021的Top-1获胜解决方案上表现优异。最先进的结果证明了更丰富的运动表示和更复杂的聚合在处理GEBD的多样性方面的有效性。代码可在https://github.com/MCG-NJU/DDM上获得。01. 引言0随着在线视频的爆炸性增长，视频理解引起了学术界和工业界的极大关注。认知科学[43]表明，人类通过感知事件边界将视频划分为有意义的单元。为此，最近提出了一项名为通用事件边界检测[35]（GEBD）的任务，旨在定位视频中的通用事件边界，这有望促进该领域的发展。0�：通讯作者。0边界0非边界0图1.稀疏运动表示（黑线，光流）与密集运动表示（绿线，为了清晰起见，有些被省略，密集特征差异）。线上的数字表示两帧之间的运动幅度。密集运动表示提供了更全面的时间线索，以更好地区分边界和非边界。0视频理解。GEBD任务中的通用事件边界是与广泛的时间变化相关的，包括动作、主体和环境的变化。GEBD任务的主要挑战是对通用事件边界的多样模式进行建模：a）空间多样性主要通过外观的变化来表征，通常包括低层次的变化（例如颜色或亮度的变化）和高层次的变化（例如主体的出现或消失）；b）时间多样性主要与动作相关，例如动作的变化（例如从走到跑）或交互对象的变化。值得注意的是，不同的动作通常表现出不一致的速度和持续时间，这进一步增加了事件边界的时间多样性。因此，时空多样性导致视频中出现过于复杂的变化，这影响了对事件边界的准确检测。33560由于GEBD任务与时间维度的变化密切相关，运动信息是感知时间变化和检测事件边界的关键。先前的方法广泛使用光流[24, 25,45]作为替代的运动表示来学习视频中的时间线索。然而，它们在单一特征层面上建模语义，并专注于两个相邻帧之间的局部运动线索（图1），这对于感知各种事件边界是不足够的。此外，先前的双流方法[36,45]通常采用简单的融合方案，缺乏外观和运动模态之间的交互。因此，它们对于学习多样的事件边界的复杂语义效果较差。为了解决上述问题，我们提出了一种方法（DDM-Net），它逐步聚合密集运动信息和外观线索来感知事件边界，如图2所示。我们进行了三个显著的改进，包括多级特征库、密集差异图和渐进式注意力。首先，我们建立了一个多级特征库，其中的特征分别在不同的空间和时间尺度上收集，这使得后续模块能够全面感知视频中不同级别的变化。其次，基于上述特征库，我们提出了一种密集差异图（DDM）来建模丰富的时间上下文。从技术上讲，我们计算长度为T的剪辑中每两帧之间的特征差异，并获得一个T×T的密集差异图。DDM的主要优势在于利用每对特征之间的差异并提供全面的运动信息。如图1所示，我们提出的DDM能够提供比光流更全面和显著的时间线索，光流是在两个相邻帧之间计算的。此外，我们的DDM不是直接在原始帧上操作，而是建立在从骨干网络的不同层收集的特征上，因此应该对时间噪声（例如图1中第二行的相机模糊）更加稳健。第三，由于事件边界显示出时空多样性和复杂性，我们认为双流方法中简单的线性融合不足以聚合外观和运动线索。因此，我们利用渐进式注意力来挖掘RGB特征和DDM中隐藏的重要线索。为了使DDM的形状与RGB特征对齐，我们设计了压缩映射注意力来压缩DDM。然后，在内部模态注意力中，通过两组可学习的查询分别增强两个模态的关键特征，为跨模态注意力做准备。跨模态注意力用于执行跨模态的特征交互，使外观和运动特征能够相互查询和引导。结果，DDM-Net能够更有效地聚合时空线索，并提高事件边界的区分度。我们的DDM-Net利用多级密集差异来0感知多样的时间变化，并利用渐进注意力有效地聚合外观和运动线索。为了证明DDM-Net的有效性，我们在两个数据集Kinetics-GEBD [35]和TAPOS[34]上进行了大量实验。评估结果表明，我们的DDM-Net在所有评估指标上都大幅优于现有的最先进方法。特别是，在Kinetics-GEBD上，DDM-Net取得了优秀的76.4%F1@0.05，提升了14个百分点。在TAPOS上，我们将F1score@0.05从52.2%提高到了60.4%。此外，我们的DDM-Net在Kinetics-GEBD的测试集上优于CVPR 2021 LOVEUChallenge的获胜者，证明了我们方法的有效性。总之，我们的主要贡献如下：0•我们提出了配备多级特征库的密集差异图，以利用更丰富的时间线索来检测各种事件边界。0•与简单的特征融合方法不同，我们采用渐进注意力来聚合RGB特征和DDM中的外观和运动线索，使DDM-Net能够生成更具区分性的表示并学习更复杂的语义。0•大量实验证明，我们的DDM-Net在相同骨干网络设置下，在Kinetics-GEBD和TAPOS基准测试上达到了最先进的性能。02. 相关工作0视频理解中的时间检测任务。时间动作检测任务旨在检测未修剪视频中的动作实例，即预测每个动作的起始点、结束点和类别。一阶段和两阶段方法是两种主流解决方案。与直接的一阶段方法[3, 23, 47]不同，两阶段方法[24, 25, 27, 33,39,49]将任务分解为无类别提议生成和动作分类。最近提出了时间动作解析[34]，其目标是将动作划分为子动作的片段。视频异常检测[12, 26, 31,37]旨在识别发生异常事件的帧，在视频监控中广泛应用。至于镜头边界检测[2, 13,40]，它是一个经典的任务，用于检测显著的镜头变化。与它们不同，GEBD[35]是一个通用的检测任务，其中通用事件边界包括上述所有情况。为了应对通用事件边界的多样性和复杂语义，我们的方法通过逐渐关注多级密集差异图来改善边界判别能力。运动表示。以往的当前视频理解任务的方法（例如动作识别、时间动作检测等）广泛使用光流[4, 24, 36，0.80.2…33570多级特征库0多级密集差异图0L *0C T0T=50数据流0差异0T0T0跨模态注意力0内部模态注意力0渐进注意力0边界0边界0非边界0T0L *0时序卷积0C0T0L0级别0映射注意力0T C C0T0卷积层0空间池化0空间池化0空间池化0T0RGB0DDM0平均平均0时序卷积0时序卷积0图2.DDM-Net概述。我们的DDM-Net通过将通用事件边界检测视为滑动视频剪辑的二分类问题，简化了该过程。具体而言，我们的方法使用以当前帧为中心的剪辑对当前帧进行分类，并在其他帧上重复相同的过程。网络主要由三个阶段组成：多级特征库构建、密集差异图计算和渐进注意力。DDM-Net利用更丰富的运动信息和更复杂的聚合来实现对通用事件边界的准确检测。（L：特征级别数，T：帧数，C：通道数。）0[45]，RGB差异[18，32，45，51，52]和特征差异[8，17，22，28，29，44]作为视频中学习时间线索的运动表示。然而，它们专注于两个连续帧之间的局部运动线索，并且没有明确地使用多级特征进行复杂语义学习。与单级稀疏运动表示相比，我们提出的多级DDM是建立在多级特征库之上的稠密运动表示，更能感知多样的多级时间变化。多模态特征聚合和融合。多模态特征聚合和融合广泛应用于许多任务的整体语义学习，例如图像-文本[1，30，46，48]，视频-文本[10，14，21]和音频-视频任务[11，41]。在视频理解中，先前的双流方法[9，36，45]训练两个独立的网络，并通过线性融合或特征串联对两个视频模态（外观和运动）进行简单融合。然而，由于缺乏两个模态之间的交互作用，它们的效果较差，无法满足外观和运动特征之间的依赖关系[6]。为此，我们的方法逐步关注多级DDM，利用两个模态之间的相关性来丰富语义信息并提高区分度。03. 方法03.1. 概述0通用事件边界检测[35]（GEBD）旨在检测无分类的事件边界，例如动作变化、主体变化、镜头变化等。由于视频中的边界通常具有模糊和多样性的主要特征，这确实是一个具有挑战性的视觉任务，有待研究。为此，我们提出了一种新颖的时空建模方案，构建和关注多级稠密差异图，以解决上述问题。0视频中的边界通常表现出模糊和多样性的主要特征，这确实是一个具有挑战性的视觉任务，有待研究。为此，我们提出了一种新颖的时空建模方案，构建和关注多级稠密差异图，以解决上述问题。0给定一个视频 V = {It}Et =1，其中It是第t帧，E是视频中的帧数，我们从视频V中采样一个长度为T（T = 2 × w + 1）的剪辑U ={It-w，...，It，...，It +w}，以推断It是否是边界帧。如图2所示，DDM-Net主要包括三个部分：多级时空特征库，多级稠密差异图和通过渐进注意力实现的RGB特征A和稠密差异图（DDM）M之间的跨模态聚合。首先，采样的剪辑U被输入到主干网络和一系列时间卷积中，得到多级时空特征F = {fij}i ∈ [1，m]，j ∈[1，n]，其中i和j分别表示特征的空间级别（总共m个级别）和时间级别（总共n个级别）。其次，通过测量帧之间的差异，使用F构建一个尺寸为RC × T ×T的稠密差异图M，预计能够提供更具辨别力的信息，帮助模型感知时间变化。第三，在我们的渐进注意力模块中，内部模态注意力模块利用一组可学习的查询来增强关键的内部模态表示，而共同注意力变换器用于执行跨模态注意力。值得注意的是，为了与RGB特征A对齐，首先将DDM M ∈RC × T × T压缩成序列D ∈ RC × T通过“33580映射压缩注意力。最后，A和D分别被输入到单独的全连接（fc）层。通过在fc层之后进行线性融合，模型输出中心帧It的最终边界概率。与先前的双流方法[9，36，45]使用光流作为运动表示来学习视频中的时间线索相比，我们精心构建了稠密差异图，使模型能够感知伴随RGB特征的通用事件边界。由于DDM是即时计算的，我们的方法比训练两个独立网络的先前双流方法更高效。在接下来的章节中，我们将介绍每个模块的技术细节。03.2. 多级特征库0为了模拟通用事件边界的多样运动模式，我们利用一个特征库存储输入视频剪辑的多级特征，基于此计算密集差异图以获得丰富的时间线索。多级特征库的时间视图。在构建特征库之前，需要解决的一个问题是我们是将剪辑还是整个视频作为检测事件边界的输入。由于视频通常由多个不重叠且相对独立的片段组成，这些片段属于不同的事件，我们认为当前帧是否是事件边界主要与其相邻的片段有关。远离当前帧的片段对推断它是否是事件边界的贡献很小。因此，我们选择基于当前帧周围的剪辑来构建我们的模型，而不是整个视频。值得注意的是，表4b中的实验也验证了我们的观点的合理性。具体而言，我们沿着当前帧采样w帧之前和之后的帧，即T（T = 2×w +1）帧作为输入剪辑。然后，将输入剪辑输入到骨干网络中构建多级特征库。多级特征库的构建。由于GEBD任务中的事件边界是通用的且无分类的，不同事件边界的模式在空间和时间上变化很大。从空间的角度来看，外观变化包括低级变化和高级变化。低级变化主要指环境的变化（即颜色和亮度的变化），而高级变化与复杂的语义相关（例如，主要对象的出现或消失）。从时间的角度来看，动作变化的持续时间通常是不一致的。例如，“一个跑步者突然改变方向”可能发生得非常快，而“一个老人慢慢站起来”通常需要几帧。为了检测具有不同运动模式的事件边界，我们的方法对多级时空特征进行了时间变化建模。具体而言，我们对ResNet特征的m层（例如，layer3和layer4）进行平均空间池化，得到不同语义级别的特征序列。值得注意的是，高级别的layer4特征序列也被表示为RGB特征A，它们与DDM特征D进行融合，如图2所示。然后，对于每个特征序列，我们利用时间卷积得到n个具有不同时间感受野的特征序列。因此，总共有m×n=L个特征级别，用于多级密集差异计算。在表4c中，我们观察到来自空间和时间域的多级特征都提供了检测不同事件边界的关键线索。0并获得不同语义级别的m个特征序列。值得注意的是，高级别的layer4特征序列也被表示为RGB特征A，它们与DDM特征D进行融合，如图2所示。然后，对于每个特征序列，我们利用时间卷积得到n个具有不同时间感受野的特征序列。因此，总共有m×n=L个特征级别，用于多级密集差异计算。在表4c中，我们观察到来自空间和时间域的多级特征都提供了检测不同事件边界的关键线索。03.3. 密集差异图0运动表示在GEBD任务中至关重要。对于像动作变化这样的边界，外观几乎没有变化（例如，一个人向摄像机轻轻挥手，或者从走到跑）。为了检测这种边界，运动信息在感知时间变化中起着主要作用。以往的方法通常利用顺序光流或RGB差异来近似运动信息。然而，它们只能反映两个连续帧之间的局部运动线索，并且无法利用丰富的时间上下文。考虑到GEBD任务中边界的多样性和复杂情境，使用局部和稀疏的运动表示是不足够的。为了缓解稀疏运动表示的时间上下文建模不足，我们提出了基于前述多级特征库的密集差异图。给定一个包含T帧的特征序列，我们计算每一帧对之间的特征差异，并构建一个T×T的图。与长度为T-1的稀疏运动序列相比，T×T对特征差异提供了更密集的时间线索（图1）。由于DDM包含更丰富的运动信息，它更全面地描述了当前帧周围的运动模式，使我们的方法能够更好地感知时间变化并区分边界和非边界。此外，DDM是基于前述的多级特征库构建的，其中特征是从骨干网络的不同层收集的，并且包含多级语义。因此，它比直接计算在原始帧上的光流和RGB差异更能抵抗时间噪声。在实践中，我们使用欧氏距离来衡量两帧Ii和Ij之间的特征差异。0FD(i, j) =0...0c = 1 (Ac_i - Ac_j)^2, (1)0其中Ai和Aj是Ii和Ij的外观特征，C是通道的总数。然后，我们使用堆叠的卷积层将差异矩阵转换为R L × T × T0转换为M ∈RC×T×T。在表4d中，DDM-Net也取得了相似的性能。(2)q = cq = q′A,k = ck = q′D,v = cv = q′D.(4)33590与其他距离度量（例如曼哈顿距离）相比，DDM-Net也取得了相似的性能，这表明我们的方法对差异运算符的选择具有鲁棒性。03.4. 渐进式注意力0以前的双流网络通常采用简单的聚合和融合方式，如线性融合或时间平均结果的特征串联。然而，它们缺乏模态之间的交互，因此无法充分利用我们提出的DDM，这在表4e中得到了证明。因此，为了更好地聚合外观和运动线索，我们在我们提出的多级DDM上采用渐进式注意力，包括映射压缩注意力、内部模态注意力和跨模态注意力。0Map-Squeezed Attention. 为了将M ∈RC×T×T与RGB特征A ∈RC×T对齐，我们通过逐帧的映射压缩注意力将其转换为长度为T的特征序列。在DDM中，第i行的特征序列(Mi ∈RC×T)是当前剪辑的第i帧Ii与其他帧之间的差异。因此，聚合Mi的元素以获得Ii的剪辑级运动测量是直观的。由于时间依赖性的多样性，某些特定帧的差异比其他帧更重要是常见的。因此，我们提出了一种逐帧的注意机制来压缩M，根据Ii的特征Ai计算Mi中所有元素的权重γi，将所有差异自适应地聚合为运动测量Di，公式如下：0µij = W^Tµ(W^TA Ai + W^TM Mij),0γij = exp(µij) / Σt=1exp(µit),0Di = ΣT0j =1 γij Mij,0其中W^TA、W^TM和W^Tµ是投影矩阵。0Intra-Modal Attention. 如第3.1节所述，0和3.2中，我们的方法基于以其为中心的剪辑U来预测当前帧It的边界置信度。在剪辑中，不同时间戳的特征不应该同等重要。例如，在大多数情况下，剪辑的中心帧比剪辑的边缘帧更重要。为了自适应地聚合和增强RGB特征A和DDM特征D的关键表示，我们使用两组可学习的ω查询q，它们由添加内容查询cq（用标准正态分布初始化）和可学习的查询位置嵌入pq形成。具体来说，我们使用两个独立的Transformer解码器分别聚合和增强两个模态的关键内部特征。0A和D的特征，0k = ck + pk = H + pk, v = cv = H, (3)0其中ck和cv是模态（A或D）的特征H，pk是正弦位置嵌入。在交叉注意力层中，查询全局地关注和聚合高激活的特征到每个查询中。自注意力层建模查询之间的依赖关系并增强相应的查询嵌入。通过内部模态表示学习，两组查询q独立地聚合和增强两个模态的关键特征，并成为精炼的查询q'。在表4e中，我们观察到在精炼的关键特征q'上，跨模态注意力可以取得比未经精炼的特征H更好的性能。0跨模态注意力。由于通用事件边界的多样性和复杂语义，仅通过外观或运动特征很难区分它们。它们的融合可以缓解这个问题，但是以前的融合方法（例如特征拼接）无法跨模态联合学习特征并充分利用特征互补性。因此，为了利用两种模态之间的依赖关系，我们执行跨模态特征聚合。具体而言，我们将经过精炼的查询的特征对 ω作为两个独立的协同注意力变换器的输入。一个协同注意力变换器将精炼的RGB特征 q ′ A 作为查询，精炼的DDM特征q ′ D 作为键和值，0也就是说，q ′ A 通过交叉注意力层引导和增强 q ′ D。另一个协同注意力变换器的输入与第一个变换器对称，即将 q ′ D 作为查询，q ′ A作为键和值。通过交叉注意力层，跨模态注意力模块输出基于RGB的DDM特征 q ′′ D 和DDM调制的RGB特征 q ′′ A。因此，DDM-Net通过跨模态引导聚合外观和运动线索，有效提高事件边界的区分度。03.5. 训练0平衡采样器。GEBD是一个二分类任务，非边界帧远远多于边界帧（r:1）。根据视频中的缓慢先验[50]，连续的非边界帧的特征变化速度非常缓慢。因此，我们在非边界帧上应用稀疏采样策略，即随机选择 r个连续的非边界帧中的一个，并采样所有边界帧。SceneDetect [5]0.2750.3000.3120.3190.3240.3270.3300.3320.3340.3350.318PA [35]0.3960.4880.5200.5340.5440.5500.5550.5580.5610.5640.527BMN [24]0.1860.2040.2130.2200.2260.2300.2330.2370.2390.2410.223TCN-TAPOS [20]0.4640.5600.6020.6280.6450.6590.6690.6760.6820.6870.627TCN [20]0.5880.6570.6790.6910.6980.7030.7060.7080.7100.7120.685PC [35]0.6250.7580.8040.8290.8440.8530.8590.8640.8670.8700.817DDM-Net0.7640.8430.8660.8800.8870.8920.8950.8980.9000.9020.873SceneDetect [5]0.0350.0450.0470.0510.0530.0540.0550.0560.0570.0580.051PA [35]0.3600.4590.5070.5430.5670.5790.5920.6010.6090.6150.543ISBA [7]0.1060.1700.2270.2650.2980.3260.3480.3690.3820.3960.302TCN [20]0.2370.3120.3310.3390.3420.3440.3470.3480.3480.3480.330CTM [16]0.2440.3120.3360.3510.3610.3690.3740.3810.3830.3850.350TransParser [34]0.2890.3810.4350.4750.5000.5140.5270.5340.5400.5450.474PC [35]0.5220.5950.6280.6460.6590.6650.6710.6760.6790.6830.642DDM-Net0.6040.6810.7150.7350.7470.7530.7570.7600.7630.7670.728sholds.ge05.33600Rel.Dis.阈值 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 平均0非监督。0PA - 随机 [ 35 ] 0.336 0.435 0.484 0.512 0.529 0.541 0.548 0.554 0.558 0.561 0.5060超级。0BMN-开始结束 [ 24 ] 0.491 0.589 0.627 0.648 0.660 0.668 0.674 0.678 0.681 0.683 0.6400表1. 在Kinetics-GEBD验证集上与之前方法的比较，以不同的Rel.Dis.阈值的F1得分为衡量标准。0Rel.Dis.阈值 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 平均0非监督。0PA - 随机 [ 35 ] 0.158 0.233 0.273 0.310 0.331 0.347 0.357 0.369 0.376 0.384 0.3140超级。0表2. 在TAPOS的验证集上与先前的GEBD方法进行比较，以不同Rel.Dis.阈值的F1分数衡量。0方法 rank1 [19] rank2 [15] rank3 [38] DDM-Net0F1分数 0.8354 0.8330 0.8309 0.83680表3.在Kinetics-GEBD的测试集上与LOVEU挑战赛的获胜解决方案进行比较，以F1分数@0.05衡量。0损失函数。平衡采样器缓解了正负样本的不平衡。因此，我们简单地将二分类损失Lbc定义为：0Lbc = -10η =1 (ˆpη log pη + (1 - ˆpη) log(1 - pη)) ,(5)0其中pη是二分类概率，N是训练样本的总数。如果样本被标记为边界，则ˆpη为1，否则为0。03.6. 推理0Logits的线性融合。在渐进式注意力之后，q''A和q''D分别传入两个独立的fc层生成logitslA和lD。通过可学习参数α对logits进行线性融合：l = α *lA + (1 - α) * lD。对最终的logitl应用softmax函数以获得边界概率p。高效的后处理方案。重复预测一个帧的边界概率的上述过程，我们获得整个视频的边界置信度序列。为了选择视频的最终边界预测，我们在序列上应用了一个高效的后处理方案。0序列。具体而言，边界帧应满足以下两个要求：(1)帧的边界概率大于设定的阈值θ(例如0.5)。(2)其边界概率在预定义范围内最大(例如[-5,5])。由于我们的后处理方案不需要耗时的成对IoU计算，每个视频只需要大约0.0003秒(对于所有18,813个视频为5.302秒)在一台Nvidia V100机器上。04. 实验04.1. 数据集和设置0Kinetics-GEBD.Kinetics-GEBD数据集[35]随机选择了来自Kinetics-400的60,000个视频。其中，18,794个训练视频和17,725个测试视频是从Kinetics-400训练集中随机选择的。Kinetics-GEBD验证集包含Kinetics-400验证集中的所有18,813个视频。训练、验证和测试集的比例接近1:1:1。由于测试集的时间注释不可用，我们在训练集上进行训练，并使用验证集进行评估。TAPOS.TAPOS数据集[34]包含21个奥运会运动视频。其中有13,094个训练动作实例和1,790个验证动作实例。根据[35]，我们将TAPOS重新用于GEBD任务，通过修剪每个动作实例并隐藏其动作标签。评估协议。为了评估通用事件边界检测任务的结果，我们计算F1分数和530.75510.88150.89700.8666560.76430.88700.90160.87265120.75210.87880.89240.86365300.69140.85630.87170.83711520.77030.88900.90420.875433610表示 0.05 0.25 0.5 平均0RGB 0.6793 0.8589 0.8772 0.8375 光流 0.6625 0.8045 0.8206 0.7877RGB差异 0.7272 0.8591 0.8753 0.8440 DDM 0.7512 0.8738 0.88610.85910RGB + 光流(双流) 0.6881 0.8682 0.8844 0.8465 RGB + RGB差异(双流) 0.73070.8702 0.8834 0.8536 RGB + DDM(即时训练) 0.7643 0.8870 0.9016 0.87260(a)对不同表示方法的研究。我们比较了单模态和双模态的性能。当与RGB特征结合时，只有DDM在线计算，并且可以即时训练。0ws 0.05 0.25 0.5 平均0(b)对时间视图的研究。我们比较了具有不同时间视图的输入剪辑的性能，并通过更多帧的设置进一步提高了性能。0多级 0.05 0.25 0.5 平均0无 0.7353 0.8617 0.8726 0.8463 空间 0.7487 0.86940.8820 0.8552 时间 0.7497 0.8727 0.8848 0.8579空间+时间 0.7643 0.8870 0.9016 0.87260(c)对多级特征库的研究。'无'指的是仅使用从主干网络的最后一层（ResNet50的第4层）收集的特征。0运算符 0.05 0.25 0.5 平均0曼哈顿 0.7632 0.8870 0.9024 0.8725 欧几里得0.7643 0.8870 0.9016 0.8726 切比雪夫 0.75400.8789 0.8931 0.8643 余弦 0.7611 0.88340.8982 0.86910(d)对差分运算符的研究。'差分运算符'指的是差分计算中应用的距离度量。0聚合 0.05 0.25 0.5 平均0平均 0.7498 0.8685 0.8804 0.8543 内部 0.75880.8793 0.8922 0.8650 交叉 0.7590 0.87700.8894 0.8631 内部+交叉 0.7643 0.8870 0.90160.87260(e)对渐进注意力聚合方法的研究。'Avg'指的是直接的时间平均操作，没有注意力。0表4. 在Kinetics-GEBD数据集上的消融研究，以不同的Rel.Dis.阈值的F1得分为衡量标准。0使用相对距离（Rel.Dis.）度量[35]。Rel.Dis.是预测值与真实值之间的相对距离，除以相应视频的长度。给定一个阈值，如果Rel.Dis.小于或等于阈值，则判断预测为真，否则为假。在实验中，我们按照[35]的方法报告了在Rel.Dis.阈值设置为[0.05:0.05:0.5]时的F1得分。实施细节。在实践中，我们每3个连续帧中选择一帧，即边界评估的步幅为3。为了预测当前帧的置信度，我们将一个T×s（T=2×w+1）的剪辑作为输入，其中w为5，s为6。按照[35]的方法，我们的模型建立在ImageNet预训练的ResNet-50主干上，并进行端到端的训练。多级特征库的m和n设置为3。渐进注意力的ω设置为5。为了训练DDM-Net，我们使用Adam作为优化器。批量大小设置为32，学习率设置为1e-5。04.2. 主要结果0我们在Kinetics-GEBD和TAPOS的验证集上与最先进的方法进行了公平比较。结果表明，我们的方法在所有Rel.Dis.阈值上都大幅优于最先进的方法。Kinetics-GEBD。表1显示了不同方法在Kinetics-GEBD验证集上的性能。可以看出，DDM-Net在F1得分上明显优于其他方法，证明了密集差异和复杂聚合的有效性。特别是，在最严格的阈值（Rel.Dis.=0.05）下，DDM-Net的性能从62.5%提高到76.4%，近14个百分点的提升证明了DDM-Net的边界预测是最精确的。此外，结合更强大的主干网络CSN[42]，我们的DDM-Net可以更优秀。0对LOVEU Challenge@CVPR2021的获胜解决方案的研究结果如表3所示。值得注意的是，这个结果是在没有获胜解决方案的花哨技巧（例如模型集成、音频数据和人-物体检测器）的情况下获得的。TAPOS。在TAPOS上总结了最先进的GEBD方法的比较结果，如表2所示。由于DDM-Net能够学习复杂的语义并区分细微的子动作变化，它在TAPOS上取得了最先进的性能，将F1得分@0.05从52.2%提高到60.4%。这个结果证明了我们的模型不仅可以实现准确的通用事件边界检测（Kinetics-GEBD），还可以精确地检测细粒度子动作之间的边界（TAPOS）。04.3. 消融研究0对不同表示方法的研究。我们通过实验不同的表示方法来分析我们提出的DDM，如表4a所示。首先，我们比较了单一表示方法的性能。我们提出的DDM在严格的设置下（Rel.Dis.=0.05）明显优于RGB、光流和RGB差异，尤其是在严格的设置下。其次，我们发现当DDM与RGB特征相结合时，改进最大，这证明了密集差异和RGB特征的互补性。此外，由于DDM是即时计算的，我们的方法不需要训练两个单独的网络，因此比之前的两流方法更高效。对时间视图的研究。在第3.2节中，我们认为边界帧与其相邻片段之间的相关性比较远的帧更强。为了证明我们的观点，我们对不同时间视图的剪辑进行了实验。如表4b所示，随着步幅s的增加，时间视图增加，但性能在第3行下降。timetimetime336208.6秒 1.5秒 3.2秒 5.5秒 7.5秒0PC边界真值 DDM-Net边界00.7秒 2.2秒 3.9秒 5.3秒 9.5秒00.8秒 2.2秒 5.4秒 9.5秒 3.9秒01.0秒 2.6秒 4.6秒 6.8秒01.1秒 3.0秒 4.8秒 7.1秒07.4秒 0.3秒 1.7秒 3.5秒 5.6秒 9.7秒00.6秒 1.6秒 4.6秒 8.4秒00.5秒 1.6秒 8.4秒0图3.Kinetics-GEBD数据集上PC、DDM-Net和真值的定性结果和比较。0特别是当 s增加到30时，即通过整个视频均匀采样的帧对当前帧进行分类（约300帧），性能显著下降。因此，在GEBD任务中引入全局时间上下文是不必要的。此外，如果时间视图固定，使用更多帧（w = 15而不是w =5）计算更密集的差异可以稍微提高性能（第2行和第5行）。多级特征库研究。为了模拟不同事件边界的各种运动模式，我们首先构建了一个多级特征库，然后在其上计算密集差异。如表4c所示，多级空间和时间特征都优于单级特征的结果。此外，多级空间和时间特征的组合（首先生成多级空间特征，然后在每个层的空间特征上生成多级时间特征）可以进一步提高性能，证实了多级特征库的整体贡献。差异运算符研究。在表4d中，分别使用欧几里得距离、曼哈顿距离和余弦距离来衡量特征差异。我们观察到我们的方法获得了接近的性能。因此，DDM-Net的性能对于差异运算符的选择是稳健的。相反，我们的模型在切比雪夫距离上出现了下降。由于切比雪夫距离衡量了所有通道之间的最大差异，它无法反映出两帧之间的整体差异。渐进注意力聚合方法研究。0在表4e中，我们研究了两种渐进注意力聚合方法（需要对齐形状的map-squeezed注意力不能被移除）。内模态注意力主要集中在聚合和增强具有可学习查询q的关键内模态特征。与整体特征序列H相比，精炼的查询q'包含关键模式和较少的噪声，这可以解释第2行性能的提升。如果只利用跨模态注意力，整体RGB特征A和DDM特征D直接通过跨模态联合特征学习进行查询和引导，从而提高第3行的性能。此外，与H不同，精炼关键特征q'的跨模态聚合可以进一步提升性能（第4行）。04.4. 定性结果0图3显示了我们方法的定性结果，包括不同类型的事件边界。第一个例子是几个镜头变化的视频。DDM-Net能够精确感知时间变化并击中每个边界实例，而PC的预测不准确。第二行的案例更具挑战性，只有左手的位置发生变化。DDM-Net能够模拟复杂的语义并区分微妙的动作变化，因此它能够进行准确的预测。相反，PC错过了所有的真值。最后一个例子是镜头变化和动作变化的组合。由于我们的方法对时间噪声（摄像机抖动）更加鲁棒，它预测的误报较少。总之，由于多级DDM和渐进注意力的作用，我们的方法能够精确感知时间变化并理解复杂的语义，因此在许多不同情况下都显示出优势。05. 结论0在本文中，我们提出了一种用于通用事件边界检测（GEBD）任务的模块化框架。为了感知多样的时间变化和学习通用事件边界的复杂语义，我们的方法逐步关注多层密集差异图（DDM）。由于整体的时间建模和跨模态的联合特征学习，我们的DDM-Net在Kinetics-GEBD和TAPOS基准上的性能大大超过了先前的最先进方法。此外，我们的方法优于LOVEU Challenge@CVPR2021的获奖解决方案，进一步证明了DDM-Net的有效性。至于局限性，未来的工作还需要对未修剪视频的大规模GEBD基准进行进一步验证。0致谢。本工作得到中国国家自然科学基金（No.62076119，No.61921006），江苏省创新人才和创业计划以及新型软件技术与产业化协同创新中心的支持。33630参考文献0[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould和LeiZhang。自底向上和自顶向下的注意力用于图像字幕和视觉问答。在CVPR中，第6077-6086页。计算机视觉基金会/IEEE计算机学会，2018年。30[2] Lorenzo Baraldi，Costantino Grana和RitaCucchiara。通过分层聚类进行重用广播视频的镜头和场景检测。在CAIP（1）中，Lecture Notes in ComputerScience的第9256卷，第801-811页。Springer，2015年。20[3] Shyamal Buch，Victor Escorcia，Bernard Ghanem，LiFei-Fei和Juan CarlosNiebles。端到端的未修剪视频中的单流时态动作检测。在BMVC中。BMVA Press，2017年。20[4] Jo˜ao Carreira和Andrew Zisserman。Quovadis，动作识别？一种新模型和动力学数据集。在CVPR中，第4724-4733页。IEEE计算机学会，2017年。20

下载后可阅读完整内容，剩余1页未读，立即下载