没有合适的资源?快使用搜索试试~ 我知道了~
自监督通用事件边界检测方法的研究与实验分析
2728××运动感知的自监督通用事件边界检测阿尤什湾放大图片创作者:Michael,John W.放大图片作者:J.mail.dcu.ie摘要通用事件边界检测(GEBD)的任务旨在检测视频中被人类自然感知为通用和无分类的事件边界的时刻对视频中动态演变的时间和空间变化进行建模使得GEBD成为一个难以解决的问题现有的方法在架构设计选择方面涉及非常复杂和在这项工作中,我们通过重新审视一种简单有效的自监督方法来解决这个问题我们在具有挑战性的Kinetics-GEBD和TAPOS数据集上进行了广泛的实验,以证明所提出的方法与其他自监督最先进的方法相比的有效性。我们还表明,这种简单的自我监督方法学习运动功能,没有任何明确的运动特定的借口任务。我们的结果可以在GitHub上复制。1. 介绍使用深度学习方法对视频进行建模以学习有效的全局和局部视频表示是一项极具挑战性的任务。当前最先进的视频模型[18]是建立在有限的一组预定义的动作类上的,通常处理短剪辑,然后进行池化操作以生成全局视频级预测。用于视频处理的其他主流计算机视觉任务主要集中在动作预测[56,1]、时间动作检测[7,22]、时间动作分割[43,41]和时间动作解析[62,67]。然而,只有有限的注意力已经给予理解长形式的视频。认知科学家[74]观察到,人类通过将视频分解为较短的时间单位来感知视频,每个时间单位都具有语义含义,并且还可以对它们进行推理这就需要重新调查*平等监督搜索问题,以检测视频中的时间边界,从认知的角度来看,这与它们的语义有效性和可解释性是一致的为此,最近在[68]1中引入了GEBD任务,其目的是通过人类感知机制的镜头研究长格式视频理解问题。GEBD旨在识别内容的变化,而不依赖于动作、亮度、对象等的变化,即通用事件边界,使其与视频定位等任务不同[77]。视频事件可以指示目标或子目标的完成,或者人类变得难以预测接下来会发生什么的 场合。最近发布的Kinetics-GEBD数据集[68]是GEBD任务的第一个特定数据集。它由5个不同的事件边界注释器进行注释,从而捕捉到人类感知中涉及的微妙之处,并使其成为具有最多时间边界的数据集aries(8EPIC-Kitchen-100 [11]和32ActivityNet [16])。GEBD任务的主要挑战是有效地对DDM-Net [72]中描述的通用空间和时间多样性进行 空间多样性主要是由于这两个低水平的变化,例如,亮度或外观的变化,以及高电平的变化,例如,摄像机角度的变化另一方面,时间多样性可以归因于行动的变化或互动对象的变化,其速度和持续时间取决于主体。这些时空差异使得GEBD成为一个难以解决的问题。在这项工作中,为了解决在监督设置中在预定义类上训练的视频模型的偏见性质,以及GEBD中的空间多样性,我们利用了自监督模型的力量。像Tencent [12]和CCL [38]这样的自监督技术已经在视频理解的各种下游任务上取得了突破性的成果。使用自监督学习(SSL)方法学习的表示不偏向任何预定义的动作类,使SSL方法成为GEBD任务的理想候选者此外,为了表征GEBD中的时间多样性,学习运动信息对于捕获1LOVEU@CVPR2021,LOVEU@CVPR20222729图1.a)阶段1涉及使用基于对比学习的目标的具有四个借口任务的修改的ResNet 50编码器(用MotionSqueeze层增强)的预训练; b)阶段2包括对下游GEBD任务上的编码器进行微调。有关编码器的详细信息,请参阅补充材料中的表1。在动作场景变化期间发生的细粒度时间变化。视频建模中的先前方法通过预先计算连续帧之间的光学流[53,52,54]来学习时间运动线索,这在外部完成并且需要大量计算。或者,诸如[32,21]中描述的那些方法通过学习图像之间的视觉对应来内部估计光流。动态学习的运动特征也可以用于下游应用,例如[82,42]中所示的动作识别。这提出了一个有趣的研究问题:我们如何开发一个SSL框架来理解视频,同时考虑外观和运动特征?我们是否需要一个明确的特定于运动的训练目标,或者这可以隐含地实现?我们通过重新思考SSL来回答这些问题,方法是在剪辑级重新制定Vendor [40]中提出的训练目标,并使用[42]中引入的MotionSqueeze(MS)模块将其与可区分的运动估计层进一步集成,以共同学习视频的外观和运动特征。总括而言,我们的主要工作贡献如下:• 我们重新审视了一种简单的自监督方法Venda[40],通过将其分解为帧级和剪辑级来修改其借口任务以学习有效的视频表示(cVenda),从而进行了显著的改变我们进一步增强编码器与微分运动有限元-GEBD的真实学习模块• 我们对Kinetics- GEBD和TAPOS数据集进行了详尽的评估,并表明我们的方法实现了与自监督最先进方法相当的性能,音频)。• 我们表明,即使没有任何明确的运动特定的借口任务,该模型可以学习运动功能下自我监督。2. 相关工作2.1. 通用事件边界检测。GEBD [68]的任务在性质上类似于临时动作定位(TAL)任务,其目标是定位动作发生的起点和终点以及动作类别。解决GEBD的最初尝试受到流行的TAL求解器的启发,包括边界匹配网络(BMN)[52]和BMN-StartEnd [68],其生成具有精确时间边界以及可靠置信度分数的建议 Shou等人[68]介绍了一种有监督的基线成对分类器(PC),该分类器通过简单的线性分类器将GEBD视为逐帧二元分类问题(边界或非边界2730其使用候选帧附近的级联平均特征。然而,由于GEBD是一个新的任务,目前的大多数方法都是最先进的视频理解任务的扩展,忽略了GEBD的微妙的区别特征。因此,需要GEBD专业解决方案。DDM-Net [72]在多级密集差异图(DDM)上应用渐进注意力来表征运动模式,并在监督设置中与外观线索联合学习运动。然而,我们通过在自我监督设置中使用MS模块增强编码器来 Hong等人[29]对GEBD使用了级联的时间注意力网络,而Rai等人。[64]使用双流网络探索了时空特征的使用。 Li等人[49]设计了一个端到端的空间通道压缩编码器和时间对比模块来确定事件边界。最近,SC-Transformer [48]引入了一种结构化序列分区(SPoS)机制,使用基于转换器的架构学习结构化上下文,用于GEBD,并通过计算组相似性对其进行了增强,以学习用于边界检测的独特特征。SC-Transformer的一个优点是它独立于视频长度,并且通过馈送100帧来预测单个前向传递中的所有关于无监督GEBD方法,在[68]中研究了镜头检测器库2和PredictAbility(PA)UBoCo [36,35]的作者提出了一种新的监督/无监督方法,该方法将对比学习应用于基于TSM3 的视频中间表示,以学习歧视性边界特征。UBoCo然而,他们对数据集中的所有视频进行了预处理,使其具有相同的每秒帧(fps)值24,这增加了计算开销。此外,与SC-Transformer一样,UBoCo一次输入代表整个视频的帧,而在我们的工作中,我们使用原始视频信号进行预训练,并且仅将候选边界周围的上下文作为GEBD任务的输入。TeG [63]提出了一种用于视频理解的通用自监督模型,用于学习持久和更细粒度的特征,并在GEBD任务中对其进行了评估。TeG和 我 们 的 工 作 之 间 的 主要 区 别 是 TeG 使 用3D-ResNet-50编码器作为其骨干,这使得训练计算成本很高,而我们使用2D-ResNet-50模型并通过添加时间移位模块(TSM4)[51]对其进行修改,以实现与3D卷积相同的效果,同时保持2DCNN的复杂性。GEBD可以作为一个更大的下降的初步步骤2https://github.com/Breakthrough/PySceneDetect3时间自相似矩阵4时间移位模块流应用,例如视频摘要、视频字幕[76]或广告提示点检测[8]。因此,重要的是,GEBD模型不增加过多的计算开销的整体管道,不像许多相关工作的例子在这里。2.2. SSL用于视频表示学习。自我监督已经成为学习表示的新规范,因为它能够利用未标记的数据[59,23,15,2,5,81,4,9,60,39,14]。最近的方法设计的视频理解可以分为两类的基础上SSL的目标,即借口任务为基础的和对比学习为基础。基于Pretext的任务这里的关键思想是设计一个预文本任务,以在线方式生成标签,称为伪标签,没有任何人工注释。示例包括:预测正确的时间顺序[58],视频旋转预测的视频旋转网络[34],剪辑顺序预测[78],奇一网络[20],排序序列[45]和节奏预测[75] 5。所有这些方法基于借口任务以不同的方式利用来自视频的原始时空信号,从而学习适合于各种下游任务的表示。基于对比学习。对比学习方法带来语义相似的对象、剪辑等,在嵌入空间中靠近在一起,同时将它们与负样本进行对比,使用基于噪声对比估计(NCE)的一些变体的目标用于图像的对比预测编码(CPC)方法[60]扩展到DPC [26]和MemDPC [27]中的视频,其通过压缩内存的概念增强了DPC。Li等人[73]扩展了用于帧间-帧内风格视频表示的对比多视图框架,而Kong等人[38]将循环一致性的思想与对比学习相结合,提出循环对比。同样,Yang等人。 [79]在对比框架中利用视觉节奏来学习时空特征。类似地,[12,3]使用对比学习的时间线索。VCLR [40]制定了一个视频级对比目标,以捕捉全球背景。在这里介绍的工作中,我们利用Vibration作为我们的骨干目标。然而,不同的借口任务,仅在帧级上执行计算,我们修改这些借口任务,不仅在帧级上操作,而且在剪辑级,从而导致更好地建模的时空特征的视频。有关用于视频理解的SSL方法的更广泛综述,请参见[66]。2.3. 运动估计和学习视频理解的视觉对应。运动估计双流架构[19,69]通过使用预先计算的光流,在动作识别任务上表现出了有希望的性能,尽管5也将对比学习作为一个额外的目标。27311·----NQ1311Qp1=gr(fk(v1))和负样本一+K一e一KN}N这样的方法降低了视频处理的效率。其他几种方法[17,33,47,61,71]提出了以端到端方式内部学习运动的架构。[50,80]中提出的工作引入了运动特定的对比学习任务,以在自我监督设置中学习运动特征学习视觉对应。许多最近的作品已经提出使用神经网络来学习图像之间的视觉对应关系[21,25,46,57,65,70]。为了学习视频理解的对应关系,CPNet[55]引入了一种网络,该网络通过仅从RGB输入混合外观和长距离运动特征来学习Zhao等人[ 82]第 八十二话提出了一种方法,学习一个解开的表示,范围依赖性),VEGF1.1 [40]中定义的prefect任务是预训练的良好候选者,因为它们用于从原始视频信号中捕获这种语义以进行强大的视频表示我们改变了在Vendor 中 的 prefigure 任 务 设 置 , 以 确 保 Intra 和 Interinstance discrimination(ID)任务在帧级操作,而视频片段ID的计算和时间顺序正则化任务在剪辑级发生。下面我们详细阐述这一概念背后的直觉。对于帧级借口任务,考虑从视频中随机选择的三个帧,v1,v2和v3。v1经历不同的增广以产生v1和v2。−表示来自其他视频的负样本。va处理通过查询编码器fq(va),而(v+,v2,v3)是亲-1 1视频,即静态外观、视在运动和仅来自RGB输入的外观变化运动挤压(MS)[42]引入了一个端到端的可训练、模型不可知和轻量级的模块来提取不需要任何通信监督的运动特征。3. 方法为了将对比学习框架应用于专门用于通用事件边界检测的视频,我们遵循Vendor [40]提出的框架,并使通过密钥编码器fk()来执行。虽然取决于借口,但投影头在任务之间变化。对于剪辑级借口任务,视频V被划分为K个(设置为3个)段S1,S2,., S K相等的时间。从这些片段中的每一个片段随机且独立地采样包括4帧长剪辑的两个元组,以形成锚元组和正元组。例如,令ck=u1,u2,u3,u4,其中ck表示从第k个片段采样的有序剪辑,而u1,u4表示帧在那个片段里。 类似地,锚和正元组是通过ta={ca,ca,. . . ca}和t+={c+,c+,c+}明显的修改。为了简单起见,12K分别12K除非另有明确说明,否则保持与[40]相似。3.1. 用于视频表示学习的1:对比编码器。 我们的处理骨干是一个a. 帧内ID任务。为了对GEBD任务的空间多样性建模,我们采用Vendor [40]中提出的帧内实例判别任务来对跨帧的内在空间变化建模。F或这个ta sk只有v+是基于ResNet-50的编码器配备了四个任务,被认为是一个积极的例子,1v2和v3表示[40]第40话,一个人,一个人,反面例子。MLP头由gr和gr给出,QK目标如MoCo-V2中所定义[10]。锚嵌入qa=gr(fq(va)),正嵌入设x=T(x)是锚as+1q1+7图像xq,其中T = P(P={随机缩放,颜色抖动,r r随机灰度、随机高斯模糊和随机水平翻转是增强的集合)和负样本。分别通过查询(fq(xq))和密钥(fk(xp))编码器处理xq和xp此外,这些编码器附加有投影头(MLP层)以获得输入的低维表示,即,q=gq(fq(xq)),p=gk(fk(xp)).总体目标可以通过InfoNCE损失进行优化[60]:p2=gk(fk(v2)),p3=gk(fk(v3)). 损失对象ive由下式给出LIntra=LNC E(q1,p1,{p2,p3})。(二)b. 帧间ID任务。检测通用事件边界需要对来自一致动作的细粒度时间结构进行编码,这些结构彼此一致。为了对此进行建模,帧间实例判别任务将va视为锚帧,并将(v+,v2,v3)1 1LNCE(q,p, N−)=−logesim(q,p)ΣNj=1作为正样本,而-作为负样本。Ge和ge是输出锚的MLP投影头(一)嵌入q1 =gq(fq(v1))和正嵌入为p+=ge(fk(v+)),p2=ge(fk(v2)),p3=ge(fk(v3)).让其中,sim(·,·)是相似性函数。我们注意到gq和1k1k k1gk可以被认为是一个特定任务的投影头,详情见下文6。2:文本前设置。为了捕捉不同的通用LInter =1ΣLNCE (q a,p′,N −)。 (三)微妙的细微差别(空间变化,时间相干性,长p7注:阴性样本来自同一视频,即两个样品6下标q,f和g中的k表示查询和键如等式所示。(二)、.p嵌入esim(q,p)+esim(q,nj)Σ2732C××××××LL×LBBQBKK不不tp1 2Kt k1 2KCc. 基于视频片段的ID任务。学习视频中的长距离时间多样性对于GEBD任务也是至关重要的。为了捕获时间维度中的演变语义,我们需要结合全局视频级信息。对比损失目标以如下方式选择:剪辑锚定和剪辑正元组中的每个剪辑,即,ta和t+通过一致性操作(由表示)学习视频-1层嵌入,例如,指数.在数学上,这可以表示为:q a= g s(C |C(f q(c a)),C(f q(ca)),. . . ,C(f q(c a),(4)p+=gs(C|C(fk(c+)),C(fk(c+)),. . . ,C(fk(c+),(5)LS段=LNC E(qa,p+,N−)。(六)2:位移估计。下一步涉及估计的位移映射的大小HW2的相关张量S(t)。为了获得位置x的最佳匹配位移,使用kernal-soft-argmax[46]。此外,可以使用运动置信度图(大小为HW通过如[42]中所述地汇集每个位置x上的最高相关性来获得作为辅助运动信息的相关性的最大值(1)运动置信度图有助于识别位移异常值并学习信息丰富的运动特征。然后将位移图与运动置信度图连接以创建大小为H W3的位移张量D(t)。3:特征转换。 为了转换位移-将运动张量D(t)转换为相关运动特征M(t)(具有与输入F(t)相同的通道维度C),D(t)通过类似于[42]的四个深度方向可分离卷积[30]。与[42]相反,在我们的工作中,我们应用此功能在自我监督环境中测试转型,以学习取代-在此,g,s和g,s表示MLP头,(f,q(c,a))表示第k个剪辑中的单个帧的编码器表示上的平均值,而q,a,p+表示锚和正剪辑元组的最终嵌入。视频级对比度损失由Segment给出。d. 时序正则化任务。为了在自监督视频表示学习中对视频实施固有的顺序结构以进行信令监督,我们需要一个借口任务来学习视频数据的正确时间顺序。这也可以通过[20,75]中提出的然而,在这项工作中,我们限制自己使用时间排序作为对比框架内的正则化项(由Order表示),如[40]中的第3.3节所解释的,尽管我们将其重新表述为包括剪辑级计算。对Vendix中基于视频片段的ID任务和时间顺序正则化任 务 进 行 修 改 以 合 并 剪 辑 级 计 算 被 称 为 cVendix(clip-Vendix)。3.2. 运动估计为 了 学 习 运 动 特 征 , 我 们 使 用 [42] 中 提 出 的MotionSqueeze(MS)模块,这是一种可学习的运动特征提取器,可以插入任何视频理解架构中以学习运动特征并取代光流的外部计算运动特征分三步学习:1:相关性计算。考虑F(t)和F(t+1)表示空间分辨率H W和通道维度C的两个相邻输入特征图。相关性张量S(t)通过计算每个空间位置x相对于位移p的相关性得分来计算,遵循FlowNet[21]中的相关性层实现。通过限制最大位移,仅在邻域大小P=2l+1中计算位置x的相关性p∈[−l,l]2,P的值设为15。运动张量和运动置信度图(通用运动特征)。最后,使用逐元素加法运算将运动特征M(t)添加到下一层的输入:F′(t)=F(t)+M(t)。得到的融合特征F′(t)作为输入传递到下一层。更多详情请参阅[42]。3.3. 优化总体对比损失目标由下式给出L total =L Inter +L Intra +L Segment + L Order。(七)我们的编码器增加了一个MS模块(在conv3 x8之后引入),以共同学习外观和运动特征。更确切地说,采 用 ResNet-50 [28]模 型 作 为 CNN 编 码 器 , 我 们 为ResNet的每个残差块插入TSM4这四种损失中的每一种对总损失的贡献都是相等的,尽管适当地权衡它们可能会提高性能。总体框架如图1所示。4. 实验装置4.1. 实施详情。第一阶段:前期培训。我们密切关注Vendor [40]来训练编码器。该模型是端到端预训练的,目标如等式中所定义。(7)在2个NVIDIA GeForce RTX-2080 Ti GPU上,有效批处理大小()为8,分布在GPU上(每个GPU 4个),所有任务的温度设置为0.01。帧级和剪辑级前置任务的输入是(,3,3,224,224)和(,K , 4 , 3 , 224 , 224 ) , 其 中 K=3 。 TSM4 和MotionSqueeze仅应用于剪辑级别任务。编码器被初始化为MoCo-v2 [10]权重,8符号,如[28]2733‡†N表1.使用Rel. Dis阈值范围为0.05至0.5,步长为0.05。:软标签,:硬标签。在Kinetics-400 [37]数据集上预训练。Rel. Dis阈值微调0.050.10.150.20.250.30.350.40.450.5avg[52]第五十二话0.186美元0.2040.2130.2200.2260.2300.2330.2370.2390.2410.223BMN-SE [52]†0.491美元0.5890.6270.6480.6600.6680.6740.6780.6810.6830.640TCN-TAPOS [44]†✓0.4640.5600.6020.6280.6450.6590.6690.6760.6820.6870.627TCN [44]†0.588美元0.6570.6790.6910.6980.7030.7060.7080.7100.7120.685监督PC [68]†✓0.6250.7580.8040.8290.8440.8530.8590.8640.8670.8700.817SBoCo-Res50 [36]†0.732美元---------0.866SBoCo-TSN [36]†,0.787美元---------0.892DDM-Net [72]†0.764美元0.8430.8660.8800.8870.8920.8950.8980.9000.9020.873Li等人[49]第四十九话0.743美元0.8300.8570.8720.8800.8860.8900.8930.8960.8980.865[48]第四十八话0.777美元0.8490.8730.8860.8950.9000.9040.9070.9090.9110.881SceneDetect [6]0.275美元0.3000.3120.3190.3240.3270.3300.3320.3340.3350.318[68]第六十八话0.336美元0.4350.4840.5120.5290.5410.5480.5540.5580.5610.506美国[68]0.396美元0.4880.5200.5340.5440.5500.5550.5580.5610.5640.527非监督[36]第三十六话0.703美元---------0.866美国[36]0.702美元---------0.892TeG-PS [63]†✓0.699----------(自我监督)TeG-FG [63]†✓0.714----------我们的†✓0.6800.7790.8060.8180.8250.8300.8340.8370.8390.8410.809我们的‡✓0.7110.7770.7910.7950.7980.7990.8010.8020.8020.8030.788samples-(队列大小)设置为8192,并使用SGD训练400个epoch,其中5个epoch的热启动遵循余弦衰减,基本学习率为0.01。预训练仅在Kinetics-GEBD [68]数据集上执行。第二阶段:微调。到编码器的输入是基于时间窗口(W=5),该时间窗口定义了具有步幅m=3.9的候选帧(之前和之后)从而产生作为输入的4D张量(10,3,224,224)我们很好-使用二进制交叉熵(BCE)端到端调整模型(边界为0/1)作为目标,使用高斯平滑(σ = 3)进行增强,用于软标记,如[48]中所述。Kinetics-GEBD的学习率设置为7.5e−4,而TAPOS的学习率设置为1e−4。在训练过程中对每个批次应用平衡采样,以避免类别不平衡。我们对模型进行了8个时期的微调,并使用早期停止来找到最佳模型。更多细节见补充材料。为了选择视频的最终边界预测,我们对所获得的边界建议应用后处理方案。第一,提案应大于0.5的阈值。其次,我们在1秒的时间窗口内汇总所有提案。4.2. 结果我们对给定的数据集进行了广泛的定量和定性研究。关于评价方案,我们请读者参阅附录。材料在表1和表2中,我们分别报告了Kinetics-GEBD和TAPOS数据集在0.05至0.5范围内的不同阈值的F1评分,步长为0.05。在Kinetics-GEBD数据集上,我们的模型优于Rel的监督基线PC [68]。Dis阈值0.05,也可与其他最先进的无监督/自监督GEBD模型相媲美,如9从每3个连续帧[36]和[37],是一个很好的例子。表1说明了Kinetics-GEBD数据集的结果。在TAPOS数据集上,它由具有21个动作类的奥运会体育视频组成,我们有类似的观察结果。 我们的模型在Rel. Dis阈值为0.05,与其他阈值相当。TAPOS上的其他先进方法,如DDM-Net[72]和SC-Transformer [48]属于监督类别,不能直接与我们的结果进行比较。我们无法找到GEBD的其他最先进的非/自我监督模型来直接比较我们的结果,在表2所示的TAPOS数据集上。我们还对通过我们的方法检测到的边界进行了定性分析,并将其与监督基线PC [68]和图2中的地面实况注释进行了图3显示了在预训练期间由MS模块学习的运动置信度图的可视化。我们观察到运动置信度也很好地推广到TAPOS数据集,该数据集未用于预训练。这证实了MS模块即使在没有任何明确的运动特定借口任务的自我监督设置此外,我们的模型我们还发现,下游GEBD任务的线性评估(冻结编码器)导致性能不佳。4.3. 消融研究1:MotionSqueeze通过自我监督是否有帮助?如图3所示,MS模块在动态图像区域显示出高置信度。的2734cV+MotionSqueeze0.573(↑)0.680(↑)0.502(↑)0.605(↑)+ 软标签0.586(↑)0.711(↑)‡†表2. TAPOS验证集上的F1评分,Dis阈值范围为0.05至0.5,步长为0.05。:软标签,:硬标签(-):不清楚。Rel. Dis阈值微调0.050.10.150.20.250.30.350.40.450.5avgISBA [13]-0.1060.1700.2270.2650.2980.3260.3480.3690.3760.3840.314TCN [44]0.237美元0.3120.3310.3390.3420.3440.3470.3480.3480.3480.330CTM [31]-0.2440.3120.3360.3510.3610.3690.3740.3810.3830.3850.350监督Transparser [67]-0.2890.3810.4350.4750.5000.5140.5270.5340.5400.5450.474PC [68]†✓0.5220.5950.6280.6470.6600.6660.6720.6760.6800.6840.643DDM-Net [72]†0.604美元0.6810.7150.7350.7470.7530.7570.7600.7630.7670.728[48]第四十八话0.618美元0.6940.7280.7490.7610.7670.7710.7740.7770.7800.742SceneDetect [6]0.035美元0.0450.0470.0510.0530.0540.0550.0560.0570.0580.051非监督[68]第六十八话0.158美元0.2330.2730.3100.3310.3470.3570.3690.3760.3840.314美国[68]0.360美元0.4590.5070.5430.5670.5790.5920.6010.6090.6150.543(自我监督)我们的†✓0.5730.6140.6390.6560.6690.6790.6870.6930.7000.7040.661我们的‡✓0.5860.6240.6480.6630.6750.6850.6920.6970.7040.7080.668图2.定性分析I:Kinetics-GEBD验证集上一些检测到的边界的可视化与基线PC [68]相比,我们的方法产生了与地面实况一致的更精确的边界。表3. TAPOS和动力学- GEBD确认集上的消融研究,用于Rel.Dis阈值0。05方法TAPOSKinetics-GEBD Vanilla Vessel0.496 0.596模块甚至在自我监督下以在线方式学习光流。直觉,时序正则化和视频片段实例鉴别预文本任务实现补充了MS模块以学习通用运动特征。从表3中,我们观察到,通过合并MS模块,GEBD任务的F1@0.05分数在Kinetics-GEBD上增加了7.5%,在TAPOS上增加了7.1%,这是一个显著的增加。2:软标签是否有助于提高性能?Kinetics-GEBD有5个注释器来捕捉人类的感知差异,但这会引入歧义。理想地,候选边界帧的相邻帧也应当具有高的地面实况标签值。解决2735图3.定性分析II:所学习的运动置信度图的可视化。前两个区块(类别:分别在蹦床上跳跃和仰卧起坐)取自Kinetics-GEBD数据集,而底部块(类别:高低杠)源自TAPOS。在每个块中,第一行显示RGB帧,而第二行描绘了模型学习的运动置信度图注意:该模型仅在Kinetics-GEBD上进行了预训练,但它也可以推广到TAPOS数据集。在这个问题上,我们使用高斯平滑(σ=3)从硬标签创建如表3所示,软标签在Kinetics-GEBD上将F1@0.05评分提高了3.1%,在TAPOS数据集上提高了1.3%。注:对于GEBD挑战特定报告,我们请读者参阅2021年和2022年的挑战页面。5. 结论与讨论在这项工作中,我们提出了一个自我监督的模型,可以预先训练的通用事件边界检测任务。GEBD任务是自监督学习的理想问题,因为该任务旨在学习通用边界,并且不偏向于预先训练的最先进的动作识别模型中的任何预定义动作类别。为了学习空间和时间的多样性,我们在帧级和剪辑级上改进SSL目标,以学习有效的视频表示(cVC)。此外,我们增加了我们的编码器与MS模块,并发现这确实compli- ments的整体性能的下游GEBD任务。此外,所学习的运动特征是通用的,因为该模型仅在Kinetics-GEBD上进行了预训练,但也可以推广到TAPOS数据集。通过我们的扩展-通过综合评估,我们在Kinetics-GEBD上实现了与自监督最先进方法相当的性能,如表1所示。然而,这项工作也有局限性。首先,我们没有使用更强大的模型,例如。如[48]中的变压器,或如[29]中的级联网络。第二,由于MS模块直接应用于特征图,因此它学习全局运动特征。然而,在GEBD中,边界是通用的,并且每种类型的运动可能不指示边界,因此更细粒度的运动模块可以提高性能。第三,由于计算限制,我们的自监督模型仅在Kinetics-GEBD数据集上进行预训练;然而,在Kinetics-400上预训练模型可以在下游GEBD任务上产生更好的性能我们将在今后的工作中解决这些局限性6. 确认这项工作源于爱尔兰科学基金会(SFI)资助的研究,资助号为SFI/12/RC/2289 P2,由欧洲区域发展基金和Xandex FotoNation共同资助。2736引用[1] Yazan Abu Farha、Alexander Richard和Juergen Gall。你什么时候做什么?预测活动的时间发生在IEEE计算机视觉和模式识别会议论文集,第5343-5352页[2] Yuki Markus Asano , Christian Rupprecht , and AndreaVedaldi. 通过同时聚类和表示学习的自标记arXiv预印本arXiv:1911.05371,2019。[3] Yutong Bai , Haoqi Fan , Ishan Misra , GaneshVenkatesh,Yongyi Lu,Yuyin Zhou,Qihang Yu,VikasChandra,and Alan Yuille.时间信息可以帮助对比自监督学习吗?arXiv预印本arXiv:2011.13046,2020。[4] Adrien Bardes , Jean Ponce , and Yann LeCun.维 -creg : Variance-Invariance-Covariance Regularization forSelf- Supervised Learning(自监督学习的方差-不变-协方差正则化)。arXiv预印本arXiv:2105.04906,2021。[5] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习视觉特征对比聚类分配。神经信息处理系统进展,33:9912-9924,2020。[6] 布兰登·卡特拉诺Pyscenedetect:一个智能的场景剪切检测 和 视 频 分 割 工 具 。 https://github.com/Breakthrough/PySceneDetect,2014.[7] 放 大 图 片 作 者 : ChaoYu-Wei , SudheendraVijayanarasimhan , Bryan Seybold , David A.Ross , JiaDeng,and Rahul Sukthankar.重新思考用于时间动作定位的更快R-CNN架构在IEEE计算机视觉和模式识别会议论文集(CVPR),2018年6月。[8] Shixing Chen , Xiaohan Nie , David Fan , DongqingZhang,Vi- mal Bhat,and Raffay Hamid.镜头对比自监督学习用于场景边界检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第9796-9805页[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offreyHinton.视觉表征对比学习的一个简单框架。国际机器学习会议,第1597-1607页。PMLR,2020年。[10] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe. 改 进 的 动 量 对 比 学 习 基 线 arXiv 预 印 本 arXiv :2003.04297,2020。[11] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.扩展以自我为中心的愿景:epic-kitchens数据集。在欧洲计算机视觉会议(ECCV)的论文集,第720-736页[12] Ishan Dave 、 Rohit Gupta 、 Mamshad Nayeem Rizve 和Mubarak Shah 。 时 间 对 比 学 习 ( Temporal ContrastLearning for Video Representation)计算机视觉与图像理解,219:103406,2022.[13] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在IEEE计算机视觉和模式识别会议的论文集,第6508-6516页[14] Yasser Abdelaziz Dahou Djilali,Tarun Krishna,KevinMcGuinness和Noel E.奥康纳重新思考360度图像视觉注意建模与无监督学习在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第15414[15] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的非监督视觉表示学习在Proceedings of theIEEE international conference on computer vision,pages1422[16] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet:用于人类活动理解的大规模视频基准。在2015年IEEE计算机视觉和模式识别会议论文集,第961-970页中[17] Lijie Fan , Wenbing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang.用于视频理解的运动表示的端到端学习。在IEEE计算机视觉和模式识别会议论文集中,第6016-6025页,2018年[18] Christo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功