没有合适的资源?快使用搜索试试~ 我知道了~
13967×面向通用事件边界检测的Congcong Li1*,Xinyao Wangg2,LongyinWen2,De xiang Hongg1,Tiejian Luo1,LiboZhang3†1中国科学院大学,中国2字节跳动公司,山景城,美国3中国科学院软件研究所,中国北京licongcong18@mails.ucas.edu.cn,{xinyao.wang,longyin.wen}@bytedance.comhongdexiang19@mails.ucas.edu.cn,tjluo@ucas.ac.cn,libo@iscas.ac.cn摘要通用事件边界检测旨在定位将视频分割成块的通用、无分类的事件边界。现有方法通常需要在将视频帧馈送到网络之前对其进行解码,这需要相当大的计算能力和存储空间。为此,我们提出了一种新的端到端压缩视频表示学习的事件边界检测,利用丰富的信息,在压缩域,即。RGB、运动矢量、残差和内部图像组(GOP)结构,而不完全解码视频。具体来说,我们首先使用Con-vNets来提取GOP中的I帧的特征。然后,设计了一个轻量级的空间信道压缩编码器,根据运动矢量、残差和I帧的特征表示计算P帧的特征表示提出了一种时间对比模块来确定视频序列的事件边界。为了弥补标注的模糊性并加快训练过程,我们使用高斯核来预处理地面实况事件边界。在Kinetics-GEBD数据集上进行的大量实验表明,该方法与现有的4. 5更快的跑步速度。1. 介绍到2022年,视频流量将占所有互联网流量的82%,高于2017年的75%。利用人工智能技术理解视频内容是近年来研究的一个活跃领域。然而,由于在巨大的规模复杂的时间演变,这仍然是一个具有挑战性的*本工作是在字节跳动公司实习期间完成的。†通讯作者(libo@iscas.ac.cn)807876747270686664621020 40 60 80 100 120每帧平均推理时间(ms)图1.推理时间与Kinetics-GEBD数据集上不同方法的F1得分[28]。(a)以前的方法[28] PC相对较快,结果较差。(b)在集成了光流(OF)模块之后,精度得到了提高,但运行速度要慢得多。(c,d)我们的方法通过直接利用压缩域中的运动矢量和残差,以极快的运行速度实现了具有竞争力的F1分数。(e,f)CLA [18]和CASTANET [14]将完全解码的RGB帧作为输入,这比在压缩域中进行的方法慢得多。绿色区域表示实时运行的方法。具有高时间冗余的原始视频流视频理解是计算机视觉中最基本的问题之一,它包括视频标记、动作识别、视频边界检测等。与静态图像相比,视频提供了丰富的信息,包括连续帧中的时间一致性,这些信息可以被额外利用。目前,双流网络[8,9,30]和3D卷积网络[17,33,34,37]是视频中两种流行的网络架构,(d)我们的(CSN+R18)(e)CLA(TSN+慢快)(f)CASTANET(CSN)(c)我们的(R50+R18)实时(b)PC+OF(R50+R18)(a)PC(R50)F1评分13968××固定场双流网络结合解码的RGB视频帧和光流来利用时间信息。然而,提取光流是非常缓慢的,这主导了整个预处理时间在视频理解任务。3D卷积网络是使用时空滤波器对时间信息进行建模的另一种选择。3D卷积网络的缺点是3D卷积运算中包含大量的参数,降低了推理速度。除了上述方法之外,视频理解的新趋势是使用变压器,包括[1,5,6,24,51],实现有竞争力的结果。近年来,几种方法[16,29,42,45,47,49]证明了直接将压缩域中的视频作为视频理解的输入的优势。这些方法使用压缩表示中的运动矢量和残差,该压缩表示是为视频的存储和传输而开发的,而不是对解码的RGB帧进行操作,其运行速度比使用光流的方法快两个数量级,同时实现竞争性结果[29]。具体地,这些方法使用几乎不需要计算的运动矢量和在P帧中编码的残差作为计算密集型光学流的替代。例如,CoViAR [45]直接将运动矢量和残差馈送到2D CNN中进行动作识别,而DMC-Net [29]通过基于运动矢量和残差重构光流来改进CoViAR方法。虽然上述方法取得了有希望的结果,但它们仍然远不能令人满意,这缺乏不同模态之间的有效融合策略,例如解码I帧,运动矢量和残差。在本文中,我们专注于通用事件边界检测(GEBD[28])任务,该任务旨在定位人类自然感知无分类事件边界的时刻,这些事件边界将较长的事件分割为较短的时间段。将长格式视频划分为小的有意义的片段的能力使得该任务对于需要高精度和低延迟的若干下游视频理解任务和之前的尝试[28]通过考虑候选边界的上下文信息然而,它忽略了连续帧之间的时间关系,并且在特征提取阶段效率低下。受[16,29,42,45,47,49]的启发,我们设计了一个端到端的训练网络来利用压缩域中GEBD的区分特征,即、MPEG-4等标准,能够节省解码开销,提高特征提取效率。具体地,大多数现代编解码器将视频分割成若干图片组(GOP),其中每个GOP由一个I帧和T个P帧形成为了解决由P帧的长依赖链引起的困难,受[45]的启发,我们使用回溯技术来计算累积的运动矢量,线性时间的残差。以这种方式,每个GOP中的连续P帧仅取决于参考I帧,其可以被并行处理。与I-框架相比,P-框架的区分特征很难学习。基于运动矢量和残差来细化参考I帧的特征成为直观的选择。运动矢量和残差通过参考相关I帧来提供信息以重建P帧除此之外,它们还提供从视频编码过程中获得的运动信息。为此,我们设计了一个轻量级的空间通道压缩编码器,以细化的运动矢量和残差的指导下的参考I帧的功能。通过这种方式,将P帧和I帧的特征转换到同一个特征空间,有利于后续处理。在此基础上,提出了一个时间对比模块,用于在时间域中捕获上下文信息,从而预测视频的事件边界。值得注意的是,我们的时间对比模块模仿人类,即。通过比较候选帧之前和之后的提取特征,在候选帧周围来回查看以确定事件边界此外,为了弥补注释的模糊性并加快训练过程,我们使用高斯核来预处理地面实况事件边界,而不是使用边界的“硬标签”。在Kinetics-GEBD数据集上进行了大量的实验,以证明所提出的方法的有效性。具体而言,所提出的方法在CVPR'21 LOVEU挑战[ 18 ]中获得了与最新技术水平方法相当的结果,其中4.5.运行速度较快,见图1。本文的主要贡献如下。(1) 我们提出了一种端到端的压缩视频表示学习方法来解决具有挑战性的GEBD任务。(2) 我们设计了空间通道压缩编码器,在运动矢量和残差的指导下投影参考I帧的特征,以低成本计算P帧的特征。(3)提出了一种利用时域上下文信息确定视频事件边界的(4)在CVPR'21 LOVEU Chal- lenge [ 18 ]中,所提出的方法实现了与最先进方法相当的结果,其中4. 5.运行速度更快,证明其有效性。2. 相关工作视频识别在过去的十年中,由于深度学习的出现,视频识别取得了巨大的进步。早期的方法[20,26,38,39]使用手工制作的视频识别功能。在深度学习到来之后,视频识别领域迅速被基于CNN的方法所主导,例如双流网络和3D卷积网络。基于双流网络的方法[8,9,30]使用额外的时间13969˜˜图2.所提出的方法的架构。空间通道压缩编码器(SCCE)的设计是基于参考I帧特征xI、运动矢量Mt和残差Rt来获得精确的P帧表示vt。该模块将每个GOP视为一个处理单元,效率高,可以大批量处理。然后,我们使用时间对比模块来捕获时间依赖性明确的统一表示的基础上,这为边界检测提供了强有力的线索然后,使用一个简单的分类器进行最终预测,并使用高斯平滑软标签进行训练。流来学习运动信息,并设计各种融合策略将来自图像流和时间流的信息相结合,取得了较好的效果。通常用光流来描述运动信息,这是计算昂贵的。其他一些方法[17,33,34,37]尝试使用具有时空滤波器的3D卷积网络来整合时间信息。然而,这些方法很难优化,并且在训练阶段需要大规模的数据集。近年来的新趋势是引入变换器[1,5,6,24,51],其在视频理解的各种数据集上取得了有希望的同时,最近的一些方法试图直接将原始压缩视频作为视频理解领域中不同任务的输入,例如动作识别[16,29,45,47,49],对象检测[42]和视频分割[10]。上述方法使用直接从压缩视频中获得的运动矢量和残差作为光流的替代,并且在速度和精度方面实现了可比较的结果。通用事件边界检测。通用事件边界检测(GEBD)[28]旨在定位人类自然感知无分类事件边界的时刻,这些事件边界将较长的事件分解为较短的时间段。之前的方法[28]将候选边界前后的5个视频帧作为输入,并分别确定每个候选是否是事件边界。Kang等人[18]建议使用时间自相似性矩阵(TSM)作为中间表示,并使用流行的对比学习方法来利用判别特征以获得更好的性能。Hong等人[14]使用级联分类头和动态采样策略来提高召回率和准确率。同时,Raiet al. [27]尝试使用双流膨胀3D卷积架构来学习时空特征。据我们所知,不存在任何先前的工作集中在压缩域的GEBD任务。注意力机制。为了学习更多的区别性特征,已经提出了许多方法,这些方法主要集中在使用空间或(和)通道维度上的注意机制来增强特征表示。SENet [15]开发了非局部网络[43]通过将某个位置的响应计算为输入特征图中所有位置的特征的加权和来SKNet [22]提出通过以加权方式融合不同内核大小的多个特征图与softmax attention来自适应调整输入特征图的感受野大小。CBAM [44]沿通道和空间维度依次推断注意力地图与上述方法不同,本文尝试在运动矢量和残差的指导下,综合考虑I帧特征的空间和信道维度,对P帧特征进行细化,充分利用解码后参考I帧的信息,丰富P帧的特征。3. 方法现有方法[28]将GEBD任务制定为二进制分类,其通过考虑时间上下文信息来预测每个帧的边界标签。也就是说,每个视频帧的前一帧和后一帧被馈送到神经网络中以检测GOP表示预测时间对比模块GOP编码分类器锚帧BCE损失猫SCCEi帧p帧运动矢量SCCE空间信道压缩编码器残差Conv1dReLUConv1dReLUConv1dReLU13970V我WH∈我MM∈·联系我们RM我 我我我 i=1RRxM,xt我R∈界限由于对连续帧进行重复计算,因此效率低下。为了弥补这一点,我们提出了一个端到端的压缩视频表示方法GEBD,它把每个视频片段作为一个整体。具体来说,我们使用MPEG-4编码的视频作为输入。每个视频剪辑由N组图像(GOP)形成,并且每个GOP包含一个I帧和T个P帧,即,、V=.I,P1,P2,···,PTN,(1)其中,IiR3×H×W表示参考I帧,Pt表示第i个GOP的第t个P帧,并且和是视频帧的高度和宽度。为了简单起见,我们假设在所有GOP中存在相同数量的第i个GOP中的P帧Pt由运动矢量M tR2×H×W和残差构成图3.提出的空间通道压缩编码器(SCCE)模块的架构。 我们将这些特征I帧xI,运动矢量Mt和运动矢量的Ri∈R,几乎可以免费获得Xt为了调制参考I帧x的特征无论是从压缩视频流。值得注意的是,向量和残差本身并不包含全部信息,通道和空间维度。之后,调制特征将运动矢量的特征与矢量的特征进行残差相加一个P帧。P帧依赖于参考I帧或其他P帧,使得难以学习P帧的区分特征表示。遵循[45],我们追踪所有运动矢量直到参考I帧,并在解耦连续P帧之间的依赖性的以这种方式,每个P帧仅取决于参考I帧而不是其他P帧。在此基础上,我们建立了我们的模型的基础上回溯运动矢量和残差,并把每个GOP作为一个处理单元。整体网络架构如图2所示。如图2所示,GOP首先由所设计的空间信道压缩编码器(SCCE)编码,以生成统一的视频表示。然后,使用时间对比模块来利用时间上下文信息来获得区分性特征表示。最后得到精确的向量表示vt。同时考虑信道和空间维度。为了简单起见,我们在以下部分中省略GOP的索引i首先,我们使用卷积神经网络以解码的RGB图像作为输入来提取I帧I的特征表示xI,即,,xI=fI(I),其中XIRC×H×W 是I-框架I和C的特征,H和W分别是特征的通道、高度和宽度xl。 fI()表示用于提取I帧特征的模型,该模型在大规模数据集上进行预训练(例如,,ResNet50在ImageNet上预训练同时,我们可以用一个比I帧更轻量级的模型来计算P帧P1,P2,P1,P2,P2,P3,P3,P4,P4,P5,P5,P6,P6,P7,P8,P9,P10,P10,P11,P11 ,P12 ,P11 ,P12 ,P13 ,P13 ,P14 ,P14 ,P15 ,P15 ,P16 ,P16 ,P17 ,P17 ,P18 ,P18 ,P19,P19,,xt =fM(M t),分类器用于生成准确的事件边界。xt=f(Rt)作为输入,其中t∈C×H×W3.1. 空间信道压缩编码器运动、未覆盖区域和照明变化频繁地发生在视频序列中。现代编解码器在许多主流的视觉编码标准(诸如MPEG-4、H.263和H.264)中使用宏块作为用于运动补偿预测的基本单元。运动矢量记录了每个宏块相对于其参考帧的运动方向,描述了视频的运动模式,这对于GEBD任务非常重要。残差可以看作是运动信息的补偿,它包含了运动物体的边界信息,对识别I帧中的重要区域起着至关重要的作用。因此,我们建议表示运动矢量和残差的特征。以这种方式,可以在提取P帧的特征上节省大量的时间。这种简单的策略只能带来有限的性能增益[45]。该方法[29]试图在训练阶段整合光流,这可以进一步提高精度。然而,上述方法仍有很大的改进空间。具体地说,运动矢量记录了视频中场景和对象的运动模式,残差提供了补偿信息。它们都不包含场景的上下文为此,我们设计了空间通道压缩编码器模块,通过在计算P帧的特征时集成参考I帧xI对I-框架不同区域的注意机制我们首先计算特征xt运动矢量运动矢量的指导,以丰富的特点,通过完善的特点,参考I帧xI在这两个猫引导信息普华普华FCConv平均池信道更新空间更新残差连接13971XMMCha⊗ChaΣW∈MspaWspaspaMspaspaChaMCha·WMMMM我MΣRM我p=1ChaspaMM∈通道和空间维度。 如[48]所示,特征图上的不同区域关注图像的不同部分。因此,我们基于P-帧t的信息为x I的每个特征图 引入注意力权重。具体地,我们将I帧特征xI、运动向量特征xt和运动向量Mt连接在一起,在通道和空间维度上的I-帧I整个过程是非常有效的,可以在GOP中并行处理通过在同一特征空间中提取I帧和P帧的判别特征,可以有效准确地预测事件边界。计算通道权重Wt的通道维度使用轻量级PWC-Net [32],即、Cha3.2. 时间对比模块Wt=σ(W·�+b)+b)在提取视频V的特征的基础上,我们对视频V进行了特征提取,Cha不21茶12不对时间对比模块进行标记以预测事件hcha=平均池(zcha)(二)边界受人类的启发, 即、 回顾并不Cha= PWC([xI;xt;Mt])在候选边界帧周围前进,以确定其中σ是sigmoid函数,λ是ReLU函数,W1,b1,W2,b2是FC层的可学习权重之后,更新I帧xI在事件边界上,计算候选边界帧前后的时域对比特征。具体而言,给定特征表示基于Wt,如下所示。XCha{vl−k,vl−(k−1),···,vl−1} 在候选者的k不Cha=xIWt、(3)边界帧L, 我们计算的左特征是候选边界帧L使用简单线性加权求和策略,即、其中是通道乘法。这样我们可以计算通道加权特征xt通过更新xI在通道尺寸中,具有运动的引导Chal=Kj=1J·V·l-j,(八)向量 同时,通道加权特征Xt为:在空间维度和空间维度上进一步更新,月经减少。也就是说,给定参考I帧的特征xl、运动矢量特征xt和运动矢量Mt,我们计算2D权重图Wt,即、其中,WjRC是可学习的权重,并且在dif处共享。弗伦特波塞湖简单线性加权求和可以使用1D卷积运算来有效地实现。同时,可以类似地计算右特征fl,即,,对候选边界帧之后的k个特征的不spatspatspa= softmax(ht)= 2DConv(zt)= PWC([xI;xt;Mt])(四)L. 之后,对比特征Xl被计算为101和102的级联,即,,χ1=[λ1;λ1]。然后,对于最终的分类,我们使用对比表示{x1,x2,...,xL}来进行事件边界预测。其中Wt∈RH×W是空间权重图。 在那之后,3.3. 损失函数我们使用Wt在空间维度上对特征进行加权选择计算运动矢量给定的特征表示{x1,x2,...,xL},vt∈RC,即、vt=10H·Wxt·Wt 、(五)每个视频帧和相应的地面实况标签,事件边界检测任务被直观地公式化为二进制分类任务。然而,ambigu-注释的错误会扰乱学习过程,其中p枚举xt的所有空间位置不spa. Fi-收敛性差。 为了解决这个问题,我们使用高斯-最后,我们将v_t加到P帧的原始特征x_tsian内核来预处理地面实况事件边界,以获得软标签,而不是使用不 ∈RC,即、tM =vt+平均池(xt)的情况。(六)边界具体地,对于每个注释边界,相邻位置i的中间标签被计算为:vt的整个计算过程如图gl= exp.−(l−i)22α2(九)3 .第三章。类似地,我们可以计算残差vtRC的细化特征。 的最终特征表示 P帧进一步计算为zHzvv13972其中g1表示对应于时间l处的注释边界的时间i处的中间标签。 我们设定在所有实验中,α=1。最后的软标签是COM-t tt(七)vM=vM+vR。被认为是所有中间标签的总和最后简单的非线性Conv1D分类器被应用于预测{v1,v2,···,vT} 在GOP中,通过考虑参考边界得分S1和二进制交叉熵损失用于指导训练过程。通过这种方法,我们可以计算P-框架的特征13973×表1.HMDB-51和UCF-101数据集的准确性用于基于解码视频的方法和基于压缩视频的方法。我们的空间通道压缩编码器(SCCE)表现良好,对国家的最先进的压缩视频为基础的方法。UCF-101基于解码视频的方法(仅RGB)RGB运动矢量恢复图4.压缩信息的可视化。解码后的RGB帧、运动矢量和残差呈现在不同的列中。最好的颜色。4. 实验实 施 细 节 。 在 ImageNet [4] 上 预 训 练 的 ResNet50 和ResNet18 [13]用于在所有实验中提取I帧和P帧的特征,如果没有特别指出的话。我们的方法是基于MPEG- 4第2部分规范[12]实现的,其中每个GOP包含1个I帧和11个P帧。我们在每个帧中采样3个P帧,GOP 以 减 少 冗 余 , 即 , , T=3 。 我 们 使 用 标 准SGD,动量设置为0。9,权重decay设置为10−4,学习率设置为10−2。我们将每个GPU的批处理大小设置为4,并在8个NVIDIA Tesla V100 GPU上训练网络,结果总批处理大小为32。该网络训练了30个epoch,学习率分别在16个epoch和24个epoch后下降了10倍在1颗NVIDIA Tesla V100 GPU上测试了所有方法的运行速度我们方法的所有源代码将在论文发表后公开提供。接纳的话数据集。我们在Kinetics- GEBD数据集[28]上进行实验,该数据集包含最多的时间边界。Kinetics-GEBD数据集包括54691个视频和1,290,000个事件边界,跨越了广泛的视频领域,并且是开放的词汇表,而不是建立在预定义的分类上。此外,为了验证我们方法的通用性和有效性,我们还在流行的动作识别数据集UCF101 [31]和HMDB 51 [19]上进行了实验。UCF101包含101个动作类,超过13320个视频,HMDB51包含51个不同的动作类,总共6766个视频片段。4.1. 讨论动力学-GEBD。我们首先在Kinetics-GEBD [28]训练验证分割上训练和评估所提出的方法。[ 28 ]中提出的评估方案使用相对距离(即,Rel.Dis. 预测时间戳和地面实况时间戳之间的误差)来确定预测是否是否正确,然后使用精确度,召回率和F1分数作为评估指标。结果示于表2中。与以前的方法PC [28]相比,我们的方法实现了11.8%的绝对改进,同时运行速度快10。同时,我们还增加了一个额外的光流输入流到PC机。在积分光流之后观察到轻微的改善,这表明运动信息(即,光流)仅能为一般事件边界检测任务提供有限的时间信息。该方法利用运动矢量和残差,综合考虑了空间和信道两个维度,提供了压缩P帧更多的信息特征。与光流PC和所提出的方法之间的性能差距表明,所提出的方法提供了强大的时间线索GEBD明确。UCF101和HMDB51。为了验证我们的方法的有效性,我们还进行了实验上的动作识别数据集UCF-101和HMDB-51。我们遵循与CoViAR [45]相同的设置,除了我们使用空间通道压缩编码器来处理运动矢量和残差。请注意,我们的时间对比模块旨在捕获时间依赖性,这更适合于事件边界检测。因此,它不适用于动作识别任务。结果示于表1中。我们的方法取得了竞争力的结果相比,国家的最先进的方法在com,ResNet-50 [1]48.982.3ResNet-152 [13]46.783.4[25]第25话42.671.0[25]第二十五话56.483.9PWC-Net(ResNet-18)+ CoViAR[32]62.290.6TVNet [7]71.094.5C3D [34]51.682.3Res3D [35]54.985.8[第40话]70.994.3MF-Net [3]74.696.0S3D [46]75.996.8I3D RGB [2]74.895.6压缩视频方法[49]第四十九话51.2(拆分1)86.4[50]第五十话55.387.5[45]第四十五话59.190.4DMC-Net(ResNet-18)[29]62.890.9DMC-Net(I3D)71.892.3我们的(ResNet-18)63.391.013974表2.具有不同Rel.Dis.阈值的Kinetics-GEBD验证集的评价结果。我们的方法在所有阈值上大幅提高了F1得分。Rel.Dis. 阈值0.050.10.150.20.250.30.350.40.450.5avgBMN [23]0.1860.2040.2130.2200.2260.2300.2330.2370.2390.2410.223[28]第二十八话0.4910.5890.6270.6480.6600.6680.6740.6780.6810.6830.640TCN-TAPOS [28]0.4640.5600.6020.6280.6450.6590.6690.6760.6820.6870.627TCN [21]0.5880.6570.6790.6910.6980.7030.7060.7080.7100.7120.685PC [28]0.6250.7580.8040.8290.8440.8530.8590.8640.8670.8700.817PC +光流0.6460.7760.8180.8420.8560.8640.8680.8740.8770.8790.830我们0.7430.8300.8570.8720.8800.8860.8900.8930.8960.8980.865压 制 域 , 即 , EMV-CNN [49] , DTMV-CNN [50] ,CoViAR [45]和DMC-Net [29]。我们相信这是因为我们的方法能够在所提出的SCCE模块的帮助下生成更具鉴别力的P帧表示。相对于其他方法,处理运动矢量和残差在不同的分支从参考I帧,我们集成了I帧的功能与运动矢量和残差的指导下,在空间和通道的维度。该方法将I帧特征、运动矢量特征和残差特征的丰富信息有效地融合在一起,以较小的开销生成高质量的P帧特征。值得注意的是4.2. 消融研究我们进行了几次消融研究,以证明所提出的方法中不同组件的有效性。所有实验都在具有ResNet 50主干的Kinetics- GEBD列车分裂上进行,并在本地minval分裂上进行测试以降低计算成本。通过随机采样2000个视频,从Kinetics-GEBD验证分割构造局部最小分割表3.我们提出的端到端架构的有效性。“E2E”表示端到端训练策略,“GS”表示使用由高斯核策略生成的软标签。为了研究这些模块的影响,我们简单地通过将每个视频下采样为帧的一部分来替换PC方法这种策略通过减少冗余计算提高了PC [28]方法的准确性,运行速度更快。RecPrecF1速度(ms)PC [28]0.6110.6310.62146.4+ E2E0.6290.6400.6349.3+ GS0.6650.6430.6549.3端到端架构。以 前 的PC方法[28]将GEBD公式化为分类任务,其馈送前一帧和后一帧作为输入以提供时间上下文信息。为了验证所提出的端到端架构的有效性和效率,我们用与PC相同的架构进行实验[28]除了特征输入和目标标签,如表3所示。简单地用连续的视频帧替换PC [28]的特征输入可以获得1.3%的绝对性能增益,同时大幅提高推理速度,这表明在附近的帧之间共享特征此外,使用高斯核生成的软标签提供了进一步的2.0%的绝对改善。使用模糊的我们的软标签策略有效地解决了这个问题,并加快了培训过程。表4.不同压缩表象的消融研究。“OF”表示光流,“Vanilla”表示使用vanilla ResNet-18提取运动矢量和残差的特征。我们观察到,这两种方法都是从PC改进而来的,[28]且我们方法受益于光流和运动矢量以及残差。提出的空间通道压缩编码器(SCCE)模块进一步提高了准确性与类似的运行速度。方法Repre.RecPrecF1速度(ms)-0.6110.6310.62146.4PC [28]的香草0.6350.6430.6580.6410.6460.64269.333.2SCCE0.7090.6380.66934.5-0.6650.6430.6549.3我们的香草0.6490.6590.6730.6560.6610.65715.74.1SCCE0.7250.6510.6864.5压缩表示。我们对使用压缩代表的各种策略进行了消融研究,即。,(1)使用PC [28]中的光流(OF),(2)用压缩表示(即,运动矢量和残差),(3) 在PC中使用我们的空间通道压缩编码器[28],(4) 在我们的方法中去除压缩表示,(5)在我们的方法中使用光流,以及(6)用香草编码器代替我们的方法中的空间信道压缩编码器。结果示于表4中。压缩信息的可视化示例如图4所示。PC [28]和我们的方法都受益于光流,压缩表示和空间通道13975†††××表5.通过改变窗口大小k对我们的时间对比模块进行消融研究。k=0意味着我们去除了节奏对比模块。该研究表明,明确学习时间依赖性对于事件边界检测至关重要。然而,窗口大小的值对性能的影响有限。窗口大小RecPrecF1K = 00.7250.6510.686K = 20.6750.7490.710K = 40.6970.7450.720K = 60.7290.7440.736K = 80.7570.7360.746K =100.7250.7500.737K =120.6960.7610.727压缩编码器模块。具体地,光流分支将F1分数提高2。5%,与原始PC [28]方法相比,具有慢得多的推断速度。压缩信息仅为PC [28]和我们的端到端方法带来有限的改进,推理速度相对更快。这一现象表明,单纯使用运动矢量和残差不能充分利用压缩域中所包含的丰富信息。所提出的空间信道压缩编码器提供了显着的性能改善,而没有额外的计算成本,表明所提出的编码器可以学习更多的P帧的判别特征该模块允许我们提出的方法充分利用压缩表示,并从几乎无成本的运动矢量和残差中捕获关键的运动信息。时间对比模块。除了P-帧的区别性特征外,时间相关性对于预测准确的事件边界也很重要。为了验证时间对比模块的有效性,我们进行了几个实验,如表5所示 。 如 表 5 所 示 , 在 没 有 时 间 对 比 模 块 ( 即 , ,k=0),总体准确性(F1评分)下降戏剧性地。 在调整了所提出的时间模式之后,Ule,F1评分显著提高,即,、0. 七百一十比零。k=2时为686。为了进一步分析不同窗口大小对模型精度的影响,我们还进行了几个不同k值的实验。表5显示当k>8时召回率开始下降。我们认为,这是因为更大的窗口大小混合了跨边界的时间信息,导致多个不同的预测组合,并降低召回值。考虑到性能,我们在实验中将k=8设置为默认设置。与 最 先 进 技 术 的 比 较 。 我 们 将 所 提 出 的 方 法 与CVPR'21LOng-formVidEoUnderstanding(LOVEU)挑战1中的最先进方法进行了比较[18]第18话学习的方法1https://sites.google.com/view/loveucvpr21表6.与最先进方法的比较。在验证分割中评价结果。 表示结果来自我们的实现,因为测试服务器现在不可用CLA [18]使用预训练的双流TSN的级联[41]和SlowFast [8]功能作为输入,CASTANET [14]和我们使用预先训练的CSN [36]作为骨干。速度是通过平均每帧解码和推理时间来计算的。方法RecPrecF1速度(ms)[18]第十八话[14]第十四话0.8150.8380.7680.7320.7910.78190.293.9我们的(CSN+R18)0.8130.7610.78620.4我们的(R50+R18)0.7510.7420.7464.7提出了一种处理GEBD的方法,并利用时间自相似矩阵(TSM)作为中间表示。然而,他们的方法依赖于预先提取的特征,并使用全局相似性矩阵,这损害了模型CASTANET [14]采用了PC [28]中除特征提取器之外的相同框架,因此在相邻帧之间引入了冗余计算。我们使用ResNet50的方法运行非常快,即2018 - 02 -1800:00:00在用更强大的骨干CSN [36]替换I帧特征提取器f I后,我们获得了竞争结果,即。,0.787相比,CLA 0.795和CAS-TANET 0.784,同时提高推理速度超过4。 结果表明,使用轻量级网络作为P帧特征提取器在压缩域上工作的效率以及我们提出的方法在高质量表示学习上的有效性。5. 结论在这项工作中,我们提出了一个端到端的压缩视频表示学习方法GEBD。具体地说,我们将视频输入转换为连续的帧,并使用高斯核预处理的注释。同时,我们设计了一个空间通道压缩编码器,充分利用运动矢量和残差来学习P帧的鉴别特征表示在此基础上,我们提出了一个时间对比模块来模拟帧之间的时间依赖性,并生成准确的事件边界。在Kinetics-GEBD数据集上进行的大量实验表明,所提出的方法与现有技术的方法相比表现良好。6. 确认本工作得到了中国科学院前沿科学重点研究项目(批准号:ZDBS-LY-JSC 038)的资助。张立波获CAAI-Huawei MindSpore开放基金和中国科学院青年创新促进会资助(2020111)。13976引用[1] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,Mario Lucic,and Cordelia Schmid. Vivit:一个视频可视化Transformer。CoRR,abs/2103.15691,2021。二、三[2] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在CVPR中,第4724-4733页IEEE计算机学会,2017年。6[3] Yunpeng Chen,Yannis Kalatidis,Jianshu Li,ShichengYan,and Jianshi Feng.用于视频识别的多光纤网络在ECCV,计算机科学讲义第11205卷,第364-380页,2018年6[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248IEEE计算机学会,2009年。6[5] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词:用于大规模图像识别的变形金刚。在ICLR。OpenReview.net,2021年。二、三[6] Haoqi Fan,Bo Xiong,Karttikeya Mangalam,YanghaoLi , Zhicheng Yan , Jitendra Malik , and ChristophFeichtenhofer. 多 尺 度 视 觉 变 换 器 。 CoRR ,abs/2104.11227,2021。二、三[7] Lijie Fan , Wen-bing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang. 用于视频理解的运动表示的端到端学习。在CVPR中,第6016-6025页。计算机视觉基金会/ IEEE计算机协会,2018年。6[8] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。见ICCV,第6201-6210页。IEEE,2019。一、二、八[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 见CVPR,第1933-1941页。IEEE计算机学会,2016年。一、二[10] 冯俊义、李松源、李喜、吴飞、田琦、杨明轩、凌海滨.Taplab:一个利用压缩域知识的快速语义视频分割框架.CoRR,abs/2003.13260,2020。3[11] CV预测。思科视觉网络指数:预测和趋势,2017-2022。白皮书,思科公共信息,第1-4页,2019年。1[12] 迪迪埃·勒加尔MPEG:多媒体应用的视频压缩标准。Commun. ACM,34(4):46-58,1991. 6[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,第770-778页中。IEEE计算机学会,2016年。6[14] Dexiang Hong , Congcong Li , Longyin Wen , XinyaoWang,and Libo Zhang.CVPR 2021技术报告中的通用事件 边 界 检 测 挑 战 : 级 联 时 间 注 意 力 网 络(CASTANET)。CoRR,abs/2107.00239,2021。一、三、八[15] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页,2018年。313977[16] Lianghua Huang , Yu Liu , Bin Wang , Pan Pan ,Yinghui Xu,and Rong Jin.通过上下文和运动解耦的自监督视频表示学习。在CVPR中,第13886- 13895页,2021年。二、三[17] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Trans,35(1):221-231,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功