没有合适的资源?快使用搜索试试~ 我知道了~
19890AVFusion [ ]的一种PRN+BMN []我D+PDAN [ ]的一种TSP [ ]的一种D ResNet +超级事件在AViD上预训练[]VSGN []的一种粗-细网络[]G-10 [ ]的一种AIA [ ]的一种DTN [ ]的一种P-GCN []的一种SlowFast [ ]LFB [ ]的I D+biGRU+VS-ST-MPNN [ ]的一种BMN [ ]的一种我D* [ ]的一种ACRN [ ]BSN []的一种TAL_Net[ ]TGM []超级事件[]CBR-TS []我D(流量)[ ]的一种SSN [ ]的一种R-CD [ ]的一种Sigurdsson等人[]R-CD []CDCS-CNN []扬埃阿尔[]的一种SVIP:视频钱义成1,罗伟新2,连东泽1,5,唐旭3,赵培林4,高盛华1,6,7†1上海科技大学,2美团,3小红书、4腾讯AI实验室5新加坡国立大学6智能视觉与成像工程研究中心7上海市节能与定制AI IC工程研究中心{qianych,luowx,liandz,gaoshh}@shanghaitech.edu.cn,tangshen@xiaohongshu.com,masonzhao@tencent.com摘要地图数据集上的动作检测[157/6.75]70AVA-2.1 [80/3361.5]在本文中,我们提出了一种新的序列验证THUMOS 14 [20/15.5]ActivityNet-1.3 [200/1.54]1098任务,旨在区分执行相同动作序列的正视频对与具有步骤级变换但仍执行相同任务的负视频这样一个具有挑战性的任务存在于一个开放的设置,4030762010109639775642835463113303510859525249333653950动作检测或分割,需要事件级甚至帧级注释。为此,我们认真07803 1310845897用步骤-程序-任务结构重新组织两个公开可用的行动相关数据集。为了充分研究任何方法的有效性,我们收集了一个脚本视频数据集,列举了化学实验中的各种步骤级变换。此外,引入了一种新的评价指标加权距离比,以保证评价过程中不同步长变换的等价最后,基于Transformer编码器引入了一种简单有效的基线,代码和数据将发布1.(a) 动作识别(b) 动作检测1. 介绍近年来,拍摄人们日常生活的短视频人们可以从这些视频中看到,大多数日常活动都是通过连续的步骤而不是单个步骤完成的。这些顺序步骤构成了一个过程,其关键步骤遵循内在一致性,而不同的参与者可以通过不同的过程完成同一活动,†通讯作者1 https://github. com/svip-lab/SVIP-Sequence-视频程序验证(c) 序列验证图1.传统动作任务与序列验证的比较。(a)动作识别数据集通常由包含视频的各种动作类别组成;(b)近年来不同数据集上行动检测方法的结果。[a/b]表示对应的数据集包含每个视频的a个动作类和b个动作实例;(c)序列验证数据集目的是在同一任务中验证程序。跨任务验证由于其简单性而被丢弃。水平发散,如图1(c)所示本文提出了一种新的动作任务序列验证方法,旨在验证两个视频中的步骤是否一致,该方法可应用于教学训练和表演数据集第一课:握手……视频1视频2第二课:伸腿……视频1视频2任务1:更换汽车轮胎任务2:更换门把手程序1程序1……视频1视频2视频1视频2…程序2程序2……❌……视频1视频2数据集视频1视频25312 月 -15 年 4月-16年4月-16 年 4月-17年4月-17 年 4月-18年4月-18 年 4月-19年4月-19 年 4月-20219891得分为了更好地说明这一任务,我们专门定义了相关术语。步骤:一个人的动作或人与物体的互动的原子单位,它总是被一个动词,一个名词,甚至介词所标记,例如。“移除旧包装”;过程:为实现某个目标而按时间顺序执行的一系列步骤,例如:,'remove the oldwrapper - wrap with the new wrapper';任务:需要在规定的时间内或截止日期前完成的活动,例如:、“重新包装电池”和“更换汽车轮胎”。我们注意到,一项任务可以通过各种程序来完成;视频:每个视频执行某个任务的一个过程; P/N对:执行相同过程的两个视频形成正对,而执行相同任务的不同过程的视频形成负对。为什么需要序列验证?由于CNN的发展以及最近流行的视觉Transformer [20],诸如动作识别[52,90,104]、动作本地化[11,50,75]和动作分割[24,47,100]等传统动作任务然而,这些任务中的大多数都遵循具有预定义类别限制的闭集设置,如图1(a)所示。此外,在许多视频中对步骤进行准确注释是非常耗时和劳动密集型的,随后是在最近的工作中已经研究的边界模糊性[46,72,85,107]。然而,我们提出的序列验证任务通过根据它们在嵌入空间中的距离通过这种方式,序列验证任务既不需要预定义的标签,也不消耗密集的步骤注释,这可以轻松地处理开集设置。如图1(c)所示,我们提出的序列验证旨在验证那些具有语义相似步骤的程序,而不是与完全不相关的任务相关联,这使得它能够更专注于动作步骤关联而不是背景区分。因此,一个合适的数据集对于很好地执行这项任务至关重要。然而,现有的修剪视频数据集,如UCF 101 [82],Kinetics [10]和Moments in Time[59]等,都被用来执行单标签动作识别。另一方面,未 修 剪 的 视 频 数 据 集 , 如 EPIC-KITCHENS [15] ,Breakfast [43],Hollywood Extended [7],ActivityNet [8]提供由多个子动作组成的视频和相应的步骤注释,但它们不收集特别执行类似或相同过程的视频。因此,它们不能直接用于序列验证。为此,我们重新安排了一些数据集,如COIN [85]和Diving48 [51],其中每个任务包含记录不同程序的多个视频,并且每个视频都有步骤级别的注释。通常,具有相同过程的视频被分配到用于训练的单个类别。阳性对和阴性对用于测试-分别在同一任务中的同一过程内和跨不同过程收集。应该注意的是,由于背景差异和个人偏好,这些未经脚本的视频在同一过程中可能具有较大的外观差异除此之外,我们还介绍了一个脚本拍摄数据集执行化学程序,其中包括各种步骤级的转换,如删除,添加和顺序交换。因此,任何算法的有效性都可以通过这个新提出的数据集得到很好的证明。此外,由于更多的步长变换可能导致更大的特征距离,这与较少的特征距离相比是不公平的,因此我们引入了一个新的评估度量加权距离比,以确保每个负对在评估过程中无论其步长差异如何都将被同等计数。作为一项前所未有的任务,序列验证可以通过现成的动作检测器来解决[10,13,25,30,39,49,57,62然而,它们在Charades [78]或AVA [32]上的性能(如图1(b)所示)不适合在验证前进行步进级检测虽然[3,5,11,28,53,54,74,75,91,95在ActivityNet [8]或THUMOS 14 [38]上表现良好,但缺乏说服力,因为这两个数据集每个视频都包含一些动作类或动作实例。因此,我们介绍了一个简单但有效的基线CosAlignment变换器(简称CAT),它利用2D卷 积 从 采 样 帧 中 提 取 有 区 别 的 特 征 , 并 利 用Transformer编码器对视频剪辑中的步骤间时间相关性进行建模。而将具有多个步骤的整个视频表示为单个特征向量可能丢失与过程中的步骤顺序相对应的信息。因此,我们引入了序列对齐损失,其通过两个视频之间的余弦相似性来对齐正视频对中的每个步骤实验结果表明,我们提出的方法在序列验证任务中的性能明显优于其他我们将我们的贡献总结如下:i) 问题设置:我们提出了一个新的任务,序列验证。据我们所知,这是第一个专注于视频之间的过程级验证的任务ii) 基准测试:我们重新排列了两个具有显著多样性的无脚本视频数据集,并提出了一个新的具有多个步骤级转换的脚本数据集来支持这项任务。此外,一个新的评价指标,特别是为这个新的任务。iii) 技术贡献:我们提出了一个简单但有效的基线,其中包含一个Transformer编码器,以解释模型的步骤之间的相关性。此外,还引入了序列比对损失,以提高对阶跃无序和缺失的敏感性.这种新的基线显著优于其他动作识别方法。19892数据集#任务#视频步骤数手术次数#分割视频分离样本数量COIN-SV362,114749第37 / 268/285号决议1,221/ 451 /44221 741/1 000/400潜水48-SV116,99724八月二十日6035/7938/302450 000/1 000/400CSV141,94010645 / 25 /-901 一千零三十九8,531 /1,000/-表1.三个数据集的统计信息它按培训、测试和验证的顺序列出2. 相关工作行动任务。由于CNN的进步,传统的动作相关任务,如动作识别、动作检测和动作分割,已经得到了很大的发展。i)作为一般视频表示的手段,基于深度学习的动作识别通常可以概括为基于流的方法[10,12,17,19,26,52,65,COIN-SV潜水48-SV拆下旧后视镜重新安装后视镜79,87,88,90,104]和基于丙酮的方法[21,80,92,98]。这两种方法的目的都是为每个修剪视频产生一个特征表示,根据该特征表示预测预定义动作类别上的视频级标签。返回15som05TwisFREECSVii)为了在未修剪的视频中寻找感兴趣的子动作,提出了动作检测[13,25,39,53,54,57,62-拿起罐子揭开瓶盖倒盖上罐子放下罐子盖上罐子并预测其类别。iii)为了在未修剪的视频中进行密集动作预测,动作分割被设计为标记视频中包括背景的每个帧。对于密集注释,完全监督方法[23,48,58,66,68,73,75,99]依赖于滑动Win-Bit,马尔可夫模型或时间卷积网络来建模时间关系。然而,视频中的密集注释需要昂贵的人力劳动以及消耗大量时间,尽管具有动作顺序标签的弱监督方法[7,18,36,45,67]仅取得了令人满意的性能。最后但并非最不重要的是,这些与动作相关的任务是否能够很好地推广到野外的未知类仍然是一个问题。与它们不同的是,我们的任务在推理过程中没有限制,因此可以很容易地处理开集设置。视频数据集。 多个现有视频数据集[1,8,15,31,40,41,44,60,78,82]在很长一段时间内,视频理解占主导地位HMDB51[44]和UCF 101 [82]分别包含51和101类动作,用于动作识别。接下来,Something-Something [31]收集了147类 日 常 生 活 中 人 与 物 体 之 间 的 相 互 作 用 此 外 ,ActivityNet [8]和Kinetics [41]从YouTube收集视频并构建大规模动作识别数据集。用于教学视频摘要和分析的其他数据集[68,81,85]用一系列步骤的文本和节奏边界进行注释,有助于理解语言和视觉。EPIC-KITCHENS数据集[15]收集了厨房场景中洗玻璃或切甜椒等人类行为,并以第一人称视角为目标,反映了人们图2.数据集插图。COIN-SV包含36个日常生活任务,如Diving 48-SV和CSV分别由潜水比赛和化学实验场景的视频组成。三个数据集中的每个视频都按其执行的步骤顺序进行分类,即视频中的过程请注意,只有COIN-SV为步骤提供时间注释,而Diving 48-SV和CSV仅为每个视频提供程序级注释。教学视频分析。教学视频通常伴随有解释,例如与顺序动作的时间戳匹配的音频或叙述,这已经吸引了视频理解社区的研究兴趣。例如,教学视频中的步骤定位[58,85,105]以及动作分割[27,29,61,85]在早期阶段已经得到了广泛的研究 随着对这一研究主题的日益关注,已经提出了与教学视频相关的各种任务,例如。视频字幕[37,56,86,105],其基于动作和事件生成视频的描述,视觉基础[35,76],其根据语言描述在图像中定位目标,以及过程学习[2,22,27,71,72,105],其提取关键步骤。3. 数据准备由于公开可用的数据集COIN [85]和Diving 48 [51]中固有的步骤-程序-任务结构,我们重新组织了这两个数据集,以支持我们提出的序列验证任务,重点是验证各种19893i=1--→步级转换。然而,在同一个任务中的程序可能缺乏足够的多样性,在这些数据集,以充分验证我们提出的方法的有效性序列验证。因此,我们收集了一个新的脚本数据集,化学序列验证,列举了同一任务中的各种程序,这将在后面介绍。这三个数据集的统计数据见表1。我们在图2中可视化一些样本。本节的其余部分介绍了这些数据集的通用3.1. 共同结构如图1(c)所示,本文中使用的每个数据集都包含完成各种任务的视频,例如:原始COIN数据集包含日常生活中常见的180个任务。在实践中,每一个单独的任务可以通过不同的过程来完成,这些过程中的步骤作为原子动作仍然遵循一定的顺序。同时,不同任务取向的两个过程的步骤在大多数情况下不会重叠。因此,我们将不引入跨任务的序列验证来确保挑战。3.2. COIN-SVCOIN是一个全面的教学视频数据集,包含180个任务,如这个最近提出的数据集是相当具有挑战性的,由于其背景的多样性,甚至显着的区别之间的视频相同的程序,这有利于我们提出的序列验证任务。总的来说,它包含11827个视频超过4715个程序,这意味着COIN后面是一个长尾分布,大多数程序只有一个或两个视频。为了便于分类器训练,我们保留了36个任务,其中至少包含一个具有20个以上视频的过程,并丢弃其他任务。超过20个视频的程序用于训练,其余的被随机分配到验证和由于这个数据集中的原始分裂被重新组织,我们将其命名为COIN-SV。3.3. 潜水48-SVDiving48 [51]数据集记录了由国际泳联标准化的48种潜水程序的潜水比赛每一个跳水程序都是一个分动作序列,包括一步起跳、两步飞行动作和一步入水。到目前为止,共有超过48个程序的16997个视频可供公众使用显然,这个数据集比COIN更具挑战性,因为它的双重背景包括一个板,一个池和观众,并且步骤级差异较小。我们分别为训练集、验证集和测试集分配了20个、8个和20个过程。与COIN-SV类似,我们将其命名为Diving 48-SV。3.4. 化学序列验证由于COIN-SV和Diving 48-SV中的视频是从互联网上收集的,因此很难在没有预定义脚本的情况下包含所有类型的步骤级转换,这对于序列验证任务至关重要为此,我们收集了一个名为化学序列验证(CSV)的新数据集,其中包含具有各种步骤级转换(如删除,添加和顺序交换)的视频。具体地说,志愿者从自我中心的角度被要求进行化学实验与预定义的脚本。总之,CSV数据集包括14个任务,每个任务由5个过程组成。我们选择了45个程序进行培训,25个程序进行测试。CSV没有验证集,因为其过程/视频数量有限。数据收集过程、视频注释和统计信息可在档案材料中获得。4. 方法视频动作识别的经典模型[10,12,17,19,26,65,79,87,88,90]的目标是预测动作类别,而不关注子动作顺序尽可能多,由于简单的帧特征聚合,如池。尽管如此,我们的任务旨在验证两个视频与大型以及微妙的步骤级变换。例如,执行A,然后B,最后C的视频被视为执行A和最后C的另一视频的负样本为了适应我们提出的任务,我们在训练过程中引入了两种传统的动作分类方法:i)将训练集中的过程而不是任务视为训练类,以便使模型能够区分那些即使在同一任务中进行微小的步骤级变换的过程;ii)由于帧特征上的池化可能会给模型带来顺序不敏感性,因此我们保留时间维度而不进行任何下采样操作,并且最终将其重塑为通道维度,然后是具有顺序敏感性的全连接层。4.1. 初步对于某个数据集D=(Vi,Si)n,给出具有对应的过程注释的n个视频剪辑V的S.在这里,我们不使用步骤的时间戳注释,因为在本文中将不使用动作检测器。 我们将模型记为f:R3×H × W× KRC.K是视频中采样帧的数量。H和W分别是帧的高度和宽度。C是训练集中的程序总数。按照人脸验证的范例[4,16,70],我们在训练期间将序列验证视为多类别分类任务,并且视频执行相同的过程19894∈···∈×2J2J:特征图+位置嵌入* :额外的可学习嵌入flatten + FCTransformer编码器嵌入课成绩分类损失1帧1...…骨干特征图序列* 012345678线性投影图层序列相似性矩阵骨干帧2Transformer编码器单位矩阵分类损失2(a) 步内模块(b) 步间模块(c) 对准模块图3.管道概述。a)在采样帧(在输入帧中着色)上应用2D主干,以捕获各个步骤的特征,我们称之为步骤内特征。该模块的输出是从采样帧时间建模的特征图序列b)应用Transformer编码器来聚合顺序特征图。c)该模块旨在强加待匹配的两个特征图序列。都属于同一类。在测试阶段,我们收集来自同一程序的视频以形成阳性对,并收集来自不同程序但仍处于同一任务的视频然后,一对中的两个视频之间的嵌入距离指示该对的验证分数。程序分类损失Lcls如下。Σ通过替换全局平均池,将编码器插入主干。如图3所示,我们首先将空间特征映射平坦化,并在这些平坦化的向量上应用可训练的线性投影层,从而得到特征向量EiRD,i=1,2,K。此外,添加随机初始化位置嵌入以保留顺序信息。在结论,标准Transformer编码器的输入I为I=[E1; E2;···; EK]+ Epos,∈ RK×D.(二)Lcls=i=1δ(f(Vi),Yi)(1)输出O∈RK×1024 被压平并送入其中δ是交叉熵函数,Yi是C-dim独热向量,其对应于Si的条目是1。4.2. 基线我们利用ResNet [34]骨干,然后是一个完全连接的层来聚合时间信息,并将softmax分类层作为我们的基线。根据TSN [90],我们将每个输入视频分为K个片段(在我们的实验中K=16在每一段中随机选择一帧,形成输入张量xR3×H ×W×K,输入到主干中,输出一个形状为DK的张量,其中D是特征维数.然后,它被展平成一个向量的顺序敏感性。最后,一个过程分类器与C类别的附加训练。4.3. Transformer编码器Transformer [89]在自然语言处理方面取得了巨大的成功,它已被应用于多种计算机视觉任务,如图像识别[20,93]和用于输入视频的全局表示的全连接层我们采用顺序特征而不是CLS令牌,因为前者显式地保留了顺序信息。4.4. 序列比对到目前为止,我们提出的方法的目的是提取一个全球的视频表示监督的过程分类器。然而,在一个过程中的步骤顺序是特别重要的序列验证。为了确保两个积极的程序是步骤级一致的,我们提出了一个序列对齐损失,明确地施加特征一致性一步一步。具体而言,我们提取主干中的最后空间特征图,并使用全局平均池化来产生给定位置ive对(seq1,seq2)中的所有帧的特征向量,其中seqi是从视频i采样的帧序列。然后,针对由两个序列形成的所有帧对计算余弦相似性,从而产生相关矩阵:目标检测[9,106]。为了更好地表征步间相关性,我们遵循[20]并整合Transformer校正ij=f1if1ifT(3)第一次见面。X序列比对丢失)n(19895×→Σ我WDR=i=1,(8)0,否则。其中corrij表示矩阵corr的第i行和第j列处的相似性值,而 f1i和 f2j分别表示seq1的第i个特征和seq2 的第j 个特征。接下来,我们对相似度矩阵的每一行执行softmax函数以产生corr1,其第i行由seq 1的第i个特征和seq 2的每个特征之 间 的余 弦 相 似度 组 成。类似地,我们对相似性的每一列执行softmax函数,并产生corr2。我们对这两个矩阵求平均,并将结果表示为corravg。corravg的对角线值则预期接近1,而其他值预期接近0,因为corr1和corr2都已被softmax归一化。换句话说,我们在一定程度上逐步地逐帧地将正对中的两个视频强加为在特征空间中相似。在数学上,我们提出的序列比对损失Lseq可以定义为:校正1+校正2Lseq=1−h(2)1, (4)其中,1是其项都为1的向量,并且h是提取矩阵的对角项的函数。4.5. 训练损失现在,我们以端到端的方式通过过程分类损失和序列比对损失来训练网络。因此,总损失L可以总结为:L=Lcls+λLseq(5)这里λ是一个超参数,默认设置为14.6. 测试阶段在推理过程中,序列验证的目标是区分正对和负对。 我们将每一对表示为Pi =(Vi1,Vi2)。该模型将P j中的每个视频作为输入,并在分类层之前产生一个d维视觉嵌入,其表示为f′:RK×H×W×3RD′。Ne xt,我们计算正常-两个程序之间的量化欧氏距离嵌入空间,并且验证得分yi被定义为:5. 实验5.1. 实验细节数据集和设置 。我们在COIN-SV 、Diving 48-SV和CSV上进行了实验。每个数据集的具体信息见第3节。由于这个新的任务被提出来解决开集设置,因此在训练集、验证集和测试集之间不存在过程级重叠。然而,步骤级重叠是不可避免的,因为不同的程序仍然可以包含几个共同的步骤。实施详情。我们使用的ResNet-50在Kinetics-400上进行了预训练 [41],以避免过度拟合,而新层采用Kaiming统一初始化[33]。实验在4个NVIDIA TITAN RTX GPU上进行,批量大小为16,余弦学习率调度器基本学习率为0。0001,权重衰减为0。01.Adam [42]用于优化整个网络。为了提高效率,我们将原始图像调整为180 320。我们还利用水平翻转、裁剪和颜色抖动来增强数据。对于所有实验,分类器层之前的特征维度D'被设置为128基线。由于我们是第一个引入序列验证任务的人,因此没有专门为该任务设计的现有方法考虑到我们在训练过程中学习视频表示,这类似于动作识别任务,我们将我们提出的方法与一些先进的动作识别基线进行了比较:Random,TSN [90],TRN [104],TSM [52]和Video Swin [55]。评估指标。(1)AUC。本文采用了常用的评价人脸识别性能的指标之一ROC曲线下面积(Area UnderROC Curve,简称AUC)。AUC越高表示性能越好。(2)WDR。它是加权距离比的缩写。首先,我们计算负对的每单位Levenshtein距离的平均嵌入距离,以保证在评估过程中每个对的等价性,因为更大的步长变换总是导致更大的嵌入距离,在5.5节中讨论。然后计算正对上的平均嵌入距离。最后,我们使用负距离和正距离之间的比率,即加权距离比率,作为所有方法的性能指标明显的di=g(f′(Vi1),f′(Vi2))(6)当然,它的值越高意味着性能越好,ODS到达。在数学上,我们将WDR定义为:y=.1,di≤τ,(七)Nwdi/NPj=1 dj/P其中g是对两个嵌入进行l2归一化,然后计算它们的欧氏距离的函数,τ是判断过程是否一致的阈值。y=1表示两个视频中的程序是其中,P和N分别是阳性和阴性的数量。di和dj可以很容易地通过公式计算6. wdi定义为:Di一致,否则不一致。wdi=ed(九)我19896方法预训练#参数(M)AUC /WDR硬币-SV Diving48-SV CSVVal测试Val测试测试随机--50.00/-50.00/-50.00/-50.00/-50.00/-TSN [90]K-40022.6753.38 /0.365147.01 /0.399991.00 /1.083581.87 /0.670759.85 /0.3447[第104话]K-40023.7454.92 /0.366557.19/0.371990.17 /1.143880.69 /0.587680.32 /0.4677[第52话]K-40022.6752.12 /0.294851.25 /0.387289.41 /1.003578.19 /0.553162.38 /0.3308斯温[55]K-40026.6647.27 /0.389543.70 /0.349589.35 /1.106673.10 /0.531654.06 /0.3141CAT(我们的)K-40072.3256.81/0.400551.13 /0.409891.91/1.064283.11/0.600583.02/0.4193表2.在COIN-SV、Diving 48-SV和CSV数据集的验证和测试集上与动作识别方法进行比较表3.在CSV数据集的测试集上比较了我们方法的不同模型结构。其中edi表示对的文本Levenshtein距离i. Levenshtein距离,定义为将一个字符串转换为另一个字符串所需的最小操作次数,可以用作测量在(a) ResNet-50(b)ResNet-50+TE(c)ResNet-50+TE+SA图4.不同模型结构预测的嵌入的可视化。三种颜色的点代表同一任务的不同过程。每个子图上方的值分别是平均的程序内方差和程序间方差。逐步将TE和SA模块添加到ResNet-50。表3中的结果表明,这两个模块都提高了三个数据集上的AUC性能。对于WDR,CAT在COIN-SV和Diving 48- SV上的性能最好,但在CSV上不如vanilla。步骤二是程序。更多解释和评价见第5.5节。5.2. 方法的比较所有方法在三个数据集上的定量结果如表2所示。我们可以发现,在大多数情况下,我们提出的CAT超过了所有其他基线,根据AUC度量进行评估。值得注意的是,CAT并没有在所有数据集中实现最佳WDR,因为最佳模型是由验证集中的最高AUC选择的。除此之外,与其他两个数据集相比,COIN-SV的AUC非常差,这表明由于其复杂的背景和程序多样性,其具有重大挑战性令人惊讶的是,视频Swin Transformer不如其他基线。我们推测这是因为数据不足。5.3. 消融研究在本节中,我们将研究Transformer编码器(TE)和序列比对(SA)模块的有效性。如果没有特别说明,则在CSV数据集的测试集上进行实验。我们特别我们还可视化了图4中通过PCA由不同模型提取的128-d嵌入向量。具体来说我们在CSV数据集的第一个任务中选择前三个过程。由于它们仅在步骤顺序上不同,但保持相同的步骤集合,因此我们可以评估序列比对模块用于处理顺序一致性的有效性。如图所示,在子图(c)中由整个CAT模型提取的嵌入具有最大的过程间方差和最小的平均过程内方差。5.4. 不同分割方式需要提醒的是,步骤级转换包含步骤的删除、添加和顺序交换。为了验证序列比对模块的顺序敏感性,我们进一步将CSV测试集重新划分为两个分裂,其中一个分裂由包含步骤添加和删除的视频对组成,另一个分裂由包含步骤顺序交换的视频对组成,分别称为交替编号分裂和交替顺序分裂。表4中所示的结果表明,没有SA的CAT模块在两个改变上都实现了较差的性能内方差:0.0371内方差:0.1065内方差:0.0337内方差:0.1054内方差:0.0322内方差:0.1082数据集+TE+SAAUC(%)WDR52.310.3677✓✓✓COIN-SV55.4656.810.38390.400590.511.0093✓✓✓潜水48-SV90.9191.911.03081.064281.970.4403✓✓✓CSV82.0783.020.41930.419319897·测试拆分CAT w/o SACAT w/SA交替数73.0175.82(+2.81)更改顺序80.2486.32(+6.08)表4.不同测试拆分的结果。(度量:AUC(%))阶跃差异对嵌入距离ResNet-502.5ResNet-50+TEResNet-50+TE+SA21.510.50.460.440.420.40.380.36CSV上的WDR/AUC曲线0123456789 10 11 12 13Levenshtein距离0.34AUC图6. 对带有手术注释的视频进行评分。 S()是评分函数,其计算嵌入空间中两个视频之间的余弦相似性。图5. 左:不同手术之间的欧几里得距离嵌入空间的阶跃发散度右:CSV测试分割上的WDR与AUC的曲线在引入SA模块的同时,数字分裂和变阶分裂带来了更多的变阶分裂的性能增益,这有力地支持了我们提出的SA模块的动机,使模型更加阶敏感。5.5. WDR曲线为了仔细探索我们提出的评估度量WDR的特性,我们进行了两个实验来研究嵌入距离和Levenshtein距离之间的关系,以及WDR和AUC之间的关系首先,图5左 图 中 的 曲 线 描 述 了 这 样 一 个 事 实 , 即 当 由Levenshtein距离表示的步长水平差变大时,两个过程之间的嵌入距离增加。这并不奇怪,因为所有方法都在一定程度上保留了步骤顺序因此,具有大阶跃电平变换的负对将主导评估,这对具有小阶跃电平变换的负对是不公平的。为了解决这个问题,WDR被引入,它的目的是评估嵌入距离相对于单位步长的水平变换。此外,图5右侧的曲线证明了WDR和AUC之间的正相关性。拟议的《世界发展报告》预计将成为这一新任务中的一个补充衡量指标5.6. 评分演示作为一个潜在的解决方案,行动评估,序列验证是能够作为一个法官评分两个程序与细粒度的分歧。在这里,我们展示了一个潜水评分演示图6。选择V0中的程序作为标准参考。然后,我们计算余弦相似度作为标准视频和每个候选视频之间的得分我们可以很容易地看出,V1的得分最高,因为它执行了与V0相同的程序,而V2和V3的得分随着其步长的增大而降低与标准相比有差异更多的演示可在补充材料。5.7. 限制和影响虽然我们已经为这个新任务引入了两个重组的数据集并收集了一个脚本数据集,但它仍然存在数据不足,导致Video Swin Transformer的性能不理想。同时 , 考 虑 到 在 野 外 的 推 广 能 力 , 它 可 能 会 引 入Transformer编码器来聚合时间信息,但它带来了参数爆炸,如表2所示。除此之外,我们希望这个有前途的任务可以为视频理解提供一个新的见解。6. 结论在这项工作中,我们提倡一种新颖而有趣的任务序列验证开发,以验证两个程序的步骤级别的差异时,执行相同的任务。为此,我们重新组织了两个公开的行动相关的数据集与步骤-程序-任务结构和收集自我中心的数据集,要求志愿者执行各种脚本程序。 除此之外,我们还开发了一个新的评估指标,该指标已被很好地验证为对现有AUC指标的补充。最后,我们提出的基于transformer的方法已经得到了广泛的研究,并作为这个新任务的一个强大的基线。7. 确认本 工 作 得 到 了 国 家 重 点 研 发 项 目(2018AAA0100704),国家自然科学基金资助项目编号61932020,上海市科学技术委员会批准号:62172279(批准号:20 ZR 1436000);ResNet-50ResNet-50+TEResNet-50+TE+SAV0:反向-25索姆-15扭曲-派克V2:Reverse - 25som - NoTwis -PIKES V0、V2 = 0.6232V1:Reverse - 25som-15Twis-PIKES V0,V1 = 0.8542V$:反向-俯冲-非扭曲-TUCKS V0,V$ = 0.2516欧氏距离WDR0.72190.75890.76390.77180.77660.7790.78110.78370.78560.78670.78870.79050.7950.79810.80210.8050.80810.813719898引用[1]Sami Abu-El-Haija , Nisarg Kothari , Joonseok Lee ,PaulNatsev,GeorgeToderici,BalakrishnanVaradarajan,andSudheendraVijayanarasimhan.Youtube-8 m:一个大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。3[2]Jean-Baptiste Alayrac , Piotr Bojanowski , NishantAgrawal , Josef Sivic , Ivan Laptev , and SimonLacoste-Julien.从叙述式教学视频中进行非监督式学习。在IEEE计算机视觉和模式识别会议的论文集,第4575-4583页,2016年。3[3]Humam Alwassel , Silvio Giancola , and BernardGhanem. Tsp:视频编码器的时间敏感预训练,用于定位任务。在IEEE/CVF国际计算机视觉会议论文集,第3173- 3183页,2021年。2[4]Brandon Amos , Bartosz Ludwiczuk , Mahadev Satya-narayanan,等. Openface:一个带有移动应用程序的通用人脸识别库。CMU计算机科学学院,6(2),2016年。4[5]Anurag Bagchi,Jazib Mahmood,Dolton Fernandes和Ravi Kiran Sarvadevabhatla。听我说完音频增强时间动作定位的融合方法。arXiv预印本arXiv:2106.14118,2021。2[6]Sara Beery 、 Guanhang Wu 、 Vivek Rathod 、 RonnyVotel和Jonathan Huang。上下文r-cnn:用于每相机对象检测的长期时间上下文。在IEEE/CVF计算机视觉和模式识别会议论文集,第13075-13085页,2020年。1[7]彼得·博扬·奥斯基,雷米·拉朱吉,弗朗西斯·巴赫,我是拉普捷夫,让·庞塞,科迪莉亚·施密德和约瑟夫·西维奇。排序约束下视频中的弱监督动作标注欧洲计算机视觉会议,第628-643页。Springer,2014. 二、三[8]Fabian Caba Heilbron 、 Victor Escorcia 、 BernardGhanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在Proceedings of the IEEEconference on computer vision and pattern recognition,第961-970页,2015中。二、三[9]Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nico-lasUsunier 、 AlexanderKirillov 和 SergeyZagoruyko。使用变压器进行端到端对象检测。arXiv预印本arXiv:2005.12872,2020。5[10]Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。二、三、四[11]Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议论文集,第1130-1139页2[12]RPW Christoph和Feichtenhofer Axel Pinz。用于视频动作 识 别 的 时 空 残 差 网 络 。 Advances in NeuralInformation Processing Systems,第3468-3476页,2016年。三、四[13]Rui Dai , Srijan Das , Luca Minciullo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功