没有合适的资源?快使用搜索试试~ 我知道了~
19880桥接提示:教学视频中的有序动作理解李慕恒1,陈磊1,段跃奇2,胡志兰3,冯建江1,周杰1,陆继文1,11清华大学2清华大学3华为技术有限公司媒体技术研究所公司摘要动作识别模型已经显示出对短视频片段中的人类动作进行分类的有希望的能力。在真实场景中,多个相关的人类行为通常以特定的顺序发生,形成语义上有意义的人类活动。传统的动作识别方法集中于分析单个动作.然而,他们未能充分推理相邻动作之间的上下文关系,这为理解长视频提供了潜在的时间逻辑。在本文中,我们提出了一个基于语义的框架,桥提示(Br-Prompt),建模相邻的动作之间的语义,使它同时利用上下文和上下文信息从一系列的顺序动作在教学视频。更具体地说,我们重新制定了个人的行动标签作为综合文本提示的监督,桥梁之间的差距,个人的行动语义。所生成的文本提示与相应的视频剪辑配对,并且经由对比方法一起共同训练文本编码器和视频编码器。学习后的视觉编码器具有更强的顺序动作相关下游任务的能力,例如动作分割和人类活动识别。我们评估了我们的方法在几个视频数据集上的性能:佐治亚理工学院的自我中心活动(GTEA),50沙拉和早餐数据集。Br-Prompt在多个基准测试中达到了最先进的水平。代码可在:https://github.com/ttlmh/Bridge-Prompt网站。1. 介绍近年来,视频分析蓬勃发展。理解人的行为是分析海量视频数据的关键,这有利于广泛的应用,包括视频检索[8],视频字幕[28]和视频摘要[2]。在动作分析的许多子主题中,动作识别是†通讯作者。…以面包放干酪对面包加入蛋黄酱和芥末(未知)(a)离散类ID123?(c)文本提示表示这段视频总共包含四个动作首先,这个人正在吃面包。在那之后,heshe是把奶酪面包。然后,步骤是添加蛋黄酱和芥末。最后,把面包放在奶酪和面包。文字提示(b)基于图的类ID123?图文本嵌入图1.顺序动作的常规表示法和桥接提示表示法人类制作奶酪三明治的活动包括四个方面。假设最后一个动作把面包放在奶酪和面包上在训练集中是不可见的。(a)和(b)中的传统方法无法描述所有四个动作的内部语义和相互关系,而(c)中的桥接提示表示能够捕获完整的语义信息。这是一个基本和核心问题,在各种精心设计的模型下取得了显着进展[3,5,11]。与此同时,当前视频分析的研究趋势正在经历从理解单一语义的短视频片段到更长和更复杂的视频的过渡[38]。对教学视频分析的日益关注表明了理解语义丰富的视频内容的重要性[29,38,46]。从动作分析的角度来看,传统的动作识别方法专注于对短视频剪辑中执行的单个动作进行分类[5,36]。相反,指令视频分析方法需要研究在较长持续时间内执行的一系列动作。为了分析教学视频,我们不仅需要理解单个动作的语义,而且还需要19881需要学习上下文动作之间的语义关系。最近,一些作品已经使用基于图的模型研究了教学视频中相关动作之间的相互信息[15,30,43]。常用的方法是将每种动作看作图上的一个节点,节点之间的边表示相邻动作之间的上下文关系。然而,基于图的方法是转导的,这是有限的输入节点和/或边缘的先验知识。因此,基于图的方法无法解决未知类型的节点,因此难以扩展和转移。此外,在现有的动作识别框架下,目前描述人类动作的方法这对于识别单独的动作是可行的,但由于单个类ID不能提供上下文信息,因此无法描述顺序动作之间的上下文关系。图1中的(a)和(b)的示例进一步说明了传统的基于类ID的方法的局限性在本文中,我们发现人类语言是一个强大的工具来描述相关动作之间的顺序语义人类语言能够根据序数词和特定的句型来描述多个连续发生的事件。例如,取瓶与倒水的顺序关系可以表述为:该语言自然地在顺序动作之间架起了语义的桥梁。在某些情况下,甚至动作本身的文本描述也可以提供上下文信息。例如,拿面包、把奶酪放在面包上和把面包放在奶酪和面包的动作之间的顺序关系很容易从字面上推导出来。此外,语言可以直观地推断出未知类型的行动。给定一个新的表达把面包放在面包上,它的语义可以从已知类型的动作的解释中推断出来。图1(c)说明了语言表征的有效性。为此,我们提出了一个基于文本的学习方法,桥提示,教学视频分析。受自然语言处理(NLP)[25]和视觉识别[31]中基于文本的学习方法的最新进展的启发,我们引入了文本提示的三加一级设计来分析包含一系列顺序动作的视频剪辑图1显示了常规操作的常规表示和桥接提示表示之间的比较更具体地说,我们开发了一个基于学习的框架,共同训练视频和文本编码器的基础上,一个专门设计的视频-文本融合模块,使我们同时利用上下文和上下文的动作信息对教学视频的更全面的理解我们的工作深入挖掘了进一步的潜力,基于学习的方法对顺序动作的理解和教学视频分析。在三个基准数据集上的大量实验结果表明,基于桥的学习方法取得了令人满意的性能,并在基于桥的学习框架的帮助下在几个基准数据集上达到了最先进的水平。2. 相关工作教学视频的动作分析。教学视频分析是视频理解领域的一个日益流行的趋势近年来已经提出了各种各样的教学视频数据集[29,38,45,47]。教学视频包含丰富的人类活动语义信息。动作识别的传统方法[11,26,35,39]主要集中在每个视频剪辑中包含单个动作的修剪视频剪辑的数据集[5,36]。在已有的动作识别研究的基础上,一些研究工作将动作分析方法扩展到教学视频中, 顺序动作之间的关系GTRM [15]使用基于图的结构来描述有序动作,并且分析基于图卷积网络(GCN)[20]。GHRM [43]还将顺序动作表示为图形,同时专注于长期动作识别任务。此外,Shao et al.[33]提出了通过时态动作解析进行动作内和动作间理解的TransParser方法。与以往的解决方案不同,我们利用人类语言作为一个强大的语义工具来分析教学视频中的顺序动作。基于提示的计算机视觉学习。基于提示的学习方法在NLP中得到了广泛的研究[25,32,34]。作为先驱的语言模型GPT- 3 [4]已经在各种任务中显示出其巨大的少显示或零拍摄潜力。 基于提示的学习的核心是修改输入样本作为提示的版本,并将期望的输出信息作为未填充的槽嵌入提示。CLIP [31]通过将待识别对象的文本标签嵌入到描述性文本中,将基于文本的学习方法引入到图像识别任务中,并且分类过程可以转化为视频-文本匹配问题。在基于图像的设计之后,ALIGN[19]通过对超过10亿个嘈杂的图像-文本对进行训练来扩展视觉语言模型CoOp [44]利用可学习的标记作为文本提示,并在少量图像分类方面获得提升。CLIP适配器[12]将设计的特征适配器生成的适应特征与CLIP特征相结合,以适应少镜头分类。视频理解中基于学习的方法还没有得到广泛的[40]这是一种基于行为识别的特别设计的范例19882--为了--------4输入取样视频剪辑视频图2.Bridge-Prompt管道概述Bridge-Prompt从一分钟长的原始输入中截取视频在特殊提示工程过程之后在融合模块和视频-文本对比学习过程中,视觉和文本信息都被整合。所提出的管道能够捕获顺序动作之间的关系。识别,但它主要集中在识别短视频片段中的单个动作。我们提出的Bridge-Prompt旨在分析教学视频,这更具挑战性,但更有利于理解人类行为。3. 方法在本节中,我们将介绍Bridge-Prompt的整体管道设计。我们的方法流程如图2所示。3.1. 提示工程提示工程指的是输入文本模板的设计,该模板将预期的输出字符串嵌入为填空格式[4](例如,完形填空)。 我们提示工程程序的目标是设计特定形式的文本提示,以描述教学视频中的顺序动作组。假设一系列的单一动作每个单独的动作的语义,而且还弥合上下文相关的动作之间的差距,并描绘一系列动作的整体语义。为了更好地表示Bridge- Prompt框架中的一系列动作,我们提出了教学视频的三加一级提示工程设计:统计提示、顺序提示、语义提示和集成提示。考虑具有K个连续动作的输入视频剪切:1) 统计提示捕获一系列操作的总计数信息。我们使用的格式为统计提示表示为ystat。2) 顺序提示符捕获每个操作的位置信息。我们使用的格式为序数提示符表示为yi。为x设置的序数提示符表示为:1K(A = a1,a2,...,a K)组成了一种特定的人类活动设计提示的一个更简单的方法是摆姿势每一个动作都有一个填空题例如,提示格式“然而,由于每个动作仍然被视为一个独立的提示实例,该策略无法描述相邻的顺序动作之间的上下文语义 例如,在紧急停堆的人类活动中-Yord=[yord,.,(1)3) 语义提示是提示设计的核心,它捕捉动作的语义信息。为了整合上下文外和上下文动作信息,我们将序数信息合并到语义提示中以创建多提示格式。对于动作a i,我们使用如下形式:为x设置的语义提示可以表示为:1Kbling蛋,炒蛋动作只能发生后,打鸡蛋。一个更好的文本提示形式,对顺序动作分析,不仅应该捕捉的上下文外,Ysem=[ysem,.,(2)3+1)集成提示捕捉视频x的整体信息。综合提示语是由积分构成克雷蒂������……融合模块是说中文( 简体)帧级特征����文本编码器……序数提示统计提示提示工程综合提示…语义提示克雷蒂克雷蒂逐帧图像编码器3210…………………12319883FF--{Y Y }为了FY为了×∈C∈F我 1我 Lc为了rules,a set of textual prompts规则,一组文本提示和统计,命令,sem,y integcan 被 生成x。引入文本编码器T分别提取文本提示嵌入zstat、Zord、Zsem、zinteg然后,帧级特征通过融合编码器F与序数提示嵌入一起传递以提取剪辑。级别特征zi =F(F(f),.,F(f),zi)的x的第i个动作。融合模块的设计是理解x中作用内信息和 作 用 间 信 息 的 关 键 。我 们 提 出 了 一 个 基 于transformer的结构用于核聚变。对序数提示符yi的信息进行了融合图3.详细说明了提示格式和融合编码器.融合编码器将编码的逐帧特征和序数提示嵌入作为输入。它采用了一个可学习的计数令牌来分析统计信息。我们采用顺序注意的方式,这意味着模块每次只通过均值池操作提取集成语义。进入融合编码器以提供指导性信息。我们还在F中嵌入了一个计数标记来收集与统计提示ystat匹配的定量信息。桥接提示预训练的融合方法的细节将在以下小节中讨论。在视觉-文本对比学习模式下,剪辑级特征与语义提示sem和整合提示yinteg聚变模块。融合编码器从连续的帧级特征中提取核心信息。换句话说,它试图抽象输入视频剪辑中发生的一系列动作。我们用一个序数-所有语义提示y整数可以表示为:sem. 综合提示融合模块的注意方式,即,每次融合模块仅聚焦于特定位置的动作。实行定期关注机制12K通过将第i个序数提示符嵌入zi添加到yinteg = ysem ysem. 电子邮件(3)其中,字符串连接是指字符串连接操作。3.2. Bridge-Prompt:框架原始视频的采样。原始教学视频样本x0RL0×3× H × W包含L0RGB帧,尺寸H W。通常,L0对于每个原始视频是不同的。此外,假设x0中包含K0个动作,并且K0对于不同的动作也是不相等的。在每个视频中,每个动作的持续时间分布不均匀。 我们提出了一种通过产生随机视频片段xRLc×3× H × W来自固定长度L c的原始视频以提取有用的信息,同时提高训练效率。每个切割x可以包含单个动作或多个连续动作,其中K表示x的动作计数。对这些视频片段进行提示工程,生成对应的提示文本对y。采样操作实际上将模型的时间接收场限制到更局部化的范围。这种抽样策略的优点是迫使Bridge-Prompt模型更多地关注本地相关操作内部和之间的逻辑连接为了融合输入,这是一种早期融合策略。We uti-为融合模块提供了一个Transformer-Encoder结构融合编码器的输入令牌包括可学习的计数令牌[CNT]、作为令牌[ORD]的Z1、分割令牌[SEP]和表示帧级特征的Lc视觉令牌。[ORD]指示融合编码器正在关注的动作的数量。Lc帧级特征的编码表示被均值池化以表示剪辑级特征。此外,我们添加了一个可学习的计数令牌来学习动作的额外量化信息[CNT]的编码表示z[CNT]将通过相同的对比视觉文本学习框架,其中统计提示嵌入zstat作为剪辑级特征。联合视觉-文本表示学习。联合视觉-文本表示学习最大化编码的视觉特征和文本特征之间的相似性。视频剪辑x及其文本描述y可以分别用视频编码器和文本编码器编码,生成剪辑表示zx和文本表示zy。zx和zy之间的相似性可以定义为它们的余弦距离:z· z预培训管道。采样视频剪切x,s(zx,zy)=xy(四)L c帧[f1,.,f Lc]首先通过逐帧图像编码器F1以生成帧级特征[F1(f1),..., FI(f Lc)]。同时,根据提示,|z|zy|zy|对于一批剪辑特征Zx及其对应的序数提示语义提示综合提示统计提示平均池0N345678…帧级特征Transformer编码器COS0 N1 R2 E34567 8…TDP这是第一个行动。融合模块第一,这个人是{ label 1}。这是第二个行动。融合模块第二,他/她是{ label 2}。首先,人是{ label 1 },其次,他/她是{ label 2 },第三,动作是{ label 3}。这是第三个行动。融合模块第三,动作是{ label 3}。此视频有{num}个操作。Y19884CZ ZZ Z Z ZΣΣ∥×LLΣL=LCFFS(Zx,Zy)=F.. -是的-是的.对于批量文本特征Zy,批量相似度矩阵S为:s(zx1,zy1)···s(zx1,zyB)使用z[CNT]进行统计提示,以确定操作的总计数。然后,我们找到最匹配的嵌入语义提示与每个序数词嵌入剪辑-wise特征zi,以逐个确定每个顺序动作s(zxB,zy1)· ··s(zxB,zyB)其中B是批量大小。可以分别沿着S(x,y)上的行/列应用文本式/裁剪式softmax归一化函数,生成S T(x,y)。y)和SV(x,y).定义地面实况批次相似性矩阵GT,其中正对的相似性得分等于1,而负对等于0。我们的目标是最大化S和GT之间的相似性。我们将矩阵的Kull-back对于提示语变体,我们在推理阶段对所有变体进行投票,以获得最匹配的提示语4. 实验4.1. 数据集我们在三个具有挑战性的数据集上评估了我们提出的模型。50 Salads[37]包含50个关于沙拉准备的顶视图30-fps指导视频。所有视频中共有19种动作。进行5重交叉验证进行评估,并进行平均-N报 告 了 N年龄结果。佐治亚理工学院自我中心活动-DKL(P Q)=1PN2iji=1i =1logPijQij(六)ities(GTEA)[10]包含28个以自我为中心的15帧/秒的日常厨房活动指导视频。共74班其中P和Q是N-N矩阵。视频-文本对的对比度损失可以定义为:1L=2[DKL(STGT)+DKL(SVGT)](7)在Bridge-Prompt框架下,视频-文本对比损失总共有三个部分:i) zi由第i个序数词与对应的zi所有视频中总结的行动。我们使用4折交叉验证来评估性能,并报告平均结果。早餐[21]包含1,712个第三人称15 fps的早餐准备活动视频。10种不同的早餐活动包括48种不同的动作。为了进行评估,我们使用[16]中提出的训练分割设置,其中1357个视频用于训练,355个视频用于测试。C响应序数提示符,记为Lisem;4.2. 实现细节semii) 由具有z整数的所有序数令牌融合的均值池zc,记为整数;iii) mean-pooledz[CNT]withzstat,表示为stat;大桥-快速预警系统的总体损失目标是培训框架如下:K抽样策略。视频剪切采样策略根据不同数据集的帧速率和比例进行调整。一般来说,我们对每个视频剪辑采用16帧窗口。对于GTEA数据集,我们采用多个下采样率分别为1,2和4,对应于伊塞姆i=1+λ1Linteg+λ2Lstat(8)窗口步幅率为2、1和0.5。对于50Salads数据集,我们使用更高的24和32下采样率,窗口步幅率为1。对于早餐数据集,我们采用其中λ1和λ2平衡了三个损耗。3.3.基于语义的推理NLP中的桥-提示框架具有识别一系列动作的能力,通过解决基于完形填空的测试,如“这个视频剪辑包含全部动作“或“,人正在执行的动作“。在实践中,我们首先通过预训练的文本编码器为所有相关的序数提示,统计提示和语义提示生成文本特征对于每个测试视频,我们使用预训练的图像编码器和融合编码器提取由不同的或垂直提示zi和平均统计表示z[CNT]嵌入的裁剪式特征。首先,我们找到最匹配的嵌入,下采样率为16,窗口步幅率为2。桥接提示架构。对于图像和文本编码器,我们遵循CLIP [31]和Action- CLIP [40]的设置。我们采用ViT-B/16 [7]作为图像编码器I,它是一个12层的Transformer,输入面片大小为16。[CLS]标记的输出表示被视为图像特征。 文本编码器T还12层Transformer,宽度512,8个attenion头。[EOS]token的输出表示被视为文本特征。图像编码器的输出逐帧特征是768维向量,其被映射到512维潜向量以匹配嵌入的文本特征。对于融合模块F,我们采用了一种基于变换器编码器的结构来融合图像和文本特征的信息。融合模块包含6层。至于提示工程过程的细节,我们使用不变的提示格式(五)19885××----用于顺序提示和统计提示。在语义提示方面,我们采用了19种不同的提示格式(9种简短的不同形式的集成提示)来描述动作语义。所有变体的平均相似度在基于聚类的推理阶段计算。培训详情。在我们的训练之前,图像编码器和文本编码器一起在Kinetics-400 [5]上进行了预训练。我们采用AdamW [27]优化器,基本学习率为5 10−6,权重衰减为0.2。 前10%的训练时期被设置为热身阶段,学习率在训练期间逐渐衰减到零。表1. GTEA数据集上的动作分割结果。GTEAF1@{ 10,25,50}编辑ACCBCN [41]88.587.1七十七点三84.479.8MS-TCN++[24]88.885.776.083.580.1ASRF [18]89.487.8七十九点八83.777.3G2L [13]89.987.3七十五点八84.678.5SSTDA [6]90.089.178.086.279.8SSTDA+HASR [1]90.988.6七十六点四87.578.7ASFormer(I3D)[42]90.188.8七十九点二84.679.7ASFormer(ViT)88.586.2七十七点六87.175.6Br-Prompt+ASFormer94.192.083.091.681.2表2. 50Salads数据集上的动作分割结果。在余弦调度下的剩余时期。 空间输入视频的分辨率是224 224。对于损失函数,我们简单地设置λ1= λ2= 1。该模型在GTEA和50沙拉上训练了50个epoch,在早餐上训练了35个epoch。我们在训练过程中使用12的批量大小4.3. 关于Action Segmentation动作分割的目标是对视频中每帧中发生的动作进行分类[22]。与动作识别不同,动作分割支持cesses视频与多个动作实例.因此,动作分割方法不仅要理解每个单独动作的上下文外语义,而且要知道相邻动作之间的逻辑关系。已经进行了一些工作,并取得了可喜的分割结果。当前大多数关于动作分割的SOTA方法都使用在[9]提取的Kinetics上预训练的逐帧I3D [5]特征,因为用于动作分割的视频通常是很长的视频 ,难以 基于原始 数据进 行直接 分析。Bridge-Prompt采用基于视频片段的方法,在本地学习相邻动作之间的上下文关系,在长视频上是可行的。由于我们的方法不是专门为端到端的动作分割而设计的,所以我们主要采用Bridge-Prompt预训练图像编码器来生成原始视频的逐帧特征。我们测试的动作分割结果的基础上,目前的分割骨干。评估指标。为了评估动作分割的结果,我们采用了几个指标,包括逐帧准确度(Acc),分段编辑距离,以及在重叠阈值10%,25%,50%下的分段F1分数,由F1@10,25,50表示。逐帧准确度是最直接和最常用的度量,但它无法惩罚长时间动作中的过分割错误。分段编辑距离和分段F1得分[22,23]被提议用于处理过度分割错误并衡量分割质量。与最先进的技术进行比较。我们比较基于桥接提示编码的逐帧特征的分割性能与先前的最新技术水平方法. 我们使用ASFormer [42]作为进行动作分割的骨干桥接提示被用作预训练方法来训练逐帧图像编码器(ViT)。输出的768维帧式表示被视为动作分割主干的训练输入。相比之下,先前的最先进的方法使用2048维I3D特征作为训练输入。我们在GTEA数据集和50Salads数据集上进行动作分割表1、2比较了我们方法的定量结果。具体来说,我们预测GTEA中的11个动作动词进行公平比较,我们的方法在所有五个评估指标下都优于当前最先进的方法。为了进行比较,我们还使用[40]预训练的ViT原始特征评估性能,其劣于使用I3D预训练特征的结果。然而,在ViT图像编码器进一步使用Bridge-Prompt训练后,性能得到了明显的提升。我们的方法的性能也领先于50Salads之前的最先进的结果。图4显示了两个数据集上动作分割的定性说明。4.4. 长期活动确认结果教学视频中的一系列有序动作通常构成人类活动的高级语义。长时间活动识别的目标是对长视频中的活动类型进行分类。识别一个高级活动需要理解其有序子活动的基本关系和时间演变。由于Bridge- Prompt旨在研究有序动作之间的关系,50沙拉F1@{ 10,25,50}编辑ACCMS-TCN++[24]80.778.570.174.383.7BCN [41]82.381.374.074.384.4SSTDA [6]83.081.5七十三点八75.883.2ASRF [18]84.983.5七十七点三79.384.5ASFormer(I3D)[42]85.183.476.079.685.6ASFormer+ASRF(I3D)85.185.4七十九点三81.985.919886(一)GTI3D(ASFormer)Br-提示(ASFormer)(b)第(1)款GTI3D(ASFormer)Br-提示(ASFormer)图4.在(a)50Salads和(b)GTEA数据集上的动作分割任务的定性结果。部分操作在颜色条上进行了注释。Br-Prompt预训练表示在动作分割任务中具有更大的潜力。表3.早餐数据集上的人类活动识别结果方法累积动力学预训练I3DI3D [5]58.61保加利亚[14]65.48[第16话]67.07[第17话]69.45GHRM [43]75.49早餐精心调整I3D(微调)[43]74.83Br-提示(微调)80.00它还能够识别长期活动。为了使我们的框架适应长期动作识别,我们首先基于Bridge- Prompt框架预训练帧级编码器,并提取每个视频的帧特征。然后,我们在每个视频中均匀采样64个片段,每个片段8帧,如[16]所示。我们使用一个简单的Transformer-Encoder作为一个融合模块,分别整合段式帧和不同的段,以生成视频明智的表示。然后,使用基于模糊推理的推理来预测人类与现有技术的比较。在Breakfast数据集上评估性能,如表3所示。Bridge-Prompt微调功能的性能优于I3 D微调功能。由于Bridge-Prompt不是专门设计的活动识别架构,因此我们简单的基于活动的识别方法可能不如基于微调I3 D的更复杂的识别骨干(例如,GHRM[43])。通过将Bridge-Prompt表示与其他高级骨干相结合,可以进一步提高性能表4.在GTEA数据集上对Bridge- Prompt的不同融合策略的比较(分割#1)。融合策略F1@{ 10,25,50}编辑ACC(a)仅视觉90.387.4七十六点五86.281.0(b)波斯嵌入岛89.186.2七十七点五84.880.0(b)Pos-embedding ii.88.787.3七十六点四84.079.5(c)平均重量91.888.1 79.186.583.7(d)早期融合91.089.6 82.188.781.24.5. 消融研究我们在GTEA数据集上进行了几项消融研究。已经进行了几次调整,以评估不同设置的影响。聚变接近。 我们已经研究了更多种类的融合策略,将统计或顺序信息整合到帧级特征中。它们列示如下:(a) 视觉融合 在仅视觉融合中,仅将逐帧特征视为融合Transformer的输入。输出的裁剪式功能与统计提示、语义提示和集成提示一起进行对比学习。(b) 顺序提示符融合为位置嵌入。序数提示嵌入可以线性投影为嵌入向量,其长度等于剪辑长度。然后,在映射操作之后,将其作为位置嵌入的一部分添加到输入逐帧特征。有两种映射方式:i.沿着所述宽度维度重复所述嵌入计算嵌入向量与序数提示嵌入之间的外积。输出的裁剪式特征与所有格式的文本提示一起被对比学习,如(a)。切番茄切奶酪给黄瓜切生菜服务切番茄切奶酪给黄瓜服务切番茄切奶酪给黄瓜切生菜服务采取采取开放密切倒倍采取采取开放密切倾倒折叠采取采取开放密切倾倒折叠19887表5.在GTEA数据集上对桥接提示的不同损失选择的比较(分割#1)。亏损部分F1@{ 10,25,50}编辑ACCL扫描电镜Lsem+Linteg87.482.570.688.683.6七十七点一81.983.379.581.2Lsem+Linteg+Lstat91.089.682.188.781.2(c) 序数提示融合为平均权重。序数提示嵌入可以线性投影为权重向量,其长度等于剪辑长度。然后将其作为输入逐帧特征的池化操作的权重输出权重通过L2损失函数进行惩罚,以避免获得脉冲形状的权重。输出的裁剪方式的功能是对比学习,以与所有格式的文本提示,如(a)和(b)。(d) 早期融合的序数提示符带有可学习的计数标记。这是我们框架中采用的融合策略。在GTEA(分割#1)上评估了Bridge-Prompt的不同融合策略的动作分割性能。表4给出了定量结果,表明融合模块对提高Bridge-Prompt的学习效果有重要意义。通过将顺序信息合并到融合模块中,所学习的表示具有针对每个顺序动作的聚焦信息。融合策略(b)和(c)是整合序数提示的更直接的方法,然而,序数提示嵌入不与视觉特征交叉注意。具体地,策略(b)和(c)学习诸如“第一个动作可能在任何16帧视频剪辑中的哪里?"的信息而(d)则集中于“在该录像中的所有动作中,第一个动作是在哪里?"。每个有序动作的位置也依赖于其他相邻动作,这使得早期融合方式更加方便。损失函数的选择在我们的设计中,我们考虑损失函数中的三个主要组成部分:语义,集成语义和统计。我们进行烧蚀实验,以测试所有三个损失组件的有效性。表5给出了定量结果,这表明所有三种损失对最终性能都有积极的贡献。这是合理的,因为所有的三个文本成分结合起来,以描绘上下文和上下文外一系列顺序动作的语义。可转移性研究。文本是一种灵活的、可扩展的监督形式。与类ID不同,文本中的知识可以基于预先训练的语言模型的泛化能力转移到不可见的脚本形式。为了验证桥接提示语的可传递性,我们对基于语义的顺序动作推理进行了测试。对于人类来说,行动知识可以在类似的活动之间转移。作为示例,如果一个人知道如何煮咖啡,他/她可能会学习如何泡茶,因为这两个活动的子动作是高度相似的。对于基于类ID的模型,表6.基于GTEA的推理精度(coffee 2 tea指的是将煮咖啡的知识转移到泡茶上,等等; AKL指的是带有全知标签的培训。反式咖啡2茶咖啡蜜2茶热狗2有珠状突起的花生2有珠状突起的整体(AKL)前1位累积(%)38.841.715.524.654.5前5名的访问量(%)74.481.345.154.890.9类似活动之间的知识,而无需人工干预。在基于语义的推理下,它就像替换提示中的填充词一样简单。为了定量地解释迁移效应,我们通过在一个人类活动上训练框架并评估另一个人类活动上的提示推理准确性来 进 行 实 验 。 结 果 显 示 在 表 6 中 , 其 表 明 Bridge-Prompt具有有希望的零发射可转移性。5. 结论与讨论本文主要研究教学视频中的顺序动作分析问题我们提出了一个基于提示的学习框架Bridge-Prompt,它对顺序动作之间的语义关系进行建模。为了捕获顺序动作的上下文外信息和上下文信息,文本提示被设计为集成统计、顺序和语义信息。进一步的实验进行了两个下游任务,包括动作分割和长期动作识别。结果表明,Bridge-Prompt在有序行为分析中具有较强的局限性。 语言可以从原始乏味的视频中提取语义。尽管在大量教学视频数据集(如HowTo100M [29])上进行大规模视觉语言预训练很有吸引力,但我们受到计算资源的限制幸运的是,我们发现人工标签是一种更准确和简洁的语义抽象形式。在预先训练的语言模型的帮助下,我们能够基于文本监督以更有效和准确的方式学习顺序动作的语义。社会影响。尽管与视觉模型协作的基于标签的方法具有自适应性和便利性,但这也意味着假标签更容易创建。 为了保护视觉语言模型免受潜在的攻击,在实际应用中应考虑标签过滤机制和模型自检测。鸣 谢 本 工 作 得 到 了 国 家 重 点 研 发 计 划 项 目2017YFA0700802、国家自然科学基金项目62125603和U1813218、北京人工智能研究院(BAAI)和中国博士后创新人才支持计划项目BX 2021160的支持。19888引用[1] Hyemin Ahn和Donghui Lee。用分层视频表示细化动作分割。在ICCV中,第16302-16310页,2021年。6[2] 埃 夫 兰 皮 奥 斯 Apostolidis , Eleni Adamantidou ,Alexandros I. Metsai , Vasileios Mezaris , and IoannisPatras.使用深度神经网络的视频摘要:一项调查。 Proc.IEEE,109(11):1838-1863,2021。1[3] Anurag Arnab , Mostafa Dehghani , Georg Heigold ,Chen Sun,MarioLuc i c',andCord e liaSchmid. Vivit:一个视频视觉Transformer。在ICCV中,第6836-6846页,2021年。1[4] Tom Brown , Benjamin Mann , Nick Ryder , MelanieSub- biah,Jared D Kaplan,Prafulla Dhariwal,ArvindNeelakan- tan,Pranav Shyam,Girish Sastry,AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh,Daniel Ziegler,Jeffrey Wu,ClemensWinter,Chris Hesse,Mark Chen,Eric Sigler,MateuszLitwin , Scott Gray , Benjamin Chess , Jack Clark ,Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在NeurIPS,第1877-1901页,2020年。二、三[5] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页一、二、六、七[6] Min-Hung Chen,Baopu Li,Yingze Bao,Ghassan Al-Regib,and Zsolt Kira.联合自监督时域自适应的动作分割。在CVPR中,第9454-9463页,2020年。6[7] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词:用于大规模图像识别的变形金刚。ICLR,2021年。5[8] MaksimDzabraev 、 MaksimKalashnikov 、 StepanKomkov和Aleksandr Petiushko。MDMMT:用于视频检索的多域多模态Transformer。在CVPRW,第3354-3363页,2021年。1[9] Yazan Abu Farha和Jurgen Gall。Ms-tcn:用于动作分割的多级时间卷积网络。在ICCV,第3575-3584页,2019年。6[10] Alireza Fathi,Xiaofeng Ren,and James M Rehg.学习在自我中心的活动中识别物体在CVPR,第3281-3288页5[11] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在CVPR中,第6202-6211页,2019年。一、二[12] Peng Gao , Shijie Geng , Renrui Zhang , Teli Ma ,Rongyao Fang,Yongfeng Zhang,Hongsheng Li,andYu Qiao. Clip-adapter:更好的视觉语言模型,带有特征适配器。arXiv预印本arXiv:2110.04544,2021。2[13] Shang-Hua Gao , Qi Han , Zhong-Yu Li , Pai Peng ,Liang Wang,and Ming-Ming Cheng.Global2local:用于视频动作分割的高效在CVPR中,第16805-16814页,2021年。6[14] Rohit Girdhar 、 Deva Ramanan 、 Abhinav Gupta 、 JosefSivic和Bryan Russell。Actionvlad:学习时空19889用于动作分类的聚合。在CVPR中,第971- 980页,2017年。7[15] Yifei Huang,Yusuke Sugano,Yoichi Sato.通过基于图的时间推理改进动作分割。在CVPR中,第14024-14034页,2020年。2[16] Noureldien Hussein , Efstratios Gavves , and ArnoldWM Smeulders.复杂动作识别的时间感受。在CVPR中,第254-263页,2019年。五、七[17] Noureldien Hussein , Efstratios Gavves , and ArnoldWM Smeulders. Videograph:识别视频中长达几分钟的人类活动。在ICCVW,2019。7[18] 石川祐一,葛西清人,青木义光,片冈喜六胜.通过检测动作边界来减轻过分割错误。在WACV,第2322-2331页,2021中。6[19] Chao Jia , Yinfei Yang , Ye Xia , Yi-Ting Chen ,Zarana Parekh ,Hieu Pham,Quoc V.Le ,Yun-H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功