没有合适的资源?快使用搜索试试~ 我知道了~
视频端到端联合语义分割的架构及其在演员动作数据集上的性能改进
视频中角色和动作的端到端联合语义分割经纬纪1、沙马尔·布赫1、阿尔瓦罗·索托2、胡安·卡洛斯·尼布尔斯11 2智利天主教大学斯坦福视觉与学习实验室{jingweij,shyamal,jniebles} @ cs.stanford.edu,asoto@ing.puc.cl抽象。 传统的视频理解任务包括人类动作识别和演员/对象语义分割。然而,提供不同的演员类,同时与他们的动作类的语义分割的组合任务仍然是一个具有挑战性的,但许多应用程序的必要任务。在这项工作中,我们提出了一个新的端到端的架构来解决这个任务的视频。我们的模型有效地利用了视频中的多种输入方式、上下文信息和多任务学习,在一个统一的框架中直接输出语义分割。 我们在演员动作数据集(A2D)上训练和基准测试我们的模型,用于联合演员动作语义分割,并展示了分割和检测的最新性能。 我们还进行了实验,验证我们的方法提高了零杆识别的性能,表明我们共同学习的特征空间的泛化能力。关键词:语义分割·演员·动作·视频·端到端·zero-shot1介绍动作理解是视频分析领域的关键任务之一最近的进展主要集中在获得对视频中以人为中心的动作的相对粗略的理解[10,12]。然而,更全面地理解动作需要从视频序列中识别细粒度的细节,例如动作中涉及哪些演员,他们如何交互,以及他们的精确空间位置在哪里这种对参与者和动作的像素级联合此外,将行动理解扩展到非人类行为者对自动驾驶汽车至关重要。更根本的是,深入研究动作识别和对象分割之间的协同作用可以是互惠互利的,并提高整体视频理解。作为示例,对动作中涉及的主要参与者的准确且细粒度的空间类似地,对视频序列中的底层动作的正确识别可以促进对相关更精细细节的识别,诸如2图1:我们解决了视频中联合演员动作语义分割的问题,这需要同时对不同的演员和动作类进行像素识别先前的工作已经提出了(a)逐像素概率图形模型(PGM)方法[28,27]和(b)两阶段细化方法[11]。(c)在这项工作中,我们提出了一种新的直接端到端架构,该架构将视频动作识别和演员分割结合在一个统一的模型中。精确的演员位置。构建一个利用这些洞察力的工作模型需要仔细的架构设计,以协同的方式合并两个设计首先,这将需要在动作识别管道内集成执行动作的主要参与者的更精细的本地化其次,模型还必须对视频中发生的活动有很强的理解有了上述观察和哲学,我们解决了联合演员动作语义分割的问题,这要求感知算法在输入视频剪辑中的像素级预测演员和动作类标签。这种演员动作语义分割的任务本质上是具有挑战性的。首先,我们希望参与者和动作知识能够共同学习,以使参与者的产品受益在这种情况下,该learned_d_r_e_p_e_t_i_i_n必须足够好地解耦,以防止参与者-动作叉积空间中的联合类的爆炸第二,尽管该问题可以通过多阶段细化方法来解决一一第三,与静态图像上的逐像素分割相比,可能需要考虑来自其他帧的上下文信息来预测准确的动作标签。一些先前的作品[28,27,29,11]已经研究了演员动作语义分割的挑战性联合任务,如图1所示例如,Xu等人。 [27]提出了一种图形模型,该模型自适应地对来自视频中的超体素的空间和时间信息进行分组。Kalogeiton等人。 [11]提出了一种单帧联合演员动作检测器,然后执行分割。虽然所有这些方法都取得了重要进展的演员动作语义分割问题,他们要么不解耦的演员和动作标签空间,依赖于两个阶段的细化,或不有效地利用上下文信息。在我们的工作中,我们同时应对所有这些挑战因此,我们的贡献可以总结如下:3– 我们提出了一个新的端到端的架构演员动作语义分割的视频,有效地利用多种输入方式,从视频的上下文信息,和联合多任务学习。– 我们观察到,我们的方法在视频中的演员动作分割和检测方面都显着优于现有的最先进的方法– 最后,我们展示了我们的网络的泛化能力,更强的零拍检测的演员动作对比以前的工作。2相关工作在本节中,我们将讨论从单个图像中分割实例的相关工作,用于视频分析的卷积网络的最新进展以及演员-动作语义分割。2.1实例分割图像的实例分割问题已被广泛研究,最近取得了重大进展[21,16,17,4,5,8]。该领域的最新进展包括DeepMask [16]及其后续作品[17,4,5]仅采用没有语义标签的实例分割,或预测语义标签作为第二阶段。另一种方法是并行预测掩码和语义标签,如Mask R-CNN[8],这更灵活和直接。虽然这些方法专注于静态图像,但它们提供了在视频中执行每帧语义分割的网关另一种工作直接解决视频对象分割的问题[2,24,13]。这些算法通常需要访问测试视频的第一帧中的地面实况掩码注释。在实践中,这样的详细注释在推理时不存在于现实世界的应用中。此外,这些方法试图构建对象不可知的算法,其在训练时间期间不能访问对象类,并且在测试时间期间不能预测对象标签。在本文中,我们有兴趣在执行演员动作分割时,没有注释可在推理时间,并在生成像素明智的标签推理的前景演员和背景像素。2.2用于动作识别的大量的研究[10,23,3,26,18,22,12]已经考虑了视频剪辑中动作分类的问题在该设置中,输入是短视频序列,并且目标是为完整剪辑提供单个动作标签,通常集中于人类动作。最近的工作[23,3,26,18]集中在利用3D卷积网络作为动作识别框架的核心。最近,Carreira等人。 [3]提出了I3D架构,该架构考虑了双流网络配置[22,12],并对分别训练的RGB和光流输入训练的各个网络的输出进行后期融合其他最近的工作[26,18]已经提出了用于识别的类似3D架构4集中于提高性能同时降低计算成本。在这项工作中,虽然我们的目标是解决一个更细粒度和面向空间的动作理解问题,我们从这些框架中汲取灵感,在我们的模型设计。我们在3.2节中详细阐述了一些关键的架构进步,以实现更强大的2.3角色-动作语义分割演员动作语义分割问题首先由Xu等人提出[28],他们收集了数据集A2D来研究这个问题,并引入了三层模型作为解决这个问题的第一种方 法 。 继 [28] 之 后 , Xu 等 人 。 [27] 提 出 了 一 种 分 组 过 程 模 型(GPM),该模型在推理过程中自适应地对片段进行分组,Yan等人。 [29]提出了一种弱监督方法,仅在训练中使用视频级标签这些方法依赖于用于像素级分割的条件随机场(CRF)[21],并且可以被分类为概率图形模型(PGM)方法。随着最近使用深度神经网络进行对象检测和实例分割的成功,Kalogeiton等人。 [11]提出了一种视频中单帧的演员动作检测网络,然后应用SharpMask [17]生成演员动作语义分割。该方法是两阶段细化中的一个,由此主模型提供检测框,该检测框与来自另一方法的输出分割掩模串联使用以提供细化的输出。我们的工作推进国家的最先进的演员动作语义分割。据我们所知,我们的方法是该任务的第一个端到端深度模型。特别是,我们提出了一个统一的框架,共同考虑时间背景,演员分类,动作识别,包围盒检测和像素级分割。3该模型我们的目标任务是在输入视频数据中提供跨联合演员动作类空间的语义分割为了应对第1节中描述的挑战,我们持有以下模型设计理念:(1)为了能够将actor和action学习解耦,actor和action分类头应该分离并具有自己的参数集。(2)网络应该是端到端的,演员和动作理解之间的知识共享,因此我们有演员和动作共享框架特征提取的骨干结构(3)为了更好地识别动作,应该利用时间上下文,因此我们通过3D卷积层和流输入来利用短期和上下文运动线索我们建议使用端到端的深度架构来解决这个问题,如图所示。2.我们的方法需要RGB和流视频剪辑作为输入流,利用信息从视频中的外观和运动。我们的网络同时输出掩码分割,以及像素级演员定位分支中的演员分类,这将在第2.1节中详细说明。5图2:我们的用于联合演员动作分割的端到端架构的概述。该模型以RGB和光流帧的上下文窗口作为输入,并输出所有感兴趣的演员类的语义分割与他们的行动。请注意,在上述示例中,保龄球和成人都在同一向前传递中被分割-仅为了清楚起见,我们将成人的FG/BG遮罩更多型号详情请参见第3节。3.1.与演员本地化提供的,3D特征图从RGB和流的联合采用执行动作识别。动作识别的详细信息见第3.2节。我们在Actor和Action分支之间共享外观主干参数和激活,以便它们能够适应我们的知识库,并且通过我们架构的端到端联合学习来优化这些参数3.1像素级Actor本地化对于演员定位的子任务,我们基于最近成功的2D对象检测和语义分割架构,例如Faster R-CNN [19]和Mask R-CNN [8]。特别地,我们采用类似于Mask R-CNN的结构来实现像素级演员定位。外观骨干。给定RGB输入剪辑,每个帧将首先通过外观主干来生成将用于6下一步。一方面,所生成的特征图应当是高级抽象的,使得它们捕获演员的基本概念,另一方面,它们还保持要用于分割预测的逐像素信息。因此,我们选择使用特征金字塔网络(FPN)[14]骨干特征提取器。这里的FPN由一个vanilla ResNet-101 [9]和一个自顶向下的架构组成,该架构在相同分辨率的ResNet-101在提取高级特征方面非常强大,而跳过连接则避免了低级信息的丢失。注意,FPN是完全卷积的,这保留了输出特征图和输入帧之间的空间而不是输出每个帧的单个特征图,外观主干输出特征图金字塔,由不同分辨率的特征图组成。在我们的网络中,我们使用4种不同分辨率的特征图。将输入帧的高度和宽度表示为H和W,分辨率分别为(H,W)除以4,8,16,32。考虑到我们正在研究各种各样的“行动者”,来自于行动者和行动者和行动者,该行动者地图区域提案网络。与Mask R-CNN一样,下一步的演员定位由区域建议网络(RPN)完成[19]。给定金字塔特征图,RPN以边界框的形式生成感兴趣区域(ROI)。不同分辨率的特征图将经过相同的RPN以生成一堆RoI,并且最终的RoI是所有RoI的串联。请注意,与[11]不同,我们仅使用外观模型输出的特征图在实验中我们发现从外观模型得到的感兴趣区域比从运动模型得到的感兴趣区域质量要高得多多任务头。利用RPN生成的RoI和每个视频帧的金字塔特征图,执行RoIAlign操作[8]以根据RoI边界框裁剪和调整特征图的大小 与[19]中的RoI池化操作不同,RoIAlign修复了空间维度中的未对准和不必要的量化,并且在[8]中显示出更好的性能。一个重要的事实是,RoIAlign根据RoI的大小从金字塔中找到特征图的匹配分辨率,这使得网络能够捕获球和鸟等小演员。 为了与动作部分中的RoIAlign操作区分开,我们分别将它们命名为RoIAlign-AR和RoIAlign-AN。由RoIAign-AR输出的裁剪和调整大小的特征块将被馈送到多个头中以完成不同的子任务。这与Mask R-CNN中的类似设置一致总体上,在像素级演员本地化中存在三个并行子任务:(1)边界框回归,(2)演员分类,以及(3)前景/背景分割。边界框回归器和演员分类器由在平坦化特征块上操作的完全连接的层组成,而分割头是完全卷积的(conv和deconv层)。73.2基于时间聚合的双流动作识别骨干对于动作识别,不同于演员分支,使用两个骨干。一方面,共享来自外观模型的相同主干,使得演员的外观特征也有助于动作理解。除了来自外观的信息,如[22]所示,运动模式在动作识别中也很因此,我们建立了一个镜像的运动骨干与一个单独的参数集,它需要在流剪辑,并从中提取这两个主干制定了我们的模型的双流属性。在[22,3,7]之后,流量分支的输入是具有x和y坐标以及流量大小的三个通道的张量时间聚合。正如我们在第1节中所讨论的,视频中的演员-动作语义分割的一个挑战是如何利用时间上下文信息来更好地识别动作在这里,我们求助于3D CNN作为实现时间聚合的成分我们在每个骨干输出的金字塔特征图的顶部应用单独的3D然后将两个主干的金字塔特征图以相应的分辨率连接起来,这将进一步用于动作识别。具体来说,3×1× 1卷积层[18]被应用于每个空间尺度的特征图,因此相邻帧的信息被聚合到3D金字塔特征图中。我们注意到,我们采用了有效我们在第4.3节中证明,这种时间上下文的聚合有助于提高性能。在时间3D卷积层之后,来自每个主干的3D金字塔特征图在对应的分辨率级别上被级联。正如[11]对于2D架构所建议的那样,并且通过我们自己的实验证实,当考虑演员/动作识别和语义分割的联合任务时,标准动作识别方法[22,3,7]中的后期融合效果不因此,我们选择在中层融合外观和运动。动作分类。利用由参与者定位分支提供的RoI,融合的3D金字塔特征图经过另一RoIAign-AN层。由RoIAign-AN输出的裁剪和调整大小的3D特征图不仅包含来自本地演员的信息,而且还包含经由时间层的时间上下文和具有适当感受野的空间上下文。丰富的空间和时间背景提供了足够的信息,局部区域上的像素动作3.3参与者和行动我们的端到端网络支持对演员和动作分类和分割的联合学习联合学习所有子任务迫使骨干特征包含用于演员检测、演员分类、动作识别和演员动作分割的必要信息。我们使用多任务损失进行参数优化:L=λ1LRoI−cls+λ2Lbox−reg+λ3Lactor−cls+λ4Laction−cls+λ5Lmask(1)8其中LRoI−cls和Lbox−r e如[6]中所定义,并且λ' s是等价的。演员和动作分类损失是地面真实类的负对数似然。将演员类的集合表示为X,动作类的集合表示为Y,地面实况演员类表示为x,动作类表示为y,我们有:L actor−cls= − log p X(x),L action−cls= − log p Y(y)。 (二)面罩头产生|X|面具对应着每一个可能的演员。假设地面实况演员类是k,则将仅在第k个掩码上计算L个掩码如在[8]中,L掩码被定义为平均二进制交叉熵损失。注意,损失是相对于帧而不是整个视频计算的。与时间层一起,我们的网络设计和学习设置即使在一些上下文帧缺少注释时也能够进行训练,同时仍然利用时间上下文来获得更好的空间动作识别。4实验数据集详细信息。我们在演员-动作(A2 D)数据集[28]上训练和评估我们的模型,用于联合演员/动作语义分割。据我们所知,A2 D是覆盖多个演员和动作类并提供像素级语义标签的最大数据集,并且是先前工作中报告的视频的唯一联合动作-演员分割基准[28,27,11]。 该数据集包括3782个YouTube视频,每个视频具有3-5帧的稀疏像素级联合语义分割注释和实例边界框。 A2D涵盖了7个角色类:成人、婴儿、球、鸟、汽车、猫、狗,以及9个动作类:爬、爬、吃、飞、跳、滚、跑、走、无(无动作)。我们注意到叉积中的一些联合类是无效的,例如。吃车,我们排除他们在培训和推理,根据以前的工作。实施详情。我们在Ten- sorFlow [1]中实现了我们的端到端架构。对于我们的3D网络的空间维度,我们通过利用MS-COCO [15]上的Mask R-CNN [8]的预训练权重来初始化模型。光流输入分支中的ResNet-101主干分别使用ImageNet [20]上的预训练权重进行初始化,如之前的工作[11,25]所述。时间卷积的权重不利用预先训练的权重,而是随机初始化的。我们使用SGD优化器,学习率为2 e-4。补充资料中提供了其他详细信息和代码4.1联合演员动作语义分割表1示出了我们的联合方法与现有技术方法的比较。我们注意到,这些现有方法利用外部技术来生成初始语义分割掩码,例如GBH [27]和SharpMask(SM)[17],然后对其进行细化然而,我们的方法是端到端训练的,可以直接输出演员和动作的像素分割。9帧GTTSMT+SM我们帧GTTSMT+SM我们图3:定性结果。我们可视化的输入关键帧和地面实况(GT)的语义分割掩模。TSMT模型+SharpMask(SM)输出由[11]的作者提供我们定性地观察到我们的端到端模型在许多情况下比以前的工作改进的演员动作语义分割性能有趣的是,我们注意到,在某些情况下,我们的方法提供了比原始地面实况注释更准确的预测,例如在左上角的成人和猫的示例中。参见第4.1视频可视化的细节和补充走猫步猫爬行车跳车 成人-没有一婴儿爬行成人-无成人-无猫爬行车跳车 成人-没有一婴儿爬行成人-无猫爬走猫步猫-无婴儿爬行跳车成人-无狗爬猫轧成人-无鸟步滚珠轧制成人-成人攀登无捕鸟滚轧成人-无鸟步猫轧成人-成人攀登无成人-无捕鸟猫轧鸟步狗爬滚珠轧制成人-成人攀登无10表1:联合行动者-动作语义分割定量结果。我们观察到我们的端到端模型比现有的最先进的方法使用像素PGM或两阶段细化架构[28,27,11]显著提高了性能,用于视频中的演员,动作和联合演员动作(A,A)语义分割我们在第二节中提供了额外的讨论。4.1节中的详细消融分析。四点三。方法演员行动接头(A、A)AveGloMiouAveGloMiouAveGloMiou三层[28]45.774.6-47.074.6-25.476.2-GPM+TSP [27]58.385.233.460.585.332.043.384.219.9GPM+GBH [27]59.484.833.361.284.931.943.983.819.9TSMT [11] + GBH72.985.842.761.484.635.548.083.924.9TSMT [11] + SM73.790.649.560.589.342.247.588.729.7我们79.1 94.566.462.9 92.646.351.4 92.536.9我们在[11]之后报告了三种不同类型的度量:(1)ave-平均每类准确 度 , ( 2 ) glo- 全 局 像 素 准 确 度 , 以 及 ( 3 ) mIoU- 平 均 像 素Intersection-over-Union。像素精度是其标签被正确预测的像素的百分比ave首先计算每个类的像素精度,然后对类求平均,而glo是对所有像素计算的。如在[11]中所指出的,尽管我们展示了全面一致的改进的性能,但是在所述数据集上的最大改进是不偏向背景像素的。我们在表1中报告了与先前工作的评估比较,其中我们测量了参与者标签,动作标签和参与者-动作对标签(联合(A,A))设置的所有三个指标,如[11]所述因为对参与者-动作对的正确标记需要参与者和动作标签正确地说,联合(A,A)中的相应数字通常低于单独的演员和动作。注意,这些度量不仅指示前景/背景分割质量,而且指示像素级的演员分类和动作识别性能。图3显示了我们实验的定性结果。我们观察到许多演员和动作类的质量改进超过了先前的工作[11]。有趣的是,我们观察到模型预测可以识别在groundtruth注释中没有标记的新实例我们注意到,这些定性观察进一步突出了mIoU作为ave和glo的度量对于联合演员动作语义分割的重要性。我们还在补充资料中包括视频的定性结果。4.2角色和动作我们的联合模型预测边界框作为辅助任务的分割在同一向前通过。因此,我们还验证了我们用于演员动作分割的联合端到端方法可以改善演员的空间检测和空间检测的动作,以与先前的工作进行比较[11]。再次,我们评估我们的方法为演员和行动空间检测11表2:参与者和动作的联合空间检测(mAP)。由于我们的端到端模型输出检测边界框作为辅助任务,我们还可以将我们的方法与先前的工作进行基准测试[11]-我们观察到演员,动作和联合演员/动作(A,A)空间检测的性能显着提高方法行为者行动联合行动者(A,A)TSCT [11]67.260.249.2TSHR [11]67.959.649.6TSMT [11]68.360.048.9我们的(当前)77.262.455.5单独的性能,以及联合任务的整体性能。我们的实验结果总结在表2中。我们证明,我们的方法也优于所有三个指标的最先进的,这是很自然的,因为我们的目标是在更精细的水平的问题,并提高了性能,因此,粗层次的问题的性能也得到了改善。4.3消融分析在本节中,我们将检查体系结构中的关键组件,以验证它们中的每一个在整体性能方面都发挥着重要作用。屏蔽R-CNN基线。由于Mask R-CNN最近在实例语义分割方面取得了成功,我们首先进行了一个基线实验,在该实验中,我们评估了Mask R-CNN作为直接输入的能力,以实现演员动作语义分割。因此,该基线仅考虑单个语义标签。与[28,27]中的设置类似,我们使用A2D中的演员和动作标签的叉积作为单个语义标签,例如。婴儿爬行 具有多个Actor类|X|=7,操作类的数量|Y|=9,则有63个叉积标签,其中43个有效。无效标签包括成人飞行等,在培训和测试期间不考虑。基线实验仅在单帧和单流上进行,没有时间信息或流输入。参数在MS-COCO [15]上使用预训练的权重进行初始化。比较表3中的前两行,我们可以观察到我们的完整模型和Mask R-CNN基线之间的显著性能差距。直接使用Mask R-CNN解决演员动作分割问题具有以下缺点:(1)求一个数组的个数为O(|X||Y|),这使得它很难在未来的作品中考虑更多类别的演员和动作。(2)Mask R-CNN旨在对单个RGB帧进行分割,而在视频中,特别是当涉及动作识别时,应该在模型中利用时间上下文和运动模式。(3)演员和动作分类被对称地对待,这并不反映演员在空间上被更多地定义的直觉,而动作也依赖于运动和时间线索。考虑到所有这些弱点,我们设计了我们的网络来解耦演员和动作分类头,包括时间架构,吸收流信息,并使用演员空间定位来指导动作识别。聚合时间上下文的特征图。12表3:消融分析:执行者-动作分割结果。我们在基线上验证了我们网络的每个组件的贡献,例如Mask R-CNN [8]和我们方法的两阶段细化变体(我们的w/oMask+ SM),基于[11]并利用SharpMask(SM)[17]。请参见Sec。4.3更多详情方法演员行动接头(A、A)Ave Glo Miou AveGlo Miou Ave Glo Miou我们的(满)79.1 94.5 66.462.9 92.6 46.3 51.4 92.5 36.9掩码R-CNN [8]基线62.8 84.233.759.6 84.030.341.7 82.519.1我们的无面罩+ SM [17] 76.6 92.260.360.7 90.342.949.0 89.832.4我们的(不含临时上下文)79.0 94.166.161.8 92.045.550.3 90.235.3我们的,不含FlowStream79.5 93.7 66.560.4 86.336.846.2 87.829.4我们的(不含联合培训)77.7 93.263.262.1 91.345.250.9 90.133.6我们的无掩模(两阶段优化基线)。如在[11]中,实现演员动作分割的一种方法基于两阶段方案:首先在边界框级别执行演员动作检测,然后作为后处理步骤,使用标准分割方法在边界框限制内执行前景/背景分割。这种方法不是一个端到端的解决方案,在分割部分学习的知识不能在训练过程中的动作识别为了显示在端到端网络中具有掩模头的效果,我们执行了切除掩模头的消融实验,仅预测演员动作边界框,并使用SharpMask [17]作为[11]之后的分割方法如4.2所示,这种两阶段方法具有更好的演员动作空间检测,优于[11]中的类似实验设置尽管如此,两阶段方法在表3中列出的任何指标上都不如完整模型好,这表明在端到端架构中包括掩码头的必要性。我们没有时间背景。为了证明时间层的影响,我们进行了一个实验,我们删除这些层。时间层的去除将网络变成单帧模型,其在预测每个RoI的动作标签时不考虑相邻帧。如图3中的第四行所示,尽管演员分割没有受到太大影响,但是动作分割在没有时间层的情况下执行得更差,该时间层聚集来自每个帧的时间上下文的信息我们在这项任务上利用时间上下文的探索部分地受到A2D中的标签在时间上稀疏的事实的限制,这也可能是关于其对我们的整体方法的性能改进的相对影响的限制因素我们期待更多的未来工作在这个任务上的时间背景为重点我们的没有流动流。如相关工作[22,3]所示,关于光流中包含的运动模式的信息对于许多动作任务至关重要当流动模态不存在时,演员的表演几乎未受影响,因为演员定位在我们的模型中不直接使用光流通过比较表3中的“Our s(Fulll)”和“Our s-Flow”,大多数线索13我们的w/o联合学习。在我们的端到端网络中,我们可以从两种训练过程中进行选择:同时联合学习所有子任务,或者逐个单独学习它们。为了与我们的主要联合学习方法进行比较,我们进行了一个单独的学习实验,首先训练演员分支直到收敛,然后训练与动作识别相关的层请注意,演员和动作分支共享相同的骨干特征提取器,因此当单独训练时,最终网络可能偏向演员定位子任务或动作识别子任务。通过比较表3中的第一行和最后一行,我们可以得出结论,联合学习有助于避免这种子任务偏差,并实现最佳基准性能。4.4动作的零拍学习一个成功的角色-动作语义分割模型不仅应该推断出训练过程中看到的角色-动作叉积标签,而且还应该能够推广到看不见的角色-动作对。这就要求我们的模型能够在联合学习的同时保持对演员和动作理解的解耦能力。为了验证我们的网络的解耦能力,我们在A2D上遵循[11]的零触发我们训练网络7次,每次都排除一个演员类x’来训练其动作标签。请注意,我们仍然为x’训练演员分类,因此在推理过程中,网络仍然可以 形 式 上 , Lactor−cls 保 持 不 变 , 而 actionclassificationloss 表 示Laction−cls=−{x′=/x}logpY(y)。为了保持关于[11]的评价的一致性,我们如图所示报告AP的方法。4.第一章 角色的AP是该角色的所有有效动作的记录。它表明,我们的方法在AP度量的所有参与者上都优于[11]。我们可以观察到,像ball和car这样的角色在动作上与其他功能的共性较少。AP的一个问题是,这个度量可以被解释为受益于网络的整体学习能力,或者仅仅是解耦能力的影响。我们还使用以下用于动作的零触发学习的度量来分析零触发学习性能:rzs =AP零-射击。(三)AP全性能比(rzs)反映了零激发学习与正常学习设置相比的相对性能,在正常学习设置中,在训练中看到所有参与者该度量消除了完整模型的整体性能的影响,并且仅评估了两个工作站的能力以进行解耦和跟踪。 我们比较了文献[11]中的rzs和我们的方法。4,我们可以观察到我们的方法与所有参与者匹配或优于[11],证明了捕捉不同参与者执行的动作的共性的卓越能力。14(a)40.035.030.025.020.015.010.05.00.0零发射性能分析成人婴儿球鸟汽车猫狗TSMT我们(b)第(1)款0.60.50.40.30.20.10.0成人婴儿球鸟车猫狗TSMT我们图4:分析联合学习的嵌入空间的可推广性和解耦性,用于演员-动作对的零镜头检测(a)我们报告了七个模型中每个模型的平均精度(AP),并观察到与TSMT相比更强的零触发性能[11]。(b)我们还观察到一个较小的性能比(RZ)之间的全面监督和零杆推理。更多详情请参见第4.4节。5结论我们提出了一个新的端到端的模型,能够共同执行像素级的演员动作分割和识别。我们的整体结果和消融研究提供了经验支持之间的联系,详细的空间语义分割的联合pixelwise演员和动作识别管道。特别是,我们证明了所得到的模型优于一个显着的利润率的模型计划的基础上一个粗糙的边界框演员的动作本地化,以及其他现有的最先进的工作。我们还表明,它优于一个模型计划的基础上,联合演员的行动分类方法,不解耦演员和行动类在所有。因此,我们的全面联合任务的性能提高类似地,在原始性能和总体性能比方面的零拍摄泛化能力的更强的改进表明该方法也显示出对视频表示学习方向的强大承诺。致谢。 丰田研究所(“TRI”)提供资金,以协助作者与他们的研究,但本文仅反映其作者的意见和结论,而不是TRI或任何其他丰田实体。这项工作也得到了千年数据基础研究所的部分资助我们还要感谢NVIDIA捐赠的DGX-1。35.128.225.626.920.720.717.415.317.012.110.912.18.65.6AP0.530.510.530.470.490.390.250.280.310.28 0.310.200.190.18perf. 比15引用1. Abadi,M.,Barham,P.,陈杰,陈志,戴维斯,A.,迪恩J Devin,M.,Ghe-mawat,S.,Irving,G.Isard,M.,等:Tensorflow:一个大规模机器学习系统。 In:OSDI. vol. 第16页。2652. C aelles,S., 我是K K., 彭特-图瑟特,J., Leal-Taix'e,L., C remers,D. ,VanGol,L. 单镜头视频对象分割。计算机视觉和模式识别(CVPR)(2017)3. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。2017年IEEE计算机视觉和模式识别会议(CVPR)。pp. 4724IEEE(2017)4. Dai,J.,他,K.,李,Y.,Ren,S.,孙杰:实例敏感的全卷积网络工作。 在:欧洲的竞争对手是竞争对手。pp. 534-549 02TheDog(2016)5. Dai,J.,他,K.,孙杰:基于多任务网络级联的实例感知语义分割。In : Proceedings of the IEEE Conference on Computer Vision andPatternRecognitio n.pp. 31506. Girshick,R.:快速R-CNN。国际计算机视觉会议(ICCV)(2015)7. Gkioxari,G.,Malik,J.:找活动管。在:IEEE Conference on ComputerVisionandPatternRecognition,CVPR. pp. 7598. H e , K. , G. , G. , Doll'ar ,P. , Girshi ck , R. : Maskr-cnn 。 In :ComputerrV is ison ( ICCV ) , 2017IEEEInternationalConferenceon. pp.2980- 2988年。IEEE(2017)9. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集pp. 77010. Herath,S.,Harandi,M.,Porikli,F.:深入到行动识别:一个调查。arXiv预印本arXiv:1605.04988(2016)11. Kalogeiton,V.,Weinzaepfel,P.,法拉利,V。,Schmid,C.:物体和动作检测器的联合学习在:IEEE计算机视觉国际会议(ICCV)(2017年10月)12. Karpathy,A.,Toderici,G.,Shetty,S.,Leung,T.,Sukthankar河李菲菲:使用卷积神经网络进行大规模视频分类。在:CVPR(2014)13. Li,X.,齐,Y.,王志,Chen,K.,刘志,施,J.,Luo,P.,唐,X.,Loy , C.C. : 具 有 重 新 识 别 的 视 频 对 象 分 割 arXiv 预 印 本 arXiv :1708.00197(2017)14. 林,T. 是的, Doll'ar,P., Gir shi ck,R., He,K., Hariharan,B.Belongie,S. :用于对象检测的Fetur金字塔网络。在:CVPR中。第1卷,第4页(2017年)15. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Doll'ar,P.,Zitnick,C.L.:微软coco:上下文中的公用对象。在:欧洲会议上的竞争对手。pp. 740-755 02TheDog(2014)16. P inheiro,P. O., Collobert,R., 多尔拉尔山口:Learnigtosegmentobjcccdidates。 In:AvancesinNeur alInpr o c e s i n g S y s i n g Pr o c e s i n gS ysi ngP r o c e s i n gSys i n g S i n gi pp. 199017. Pinheiro,P. O., 林,T. 是的, 冷静点R 做得好,P。:查找块数据段。 In:欧洲竞争对手。pp. 75比91 02TheDog(2016)18. 邱,Z.,Yao,T.,Mei,T.:利用伪三维残差网络学习时空表示2017年IEEE计算机视觉国际会议(ICCV)。pp. 5534IEEE(2017)1619. Ren,S.,他,K.,格尔希克河孙杰:更快的r-cnn:利用区域建议网络实现实时目标检测。神经信息处理系统进展。pp. 9120. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A.Bernstein,M.Berg,A.C.,李菲菲:ImageNet大规模视觉识别挑战。International Journal of ComputerVision(IJCV)115(3),211http://doi. org/10。1007/s11263-015-0816-y21. 拉塞尔角Kohli,P.,托,pH值,等:用于对象类图像分割的关联分层crfs。In:Computer Vision,2009 IEEE 12th InternationalCo nfere nceo n.pp.739IEEE(200 9)22. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。NIPS(2014)23. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用3d卷积网络学习时空特征在:2015年IEEE国际会议上ComputerrVision(IC CV)。pp. 4489IEEE(2015)24. Voigtlaender,P.,莱贝B:用于视频对象分割的卷积神经网络的在线自适应。在:BMVC(2017)25. Wang,L.,美国,Xiong,Y.,王志,Qiao,Y.,Lin,D.唐,X.,VanGool , L. : 时 间 段 网 络 : 深 入 行 动 识 别 的 良 好 实 践 In : EuropeanConferenceonComputerVision. pp. 20-36 第二章(20 16)26. Xie,S.,孙角,澳-地黄,J.,Tu,Z.,Murphy,K.:重新思考时空特征学习的视频理解。arXiv预印本arXiv:1712.04851(2017)27. 徐,C.,科索,J.J.:基于分组过程模型的演员动作语义分割2016年IEEE计算机视觉和模式识别会议(CVPR)。pp. 3083- 3092(2016年6月)。 http://doi. org/10。1109/CVPR. 2016年。33628. 徐,C.,Hsieh,S.H.,Xiong,C.,科索,J.J.:人类能飞吗?多类参与者 的 行 动 In : Proceedings of IEEE Conference on Computer Vision andPatternRecognition(2015),www.example.com~jjcorso/pubs/xu_corso_CVPR2015_A2D.pdfhttp://web.eecs.umich.edu/29. Yan,Y.,徐,C.,Cai,D.,科索,J.J.:通过鲁棒多任务排序的弱监督演员动作IEEE计算机视觉与模式识别会议(CVPR)(2017年7月)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功