没有合适的资源?快使用搜索试试~ 我知道了~
基于领域知识的增强I3D网络用于动作检测
9975一种用于动作检测Yubo Zhang,Pavel Tokmakov,MartialHebert Carnegie Mellon Universityyuboz,ptokmako,hebert@andrew.cmu.edu谷歌研究cordelias@google.com摘要计算机视觉中基于学习的方法的一个主要范例是在大型数据集上训练通用模型,例如用于图像识别的ResNet或用于视频理解的I3D,并允许它们发现手头问题虽然这是一个显而易见的有吸引力的方法,但它并不适用于所有sce- narios。我们声称动作检测就是这样一个复杂的问题--需要训练的模型很大,并且获得标记数据的成本很高。为了解决这个问题,我们建议将领域知识纳入模型的结构,以简化优化。特别是,我们使用跟踪模块来增强标准I3D网络,以聚合长期运动模式,并使用图形卷积网络来推理演员和对象之间的交互。在具有挑战性的AVA数据集上进行评估,所提出的方法比I3D基线提高了5.5%mAP,比最先进的方法提高了4.8%mAP。1. 介绍考虑图1所示的AVA数据集[15]的视频序列。它显示了一个人站起来,然后收到另一个人的信,他坐在桌子后面。在这个片段的36帧中的2359296个像素中,什么信息对于识别和定位这个动作是真正重要的关键线索包括演员的位置,他的动作,以及他与其他演员和字母的互动。视频内容的其余部分,如墙壁的颜色或桌子上的灯是无关紧要的,应该被边缘化。我们使用这些直观的观察,设计一个新的方法进行动作检测。最先进的动作检测方法非常强调演员定位[15,21,24,48],但其他线索在很大程度上被忽略了。例如,Gu et al.[15]检测人类并使用能够捕获短期运动模式的I3D [4]表示对其动作进行建模。这使他们能够在具有挑战性的AVA数据集上实现显著改进,但在具有大时间范围的活动上的性能仍然很差。在我们的方法中,视频序列图1.对于动作检测,关键是捕获动作者和对象之间的长期时间信息和空间关系我们建议将此领域知识纳入深度学习模型的架构中,以进行动作检测。我们在演员音轨上聚合局部I3D特征,这导致性能的显著增益。一些最近的方法对人-物体交互进行建模。Gkioxari等人[13]使用最先进的2D对象检测框架[17]来检测特定于动作的对象,并在静态图像中对人与对象的交互进行他们的方法假设对象类别给定,不整合任何时间信息。Sun等人[50]通过应用关系网络来显式地捕获场景中演员和对象之间的交互,解决了建模人与人和人与对象交互的问题。然而,他们的方法并不直接建模对象,而是将帧中的每个像素都视为对象代理。虽然这种方法确实是通用的和对象类别不可知的,我们认为,缺乏适当的对象建模阻碍了其性能。在与[ 50 ]同时进行的工作中,Wang et al.[56]使用对象建议来局部化感兴趣的区域,然后使用图形卷积网络[27]来组合演员和对象表示,并产生视频级动作分类。然而,他们的方法并没有解决动作检测问题。在我们的方法中,我们还使用角色-对象图对活动进行建模,但我们建议在训练和测试期间分别对角色-对象和角色-角色进行结构化建模,而不是在场景中的所有对象和角色上聚合特征。其他提出用演员-对象图捕获动作识别的作品包括[22,40]。然而,这些方法需要在执行过程中对参与者和对象进行地面实况注释。9976训练并专注于对象类别的封闭词汇表。我们的方法首先采用弱监督对象检测方法在训练时间内定位正确的对象,而无需显式监督,其次对最先进的对象检测框架[17]进行简单修改,使其成为类别不可知的,从而解决了这两个限制。在这项工作中,我们提出了一个视频中的动作检测模型,该模型明确地模拟了长期的人类行为,以及人与人和人与物体的交互。特别是,我们的模型提取了视频序列中帧的I3D [4]特征,并且并行地使用从He等人修改的对象检测方法来检测人和物体。[17](第3.1节)。然后,它在3秒的时间间隔内跟踪每个演员,产生一组tubelet,例如随时间推移的边界框序列[24,26]。为此,提出了一种简单有效的启发式跟踪器(第3.2.1节)。然后将小块与检测到的对象组合,以构建以角色为中心的图(第3.2.2节)。来自I3D帧编码的特征被汇集以获得节点的表示。图中的每条边都捕捉到了可能的人与人或人与物体的交互。然后,在边缘特征上训练分类器以产生最终的预测。简单地说,这种方法需要地面实况对象注释来训练。为了消除这一要求,我们建立在弱监督对象检测的直觉基础上,并学习在训练时自动整合对象中的有用信息总之,这项工作有两个主要贡献:(1)我们提出了一种新的动作检测方法,可以明确捕获长期行为以及人与人和人与物体的交互;(2)我们在具有挑战性的AVA数据集上展示了最先进的结果,比最佳公布方法提高了4.8%,并对我们的方法进行了全面的消融分析。2. 相关工作动作分类是计算机视觉中的基本问题之一。早期的方法依赖于手工制作的功能[54],这些功能随时间推移跟踪像素,然后将其运动统计数据聚合到紧凑的视频描述符中。随着深度学习的到来,这些方法已经被双流网络[47]超越,双流网络将原始图像和光流场作为CNN的输入[30],CNN在大型数据集上进行端到端训练这些方法受到CNN表示的2D性质的限制。Tran等人已经解决了这一局限性。[53]他将CNN滤波器扩展到时间维度,从而产生了3D卷积网络。最近,Carreira和Zisserman [4]将3D卷积集成到最先进的2D CNN架构中[51],从而产生了膨胀的3D ConvNet(I3D)。Wang等人[55],用非局部块扩展了这种体系结构,动作识别我们使用具有非局部块的I3D作为模型中的视频特征表示。动作定位可以指视频中的动作的空间、时间或时空定位。在这项工作中,我们研究的问题的空间动作定位。早期动作检测方法[28,39]从视频中生成手工制作的特征并训练SVM分类器。早期基于深度学习的动作定位模型[14,37,44,48,57]是在2D对象检测架构之上开发的。他们在每一帧中检测演员,并使用2D外观特征识别活动。Kalogeiton等人[24]提出通过将几个帧作为输入来预测短tubelets而不是框。然而,他们的模型只使用tubelet进行时间定位。于Li等[31]作者在tubelet特征之上应用LSTM [10],以利用长期时间信息进行动作检测。然而,他们的模型也依赖于2D表示,并且不是端到端训练的TCNN [21]使用C3D作为动作定位的特征表示,但它们只提取短帧序列中间单个边界框的特征。最后,Gu et al.[15]建议使用I3D作为特征表示,它需要更长的视频序列作为输入,但也不会在tubelet上聚合特征。我们的模型建立在I3D特征提取的成功基础我们不是在给定单个位置的情况下提取整个视频的I3D特征,而是基于演员的外观跟踪演员,并沿着整个视频剪辑提取他们的特征表示,这使得能够学习具有长时间依赖性的动作的区分特征。对象检测是大多数动作检测框架的关键组件。传统的方法依赖于手工制作的特征和基于零件的模型[9]。现代基于深度学习的方法要么基于RCNN- like [11,12,17,42],要么基于SSD-like架构[33,41]。在我们的模型中,我们使用Mask-RCNN [17]进行人和物体检测。为了检测任何参与相互作用的对象,我们采用戴夫等人的方法[7],他们提出了Mask- RCNN训练过程的简单修改,使模型类别不可知。目标跟踪是一个很好的研究问题。传统的跟踪算法[1,18,23]使用手工制作的外观特征来执行第一帧中边界框的在线跟踪。尽管它们的效率,这些方法在真实视频上的性能是次优的。最先进的,基于深度学习的跟踪器[8,20,34,52,61]表现出更好的性能,并且更鲁棒。我们的跟踪模块,跟踪检测范式,首先检测所有的人在连续的视频帧。我们建议离线训练一个具有三重丢失的连体网络,而不是在线微调第一帧中检测到的演员的模型。人-人和人-对象对的视觉关系建模提高了各种9977(c) 对象检测演员时间协会(d) 演员Tubelets(e) 关系图参考帧O3A3A2A1O2O1O4(a) 输入视频(b) 时间特征提取输出量:演员1正在说话,保持物体图2.概述我们提出的框架。我们在一个统一的框架中对长期的人的行为和人与人、人与物体的跨视频的演员被关联以生成用于学习长时间依赖性的演员tubelet。然后,从演员小块和对象建议的功能被用来构建一个关系图来建模人-对象操纵和人-人交互动作。我们模型的输出是以参与者为中心的动作。任务包括动作识别[56]和图像字幕[35,38]。已经有几项关于图像中的人-对象交互建模的工作[5,13,16]在HICO-DET [6]和V-COCO [32]数据集上实现了显着改进。Kalogeiton等人[25]一起训练对象和动作检测模型,并联合预测对象-动作对。他们的模型需要所有对象的注释,并且只使用2D CNN。Mettes等人[36]将演员,对象及其空间关系的特征编码为单个表示,以模拟零拍摄学习的动作。最近,Qi等。[40]提出了一个框架,用于视频中的动作定位,该框架表示人类、物体及其与图形模型的交互。然后,它使用卷积LSTM[59]来模拟图随时间的演变。然而,他们的模型使用2D CNN进行特征表示,需要对象框的地面实况注释进行 训 练 , 并 且 仅 在 玩 具 数 据 集 上 进 行 评 估 [29] 。Baradel等人[2]提出使用对象关系网络来建模对象的时间演化以用于动作识别。然而,他们的方法也依赖于对象类注释,并且他们没有对对象和参与者之间的关系进行我们的模型不需要对象注释,这使我们能够在更现实的场景中演示结果。与我们类似,Sun et al. [50]建议隐式地对参与者和对象之间的交互为此,他们使用关系网络[45],通过将图像中的每个位置视为对象代理并聚合所有位置的表示来避免显式建模对象。在我们的评估中,我们表明,明确的对象建模和整合的相关对象在一个框架中,使我们能够学习更多的歧视性功能。3. 方法我们提出了一种视频中的动作检测方法,该方法明确地对个人的长期行为进行人,以及人与人和人与物体的相互作用。我们模型的架构如图2所示。它将一系列视频帧作为输入(a),并将它们通过I3D网络(b)。并行地,将最先进的对象检测模型[17](c)应用于每个帧以产生人和对象边界框。然后,用关联模块将Hu- man边界框组合成tubelet(边界框随时间的序列)(d)然后使用小块和对象框(作为节点)为视频剪辑中的每个演员构建以演员为中心的图(e)。在以角色为中心的图中,我们定义了两种节点,角色节点和对象节点,以及两种边,表示人-对象操作和人-人交互。对象节点是通过从I3D表示执行感兴趣区域(ROI)池化演员节点,其时间行为,我们希望模型,通过聚合I3D功能与图形卷积在相应的tubelet。图的边缘的特征被用作动作分类的最终整个模型,除了2D对象检测器,都是以端到端的方式训练的,只需要演员边界框和地面实况动作。在本节的其余部分,我们将首先介绍我们的视频表示和对象检测模型。然后,我们解释了我们如何使用基于外观的多目标跟踪模块集成时间信息。最后,我们将演示如何构建以演员为中心的图,以及如何使用它来生成动作预测。3.1. 时空特征提取在我们的动作检测流水线的第一步是从视频中提取两组特征:一个非结构化的视频嵌入,和一个对象和演员区域propos- als的集合非结构化视频嵌入为了利用视频输入的时空结构,我们使用具有非局部层的膨胀3D ConvNet(I3D)[56]。在3D Con中A3A2找A1举行O3O1O2O49978vNet,视频被建模为x,y,t坐标的密集采样,并且相应的学习滤波器在空间和时间域中操作,从而捕获短期运动模式。我们还使用非局部层[55]来聚合整个图像的特征,使我们的网络能够超越局部卷积滤波器的范围进行推理在我们的场景中,输入是一个3秒的36帧视频剪辑我们最终的视频嵌入保留了其时间维度,使我们能够在模型的后期阶段显式地使用时间信息。基于外观的演员/对象提案。我们利用RCNN类模型的成功[42]进行对象检测以识别感兴趣区域。在我们的模型中,我们感兴趣的是识别演员的空间位置和被他们操纵的潜在对象。由于我们的目标是理解人类执行的动作,独立于对象的类别,因此我们使用[7]中提出的类别不可知检测器来定位对象。该模型对不属于MS-COCO中80个类别的对象实现了更高的召回率。具体 来 说 , 我 们 在 MS-COCO [32] 上 训 练 Mask-RCNN[17],将所有类别标签折叠成单个对象标签,从而产生一个类别不可知的对象检测器。我们使用标准的人物检测器来定位演员[17]。3.2. 具有时间上下文的动作检测为了使我们的动作检测系统能够捕获长期的时间依赖性,我们将多对象跟踪集成到我们的动作检测框架中。我们不是生成明确的动作建议,而是在整个视频中跨帧跟踪每个演员。然后,将演员的表现信息存储在一个节点上,跟踪信息存储在边中,通过使用图卷积来聚合每个演员3.2.1多行动者关联模块我们注意到,有些动作是由多个单元运动组成的,例如,动作“起床”是由坐着、向上移动和站立组成的。我们认为,在多个帧中自信地跟踪演员并以原则性的方式整合这些局部表示对于学习由多个运动组成的动作的区别性表示至关重要。以前的方法从几个帧中识别动作并通过非动作评分将它们联系起来[48]无法保持一致的轨迹,因为与外观特征不同,由于演员的运动,为动作识别训练的模型的特征在帧之间显着不同出于这种观察,我们引入了一个多演员关联模块,其目的是在整个视频剪辑中关联每个演员的绑定框提案。而不是基于链接动作边界框建议动作性分数,我们根据演员外观特征的相似性关联演员边界框我们遵循检测跟踪的范例,并建立一个关联模块来执行链接。具体来说,我们首先训练一个外观特征编码,然后在下一帧中的相邻区域上进行扩展搜索以获得外观匹配。为了学习区分不同演员的外观特征编码 , 我 们 训 练 了 一 个 具 有 三 重 损 失 的 连 体 网 络[19][46]。在我们获得外观特征编码后,我们在连续帧中的边界框建议中搜索,并匹配具有最高外观相似性的边界框。3.2.2使用图的Actor Tubelet学习动作检测中的最新工作尝试直接从I3D提取的特征中预测动作[15]。我们声称,在多个帧上集成I3D特征对于识别长期活动至关重要。一种简单的方法是沿着时间维度简单地平均这些特征。 相反,我们建议每个演员的行为与图形卷积网络[27]。我们建议使用RoIAlign[17]从I3D骨干中提取的特征对人物图的节点进行编码。边缘是从我们的多演员协会模块构造的小块中获得的。在执行图形卷积时,每个演员框的移动信息由图形聚合。形式上,让我们假设视频中有N个演员。每个演员由维度D的特征向量表示。T是时间维度用G表示N×T维的作用子图的仿射矩阵,用X表 示 T×D 维 的 作 用 子 特 征 . 图 卷 积 运 算 可 以 写 成Y=GXW,其中W是维数为D×D的权矩阵。图Y的输出具有维度N×D,并且沿着时间轴聚合演员图为-卷积运算也可以被堆叠在多个层中以学习更多的辨别特征。3.3. 参与者和对象之间的交互要识别与交互相关联的动作,关键是要利用感兴趣的参与者、其他参与者和场景中的对象之间的关系然而,建模所有这些可能的关系可能变得棘手。我们建议使用ROI提案中的类不可知特征来构建关系图,并隐式地执行仅给定动作注释的关系推理。为了整合来自其他参与者和对象的信息,我们构建了两个关系图,一个用于建模人-对象操作,另一个用于建模人-人交互。人-对象图将每个感兴趣的参与者与其他对象和9979H我ikO人-人图将感兴趣的每个参与者与其他参与者连接起来。演员节点的特征来自多演员关联模块之后的演员tubelet,我们用H=[h1,h2,.,其中N是剪辑的中间帧中的演员的数量。对象的特征通过I3D表示的ROI池化来生成,并且被表示为O=[o1,o2,.其中M是整个视频中的对象的数量。为了对选定的演员和其他主题之间的关系进行建模,我们可以建立在硬注意力模型和软注意力模型的概念上[60]。表示动作特征的一种方法是首先在所有对象和所有其他参与者(除了目标参与者)中定位正确的主体。然后,可以使用来自演员和所识别的主题的特征,我们称之为硬关系图。或者,在软关系图中,我们不是显式地定位主题,而是通过隐式地学习它们与目标演员的关系来整合这些信息我们将进一步展示我们如何实施软关系-其中,p是针对第i个参与者的人-人交互动作软关系图上面描述的硬方法在概念上很吸引人,但在训练过程中会导致不稳定。因此,我们提出了一种替代方法,避免作出艰难的决定,地面真理对象的ag-在场景中的所有对象上聚合信息。我们将感兴趣的演员与另一演员或对象之间的关系强度定义为特征变换后两个节点的特征之间的欧氏距离演员特征和对象特征的变换分别用φh和φo定义。给定演员节点特征H=[h1,h2,...,h N]和对象节点特征O=[o1,o2,. o M],我们首先将它们变换以获得φ h(H)=[φ h(h1),φ h(h2),...,φ h(h N)],φ o(O)=[φ o(o1),φ o(o2),.,φ o(o N)]。第i个动作和第j个物体之间的边表示为图和硬关系图学习判别f(h,o)=1.(五)交互的特征表示o我Jφh(hi)−φo(oj)<$2硬关系图我们明确地本地化正确的对象和演员为每个目标演员来表示对象操作动作和人类交互动作。对象操作动作通过连接角色节点和对象节点来表示,而人的交互动作通过连接角色节点和对象节点之间的边来表示第i个演员和第k个演员之间的边缘类似地表示。我们进一步规范化上面的边权重,使它们之和为1。我们对每个演员采用softmax函数,oexpfo(hi,oj)一个演员和其他演员节点。 给定参与者节点特征H =[h1,h2,.,和对象节点特征Gij=Mm=1expfo(hi,om)、(6)O=[o1,o2,. o M],对象操纵关系fea-hexpfh(hi,hk)第i个目标参与者和第j个对象的真实性可以表示为通过连接两个节点的特征,Gik=N−1n=1,实验f其中k为1…除了i。h(hi,hn、(7))其中Fofhi,oj=Fo([hi,oj]),(1)是对象ma的特征提取函数在计算图形表示之后,第i个参与者的对象管理和人类交互操作表示为胎生 类似地,Fh是特征提取,功能,我们表示第i个和第k个演员的人类交互关系特征,Fo=φΣM(h)+ Go φ(o),(8)f=F ([h,h]),(2)伊希伊j=1IJOJ香港希伊克NΣ−1在没有目标的地面实况注释的情况下对象,我们诉诸于多实例启发的方法Fh=φh(hi)+k=1Ghφ h(hk).(九)学习对象检测,并选择具有Ground Truth Action的最高得分。具体地,对于以第i个演员为中心的对象操纵动作,p∈i= maxσ(fh,o),(3)最终的动作预测是通过逻辑分类器获得的,逻辑分类器分别应用于人-人和人-物体交互类的等式8和9欧吉其中σ是sigmoid函数,p∈i是人类-4. 实验对象操作动作预测。类似地,对人类交互动作的预测是9980在本节中,我们首先介绍用于评估模型的数据集和指标,并描述i= maxσ(fHK香港)、(4)实施细节。接下来,我们进行了广泛的消融分析,证明了p998180706050403020100图3.AVA验证集上拟定模型和基线的按类别结果我们的模型整合时间和空间的背景信息。最后,我们比较我们的模型与国家的最先进的方法定量和4.1. 数据集和指标我们在AVA 2.1版基准数据集[15]上开发了我们的模型,其中评估了动作定位在三秒视频剪辑的中间帧上。视频剪辑是从电影中提取的,并使用所有演员的边界框和他们正在执行的动作进行了广泛的因此,该数据集在外观和标签分布方面都是真实的。它包含211k个训练样本和57k个验证样本。数据集中有80个类别,其中60个类别不少于25个验证样本用于评估。我们报告基于帧的平均平均精度,交叉联合(IOU)阈值为0.5。我们还评估了我们的模型在UCF-101数据集上的性能[49]。我们在split1上报告了结果,其中包含2293个训练片段和914个验证片段。有24个行动类别。与AVA一样,我们报告基于帧的平均精度,IOU阈值为0.5。4.2. 实现细节我们的模型在Caffe2框架中实现我们遵循[4,55]中提出的模式来预训练我们的视频骨干模型。我们使用ResNet-50架构并在ImageNet数据集上预训练它[43]。然后将模型膨胀到[4](I3D)中提出的3D ConvNet中,并在Kinetics数据集上进行预训练[4]。我们在Res2、Res3和Res4块后使用非局部操作[55]增强了我们的脊柱模型我们进一步微调它端到端与我们提出的时空模型。我们的视频骨干模型将36帧的视频剪辑作为输入,对应于12 fps的 3秒视频剪辑首先缩放帧到272× 272,随机裁剪到256× 256。对于区域建议模型,我们使用Mask-RCNN [17]有ResNet-50的主干网我们将标签集限制为仅人和对象区域建议模型在COCO数据集上进行预训练[32],并在AVA上进行进一步微调。我们使用0.5作为对象边界框的阈值表1.在AVA的验证集上分析我们模型的不同组成部分。而对于人边界框为0.9。我们在8-GPU机器上训练我们的模型,每个GPU有3个视频片段作为小批量。总批量为24。我们在训练过程中冻结批量归一化层中的参数,并在最后一层之前应用退出层。我们使用0.3的脱落率我们首先以学习率0.00125训练90K迭代,然后以学习率0.000125训练对于跟踪模块,我们使用ResNet-50架构进行外观特征编码和三重丢失[46],以学习用于跟踪视频中演员的代表性外观特征。该模型以三幅图像作为输入,其中两幅是同一演员在不同时间(范围从0.02s到10s)的裁剪图像,第三幅是同一时期采样的不同演员的裁剪区域输出特征维数为128,我们使用L2距离作为相似性度量。该模型是从ImageNet预训练的权重进行微调的,迭代次数为10万次,批量大小为64。在跟踪时,我们搜索与前一帧中的边界框重叠大于0.5的感兴趣区域建议,并链接嵌入空间中最小化L2距离的框。4.3. 消融分析我们首先对我们的框架进行消融分析,以了解表1中模型的每个组件的效果。然后,我们通过分别评估表2中的人体姿势、对象操纵和人体交互类来对模型进行更深入的分析。我们所有的模型都是在非本地增强型I3D主干上开发的。基线平均I3 D fea-基线我们模型地图基线16.7ROI上的人物相似度图20.1ROI上的对象相似性图20.3演员tubelets模型21.1Actor tubelets +硬关系图模块21.5Actor tubelets +软关系图模块22.29982模型人体姿态对象操纵人类互动基线35.78.916.9ROI上的人物相似度图39.112.120.1ROI上的对象相似性图39.313.020.0演员tubelets模型40.613.420.9Actor tubelets +硬关系图模块41.013.222.2Actor tubelets +软关系图模块41.914.322.0表2.人体姿态、人-物操作和人-人交互类别的消融分析在时间维度上,并使用演员边界框来池动作识别的功能其在验证集上实现了16.7的mAP,与[50]中确定的基线相比略有改善。我们现在引入两个额外的基线。Wang等人[56]提出使用相似性图和时空图来在空间和时间上整合信息以用于动作识别。我们调整他们的工作领域的动作检测,演员的建议发生在整个帧和相似性图集成信息帧。我们观察到,在整个视频中的所有人类提议上显式构建相似性图的模型在验证集上达到了mAP20.1。作为第二个基线,我们在视频剪辑中的所有对象提案上构建相似性图模型。该模型包括人和对象两者以提供用于对交互进行建模的信息,并且实现了20.3mAP的得分通过在空间上和时间上整合来自感兴趣区域的信息,人相似性图和对象相似性图都实现了超过基线的显著增加我们现在分析我们方法的不同组成部分。演员tubelets模型显式地连接跨帧的相同演员,并应用图形卷积来聚合运动信息。这个基本变体不对演员交互进行建模,其mAP得分为21.1,比基线提高了4.4%,比人物相似性图提高了1%。请注意,这两种方法都使用感兴趣的人物区域。演员tubelets模型的更好的性能表明,显式跟踪演员有助于我们的模型学习一个更好的表示动作检测。接下来,我们评估我们的硬关系和软关系图的学习行动涉及互动。 硬关系图模型实现了mAP21.5而软关系图模型在mAP 22.2时性能最好。这可能是由于硬变体训练的不稳定性。我们的关系图模型的性能提升进一步验证了我们提出的结构化网络架构建模时间依赖性和交互的效率。除了所有60个测试类的平均得分外,我们还显示了三个动作类别的性能:人姿势、对象操作和人交互。我们观察到,我们的演员tubelet模型主要是表3.比较我们的模型与AVA验证集上的最新方法。在人类姿势类别和对象操纵类别上优于人图模型和基线。进一步使用软关系图,我们观察到与基线相比,人类姿势、对象操纵和人类交互动作的mAP分别增加了6.2、5.4和5.1,这证明了我们的模型用于建模时间依赖性和交互的有效性。我们还可视化了每个类的mAP,将我们的actor tubelet与图2中的软关系图模型和基线进行比较。根据我们的观察,在类别驱动、演奏乐器和拍手上取得了最大的改进,这是需要学习长期时间依赖和捕获与对象的交互的动作。4.4. 与最新技术在本节中,我们将我们的最佳模型与AVA数据集和UCF-101-24数据集上的最新模型进行比较[49]。AVA的性能如表3所示。我们提出的方法优于Sun等人的方法,[50] 4.8%。这是由于通过演员跟踪模块、人-人和人-对象关系图编码到我们模型的架构中的归纳偏差。相比之下,ACRN [50]通过将帧中的每个像素视为对象代理来建模关系,这是一个不太强的约束。它也不能整合长期的人体运动信息。我们还在UCF-101-24数据集上评估了我们的模型,其中我们的模型具有演员tubelet和人类-对象软关系图,与基线实现的72.0我们注意到,我们的模型仍然比[58]中报告的最新技术水平低0.9 mAP点。然而,他们的模型使用S3D网络作为骨干,与I3D相比,S3D网络可以提供6.8 mAP的提升。这表明我们的性能可以通过切换到更好的主干来进一步提高。模型地图单帧模型[15]14.2ACRN [50]17.4我们的模型22.29983演员和对象检测人-对象关系图基线人演员检测人际关系图基线人人体姿态演员检测颞小管基线(倒下)图4.我们将模型和基线的性能我们在第一列中显示模型使用的演员和对象检测,在第二列中显示图形的相应实例,在第三列中显示基线结果。4.5. 定性分析为了定性评估我们的模型,我们验证了它的能力,捕捉时间信息和上下文关系。我们将视频剪辑可视化,并在图4中提供了几个具有挑战性的示例的性能比较。在这些示例中,参与者正在执行具有非平凡的时间行为和具有挑战性的对象交互的动作。在第一排,我们展示了一个人用叉子吃饭。基线混淆了动作和保持,未能从餐桌和叉子空间上整合信息。相比之下,我们的人-物关系图能够有效地聚合这些信息。如第三列所示,人和叉子之间的边缘值很高,这有助于我们的模型做出正确的预测。第二排是两个正在打架的孩子。基线错误地预测了类别监视,因为它没有集成来自两个参与者的功能。然而,我们的模型使用人与人之间的关系图来共同对两个参与者进行推理。如图的可视化所示,关键演员和他正在战斗的男孩之间的边缘具有很高的值,这有助于我们的模型正确识别动作。在第三行中,我们展示了动作倒下。为了对这个动作进行建模,关键是要整合来自时间和空间域的信息我们的模型能够正确地识别这类通过与大的空间位移的时间信息,条款。然而,基线模型错误地将动作预测为运行,因为它只集成了固定边界框区域中的特征5. 结论我们提出了一个结构化的动作检测模型,明确建模长期的时间行为以及对象操作和人类交互。我们的模型展示了比最先进的方法更大的性能增益,这突出了我们的方法在建模时间依赖性和推理交互方面的有效性。更重要的是,我们的模型的成功显示了集成时间和关系信息的模型架构的动作检测任务的重要性。鸣谢。我们感谢Chieh-En Tsai、Mengtian Li、LeonidKeselman和Achal Dave审阅本文的早期版本和讨论。由Google Cloud Platform提供支持。由情报高级研究项目 活 动 ( IARPA ) 通 过 内 政 部 / 内 政 部 商 业 中 心(DOI/IBC)合同号D17 PC 00345提供支持。美国政府被授权为政府目的复制和分发重印本,而不受任何版权注释的影响。免责声明:本文所载的观点和结论是 作 者 的 观 点 和 结 论 , 不 应 被 解 释 为 必 然 代 表IARPA,DOI/IBC或美国的官方政策或认可,无论是明示或暗示。政府。(暂(观(吃0.960.000.040.000.00(打0.080.000.92(运9984引用[1] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年来:统一的框架。IJCV,56(3):221-255,2004. 2[2] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。在ECCV,第105-121页,2018年。3[3] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV,2016年。2[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。一、二、六[5] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。在WACV,2018。3[6] Yu-Wei Chao , Zhan Wang , Yugeng He , JiaxuanWang,and Jia Deng. HICO:识别图像中人与物体交互的基准。在ICCV,2015年。3[7] 阿查尔·戴夫帕维尔·托克马科夫和德瓦·拉玛南把所有移动 的 东 西 都 分 割 开 来 。 arXiv 预 印 本 arXiv :1902.03715,2019。二、四[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在CVPR,2017年。2[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。TPAMI,32(9):1627-1645,2010. 2[10] Fel i xAGers,JürgenSchmidhube r,andFredCummins. 学会忘记:使用LSTM进行连续预测。1999. 2[11] 罗斯·格希克。快速R-CNN。在ICCV,2015年。2[12] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。2[13] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe.检测和识别人机交互。CVPR,2018年。 第1、3条[14] Georgia Gkioxari和Jitendra Malik。 找活动管。CVPR,2015。2[15] ChunhuiGu,Chen Sun,Sudheendra Vijayanarasimhan,Caroline Pantofaru ,David A Ross,George Toderici,Yeqing Li,Susanna Ricco,Rahul Sukthankar,CordeliaSchmid,et al. AVA:时空局部原子视觉动作的视频数据集。CVPR,2018年。一二四六七[16] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。CVPR,2016年。3[17] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面罩R-CNN。InICCV,2017. 一二三四六[18] JoaoFHenriques , RuiCaseiro , PedroMartins ,andJorgeBatista. 用 核 相 关 滤 波 器 进 行 高 速 跟 踪 。TPAMI,37(3):583-596,2015. 2[19] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。CVPR,2017年。4[20] Seunhoon Hong , Tackgeun You , Suha Kwak , andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。ICML,2015。29985[21] Rui Hou,Chen Chen,and Mubarak Shah.用于视频中动作检测的管卷积神经网络(T-CNN)InICCV,2017. 一、二[22] Mostafa S Ibrahim , Srikanth Muralidharan , ZhiweiDeng,Arash Vahdat,and Greg Mori.一种用于群体活动识别的层次深时间模型。在CVPR,2016年。1[23] 兹德内克·卡拉尔 克里斯蒂安·米科莱奇克 Jiri Matas,等人跟踪-学习-检测TPAMI,34(7):1409,2012. 2[24] Vicky Kalogeiton , Philippe Weinzaepfel , VittorioFerrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。InICCV,2017. 一、二[25] Vicky Kalogeiton , Philippe Weinzaepfel , VittorioFerrari和Cordelia Schmid。物体和动作检测器的联合学习。在ICCV,第4163-4172页,2017年。3[26] Kai Kang , Wanli Ouyang , Hongsheng Li , andXiaogang Wang.用卷积神经网络从视频管中检测目标。在CVPR,2016年。2[27] Thomas N Kipf和Max Welling图卷积网络的半监督分类在ICLR,2017。1、4[28] 作者声明:Al-e-xanderKl aéser,MarcinMarszaweek,CordeliaSchmid,andAndrew Zisserman.视频中以人为中心的动作定位。ECCV,2010年。2[29] Hema S Koppula和Ashutosh Saxena。使用物体启示预测人类活动的反应性机器人反应。TPAMI,38(1):14-29,2016. 3[30] Yann LeCun,Yoshua Bengio,等.图像、语音和时间序列的卷积脑理论和神经网络手册,3361(10):1995,1995。2[31] 董立、赵凡秋、齐岱、姚婷、陶梅。再流tubelet建议和识别网络的行动检测。在ECCV,2018。2[32] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。2014年,在ECCV。三、四、六[33] Wei
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功