没有合适的资源?快使用搜索试试~ 我知道了~
1102360Action Genome: 作为时空场景图的组合的动作0Jingwei Ji Ranjay Krishna Li Fei-Fei Juan Carlos NieblesStanford University0{jingweij, ranjaykrishna, feifeili, jniebles}@cs.stanford.edu0摘要0动作识别通常将动作和活动视为在视频中发生的单一事件。然而,来自认知科学和神经科学的证据表明,人们会将活动主动编码为一致的分层部分结构。然而,在计算机视觉领域,对编码事件部分结构的表示的探索很少。受到原型事件单位是动作-对象交互的证据的启发,我们引入了ActionGenome,一种将动作分解为时空场景图的表示。ActionGenome捕捉了动作发生时对象及其两两关系之间的变化。它包含了10K个视频,0.4M个对象和1.7M个视觉关系的注释。通过ActionGenome,我们通过将场景图作为时空特征库来扩展现有的动作识别模型,在Charades数据集上取得了更好的性能。接下来,通过分解和学习导致动作的视觉关系的时间变化,我们展示了分层事件分解的实用性,通过使用尽可能少的10个示例,实现了42.7%的mAP的少样本动作识别。最后,我们在新的时空场景图预测任务上对现有的场景图模型进行了基准测试。01. 引言0视频理解任务,如动作识别,大多将动作和活动视为单一的事件[8, 38, 66,87]。最近的大多数模型采用了端到端预测,为视频的长序列生成单个标签[10, 23, 31, 69,72],并没有明确地将事件分解为对象之间的一系列交互。另一方面,基于图像的结构化表示,如场景图,在多个图像任务中取得了改进,包括图像字幕[2],图像检索[36,64],视觉问答[35],关系建模[41]和图像生成[34]。场景图表示是在Visual Genome中引入的[43],它提供了一个支架0动作:“坐在沙发上”0时空场景图0人0旁边0沙发0人0在...下面0沙发0在...前面0人0在...下面0沙发0坐在...上0时间0图1:我们提出了ActionGenome:一种将动作分解为时空场景图的表示。受到分层偏见理论[84]和事件分割理论[44]的启发,ActionGenome提供了研究动作作为人和物体之间关系的动态的支架。这种分解还使我们能够改进动作识别,实现少样本动作检测,并引入时空场景图预测。0通过将场景分解为相应的对象及其视觉关系,允许视觉模型处理复杂的推理任务。然而,对于时间事件的分解并没有得到很多探索[50],即使使用结构化表示来表示事件可能会导致更准确和有根据的动作理解。0与此同时,在认知科学和神经科学中,人们认为人们将事件分割为一致的组[5, 6,55]。此外,人们会将这些正在进行的活动主动地编码为分层部分结构,这被称为分层偏见假设[84]或事件分割理论[44]。让我们考虑“坐在沙发上”的动作。人最初从沙发旁边开始,移动到沙发前面,最后坐在上面。这样的分解可以使机器在动作发生时预测未来和过去的场景图,包括对象和关系:我们可以预测人即将坐在2102370表1:Action Genome与现有视频数据集的比较。Action Genome基于Charades[66],是第一个提供动作标签和时空场景图标签的大规模视频数据库。0数据集 视频 # 视频 # 动作 对象 关系0小时 类别 注释 定位化 # 类别 # 实例 注释 定位化 # 类别 # 实例0ActivityNet [8] 648 28K 200 - - - - HACS Clips [87] 833 0.4K 200 - - - - Kinetics-700 [9] 1794 650K 700 - - - -0AVA [26] 108 504K 80 - - � 49 - Charades [66] 82 10K 157 � 37 - - - EPIC-Kitchen [15] 55 - 125 � 331 - - - DALY [75] 31 8K 10 � � 41 3.6K - - CAD120++ [91] 0.57 0.5K 10 � �13 64K � � 6 32K0Action Genome 82 10K 157 � � 35 0.4M � � 25 1.7M0当我们看到沙发前的人们移动时,我们会看到沙发。同样,这种分解也可以使机器从少量示例中学习:当我们看到不同的人向不同的椅子移动时,我们可以识别相同的动作。虽然这是一个相对简单的分解,但是其他事件,比如“踢足球”,由于其多样的规则和参与者,可能涉及多方面的分解。因此,虽然这种分解可以提供改进视觉模型的支架,但如何能够正确地为各种复杂动作创建代表性的层次结构呢?在本文中,我们介绍了ActionGenome,一种将动作分解为时空场景图的表示。对象检测面临着同一对象类别内的大变化的类似挑战。因此,就像2D感知的进展是通过分类学[56]、部分学[57]和本体论[43,79]催化的一样,我们的目标是通过ActionGenome的部分学来改进时间理解。回到“人坐在沙发上”的例子,ActionGenome通过用场景图注释该动作中的帧来分解这样的动作。图表捕捉了人和沙发这两个对象以及它们的关系随着动作从�人-靠近-沙发�到�人-在沙发前-沙发�最后到�人-坐在-沙发�演变。Action Genome基于Charades[66],提供了476K个对象边界框,跨234K个视频帧提供了1.72M个关系,涵盖了157个动作类别。关于动作分解的大多数观点都聚焦于动作-对象对的原型单元[44,50,63,84]。动作-对象对指的是在对象上执行的及物动作(例如“移动椅子”或“扔球”)和不及物自动作(例如“朝沙发移动”)。ActionGenome的动态场景图表示捕捉了这两种类型的事件,并因此代表了原型单元。通过这种表示,我们可以研究诸如时空场景图预测之类的任务,这是一项任务,我们在给定视频的情况下估计动作动态的分解。我们还可以通过共同研究这些动作如何改变场景图中对象之间的视觉关系,来改进现有任务,如动作识别和少样本动作检测。0为了展示ActionGenome事件分解的实用性,我们引入了一种方法,通过将时空场景图作为特征库来扩展最先进的动作识别模型[76],该方法可以用于预测动作以及涉及的对象和关系。首先,我们证明预测场景图可以改善流行的动作识别任务,通过改进Charades数据集[66]上的最新技术,从42.5%提高到44.3%,使用oracle场景图时提高到60.3%。其次,我们展示了动作的组合理解通过展示少样本动作识别实验可以实现更好的泛化,使用仅10个训练示例就可以达到42.7%的mAP。第三,我们引入了时空场景图预测任务,并使用专门针对视频设计的新评估指标对现有场景图模型进行基准测试。通过对人-对象相互作用的动态理解的场景图,我们旨在激发更多可分解和可推广的动作理解的研究。02. 相关工作0我们从认知科学中获得灵感,将我们的表示与静态场景图进行比较,并调查了动作识别和少样本预测的方法。认知科学。早期的认知科学研究为人们识别事件边界的规律性提供了证据[5, 6,55]。令人惊讶的是,人们在主观和客观上一致地将视频流划分为事件、动作和活动[11, 28,83]。这些发现暗示着可以预测动作的开始和结束,并且激发了计算机视觉数据集、模型和算法研究动作识别等任务的数百种方法[19, 37, 71, 80, 81,82]。随后的认知和神经科学研究使用相同的范例,也表明事件类别形成了部分关系[28, 60,83]。然而,计算机视觉在明确表示动作的层次结构方面几乎没有做任何工作[50],尽管理解事件的部分关系可以改善动作识别等任务。��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������3102380视频中的动作识别。许多研究项目致力于动作识别任务。一个主要的研究方向是开发强大的神经架构,从视频中提取有用的表示[10, 23, 31, 69,72]。这些架构在大规模动作分类数据库上进行预训练[8,9],成为下游视频任务和其他数据集上的动作识别的基石。为了辅助更复杂的动作理解,另一组不断增长的研究探索了视频中的结构信息,包括时间顺序[51, 88]、对象定位[4,25, 32, 53, 74, 76]和对象之间的隐式交互[4,53]。在我们的工作中,我们通过将动作明确地分解为对象和关系,与这些方法进行对比。0表1列出了一些用于动作识别的最流行数据集。视频数据集的一个主要趋势是提供大量带有单一动作标签的视频剪辑[8,9,87]。尽管这些数据库推动了视频特征表示在许多下游任务中的进展,但提供的注释将动作视为单一事件,并且不研究对象及其关系在动作/活动过程中的变化。与此同时,其他数据库提供了更多种类的注释:AVA[26]定位动作的执行者,Charades[66]包含同时发生的多个动作,EPIC-Kitchen[15]定位自我中心厨房视频中的相互作用对象,DALY[75]为10个日常活动提供对象边界框和上半身姿势。然而,作为图像的综合结构抽象,场景图在任何大规模视频数据库中都没有被研究作为动作识别的潜在表示。在这项工作中,我们提出了ActionGenome,这是第一个在场景图和动作理解方面共同推动研究的大规模数据库。与现有数据集相比,我们提供了数量级更多的与动作相关的对象和关系标签。0场景图预测。场景图是图像信息的一种形式化表示[36,43],以图的形式广泛应用于知识库[13, 27,89]。每个场景图将对象编码为节点,通过边缘连接在一起的成对关系。场景图在图像字幕[2]、图像检索[36,64]、视觉问答[35]、关系建模[41]和图像生成[34]等领域中已经取得了许多最先进的模型。鉴于其多功能性,场景图预测的任务已经产生了一系列的出版物[14, 30, 43, 46, 48, 49,59, 77, 78,85],这些出版物探索了强化学习[49]、结构化预测[16, 40,70]、利用对象属性[20,61]、顺序预测[59]、少样本预测[12, 17]和基于图[47, 77,78]的方法。然而,所有这些方法都将其应用限制在静态图像上,并没有对视觉概念进行时空建模。0������������������0������������������0�������������������0���������������������������0图2:ActionGenome的注释流程:对于每个动作,我们在动作中均匀采样5帧,并注释执行该动作的人以及他们与之交互的对象。我们还注释了人与这些对象之间的成对关系。在这里,我们展示了一个标记了4个动作的视频,结果是标记了20(=4×5)个带有场景图的帧。对象在视频中以边界框的形式呈现。0少样本预测。少样本文献主要分为两个主要框架。第一种策略是为一组频繁类别学习分类器,然后使用它们来学习少样本类别[21, 22,58]。例如,ZSL使用动作属性来实现少样本[58]。第二种策略是学习能够实现少样本分类的不变性或分解[7, 18, 39,90]。OSS和TARN提出了视频对之间的相似度或距离度量[7,39],CMN使用多显著性算法对视频进行编码[90],Proto-GAN为每个类别创建原型向量[18]。我们的框架类似于第一种策略,因为我们使用使用频繁动作学习的对象和视觉关系表示来识别少样本动作。03. Action Genome0受认知科学的启发,我们将事件分解为原型动作-对象单元[44, 63, 84]。ActionGenome中的每个动作都表示为对象的变化以及它们与执行动作的演员/人之间的成对交互。我们的表示是VisualGenome场景图的时间变化版本[43]。然而,与VisualGenome不同,其目标是密集地表示具有对象和视觉关系的场景attentioncontactspatial4102390图3:(a)关系和(b)对象出现的分布。关系以颜色编码表示注意、空间和接触关系。大多数关系至少有1k个实例,对象至少有10k个实例。0表2:ActionGenome中有三种关系类型:注意关系报告人们正在看的对象,空间关系指示对象在空间中的布局方式,接触关系是涉及人们操作对象的语义关系。0注意 空间 接触0在前面看,在前面携带,在前面覆盖,在前面不看,在后面喝,在前面吃,在前面不确定,在侧面,在背后拿着,在上面倾斜,在上面躺着,在下面,在不接触,在上面坐着,在上面站着,在接触,在扭动,在穿戴,在擦拭,在上面写0ActionGenome的目标是分解动作,因此专注于仅注释视频中发生动作的那些片段以及仅涉及动作的对象。注释框架。ActionGenome基于Cha-rades数据集中的视频和时间动作注释构建[66],该数据集包含157个动作类别,其中144个是人-对象活动。在Charades中,可能同时发生多个动作。我们不会对视频中的每一帧进行注释;这将是多余的,因为对象和关系之间的变化发生在较长的时间尺度上。图2可视化了我们的注释流程。我们均匀采样5帧以在每个动作间隔范围内进行注释。通过这种以动作为导向的采样策略,我们在更多动作发生的地方提供更多标签。例如,在示例中,“坐在椅子上”和“从杯子里喝”这两个动作同时发生,因此会产生更多的标记帧,每个动作5帧。在注释每个采样帧时,雇佣的注释者会提供动作标签和相邻视频片段的剪辑提示0图4:对象和关系之间的加权二部图映射显示它们在ActionGenome中密切相互连接。权重表示特定对象在关系中出现的百分比。图中有三种颜色,分别代表三种关系:注意力(橙色),空间(绿色)和接触(紫色)。0为了提供上下文,标注者首先在这些动作涉及的物体周围画出边界框,然后从标签集中选择关系标签。当存在给定类别的多个实例时,剪辑用于消除实际参与动作的对象之间的歧义。例如,如果存在多个“杯子”,上下文将消除对“喝杯子”动作进行注释的哪个“杯子”的歧义。ActionGenome包含三种不同类型的人-物关系:注意力关系、空间关系和接触关系(见表2)。注意力关系指示一个人是否看着一个物体,它们作为指示人与哪个物体进行或将要进行交互的指标。�24�4�������.�43�2B���)�(,,�24�4��������4�BC�4������ ��(�����4�B������� �� ��� �1�42B��4��B�����������������������BB�����B���B�1�4F���BB���������2����F�3���������������2C�F ����������CB��34������D��3�DF��������4��������������������������������4��������������������������������������4�������������������������������5102400空间关系描述物体相对于彼此的位置。接触关系描述人与物体接触的不同方式。接触的变化通常表示动作的发生:例如,从�人-不接触-书�变为�人-持有-书�可能显示出“拿起书”的动作。值得注意的是,虽然Charades将每个动作映射为一个动词,但它与我们提供的关系标签不同。Charades的动词是剪辑级别的标签,例如“醒来”,而我们将它们分解为帧级别的人-物关系,例如一系列的�人-躺在-床上�,�人-坐在-床上�和�人-不接触-床�。数据库统计信息。ActionGenome为每个动作的组件提供了帧级别的场景图标签。总体而言,我们为234,253帧提供了注释,其中包含476,229个35个物体类别(不包括“人”)的边界框,以及1,715,568个25个关系类别的实例。图3可视化了数据集中对象和关系类别的对数分布。与视觉中的大多数概念一样,一些对象(例如桌子和椅子)和关系(例如在前面和不看)经常出现,而其他一些对象(例如扭曲和门把手)只出现几次。然而,即使在这样的分布下,几乎所有对象至少有10K个实例,每个关系至少有1K个实例。此外,图4可视化了对象在哪些关系中频繁出现。我们可以看到大多数对象在这三种类型的关系中都很平均地参与其中。与Visual Genome不同,ActionGenome不会受到相同的偏见,因此无法根据对象类别预测关系提供强有力的基线。04. 方法0我们通过研究将学习时空场景图与学习动作识别相结合的效果,验证了ActionGenome的动作分解的实用性。我们提出了一种方法,称为场景图特征库(SGFB),将时空场景图融入到动作识别中。我们的方法受到计算机视觉领域最近的一些工作的启发,这些工作使用了“库”中的信息[1, 45,76]。信息库是用于表示视频中出现的物体类别(例如[45])或包括物体位置的特征表示[1]的。我们的模型与最近的长期特征库[76]最直接相关,该库将长视频的特征累积为固定大小的表示以进行动作识别。总体而言,我们的SGFB模型包含两个组件:第一个组件生成时空场景图,而第二个组件对图进行编码以进行预测。0图5:我们提出的用于使用时空场景图进行动作识别的模型SGFB的概述。SGFB为视频中的每一帧预测场景图。这些场景图被转换为特征表示,然后使用类似于长期特征库[76]的方法进行组合。最终的表示与3DCNN特征合并,并用于预测动作标签。0动作标签。给定一个视频序列v ={i1,i2,...,iN},传统的多类别动作识别的目标是为该视频分配多个动作标签。这里,v表示由图像帧ij组成的视频序列,对于所有j∈[1,N]。SGFB为给定视频序列中的每一帧生成一个时空场景图。将场景图编码以构建用于最终动作识别任务的时空场景图特征库。我们在下面更详细地描述了场景图预测和场景图特征库的组成部分。请参见图5,了解模型前向传递的高级可视化。04.1. 场景图预测0以前的研究提出了许多用于在静态图像上预测场景图的方法[48,52,77,78,85,86]。我们将最先进的场景图预测器作为我们方法的第一步。给定一个视频序列v,场景图预测器SG在每一帧上生成所有对象,并将每个对象与其与演员的关系连接起来,即SG:I−→G。在每一帧上,场景图G=(O,R)由一组对象O ={o1,o2,...}组成,这些对象是人与之交互的对象,以及一组关系R = {{r11,r12,...},{r21,r22,...},...}。这里r pq表示人与对象o p之间的第q个关系。注意,人与每个对象之间可以有多个关系,包括注意力、空间和接触关系。6102410除了图形标签之外,场景图预测器SG还输出所有预测对象的置信度分数:{so1,so2,...}和关系:{{sr11,sr12,...},{sr21,sr22,...},...}。我们尝试了各种SG的选择,并在ActionGenome上对它们的性能进行了基准测试,详见第5.3节。04.2. 场景图特征库0在每一帧上获取场景图G之后,我们通过将所有场景图中的信息聚合到一个特征库中来形成一个特征向量f。假设有|O|个对象类别和|R|个关系类别。在ActionGenome中,|O|=35,|R|=25。我们首先构建一个维度为|O|×|R|的置信度矩阵C,其中每个条目对应一个对象-关系类别对。我们使用场景图预测器SG输出的分数来计算该矩阵的每个条目。Cij = soi ×srij。直观地说,当SG确信当前帧中存在对象oi并且它与演员的关系是rij时,Cij的值很高。我们将置信度矩阵展平为每个图像的特征向量f。形式上,FSG =[f1,f2,...,fT]是从帧i1,i2,...,iN的子样本中提取的一系列场景图特征。我们使用类似于长期特征库[76]的方法将这些特征在帧之间进行聚合,即将FSG与从短期剪辑中提取的3DCNN特征S使用特征库操作符(FBO)进行组合,可以实例化为均值/最大池化或非局部块[73]。3DCNN将短期信息嵌入到S中,而FSG提供上下文信息,在建模具有长时间跨度的复杂动作的动态过程中至关重要。然后使用最终聚合的特征来预测视频的动作标签。05. 实验0ActionGenome的表示使我们能够通过将动作分解为对象之间随时间变化的视觉关系来研究少样本动作识别。它还使我们能够评估理解分解是否有助于改善动作识别或场景图预测的性能。为了研究ActionGenome提供的这些好处,我们设计了三个实验:动作识别、少样本动作识别和时空场景图预测。05.1. Charades上的动作识别0我们期望通过对组成动作的组件(对象及其关系)进行定位,提高我们在预测视频序列中发生的动作方面的能力。因此,我们评估了ActionGenome的场景图在动作识别任务中的效用。问题的制定。我们特别研究Charades数据集[66]上的多类别动作识别。0表3:Charades验证集上的动作识别mAP(%)。当我们同时预测场景图并执行动作识别时,我们胜过所有现有方法。我们还发现利用地面真实场景图可以显著提高性能。0方法 骨干网络 预训练 mAP0I3D + NL [10, 73] R101-I3D-NL Kinetics-400 37.5 STRG [74]R101-I3D-NL Kinetics-400 39.7 Timeception [31] R101Kinetics-400 41.1 SlowFast [23] R101 Kinetics-400 42.1SlowFast+NL [23, 73] R101-NL Kinetics-400 42.5 LFB [76]R101-I3D-NL Kinetics-400 42.50SGFB(我们的)R101-I3D-NL Kinetics-400 44.3 SGFBOracle(我们的)R101-I3D-NL Kinetics-400 60.30Charades数据集包含9,848个众包视频,平均长度为30秒。在任何帧上,一个人可以执行多个动作,共有157个类别。多类别分类任务将视频序列作为输入,并期望输出多个动作标签。我们在测试时训练我们的SGFB模型来预测Charades的动作标签,并在训练期间提供SGFB与时空场景图作为额外的监督。基线。先前的工作提出了用于多类别动作识别的方法,并在Charades上进行了基准测试。最新的最先进方法包括将I3D[10]和非局部块[73]作为视频特征提取器(I3D+NL),时空区域图(STRG)[74],Timeception卷积层(Timeception)[31],SlowFast网络(SlowFast)[23]和长期特征库(LFB)[76]。所有基线方法都在Kinetics-400[38]上进行了预训练,输入模态是RGB。实现细节。SGFB首先在每个帧上预测场景图,然后构建用于动作识别的时空场景图特征库。我们使用Faster R-CNN [62]和ResNet-101[29]作为区域提议和对象检测的骨干网络。我们利用RelDN[86]来预测视觉关系。场景图预测在ActionGenome上进行训练,其中我们遵循与Charades数据集相同的视频的训练/验证划分。动作识别使用相同的视频特征提取器、超参数和求解器调度器,与长期特征库(LFB)[76]进行公平比较。结果。我们在Charades验证集上使用平均精度(mAP)报告所有模型的性能,见表3。通过用时空场景图特征替换特征库,我们的SGFB在mAP上胜过最先进的LFB1.8%。我们的特征尺寸更小(SGFB为35×25=875,LFB为2048),但能够简洁地捕捉更多用于识别动作的信息。我们还发现,改进针对视频的目标检测器可以进一步提高动作识别结果。为了定量地展示更好的潜力personbeneathbedlying onpillowholdingin front ofpersonbeneathbedlying onpillowholdingin front ofpersonbeneathbedsitting onpillownot contactingin front of7102420表4:少样本实验。凭借组合动作理解的能力,我们的SGFB比LFB表现出更好的泛化能力。SGFB的oracle展示了场景图表示对动作识别的巨大潜力。01个样本 5个样本 10个样本0LFB [ 76 ] 28.3 36.3 39.6 SGFB (我们的) 28.837.9 42.7 SGFB oracle (我们的) 30.4 40.2 50.50为了研究场景图对动作识别的影响,我们设计了一个SGFBOracle实验设置。SGFBOracle假设存在一个完美的场景图预测方法。因此,时空场景图特征库直接对标注帧的真实对象和视觉关系进行编码,生成特征向量。将这样的特征库输入SGFB模型,我们观察到动作识别有了显著的提升:mAP增加了16%。这种性能提升显示了ActionGenome和组合动作理解的潜力,当利用基于视频的场景图模型来改进场景图预测时。需要注意的是,SGFBOracle的性能并不是性能的上限,因为我们只在有真实场景图注释的少数帧中使用了真实场景图。05.2. 少样本动作识别0直观上,从场景图的符号嵌入预测动作应该比从像素预测更容易。当用很少的样本进行训练时,具有场景图附加知识的组合动作理解应该优于将动作视为单一概念的方法。我们展示了时空场景图泛化到罕见动作的能力和潜力。问题定义:在Charades上的少样本动作识别实验中,我们将157个动作类别分为137个基础类别和20个新类别。我们首先在所有基础类别的视频示例上训练一个骨干特征提取器(R101-I3D-NL),该提取器被基线LFB、我们的SGFB和SGFBoracle共享。接下来,我们使用每个新类别的k个示例(k =1、5、10)训练每个模型,训练50个epoch。最后,我们在Charades验证集的所有新类别示例上评估训练好的模型。结果:我们在表4中报告了少样本实验的性能。在所有1个样本、5个样本和10个样本的实验中,SGFB的性能优于LFB。此外,如果使用真实场景图,SGFBOracle的10个样本mAP提高了10.9%。我们在图6中可视化了SGFB和LFB的比较。通过时空场景图的知识,SGFB更好地捕捉到涉及对象和关系动态的动作概念。0真实情况:床上醒来,躺在床上,依偎着枕头0LFB前三名:躺在床上,看电视,抱着枕头0我们的前三名:躺在床上,床上醒来,抱着枕头0图6:10个样本实验的定性结果。我们将我们的SGFB的预测与LFB[76]进行比较。由于SGFB使用场景图知识并明确捕捉人-物关系的动态,即使只训练了10个此标签的示例,它也能轻松学习到“床上醒来”的概念。此外,由于SGFB被训练用于检测和定位对象,它避免了对物体(如电视)的错误分类,从而实现了更强大的动作识别。05.3. 时空场景图预测0图像场景图预测的进展已经推动了多个计算机视觉任务的改进,包括图像字幕[2]、图像检索[36,64]、视觉问答[35]、关系建模[41]和图像生成[34]。为了促进视频任务中类似的进展,我们引入了时空场景图预测的补充。与只有单个图像作为输入的图像场景图预测不同,这个任务期望输入一个视频,因此可以利用相邻帧的时间信息来增强预测。在本节中,我们定义了任务、评估指标,并报告了应用于这个新任务的许多最近提出的图像场景图模型的基准结果。问题定义:该任务期望输入一个视频序列v = {i1,i2, ..., in},其中ij � j ∈ [1,n]表示视频的图像帧。该任务要求模型为每一帧生成一个时空场景图G = (O, R)。ok ∈O表示具有类别标签和边界框位置的对象。rj,kl ∈R表示对象oi和oj之间的关系。评估指标:我们借鉴了图像场景图预测的三种标准评估模式[52]:(i)场景图检测(SGDET),它期望输入图像并预测边界框位置、对象类别和谓词标签;(ii)场景图分类(SGCLS),它期望真实边界框并预测对象类别和谓词标签;(iii)谓词分类(PREDCLS),它期望真实边界框8102430表5:我们评估了最近提出的基于图像的场景图预测模型,并为时空场景图预测这一新任务提供了一个基准。我们发现,有很大的改进空间,特别是因为这些现有方法设计为对单帧进行条件化,并没有将整个视频序列作为一个整体考虑。0方法 PredCls SGCls SGGen0图像 视频 图像 视频 图像 视频0R@20 R@50 R@20 R@50 R@20 R@50 R@20 R@50 R@20 R@50 R@20 R@500VRD [52] 14.75 14.85 14.51 14.60 13.65 14.69 13.41 14.44 10.28 10.94 10.04 10.70 Freq Prior [85] 32.70 32.84 32.25 32.37 31.52 32.78 31.0832.32 24.03 24.87 23.49 24.31 IMP [77] 35.15 35.56 34.50 34.86 31.73 34.85 31.09 34.16 23.88 25.52 23.23 24.82 MSDN [48] 35.27 35.6434.61 34.93 31.89 34.98 31.28 34.28 24.00 25.64 23.39 24.95 Graph R-CNN [78] 35.36 35.74 34.80 35.12 31.94 35.07 31.43 34.46 24.12 25.7723.59 25.15 RelDN [86] 35.89 36.09 35.36 35.51 33.47 35.84 32.96 35.27 25.00 26.21 24.45 25.630并且物体类别来预测谓词标签。我们将读者引用到介绍这些任务的论文中以获取更多细节[52]。我们将这些度量标准适应于视频,其中每帧的测量结果首先在每个视频中平均作为视频的测量,然后将视频结果平均作为测试集的最终结果。基准。我们为时空场景图预测任务对以下基于图像的场景图模型进行基准测试:VRD的视觉模块(VRD)[52],神经模式的频率先验(Freq-prior)[85],迭代消息传递(IMP)[77],多级场景描述网络(MSDN)[48],图形R-CNN(GraphR-CNN)[78]和关系检测网络(RelDN)[86]。结果。令人惊讶的是,我们发现IMP,这是最早的场景图预测模型之一,实际上优于许多最近提出的方法。最近提出的场景图模型RelDN略微优于IMP,这表明在我们的任务中建模对象和关系类之间的相似性可以提高性能。PredCls和SGCls之间性能的小差距表明这些模型无法准确检测视频帧中的对象。改进专门为视频设计的对象检测器可能会提高性能。这些模型仅使用ActionGenome的数据进行训练,没有在包含基于图像的场景图的Visual Genome[43]或包含自然语言段落中的视频动作的ActivityNetCaptions[42]上进行微调。我们预计使用这些数据集对模型进行微调将进一步改进性能。06. 未来的工作0有了丰富的事件层次结构,ActionGenome不仅可以实现时空场景图预测和组合动作识别的研究,还可以提供各种研究方向。我们希望未来的工作能够开发以下方法:时空动作定位。大多数0时空动作定位方法[24, 25, 33,68]侧重于定位执行动作的人,但忽略了与之交互的涉及到动作的物体。ActionGenome可以实现对演员和物体的定位研究,形成一个更全面的基于实例的动作定位任务。此外,还可以探索这个任务的其他变体;例如,一个弱监督的定位任务,模型只用动作标签进行训练,但任务是定位演员和物体。可解释的动作模型。可解释的视觉模型是一个新兴的研究领域。在众多技术中,显著性预测已经成为解释机器学习模型的关键机制[54,65, 67]。ActionGenome提供了以对象形式的关注帧级标签,这些对象是执行动作的人所看或与之交互的。这些标签可以用于进一步训练可解释的模型。时空场景图的视频生成。最近的研究已经探索了从场景图生成图像的方法[3,34]。同样,通过结构化的视频表示,ActionGenome可以实现从时空场景图生成视频的研究。07. 结论0我们引入了ActionGenome,一种将动作分解为时空场景图的表示。场景图解释了对象及其关系在动作发生时如何变化。我们通过收集大量的时空场景图数据集来展示ActionGenome的实用性,并将其用于改进动作识别和few-shot动作识别的最新结果。最后,我们对时空场景图预测这一新任务的结果进行了基准测试。我们希望ActionGenome能够激发更多可分解和可推广的视频理解研究。致谢。我们要感谢松下公司的支持。[15] Dima Damen, Hazel Doughty, Giovanni Maria Farinella,Sanja Fidler, Antonino Furnari, Evangelos Kazakos, DavideMoltisanti, Jonathan Munro, Toby Perrett, Will Price, et al.9102440参考文献0[1] Tim Althoff,Hyun Oh Song和TrevorDarrell。检测银行:基于对象检测的视频表示用于多媒体事件识别。在第20届ACM国际多媒体会议记录中,第1065-1068页。ACM,2012年。50[2] Peter Anderson,Basura Fernando,MarkJohnson和StephenGould。Spice:语义命题图像字幕评估。在欧洲计算机视觉会议记录中,第382-398页。Springer,2016年。1, 3, 70[3] Oron Ashual和LiorWolf。在交互式场景生成中指定对象属性和关系。在IEEE国际计算机视觉会议记录中,第4561-4569页,2019年。80[4] Fabien Baradel,Natalia Neverova,ChristianWolf,Julien Mille和GregMori。视频中的对象级视觉推理。在欧洲计算机视觉会议(ECCV)记录中,第105-121页,2018年。30[5] Roger G Barker和Herbert FWright。一个男孩的一天;行为的样本记录。1951年。1, 20[6] Roger G Barker和Herbert FWright。中西部及其孩子:一个美国城镇的心理生态学。1955年。1, 20[7] Mina Bishay,Georgios Zoumpourlis和Ioannis Pa-tras。Tarn:用于few-shot和zero-shot动作识别的时间关注关系网络。arXiv预印本arXiv:1907.09021,2019年。30[8] Fabian Caba Heilbron,Victor Escorcia,BernardGhanem和Juan CarlosNiebles。Activitynet:用于人类活动理解的大规模视频基准。在IEEE计算机视觉和模式识别会议记录中,第961-970页,2015年。1, 2, 30[9] Joao Carreira,Eric Noland,Chloe Hillier和Andrew Zis-serman。关于kinetics-700人类动作数据集的简短说明。arXiv预印本arXiv:1907.06987,2019年。2, 30[10] Joao Carreira和Andrew Zisserman。Quovadis,动作识
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功