没有合适的资源?快使用搜索试试~ 我知道了~
用于群体活动识别与检索的层次关系网络穆斯塔法·S.易卜拉欣和格雷格·莫里加拿大西蒙弗雷泽大学计算科学学院msibrahi@sfu.ca,mori@cs.sfu.ca抽象。对场景中的人之间的结构化关系进行建模是实现视觉理解的重要一步。我们提出了一个层次关系网络,计算人的关系表示,给定的图形结构描述潜在的相互作用。每个关系层被馈送个体的个人表示和潜在的关系图。每个人的关系表示都是基于他们在这个特定图中的连接来创建的我们证明了该模型的有效性,通过将其应用于监督和非监督学习范式。首先,给定一个视频序列的人做一个集体活动,关系场景表示是用于多人活动识别。其次,我们提出了一个关系自动编码器模型的动作和场景检索的功能无监督学习最后,一个去噪自动编码器的变种,以推断失踪的人在场景中,从他们的上下文。实证结果表明,这种方法学习的关系特征表示,可以有效地区分个人和群体活动类。1介绍人体活动识别是一个具有挑战性的计算机视觉问题,并已得到了研究界的大量关注。挑战包括诸如动作类内的可变性、背景杂乱以及不同动作类之间的相似性等因素。群体活动识别出现在多人场景的背景下,包括视频监控、体育分析以及视频搜索和检索。群体活动识别的一个特殊挑战是推断场景的标签在本文中,我们开发了一种新的深度网络层,用于学习捕获这些关系的表示图图1提供了我们的关系层的示意图,图2提供了我们的关系层的示意图。图2突出显示了层内单个人的处理。最初,场景中的每个人可以由特征来表示,例如:这是一个标准的CNN。我们通过堆叠多个关系层-深度网络层,结合来自一组(相邻)人表示的信息,合并这些这些层被利用在层次结构中,基于来自场景中存在的其他人的信息的连续集成来细化每个个体人的表示最近用于群体活动识别的深度学习方法[9,20,25]使用两阶段处理管道,其中首先使用大特征表示每个人2穆斯塔法·S.易卜拉欣和格雷格·莫里图1:单个关系层。该层可以处理来自场景的任意大小的一组人,并为这些人产生捕捉他们的关系的新表示该层的输入是一组K人和一个编码他们关系的图G在关系层中,共享神经网络(F)将每对人物表示映射到一个新的表示,该表示也编码了它们之间的关系这些经由求和在从人节点发出的所有边上聚合这个过程为K个人中的每一个产生新的关系表示通过堆叠多个关系层,每个关系层都有自己的关系图G,我们可以为每个人编码层次关系,并学习适合于群体活动识别或检索的场景表示载体(例如,FC7特征)。然后,将人表示汇集在一起以构建场景的最终特征。典型的场景池化是对人的最大/平均/注意力池化,这降低了维度,但丢失了信息。首先,所有空间和关系信息都被丢弃。第二,关于个人的特征,这些特征实际上定义了行为,已经丢失了。最后,尽管这样的场景表示是针对群体活动识别而优化的,但是它不能用于基于个体动作的分析任务。我们的模型利用类似的2阶段处理框架,但以高效和有效的方式解决这些缺点。给定每个人的初始特征表示和关系图,我们提出了一个关系层,该关系层联合计算每个人的编码人与人之间关系的紧凑表示通过堆叠多个关系层,这种层次关系网络可以学习每个人的紧凑关系表示。我们的贡献可归纳如下:– 关系层,其基于关系图联合推断每个人的关系表示该层可以对场景中可变大小的一组人进行操作。给定K个人的特征,该层将给定的K个特征向量映射到K个新的特征向量,捕获每个特征向量与每个人之间的关系并保持对应关系。– 关系场景表示。通过堆叠多个关系层,每个层都有自己的关系图,我们构建了场景表示编码层次化用于群体活动识别与检索的层次关系网络3关系表征。这种表示适合于多个相关对象的场景,例如在多人活动识别中。– 一种新颖的自动编码器架构,堆叠多个关系层,以基于关系图联合编码/解码每个人在没有动作标签的无监督域中,这种表示可以用于基于最近邻匹配的场景检索。一种去噪自动编码器还提出了一种推断失踪人员的变体。– 演示这些模块的实用程序(监督)组活动识别和(无监督)动作/场景检索。我们将公开发布我们的代码1图2:用于处理关系层内的一个人的关系单元。一个人(红色)的特征向量与其每个邻居的特征向量相结合结果向量被求和以创建人的新特征向量(暗红色)。2相关工作我们开发了多人活动识别和检索的方法,通过学习relational功能。下面,我们将回顾这些领域的相关工作。多人活动识别:最近用于多人活动识别的深度学习方法包括Ibrahim et al. [9],它提出了一个两阶段的深度模型。使用长短期记忆(LSTM)时间层对每个动作进行场景通过添加最大池化层来捕获动态,该最大池化层被馈送到更高级别的LSTM。Ramanathan等人[20]用公式表示注意力模型以突出场景中的关键参与者,从而产生人物特征表示的加权总和Bagautdi- nov等[1]提出了动作定位和群体活动识别联合模型多人目标检测方法发现人并提取他们的特征表示,这些特征表示基于欧氏距离连接并馈送到时间递归1https://github.com/mostafa-saad/hierarchical-relational-network4穆斯塔法·S.易卜拉欣和格雷格·莫里网络Shu等人[25]用能量层和置信度措施扩展了该管道,以考虑推断的可靠性和数值稳定性。我们的工作遵循这些2阶段处理管道,但引入了一个新的关系层,可以为每个人学习紧凑的关系表示。图像检索:结构化场景的基于内容的检索是一个活跃的研究领域[23,19,28,14]。Siddiquie等人[26]从文本查询中提取多属性及其相关性。Lan等人[16]引入了指定应该出现在场景中的对象“路上的车”)。Kim等人[12个]检索强调所述文本查询的进展的视频剪辑Johnson等人[11]考虑场景图查询(对象和关系)。Xu等人。[29]通过消息传递神经网络生成场景图。在多人活动识别的领域中,先前已经开发了空间关系的硬编码表示[2,15]。我们展示了我们的关系层可以用于结构化场景图像检索,通过匹配帧的人和他们的行动的类似的视觉结构。关系网络:最近的深度网络工作包括通过聚合每对关系模型来捕获对象关系。Santoro等人[24]介绍了一个关系网络模块,它推断图像对象之间关系。多层感知器(MLP)学习两个对象的关系,场景是代表表示为所有对象对的总和以类似的方式,Guttenberg et al.[8]使用MLP来学习基于每对对象的关系的一组对象的置换受这些简单关系网络的启发,我们引入我们的层次关系网络来构建一个紧凑的关系场景表示,同时保留特征表示和每个人之间的对应关系3该方法本文介绍了一个层次关系网络,建立一个紧凑的关系表示每个人。最近的方法[9,20,8]表示场景中的人,然后直接(最大值/平均值)将所有表示汇集到单个场景表示中。这种最终的表示有一些缺点,如丢弃人与人之间的关系和破坏个人特征。我们通过一个关系层来解决这些挑战,该关系层共同为场景中的K人创建K人表示。通过堆叠多个关系层,我们紧凑地编码层次关系表示。在接下来的小节中,我们详细介绍了关系网络的细节,然后展示了它在监督分类和无监督检索设置中的应用。3.1层次关系网络我们用于多人活动识别的关系网络一次处理一个视频帧。输入视频帧具有K个初始人物特征向量(例如,具有由CNN提取的特征的每个检测)与多个潜在关系图(例如,基于空间欧几里德距离阈值)。单个关系层被馈送K个特征向量和关系图,并将它们映射到K个新的关系表示。用于群体活动识别与检索的层次关系网络5我我我们模型的构建块是一个处理场景中单个人的关系单元。通过聚合来自关系图中的每个相邻人的信息,将每个人这是通过一个网络来实现的,该网络处理与每个邻居相结合的人该关系单元被描绘为图1。二、在一个关系层中,场景中的每个人都使用此单元进行处理。这导致场景中每个人的新特征表示,捕获他们的个人特征以及他/她的邻居的特征。通过堆叠多个层,每个层都有自己的图和关系单元参数,我们学习了人们的层次关系表示。池化的最终的人表示被用来构建场景表示。我们的关系网络在单个帧中的多人活动识别的概述如图所示。3.第三章。图图3:我们的关系网络用于单个视频帧的群体活动识别给定K个人及其初始特征向量,这些向量被馈送到3个堆叠的关系层(每个人的输出大小:512、256、128)。 每个关系层与图G(在该示例中为不相交的团:层1具有4个团,每个团的大小为3;层3是完整图)。每个层的共享MLPF计算 2个相邻玩家的表示输出的K个特征向量的池化用于组活动分类。形式上,给定一个视频帧,第i个人表示P表示在第n个关系中,层计算如下:P0=CNN(I)(1)我我P =ΣF(P −1P −1;θ)(2)ii jj∈E6穆斯塔法·S.易卜拉欣和格雷格·莫里我我我我其中P0是从裁剪图像Ii上的CNN导出的初始第i个人表示,E是用于第i层的图G中的第i个人的关系边的集合,并且是级联运算符。 P ∈ RN其中N是输出大小第七层每人。函数F是具有参数θ的第网络层的共享MLP(端到端可微模型)。MLP的输入大小为2N−1,输出大小为N。 给定两个连接的向量,F将它们映射到一个新的向量,以捕获给定对的内容和关系。关系层通过其自己的共享MLP来馈送G中的每条边,以计算K个新表示。等式2计算第i个人与他/她的邻居之间的关系表示这种网络结构和逐层共享参数的使用导致每层的关系表示-等效地对待一个网络层内的每对人。这导致高效的参数重用,同时让表示由每层的图结构驱动重要的是,该表示还可以与任何数量的人K-起使用,包括K可以由于遮挡或假阳性检测而每个时间步长变化的通过堆叠多个压缩关系层,每个压缩关系层具有其自己的图,我们可以从一个层到另一个层构建降维的人特征,直到形成所需的紧凑关系表示最终场景表示S是来自最后关系层输出和定义的人表示的池化如:S= PL▽ PL▽。. .▽PL(三)12k其中,P_L是最后一个关系层L的第i个人输出表示,并且▽是池化运算符(诸如向量级联或逐元素最大池化)。3.2监督学习:小组活动一群人的活动是这些人的行动的函数我们可以利用我们的模型来表示每个场景,并以监督的方式学习其参数我们使用Imagenet预训练的VGG网络[27]来表示每个单个人的绑定框。整个网络使用动作标记的边界框进行微调。一旦经过训练,每个人的边界框都可以用VGG 19中的最后一层(4096-d fc 7特征)表示。给定视频序列中的场景中的人的边界框,我们识别整体多人活动。如上所述,第t帧处的每个边界框被建模并且用初始特征向量表示,并且被馈送到关系网络。关系层联合地将表示映射到基于与其他人的连接对人的关系表示进行编码的表示。为了捕获视频场景的时间动态,最终关系层的输出被汇集到第t个场景表示St,并被馈送到具有softmax输出的LSTM层以用于组活动分类。图3示出了用于单个帧的该模型3.3无监督学习:动作检索在视频中对个人边界框进行详细注释是一个耗时的过程[7]。作为替代方案,可以利用无监督自动编码器机制用于群体活动识别与检索的层次关系网络7来学习场景中人物的特征表示。这些表示可能是通用的:允许基于关系和上下文比较人的特征以用于单人动作检索,以及检索类似结构的动作集的场景最近在对象识别[18,6]和时间序列学习[21,17]方面的努力以类似的方式,我们提出了无监督的自动编码器,学习场景中所有人的关系表示我们的关系层非常适合此任务,因为它:1)对人的关系进行编码,2)保留个人的动作特征,以及3)具有紧凑的尺寸,对于检索是有效的。换句话说,我们的场景表示是高效的(紧凑的大小)和有效的(基于关系)。此外,该模型具有与单个人的简单自动编码器相同的参数计数,因为每个层具有共享网络。对于编码器,给定场景中的人的K个特征向量,我们将大小递减的多个关系层堆叠起来,这些关系层将特征编码为最终的紧凑表示。解码器是这些层的逆。也就是说,我们再次堆叠大小增加的多个关系层,这些关系层将压缩的特征向量解码为其原始CNN表示。每个关系层联合地将人表示从给定的输入大小映射到考虑图连接的所需的输出大小在初始K个特征向量和对应的解码的特征向量之间计算欧几里得损失。自动编码器模型的概述如图所示。4.第一章输入场景及其重构场景的重构损耗L由下式给出:L(S、S′ΣK)=P0−PL2(4)CNNCNN我我i=1其中P0和P类似于Eq。2(但是对于单个帧),S_cnn是级联i i0 ′的K个初始特征向量Pi,并且Scnn是我们的网络的重构输出从最后一层L中提取。这种新颖的自动编码器保留了个人的特征人,因此可以用于场景和动作检索。去噪关系自动编码器:如果场景中缺少一些人怎么办(例如,由于人员检测器故障、快速相机移动或低图像质量)?通过丢弃一些人的整个向量来对输入的K个特征向量进行降噪,允许我们的关系自动编码器从不完整的场景中构建人的表示。也就是说,我们的模型从他们的背景中推断出失踪的人。为了实现这一点,输入层后面是一个dropout层,它以概率P丢弃一个完整的向量(而不仅仅是特征的子集)[22]。检索:给定K个人的单个帧,假设我们希望在视频数据库中搜索具有相似动作结构的匹配帧注意,目的不是重新尝试具有相同整体活动的场景,而是类似结构化的动作场景诸如[9]中的池化表示风格适合于群体活动分类,但不适合于基于实际动作的匹配的场景检索,这是由于为了全局场景表示而丢失了人的特征相反,我们对场景的表示在紧凑的特征中明确地保留了单个人的动作8穆斯塔法·S.易卜拉欣和格雷格·莫里对于检索机制,我们使用一个简单的K-近邻技术与蛮力算法进行比较。为了避免与每个可能的置换进行比较,基于人的边界框的顶角(x,y)对欧氏距离用于比较特征向量。图4:我们的关系自动编码器模型。此排球场景的关系图是2个不相交的集团,每个团队一个,并且所有层都是固定的。K个输入人特征向量(每个长度为4096)被馈送到4层关系自动编码器(大小为256-128-256-4096)以学习每个人大小为128的紧凑表示。4实验为了展示我们的关系网络的力量,我们评估它的两个任务:群体活动识别和动作场景检索。结果在最近的排球数据集上进行了评估[9]。该数据集包括从55场排球比赛中收集的4830个短片段每个片段被分类到8个场景活动标签中的一个。只有每个片段的中间帧完全注释了玩家的边界框和他们的动作标签(共9个10帧的剪辑(以带注释的中间帧为中心)用于活动识别任务,并且中间帧用于动作场景检索任务。我们的关系层接受自由形式的图关系。对于排球,一种合适的风格是基于人的空间位置的不相交的团的图例如,在排球比赛中,可能有3个潜在的图形:I)所有玩家都在1个集团(1C)中,表示所有成对关系; II)每个团队可以是一个集团(2C);(三)每支队伍可以由2个团组成,总共4个团(4C)。我们的实验基于这些基于派系的组织。对于最终的场景池,我们使用一个轻微的变体[10],而不是仅仅最大池化所有人,以减少两个团队的动作之间的混淆具体地说,用于群体活动识别与检索的层次关系网络9我们最大池每个队单独,然后连接两个表示。除非另有说明,否则这是默认的池化策略。此外,由于最终的人特征级联池在其他最近的方法中既不有效也不高效[9][25]由于最终人物表示的大维度4.1团体活动识别我们将我们的活动识别模型称为RCRG:用于组活动识别的关系紧凑表示。RCRG是一个2阶段处理模型,其输入是以中间注释帧为中心的10个时间步的在第一阶段,我们使用带注释的人物绑定框(而不是时间模型)微调ImageNet预训练的VGG19网络。然后,这个经过训练的网络被用来使用倒数第二个网络层(fc 7,4096-d特征)来表示每个人的边界框。VGG19模型的人动作识别准确率为81%。在第二阶段中,K个人表示被馈送到我们的分层关系网络(与每层的关系图相关联),如图1B所示。3.第三章。表1:排球数据集:左表是使用单帧的模型版本(最后一行显示使用单帧的最新技术)。右表是我们最好的模型与最先进的10时间步输入剪辑性能。方法精度B1-无关系85.1RCRG-1R-1C86.5RCRG-1R-1C-调谐75.4RCRG-2R-11C86.1RCRG-2R-21C87.2RCRG-3R-421C86.4RCRG-2R-11C-conc88.3RCRG-2 R-21 C-浓缩86.7RCRG-3R-421C-conc87.3Bagautdinov等人[1]-单83.8方法精度Bagautdinov等人[1]第一章90.6RCRG-2R-11C-conc89.5RCRG-2R-21C89.4Shu等人[25日]83.3Ibrahim等人[10个国家]81.9基线:我们使用模型的以下非时间(单帧)变体进行消融研究,以帮助我们了解模型的性能。默认的池化策略是max-pooling,除非使用-conc后缀来表示串联池化。1. B1-无关系:在第一阶段,对ImageNet预训练的VGG 19网络进行微调,并使用fc 7,4096-d特征表示一个人。在第二阶段,每个人都连接到一个128个特征的共享密集层,然后将人的表示(每个长度为128个特征)合并,然后馈送到一个软最大层进行群体活动分类。该变体压缩人表示并且表示场景而不推断关系表示。10穆斯塔法·S.易卜拉欣和格雷格·莫里2. RCRG-1 R-1C:与先前的变体相同,但是共享的密集层被替换为单个关系层(1 R),所有人都在1个团体(1C)中,即所有配对关系。该层将每个人从输入大小4096映射到128个特征,共同考虑给定的关系。3. RCRG-1R-1C- tuned:与之前的变体相同,但ImageNet预训练的VGG19没有微调。4. RCRG-2R-11C:接近RCRG-1 R-1C变体,但使用大小为256和128的2个关系层(2 R)。这2层的图是所有人的1个团(11C)。这个变体和下一个变体探索了具有不同图结构的堆叠层。5. RCRG-2R-21C:与前一个模型相同,但第一层有2个集团,每队一个。第二层是全对关系(1C)。RCRG-2 R-21 C-conc用级联池化替换了最大池化策略。6. RCRG-3R-421C:接近前一个模型,但有3个关系层(大小为512、256和128),层的团大小设置为(4、2、1)。第一层有4个团,每个队分为2个团。该模型在图中。3.第三章。实施详情:我们利用可用的数据集注释实现。我们遵循易卜拉欣等人。[9]以计算跨视频序列的每个人的10帧轨迹片段[3]。为了训练所有模型和基线,使用Tesla K40C GPU(12 GB RAM)和LasagneFramework [5]遵循相同的训练协议。使用随机梯度下降训练模型200个epoch,初始学习率为10- 4,使用ADAM [13]优化器,固定超参数β1= 0。9,β2= 0。999,= 10−8。我们使用batch-size 64(由于内存限制而较小)微调整个预训练的VGG 19网络[27]对于关系模型,使用的批大小为250在我们的关系模型中,输入两层MLP网络的大小为N。第一层使用线性激活函数(f(x)=x),第二层使用ReLU非线性。请注意,模型是端到端可微分的,但由于内存限制,我们以2阶段风格实现它,类似于最近的方法。在测试中,只有一个共享的人网络被加载并被K个玩家用来提取他们的特征。关系层的时间复杂度取决于层的图中节点度的总和换句话说,对于每个有向边缘,评估层的MLP。为了确定图团,我们遵循一种简单的方法[10]。人们根据他们的边界框的左上角(x,y)进行排序(首先在x上,如果绑在y上)。通过扫描这个有序列表来生成集团。例如,要将12个人划分为4个大小相等的团体,每3个连续的人被分组为一个团体。更复杂的分组(例如,颜色/运动聚类)或选通函数[4]将是潜在的扩展。结果:表1将我们的紧凑表示的分类性能与基线和最先进的方法进行了比较。用于群体活动识别与检索的层次关系网络11讨论:我们的非时态模型的性能优于最先进的相应模型,并优于紧凑的基线。注意,即使没有时间信息,该模型也优于2个最近的时间模型(在右表1中)。从结果来看,在该域中堆叠2层就足够了:在排球场景中,人与人之间的关系很强。最大池化在场景级别是有效的。这可能是由于域;一些参与者是关键的参与者,并且最大池化可以保持正确的特征。4.2动作和场景检索实验我们评估我们的检索模型训练使用无监督学习,称为RAER(关系自动编码器检索)。我们的主要模型如图所示。4.它由4个关系层(256-128-256-4096大小)组成,并假设图在所有层中都是2个集团(每个团队一个)我们将该结构表示为RAER-4L-2222 C。这意味着,每个团队都被联合压缩,但每层的所有人员都使用相同的共享关系MLP。一旦网络被训练,每个人都被压缩层中的128个特征表示,并用于场景和人物检索。绩效指标:如果两个排球数据集帧的动作分布的IoU(交集大于并集)≥0,则我们认为这两个帧是正确的匹配。(五)。例如,如果帧1的人物动作是7个人站立,4 + 5 + 05 移动,且帧2为4站立、6移动和2跳跃,则IoU =0.6 因此匹配。=七六二基线:我们与以下单帧基线模型进行比较。实现这样的检索系统的一种朴素的方式是学习人动作自动编码器,其输入和输出单个人特征向量。然后,连接场景中的人可以用于场景匹配。然而,这种直接减少忽略了场景中以弱场景表示结束的所有关系另一种可能性是原始人特征向量的直接级联(例如,4096)。这种大场景表示可以在一些领域中工作,然而,这种大场景维度是有问题的。1. B1-紧凑型128:自动编码器,输入/输出来自预训练VGG 19网络的fc 7层的长度为4096的单人特征向量。4096-d向量被馈送到大小为256、128、256、4096的网络层中间层(128个特征)用作人的压缩表示。该网络的结构类似于我们的模型,并且具有相同的紧凑的人的尺寸(128个特征)以进行公平的比较。2. B2-VGG 19:无自动编码器。每个人都直接用来自预训练的VGG19网络的fc7层的长度为4096的特征向量请注意,此基线使用更大的维度(4096与每个人128个特征),并且对于表示许多人的场景尤其成问题。实施详情:使用相同的设置作为Sec。4.1除了以下内容。我们在没有人动作标签的情况下训练了这些模型150个epoch和初始学习12穆斯塔法·S.易卜拉欣和格雷格·莫里速率为10−4。最后一个关系层中的MLP以sigmoid非线性而不是ReLU结束对于人物建模,ImageNet预训练的VGG19网络按原样使用去噪自动编码器使用相同的设置,但初始学习率为10−3。结果:在本节中,我们列出了检索任务的结果。我们提出的场景检索结果,其次是单人检索。然后我们讨论了模型的性能。表2将我们的关系自动编码器的场景检索性能与基线进行了比较。 对于K ∈{1,2,. . . ,5}。具体地,给定查询帧,使用自动编码器模型对帧进行编码,并且检索数据库中最接近的K回想一下,如果IoU他们的行动≥阈值(0.5)。还报告了平均精密度:每个图像查询的平均精度值的平均值,其中欧几里德距离用作置信度指示符。训练集和测试集是注释的基础事实排球数据集中的场景结果表明,这种新的架构是如何能够捕捉到的背景和编码它在每个人。令人惊讶的是,我们的模型甚至击败了未压缩的VGG19,尽管由于其大小和稀疏性,VGG应该更强大表2:与基线相比的场景检索方法命中@1点击@2点击@3点击@4点击@5地图B1-紧凑型12849.468.780.487.791.435.4B2-VGG1955.073.982.787.591.536.4RAER-4L-2222C 57.476.785.390.493.336.8在表3中,我们探索了我们的场景检索模型的变体。具体来说,我们尝试了两个只有两个关系层的模型(128,4096):其中一个模型在所有层中使用1个团(RAER-2L-11 C,所有配对关系),第二个模型使用2个团(RAER- 2L-22C,一个团队中的所有配对)。复杂版本(RAER-4L-4224 C)是2层作为我们的主要模型,但层团是(4,2,2,4)。这意味着解码器必须学习如何解码这种分层信息。表3:与模型变体相比的场景检索方法命中@1点击@2点击@3点击@4点击@5地图RAER-2L-11C56.874.984.589.892.636.8RAER-2L-22C56.975.684.990.093.336.7RAER-4L-4224C55.876.184.088.992.736.6RAER-4L-2222C 57.476.785.390.493.336.8在表4中,我们示出了当测试数据中的人可能以概率0.5缺失时去噪自动编码器的结果表5比较了使用相同的关系自动编码器模型与基线的人员检索性能训练集和测试集是排球数据集中注释动作的地面实况边界框请注意,Volleyball数据集由9个动作标签组成,站立类代表约70%的动作用于群体活动识别与检索的层次关系网络13表4:使用去噪自动编码器(-D)的场景检索,在模型和基线的测试数据中,人的可能下降50%我们的模型是稳健的;“无自动编码器”模型性能显著下降。方法命中@1点击@2点击@3点击@4点击@5地图B1-紧凑型128-D38.158.870.578.284.734.6B2-VGG19-D34.051.162.270.076.034.9RAER-4L-2222C-D 43.065.078.785.890.735.2标签,因此保持检索站立样本的检索系统将获得高结果。为了避免这种情况,在人员检索任务中,将常设类从训练集和测试集中移除。在对模型进行训练后,我们提取每个人动作的压缩表示,并为它们建立一个检索模型结果表明,我们的紧凑的人表示效果良好,击败了替代压缩基线。表5:排球数据集上的人员检索:我们的方法的Hit@K结果和基线。最后一列是查询结果的平均精度。我们的模型优于正常的自动编码器模型,并具有竞争力的32倍更大的稀疏表示和灰。方法命中@1点击@2点击@3点击@4点击@5地图B1-紧凑型128-P37.754.764.671.776.422.8B2-VGG19-P47.363.272.177.481.225.4RAER-2L-11C-PRAER-4L-2222C-P45.542.662.258.370.968.376.173.780.177.825.825.2讨论:高Hit@K结果表明自动编码器方法适用于此任务。从场景和动作检索结果,我们注意到,我们的相对的自动编码器优于正常的自动编码器模型的相同的结构和压缩大小,由于编码/解码的人的关系。特别值得注意的是,autoencdoer优于用于场景检索的高维VGG特征。我们假设,这是由于关系层的能力,以捕捉场景中的人之间的上下文信息。图5可视化场景检索结果。5结论我们提出了一个层次关系网络的学习特征表示。该网络可用于监督和无监督学习范式。我们利用该网络进行群体活动识别,基于最终的紧凑场景层。我们还展示了关系层如何成为新型自动编码器模型的主要构建块,该模型使用共享内存联合编码/解码每个人这两个任务的结果证明了关系网络的有效性。与每个层相关联的关系图允许可以应用于其他视觉理解任务的显式关系考虑。14穆斯塔法·S.易卜拉欣和格雷格·莫里(a)(b)(c)(d)(e)(f)(g)(h)㈠(j)(k)(l)(m)(n)(o)(p)(q)(r)图5:使用我们的关系自动编码器的场景检索的可视化。每两行是一个查询:首先查询图像(蓝色框),然后是最近的5次检索。绿色框是正确的匹配。最后一个查询是右队赢点事件,其结果是3个连续的右队赢点事件,随后是2个左队赢点事件。用于群体活动识别与检索的层次关系网络15引用1. Bagautdinov,T. M.,Alahi,A.,Fleuret,F.,Fua,P.,Savarese,S.:社交场景理解:端到端多人动作定位和集体活动识别。IEEE计算机视觉与模式识别会议(CVPR)(2017)2. Choi,W. Shahid,K.,Savarese,S.:集体活动识别的学习情境。计算机视觉和模式识别(CVPR)(2011)3. Danelljan,M.,Hger,G.,Shahbaz Khan,F.,Felsberg,M.:用于鲁棒视觉跟踪的精确尺度估计在:英国机器视觉会议(BMVC)(2014)4. 邓志,Vahdat,A.,Hu,H.,Mori,G.:结构推理机:用于分析群体活动识别中的关系的循环神经IEEE计算机视觉和模式识别会议(CVPR)(2016)5. 迪勒曼美国,施尔特J.,拉斐C.的方法,奥尔森E、斯奈德比,S.K. ,努 里D 、等 : Lizzie : 第 一 次 发 布 。 (Aug 2015 年 ) 。 https ://doi.org/10.5281/zenodo.27878,http://dx.doi.org/10.5281/zenodo.278786. Doersch,C.Gupta,A.,Efros,A.A.:通过上下文预测的无监督视觉表示国际计算机视觉会议(ICCV)(2015)7. 古,C.,孙角,澳-地地方检察官罗斯Pantofaru角李,Y.,Vijayanarasimhan,S.,Toderici,G.,Ricco,S.,Sukthankar河施密德角Malik,J.:Ava:时空局部原子视觉动作的视频数据集在:arXiv(2017)8. Guttenberg,N.处女座,N.Witkowski,O.,Aoki,H.,Kanai,R.:置换-等变神经网络在动力学预测中的应用。arXiv预印本arXiv:1612.04530(2016)9. Ibrahim,M.S.,Muralidharan,S.,邓志,Vahdat,A.,Mori,G.:群体活动识别的层次深时空模型。IEEE计算机视觉与模式识别会议(CVPR)(2016)10. Ibrahim,M.S.,Muralidharan,S.,邓志,Vahdat,A.,Mori,G.:用于群体活动识别的分层深度arXiv预印本arXiv:1607.02643(2016)11. Johnson,J.,克里希纳河斯塔克M.Li,L.,夏玛地方检察官伯恩斯坦,M.S.,李菲菲:使用场景图进行图像检索。IEEE计算机视觉与模式识别会议(CVPR)(2015)12. Kim,G.,Moon,S.,Sigal,L.:从多个对位图查询中对图像序列进行排序和检索。IEEE计算机视觉与模式识别会议(CVPR)(2015)13. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法国际学习表征会议(InternationalConference on Learning Representations,ICLR)(2014)14. 克里希纳河Zhu,Y.,格罗斯岛Johnson,J.,Hata,K.,Kravitz,J.,陈淑仪,Kalanditis,Y.,Li,L.J.,夏玛地方检察官Bernstein,M.李菲菲:可视化基因组:使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志(IJCV)123,3215. 兰,T.,王玉,Mori,G.,Robinovitch,S.N.:检索组上下文中的操作于:欧洲计算机视觉会议(ECCV)研讨会(2010年)16. 兰,T.,杨伟,王玉,Mori,G.:使用潜在排序SVM的结构化对象查询图像检索欧洲计算机视觉会议(ECCV)(2012)17. Lee,H.Y.,Huang,J.B.,Singh,M.,Yang,M.H.:通过排序序列的无监督表示学习。国际计算机视觉会议(ICCV)(2017)18. Pathak,D.,Krenbhl,P. Donahue,J.,Darrell,T.,Efros,A.A.:上下文编码器:通过图像修复进行特征学习。计算机视觉和模式识别(CVPR)(2016)19. Perronn in,F.,Liu,Y., 是桑切斯,J Poirie r,H.:基于压缩fisher向量的大规模图像检索IEEE计算机视觉和模式识别会议(CVPR)(2010年)16穆斯塔法·S.易卜拉欣和格雷格·莫里20. Ramanathan,V.黄,J.,Abu-El-Haija,S.,Gorban,A.,墨菲K李菲菲:检测多人视频中的事件和关键演员IEEE计算机视觉与模式识别会议(CVPR)(2016)21. Ramanathan,V.Tang,K.,Mori,G.,李菲菲:学习用于复杂视频分析的时间嵌入国际计算机视觉会议(ICCV)(2015)22. R av anbakh s h,S., Schneide r,J.G., P o'czos,B.: 使用集合和点云进行深度学习。在:国际会议学习代表(ICLR)-研讨会轨道(2017)23. Sadeghi,硕士,Farhadi,A.:使用视觉短语的识别IEEE计算机视觉和模式识别会议(CVPR)(2011年)24. Santoro,A. Raposo,D.,巴雷特D.G. T Malinowski,M.,帕斯卡努河Battaglia,P.Lil- licrap,T.P.:一个用于关系推理的简单神经网络模块。arXiv预印本arXiv:1706.01427(2017)25. Shu,T.,Todorovic,S.,Zhu,S.:CERN:用于群体活动识别的信心-能量循环网络IEEE计算机视觉与模式识别会议(CVPR)(2017)26. Siddiquie,B.,Feris,R.S.,Davis,L.S.:基于多属性查询的图像排序与检索。IEEE计算机视觉和模式识别会议(CVPR)(2011)27. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络国际学习表征会议(International Conference on Learning Representations,ICLR)(2014)28. Ste we'nius,H.,Gunderson,S.H.,Pilet,J.:大小问题:图像检索的几何验证欧洲计算机视觉会议(ECCV)(2012)29. 徐,D.,Zhu,Y.,Choy,C.B.,李菲菲:通过迭代消息传递生成场景图。在:CVPR(2017)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功