没有合适的资源?快使用搜索试试~ 我知道了~
1“问候”“跑”“办法”“碰撞”“跌”社会结构:用于视频关系检测的Tubelet组合Shuo Chen,Zenglin Shi,Pascal Mettes,and Cees G. M.阿姆斯特丹斯诺克大学一个人和另一个人用大人追小孩图1:Social Fabric对在tubelet对上定义的交互原语的组合进行编码。基元是数据驱动的,并且可以对应于诸如“问候”、“碰撞”和“跌倒”的交互。使用原语,我们的两阶段网络可以分类,检测和搜索整个视频中的复杂关系。摘要本文致力于将视频中出现的对象小块之间的关系分类和检测为一个主语-谓语-宾语>三元组。现有的作品处理对象的建议或tubelets作为单一的实体和模型的关系后验,我们建议分类和检测谓词对对象tubelets先验。我们还建议社会结构:将一对对象小块表示为交互原语的组合的编码。这些原语在所有关系上被学习,从而导致能够在视频中的所有时间跨度上对来自共现对象小块的池的关系进行本地化和分类的紧凑表示。编码使我们的两阶段网络。在第一阶段,我们训练Social Fabric来提出可能相互作用的建议。我们在第二阶段中使用社会结构来同时微调和预测小块的谓词标签。实验证明了早期的视频关系建模,eling,我们的编码和两个阶段的架构,导致一个新的国家的最先进的两个基准的好处。我们还展示了如何编码,使查询由 原 始 的 例 子 , 搜 索 时 空 视 频 关 系 。 验 证 码 :https://github.com/shanshuo/Social-Fabric网站。1. 介绍为了理解在视频中何处发生了什么,有必要检测和识别个体实例之间的关系。 有效地捕捉这些关系可以改善字幕[55],视频检索[41],视觉问题回答[1]和许多其他视觉语言任务。在这篇论文中,我们试图对出现在整个视频中的对象tubelets之间的关系进行分类和检测,作为一个“主语-谓语-宾语”三元组,就像“狗-追逐-孩子”或“马-站在人后面”。Shang等人[38,39]通过他们对具有密集边界框注释,时间边界和关系三元组标签的视频数据集的定义开创了这个具有挑战性的问题。在他们的指导下,迄今为止领先的方法是在短视频片段上生成针对各个对象的提议,对提议进行编码,预测关系并在整个视频上关联关系,例如,[34、42、53]。为了更好地检测长期相互作用,Liuet al. [30]通过首先在整个视频中本地化单个对象tubelet来放弃对片段的需要,过滤掉不太可能的对并预测剩余的谓词。不同于所有这些关于视频关系预测的现有工作,这些工作将对象建议或tubelet视为单个实体并对它们的关系进行后验建模,我们提出了类-1348513486先验地简化和检测用于对象小管对谓词。从一开始就将对象视为小元组对需要编码,该编码使得我们能够跨视频中的所有时间跨度对来自所有共同出现的对象小元组的池这让人想起了计算机视觉中许多经典的问题,这些问题需要进行空间聚集,例如。[2,22,40,47],时间,例如[28、50、57]或空间-时间,例如,[15,16,32]原语转换为公共表示。我们从Girdhar等人的ActionVLAD中获得灵感。[16],其将动作编码为局部动作原语的组合以捕获动作的整个时空范围。在本文中,我们还学习了编码本地时空视频特征的合成的方式。与ActionVLAD不同,ActionVLAD对整个视频进行操作,我们的社交结构编码对tubelet对进行操作。在来自多个对象小块和多个模态的输入上,具有在视频关系训练期间动态学习的一组交互原语。社交结构捕获跨tubelet对的整个范围的信息,这在交互持续很长时间时特别有益。参见图1的说明性示例。我们做了三个贡献。首先,我们建议从一开始就对对象tubelets进行分类和检测视频关系。其次,我们介绍了社会结构,一种适合于多tubelet和多模态输入的组合编码。形成编码的交互原语是动态学习和更新的,类似于Arandjelovic等人的NetVLAD层。[2]用于视觉位置识别。第三,利用社会结构,我们提出了一个两阶段的网络视频关系分类和检测。在第一阶段,我们通过训练Social Fabric来本地化交互,以提出可能相互作用的tubelet对在第二阶段中,我们使用社交结构来同时微调并学习预测用于tubelets的谓词标签。在Shang等人的视频关系检测基准上进行了实验。[38,39]显示了我们的方法的好处,特别是当交互时间长且复杂时。社会织物优于替代视频编码和我们的两个阶段的架构设置一个新的国家的最先进的视频关系分类和检测。除了分类和检测,我们表明,我们的编码,使搜索视频中的关系,提供原始的例子作为查询。2. 相关工作图像相关性检测视觉关系识别对于静态图像具有长期的传统[8,17,18,20,21]。21、26、27、31、49、56]。除了识别物体之间的视觉关系之外,Chao等人还研究了物体之间的视觉关系。[7]介绍了在静态图像中检测人与物体交互的问题,并提供了相应的数据集。它启发了许多人为人类物体交互检测做出贡献e.G. [10、26、49、51、54]。Li等[26]例如,学习从所提供的数据集获取人和对象类别之间的知识,并在执行检测时使用该知识作为先验。Wan等人[49]介绍了一种采用多级特征策略的姿态感知网络。在基于图像的关系检测需要两个框(主体和对象)和谓词的情况下,我们的目标是执行基于视频的关系检测,这要求我们还随着时间的推移本地化和跟踪主体和对象。片段关系检测。在我们之前的许多人已经研究了视频中的关系检测[5,11,25,30,34,38,39,39,39]。39、42、43、44、46、53、59]。视频中的关系提供了附加的时间信息,这对于诸如推或拉关闭的门的交互是重要的Shang等人[39] Pio需要解决这个问题,并引入了ImageNet-VidVRD数据集,这是第一个视频关系检测基准,其中所有视频关系三元组及其对象和主题轨迹都被标记。在Shanget al. [39],Tsaiet al. [46]建议门控时空能量图使用条件随机场来对视频关系进行建模。以类似的精神,Qianet al.[34]在相邻的视频片段之间建立了时空图,并使用多层图卷积网络在节点之间传递消息。 Shang等人[38]后来推出了VidOR,这是迄今为止最大的视频关系检测基准在这个数据集上,Sunet al.[43]利用语言上下文特征以及用于谓词预测时空特征。上述方法均采用三阶段框架。视频首先被分割成短片段,并且每个片段生成主题/对象小块。然后,预测每个小块的短期关系使用图像对象检测器和跟踪器[34,39,46]在短片段中获得主题/对象建议。在第二阶段中,提取每对对象小元组的时空特征,并用于预测短期关系候选者。Xie等人[53]为每一对组合各种各样的多模态特征,以具有令人印象深刻的关系分类精度来预测关系在第三阶段中,通过贪婪关系关联算法合并短期关系提议Su等人[42]在关联过程中保持多个关系假设,以适应早期步骤中的不准确或丢失的提议而不是在各个分析阶段独立处理的关系,我们认为从一开始的相互作用对对象建议关系检测。Liu等[30]是第一个避免将视频分割成片段的人。在第一阶段中,它们为整个视频生成对象小块第二阶段使用图卷积网络细化小块特征并找到相关对象对。第三阶段的重点是预测相关对之间的谓词。以这种方式,可以在不需要片段分割的情况下检测交互像刘等人一样,我们也避免了13487∈I{}∈我ΣΣexpΣ--∈--R∈RR∈√需要snippets。与他们不同的是,我们从一开始就将主体和客体视为相互作用。因此,我们只需要两个阶段,一个用于从tubelet对生成交互建议,另一个用于预测适当的谓词。在我们的两个阶段的核心是社会结构,它允许我们编码一组交互primitives,如图1中的那些,我们从中分类和检测不同的视频关系。3. 社会结构编码视频关系检测的目标是在空间和时间上定位两个实体之间的交互。最重要的是,一种时空相互作用定义为三重态=O1,P,O2,具有主语小块O1R4×(T2− T1),宾语小块O2R4×(T2− T1)及其关系予指范畴P. 这里,T1和T2表示开始和结束帧,并且每个帧包含框坐标。为了解决这两个视频关系的分类和检测,我们提出了一个两阶段的方法,编码的主体和对象从一开始就对。这两个阶段的核心是我们的社会结构编码,用于表示tubelet对的组成。 下面,我们概述如何学习“subject on“moving up and“subject holds stick-like图2:我们的Social Fabric编码在针对多模态特征进行训练时学习的交互原语每一行显示来自视频的被分配给一个特定基元的若干帧。蓝色框表示主题,而红色框表示对象。这里我们展示了一些易于解释的原语。作为加权基元位置的级联:N编码,如何使用它来表示tubelet对以及编码如何与现有的视频编码相关。学习编码。 编码背后的理念-Ei=[Ei,1,···,Ei,K],Ei,k=zj=1ijkCk,(1)这是一对小提琴,形成了一个视频关系。相互作用三联体由多个相互作用引物组成。这些基元可以通过改变它们的组合来表示不同的关系。比如让--其中权重与局部关系特征向量和基元之间的距离成反比:expΣ−βRij−Ck2Σ“接近”,“跑”,“看”,“摸” 表示一组prim-如果一个拥抱关系可以表示为zijk=Kl=1Σ−βRij−Cl(二)2“观察”,“接近”,“触摸” 而追逐关系可以用“运行”、“接近”来表示。在对象检测和动作识别文献中,组合学习和编码被很好地建立,具有诸如在类别之间共享组件的优点。[13]、高效和紧凑的编码,例如[58]和高分辨能力,例如:[23,24]。通过引入用于视频关系检测的合成编码,我们共享相同的益处,并且示出了我们在图2中学习的基元的一些示例。对于每个任务,我们给出了一个训练集的tubelet对,表示为,其中每个tubelet对的输入表示为SiRN×F,其中N是tubelet的帧的数量,F是每个帧的特征维度,表示组合的主体和对象表示。在特征之上,我们应用层归一化[3],然后是线性层以获得嵌入表示RiRN×D。在这个D维嵌入空间中,我们学习一个集合CRK×D由K个基元组成。我们的编码背后的想法是描述一个tubelet对完全作为这些原语的加权组合。所以tubelet对i是用我们的方法其中β >0表示温度参数,以调节分配应该有多软或多硬,在整个工作中固定为1/ D。直观地说,我们的编码描述了一个关系与C中每个原语的一致程度。编码的每个部分Ei,k在编码的每个部分Ei,k之间形成线。原始Ck和原点;一致性越强,Ei,k越接近原始,并且其值对下一层的贡献越大。图3中示出了社交结构编码的图。在表示E1之上,我们学习全连接层分类头,其可用于确定小元组对是否有利于良好的提议或使用浅网络头来预测其谓词的图3:社交结构编码。KXDNxFNXDKXD规范线性softmax加权总和13488视频中的Tubelet对提案分类BCE损失互动建议CE损失谓词分类SFE基元特征.ΣL−−--F∈∈∈∈运动视觉语言i3D掩模<主语、谓语、宾语>图4:两阶段视频关系网络。我们首先获得相互作用的建议,然后谓词预测。社会结构编码(SFE)是必不可少的两个阶段,以表示一个对象tubelet与组成的互动原语。BCE损失和CE损失分别表示二进制交叉熵损失和交叉熵损失。在优化期间,网络的层和集合C与替代编码的关系。基于视频的表示中的常见编码是平均池化[57]。在我们的编码中,平均池化是码本包含单个原语的特殊情况。平均池隐含地假设输入表示的特征遵循单一模式。然而,视频关系由多个交互原语组成,这些交互原语随着时间的推移而演变此外,这些原语在我们捕获的不同关系之间共享诸如变压器的编码遵循自注意力架构,其中每个特征是其他特征的加权和[48]。相比变压器,我们的方法提供了一个固定大小的表示,重要的是,因为tubelet对不同的长度。NetVLAD [2]和ActionVLAD [16]等其他编码对整个图像和视频进行操作,而局部特征和聚类之间的残差用于获得表示。相比之下,我们的编码操作的时空tubelets对,接受多模态的功能,我们直接使用的原语编码输入。最后,我们是第一个依赖于合成编码的视频关系检测的任务。4. 两级视频关系网我们利用社会织物编码的两个阶段,而不是三个阶段,在文献中常见的视频关系进行分类和检测在第一阶段中,我们筛选所有时间步上的共现小块的所有组合,以获得一组可能覆盖所有地面实况视频关系的交互建议。在第二阶段,我们用谓词标签对每个建议进行分类。我们的方法的概述如图4所示。接下来,我们详细说明这两个阶段,并展示如何获得最终的分类和时空检测结果。第一阶段:互动提案。我们通过在每个帧中执行对象检测来初始化视频关系优化,然后根据[52]随时间进行链接。为视频V,这导致M个对象小块。我们考虑用于提案生成的所有独特的小块组合,并训练二元分类器以使用帧中的框对周围的局部窗口来确定帧级的交互性[9]。对于两个对象(O1,O2)在一个tubelet对和帧f,我们认为在两个时间方向的tubelets的m/2 1我们计算并叠加了windowed tubelet对的多模态特征,得到框架f的R1( O1, O2) Rm×D。我们将其作为输入馈送到SocialFabric,得到E1(O1,O2)RK×D。在训练期间,编码被用于训练二元分类器,以利用二元交叉熵损失将潜在的相互作用与非相互作用分开 =ylog(s)+(1y)log(1s),其中s表示交互性。同时,学习社会结构中的原语。对于小块对中的每个帧,这导致指示其交互性的分数。在tubelet对的所有时间步上的分数阵列上,我们采用1D分水岭算法[9,36]来生成时空交互建议。我们对所有共同出现的小块重复此过程,并将每对的输出组合成视频的最终一组交互建议。阶段2:谓词预测。一旦视频被分解成一组交互提议,每个提议由具有类似开始和结束时间的两个小块组成,我们就寻求对其谓词的所有提议进行评分。对于相互作用命题(O1,O2),我们对n帧进行均匀采样.对于每个采样帧,我们提取一个单一的单峰或多个多模态的功能。然后将所有帧上的特征叠加,得到该tubelet的R2(O1,O2)RN×D 这被馈送到Social Fabric中,输出表示为E2(O1,O2)RK×D。 在阶段2中,我们微调在阶段1中训练的Social Fabric以加速收敛。在对每个提议进行编码之后,我们将表示馈送到最终的线性层中以获得谓词得分。使用softmax交叉熵优化预测。在获得谓词预测之后,我们将预测得分与相应的主语和宾语得分相乘为时间互动建议谓词评分13489关系三元组预测得分。主体和客体得分从阶段1中的小块对获得。关系三元组是关系分类的预测结果。与主体和客体小元组相关联的关系三元组充当用于关系检测的预测结果。按原始示例搜索。社交结构编码被优化用于视频关系分类和检测,但不限于这些任务。在这里,我们展示了我们如何也可以通过查询原始的例子在视频作为输入,用户可以提供具有执行基本交互的主体和对象的一个或多个帧。我们计算每个输入的非时间特征,并使用它来找到最近的学习原语。为了在所有视频中找到最好地描述原语示例的交互提议,我们使用来自等式2的权重来对整个提议的每个原语的相关性进行评分。反过来,我们简单地求和由用户确定的几个原语的分数,并输出具有最高分数的交互建议因此,我们可以即时搜索由用户提供的示例原语组成的视频关系,而不需要搜索优化。5. 实验装置5.1. 数据集为了评估所提出的方法,我们对ImageNet-VidVRD[39]和视频对象关系(VidOR)[38]进行了实验。ImageNet-VidVRD. [39]由1,000个视频组成,来自ILSVRC 2016-VID数据集[37]。有35个宾语范畴和132个谓语范畴。这些视频被密集地注释有以下形式的关系三元组主语-谓语-宾语>以及相应的主语和宾语轨迹。在[39,46]之后,我们使用800个视频进行训练,其余200个用于测试。视频。[38]包含从YFCC-100 M [45]中选择的10,000个用户生成的视频,总共约84小时。有80个宾语范畴和50个谓语范畴。除了提供带注释的关系三元组之外,数据集还提供对象的边界框。该数据集被分为一个包含7,000个视频的训练集、一个包含835个视频的验证集和一个包含2,165个视频的测试集。由于测试集的基础事实不可用,我们使用训练集进行训练,使用验证集进行测试,遵循[30,34,42,53]。5.2. 实施和评估细节小管配对。我们首先通过具有ResNet-101 [19]主干的Faster R-CNN [35]检测每个视频帧的所有对象检测器在MS-COCO上训练[29]。检测到的边界框与深度SORT跟踪器[52]链接以获得单个对象小块。最后,每个小块与任何其它小块配对以产生小块对。我们使用[34,39,42,43]中采用的ImageNet- VidVRD和VidOR的对象轨迹进行公平比较。特征提取。在视频关系文献中,通常使用来自多个模态的特征,例如。Sun等人[43]使用运动特征和语言特征。Liu等[30]使用运动功能、视觉功能和I3D功能。Xie等人[53]使用运动特征、视觉特征、语言特征和位置掩模特征。我们考虑所有的功能,并达到运动功能,视觉功能,语言功能,I3D功能,和位置掩模功能。我们遵循[43]来计算空间位置特征作为运动特征。使用Faster R-CNN中的检测主干提取视觉特征,然后是RoI池化层。对于语言特征,我们使用在GoogleNews [33]上预训练的word2vec模块,将主题和对象类编码为维度为600的语言特征。我们使用[6]中的I3D模块来提取具有固定维度832的I3D特征。我们遵循[53]的方法来基于小块对中的主体和对象的边界框两阶段网络优化。线的大小用于嵌入表示的耳层是D=512。在第一阶段中,我们考虑在两个时间方向上的m=30个互动提案生成器-使用具有128的小批量的SGD优化器,将神经网络训练20个时期。我们使用固定的学习率,并将其值设置为0.01。在第二阶段,我们为每个交互建议采样n=25谓词预测网络使用具有128个小批量我们使用固定的学习率,并将其值设置为0.01。评估指标。在[39]之后,我们采用Precision@1,Precision@5和Precision@10来衡量分类视觉关系的能力。 我们将参考 为了与当前文献保持一致,将分类任务作为实验中的关系标记。对于视频重新-定位检测我们报告mAP(平均平均精度)、召回率@50和召回率@100。6. 结果多模式功能的优势。我们首先评估在表1中的VidOR上使用多模态特征的益处。只有运动特征,我们的方法实现了50.97的P@1的关系标记和6.14的mAP的关系检测。在包括所有特征的情况下,性能明显提高,对于关系标记P@1为68.86结果表明,我们的编码受益于将信息从许多模态。在下面的消融中,我们使用所有特征。编码大小的影响接下来,我们将评估影响-13490要素类型关系标记关系检测运动视觉语言I3D掩码P@1 P@5P@10地图R@50R@100✓50.97 39.5731.586.146.748.70✓ ✓56.89 44.7634.078.937.389.22✓ ✓59.24 47.2435.999.548.4910.17✓ ✓ ✓61.52 50.0538.4810.048.9410.69✓ ✓ ✓✓68.86 55.1643.4011.219.9911.94表1:VidOR上的多模态特征的益处。越多越好。不断增加的差距表明,社会结构有效地捕捉多模态特征的关系分类和检测。集群1 8 32 64 128平均值10.05 10.69 10.9111.2111.01表2:编码大小对用于关系检测的VidOR的影响。使用多个原语的结果在一个更准确的谓词预测,我们实现最佳性能为64个原语。社会结构编码中的交互原语的数量的重要性。直观地说,基元越多,交互之间的共性就越好。在表2中,我们发现多个原始组件确实比单个组件(其类似于常规平均池化)有所改善。当增加基元的数量社会结构编码在K=64处执行得最好,其中它提供了空间的覆盖和关系之间的共享之间的平衡。我们使用此编码大小进行进一步的实验。两个阶段的重要性接下来,我们在表3中示出了交互提议阶段和谓词预测阶段对VidOR的重要性。基线(第一行)将视频分割成简短的片段。在每个片段中分别检测关系,然后合并,类似于[34,42,53]。它在预测之前平均池化特征加上交互提议阶段(第二行),我们有了涵盖远程交互的时空提议。它提供了识别长时间交互的必要背景因此,重新调用和精确度都得到改善。召回@50的改进为1.09 P@1比基线提高了3.47。在添加第二阶段(第三行)时,与我们在提案生成中仅使用交互编码时相比,P@1增加了4.67我们的结论是,这两个阶段与我们的编码相结合。与替代编码的比较。我们在VidOR上比较以下编码:平均池化,Transformer编码,NetVLAD [16],NetRVLAD [32]。平均池对应于我们的编码与单个关系标记关系检测阶段1第2阶段 P@1 P@5P@10地图R@50 R@10060.72四十六点四十36.629.618.7310.81✓64.19四十九点六39.2210.169.6211.63✓✓68.86五十五点一六43.4011.219.9911.94表3:两个阶段对VidOR的重要性。将Social Fabric结合到我们的流水线的两个阶段(第三行)中优于基于具有视频片段提议的特征的平均池化(第一行)和仅针对提议使用Social Fabric(第二行)的基线关系标记关系检测编码P@1 mAP平均合并62.73 10.05TransformerNetVLAD 65.34 10.15NetRVLAD 66.80 10.55社会结构68.86 11.21表4:与V1- dOR上的替代编码的比较。Social Fabric表现良好。混合组分Transformer在[48]中提出用于文本序列到序列任务,最近在视频任务中采用[4,14,15]。在这里,我们调查他们的潜力,互动检测。我们将帧级表示馈送到Transformer编码器。输出表示被平均汇集,然后被馈送到谓词分类器中。NetVLAD首先被引入用于位置识别,后来在[16]中被用于视频动作分类我们在所有特征上通过k作为我们的方法,我们使用64簇质心。NetRVLAD [32]是原始NetVLAD架构的简化,其平均实际描述符而不是残差。我们在表4中报告了VidOR数据集上的P@1和mAP。所有编码采用相同的多模态表示a-13491ImageNet-VidVRD视频关系标注关系检测P@1P@5P@10地图R@50R@100P@1P@5地图R@50R@100Shang等人[39]第三十九届43.0028.9020.808.585.546.37-----Tsai等人[46个]51.5039.5028.239.527.058.67-----Qian等人[34个]57.5041.0028.5016.268.079.33-----Sun等人[四十三]------51.2040.736.566.898.83Su等人[第四十二届]57.5041.4029.4519.039.5310.3850.7241.566.596.358.05Liu等[30个]60.0043.1032.2418.3811.2113.6948.9236.786.858.219.90Xie等人[五十三]------67.43-9.939.12-本文的特点是苏等。[第四十二届]57.5043.4031.9019.2312.7416.1954.5743.588.939.1511.13本文以Liuet al. [30个]61.0047.5036.6019.7712.9116.3255.4045.749.139.3611.30本文的特点是谢等。[五十三]------68.6253.3411.059.9111.89这篇论文,我们的特点62.5049.2038.4520.0813.7316.8868.8655.1611.219.9911.94表5:与ImageNet-VidVRD和VidOR上的关系标记和检测的现有技术的比较。我们执行最近的片段关系检测方法苏等。和Xieet al.在使用其功能时几乎所有指标。我们也优于刘等人的建议关系检测方法。当使用他们的功能。当我们依靠我们的全套功能时,结果会进一步改善,并为两个基准测试的两个任务设置了新的最先进的技术作为输入。Transformer和平均池化基线获得类似的性能。NetVLAD改进了平均池化和转换器,突出了基于码本的编码的有效性。NetRVLAD比NetVLAD进一步改进,这可能是因为聚集实际特征而不是残差可能有益于性能[12]。我们的编码使用了类似的策略与动态学习方案,并优于所有基线,与NetRVLAD的10.55%相比,其mAP为11.21%,是性能最佳的替代方案。与 最 新 技 术 水 平 的 比 较 。 我 们 在 表 5 中 针 对ImageNet-VidVRD和VidOR两者比较了视频关系分类和检测的最新技术。Liu等[30]报告了在两个集合上的关系分类和检测当我们使用相同的输入特征,即视觉,I3D和运动功能,我们改善了他们的工作在所有指标。最值得注意的是,关系检测的mAP在ImageNet-VidVRD上从18.38提高到 19.77,在Vi-dOR上从6.85提高到9.13我们还比较有利对最近的片段为基础的视频关系检测苏等。[42]用他们的特点。我们在ImageNet-VidVRD上的关系分类P@1上不相上下,但在所有其他指标和数据集上都优于它们,这证明了从一开始就检测社交tubelets谓词的好处Xie等人[53]通过在预测它们的关系之前组合每个轨迹对的运动特征、视觉特征、语言特征和我们的方法也得益于这样一组丰富的多模态特征。当我们使用与谢等人相同的特征时。我们的结果也变得更好,获得68.62 P@1和11.05mAP分别用于关系分类和检测。我们的功能将I3D功能添加到所使用706050403020100短中长持续时间图5:在VidOR上沿着关系持续时间的比较我们观察到我们的方法Xieet al. [53]。使用我们的功能,我们获得了最先进的性能,11.21 mAP和68.86 P@1。我们还考虑了我们的方法的计算方面。我们使用GTX 1080 Ti GPU进行测试。具有与Liu等人相同的特征。[30],Liu等人处理一个ImageNet- VidVRD验证视频的平均时间为58.2s。[30],48.3s。沿关系持续时间进行比较。验证我们的方法在长期关系中的有效性。我们根据关系实例的持续时间将性能分解为三个区间:“短”、“中”和“长”。我们比较我们的方法与刘等。[30]和Xieet al. [53]在VidOR验证集上。结果示于图5中。这三种方法使用相同的功能谢等。[53]公平竞争。Xieet al. [53]作者的作品。Liuetal.[30]是通过运行亲。刘亦达。谢谢你。我们的方法P@1(%)13492地面实况儿童-追逐-成人-拥抱-儿童成人-旁边-儿童地面实况成年清洁马地面实况汽车-成人车后-成人 成人-在前面-汽车预测儿童-追逐-成人-拥抱-儿童成人-旁边-儿童预测成年清洁马预测汽车-朝向-成人汽车-在-成人后面✗图6:VidOR上的成功和失败案例。对于左侧示例,我们检测到所有地面实况关系实例并成功预测远程关系追逐。中间情况需要时间上下文信息来检测清洁马的成年人。我们的方法在正确的示例中,我们的方法检测后面和朝向关系。但是,由于对象检测器错误地将汽车识别为卡车,因此即使关系谓词是正确的,最终的三元组预测也是错误的。不正确的对象类别也会导致不精确的语义特征,这可能导致关系预测的缺失。我们在补充材料中提供了更多的定性结果和成功和失败的示例视频。vided代码。如预期的,Liuet al. [30]超越了谢等。[53]对于长持续时间的关系,因为它们被设计为有效超过短片段。我们的方法是超越刘等。和Xieet al.对于所有持续时间。与Xieet al.[53]对于不考虑长程关系的人,我们的方法我们的结论是我们的方法是有益的原语查询++上品成人驾驶摩托车用于编码用于关系检测的多模态特征es-++特别是在远程。此外,我们将VidOR中的预测值分为两个超级类别:基于行动和基于空间的关系,遵循[37]。我们获得了7.33%的基于动作的关系的mAP基于空间的关系,而国家的最先进的谢等++al. [51]基于动作的关系获得6.25%的mAP,基于空间的关系获得11.23%的mAP。我们表明图6中的一些成功和失败案例。视频关系查询-通过-原语-示例。在图7中,我们示出了三种搜索情况,其中对于每种情况,给出三个原始示例作为输入。我们使用VidOR验证集进行搜索。结果表明,我们可以找到相关的视频关系,在空间和时间在许多视频,简单地通过提供一些原始的例子,进一步突出的重要性,视频关系的组成。7. 结论我们提出了一种视频关系分类和检测的方法,从一开始就对对象tubelets。通过这样做,我们不再需要将视频分散为了表示视频中出现的所有对象小块对,我们提出了社交结构:一种建立在数据驱动的交互原语的组合上的编码,类似于经典的码本方法。我们在两阶段网络中使用编码,首先提出可能相互作用的建议,然后进行微调并预测最多图7:按基元示例查询。我们使用三个前-作为查询的原语的示例在VidOR验证集中,选择其基元权重最接近三个示例的关系。例如,在第三行中,三个示例表示“主体接触对象”、“主体和对象移开”和“主体和对象是人”原语。我们返回的排名最高的关系是adult,throw,child。可能的等同标签。实验证明了早期的视频关系建模,我们的编码,以及两阶段的架构,导致一个新的国家的最先进的两个视频关系基准的好处。我们还展示了如何编码,使时空视频搜索查询由原始的例子。鸣谢。作者感谢杨鹏万对图形设计的帮助和评论。袋鼠推袋鼠成人抛儿童13493引用[1] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。CVPR,2015。一个[2] ReljaArandjelovic´ , PetrGronat , AkihikoTorii ,TomasPa-jdla,and Josef Sivic.Netvlad:用于弱监督位置识别的CNN架构。在CVPR,2016年。二、四[3] Jimmy Lei Ba,Jamie Ryan Kiros,Geoffrey E Hinton.层归一化。 arXiv,2016. 三个[4] Petr Byvshev,Pascal Mettes,and Yu Xiao.用于多模态活动识别的异质非局部融合。在ICMR,2020。六个[5] Qianwen Cao , Heyan Huang , Xindi Shang , BoranWang,and Tat-Seng Chua.用于视频中视觉关系识别的三维关系网络。神经计算,2021年。二个[6] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。五个[7] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。在WACV,2018。二个[8] Yu-Wei Chao , Zhan Wang , Yugeng He , JiaxuanWang,and Jia Deng. Hico:识别图像中人与物体交互的基准。在ICCV,2015年。二个[9] Shuo Chen , Pascal Mettes , Tao Hu , and Cees GMSnoek.监控录像的互动建议在ICMR,2020。4[10] 崔琼杰,孙怀江,杨飞。学习三维人体运动预测的动态关系。在CVPR,2020年。二个[11] Donglin Di,Xindi Shang,Weinan Zhang,Xun Yang,and Tat-Seng Chua.多假设视频关系检测。在BigMM,2019年。二个[12] Mat t hijsDouze,J e'r o meR ev aud,CordeliaSchmid,and Herve e'Je'gou. 用于事件检测的稳定类型池和查询扩展InICCV,2013. 七个[13] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。动作的时空定位。PAMI,2013年。三个[14] Kirill Gavrilyuk、Ryan Sanford、Mehrsan Javan和CeesGM Snoek。用于 群体活动 识别的演员 转换器。 在CVPR,2020年。六个[15] Rohit Girdhar , Joao Carreira , Carl Doersch , andAndrew Zis-serman. 视 频 行 动 Transformer 网 络 。 在CVPR,2019年。二、六[16] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad:学习动作分类的时空聚合。在CVPR,2017年。二、四、六[17] 作者:Colin Graber,Alexander G.施温动态神经关系推理。在CVPR,2020年。二个[18] Abhinav Gupta , Aniruddha Kembhavi , and Larry SDavis.观察人与物体的相互作用:使用空间和功能兼容性进行识别。PAMI,2009年。二个[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。五个13494[20] Zhiwei Hu,Guang Feng,Jiayu Sun,Lihe Zhang,andHuchuan Lu.用于参考图像分割的双向关系推断网络。在CVPR,2020年。二个[21] Sho Inayoshi,Keita Otani,Antonio Tejero-de Pablos,and Tatsuya Harada.用于视觉关系检测的边界框通道。在ECCV,2020年。二个[22] Her ve 'Je'gou , MatthijsDouze , CordeliaSchmid ,andPatrick P e'rez. 将局部描述符聚集成紧凑的图像表示。CVPR,2010。二个[23] Mayank Juneja , Andrea Vedaldi , C.V.Jawahar 和Andrew Zisserman。块喊:用于场景分类的独特部分。CVPR,2013。三个[24] Adam Kortylewski,Qing Liu,Angtian Wang,YihongSun,and Alan Yuille.合成卷积神经网络-工作:一个用于遮挡下物体识别的鲁棒和可解释的模型。IJCV,2020年。三个[25] Anna Kukleva、Makarand Tapaswi和Ivan Laptev。学习电影角色之间的互动和关系。在CVPR,2020年。二个[26] Yong-Lu Li,Siyuan Zhou,Xijie Huang,Liang Xu,Ze Ma,Hao-Shu Fang,Yifeng Wang,and Cewu Lu.用 于人- 物 体交 互检 测的 可转 移交 互性 知识 。在CVPR,2019年。二个[27] Yue
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功