VirtualHomeActionGenome：稀疏关系标签的模拟时空场景图数据集

168 浏览量更新于2023-10-15 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3351床笔记本鞋VirtualHome Action Genome：具有一致关系标签的模拟时空场景图数据集Yue Qiu，Yoshiki Nagasaki，Kensho Hara，HirokatsuKataoka，Ryota Suzuki，Kenji Iwata，Yutaka Satoh国家先进工业科学与技术研究所（AIST）{邱月，吉木，长崎，原健章，片冈广胜，ryota.suzuki，岩田健二，佐藤优}@ aist.go.jp摘要时空场景图生成是家庭活动识别中的一项重要任务，旨在识别人与物体之间的交互。构造具有每帧对象区域和一致关系注释的数据集需要极高的劳动力成本。现有床鞋person-rel.>-床rel1. 依赖于rel2。在Rel3的一侧。上述rel4.不看person-rel.>-笔记本rel1.没有联系Rel2。在Rel3的前面。不看person-rel.>-鞋rel1.没有联系Rel2。在Rel3的一侧。下方rel4.不看person-rel.>-床rel1. 躺在Rel2上。在Rel3之后。上述rel4.不看person-rel.>-笔记本rel1. 没有联系Rel2 。在 Rel3 的一侧。不看person-rel.>-鞋rel1.没有联系Rel2。在Rel3的一侧。不看数据集稀疏地注释从视频采样的帧，重新[GRAB]玩具>[WALK]柜>[OPEN]柜>[PUTBACK]玩具>柜>导致视频中缺乏密集的时空相关性。此外，现有的数据集包含不一致的关系注释，导致学习模糊的时间关联的问题。此外，现有personpersonperson数据集主要讨论可以推断的关系玩具玩具玩具玩具从一个单一的帧，忽略时间的重要性，内阁橱柜内阁协会.为了解决这些问题，我们创建了一个具有每帧一致注释的模拟数据集，并引入了一系列需要空间和时间上下文的关系。大多数现有的方法都是在单个图像中探索空间相关性，而不是明确的空间相关性。person-rel.>-玩具rel1.关闭rel2.在rel3.触摸Rel4.控股person-rel.>-内阁rel1.不关闭Rel2。接近rel3.不接触person-rel.>-玩具rel1.关闭rel2.在rel3.触摸Rel4.控股person-rel.>-内阁rel1.不关闭Rel2。接近rel3.不接触person-rel.>-玩具rel1.关闭rel2.在rel3.触摸Rel4.控股person-rel.>-内阁rel1. 关闭rel2.在Rel3的前面。触摸Rel4.开口person-rel.>-玩具rel1.关闭rel2.在rel3.触摸Rel4.控股person-rel.>-内阁rel1. 关闭rel2.在Rel3的前面。触摸Rel4.开口它考虑跨帧的动态变化在那里-因此，我们提出了一种基于跟踪的方法，该方法显式地掌握时空人-对象交互，同时定位人和对象。我们提出的方法在场景图生成方面取得了最先进的性能，并且在场景图本地化方面优于现有方法，在提出的数据集上具有很大的优势。此外，实验显示了对所提出的数据集进行预训练的有效性，同时适应了由真实日常视频组成的先前基准，表明了所提出的数据集在真实世界场景中的潜力。1. 介绍随着视频应用的日益广泛，视频识别在各种应用中起着至关重要的作用动作识别[1，2，3]，它从视频中生成单个标签，图1. 先前的数据集Action Genome（顶部）包含跨视频帧的不一致关系（更好地查看颜色），导致学习模糊时间关联的问题。VirtualHAG数据集是从具有一致的每帧注释的脚本自动生成的（底部）。被广泛讨论。最近，已经提出了一系列需要详细视频语义的任务，例如视频问答[4，5，6]、视频字幕[7，8]、时空动作定位[9，10]。场景图[11]可以描述图像中的对象和对象关系，已被证明在各种图像识别下游任务中是有效的，例如视觉问题回答[12]和图像字幕[13，14]。最近，Jiet al.通过定义时空场景图生成任务[15]，提出了用于视频的对应物，目的是从视频帧中识别人、对象及其关系。笔记本3352Ji等人他还提出了一个新的数据集Action Genome[15]。该数据集由从现有日常活动数据集Charades[16]收集的视频组成，并为视频帧添加了额外的场景图注释。 9 月， Raiet al. 提出了家庭行动基因组（HOMAGE）数据集[17]，其中包含多视图日常活动视频。然而，上述数据集存在两个主要问题。首先，由于难以用准确和一致的关系标签来注释视频，现有的手动标记的数据集包含一部分不一致的关系和标记错误（图1（顶部）和图2），这引起了对学习模糊关系的关注。其次，两个数据集中的大多数关系可以从单个图像中预测，因此需要较少的视频帧的时间关联为了解决这些问题，我们提出了一个新的数据集Vir- tualHome Action Genome（VirtualHAG）（图1，下图），由基于家庭活动模拟器VirtualHome的2，588个室内活动视频组成[18]。虚拟HAG包含一致的关系和需要时空背景的各种关系。由于构建数据集的劳动成本很高，现有的数据集上标注的视频很少.相反，VirtualHAG提供每帧注释，并且可以在不需要手动标记的情况下进行扩展，从而能够评估和诊断该任务所需的各种能力。在VirtualHAG上的实验结果表明，以往的方法主要研究单帧内的空间相关性，在识别时间变化方面存在一定的局限性.对象跟踪框架明确地关注视频中包含的时空上下文以用于连续地定位对象，这对于识别和定位人-对象关系可能是非常有用的。因此，我们提出了一个基于跟踪的框架场景图跟踪器（SGTracker），明确地探索时间上下文跟踪对象的变化和关联上下文帧内和帧间的视频帧在端到端的方式，而不使用对象检测器。SGTracker在VirtualHAG数据集上取得了最先进的结果，并且在本地化方面远远优于以前的方法。此外，我们对现有基准Action Genome进行了模拟到真实（sim2real）研究。实验结果表明，在VirtualHAG上进行预训练有助于提高模型在Action Genome数据集上的性能。我们工作的贡献有四个方面：（i）提出了一种新的时空场景图数据集，该数据集具有一致的注释和需要时空上下文的各种关系。（ii）对现有方法进行了基准测试，结果表明了以往方法在时间关联方面的不足(iii)我们提出了一种方法，明确关联的时空背景，通过incor-poration的跟踪框架，获得高性能，在建议的数据集上。(iv)我们对现有的基准ActionGenome进行了sim2real研究，并展示了所提出的数据集在现实世界中的人与物体交互识别中的潜力。2. 相关工作2.1. 场景图Johnson等人首先介绍了场景图[11]-一种由节点（对象）和边（谓词）组成的有向图结构，用于图像检索。场景图结构在各种下游任务中已经证明了有效性，例如图像字幕[13，14]和图像生成[19，20]。广泛使用的可视化基因组数据集[21]中的数据集偏倚问题已被广泛讨论。Zellers等人提出了MotifNet[22]来利用数据集偏差来预测对象之间最频繁的关系。同时，Tanget al.提出了一种基于反事实的cacability-based方法[23]，用于实现无偏场景图生成，Zhanget al.提出RelDN[24]将对比学习纳入这项任务。Ji等人提出了时空场景图生成任务和由第三人称视角日常活动视频组成的Action Genome数据集[15]。同时，Raiet al.提出了HOMAGE数据集[17]，它由室内人-物体交互视频组成，并将任务扩展到包括多个视点和感官输入。然而，这些数据集包含跨视频帧的不一致的关系注释，使得部分关系模糊而难以区分。此外，大多数关系可以从单个图像确定。相应地，我们提出了一个模拟数据集，其中的关系，船舶可以自动计算，其中的时间变化是必不可少的关系预测。Ji等人评估了一系列基于图像的方法[15]，包括RelDN[24]，用于时空场景图生成。Cong等人介绍了一种基于时空变换器的方法[25] STTran [26]。Teng等人提出了一种方法TRACE[27]，通过整合图像中基于视频的特征和对象坐标来增强性能。然而，STTran和TRACE隐含地整合时空特征，并需要使用对象检测器。Li等[28]提出了一种集成时间特征的方法相比之下，我们提出了一种基于跟踪的方法，显式地考虑空间和时间场景图的变化，同时跟踪对象区域。2.2. 对象跟踪物体跟踪已被公认为计算机视觉领域的基本任务，CNN的引入将物体跟踪提升到了各种应用（如车辆[29，30]和行人）的适用水平3353（一）（b）第（1）款（c）第（1）款（d）其他事项扫帚扫帚人人擦人人衣服person-rel.>-扫帚Rel1. 不看Rel2。在Rel3的一侧。不接触person-rel.>-扫帚Rel1. 看着rel2.在Rel3的前面。不接触person-rel.>-擦除释放1. 看着rel2.不看Rel3。在Rel4前面。控股person-rel.>-水龙头Rel1. 看着rel2.在Rel3的前面。感人person-rel.>服装零售1. 看着rel2.在Rel3的前面。控股图2.Action Genome（a）和HOMAGE（b）、（c）、（d）数据集中不一致关系注释和注释错误的示例我们用蓝色突出不一致的关系，用青色突出矛盾的关系，用红色突出不正确的关系。[31，32]跟踪。SiameseFC[33]引入了两个共享-关注空间（a）接触加权网络和相似性函数，用于单目标跟踪。SiameseRPN[34]引入了区域建议网络以更好地确定对象区域，SiameseRPN++[35]通过引入深度网络增强了SiameseRPN。后来，SiamMASK[36]进一步-看不看不确定面前背后在上面下面在账面喝从有它在背上靠在不接触站立扭转擦拭被吃覆盖抱着躺着坐着触摸穿着写字启用对象掩模预测，而SiamMOT[37]适应空间（1）空间（2）（b）接触用于多目标跟踪的连体网络。最近，变压器在对象跟踪中显示出有希望的性能[38，39，40，41，42，43，44，45]。HiFT[40]使用变压器来掌握层次核心，密切不近面前上文接近没有接近感人不接触，抓，放，拿，喝，坐着站着打开关闭打开关闭模板对象和搜索块之间的关系，从而为后续空中跟踪任务提供区别性表示。TransMOT[41]采用时空图变换器将多个对象与视频中的轨迹相关联。UTT[45]采用统一的Transformer进行单个和多个对象跟踪。由于人类的日常活动往往涉及物体外观和人与物体交互的明确地将视频中的空间和时间信息集成的基于跟踪的方法具有减轻单个帧中的信息不足的潜力因此，我们采用了一个基于跟踪的框架来提高与此任务相关的性能。2.3. 家庭活动模拟器家庭活动模拟器[46，47，48，49，18]有可能为训练和评估日常活动识别任务提供照片般逼真的环境。AI 2-THOR[46]是一种广泛使用的人机交互模拟器，具有120个场景和102个可交互对象，旨在促进第一人称视图应用。ALFRED[47]的作者用额外的活动语言指令扩展了AI 2-THOR模拟器。RoboTHOR[48]进一步引入了真实场景和它们的模拟对应物，以启用sim2real使用。最终，Vir- tualHome模拟器[18]，由人形图3.Action Genome和HOMAGE中定义的关系数据集（a）和VirtualHAG（b）。需要时间上下文进行区分的关系用相同的颜色突出显示。化身并允许各种人-对象交互，被选择用于我们的数据集生成过程，因为它在对象和交互类型方面的多样性及其高水平的真实性。最近，也有一些关于人类活动的综合数据集的研究[50，51，52]。相[50]是一个基于2D图像的数据集，用于模拟人类社会互动。Watch-And-Help[51]是基于VirtualHome构建的行为[52]也针对家庭活动识别。与我们的工作不同，BEHAVIOR专注于活动识别，而不是人与物体的交互，并且是第一人称视图数据集。3. VirtualHAG数据集Action Genome 和HOMAGE数据集有两个主要问题。首先，由于在数据集构建期间的高劳动力成本和人为注释错误，两个数据集都包含具有不同关系注释的语义相似的框架和具有不正确注释的示例（例如，图2）。第二，两个数据集中的大多数关系，包括联系人关系，都是对状态的描述（图3（a）），通常可以从sin中推断出来3354[WALK]椅子>[SIT]椅>[STANDINGUP]椅子>椅子椅子椅子椅子椅子椅子椅子椅子椅子椅子椅子person-rel.>-椅子人-相对。>-椅子人-相对。>-椅子人-相对。>-椅子人-相对。>-椅子人-相对。>-椅子人-相对。>-椅子人-<相对。>-椅子Rel1. 接近RE1。接近RE1。接近RE1。关闭rel1. 关闭rel1. 关闭rel1. 关闭rel1. 密切rel2. 不关闭Rel2。不关闭Rel2。不关闭Rel2。没有联系Rel2。没有联系Rel2。触摸Rel2 没有联系Rel2。不接触rel3. 没有联系Rel3。没有联系Rel3。没有联系Rel3。坐在Rel3上。坐在Rel3上。坐在Rel3上。站起来Rel3. 站起来rel4. 高于rel4。高于rel4。高于rel4。高于rel4。上述对persn佩尔索椅子人人人人人人人人人人⟨⟩佩尔索n椅子pers对佩尔索n数据集视频总帧数查看对象关系场景人隔离区掩模每帧是的可扩展性标签一致性[15]第十五话9,848496k13426--’劳动力成本高不确定HOMAGE[17]VirtualHAG1,5832,588383k574k2∼54∼8285025192764’✓ ✓劳动力成本高不确定✓ ✓表1. 时空场景图数据集比较（Seg.：分割;注释：注释）。图4.VirtualHAG数据集示例从两个观察视点采样（本示例共有六个视点对象出现1600012000800040000图5.VirtualHAG数据集中前20个对象的出现次数角图像。例如，因此，这两个数据集在时间推理方面诊断模型能力的任务时都会遇到困难。为了解决上述问题，我们提出了VirtualHAG数据集，其中自动计算一致的关系，并且其中包括需要时间关联并且仅从外观识别具有挑战性的关系（图3（b））。我们在表1中显示了数据集比较。3.1. 虚拟家庭模拟器我们基于前室内家庭活动模拟器VirtualHome [18]构建了VirtualHAG数据集，该模拟器自动从动作描述脚本生成视频。例如，基于下面的简单脚本“VirtualHome允许记录分割掩码，化身姿势，动作类型，对象状态（例如，开路、接通）和空间关系（例如，“book” is inside the “bookshelf”) for视频帧它包含308个对象类别，可执行的非对象操作（例如，行走、左转），以及涉及人-物体交互的各种动作（例如，抓住，打开）。有了这些，用户可以通过设计脚本生成各种家庭视频。3.2. 对象和关系时空场景图注释由类别、对象和主体（我们从Virtual-Home中精心挑选了50个日常对象类别，以包含在VirtualHAG场景图中.我们基于现有的数据集设置（图 3 （ a ））和VirtualHome中定义的可执行操作我们删除了注意关系，因为在模拟环境中很难区分为了增强模型我们添加了在VirtualHAG中，基于动作类型、人和对象的位置以及对象的状态，逐帧的人-对象关系是完全可计算的。在数据集生成期间计算和记录每个关系的存在，并且所有的关系视图1视图23355−∈VirtualHAG中定义的关系如图3（b）所示3.3. 视频生成器为了在VirtualHome模拟器中生成视频，我们手动设计了108个独特的脚本（例如，图4，顶部）通过调整对象类别、交互类型和交互顺序。每个脚本都由VirtualHome中定义的一系列非对象人类动作和人-对象交互3.4. 数据集生成过程视频生成。在执行每个脚本之前，脚本id、化身id（来自四种类型的化身）和场景id（来自七个场景）被随机确定并且遵循均匀分布。我们还从一组预先定义的摄像机位置中为每个脚本随机选择了然后在VirtualHome模拟器中执行每个脚本，并录制多视图视频。从这一步开始，生成了2，588个多视图视频。数据集平衡。在视频生成之后，我们计算人和物体的边界框坐标，并移除边界框边缘短于5个像素的所有帧。完成上述步骤后，我们获得了2，345，231个有效帧。接下来，我们进一步平衡数据集，以形成对象类别和相反关系（例如，“打开”和“关闭”），以防止模型过拟合。结果得到的平衡数据集包含574，635个有效帧。图4显示了一个数据集示例。图5显示了前20个对象的分布对于每个脚本，我们随机选择了五个场景作为训练数据，两个场景作为测试数据。与以前的数据集（表1）不同，VirtualHAG包含每帧注释，并且可以以最小的劳动力成本轻松扩展，并允许使用多种额外的感官信息类型，例如分割掩码和深度图像。补充材料中将提供其他数据集和脚本示例。4. SGTracker给定特定图像和包括该图像的视频剪辑，时空场景图任务旨在识别人和对象区域，并预测对象和关系的标签。图像中包含的空间背景一些交互类型也可以从单个图像帧预测，诸如“在前面”和“触摸”，但是一些关系诸如“坐在”和“站起来”或“打开”和“打开”在单个帧中观看时可能是模糊的。此外，视频上下文可以缓解单个帧中的信息不足（例如，运动模糊和遮挡）。图6.SGTracker方法概述尽管图像和视频信息在此任务中的重要性，但许多方法仅考虑单个图像输入[15，53]。两种先前的最先进的方法，STTran[26]和TRACE[27]，考虑了空间和时间背景，但它们没有明确关注视频帧中的变化区域。此外，STTran和TRACE是建立在对象检测器上的，这意味着它们不能实现端到端的场景图生成。相比之下，我们提出了一个称为 SGTracker 的Transformer编码器-解码器框架，以显式地合并时间和空间上下文（图6）。更具体地说，SGTracker是一个基于跟踪的框架，它利用时间上下文来跟踪对象，同时确定对象和谓词标签。SG-Tracker的编码器掌握先前视频帧的时空上下文，而解码器探索当前帧中包含的空间信息，然后通过交叉注意机制进一步关联当前帧和先前帧。这些框架细节将在下文中讨论。4.1. 特征提取和编码器时间上下文对于识别人-对象交互中的动态变化是至关重要的在这里，我们介绍了一个变换器编码器，用于获得在以前的图像帧的动态变化。给定先前帧（0，...， T1帧）和当前帧（T帧），我们首先使用CNN提取输入图像特征并获得V prev（i，j，t）= I0，I1，.， I T−1和I curr（i，j）=I TRH× W × D，其中H和W分别是特征的高度和宽度，D是每个空间位置的维度。接下来，我们对V_prev和I_curr中的每个帧采用线性投影LP（具有权重W_LP和偏置b_LP），以将通道深度从D减小到C。为了增强模型的空间和时间推理能力，我们使用两种不同的位置嵌入posS和posT，其中posS将H×W中的每个空间位置（i，j）转换为C维嵌入，Transformer编码器Transformer解码器先前帧BBOX头CNN&线性投影样品头谓词头当前帧BBOX头样品头添加规范添加规范前馈前馈添加规范添加规范多头注意多头注意添加规范前馈添加规范添加规范多头注意多头注意3356∈×·×∥ − ∥·并且posT将时间索引t编码为C维嵌入。Transformer编码器和解码器输入如以下公式所示：V=WLP Vprev+bLP+posS（i，j）+posT（t）（1）I=WLP Icurr+bLP+posS（i，j）（2）然后，我们将V输入标准的Transformer编码器表2.应用于VirtualHAG数据集的不同模型设计的对象和谓词准确性（注意类型：S（仅空间）、T（仅时间）和ST（空间-时间））。Att（query，key，valuee）并获得V=Att（V，V，V）∈RT×H ×W ×C。我们省略了加法，归一化，和前馈操作，如图6所示。4.2. 解码器4.3. 损失函数如公式（6）所示，我们的损失由三部分组成，每一部分都由λ1、λ2和λ3加权。Giv en来自编码器的输入Vi n和当前I m。年龄特征I，解码器的目的是将空间-L=λ1Lobj+λ2Lpred+λ3Lbbox（6）在V和I中包含的时间序列，以便确定对象和谓词的对象区域和标签。我们采用交叉熵损失Lobj 对于对象分类，要做到这一点，我们首先采用多头注意谓词的多标记交叉熵损失Lpred分类. 与[42]和[39]相似，边界框I=Att（I，I，I）RH× W × C on I用于空间推理。为了突出显示前一帧中的对象区域，我们回归损失Lbbox 可以如下公式表示：调整[54]中使用的高斯形状掩码，以根据地面真实边界框计算掩码。对于V中的对象1和2（表示人和对象）的两个连续的空间区域，然后使用以下等式计算对象1和2的两个掩模Mo1和Mo2，其中c是地面实况目标位置，y指示输入特征的每个空间位置。y c2M（y）=exp（−2σ2）（3）因此，我们获得了混合的对象特征Vo1=VMo1和Vo2=VMo2通过Mo1和Mo2 的点生成 V。接下来，我们分别采用交叉注意力Att（I，Vo1 ，Vo1），Att（I，Vo2 ，Vo2）来确定Mo1和Mo2与I之间的相关性，并共享权重。我们使用跳过连接来将交叉注意力的输出与Vo1和Vo2相加。最终解码器输出如下所示：Io1=Att（I，Vo1，Vo1）+Vo1（4）Lbbox=λ4Lcls+λ5Lreg（7）在等式（7）中，我们采用Lcls的交叉熵来评估每个区域是否被正确地识别为“背景”或“对象”。我们使用Lreg与[39]中引用的设置相同，它评估每个预测区域与地面真实值的交集5. 实验5.1. 实验设置数据集。我们在Vir- tualHAG数据集上评估了不同的方法。此外，我们还在Action Genome数据集上进行了sim2real实验，同时使用VirtualHAG数据集进行了预训练。评估指标。与Action Genome数据集上评估的现有方法类似，我们还采用了三个主要指标：谓词分类（PredCLS）、场景图分类（SGCLS）和场景图检测（SGDET）[23]。所有这三个指标都评估了召回@Kre-第二章 =Att（I，Vo2，Vo2）+Vo2（五）与地面事实相比，预测关系中的关系。地面实况对象区域和标签是亲-最后，我们使用线性投影来传递I_（？）O_1和I_（？）O_2并分别获得对象1和对象2的对象分类结果。对于谓词预测，我们首先将fea-turesIo1和Io2，然后采用线性分类确定谓词标签。对于边界框回归，我们使用受[42]和[39]启发的过程，使用线性投影将每个嵌入转移到Io1和Io2中的所有H W区域中。然后，我们分别预-dict每个HW的对象和边界框偏移在I/O1和I/O2中的区域。跟踪丢失Lbbox注意类型目标精度同品种器械准确度S73.879.7没有不73.479.6St73.879.9S74.481.1与不74.581.9St75.082.43357显示在PredCLS中，对象区域在SG-CLS中提供。在SGDET中，模型预计将预测对象和谓词类别并检测对象区域（成功检测具有超过0.5的IoU和地面真值边界框）。与STTran[26]类似，我们评估了有和没有图形约束设置的指标。with图约束设置意味着每个人-对象对对于图3中的每种关系类型最多有一个谓词。方法.除了提出的方法，我们还评估了两个以前的代表性方法RelDN[15]3358×× ×方法输入区域提议骨干End-to-endR@3带图约束SGCLSR@5R@10R@3R@5R@10R@3无图约束PredCLSSGCLSR@5R@10R@3R@5R@10RelDN[15]STTran[26]单个图像视频（4帧）FasterRCNNFasterRCNN[55个][55个][56]第五十六话Transformer[25]’’61.962.467.268.368.971.247.948.154.655.260.862.662.059.981.282.294.795.048.346.862.662.674.975.0RelDN[15]视频（32帧）-3DResNet[2]✓68.875.077.443.850.758.868.888.098.344.455.466.4RelDN[15]视频（32帧）-[57]第五十七话✓69.876.078.444.852.461.269.888.498.045.356.969.5SGTracker视频（4帧）-Transformer[25]✓65.971.374.052.059.065.365.786.196.951.965.577.2表3.在VirtualHAG数据集上使用不同方法的PredCLS和SGCLS结果比较（R@K：recall@K）。方法有图约束无图约束R@3 R@5 R@10 R@3 R@5R@10RelDN[15]25.426.928.025.431.235.7STTran[26]23.627.328.625.734.942.4SGTracker36.739.441.835.844.050.1表4.VirtualHAG上不同方法的SGDET结果[26]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！RelDN基于单个图像预测场景图，而STTran首先使用FasterRCNN[55]进行对象检测，然后采用时空Transformer结构来组合视频帧之间的上下文为了增强RelDN模型的时间推理能力，我们将两种视频识别方法3DResNet[2]和TimeSmer[57]引入RelDN进行特征提取。在实现过程中，我们在目标帧的地面实况边界框的坐标处剪辑32帧视频。实施详情。我们对所有模型进行了40个epoch的训练。在所有实验中，我们将图像分辨率设置为224224。在实现基于3DResNet和TimeSformer的方法时，我们将所有其他方法的初始我们分别使用了官方实现提供的3DResNet（在Kinetics-700上预训练）和TimeS-former （在 Kinetics-600 上预训练）。 3DResNet 和TimeTransformer的输入视频帧数设置为32，STTran和SGTracker的输入视频帧数设置为4。对于SGDET评估，我们在VirtualHAG上训练FasterRCNN模型20个epoch，并将相同的模型引入RelDN和STTran。我们将等式（6）和（7）中的λ1至λ5设置为1。我们使用ResNet101[56] 在 ImageNet 上进行预训练，用于SGTracker的图像特征提取，产生了7 7 2048维特征。变压器的头和层被设置为2，具有2048个前馈尺寸。5.2. VirtualHAG数据集实验消融研究。我们首先在表2中检查了VirtualHAG上不同SGTracker模型设计的对象和谓词预测性能。采用了有和没有跟踪损失Lbbox的模型，并采用了仅空间、仅时间和时空注意来组合来自先前帧的信息，Transformer编码器。实验结果表明，整合跟踪损失提高了模型的性能，为所有不同的注意力类型，可以提高模型因此，我们在剩下的实验中使用了具有时空注意力的SGTracker。场景图生成评估。表3显示了VirtualHAG上PredCLS和SGCLS的评分。对于PredCLS，具有视频级特征（3DResNet和TimeSmerer）的RelDN实现了相对较高的性能，但是单图像RelDN和STTran与基于视频的方法表现出明显的在虚拟HAG数据集中，一系列的关系需要时间推理（例如 .“opening” and “closing”), thusmaking video feature-based 单图像 RelDN 和 STTran 在SGCLS上获得了比基于视频特征的RelDN更高的准确性。与PredCLS评估不同，SGCLS评估还考虑对象分类。因此，目标图像中包含的空间信息最后，我们提出的SGTracker方法获得了比单图像RelDN和STTran更高的PredCLS分数，并且在所有测试方法中获得了最高的SGCLS分数，表明SGTracker方法可以有效地整合视频帧中的空间和时间信息。SGDET评价结果如表4所示。值得注意的是，虽然单图像RelDN和STTran使用FasterRCNN来提取对象提案，但SGTracker实现了端到端场景图生成和对象跟踪。此外，SGTracker在很大程度上优于这两种方法，显示了其在人与物体交互识别和定位方面的有效性。定性结果。在图7中，我们显示了从描述化身将书放回书架的视频中采样的帧和视点的示例结果。SG-跟踪器表现出良好的定位和对象分类性能，包括一个小对象（书）。然而，在帧277和290（视图4和7）中，SGTracker预测的人-书关系是错误的。在第290帧中，一个错误的关系是在谓词预测中加入宾语标签可能会改善结果。以帧3359帧244，视图3帧259，视图6帧277，视图4帧282，视图4帧290，视图4第290帧，视图7第356帧，视图7书好书SGTracker：person--书触摸，握住>-书;触摸，握住，抓住>-触摸，拿着>-书;触摸，抓，喝触摸，抓，喝不接触，不人-<不接近，接近，书;人-<不接近，接近，from>-book;from>-book;approaching>-bookshelf未联系>-书架人-不接触，在前面不接触>-书架的>-书架人-<接近，不接触，人-接近，不接触，在>-书架前面在>-书架前面地面真值：人入，关闭，地面真值：人-不接触，持有>-书接触，持有>-书;接触，放回>-书;接触，放回>-书;关闭，不接触，不人-<不接近，接近，人-<不接近，接近，人-<不接近，接近，人-<在前面，关闭，不是人-<在前面，关闭，不是接近>-书架未接触>-书架人人人人书架儿子每书人博人书架书架书架书书架书架书图7.VirtualHAG上的示例结果错误的预测以红色突出显示预训练PredCLSSGCLS（VirtualHAG）R@10R@20划痕67.170.945.346.8预训练68.472.145.947.7表5.Sim2real在Action Genome数据集上的研究277，SGTracker预测了书架的不正确的谓词当人类化身走向一个物体时，我们将这种关系注释为当化身停在客观对象前面时，注释关系“在...前面”。然而，上述关系是模糊的，并且难以在帧277中注释，因此我们认为这是我们提出的VirtualHAG数据集的限制之一，并且将努力在未来引入更灵活的关系注释。更多的实验结果将在补充材料中提供。5.3. Sim2real在动作基因组数据集上的应用为了评估VirtualHAG在应用于现实世界情况时的数据集效率，我们评估了在Virtual-HAG 上预训练的SGTracker 在 Action Genome 数据集 [15] （图 1 （顶部））上的 sim 2 real 性能。由于 Action Genome 和VirtualHAG具有不同的对象和谓词标签，我们通过组合这两个数据集中的所有标签来重新标记两个数据集，同时保持相同对象和谓词的标签一致。我们在VirtualHAG数据集上对SGTracker进行了10个epoch的预训练。然后，我们在Action Genome上训练模型20个epoch。如表5所示，尽管VirtualHAG是纯合成的，而Action Genome由真实场景视频组成，但我们发现在VirtualHAG上预训练提高了模型性能。结果表明，虚拟HAG的潜力，在现实世界中的人与物体的交互识别。5.4. 限制由于SGTracker使用跟踪主干，因此需要具有已知对象区域的先前帧来检测关系。对在线跟踪框架的进一步研究可以帮助实现没有地面实况对象区域的跟踪关系。目前，SGTracker单独处理图像中的每个配对对象区域，这意味着当多个对象与每个帧的人类交互时，计算成本会显著增加。采用多对象跟踪框架可能有助于处理涉及多个对象的情况。6. 结论提出了一种新的时空场景图数据集和一种基于变换器的同时识别和定位人-物关系的方法现有的手工构造的数据集包含不一致的关系注释，并且主要考虑可以从单个框架推断的关系，从而限制了它们在时间推理中的评估能力。为了解决这个问题，我们提出了一个模拟数据集VirtualHAG，它包含每帧一致的注释和各种需要时间关联的关系。大多数现有的方法没有明确地探索帧之间的时间变化，从而限制了它们区分和定位时间变化的能力。因此，我们提出了一种方法，该方法通过跟踪帧之间的人-对象关系来显式地识别时间变化，该方法在VirtualHAG上定位人-对象交互方面大大优于现有方法确认本文是根据新能源和工业技术开发组织（NEDO）委托的一个项目JPNP20006的结果编写的。该模型使用了美国国家高等工业科学技术研究院（AIST）提供的人工智能桥接云计算结构（ABCI）3360引用[1] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NeurIPS，第568-576页[2] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史吗？在CVPR中，第6546-6555页[3] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在CVPR中，第6202-6211页[4] Jie Lei，Licheng Yu，Mohit Bansal，and Tamara L Berg.Tvqa：本地化的合成视频问答。arXiv预印本arXiv：1809.01696，2018。[5] Jie Lei，Licheng Yu，Tamara L Berg，and Mohit Bansal.Tvqa+：用于视频问题回答的时空基础。arXiv预印本arXiv：1904.11574，2019。[6] Jiyang Gao，Runzhou Ge，Kan Chen，and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在CVPR中，第6576-6585页[7] 高连利，赵国，张汉王，徐兴，沈衡涛。基于注意力的lstm和语义一致性的视频字幕。IEEE Transactions onMultime-dia，19（9）：2045[8] Luowei Zhou ， Yingbo Zhou ， Jason J Corso ， RichardSocher，and Caiming Xiong.端到端密集视频字幕与掩蔽Transformer。在CVPR中，第8739-8748页[9] Vicky Kalogeiton，Philippe Weinzaepfel，Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。在ICCV，第4405-4413页，2017年。[10] 张德军，何林超，涂志刚，张师傅，韩飞，杨伯雄实时时空动作定位的运动表示模式识别，103：

下载后可阅读完整内容，剩余1页未读，立即下载