对象级视觉推理：基于视频的交互对象识别模型

107 浏览量更新于2023-10-13 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视频中的对象级视觉推理Fabien Baradel1，Natalia Neverova2，ChristianWolf1， 3，Julien Mille4和Greg Mori51UNIVERRSIT'ELYON，INSALYON，C NRS，LIRIS，F-69621，VIIIEURBANNE，FRANCE，firstname. liris.cnrs.fr2Facebook AI Research，巴黎，法国，nneverova@fb.com3INRIA，CITI Laboratory，Villeurbanne，France4大学信息实验室de Tours，INSA Centre Val de Loire，41034，Blois，France，julien. insa-cvl.fr5加拿大温哥华西蒙弗雷泽大学，mori@cs.sfu.ca抽象。人类活动识别通常通过检测关键概念来解决，如全局和局部运动、与场景中存在的对象类相关的特征以及与全局上下文相关的特征。活动识别中的下一个开放性挑战需要超越此的理解水平，并且需要具有精细区分和详细理解场景中的演员和对象之间的交互的能力的模型。我们提出了一个模型，能够学习的原因语义有意义的时空互动的视频。我们方法的关键是选择通过现有技术的对象检测网络的集成，在对象级别上进行这种推理。这允许模型学习存在于语义、对象交互相关级别的详细空间交互。我们在三个标准数据集（Twenty-BN Something-Something，VLOG和EPIC Kitchens）上评估了我们的方法，并在所有数据集上都取得了最先进的结果。最后，我们展示了由模型学习的交互的可视化，其说明了对象类及其与不同活动类相对应关键词：视频理解·人机交互1介绍视频理解的领域非常多样化，从提取由专门设计的运动捕捉系统捕捉的高度详细的信息[30]到从Web [1]中获取视频的一般意义。与图像识别领域一样，存在许多大规模视频数据集[6，24，12，11，21，13]，这些数据集允许从大量数据中训练高容量深度学习模型这些模型能够检测视频中存在的关键线索，例如全局和局部运动，各种对象类别和全局场景级信息，并且通常在识别高级抽象概念方面取得令人印象深刻的性能。然而，最近的注意力已经转向更彻底地理解各种互联网视频中的以人为中心的活动。这些努力2Baradel等人刀0.99刀0.98胡萝卜0.98胡萝卜0.97胡萝卜0.99胡萝卜0.93胡萝卜0.97人0.86胡萝卜0.72人0.65胡萝卜0.95胡萝卜0.86Fig. 1. 人类可以理解视频中发生的事情（“最左边的胡萝卜被人砍了”），只需要一对帧。沿着这些路线，这项工作的目标是探索在对象和交互的语义级别上操作的神经模型中的高级推理的能力。从原子人类动作[13]到细粒度对象交互[12]，再到日常常见的人与对象交互[11]。这使我们回到了以人为中心的活动识别观点，其中不仅是某些对象/场景的存在决定了存在的活动，而且是人类与这些场景元素交互的方式，顺序和效果对于理解是必要的在某种意义上，这类似于当前3D人类活动识别数据集[30]中的问题，但需要对互联网视频集合常见的不同环境进行更具挑战性的推理和理解人类能够推断出视频中发生了什么，只需要几个样本帧。这种能力被称为推理，是人类智能的关键组成部分作为示例，我们可以考虑图1中的一对图像，其示出了涉及铰接对象（人、胡萝卜和刀）、对象的位置和组成的变化的复杂情况对于人类来说，对发生的事情得出结论是很简单的（一根胡萝卜被人类切碎了）。人类具有在非常复杂的任务上执行视觉推理的非凡能力，而当代计算机视觉算法仍然无法实现[34，10]。已经有许多尝试通过训练神经模型来解决视觉问答（VQA）问题，从而使神经模型具有推理能力在提出的解决方案中，有无先验数据规范化[25]，构建网络以建模关系[29，40]以及更复杂的基于注意力的机制[17]。同时，研究表明，通过简单地发现数据中的偏差，可以在现有VQA数据集上实现高性能[19]。我们将这些努力扩展到视频中的对象级推理。由于视频是一个时间序列，我们利用时间作为一个明确的因果信号，以确定因果对象关系。我们的方法涉及“时间箭头”[ 26]的概念，其涉及时间的“沿电子方向”或“沿y方向”。在图1中，在胡萝卜切换到切碎的胡萝卜之前使用刀。视频中的对象级视觉推理3国在右边。对于视频分类问题，我们希望识别视频中发生的影响其标签B的因果事件A。但是，我们不是直接从像素中识别这个因果事件，而是从对象级别的角度来识别它。根据这一假设，我们建议在物体检测和活动识别之间架起一座桥梁。对象检测允许我们从具有所有当前对象实例及其语义含义的场景中然而，详细的活动理解需要对这些语义结构进行推理，确定哪些对象参与了交互，具有什么性质，以及这些交互的结果是什么。为了使问题复杂化，场景的语义结构可能在视频期间改变（例如，在一个或多个场景中）。新的对象可能出现，人可能从场景的一个点移动到另一个点）。我们提出了一个对象关系网络（ORN），通过空间和时间检测到的语义对象实例之间的推理的神经网络模块。ORN有可能解决这些问题，并进行关系推理的目的，活动识别的对象交互。一组对象检测掩模，范围在不同的对象类别和时间发生的输入到ORN。ORN能够推断成对关系在不同时刻检测到的物体之间的差异。代码和对象掩码预测将公开6.2相关工作行动识别。动作识别中的预深度学习方法集中在手工制作的时空特征上，包括时空兴趣点，如SIFT-3D、HOG 3D、IDT，并使用词袋技术聚合它们一些手工制作的表示，如密集轨迹[39]，仍然具有竞争力的性能，并且经常与深度学习相结合。最近，工作已经转向深度学习。早期的尝试通过时间池化和3D卷积使2D卷积网络适应视频[2，37]。3D卷积现在被广泛用于活动识别，并通过从ImageNet/ILSVRC [28]通过3D内核[6]训练的图像分类模型中膨胀预训练的2D卷积内核来引入特征转移。3D内核的缺点是它们的计算复杂性和大量的可学习参数，导致引入2.5D内核，即以2D空间内核的形式的可分离滤波器，然后是时间内核[41]。时间卷积的替代方案是各种门控形式的递归神经网络（RNN）（GRU，LSTM）[16，8]。Karpathy等人。 [18]对通过卷积和池化在空间和时间维度上连接信息的不同方式进行了广泛的研究。在具有粗糙活动类的非常一般的数据集上，他们已经表明，在对单个帧进行分类和对具有更复杂的时间聚合的视频进行分类之间存在很小的差距。6https://github.com/fabienbaradel/object_level_visual_reasoning4Baradel等人Simoyan等人。 [32]提出了一种广泛采用的双流架构用于动作识别，该架构提取两个不同的流，一个处理原始RGB输入，一个处理预先计算的光流图像。在稍窄的设置中，关于视频内容的先验信息可以允许更细粒度的模型。关节式姿势广泛用于保证有人在场的情况[30]。姿势估计和活动识别作为一个联合（多任务）问题，最近已经证明可以改善这两项任务[23]。注意力模型是一种以通常通用的方式构建深层网络的方法。它们能够迭代地将注意力集中到数据中的特定部分，而不需要关于部分或对象位置的先验知识。在活动识别中，近年来它们已经获得了一些牵引力，无论是对铰接姿势（关节）[33]，特征图单元[31，36]，时间[42]还是通过可区分作物[3]的原始RGB输入中的部分的软关注。当原始视频数据被全局输入深度神经网络时，它们专注于提取时空特征并执行聚合。已经表明，这些技术在具有挑战性的细粒度数据集上失败，这些数据集需要学习长时间依赖性和人机交互。已经做出了集中的努力来创建大规模数据集以克服这些问题[12，11，21，13]。关系推理。关系推理是一个很好的研究领域，从视觉推理[29]到物理系统的推理[4]。Battaglia等人 [4]介绍了一种完全可微的网络物理引擎，称为交互网络（IN）。IN学习预测几个物理系统，如引力系统，刚体动力学和质量弹簧系统。它显示了令人印象深刻的结果;然而，它从虚拟环境中学习，该虚拟环境提供对几乎无限的训练示例的访问。基于同样的观点，Santoro等人 [29]引入了关系网络（RN），这是一种用于深度网络推理的插件模块。 RN 显示了人类水平的 per-functionalinVisualQuestionAnswering （ VQA ） byinferringpairwise“o b ject“re l at i on s. 然而，就我们的工作而言，[ 29]中的“对象”不是指语义上有意义的实体，而是指特征图中的离散单元。因此，交互的数量随着特征图分辨率的增加而增加，这使得难以缩放。此外，最近的一项研究[19]表明，其中一些结果受到数据集偏差的影响，并且不能很好地推广到数据集设置的微小变化。在同一行中，最近的工作[35]已经显示出使用来自虚拟环境的训练示例以无监督方式发现对象及其交互的有希望的结果。在[38]中，注意力和关系模块在图结构上组合。从不同的角度来看，[25]表明，可以以数据驱动的方式学习关系推理以进行视觉推理，而无需任何先验，使用基于条件信息的特征仿射变换的条件批量归一化。在相反的方法中，强结构先验以复杂注意力机制的形式被学习：在[17]中，外部存储器模块与对输入图像和文本问题的注意力处理相结合，执行VQA的迭代推理。视频中的对象级视觉推理5t=1不虽然大多数讨论的工作已经被设计为VQA和物理系统和环境的预测，dictions，扩展已经提出了视频理解。已经尝试在视频中进行掩码或分割级别的推理以用于视频预测[22]，其中目标是利用语义信息以能够进一步预测未来。Zhou等人[5]最近通过将关系网络扩展到视频分类，在具有挑战性的数据集上展示了最先进的性能。他们所选择的实体是框架，他们采用RN的原因，在时间层面上，只有通过成对的框架关系。该方法是有前途的，但仅限于时间上下文信息的形成，而不理解本地对象的水平，这是由我们的方法提供的。3时空中的对象级视觉推理我们的目标是从视频序列中提取多种类型的线索：预测对象及其语义类之间的相互作用，以及场景中的局部和我们将此目标表述为具有两个头的神经架构：活动头和物体头。图2给出了模型的功能概述。两个头部共享共同特征，直到图中红色所示的某个层。图中以橙色示出的活动头是采用卷积层（包括时空卷积）的基于CNN的架构，其能够提取全局运动特征。然而，它不能从对象级别的角度提取信息。我们利用对象头来执行推理预测对象实例之间的关系。我们的主要贡献是一个新的结构化模块，称为对象关系网络（ORN），它能够执行检测到的对象实例之间的时空推理的视频。ORN能够通过建模对象如何移动，出现和消失以及它们如何在两个帧之间交互来进行推理。在本节中，我们将首先描述我们的主要贡献，ORN网络。然后，我们提供有关对象实例特征、活动头以及最终识别任务的详细信息。在下文中，小写字母表示1D向量，而大写字母用于2D和3D矩阵或更高阶张量。我们假设我们系统的输入是T的视频由X 1表示的帧：T=（Xt）T其中Xt是时间步长t处的RGB图像。目标是学习从X1：T到活动类y的映射3.1对象关系网络ORN（Object Relation Network）是一个在语义对象之间进行空间和时间推理的模块。它以有效的方式捕获对象移动、到达和交互。我们假设对于每个帧t，我们有一组对象k，具有相关联的特征ok。物体和特征由第3.2节中描述的物体头部检测和计算。6Baradel等人时空块基础网络活动水头样品头全局空间池Vn×2D物体特征活动特征RNN活性损失UROI池视觉推理RNN活性损失成对模块目标掩模检测器Bn×2D对象遮罩集对象类丢失时间采样图二. 模型的功能概述。全局卷积模型提取特征并分成两个头部，分别训练用于预测活动类和对象类。后者是通过在对象实例掩码上进行池化来预测的，对象实例掩码是通过附加的卷积模型来预测的对象实例通过视觉推理模块。关于视频中的活动的推理本质上是时间性的，因为活动遵循时间箭头[26]，即时间维度的因果关系要求过去的行为在未来产生后果，而不是相反。我们通过抽样处理：在时间t上运行过程，并且对于每个时刻t，对具有ht′

下载后可阅读完整内容，剩余1页未读，立即下载