视频中的人机交互热点

15 浏览量更新于2023-10-12 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8688视频中的接地人机交互热点Tushar Nagarajan奥斯汀tushar@cs.utexas.eduChristophFeichtenhoferFacebook AI Researchfeichtenhofer@fb.com克里斯汀·格劳曼UT Austin和Facebook AI Researchgrauman@fb.com摘要学习如何与物体交互是实现具体视觉智能的重要一步，但现有技术受到繁重的监督或传感要求的困扰。我们提出了一种直接从视频中学习人机交互“热点”的方法。我们的方法不是将启示视为手动监督的语义分割任务，而是通过观看真实人类行为的视频并预测提供的动作来学习交互。给定一个新的图像或视频，我们的模型推断出一个空间热点图，指示在潜在的交互中对象将被操纵的位置-即使对象当前处于静止状态。通过第一人称和第三人称视频的结果，我们展示了在真实的人与物体交互中接地启示的价值。我们的弱监督热点不仅与强监督启示方法竞争，而且它们还可以预测新对象类别的对象交互。项目页面：http://vision.cs.utexas。edu/projects/interaction-hotspots/1. 介绍今天理解物体的功能是超越被动意识系统的基础（例如，那些受过图像识别训练的人）到能够感知并与其环境交互的活跃的、具体的代理--无论是在搜索和救援行动中清除碎片、在厨房做饭，还是甚至与人们一起Gibson它表明对象具有一把椅子提供坐，一把扫帚提供清洁），并且已经在计算机视觉和机器人技术中在动作、场景和对象理解的上下文中被广泛研究[22]。然而，抽象的概念在Facebook AI Research实习期间完成的工作观看自然互动图1：设想的概念。我们建议直接从人们与物体自然互动的视频中学习物体affor- dances。由此产生的“交互热点”的表示是基于来自视频的真实人类行为，而不是手动图像注释。参见第4以视频数据集为例。”目前的启示学习方法解决的问题只是故事的一半。例如，对于一个负责用扫帚扫地的代理，知道扫帚柄提供握持和扫帚提供清扫是不够的。智能体还需要知道抓住物体的最佳方式，为了成功的交互需要操纵物体上的特定点，如何使用物体来实现目标，甚至它对如何与其他物体交互提出了什么建议。学习如何与物体进行交互是一项挑战。传统方法面临两个关键限制。首先，将示能表示视为对象形状或外观属性的方法特别是，学习分割指定的对象部分[37，48，36，38]可以捕获注释者其次，现有的方法受到其繁重的监督和/或传感器要求的限制。它们允许使用手动绘制的蒙版或关键点[45，10，12]访问训练图像，有些还利用了其他传感器，如深度[31，65，66]或力手套[3]，所有这些都限制了可扩展性。这些瓶颈也阻碍了普遍化--“互动热点”8689注意：样本通常是在人工实验室桌面环境中捕获的[36，31，48]，标签成本自然将范围限制在一组狭窄的对象上。鉴于这些问题，我们建议直接从人们与物体自然互动的视频中学习基于真实人类行为的启示，而无需任何关键点或面具监督。具体来说，我们介绍了一种方法来推断一个对象交互热点将静止的非活动对象的图像通过直接从视频中学习热点，我们避开了手动注释产生的问题，避免了强加与真实交互无关的部分标签，并准确地发现了人们如何与野外物体进行交互。我们的方法工作如下。首先，我们使用人们进行日常活动的视频来学习动作识别模型，该模型可以识别在新视频中积极进行的一系列动作。然后，我们引入了一个预测模型来从视频模型中提取信息，这样它就可以估计一个不活动对象的静态图像在交互过程中是如何变化的。通过这种方式，我们学会了预测静止物体的合理相互作用（例如，尽管没有手或刀在视野中，但在胡萝卜上感知到“cured”）。最后，我们提出了一个激活映射技术，定制的细粒度对象的相互作用，以获得互动热点的预期模型。因此，给定一个新的图像，我们可以假设一个对象的交互热点，即使它没有被主动操纵。我们在两个不同的视频数据集上验证了我们的模型：OPRA [12]和EPIC-Kitchen [7]，涵盖数百个对象和动作类别，提供第一人称和第三人称视角的视频。我们的研究结果表明，仅使用动作和对象标签作为训练视频剪辑的弱监督，我们的交互热点可以比以前的弱监督方法更准确地预测对象此外，我们表明，我们的热点图可以预测在训练过程中从未见过的新对象类的对象功能，并且我们的模型总之，我们做出以下贡献：• 我们提出了一个框架，它集成了动作识别，一个新颖的预期模块和功能本地化，直接从视频中学习对象启示，而无需手动注释的分割/关键点。• 我们提出了一个类激活映射策略，专为细粒度的对象交互，可以学习高分辨率，本地化的激活地图。• 我们的方法比以前的弱监督方法更准确地预测启示，甚至竞争，有效地利用强监督方法，并且可以为训练视频中未观察到的新对象类预测对象交互。2. 相关工作视觉示能。启示理论[17]最初来自心理学工作，已被用于研究计算机视觉中的几项任务[22]。在行动理解中，启示为行动预期提供了背景[32，43，64]，并有助于学习更强的行动识别模型[30]。在场景理解中，它们有助于决定在场景中的何处可以执行特定动作[46，18，59，9]，学习场景几何[21，15]，或了解社会情况[5]。在对象理解中，示能表示有助于对对象功能和交互进行建模[52，61，66]，并且已经与手部姿势/配置[29，53，3]和对象运动[19，20]一起进行了研究。在这些任务中，对示能表示的选择差异很大，跨越了人类姿势、物体轨迹、感觉运动抓握和3D场景重建。通常，这导致专用硬件和繁重的传感器要求（例如，力手套、深度照相机）。我们建议自动学习适当的表示，直接从RGB视频的人与物体的互动视觉启示。接地的启示。对象部分的像素级分割[48，36，38]是一种常见的示能表示，监督语义分割框架是其典型方法[36，45，38，10]。这些分割传达了关于对象功能的高级信息，但依赖于手动掩码注释来训练-这不仅成本高昂，而且还可能给出对象实际使用方式的不切实际的与我们的方法不同，这种方法是基于人类行为的表征也得到了探索。在图像中，人体姿势作为对象启示的代理来揭示模式与乐器[61，62]或可能的对象交互区域[4]的交互。给定视频，方法可以解析3D模型以估计物理概念（速度、力等）。以便对对象交互进行分类[65，66]。对于教学视频，方法探索了提取对象状态[1]、对象交互模式[8]、交互区域[12]或给定人的骨架姿势的对象的预期轨迹我们介绍了一种新的方法，用于学习基于人-对象交互的示能“热图”，直接来自观看人们使用对象的真实世界视频。我们的模型在两个主要方面不同于其他方法。第一，没有关于互动的先验知识，8690使用人的姿势、手的位置或3D对象重构的形式。所有关于交互的信息都直接从视频中学习。其次，我们的模型不是从手动注释的地面真实掩码或关键点[36，45，38，10，48，47，12]中学习，而是仅使用视频剪辑的粗略动作标签来指导学习。视频预告预测视频中的未来帧已经在计算机视觉中得到了广泛的研究[42，35，57，34，51、54、58、39、60、56、28]。未来的预测已经-应用于动作预测[26，55，32，44]，活动对象预测[16]，并指导机器人技术中的演示学习[13，14，11]。与这些工作相比，我们设计了一个新的预期任务-学习对象互动的视频舞蹈。我们的模型不是预测未来的帧或动作标签，而是预测特征空间中不活动对象（静止，未交互）和活动对象（正在进行交互）之间的对应关系，然后我们使用它来估计启示。3. 方法我们的目标是学习“互动热点”：预测和解释人-物交互的特征对象区域（见图1）。用于学习示能性分割的传统方法仅解决了该目标的一部分。它们的手动注释分割获得起来是昂贵的，不捕获对象交互的动态，并且基于注释者我们不依赖这种分割作为交互的代理，而是在更直接的源上训练我们的模型-人们与物体自然交互的视频，以及这些物体静止时的图像/帧我们认为，这些视频包含了许多必要的线索，可以拼凑出物体是如何相互作用的。我们的方法包括三个步骤。首先，我们训练一个视频动作分类器来识别每个提供的动作（第3.1节）。其次，我们引入了一种新的交互模型，该模型将非活动对象的静态图像映射到其提供的操作（第3.2节）。第三，我们在联合模型中提出了一种激活映射技术，用于发现对象上的交互热点，而无需任何关键点或分割监督（第3.3节）。给定一个新对象的静态图像，我们使用学习的模型来提取其热点假设（第3.4节）。重要的是，该模型甚至可以针对训练期间未看到的对象类别来推断热点，并且无论对象是否在测试图像中被主动交互。3.1. 从视频中学习负担得起的操作我们的关键见解是从视频中了解对象交互特别是，我们的方法学习预测跨对象的行为，然后将视频线索转换为静止对象的静态图像。就这样，随着-在没有明确的区域标签和直接估计物理接触点的情况下，我们学会了预测物体的使用。在全文中，我们使用术语训练期间的状态）和测试期间的状态设A表示所有提供的动作的集合（例如，push，pushable，cup），并且令O表示对象类别的集合（例如，平底锅、椅子、搅拌机），其中每一个都提供A中的一个或多个动作。在培训过程中，我们有视频剪辑，其中包含各种组合的提供交流-和对象。首先，我们训练一个视频分类模型来预测视频片段中发生的动作。对于T帧的视频，V={f1，.，f T}并提供动作类a，我们使用卷积神经网络骨干对每个帧进行编码以产生{x1，.，x T}。每个xt都是张量，通道，每个通道具有n×n空间范围，其中d和n由所用的特定骨架决定。1这些特点然后在空间上合并以获得每帧的dg t= P（x t），其中t = 1，. . . ，T，（1）其中P表示L2池化算子。我们在第3.3节中对比传统的平均池来证明这一点。我们进一步聚合帧级特征随时间的变化，h∈（V）= A（g1，. . . ，g T），（2）其中，A是视频聚合模块，其将视频的帧特征组合成整个视频的聚合特征h在我们的实验中，我们使用长短期记忆（LSTM）递归神经网络[25]来计算A。我们注意到，我们框架是通用的，而其它视频分类体系结构（例如，3D ConvNets）。然后，聚合视频特征h_c被馈送到线性分类器以预测所提供的动作，该线性分类器使用交叉熵损失L_cls（h_c，a）来训练。一旦经过训练，该模型可以预测在视频剪辑中观察到哪些动作类任意长度。架构见图2（左）。注意，分类器不可知的，因为我们训练它来识别跨提供该动作的任何对象类别的实例提供的动作。换句话说，分类器知道|一|全部行动，不|一|× |O|;它将px + X识别为一个实体，而不是分别用纸杯和纸杯和碗。一旦我们利用模型，将热点概括为不熟悉的对象类。3.2. 对非活动对象示能表示的预期到目前为止，我们有一个视频识别模型，可以识别序列中的活动人类对象1例如，我们的实验使用修改后的ResNet [23]主干，导致d=2048和n= 28，或每帧2048×28×28特征8691˜˜˜图2：我们的培训（左）和测试（右）框架的图示。左面板：我们模型的两个组件- 视频动作分类器（Sec.3.1）和预期模块及其相关损失（第3.2节）。3.2和3.3）-联合训练以预测视频剪辑中的动作类，同时构建对象的可供感知内部表示。右图：一旦经过训练，我们的模型就会为一个新的非活动对象图像（左上方的冰箱图像）生成它首先会产生幻觉，如果对象是活跃的（右上图），会出现的我们的方法可以推断热点，即使是训练视频中看不到的新对象类别;例如，学习如何打开微型冰箱有助于预测如何打开冰箱。注意，xI，xI是在特征空间中，而不是在pi x el空间中。交互. 这个模型单独将集中于手接近对象），但不会对不活动的实例（静止且不与之交互的对象的静态图像）作出强烈响应。事实上，先前的工作表明，这两种物体的化身在视觉上是完全不同的，以至于需要不同的物体。然后，我们定义（a）不活动对象的预期活动状态与（b）由分类器为训练序列选择的活动状态这种损失要求预期模型根据实际的训练视频，假设一个对象在交互过程中看起来像什么的基础表示：L（x，x）= ||P（x）− P（x）||.（五）喷射检测器，例如，识别开放式和封闭式的crowaves [41].ant I tt2相反，我们的目标是让我们的系统通过观看人们处理物体的视频来了解物体的相关信息，然后将这些知识映射到新的非活动物体照片/帧。为了弥补这一差距，我们引入了一种蒸馏-- 基于预测模块Fant，其将不活动对象xI的嵌入变换为不发生交互的振铃，进入其活动状态，在该状态下与以下各项交互：此外，我们还包括辅助分类损失Laux（h1（xI），a），以确保单帧预期特征xI预测所提供的动作，并且我们的模型对处理单帧和视频序列都是鲁棒的。总的来说，这些组件允许我们的模型来估计一个静态的不活动的对象可能看起来像在功能空间，如果它是互动。它们提供xI=Fant（x I）。（三）经典动作识别和affor之间的关键联系，参见图2，左上角。在实验中，我们考虑两个来源的非活动对象训练图像xI：来自训练序列的帧，显示动作开始前的对象（EPIC），或静止时显示的对象的目录照片（OPRA）。在训练过程中，预测模块由视频动作分类器指导，该分类器从给定视频中选择适当的活动状态作为LSTM对真实动作最有信心的帧xtt t舞蹈学习正如我们接下来将定义的，通过Fant的激活映射然后提供关于原始静态图像上的哪些空间位置与它将如何交互最强相关的信息。3.3. 交互热点激活映射在测试时，给定一个不活动的对象图像q，我们的目标是推断交互热点图Ha，对于所有a∈ A，每个tt=arg minLt ∈1..不cls（A（g1，.，g t），a），（4）其中H×W矩阵概括了表示物体相互作用特征的兴趣，其中H，W表示源图像的高度和宽度2Intu-其中a是真实的提供动作标签，Lcls再次是因此，热点地图应该能够捕捉到交叉熵损失分类使用的聚合在每个时间t隐藏状态。2为了处理一个新的视频，我们简单地计算每帧的热点。非活动图像（列车）XI预期网络“活动”视频帧xt*非活动图像（测试）XI假想的“活动”框架~xI激活梯度A（LSTM）“开热点地图行动假设a=“可拉动”视频训练数据动作分类器动作分类器8692~我~我我我采取反过来举行触摸触摸推图3：我们的方法（底部）与传统动作识别+Grad-CAM（顶部）。我们的模型生成本地化和与供应相关的激活。在动作a期间将被操纵或以其他方式变换的对象，指示其示能表示。注意，每个动作a∈ A都有一个映射。我们设计了一种激活映射方法，将不活动图像嵌入x1到交互预测Fant（x1），并且最后到热点，将其定制用于发现热点图。对于嵌入xI和动作类a的非活动图像，我们计算得分的梯度，关于嵌入的每个通道的动作类。这些梯度用于加权每个通道中的单个空间激活，充当它们的注意力掩模结果张量的正分量在输入嵌入中的所有通道上累积，给出动作类的最终热点图Ha（xI）这些差异正是由于我们的预期蒸馏模型与识别模型联合训练（第3.2），以及上述激活映射策略。我们提供了一个定量的比较，在第二节。4.第一章3.4. 训练和推理在训练过程中（图2，左），我们生成嵌入{x1，…xT}的每一帧。这些通过A来生成视频嵌入h_i，然后通过分类器来预测所提供的动作标签a。并行地，计算非活动对象图像嵌入xi，并将其用于训练预测模型以预测其活动状态x。每个训练实例的完整损失函数为：L（V，I，a）=λclsLcls+λantLant+λauxLaux，（7）其中λ项控制损失的每个分量的权重，I表示不活动对象图像。对于非活动测试图像的推断（图2，右），我们首先生成它的图像嵌入xI。然后，我们假设它的主动交互嵌入x，并使用它来预测所提供的动作得分。最后，使用等式6，我们生成|一|x1上的热图，每个提供的动作类一个。这一堆热图就是交互热点。Ha（xI）=简体中文K.阿吉xk我、（6）注意，我们为原始的非活动图像x而不是为假设的活动输出x产生激活图，即，xkI其中，xk是输入帧嵌入的第k个通道，并且k是逐元素乘法运算符。这仅在梯度在空间上不均匀时才有意义（例如，如果x1是用于分类的平均汇集，则不是）。我们使用L2池来确保空间位置产生梯度作为其激活幅度的函数。接下来，我们讨论空间分辨率。在典型的ResNet主干中，重复下采样特征降低的空间分辨率对于分类是合理的我们将最后两个残差阶段的空间步幅设置为1（而不是2），并对其过滤器使用膨胀。这将空间分辨率提高了4倍，达到n=28，使我们的热图能够捕获更精细的细节。我们的技术与其他特征可视化方法相关[50，63，49]。然而，我们使用减少的步幅和L2池来确保梯度本身是空间局部的，并且像[50]一样，我们不对梯度进行空间平均-我们直接通过它们对激活进行加权并在通道上求和。这与 GradCAM [63 ， 49] 形成对比，GradCAM [ 63，49 ]产生的地图对于粗略的对象局部化是有用的，但是由于其低空间分辨率和分散的全局响应而不足以用于交互热点。与简单地将GradCAM应用于动作识别LSTM（图3，顶行）相比，我们的模型产生了更丰富的交互动作热点（底行）。不这样做会产生与输入图像不一致的激活标测图，这会损害性能（参见附录中的消融研究我们强调，互动热点是可预测的，即使是不熟悉的对象。通过训练跨越对象类别边界的所提供的动作，系统学习表征示能表示的外观和交互的一般属性。因此，我们的方法可以预测，例如，一个不熟悉的厨房设备可能会被操纵，因为它已经学习了各种其他对象是如何交互的。类似地，热图可以针对在训练中没有看到的新颖动作对象对进行半透明化（例如，请看Supp。以了解实施细节。4. 实验我们的实验互动热点探索他们的能力，描述的启示对象，概括预期启示不熟悉的对象，并编码对象类之间的功能相似性。数据集。我们使用两个数据集：• OPRA[12]包含应用程序的产品评论视频（例如，冰箱，咖啡机）从YouTube上收集。每个实例是产品特征的短视频演示V按下按钮，我们通过预期网络传播梯度8693[12]第十二话手动示能表示关键点、操作标签强20k正确类的非活动对象可以比不正确类更好地预测活动特征（见附录）。以取得详细数据）。4.1. 交互热点作为固定的示能在本节中，我们评估两件事：1）我们的模型学习对象启示的效果如何2）它能在多大程度上为此，表1：所有方法的监督来源和类型。我们的方法学习交互热点，而无需像注释分割/关键点这样的强监督。N是实例的数量咖啡机）与产品的静态图像I配对，交互标签A（例如，突出显示静态图像上的按钮有大约16k个形式为（V，I，a，M）的训练实例，跨越7个动作。• EPIC-Kitchen[7]包含厨房活动的无脚本，以自我为中心的视频。每个剪辑V用动作和对象标签a和o来注释（例如，切割番茄、开放式冰箱）以及用于与之交互的对象的一组绑定框B（每帧一个）。有1040k的训练实例，（V，a，o，B），跨越352个对象和125个动作。我们对地面实况热图M进行众包注释，导致超过20个动作的1.8k个注释实例，31个物体（见附录）以取得详细数据）。这两个视频数据集跨越不同的设置。OPRA有第三人称视频，其中被审查的人和产品清晰可见，并涵盖了少量的行动和产品。 EPIC-Kitchen有第一人称的视频，没有脚本的厨房活动和更多的动作和物体词汇;当人操纵对象时，他们仅部分可见。总之，它们提供了很好的多样性和困难，以评估我们的模型的鲁棒性。3对于这两个数据集，我们的模型使用只有行动标签作为监督，和一个不活跃的形象，我们的预期损失Lant。我们强调，（1）注释的热图M仅用于评估，（2）地面实况与我们的目标一致，因为注释研究人员要求参与者观看一段交互视频剪辑，以决定为对象的启示标注哪些区域虽然OPRA带有与每个视频实例相关联的确切产品的图像I，但EPIC没有。在-相反，我们使用提供的边界框B从帧中裁剪出不活动的对象，并随机选择一个与视频中的对象类标签匹配的对象。为了解释外观失配，代替等式5中的L2损失，我们使用三重损失，其使用3其他启示分割数据集[36，37]与OPRA/EPIC类的词汇重叠最小，因此不允许对我们的设置进行评估，因为我们从视频中学习。我们在视频剪辑上训练我们的模型，并在对象静止的非活动基线。我们根据几个基线和最先进的模型来评估我们的模型。• CENTERBIAS在图像的中心产生固定的高斯热图。这是解释可能的中心偏倚的初始基线[6，33，40，27]。• LSTM+GRAD-CAM使用经过训练的LSTM进行动作识别，其动作类标签与我们的方法，然后应用标准的Grad-CAM [49]来获得热图。它没有预测模型。• SALIENCY是一组基线，使用直接在显着性注释/眼睛注视上训练的模型来估计图像中最显着的区域：[27]第二十七话MLNET [33]第二次世界大战期间， [40]。我们使用作者• DEMO2VEC[12]是一种监督方法，使用来自交互视频演示的上下文生成可供性热图。我们使用作者热图预测。• IMG2 HEATMAP是一种监督方法，它使用完全卷积的编码器-解码器来预测启示图像的热图它作为一个简化版本的DEMO 2VEC，在训练过程中缺乏视频上下文。SALIENCY基线捕捉了空间重要性的一般概念。它们为图像生成单个热图，而不管动作类别，因此，比我们的每个动作启示更不容易表达。它们是弱监督的，因为它们被训练用于不同的任务，尽管对于该任务具有强监督（热图，凝视点） DEMO 2VEC 和 IMG2HEATMAP受到强烈监督，并且代表了从手动标记的图像中学习示能表示的更传统的示能表示学习技术[36，45，38，10]。表1总结了所有方法的监督与其他方法不同，我们只使用类标签作为训练的弱监督接地的可供性预测。首先，我们将每个交互的地面实况热图与我们的热点和基线的热图进行比较。我们将误差报告为KL-发散，遵循[12]，以及来自显着性文献[2]的其他指标（SIM，AUC-J）。表2（左）总结了结果。我们的模型在两个数据集的这些结果表明，我们监督来源类型N[27]第二十七话记录的眼睛注视弱60kSALIENCY[40，6，33]手动显著性标签弱10k我们操作，对象标签弱20kIMG2 HEATMAP手动启示关键点强20k8694WSSSKLD↓SIM↑AUC-J↑KLD↓SIM↑AUC-J ↑中心偏差LSTM+ GRAD- CAM[27]第二十七话MLNET[6][33]第三十三话[40]第四十话我们11.1328.5732.4284.0221.8972.1161.4270.2050.2090.2450.2840.2960.3090.3620.6250.6200.6460.7630.7200.7690.80610.6606.4702.2416.1161.3521.5081.2580.2220.2570.2730.3180.3940.3950.4040.6340.6260.6140.7460.7510.7740.785下载中心2HEATMAP[12]第十二话1.4731.1970.3550.4820.8210.8471.400–0.359–0.794–KLD↓SIM↑AUC-J↑KLD↓SIM↑AUC-J ↑6.2810.2440.6805.9100.2770.6995.4050.2590.6444.5080.2550.6642.0830.2780.6941.9740.2980.6732.4580.3160.7783.2210.3610.7991.7570.3180.7421.2970.4000.7931.6980.3370.7901.2960.4060.8081.3810.3740.8261.2490.4050.8171.4310.3620.8201.4660.3530.770––––––OPRA EPIC对新对象的概括表2：OPRA和EPIC上的相互作用热点预测结果。左：我们的模型在所有指标上都优于其他弱监督（WS）方法，并且接近强监督（SS）方法的性能，而在训练期间没有热图注释的特权右图：我们的模型不仅可以推广到新的实例，而且还可以准确地推断出训练过程中看不到的新对象类别的交互热点。建议的热点概括在一个目标功能水平。值在对象类的三个拆分中取平均值。（↑/↓表示较高/较低更好。）DEMO2VEC[12]仅在OPRA上可用，并且仅适用于可见的类别。图4：非活动图像上的示能性热图。上图：OPRA上用于保持、旋转、推送（红色、绿色、蓝色）的预定示能热图。底行：EPIC上切割、混合、开启（红色、绿色、蓝色）的预测热图。我们的模型突出了与人与物体互动方式一致的空间affor- dances。请注意，SALIENCY[40]只生成一个“重要性”图（黄色）。最后一列：失败案例最好用彩色观看。模型可以捕捉复杂的交互线索，这些线索描述了比显著性更专门的重要性概念在OPRA上，与最强基线相比，我们的模型实现了高达25%（KLD）的相对改进，并且在两个指标上与强监督基线方法之一相匹配。在EPIC上，我们的模型实现了7%（KLD）的相对改进。EPIC具有更大、更细粒度的动作词汇表，导致更少、更少的空间上不同的热点。因此，为所有操作产生冗余热图的基线会人为地受益在EPIC上，尽管我们的结果仍然更好。各数据集的基线趋势相似。与图3中的示例一致，LSTM+GRAD-CAM表2中的结果表明，简单的动作识别模型显然不足以学习启示。我们的预测模型弥合了训练视频和测试图像之间的（非）活动间隙所有的显着性方法都比我们的模型表现得更差，尽管它们可能意外地受益于厨房电器具有被设计为视觉显着的交互区域的事实（例如，按钮、手柄）。与我们的方法相反，没有一个显著性基线区分启示;它们产生一个代表“重要”显著点的单一热图对于这些方法来说，刀刃对于“割”的动作和对于“拿”的动作一样重要，它们无法解释具有多重属性的物体。IMG2HEATMAP和DEMO2VEC生成了更好的示能性热图，但代价是加强了监督。我们的方法实际上接近他们的准确性，而无需使用任何手动热图进行训练。请看Supp。一个消融研究的文件，进一步检查我们模型的每个部分的贡献。简而言之，我们的类激活映射策略和贯穿预期模型的推进梯度是至关重要的。设计的所有元素都发挥作用，以实现我们完整模型图4显示了非活动对象的示例热图。我们的模型能够突出显示提供动作的特定对象区域（例如，咖啡机上的旋钮在第1栏中为“可旋转的”），仅在观看对象交互的视频之后弱监督的SALIENCY方法突出显示单个地图中的所有突出对象部分，而不管所讨论的交互。相比之下，我们的模型突出显示了一个对象的多个不同的启示。为了生成可比的热图，DEMO2VEC需要带注释的热图进行训练，并在推理过程中提供一组视频演示，而我们的模型可以假设对象功能，而无需这些额外的要求。对新奇事物的概括。互动热点8695图6：非活动与活动对象嵌入。通过假设与对象的潜在交互，我们的模型学习了捕获跨对象类的对象之间的功能相似性的表示，而不是纯粹基于外观的相似性。图5：EPIC视频中未见过的对象类的交互热点。我们的模型预计在交互发生之前，静止（第一列）的重要的是，该图中所示的对象类别在训练期间是看不到的;我们的模型学习概括交互热点。例如，在训练视频中没有橱柜或南瓜，但我们的方法分别预测了这些对象将如何被打开和切割。我们的方法适用于每帧。推断出新奇物体类别是如何工作的？我们接下来测试如果我们的模型学习了一个与对象无关的交互表示-一个不与对象类绑定的表示。这是一个有用的属性，开放世界的情况下，不熟悉的对象可能必须进行交互，以实现一个目标。我们把对象范畴O分为熟悉的和不熟悉的两类。其从未在某些对象上训练过（例如，橱柜、南瓜）-能够在交互发生之前4.2. 功能相似性的交互热点最后，我们展示了我们的模型如何在其学习的对象表示中编码功能对象的相似性。我们通过查看其他对象类中的最近邻图像，将非活动对象嵌入空间图6示出了示例。非活动对象空间（顶部分支）中的邻居捕获典型的基于外观的视觉相似性，这些相似性对于对象分类是有用的-形状、背景等。相比之下，我们的活动对象空间（底部分支，黄色框）根据对象的交互方式重新组织对象。例如，冰箱，橱柜和微波炉，在一个炭-miliar objectsO=OfSOu 熟悉的人是那些看到特色方式（右上）;刀，抹刀，钳子，通常握在它们的手柄上（右下）。我们的模型与培训视频和不熟悉的互动是只在测试中看到。我们在EPIC中省略了10/31个对象，在OPRA中省略了9/26个对象，并沿着这些对象分割来划分我们的视频训练/测试集我们只在具有Of中熟悉对象的剪辑上训练模型。例如，虽然在培训分裂，微波炉和冰箱做。这些类别的广告在视觉上是不同的，但它们以非常相似的方式相互作用（“打开”）。如果我们的模型能够成功地推断出新的、看不见的对象的热图，那么它将表明，我们学习到了一种与对象身份没有很强联系的对象函数的一般意义。表2（右）显示了结果。我们看到的趋势与上一节大致在OPRA上，我们的模型在所有指标中表现出所有基线，并且能够推断出不熟悉对象类别的热点图，尽管在训练期间从未见过它们。在EPIC上，我们的方法仍然是最好的弱监督方法。定性结果（图5）支持我们的数字，显示我们的模型应用于EPIC Kitterfly的视频片段，就在动作发生之前。我们的模型-学习指示对象之间的功能相似性的表示，尽管对象在视觉上是不同的参见补充用于对所有图像进行聚类可视化。5. 结论我们介绍了一种学习“交互热点”地图的方法，即物体上预测和解释物体交互的特征区域，直接从观看人们与物体自然交互的视频中学习。我们的实验表明，这些热点地图解释对象affor- dances比其他现有的弱监督模型- els更好，可以概括为预期的启示看不见的对象。此外，我们的模型学习的表示超越了外观相似性，以编码功能相似性。在未来的工作中，我们计划探索热点如何帮助机器人对象交互的行动预测和政策学习。鸣谢：感谢 Demo2Vec [12] 的作者对 OPRA 数据集的帮助，以及 MarcusRohrbach和Jitendra Malik的有益讨论。UT Austin部分由ONR PECASE N 00014 -15-1-2291支持。切南瓜开放式橱柜什锦不交互发生Jar橱柜胡萝叉最近的邻居最近的邻居活性活性活性活性8696引用[1] Jean-Baptiste Alayrac ， Josef Sivic ， Ivan Laptev ， andSimon Lacoste-Julien.对象状态和操作动作的联合发现。ICCV，2017年。2[2] Zoya Bylinskii ， Tilke Judd ， Aude Oliva ， AntonioTorralba和Fre'doDurand。关于显着性模型，不同的评估指标告诉我们什么TPAMI，2018年。6[3] Claudio Castellini，Tatiana Tommasi，Nicoletta Noceti，Francesca Odone，and Barbara Caputo.使用物体的affor-dances来提高物体识别。TAMD，2011年。一、二[4] Chao-Yeh Chen和Kristen Grauman。主体及其客体：以人为中心的重要性视图的本地化交互对象。IJCV，2016年。2[5] Ching-Yao Chuang，Jiaman Li，Antonio Torralba，andSanja Fidler.学习正确的行为：从图像中预测和解释启示。CVPR，2018年。2[6] Marcella Cornia，Lorenzo Baraldi，Giuseppe Serra，andRita Cucchiara.一种用于显著性预测的深度多层网络。InICPR，2016. 六、七[7] DimaDamen ， HazelDoughty ， GiovanniMariaFarinella ， Sanja Fidler ， Antonino Furnari ， EvangelosKazakos ， Davide Moltisanti ， Jonathan Munro ， TobyPerrett，Will Price，et al.扩展以自我为中心的愿景：epic-kitchens数据集。ECCV，2018年。二、六[8] Dima Damen ， Teesid Leelasawassuk ， Osian Haines ，Andrew Calway ， and Walterio W Mayol-Cuevas.You-do，i-learn：从多用户自我中心视频中发现任务相关对象及其交互模式。 InBMVC，2014. 2[9] Vincent Delaitre，David F Fouhey，Ivan Laptev，JosefSivic，Abhinav Gupta，and Alexei A Efros.场景语义来自对人的长期观察。ECCV，2012年。2[10] Thanh-Toan Do ， Anh Nguyen ， Ian Reid ， Darwin GCald-well，and Nikos G Tsagarakis.价格：用于对象示能表示检测的端到端深度学习方法。ICRA，2017年。一、二、三、六[11] Frederik Ebert，Chelsea Finn，Alex X Lee，and SergeyLevine. 具有时间跳跃连接的自我监督视觉规划。CORL，2017年。3[12] Kuan Fang ， Te-Lin Wu ， Daniel Yang ， SilvioSavarese，and Joseph J Lim. Demo2vec：从在线视频中推理对象启示。在CVPR，2018年。一二三五六七八[13] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。InNeurIPS，2016. 3[14] 切尔西·芬恩和谢尔盖·莱文。规划机器人运动的深度视觉预见。在ICRA，2017年。3[15] David F Fouhey ， Vincent Delaitre ， Abhinav Gupta ，Alexei A Efros，Ivan Laptev，and Josef Sivic.观看者：作为单视图几何图形的提示的人类动作。IJCV，2014年。2[16] Antonino Furnari，Bristiano Battiato，Kristen Grauman，and Giovanni Maria Farinella.从自我中心的视频中预测下一个活动对象JVCIR，2017. 3[17] 詹姆斯·吉布森视觉感知的生态学方法：经典版中国科学院出版社，1979. 一、二8697[18] Helmut Grabner，Juergen Gall，Luc Van Gool.是什么让椅子成为椅子？CVPR，2011。一、二[19] Abhinav Gupta和Larry S Davis。动作中的对象：一种结合动作理解和对象感知的方法。CVPR，2007。2[20] Abhinav Gupta ， Aniruddha Kembhavi ， and Larry SDavis.观察人与物体的相互作用：使用空间和功能兼容性进行识别。TPAMI，2009年。2[21] Abhinav Gupta ， Scott Satkin ， Alexei A Efros ， andMartial Hebert. 从三维场景几何到人类工作空间。CVPR，2011。2[22] Mohammed Hassanin，Salman Khan，and Murat Tahtali.视觉启示和功能理解：一个调查。arXiv预印本arXiv：1807.06775，2018。一、二[23] Kaiming He，Xiangyu Zhang，S

下载后可阅读完整内容，剩余1页未读，立即下载