“EGO-TOPO：自我中心视频中的环境启示”

131 浏览量更新于2023-10-25 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1EGO-TOPO：来自自我中心视频Tushar Nagarajan1 Yanghao Li2 Christoph Feichtenhofer2 Kristen Grauman1， 21UT Austin2 Facebook AI Researchtushar@cs.utexas.edu，{lyttonhao，feichtenhofer，grauman}@ fb.com摘要第一人称视频自然地将物理环境的使用带到最前沿，因为它示出了相机佩戴者基于他的意图在空间中流畅地交互。然而，当前的方法在很大程度上将观察到的动作与持久空间本身分离。我们介绍了一个模型的环境启示，是直接从自我中心的视频。其主要思想是获得一个以人为中心的物理空间（如厨房）模型我们的方法将空间分解为来自第一人称活动的拓扑图，将自我视频组织成一系列对不同区域的访问。此外，我们展示了如何在多个相关环境中链接区域（例如，来自多个厨房的视频）以获得环境功能的统一表示。在EPIC-Kitchener和EGTEA+上，我们展示了我们在长视频中学习场景启示和预测未来动作的方法。项目页面：http://vision.cs。utexas.edu/projects/ego-topo/1. 介绍“环境的启示是它提供给动物的东西，它提供或提供的东西。它意味着动物和环境的互补性。- 詹姆斯·吉布森，1979年在传统的第三人称图像和视频中，摄影师故意停下来积极地记录这一场景而捕捉到的一个瞬间。因此，场景理解在很大程度上是关于回答识别的谁/在哪里/什么问题：有哪些物体存在？是室内/室外场景吗？人在哪里，他们在做什么？[56、53、73、43、74、34、70、18]。相比之下，在从第一人称“自我中心”的角度捕获的视频中周围的环境与相机佩戴者正在进行的互动紧密相连图1：主要思想。给定一个以自我为中心的视频，我们构建一个拓扑地图的环境，揭示活动为中心的区域和顺序，他们被访问。这些地图捕捉了物理空间与人们如何使用它之间的紧密联系，我们使用它来推断空间的启示（在这里用彩色编码的点表示），并预测长视频中的未来动作与环境的行动因此，自我中心视频中的场景理解也涉及如何问题：一个人现在和将来如何哪些领域最有利于特定活动？尽管活动和环境之间存在这种联系，但现有的第一人称视频理解模型通常忽略了底层环境是持久的物理空间。相反，他们将视频视为固定大小的帧块，并将其输入神经网络[47，6，15，66，49、42]。同时，通过密集几何重建[64，20，58]对环境进行建模的方法遭受SLAM失败-在快速移动的头戴式视频中常见-并且不区分与人类动作相关的那些3D结构和那些不相关的3D结构（例如，柜台上的砧板与随机的地板）。我们认为，无论是我们的目标是建立一个环境模型，捕捉人们如何使用它。我们引入了一种方法，163切洋葱倒盐洗锅拿刀放洋葱去皮土豆未经修剪的自我中心视频T = 1 → 8 T = 42→ 80164EGO-TOPO，将自我中心的视频转换为由活动“区域”及其粗略空间接近度组成的拓扑图。从Gibson的上述设想中得到线索见图1.一、具体来说，从人们积极使用空间的自我中心视频中，我们基于（1）他们共享的物理空间和（2）该区域提供的功能例如，对于前一个标准，在视频开始时装载的洗碗机在卸载时链接到同一洗碗机，并且在另一天链接到洗碗机对于后者，一个厨房的垃圾桶可以连接到另一个厨房的垃圾处理器：虽然视觉上不同，但两个位置都允许相同的动作-丢弃食物。见图3 .第三章。通过这种方式，我们将自我中心的视频重新组织成已知区域的“视图”，而不是一系列未连接的剪辑。我们展示了这样做如何使我们能够对第一人称行为进行推理（例如，一个人将来最有可能做的事是什么？）以及环境本身（例如，在特定区域中可能存在的可能的对象交互是什么，即使在那里还没有观察到？）。我们的E GO-TOPO方法比上面讨论的前模型具有优势。与“纯视频”方法不同与“纯3D”方法不同我们在两个关键任务上展示了我们的模型：推断新颖视图中可能的对象交互，并预测完成第一人称视频中的长期活动所需的动作。这些任务说明了一个能够成功推理场景功能的视觉系统将如何例如，一个知道环境中哪些地方可以采取行动的AR系统可以交互式地指导一个人完成教程;能够从视频中学习人们如何使用区域的移动机器人将准备好在没有广泛探索的情况下采取行动。在两个具有挑战性的以自我为中心的数据集EPIC和EGTEA+上，我们展示了明确为以自我为中心的视频理解任务建模环境的价值，从而产生更强大的场景启示模型，并改进了最先进的远程动作预期模型。2. 相关工作在传统的第三人称视觉中，摄像机是一个旁观者，而在第一人称或自我中心的视觉中，摄像机是由一个人佩戴的，与周围环境进行第一手互动。这种特殊的视角提供了一系列有趣的挑战，例如检测凝视[41，29]，监控人与物体的交互[5，7，52]，cre-日常生活活动总结[45，40，71，44]，或推断相机佩戴者该领域近年来发展迅速，部分归功于新的自我视频基准[6，42，55，63]。最近在自我中心视频中识别或预测动作的工作采用了来自第三人称视频的最先进的视频模型，如双流网络[42，47]、3DConv模型[6，54，49]或循环网络[15，16，62，66]。相比之下，我们的模型将第一人称活动置于环境的持久拓扑编码利用SLAM与以自我为中心的视频[20，58，64]进行活动预测的方法也允许空间基础，尽管是以度量的方式并且具有上面讨论的挑战结构化视频表示最近的工作探索了用更多的结构来丰富视频表示的方法。基于图形的方法对检测到的对象之间的关系进行编码：节点是对象或演员，而边指定它们的时空布局或语义关系（例如，是持有）[68，4，46，72]。用于复合活动的架构跨视频聚合动作基元[17，30，31]，基于内存的模型记录循环网络的状态[ 54 ]，并且用长期特征库增强的与上述任何一种不同，我们的方法根据人们如何使用空间以人为中心的方式在我们的图中，节点是空间区域，连通性取决于一个人传统地图使用同步定位和地图绘制（SLAM）来获得密集的度量测量，以严格的相反，最近在具身视觉导航方面的工作探索了既利用视觉模式又利用几何学的学习地图，其优势是外推到新的环境（例如，[23、22、60、26、10]）。我们的方法也有这个动机。然而，与上述任何一种方法不同，我们的方法分析以自我为中心的此外，尽管现有的地图是从机器人的探索中获得的普适计算中的工作跟踪人们，以查看他们在环境中的何处花费时间[37，3]，以及我的办公室）可以使用监督学习来识别[13]。相比之下，我们的方法自动发现区域的活动从自我视频，它链接动作相关的区域跨多个环境。当我们探索环境的启示时，先前的工作主要集中在对象上，其中目标是预测对象可以如何使用-例如，学习建模对象操作[2，5]，人们如何抓住对象[38，52，11，7]，或者身体姿势如何有利于对象识别[8，19]。场景的启示是165研究较少。先前的工作探索了场景的第三人称视图如何暗示可能发生在那里的3D身体姿势[61，67，21]，反之亦然[12]。与我们的工作更密切相关的是，ActionMaps [57]使用具有对象和场景相似性的矩阵补全作为辅助信息，估计环境中规则网格单元的缺失活动标签。相比之下，我们的研究认为启示与单个物体的外观没有很强的联系图2：本地化网络。我们的相似性标准是介绍了一种基于图形的视频编码，有利于行动预期的拓扑图。3. E GO-TOPO方法我们的目标是将以自我为中心的视频组织成一个活动“区域”的地图，这些区域提供了一组连贯的互动，并将视频作为对这些区域的一系列访问。我们的E GO-TOPO表示提供了上述“纯视频”和“纯3D”方法之间的中间地带相反，我们的模型联合考虑环境和主体：环境的哪些部分与人类行为最相关，每个区域提供什么样的交互。我们的方法最适合于以自我为中心的视频中的长期活动，其中区域随着时间的推移以多种方式重复访问和使用该定义广泛地适用于普通的家庭和工作环境（例如，厨房、零售店、杂货店）。在这项工作中，我们使用两个公共的自我视频数据集（EPIC [6]和EGTEA+ [42]）研究厨房环境，因为烹饪活动涉及频繁的人机交互和重复使用多个区域。我们的方法不适用于第三人称视频、短视频剪辑或环境不断变化的视频（例如，沿着街道行驶）。我们的方法首先训练一个区域定位网络，从以自我为中心的视频中发现经常访问的空间（第二节）。第3.1节）。然后，给定一个新的视频，我们使用网络将视频片段分配到区域，并为环境创建拓扑图（图）。我们还根据区域在视频实例中的功能将其链接起来，以创建统一的地图（第3.2）。最后，我们利用由此产生的图表来揭示环境启示（第二节）。3.3）并在长视频中预测未来的行动（第3.3节）。第3.4段）。3.1. 发现活动中心区除了简单的视觉相似性（A）之外，允许我们的网络以一致的单应性（B）重新识别炉顶区域（尽管突出对象的不同特征），或者在橱柜处时间上相邻的看似不相关的视图（C），同时区分在时间上采样的不同视图（D）。例如，一个带有砧板的水槽正在清洗，在不同的时间用板填充的相同的水槽将聚集成不同的区域。另一方面，由于自我中心视频的快速运动特性，SLAM定位通常是不可靠的。此外，SLAM不加区别地重建环境的所有部分，而不考虑它们与人类行为的联系或缺乏联系，例如，使厨房水槽区域的容量与任意墙壁的容量相同。为了解决这些问题，我们提出了一个区域发现程序，链接的基础上，他们的视觉内容和他们的访问相机佩戴者的意见此过程的基础是一个定位网络，该网络估计一对视频帧的相似性，设计如下。我们从分割成一系列动作片段的视频中对帧进行采样。如果（1）两个训练帧在时间上接近（相隔少于15帧）或来自同一动作剪辑，或者（2）至少有10个内点关键点与其估计的单应性一致，则两个训练帧是相似的。前者使我们能够捕捉到空间的连贯性，揭示了人的倾向，居住的行动信息区，而后者允许我们捕捉重复的背景，尽管显着的前景对象的变化。相异帧是具有低视觉特征相似性的时间上遥远的视图，或者是没有动作发生的偶然参见图2。我们使用Super- Point [9]关键点描述符来估计单应性，以及预训练的ResNet-152 [25]特征之间的欧氏距离以获得视觉相似性。采样对用于训练L，一个具有ResNet-18 [25]主干的连体网络，随后是一个5层多层感知器（MLP），使用交叉熵来预测这对视图是相似还是不相似。网络预测两个帧的概率L（ft，f′）我们利用以自我为中心的人类活动视频，涵盖重要的“区域”采取行动。乍一看，人们可能会试图发现基于视觉聚类或几何分区的空间区域。然而，聚类视觉特征（例如，来自预先训练的CNN）是不够的，因为被操纵的对象经常在自我视频中突出地表现，使得特征对存在的对象集敏感。为在以自我为中心的视频中，fT、fT属于同一区域。我们的本地化网络从[60]中使用的检索网络中获得灵感，为智能体导航构建地图，更一般地说，1例如，在EPIC Kitterfly数据集上，只有44%的帧可以用最先进的SLAM算法准确配准[51]。DCB一相似/不相似166n ij ijij算法1拓扑示能图创建。输入：帧序列（f1，. fT）：训练的定位网络L（Sec. 3.1）输入：节点相似度阈值σ和裕度m1：创建一个图G=（N，E），节点n1={（f1→f1）}2：对于t←2到T做3：s←maxs（f，n）-等式2n∈Nft4：如果s> σ，则5：将ft与节点n合并，n=arg maxn∈N sf（ft，n）6：如果ft是n中的连续帧，则：延长最后一次访问v7：否则：用ft进行新的访问v8：else ifs<$<σ−mthen9：创建新节点，使用ft添加visit，并添加到G10：如果结束11：添加从最后一个节点到当前节点的12：结束输出：每个视频的EGO-TOPO拓扑示能表示图G老化时间相干性以自我监督图像相似性[24，50，32]。然而，尽管[60]中的网络是从随机导航代理生成的视图序列中学习的，但我们的网络是从人类在富含对象操纵的环境中有目的地行动所拍摄的自我视频简而言之，[60]中的接近度严格地说是关于物理可达性，而我们模型中的接近度是关于人类在环境中的互动。3.2. 创建拓扑示能图使用经过训练的定位网络，我们处理新的未修剪，未标记的自我中心视频中的帧对于具有T帧（f1，...，f T），我们创建一个图G=（N，E），节点N，边E.的每个节点图是一个区域，记录了“访问”的集合自我中心的视频中找到的例如，在t=1和t=42时访问的切菜板计数器，分别为7帧和38帧，将由节点n∈N表示，其中访问{v1=（f1→f8），v2=（f42→f80）}。见图1.一、我们用一个节点n1初始化图，对应于-仅仅用第一帧画面就能让人产生一种错觉对于每个后续帧ft，我们使用来自Sec的定位网络计算与节点n∈N中的每个节点相比的帧的平均帧级相似性得分sf3.1：图3：交叉映射链接。我们的连接策略使多个厨房（P01，P13等）通过它们的公共空间（例如，画-在第1-2行中的入口，入口）和视觉上不同但功能上相似的空间（例如，第三排的碗碟架、餐具柜）。为该位置创建节点，并从先前访问的节点创建边如果网络对框架不确定，则忽略框架算法1总结了构造算法。参见补充的双曲余切值。当所有帧都被处理后，我们得到了每个视频的环境图，其中节点对应于发生动作的区域（以及对它们的访问列表），边缘根据人们如何遍历它们来捕获区域之间的弱空间连接。重要的是，除了每个视频的地图，我们的方法还创建了跨视频和跨环境的地图，通过它们的功能链接空间。我们将展示如何将区域连接到1)在同一环境中的多个情节和2）具有共享功能的多个环境。为了做到这一点，对于每个节点ni，我们使用预先训练的动作/对象分类器来计算（ai，oi），在对该节点的所有访问中发生的动作和活动对象2然后我们计算节点级功能相似性得分：s（n，n）=−1（KL（a||a）+KL（o||（o））、（3）2其中KL是KL发散度。我们对所有厨房的节点进行评分，并执行层次凝聚聚类以链接具有功能相似性的节点。以这种方式链接节点提供了几个好处。首先，并非每一集（视频）都参观了厨房的所有部分。我们将同一厨房中不同剧集的区域链接起来，创建一个厨房的组合地图，sf（ft，n）1|n|Σv∈nL（ft，fv）（1）计算多个视频相遇背后的持久物理空间第二，我们将各个厨房的区域连接起来，创建一个统一的厨房地图，它揭示了不同的厨房区域之间的差异。sf=maxsf（ft，n），（2）n∈N其中fv是从节点n中的每个访问v中选择的中心帧。如果网络确信该帧与其中一个节点相似，则将其与得分最高P03P22P26P03P30P22P23P31P01P22P12P22P28P13P01P01P01167的节点合并不同的厨房相互关联例如，一个厨房的煤气炉可以连接到另一个厨房的电炉，尽管在视觉上是不同的（见图1）。（3）第三章。当计划在一个新的看不见的环境中采取行动时，能够画出这样的相似之处是很有价值的，我们将在下面演示。节点n nn对应于sn。或者，如果网络相信这是一个新的位置（非常低的成本），一个新的2主动对象是参与交互的对象。168a_1a_2a_3a_8vs.PMLFCPMLGCN图4：我们的环境启示学习（L）和长期行动预期（R）的方法。左侧面板：我们的EGO-与带注释的视频剪辑中的单个动作标签相比， TOPO图允许多个示能表示标签与对区域的访问相关联。请注意，这些访问可能来自相同/不同厨房的不同视频-这提供了更强大的可视性视图秒3.3）。右面板：我们使用我们的拓扑图来聚合每个区域的特征，并通过图卷积操作来合并跨区域的信息，以创建用于长期视频预测的简洁视频表示（参见图1）。秒第3.4段）。3.3. 推断环境可供性接下来，我们利用所提出的拓扑图来预测一个区域当智能体必须使用以前看不见的环境来执行任务时，学习场景启示尤为重要。人类可以无缝地做到这一点，在朋友家做饭;我们对AR系统和机器人感兴趣，它们通过观察人类来我们知道，以自我为中心的人们进行日常活动的视频揭示了空间的不同部分是如何使用的。事实上，每个区域观察到的行为部分揭示了其启示。然而，由于自我视频的每个片段都显示了一个区域仅用于一次交互，因此它属于除非捕捉到该位置上所有可能的为了克服这一限制，我们的关键见解是，在环境内/跨环境链接区域允许我们在可见区域为不可见的交互提取标签，从而获得更完整的启示图。换句话说，如果区域nj和区域nk在功能上链接，则在区域nj处看到交互（ai，oi）允许我们增强针对区域n k处的（ai，oi）的示能表示的训练。参见图4（左）。为此，我们将示能表示学习问题视为将图像特征xi映射到A维二进制指示向量yi∈{0，1}A的多标签分类任务，其中A是可能的交互的数量我们使用拓扑启示为这个任务生成训练数据图G（N，E）定义在第二节。3.2.具体来说，我们计算节点级别的启示标签yn对于每个节点n∈N：[其中A（v）是访视v期间发生的所有交互的集合。3然后，对于每个节点n的访问，我们采样一个帧，生成其特征x，并使用yn作为多标签启示目标。我们使用2层MLP作为示能表示分类器，然后是线性分类器和sigmoid。该网络使用二进制交叉熵损失进行训练。在测试时，给定环境中的图像x，该分类器直接预测其示能概率。参见图4（左）。重要的是，将框架链接到区域以及在环境之间链接区域使我们能够以有利于启示学习的方式在实例之间共享标签，这比纯粹基于地理度量或视觉接近度链接数据的模型更好（参见秒4.1）。3.4. 在长视频中预测未来的动作接下来，我们利用我们的拓扑示能图进行长期预测。在预期任务中，我们看到一段长视频的一小部分（例如，前25%），我们必须从这一点来预测未来将采取什么行动。与从区域如何在功能上相关以增强静态图像理解中受益的示能表示学习相比，长距离动作预期是一种视频理解任务，其利用区域如何布局以及在何处执行动作来预测人类行为。近期行动预期工作[14，76，15，6，54，16， 62]预测紧接着的下一个动作（例如，在下一个1秒中）而不是所有将来的动作，对于所有将来的动作，最近视频信息的编码就足够了。对于长期预测，模型需要了解到目前为止在复合活动方面取得了多少进展，以及反yn（k）=1 ，其中k∈v∈nA（五）、（4）3对于合并图，N指的是通过等式2聚类后的节点。3.第三章。169k：M|N|考虑将来需要采取什么行动来完成它。为此，所有过去活动和启示的结构化表示是必不可少的。现有的远程视频理解方法[30，31，69]构建复杂的模型来聚合来自过去的信息，但没有明确地对环境进行建模，我们假设这对于预测长视频中的动作很重要。我们的图表提供了一个简洁的表示观察到的活动，地面在空间环境中的框架。给定具有M个交互剪辑的未修剪视频V，每个交互剪辑涉及动作{a1，...，对于某个对象，我们看到前k个剪辑，并预测未来的动作标签为aD维二进制向量ak：M，其中D是动作类的数量，并且对于d∈ {ak+1，.，a M}。我们生成的对应拓扑图G（N，E）建立了k个片段，并使用2层MLP在从对该节点的访问中采样的片段特征的平均值上为每个节点提取特征xn一个节点上的行为会影响其他节点上的未来活动。为了说明这一点，我们增强了节点特征通过使用图卷积神经网络来整合来自拓扑图准备好一个完整的盘子（例如，土豆沙拉，比萨饼），带有注释用于交互的剪辑（例如，打开抽屉，切西红柿），跨越53个对象和19个动作。• EPIC-Kitchen[6]包含日常厨房活动的视频，并且不限于单一的食谱。它被注释为跨越352个对象和125个交流的相互作用选项。与EGTEA+相比，EPIC更大，无脚本，并在多个厨房中收集。厨房环境一直是最近几个以自我为中心的数据集的主题[6，42，39，65，59，75]。在复杂的多步骤烹饪活动中，与厨房不同部分的重复互动是学习启示和预期模型的丰富领域4.1. E GO-TOPO环境可负担性在本节中，我们将评估区域内和跨环境的链接操作如何有益于启示。基线。我们比较以下方法：• CLIPACTION是一种帧级动作识别模型训练来预测一个单一的交互标签，给定一个框架，(GCN)[36个]gn=ReLU. Σn′∈NnΣW Txn′+b、（五）从一个视频剪辑显示的互动。• ACTIONMAPS[57]通过具有边信息的矩阵完成来估计位置的示能表示。它假定其中，N，n是节点n的邻居，W，b是GCN的可学习参数。每个单独节点的更新的GCN表示gn被来自相邻节点的全局场景上下文丰富，允许学习跨位置的动作模式例如，过去从冰箱里拿出来的蔬菜很可能以后会在水槽里洗GCN节点特征然后被转换以得到表示。具有相似外观/物体有相似的启示。参见补充有关详细信息• SLAM训练具有与我们相同的架构的示能表示分类器，并且将来自地平面上的相同网格单元的所有帧视为在该网格单元中的任何时间观察到的动作的肯定。（x，y）位置是从单目SLAM [51]中获得的，并且单元大小基于交互区域的典型尺度[20]。它视频的发送xG=1n∈N gn.然后将其分享我们的洞察力，在同一个位置链接行动，但到线性分类器，然后是sigmoid，以预测未来的动作概率，使用二进制交叉熵损失Lbce（xG，ak：M）进行训练。在测试的时候，给出一个未经剪辑，未经标记的视频节目-在一个长期复合活动开始时，我们的模型可以预测未来可能发生的完成它的行动。见图4（右）和附录。正如我们将在结果中看到的那样，将自我视频置于真实环境中-而不是将其视为任意的帧集-为预期提供了更强的视频表示。4. 实验我们评估所提出的拓扑图场景启示学习和动作预期长视频。数据集。我们使用两个以自我为中心的视频数据集：• EGTEA凝视+[42]包含32个主题的视频，在一个厨房里遵循7个食谱。每段视频170仅限于统一定义的位置网格，连接不同的环境。详情请参见Supp• KMEANS仅使用其视觉特征对动作剪辑进行聚类。我们选择与合并图中的节点一样多的集群，以确保公平比较。• OURS我们展示了来自SEC的三种变体。3.2使用从单个视频构建的地图（OURS-S），多个同一厨房的视频（OURS-M），以及跨厨房的功能链接的合并地图（OURS-C）。请注意，除了来自链接动作/空间的数据它们在训练过程中看到相同的视频帧，只是它们根据该方法进行了组织并显示了标签。评价我们为提供的互动提供众包注释。注释器将来自视频剪辑的帧x标记为在该位置具有所有可能的交互而不管该帧是否显示它（例如，打开炉子，拿/放锅171EPIC EGTEA+mAP→的LLFR是唇动26.849.716.1[57]第57话21.040.813.4满贯26.648.617.6KMEANS26.750.117.4OURS-S28.652.219.0OURS-M28.753.318.9OURS-C29.454.519.7的LLFR是46.358.433.143.652.931.341.849.531.849.361.235.948.961.035.351.661.237.8–––表1：环境启示预测。我们的方法优于所有其他方法。请注意，EGTEA+中的视频来自同一个厨房，不允许跨厨房链接。将5次运行的值取平均值。在炉子上等），其被编码为A维二元目标y。我们在EGTEA+上收集了1020个跨越A=75个交互的实例，在EPIC上收集了1155个跨越A=120个交互的实例（参见Supp.以取得详细数据）。所有方法均在该测试集上进行评价。我们在所有提供的交互中使用平均精度（mAP）来评估多标签分类性能，并分别针对罕见和频繁的交互（分别为10和>100个训练实例表1总结了结果。通过在我们发现的区域中捕获持久环境并将其跨环境链接，我们的方法在启示预测任务上优于所有其他方法。所有模型在EGTEA+上表现更好，EGTEA+具有更少的交互类，仅包含一个厨房，并且每个提供的动作至少有30个训练示例（与EPIC相比，EPIC中10%的动作具有单个注释剪辑）。SLAM和ACTIONMAPS [57]依赖于单目SLAM，这引入了某些限制。参见图5（左）。SLAM地图中的单个网格单元仅可靠地记录平滑运动的小窗口，通常在每个位置仅捕获单个动作剪辑。此外，固有的尺度模糊性和形状均匀的单元格可能导致放置在同一单元格中的不相干活动。请注意，即使SLAM是完美的，这个限制仍然存在这些因素共同影响了两个数据集的性能，由于SLAM 数据的稀缺性（只有6%的准确注册），更严重地影响了EGTEA+。噪声局部化还影响由ACTION MAPS计算的内核，其考虑物理接近度以及对象/场景特征的相似性。相比之下，我们的拓扑示能图中的区域对应于不同时间的一组连贯的剪辑，链接了一组更可靠和多样化的动作，如图所示。5（右）。在KMEANS中使用纯视觉功能进行聚类有助于整合EGTEA+中的信息，其中所有视频都在同一个厨房中，但在视觉上会损害性能X图5：SLAM网格与图形节点。这些框显示链接到SLAM地图中的网格单元（左）和拓扑地图中的节点（右）的视频帧。请参阅文本。灌装杯子倒水挤海绵取油混合原料0.570.82 0.660.10 0.240.120.630.07图6：两个图形节点的最高预测示能表示得分。我们的启示模型应用于节点访问揭示区affor-舞蹈。圆圈中的图像是从两个节点采样的帧（OURS-C）提供了最大的改进，特别是对于可能仅被看到与单个位置相关联的罕见类。图3和图5显示了在我们的图的每个节点中捕获的不同动作。不同时间和不同厨房的多个动作被链接到同一区域，从而克服了演示中的稀疏性，并转化为我们的场景启示模型的强烈训练信号。图6示出了示例示能表示预测。4.2. 长期行动预期的EGO-TOPO接下来，我们评估我们的拓扑图的结构如何产生更好的视频功能，长期的预期。基线。我们比较以下方法：• TRAINDIST简单地输出在所有训练视频中执行的动作的分布，以测试是否重复执行了一些主要动作，而不管视频如何。• I3D对64个剪辑特征进行均匀采样，并对它们进行平均以生成视频特征。• RNN和ACTIONVLAD[17]分别使用LSTM [27]层和非均匀池化策略对视频中的时间动态进行建模。特征不足以捕获相干区域。EGO-TOPO将此外，基于合并图中的函数对齐空间• TIMECEPTION[30]和VIDEOGRAPH[31]使用多尺度时间模型构建复杂的时间模型在大的时间尺度上从剪辑特征学习到的潜在概念上的局部卷积或注意力机制Y172(a)i3D(b)Ours w/o GCN(c)我们EPIC EGTEA+2015史诗EGTEA+12108表2：长期预测结果。我们的方法比-105025 50 75K（观看视频的百分比）64225 50 75K（观看视频的百分比）形成了EPIC上的所有其他类型，并且最适合于更简单的EGTEA+。将5次运行的值取平均值我们模型的重点是生成过去视频的结构化表示。因此，这些在长时间范围内整合信息的方法最适合直接比较。因此，我们的实验保持预测模块本身固定（在视频表示上的线性分类器），并改变表示。请注意，最先进的预测模型[15，1，35] -从过去（观察到的）视频的这种编码中解码未来的动作-解决了正交问题，并且可以与我们的方法并行使用。评价每个未修剪视频的K%作为输入，并且视频的未来100-K%中的所有动作必须被预测为二进制向量（每个动作是否在未来的任何时间发生）。我们扫描K=[25%，50%，75%]的值，代表不同的预期范围。我们将多标签分类性能报告为所有动作类的mAP，并再次在低拍摄（罕见）和多拍摄（频率）设置中。表2显示了所有K的平均结果。7图结果与K.我们的模型在EPIC上优于所有其他方法，在所有125个动作类上比下一个最强基线提高了2.4%mAP。在EGTEA+上，我们的模型与具有复杂时间聚集方案的模型的性能相匹配，并且对于多镜头类实现了最EGTEA+有一个不太多样化的行动词汇表与一套固定的食谱。TRAIN DIST仅为每个视频输出固定的动作分布，与EPIC上的对应物（仅16.5% mAP）相比，表现相对较好（59%mAP），突出显示 EGTEA+中有一组重复执行的动作。在采用复杂时间聚集方案的方法中，TIMECEPTION在两个数据集上都优于I3D，尽管我们的方法在更大的EPIC数据集上优于它。节点级信息的简单聚合（OURSW/OGCN）仍然始终优于大多数基线。然而，包括图卷积对于超越更复杂的模型是必不可少的，这显示了在我们的拓扑图中编码物理布局和区域之间的交互的好处。图7按预期水平K分解了性能。在EPIC上，我们的模型在整个图7：不同预测地平线K%的视频被观察到，那么剩下的100-K%中的动作必须被预期到。我们的模型在EPIC的所有预期范围内都优于所有方法，并且具有更高的在预测未来时，相对的改进。图8：EPIC上的t-SNE [48]可视化。（a）来自I3 D的限幅级特征; O URS（b）无GCN和（c）有GCN的节点特征。颜色对应不同的厨房。所有的预测范围，它擅长预测未来的行动。这突出了我们的环境感知视频表示的优势。在EGTEA+上，我们的模型在短距离设置上优于除ACTION- VLAD之外的所有其他模型，但在K= 50%时表现略差。另一方面，在更具挑战性的EPIC数据上，ACTION特征空间可视化显示了由于明确的标签监督，同一动作（但不同的厨房）的剪辑如何聚类（图2）。8a），但厨房特定的集群自然出现（图。8 c）在我们的方法中，编码有用的环境感知信息以提高性能。5. 结论我们提出了一种方法，从人类活动的自我中心的视频，高亮度的常用区域，提供跨多个厨房环境的连贯行动，产生一个拓扑affor- dance图我们对场景启示学习和长距离预测的实验证明了它作为从以自我为中心的视频中获得的环境未来的工作可以利用环境启示来引导用户在不熟悉的空间中使用AR，或者允许机器人通过它可能如何使用的镜头探索新的鸣谢：感谢Jiaqi Guan在EPIC上对SLAM的帮助，以及Noureldien Hussein在Timeception [30]和Videograph [31]模型上的帮助。UT Austin由ONR PECASE和DARPAL2M提供部分支持i3DRNN保加利亚[17]时间感受[30][31]第三十一话我们mAP较基线mAP较基线mAP→的LLFR是TRAIN DIST16.539.15.7i3D32.753.323.0RNN32.652.323.3[17]第十七话29.853.518.6[31]第三十一话22.549.414.0[30]第三十话35.655.926.1O URS 不含GCN34.655.324.9OURS38.056.929.2的LLFR是59.168.235.272.179.353.370.476.654.373.379.058.667.777.147.274.179.759.772.579.554.273.580.754.7173引用[1] Y. Abu Farha，A. Richard和J.胆你什么时候做什么预测活动的时间发生。在CVPR，2018年。8[2] J. - B. Alayrac，J.西维克岛Laptev和S.拉科斯特-朱利安对象状态和操作动作的联合发现。ICCV，2017年。2[3] D. Ashbrook和T. Starner利用gps学习重要位置并预测用户移动。ISWC，2002年。2[4] F. Baradel，N.内韦罗瓦角Wolf，J. Mille，and G. 森视频中的对象级视觉推理。在ECCV，2018。2[5] M.蔡氏K. M. Kitani和Y.佐藤利用抓取类型和对象属性理解手-对象操作在RSS，2016. 2[6]D. 达门， H. 道蒂 G. 玛丽亚·法里内拉， S. 菲德勒A. Furnari、E. Kazakos，D. Moltisanti，J. Munro，T.佩雷特，W. Price，et al.扩展以自我为中心的愿景：epic-kitchens数据集。在ECCV，2018。一二三五六[7] D. Damen，T. Leelasawassuk和W.马约尔-奎瓦斯You-do，i-learn：以自我为中心的无监督发现对象及其交互模式，以视频为基础的指导。CVIU，2016. 2[8] V. Delaitre，D. F.富埃岛Laptev，J. Sivic，A. Gupta和A. A.埃夫罗斯场景语义来自对人的长期观察。ECCV，2012年。2[9] D. DeTone ， T. Malisiewicz 和 A. 拉比诺维奇。Superpoint：自监督兴趣点检测和描述。2018年CVPR研讨会。3[10] K. Fang，中国茶青冈A.托舍夫湖Fei-Fei和S.Savarese 在长时间任务中用于具体代理的场景分类Transformer。在CVPR，2019年。2[11] K.方，T.- L. Wu，D. Yang，S. Savarese和J. J. Lim.Demo2vec：从在线视频中推理对象启示。在CVPR，2018年。2[12] D. F.作者声明：A.古普塔A。A.埃夫罗斯岛Laptev和J.西维克观看者：作为单一视图几何体提示的人类行为。IJCV，2014年。3[13] A. Furnari，S. Battiato和G. M. Farinella基于个人位置的自我中心视频的时间分割，用于生活记录应用。JVCIR，2018年。2[14] A. Furnari，S. Battiato，K. Grauman和G. M. Farinella从自我中心的视频中预测下一个活动对象。JVCI，2017年。5[15] A. Furnari和G. M. Farinella你还能指望什么？用滚动-展开LSTM和模态注意来预测自我中心的动作。ICCV，2019。一、二、五、八[16] J.高，Z. Yang和R.奈瓦提亚红色：增强的编码器-解码器网络，用于动作预测. BMVC，2017年。二、五[17] R. Girdhar，D. Ramanan、A. Gupta，J. Sivic，and B.Russell. Actionvlad ：学习动作分类的时空聚合在CVPR，2017年。二七八[18] G. 基奥沙里河Girshick ，P. Doll a'r和K. 他外检测和识别人机交互。在CVPR，2018年。1[19] H. Grabner，J. Gall，and L.范古尔是什么让椅子成为椅子？CVPR，2011。2174[20] J. 关，Y.Yuan，K.M. Kitani和N.莱茵哈特用于无遗憾学习的活动预测的生成混合表示arXiv预印本arXiv：1904.06250，2019。一、二、六[21] A.古普塔河Satkin，A. A. Efros，和M。赫伯特从三维场景几何到人类工作空间。CVPR，2011。3[22] S. Gupta，J. Davidson，S.莱文河Sukthankar和J.马力。视觉导航的认知绘图与规划。在CVPR，2017年。2[23] S.古普塔角Fouhey，S. Levine和J.马利克统一地图和地标为基础的视觉导航表示。 arXiv 预印本 arXiv ：1712.08125，2017。2[24] R. Hadsell，S. Chopra和Y.乐存。通过学习不变映射进行降维。CVPR，2006。4[25] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。3[26] J. F. Henriques和A.维达尔迪Mapnet：一个用于地图环境的非中心空间存储器.在CVPR，2018年。2[27] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。7[28] Y. Hoshen和S.法勒以自我为中心看待视频摄影师的身份。在CVPR，2016年。2[29

下载后可阅读完整内容，剩余1页未读，立即下载