没有合适的资源?快使用搜索试试~ 我知道了~
0.310.200.200.470.210.380.550.220.500.430.200.2732930人类手作为交互式物体理解的探针0Mohit Goyal Sahil Modi Rishabh Goyal Saurabh Gupta伊利诺伊大学厄巴纳-香槟分校0{mohit, smodi9, rgoyal6, saurabhg}@illinois.edu0摘要0交互式物体理解,即我们可以对物体做什么以及如何做,是计算机视觉的一个长期目标。在本文中,我们通过观察自我中心视频中的人类手部来解决这个问题。我们证明,观察人类手部与物体的互动以及如何互动可以提供相关数据和必要的监督。关注手部可以快速定位和稳定活动物体以进行学习,并揭示与物体交互的位置。分析手部可以显示我们可以对物体做什么以及如何做。我们将这些基本原理应用于EPIC-KITCHENS数据集,并通过观察自我中心视频中的手部成功地学习了对状态敏感的特征和物体可供性(交互区域和可供抓握的区域)。01. 引言0考虑图1中的柜子。仅仅定位和命名它是不足以使机器人成功与之交互的。为了实现交互,我们需要确定哪些是可能的交互位置,如何与每个位置进行交互,以及我们进行交互时会发生什么。本文的目标是获取关于物体的这种理解。具体而言,我们将其制定为a)学习一个对物体状态敏感的特征空间(因此能够指示我们可以如何使用它),而不仅仅是其类别;和b)识别物体提供的手抓取和位置。这两者共同提供了对物体的交互理解,并可以帮助机器人学习策略。例如,状态敏感特征空间中的距离可以用作操作任务的奖励函数[52, 54,64]。同样,物体提供的手抓取及其位置为探索提供了先验知识[38,39]。虽然我们在构建物体外观模型方面取得了很大进展(各种物体识别问题),但是在收集大规模标记数据集方面,我们无法直接应用相同的方法来理解物体的工作原理。首先,目前还没有针对这些任务的大规模标记数据集。其次,手动在静态图像上注释这些方面是具有挑战性的。例如,物体状态高度依赖于上下文:同一个物体(例如图1中的柜子)可以同时存在于许多不同的状态(关闭、满、顶部、有把手、与手接触),这取决于我们想要进行的交互。同样,有意识地注释可以触摸物体的位置和方式可能存在偏见,导致数据可能不是真实反映人们在正常日常行为中实际使用物体的方式。虽然我们可能会注释说我们拉动把手来打开柜子;但在现实生活中,我们很常常只需将手指滑入柜门和门框之间,轻轻地将其打开。受到这些挑战的启发,我们直接从自我中心视频中人们与物体互动的自然方式中进行学习。由于自我中心数据关注手-物体交互,因此解决了数据和监督问题。观察人类手部对它们所交互的物体揭示了关于这些物体的信息。0项目网站:https://s-gupta.github.io/hands-as-probes/。0自我中心视频0a)状态敏感特征 b)物体可供性预测0输入输出0交互区域 可供抓握0图1.人类的手通过与物体的互动揭示了关于物体的信息。它们告诉我们在哪里以及如何与物体进行互动(通过拇指抓握柜子的把手),以及我们进行互动时会发生什么(柜子打开后揭示了更多物体)。本文通过观察自我中心视频中的手部来开发提取对象的交互理解的技术。具体而言,我们产生了a)指示对象状态的特征,和b)对象可供性(即交互区域和可供抓握的区域)。0对于训练来说,这种方法并不适用于理解物体的工作原理。首先,目前还没有针对这些任务的大规模标记数据集。其次,手动在静态图像上注释这些方面是具有挑战性的。例如,物体状态高度依赖于上下文:同一个物体(例如图1中的柜子)可以同时存在于许多不同的状态(关闭、满、顶部、有把手、与手接触),这取决于我们想要进行的交互。同样,有意识地注释可以触摸物体的位置和方式可能存在偏见,导致数据可能不是真实反映人们在正常日常行为中实际使用物体的方式。虽然我们可能会注释说我们拉动把手来打开柜子;但在现实生活中,我们很常常只需将手指滑入柜门和门框之间,轻轻地将其打开。受到这些挑战的启发,我们直接从自我中心视频中人们与物体互动的自然方式中进行学习。由于自我中心数据关注手-物体交互,因此解决了数据和监督问题。观察人类手部对它们所交互的物体揭示了关于这些物体的信息。32940与之交互。关注手所关注的位置,可以定位和稳定场景中的活动物体以进行学习。它显示了所有手可以在场景中进行交互的位置。分析手的活动可以揭示有关物体状态以及如何与之交互的信息。因此,观察自我中心视频中的人类手可以为获得对物体的交互式理解提供必要的数据和监督。为了实现这些直觉,我们设计了从现成模型获取手的理解并从中提取物体理解的新技术。我们将这种方法应用于交互式物体理解的两个方面:a)学习状态敏感特征,b)推断物体可供性(确定放置在场景中的物体可以提供什么样的手抓取和在哪里)。对于学习状态敏感特征的前一个目标,我们通过手稳定物体来实现。我们利用手与物体交互时的外观和运动来为物体状态提供监督。这是通过对比学习实现的,我们鼓励与相似的手外观和运动相关联的物体相互之间相似。这导致的特征比从其他形式的自我监督甚至直接语义监督获得的特征更加状态敏感。对于预测交互区域和适用的抓取的后一个目标,我们还使用手抓取类型的预测。由于手在交互发生时直接可见,这里的挑战是让模型专注于物体以进行预测,而不是手。为此,我们设计了一个上下文预测任务:我们遮挡手部并训练模型从周围的上下文中预测位置和抓取类型。我们发现现代模型可以成功地学习进行这种上下文预测。这使我们能够确定人类在场景中进行交互的位置。我们更好地回忆起小的交互位置,如旋钮和手柄,并且当交互位置被定位到物体的特定区域时,我们也能做出更具体的预测(例如炉灶的旋钮)。我们还能够成功地学习适用于不同物体的手抓取。对于这两个方面,从手中获取监督避免了语义监督的需求和可能的陷阱。我们能够在不需要定义完整的物体状态分类法或在定义动作类别时遭受固有的歧义的情况下进行学习。02.相关工作0我们调查了关于理解人类手、使用人类或他们的手作为线索、交互式物体理解和自我监督的研究。理解手。一些研究致力于从RGB图像中建立对人类手和它们如何操作物体的数据驱动理解[63],RGB-D图像0[51]、自我中心数据[31]、视频[17]和其他传感器[2,58]。这种理解可以采取不同的形式:根据手定义的分类法[15]对抓取类型进行分类[3, 51,63],手关键点和姿态估计[17],理解手势[18],检测手、它们的状态和交互对象[55, 56],手和交互对象的三维重建[4,21],甚至估计手对物体施加的力[13]。关于自我中心数据中手的理解,我们将读者引用到Bandini和Zariffa的调查论文[1]中进行分析。我们的目标不同:我们在理解手的基础上更好地理解物体。0使用人类或他们的手作为探针。与我们的工作最相关的研究是使用人类和手作为探针来理解物体、场景和其他人类。[16, 57,61]通过观察人们在YouTube、情景喜剧和自动驾驶汽车的视频中与场景互动来了解场景可供性。Brahmbhatt等人[2]通过分析人们使用热成像技术触摸物体的位置来学习面向任务的抓取区域。Wang等人[60]利用人类作为视觉线索来检测新颖物体。Mandikal和Grauman[38]扩展了[2]的工作,使用预测的接触区域学习物体操作策略。Ng等人[45]使用另一个人的身体姿势来预测自我姿势在自我中心视频中的应用。与这些过去的工作不同,我们专注于观察手(而不是完整的人类)在非脚本的野外RGB自我中心视频中(而不是在实验室或使用专门的传感器),以学习物体可供性的细粒度方面(而不是场景可供性)。Nagarajan等人[43]的同时工作在类似的环境中工作,但侧重于学习活动上下文先验知识。0交互对象理解。观察手与物体的交互并不是学习如何与物体交互的唯一方式。研究人员使用其他形式的监督(强监督、弱监督、模仿学习、强化学习、逆强化学习)来建立对物体的交互理解。这可以是学习如何抓取的位置和方式,状态分类器,交互热点,动作位置的空间先验,物体的关节模式,奖励函数,功能对应关系等。虽然我们的工作追求类似的目标,但我们的监督来源不同(观察人手与物体在主观视角视频中的交互)。0自监督。我们的技术受到自监督学习的启发,其目标是在没有语义标签的情况下进行学习。具体而言,我们的工作建立在最近在上下文预测和对比学习方面的使用上,以实现对主观视角视频中交互对象的理解。Pr32950归一化 w.r.t0物体的位置和尺度0交互对象0轨迹0归一化 w.r.t0物体的位置和尺度0归一化 w.r.t0物体的位置和尺度0手的轨迹0手的运动0ot0h0t0h0手指抓取标签0接触中 接触中 接触中 接触状态0图2.数据准备。给定来自EPIC-KITCHENS数据集的主观视角视频,我们从中获取手、交互对象和接触状态的每帧检测结果。这些检测结果在时间上连接起来,形成配对的交互对象和手的轨迹。我们通过将手框的位置和相对于物体的尺度在3个相邻帧上堆叠来表示手在物体周围的运动。交互对象的轨迹、手的轨迹和手的运动一起用于学习状态敏感的特征空间(第3.1节)。我们还通过在GUN-71数据集上训练的分类器获得手抓取标签。检测到的手和交互对象配对以及这些手抓取标签用于学习交互区域和这些区域提供的抓取方式(第3.2节)。03. 方法0我们使用Damen等人的具有挑战性的EPIC-KITCHENS数据集,并使用Shan等人的手和交互对象检测器。该检测器提供了每帧的手和正在交互的对象的检测框,以及手的接触状态(手是否接触某物)。我们还使用Rogez等人的71种抓取类型分类数据集上训练的模型对检测到的手进行抓取类型的预测。我们将检测到的手和交互对象在连续帧中连接起来,形成交互对象和手的轨迹,如图2所示。我们使用这些轨迹来学习状态敏感的特征(第3.1节)。通过每帧的预测,我们学习手与物体的互动方式(第3.2节)。03.1. 通过时间和手的一致性获得状态敏感特征0我们的方法建立在两个关键思想的基础上:物体状态在时间上的一致性和与手势姿态的一致性。我们的训练目标鼓励接近时间或与相似的手势外观和动作相关的物体裁剪之间的相似性,同时远离数据集中的随机其他物体裁剪。我们通过对比学习实现这个直觉,并提出了一个联合损失:L temporal+ λL hand。L temporal通过采样自然发生的时间增强作为额外的变换来鼓励时间一致性。L hand使用手作为对比示例;正例是与物体裁剪在时间上对应的手,负例是其他随机采样的手。L hand间接鼓励不同物体之间的相似性,这些物体通过手类似地进行交互,因此很可能处于相似的状态。我们通过采样一个物体裁剪 o i和一个时间上接近的手裁剪来构建对比学习的批次。0从图2中显示的轨迹中获取 h ai。我们还通过将手框相对于物体框在三个相邻帧上的位置和尺度进行连接,来编码手的运动 h m i。h a i和h mi共同表示手:h a i描述外观,h mi描述运动。我们从同一物体轨迹中采样另一帧 o ′ i,作为 oi 的时间增强。给定 N 个这样的四元组 (o i, o ′ i, h a i, h mi),我们构建如图3所示的正对比负对。在 L temporal中,对于每个 o i,o ′ i 是正样本,所有其他对象 o j 和 o ′j 是负样本。在 L hand 中,对于每个 o i,[h a i, h mi](手的外观和运动)作为正样本,所有其他对象 o ′ j 和手[h a j, h m j] 作为负样本;对于每个 [h a i, h m i],o i是正样本,所有其他对象 o j 和手 [h a j, h m j]是负样本。所有的裁剪 o i,o ′ i,h a i都使用标准的SimCLR数据增强进行转换。我们通过将物体和手裁剪通过卷积主干 ϕ o 和 ϕ h进行传递来设置对比损失。我们对于 L temporal使用一个投影头 f o,对于 L hand 使用两个投影头 f h,gh(分别用于物体和手裁剪)。h mi通过位置编码进行编码,并附加到 ϕ h (h a i)中,然后输入到投影头 g h中。我们使用余弦相似度和归一化温度缩放的交叉熵损失(NT-Xent),参考SimCLR[6]。我们将同时使用这两个损失项的完整公式称为具有对象-手一致性的时间SimCLR或TSC+OHC。我们还尝试只使用时间项的时间SimCLR或TSC(即将 λ 设置为0)。这些公式的输出是 ϕo,它是我们的状态敏感特征表示。在第4.1节中,我们评估了 ϕ o 在物体状态分类任务上的质量。03.2.通过上下文预测的物体可供性0我们解决的交互式物体理解的下一个方面是推断放置在场景中的物体能够在哪些位置提供什么样的交互,我们将其统称为物体32960物体轨迹0吸引力0f0h0gh0o j o ′ i0手轨迹0hi0oi0排斥0ϕo0物体模型0ϕh0手模型0o ′j0f o ( ϕ o ( o j )) f o ( ϕ o ( o i )) f o ( ϕ o ( o ′ i )) f o (ϕ o ( o ′ j ))0f h ( ϕ o ( o i )) f h ( ϕ o ( o j ))0hj0j m0i0手0运动0L temporal0左手0图3.具有对象-手一致性的时间SimCLR(TSC+OHC)。给定包含物体裁剪对 o i,o ′ i,以及相应的手裁剪 h a i 和手运动 h m i的四元组批次,TSC+OHC使用两个损失 L temporal 和 L hand。L temporal鼓励时间上接近的物体裁剪彼此接近,同时与其他物体裁剪远离。L hand鼓励相应的物体和手彼此接近,同时与其他物体和手远离。对象和手使用不同的编码器(ϕ o 和 ϕ h),对象使用不同的头(f o 和 f h)用于L temporal 和 L hand。最佳观看颜色。0编码器解码器0分割损失0抓取损失0抓取标签0(中等包裹)0输入图像0s × s02s×2s0s×s0遮罩分割掩码0图4.通过上下文预测的可供性(ACP)。我们从输入图像中采样一个补丁(橙色),围绕检测到的手(左侧显示)进行考虑。然后我们考虑一个两倍大小的上下文区域(黑色),其中包含正在交互的对象的部分。我们遮罩掉采样的补丁(遮罩),隐藏手部。我们的模型使用周围的上下文来预测遮罩区域内的交互概率和可供的抓取。我们粘贴手部和对象框来生成交互区域的监督。抓取预测分支的监督通过在手部裁剪上运行在GUN71数据集[51]上训练的网络来获得。0可供性。具体而言,我们希望推断出a)场景中的交互区域(即在进行某些常见动作时可能与之交互的像素),以及b)适用于该区域的手部抓取类型。0这两个方面的信息在主观视角视频中直接可用。当手部与物体互动时,我们可以观察到它们的接触位置和抓取方式。然而,直接从这样的数据中学习模型是困难的;无论我们在哪里有手部的监督,我们也有同样的手部轻松揭示我们想要预测的信息。因此,一个简单地训练的模型不会学到关于底层物体的任何东西。为了解决这个问题,我们提出了一个上下文预测任务:从手部周围的图像补丁中预测手部位置和抓取类型,但遮罩掉手部。我们的上下文预测任务鼓励模型使用物体周围的上下文来预测交互区域。例如,在图4中,模型可以从上下文区域中可见的锅的一部分预测交互区域(手柄的位置)。我们将我们的模型称为通过上下文预测的可供性(ACP)。0数据生成。我们的数据生成过程如图4所示,假设手部、交互对象、接触状态和抓取类型的检测(见图2)。从处于接触状态的手开始,我们在检测到的手周围采样一个s×s的补丁。我们在这个补丁周围裁剪出一个2s×2s的非对称上下文区域,其中s×s的手部补丁位于该上下文区域的底部中心。我们遮罩掉s×s的手部补丁,得到一个遮罩的上下文区域,作为我们模型的输入。模型的目标是预测a)遮罩区域内手部(和可选的交互对象)的分割掩码,以及b)手部展示的抓取类型。这些的监督来自上述的检测和抓取预测。由于[55]的检测器只输出框,我们通过粘贴检测框来得到一个近似的分割掩码。我们还从交互对象检测周围采样额外的正样本,并从剩余的图像中采样负样本。我们在不同的尺度上采样补丁,并将它们重塑为128×128后输入到我们的网络中。ject state classification. We design experiments to measurethe effectiveness of focusing on the hands to derive a) dataand b) supervision for learning; and our choice of learningmethod. We also compare the quality of our self-supervisedfeatures to existing methods for learning such features via:action classification on EPIC-KITCHENS and state classifi-cation on Internet data [24].Object State Classification Task and Dataset. For eval-uation, we design and collect EPIC-STATES, a labeled ob-ject state classification dataset.EPIC-STATES builds uponthe raw data in the EPIC-KITCHENS dataset and consists of10 state categories: OPEN, CLOSE, INHAND, OUTOFHAND,WHOLE, CUT, RAW, COOKED, PEELED, UNPEELED. Weselected these state categories as they are defined some-what unambiguously and had enough examples in the EPIC-KITCHENS dataset. EPIC-STATES consists of 14,346 objectbounding boxes from the EPIC-KITCHENS dataset (2018version), each labeled with 10 binary labels correspondingto the 10 state classes. We split the dataset into training, val-idation, and testing sets based on the participants, i.e. boxesfrom same participant are in the same split.To maximally isolate impact of pre-training, we onlytrain a linear classifier on representations learned by thedifferent methods. We report the mean average precisionacross these 10 binary state classification tasks. We alsoconsider two settings to further test generalization: a) lowtraining data (only using 12.5% of the EPIC-STATES trainset), and b) testing on novel object categories (by holdingout objects from EPIC-STATES train set).Implementation Details.Object-of-Interaction Tracks.We construct tracks by linking together hand-associatedobject detections with IoU ≥ 0.4 in temporally adjacentframes. We median filter the object box sizes to minimizejumps due to inaccurate detections. This resulted in 61Kobject tracks (on average 2.2s long) for training. We extractpatches at 10 fps from these tracks.Model Architecture. All models use the ResNet 18 [23]backbone initialized with ImageNet pre-training. We av-erage pooled the 4×4 output from the ResNet 18 backboneand introduced 2 fully connected layers to arrive at a 512dimensional embedding for all models.Self-supervision Hyper-parameters. Our proposed models(TSC, TSC+OHC) use standard data augmentations: colorjitter, grayscale, resized crop, horizontal flip, and Gaussianblur. Temporal augmentation frames o′i were within onefourth of the track length. For the TSC+OHC model: handboxes within 0.3s from the object boxes were considered ascorresponding and hmiwas computed using 3 consecutiveframes. See other details in Supplementary.Results. Table 1 reports the mean average precision (higheris better) for object state classification on the EPIC-STATEStest set. We also report the standard deviation across 3 pre-training runs. We compare among our models and against32970模型架构和训练。遮罩的上下文区域通过ResNet-50编码器进行处理,然后通过两个独立的头部预测分割掩码和抓取类型。分割头部使用反卷积解码器生成64×64的分割掩码,并使用二元交叉熵损失进行训练,其中正类别的权重因子为4。抓取类型预测使用2个全连接层来预测适用的抓取类型。由于可能适用多个抓取类型,我们将其建模为多标签问题,并使用独立的二元交叉熵损失进行训练。对于每个示例,从GUN71模型中得分最高的类别被视为正样本,最低的15个类别被视为负样本,其余的类别不用于计算损失。推理。对于推理,我们密集地在3个不同的尺度上采样补丁。我们将它们重塑为128×128,并遮罩掉64×64的底部中心区域,然后将它们输入到我们的模型中。从补丁中预测的结果被粘贴回原始图像,生成每个像素的交互概率和可供的手部抓取。尽管我们只考虑了粗糙的分割和抓取类型的预测,但我们的上下文预测框架更通用。在适当的预训练模型的情况下,ACP可以用于更丰富的手部表示,如细粒度分割、2D或3D手部姿势。04. 实验0我们在EPIC-KITCHENS[10]的野外视频上训练我们的模型。我们的实验测试了我们追求的交互式对象理解的不同方面:状态敏感特征(第4.1节),对象可行性预测(即识别交互区域(第4.2节)和预测对象提供的手抓取(第4.3节))。我们重点比较不同的监督来源,并评估我们的设计选择。由于我们追求相对较新的任务,我们在EPIC-KITCHENS之上收集了两个标记数据集来支持评估:用于状态敏感特征学习的EPIC-STATES和用于交互区域的EPIC-ROI。我们将YCB-Affordance基准[9]调整为提供的手抓取预测。我们所有的实验都是在具有挑战性的设置中进行的,即EPIC-KITCHENS实验中的训练和测试参与者之间没有重叠,以及YCB-Affordance实验中的对象之间没有重叠。04.1. 对象的状态敏感特征0请注意,[55]中的检测器是在EPIC-KITCHENS数据集的18K个标记帧上进行训练的。为了确保我们的训练只能看到真实的预测结果,我们使用了[55]的leave oneout预测方法:我们将训练集按参与者分成5个部分,重新训练[55]的4个部分,使用第5个部分的预测结果(即未见过的参与者);并且重复这个过程5次。
32980表1.EPIC-STATES测试集上的物体状态分类的平均精度(µ±σ,基于3个预训练种子)。我们的自监督特征在所有设置中都优于ImageNet预训练特征、其他自监督(TCN、SimCLR)甚至语义监督。在更困难的设置中,如低数据和对新物体的泛化,性能提升更大。0新物体 所有物体0线性分类器训练数据12.5% 100% 12.5% 100%0ImageNet预训练 70.2 ± 0.0 74.5 ± 0.0 78.2 ± 0.0 83.1 ± 0.0 TCN [53] 56.1 ± 1.963.9 ± 1.1 62.5 ± 0.8 73.4 ± 1.4 SimCLR [6] 71.9 ± 0.2 77.1 ± 1.0 77.4 ± 1.0 81.0± 0.9 SimCLR + TCN 63.7 ± 0.3 68.4 ± 1.6 72.9 ± 1.3 77.4 ± 1.2通过EPIC动作分类的语义监督 70.9 ± 1.9 77.0 ± 0.9 72.1 ± 0.8 77.9 ± 1.3 通过MITStates数据集 [24] 70.1 ± 1.4 73.9 ± 0.8 76.4 ± 0.6 81.5 ± 1.3 我们的[TSC] 74.5 ±0.9 80.2 ± 0.4 81.4 ± 1.0 84.2 ± 1.0 我们的[TSC+OHC] 79.7 ± 0.6 81.8 ± 0.4 82.6± 0.2 84.8 ± 0.40查询(切割)0TSC+OHCImageNe0预训练0图5.相似状态的物体。在我们学习到的特征空间中,最近邻呈现出相似的状态。0a)ImageNet预训练(即没有进一步的自监督预训练),b)通过SimCLR进行非时间性自监督[6],c)另一种时间性自监督方法(Time Contrastive Networks,TCN[53]),以及d)通过EPIC-KITCHENS上的动作分类和MITStates数据集上的状态分类进行语义监督[24]。我们在讨论我们的主要发现时描述了这些比较要点。TSC和TSC+OHC的特征比ImageNet特征更加敏感。ImageNet预训练特征提供了强大的基准,mAP为83.1%。TSC和TSC+OHC将性能提升到84.2%和84.8%。在所有模型中,这些改进在具有挑战性的低数据和新类别设置中得到放大,我们的完整模型TSC+OHC分别比ImageNet特征提高了4.4%和9.5%。当我们在图5中可视化学习到的特征空间中的最近邻时,这些趋势也得到了证实。TSC和TSC+OHC优于其他竞争的自监督方案。即使仅仅是自身的TemporalSimCLR也比具有相同裁剪但忽略时间信息的vanillaSimCLR更有效。我们还超越了TCN[53],这是一种领先的时间自监督方法,以及TCN与SimCLR的结合。TCN使用来自同一轨道的负样本。由于发生变化的时间尺度的大变异性(例如OPEN vs.CHOP动作),在EPIC-KITCHENS中更难识别这些负样本。物体-手一致性的监督改善了性能。TSC+OHC比仅有的TSC提高了0.6%,在更具挑战性的情况下(高达5.2%)获得更大的增益0查询0最近的0邻居0图6.提供类似手部的物体。我们检索与查询手部具有相似特征的物体。与相似交互的物体也会被检索出来。0新类别和有限数据设置。这证实了我们的假设,即观察手部的行为有助于理解物体的状态。图6显示了一些最近邻检索,进一步支持了这一点。TSC和TSC+OHC模型优于语义监督模型。传统的智慧会建议在互联网上收集图像来对模型进行预训练,用于此类或相关任务。Isola等人的MITStates数据集是最大的包含32,915个标有适用形容词的训练图像的数据集。令人惊讶的是,我们的自监督模型在这个数据集上的特征学习超过了通过监督训练学习到的特征,提高了3.3%至9.6%,可能是由于互联网和自我中心数据之间的领域差异。另一个常见的观点是将动作分类等同于视频理解。我们通过与EPIC-0KITCHENS.这个模型是使用最常见的32个动作标签及其时间范围在我们的轨迹上进行训练的,这些标签是作为EPIC-KITCHENS数据集的一部分提供的。TSC和TSC+OHC特征的性能优于动作分类特征3%至10%。因此,尽管动作分类任务对许多应用程序很有用,但它无法学习到良好的状态敏感特征。消融实验。在补充材料中,我们比较了使用TSC进行学习时获取轨迹的替代方法。我们消融了两个方面:我们追踪的是什么(背景裁剪、背景物体、互动物体)以及我们如何追踪它(不追踪、现成的追踪器[35]、手上下文)。消融实验表明,互动物体轨迹的效用尤其体现在它们能够使用手的一致性。我们还研究了外观和运动在表示手部时的作用。我们发现,两者都比TSC有用,其中运动比外观更重要。04.2. 互动区域0互动区域任务和数据集。我们设计并收集了一个标记的互动区域数据集EPIC-ROI。EPIC-ROI基于EPIC-KITCHENS数据集,并包含103个不同的图像,每个图像都有像素级别的手部经常接触的区域标注。具体来说,任何最常见的动作(如拿、打开、关闭、按压、擦干、转动、剥皮)所对应的图像区域都被视为正样本。我们手动观看了多个参与者的视频,以定义a)物体类别和b)每个类别中参与者在进行任何动作时互动的具体区域。32990COCO对象 非COCO对象 COCO部分 非COCO部分0图7.来自提出的EPIC-ROI数据集的图像。每个图像都标注了人们经常互动的区域,即人与人之间的互动区域。每个标注还带有四个属性之一的标签:COCO对象、非COCO对象、COCO部分或非COCO部分。0这103个图像是从9个不同的厨房中抽样得到的(每个厨房有7到15个图像,最小重叠)。EPIC-ROI仅用于评估,包含32个验证图像和71个测试图像。来自同一厨房的图像在同一分组中。互动区域任务是为图像中的每个像素打分,表示手与其互动的概率。性能使用平均精度进行衡量。为了进行详细分析,每个标注区域都被赋予了两个二进制属性:a)是否为COCO对象(如果区域在COCO数据集中包含的对象上),b)是否为整个对象(如果区域覆盖整个对象)。这样得到了4个子类(见图7),可以在更具挑战性的方面进行评估,例如在目标检测数据集中通常不常见的小物体(非COCO对象),或者当互动局限于特定物体部分时,如锅柄(COCO部分)或切菜板边缘(非COCO部分)。我们还在1%SLACK设置下进行评估,其中忽略了与分割边界相距20像素(图像宽度的1%)以内的区域,以消除预测中的小泄漏。实现细节。我们在2018年的EPIC-KITCHENS数据集中的250个视频上训练了我们的模型。我们排除了EPIC-ROI评估中使用的9个厨房的视频。抓取分类分支的详细信息请参见第4.3节。结果。表2报告了平均精度。我们与三类方法进行了比较:a)基于物体性质的方法SalGAN [46]和DeepGaze2[30],使用人眼数据/手动标签进行训练;b)基于实例分割的方法,使用Mask RCNN[22]预测的所有/相关类别的掩码;c)来自Nagarajan等人的互动热点方法[42],该方法从EPIC-KITCHENS数据集中手动标注的物体边界框和动作标签中获得监督。鉴于基于Mask RCNN的方法的强大性能,我们还报告了通过将MaskRCNN与ACP和次竞争基线DeepGaze2的预测进行聚合的性能。聚合使用加权求和的方式进行(权重通过验证性能选择)。总体而言,当限制在相关类别时,Mask-RCNN的性能最好。这并不令人意外,因为它具有很强的性能。0在超过100万个对象分割掩模的监督下,ACP(我们的方法)的性能受到非COCO对象或其部分的影响。利用更一般的监督方法开始取得更好的效果。尽管ACP(我们的方法)没有接受任何分割掩模的训练,但它能够胜过过去的方法。它开始接近Mask RCNN的性能,特别是在1%SLACK设置下。当与MaskRCNN结合使用时,ACP在所有类别中实现了最强的性能。它比基于MaskRCNN的方法提高了4.7%,表明我们的方法能够有效地学习通常不包含在检测数据集中的对象(例如炉子旋钮)和对象部分(例如冰箱和抽屉的手柄)。此外,我们的方法通过预测提供的抓取提供了更完整的交互理解,如第4.3节中所讨论的并在图8中展示。消融实验。附录中的实验研究了网络输入变化(不隐藏手部,对称上下文,不基于接触进行过滤),模型架构以及数据采样和监督(仅使用对象,或仅使用手部,或使用手部掩模而不是框)。我们发现所有设计选择都对ACP的性能有所贡献。通过更丰富的手部理解(分割掩模与框掩模)可以获得进一步的改进。04.3.对象提供的手部抓取0物体提供的抓取(GAO)任务和数据集。我们使用YCB-Affordance数据集[ 9]来评估物体提供的抓取(GAO)任务的性能。该数据集使用[ 62 ]中的场景中的对象进行注释,并使用33类分类法[15]中的所有适用抓取进行注释。我们将数据集分为训练集(110K图像,776K抓取,仅用于获得监督上限),验证集(60个图像,230个抓取)和测试集(180个图像,760个抓取)。验证集和测试集中包含训练集中没有的新对象。给定一张包含所考虑对象的分割掩模的图像,GAO任务是预测对象提供的抓取。由于每个对象都可以适用多个抓取,我们独立地测量每个抓取的AP,并报告验证集和测试集中存在的7个(33个中的7个)抓取的mAP。实现细节。ACP中的抓取预测分支是在GUN71数据集上训练的抓取分类模型的预测结果上训练的。我们只使用与YCB-Affordance数据集中任务相关的33个类别,从71路输出中选择。为了测试我们对YCB-Affordance对象的抓取预测,我们对属于对象掩模的像素平均空间抓取分数。我们发现将GUN71分类器调整为EPIC-KITCHENS以生成良好的监督是有用的。这是通过在训练GUN71时使用额外的L时间损失在EPIC-KITCHENS手部轨迹上(类似于第3.1节中用于对象的损失)来完成的。33000表2.区域交互预测的平均精度。我们报告整体AP和不同类型交互区域的AP。我们还报告在边界处使用1%SLACK的AP,其中我们不惩罚掩模边界内20像素(图像宽度的1%)范围内的任何泄漏。在没有训练分割掩模的情况下,我们的方法优于基于物体性质(SalGAN和DeepGaze2)、动作分类(Interaction Hotspots)的方法,并且能够接近使用受监督分割掩模训练的MaskRCNN。当与Mask RCNN结合使用时
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功