没有合适的资源?快使用搜索试试~ 我知道了~
2155面向以自我为中心的手-物交互视频的细粒度可供性标注余泽成,黄一飞,古田良介,八木琢磨,右津佑介,佐藤洋一东京大学工业科学研究所{zch-yu,hyf,furuta,tyagi,goutsu,ysato} @ iis.u-tokyo.ac.jp摘要物体可供性是手-物交互中的一个重要概念,它根据人的运动能力和物体的物理特性提供动作可能性的信息然而,现有数据集中的可供性定义通常:1)混淆了可供性与对象功能; 2)混淆了启示与目标相关的行动;(3)忽视人的运动能力。本文提出了一种有效的注释方案来解决这些问题,通过结合目标无关的运动动作和抓握类型作为示能标签,并引入机械动作的概念来表示两个对象之间的动作可能性我们通过将此方案应用于EPIC-KITCHENS数据集来提供新的注释,并使用诸如启示识别、手-物体交互热点预测和启示的跨域评估等任务来测试我们的注释。结果表明,使用我们的注释训练的模型可以将affor- dance与其他概念区分开来,预测对象上的细粒度交互可能性,并通过不同的域进行泛化1. 介绍可供性最初由詹姆斯·吉布森(James Gibson)定义为物体或环境提供的行动可能性。 这是一种非陈述性知识,我们已经学会了自动激活对物体的反应,这是由我们的运动能力决定的,即。、适合人手的运动动作以及物体的形状等物理特性。识别示能表示可以通过提供与场景中对象的可能交互信息来有益于动作预期和机器人动作规划等任务[15]。计算机视觉中的许多现有作品[13,17,16,20,24,18]研究了启示。他们使用动词作为启示标签来描述可能的行动关联-图1. 在我们的注释方案中使用的定义:a)affor- dance标签是存在于手-物体界面中的与目标无关的运动动作和抓握类型的组合;以及b)机械动作标签是可以描述两个对象之间的交互的动作标签,存在于工具-对象接口中(图改编自[21])。与对象。然而,像“切”、“取”和“关”这样的动词并不符合示能性的定义。更具体地说:a)“切割”是启用的可能动作直接用“切”作为示能表示,不能区分人的自然运动能力和物体功能性延伸的能力; b)使用“take”作为示能表示标签忽略了当以不同的抓握类型执行“take”时的示能表示的变化,这不能提供细粒度的示能表示注释;以及c)“关闭”是目标相关的动作,但不是目标无关的示能表示。在“关闭水龙头”中使用的示能表示也应该应用于其他交互,例如“按下按钮”。不仅是示能性与其他概念的混淆,动词也不能代表示能性的多样性。例如,我们不能通过动词“pick-up”来区分鉴于这些问题,我们需要一个精确的示能性定义来区分示能性与其他概念,并具有代表人类运动能力的能力。受神经科学研究结果的启发[21],我们通过提出一个考虑手-物体交互和工具的启示性注释来解决上述缺点。2156对象交互分开。我们的注释方案:a)将示能表示定义为与目标无关的运动动作和手抓握标签的组合。这可以表示由人的运动能力和对象 该标签结构还可以提供细粒度的示能表示类别以表示手-对象交互中的各种示能表示; b)将机械动作定义为两个物体之间可能的相互作用,如图1所示。由于为大规模视频数据集注释此信息可能很费力,因此我们提出了一种注释方法,该方法利用affor-dance的一致性来简化注释:当相同的参与者对相同的对象执行相同的动作时,示能表示将是相同的。我们将此注释方案应用于EPIC-KITCHENS数据集[5]。注释可在https://github.com/zch-yu/epic-affordance-annotation获得。我们通过三个任务来测试我们的注释,以评估它的合理性。首先,我们比较了affor- dance,机械动作,工具/非工具使用动作的识别结果,结果表明,用我们的注释训练的模型可以清楚地区分示能性和其他概念。然后,我们采用示能表示作为弱监督,按照[18]的方法生成手-物交互热点,我们的结果表明,与使用动作标签相比,该模型可以预测更细粒度、更准确的交互热点。最后,我们对启示的泛化能力进行了评价,启示在不可见领域的识别性能要优于动作识别。我们工作的主要贡献如下:1. 我们指出了现有的af-fordance数据集的主要缺点,即。,启示被错误地与对象功能和目标相关的动作混淆。此外,动词由于忽略了抓握类型,不能完全描述示能性。2. 我们提出了一个细粒度和有效的启示一个符号计划的手对象交互视频,以解决上述问题,并提供了一个大规模的自我中心的行动视频数据集:EPIC-KITCHENS的启示和其他相关概念的注释。3. 我们测试我们的任务,如启示识别,手-物体交互热点预测,和跨领域的启示评估的注释。结果表明,使用我们的注释训练的模型可以区分启示与其他概念,预测对象上的细粒度交互可能性,并通过不同的领域进行推广。2. 相关作品2.1. 示能数据集早期的示能数据集[20,17]注释了可能的动作以及对象图像可能发生动作的确切区域。Koppula等人。[13]为人-物体交互视频剪辑提供了示能表示标签注释。Ther- mos等人[24]和Fang et al. [6]将人-对象交互热点图注释为与其动作标签相关联的视频剪辑的对象示能表示。此外,Nagara-janet al. [18]使用以自我为中心的EPIC-KITCHENS数据集的动作标签作为弱监督来学习生成人-物交互热点图。正如我们在表2 - 1中看到的,这些数据集都使用动词作为示能标记。他们既没有提供一个明确的定义,也没有考虑人类的运动能力。它们也不能代表启示的多样性。因此,我们提出了一个细粒度的启示注释计划,考虑到人类2.2. 启示理解可供性理解方法可分为四类:示能表示识别,示能表示语义分割,交互热点预测,示能表示上下文.给定一组图像/视频,启示识别的任务[1]旨在从它们中估计启示标签。示能表示语义分割[16,20]旨在将输入图像/视频帧分割成一组用示能表示标签标记的区域。交互热点预测[18,6]试图预测对象可能的交互热点。此外,一些作品[14,15,19]也使用启示作为其他任务的上下文,如动作预期。所有这些方法都受到简单地使用动词作为示能性标签的影响。首先,动词混淆了启示与其他概念,如对象功能。例如,当观察“cut”动作和“take”动作时,我们的注意力是不同的[12,11]:前者在交互对象上,而后者在手上。把它们混在一起可能会混淆启示识别的模型。动词不能代表手-物互动中使用的各种启示我们可以根据对象使用不同的示能表示执行相同的操作。例如,我们可以直接推动或处理门把手来关门。然而,以前的作品忽略了这些细节,简单地使用动作“关闭”作为一个启示标签。这导致在示能表示语义分割和交互热点预测任务中无法区分不同的示能表示区域。2157击打,击打,支撑,W-抓格式类别图像/视频交互区域视图功能可见性标签IIT-AFF [20] RGB图像9 8,835像素-包含,剪切,显示,引擎,抓取,抓住,抓住可容纳的,可支撑的,可握住的,可提升的,可推动的,可旋转的,可打开的,可锤击的,可切割的,pour,squeeze,unlock,paint,write,type OPRA [6] RGB Video 7 11,505第三人称视角hold,touch,rotate,push,pull,pick up,put down EPIC-KITCHENS示能表示[18] RGB Image 201,871 EPIC-KITCHENS动作集的以自我为中心的子集表1.现有启示数据集的比较概述3. 建议的示能表示注释我们的目标是开发一个细粒度和有效的注释计划的启示和其他相关概念的手对象交互视频。3.1. 定义我们提出的启示注释方案受到三动作系统模型(3AS)[21]的启发,该模型明确定义了手-物体交互所需的概念。三行动系统模型包括示能、机械行动和语境关系。我们主要关注前两个概念,因为它们与我们的目标密切相关。因此,示能性被定义为• 以手为中心:手-对象界面中的仅示能表示存在。• 动物相关:示能性不仅由客体的性质决定,而且与人的运动能力有关。• 目标无关对象属性:同样的功能可以用于不同的目的。为了填补对象-对象交互中的启示的缺失,3AS [21]引入了机械动作作为对象之间以工具为中心的机械动作可能性。根据以上所述,我们分别考虑手-物体交互实例的affor- dance和机械动作,如图1所示我们将示能标签定义为与目标无关的运动动作和抓握类型的组合对于机械动作,我们使用描述对象之间的相互作用的动词(例如切割,搅拌)作为机械动作标签。3.2. 注释计划为了注释动作视频数据集,我们首先需要将数据集的原始动作标签划分为工具使用动作和非工具使用动作,因为机械动作仅存在于工具使用动作中。然后,我们为工具使用行为注释机械行为,为工具使用和非工具使用行为注释启示。直接注释这些标签可能是费力的,因此我们提出了一个注释计划,利用现有的注释,以减少标记的难度。图2.由[8]简化的6级抓握类型分类法图3.示能表示标签由与目标无关的运动员动作标签和抓握类型标签组成工具使用/非工具使用动作标注:动作视频数据集的工具使用/非工具使用动作标注可以通过将数据集的原始动作标签分为三类来完成:工具使用动作、非工具使用动作以及两者,根据每个动作标签的含义。例如,一些动作标签可以同时表示工具使用动作和非工具使用动作,例如我们在注释过程中忽略这些标签,因为它们具有模糊性。机械动作注释:我们只需要注释工具使用动作的机械动作。根据这一定义,我们可以将原动作标签中的动词举例来说:在“搅拌食物”中,“搅拌”可以表示切片之间的机械作用RGB-D部件示能数据集[17]RGB-D图像7105√-CAD-120 [13]RGB视频6130×三人称视角SOR3D [24]RGB-D视频139,683√三人称视角2158图4. 高效的注释方案。左图:我们首先从注释了相同动作参与者标签的剪辑中抽取5个视频剪辑,然后手动为它们注释示能表示标签。右:在手动注释之后,示能表示标签被分配给具有相同动作参与者标签的所有视频剪辑,如下所示:(a)如果只有一个示能表示标签,则其被分配给所有视频;(b)如果有两个示能表示标签,则我们将注释2分配给比用注释2注释的视频剪辑晚的视频剪辑,将注释1分配给比它更早的视频剪辑;(c)如果有两个示能表示标签,则将注释2分配给比用注释2注释的视频剪辑晚的视频剪辑。已经是将视频剪辑划分成组的边界,每个组中的视频用位于其组中的注释来注释。还有食物基于此规则,我们可以为所有工具使用动作视频片段自动注释机械动作,从而显著降低注释成本。示能表示注释:对于示能表示注释,如图3所示,我们为每个视频剪辑注释与目标无关的运动动作和抓握类型。给定一个未标记的视频片段,我们首先根据其中使用的对象属性定义一个与目标无关的运动动作。在本图的示例中,我们使用“pull”来表示橱柜把手的“pull-lable”属性。接下来,我们从6类抓取类型分类法中选择抓取类型该分类是根据抓握类型的力量和拇指的姿势从众所周知的33类抓握类型分类[8]简化而来的,如图2所示。最后,我们将与目标无关的运动动作标签与抓握类型标签结合起来作为示能性标签。这种形式的affor- dance标签可以模拟对象运动动作和抓握类型的组合提供了一个细粒度的结构来表示不同的启示。为了减少示能性标注的人工工作,我们提出了一种高效的标注方法,该方法基于假设同一个人将以固定的方式与同一个对象交互如图4(左)所示,有多个视频剪辑演示了同一参与者在原始数据集中执行相同的操作。我们首先从具有相同动作参与者(动词,名词,参与者)注释的视频剪辑中抽取五个剪辑,然后使用CVAT [22]手动注释它们的启示然后,我们将这些示能表示标签分配给具有相同动作参与者注释的视频剪辑,如图4所示。在一些情况下,由于场景变化,具有相同动作参与者标签的视频具有多个示能表示标签(例如,参与者在不同的房间执行相同的动作)。为了解决这个问题,我们的affor-dance注释分配方案如下:(a)一个示能说明:如果在这些视频剪辑中没有场景改变,则我们将唯一的示能表示注释应用于具有相同动作参与者标签的所有视频剪辑。(b)没有预定义边界的两个场景(例如,,EPIC-KITCHENS 55 [4]和EPIC-KITCHENS 100的边界我们使用稍后出现的示能表示作为边界,比它早的视频剪辑用注释1注释,比它晚的视频剪辑用注释2注释。(c)具有边界的两个场景:存在一个边界,该边界基于视频片段与边界的相对位置将每个组的视频都使用其组内的注释进行注释。请注意,在注释速度和准确性之间有一个权衡我们手动注释的视频剪辑越多,自动注释结果就越准确该方法的效率和准确度见第4.1节。4. 实验我们首先用我们提出的方法注释EPIC-KITCHENS数据集,然后在其上训练模型我们的实验从四个方面评价了标注的合理性:首先,我们测试了工具使用2159图5.启示类动作/非工具使用动作来展示分离这些动作域的重要性。其次,我们比较了示能性和机械动作的识别模型,评价了模型区分第三,我们通过Nagarajan等人的方法展示了他们代表不同启示的能力。[18]最后,我们比较了启示和行动的泛化能力。4.1. 数据集我们在大规模视频数据集中选择了EPIC-KITCHENS数据集[5,3,10],其中包含egocen-图6.机械类类别视频剪辑动作标签tric手-物体交互视频剪辑注释与ac-tion(动词,名词)标签,由21名参与者在45个厨房场景中记录。我们首先为数据集注释工具使用动作/非工具使用动作。EPIC-KITCHENS的97个动词中有60个非工具使用动作和33个工具使用动作,这导致51.5k个非工具使用动作视频片段和8.5k个工具使用动作视频片段,如表2所示。 然后将工具使用动作视频剪辑的动词注释用作其机械动作标签,如图6所示。 接下来,使用我们的注释方法,我们从原始注释中采样了91个最常用的动作标签,并为不同的动作参与者对手动注释了1356个affor- dance标签。我们获得了18,613个视频剪辑,注释了60个示能表示标签,如图5所示。为了进行质量检查,我们从带注释的视频片段中随机抽取了1,113个实例,并手动检查了它们的示能表示标签,获得了87.95%的准确率,然后用它们纠正了示能表示注释。非工具使用51.5k拿,放,开...(60)工具使用8.5k切割,倾倒,混合,干燥...(三十三)表2. EPIC-厨房的工具使用/非工具使用行动标签4.2. 可供性/机械动作/工具使用动作评估我们的注释方案是否可以解决将启示与对象功能和目标相关操作混淆的问题。我们分别训练了工具/非工具使用动作、机械动作和affor- dance的三个识别模型,并比较了它们的可视化结果,以显示每个模型关注的重要区域。工具使用/非工具使用动作识别:我们训练了两个SlowFast [7]模型来从给定的视频剪辑中识别工具使用动作/非工具使用动作,一个是随机的2160数据集工具使用行动非工具使用行为随机注释0.47200.5282我们的注解0.85800.7867表3.工具使用/非工具使用动作分类结果。前5名访问示能0.57080.8771机械作用0.51900.8643表4.可供性/机械动作识别结果工具/非工具使用动作注释和另一个与我们的注释。结果如表3所示,其证明了我们的工具/非工具使用动作的自动注释方案的合理性。机械动作识别:我们用我们的注释训练了一个用于机械动作识别的SlowFast模型。对于33类机械动作识别任务,如表4所示,我们得到了51.90%的识别准确率.示能表示识别:我们用我们的注释训练了一个用于示能表示识别的SlowFast模型。对于60类启示识别任务,如表4所示,我们得到的识别准确率为57.08%。根据三动作模型,启示只存在于手-物体界面中,机械动作只存在于物体-物体界面之间。因此,交互区域可以帮助我们区分示能表示和对象功能。在这里,我们比较这些模型的可视化结果,看看我们提出的注释方案是否可以将启示与其他概念分开。GradCam [23]生成的可视化结果从第一行,我们可以看到,启示识别模型更侧重于手-物体交互。第二行表明机械动作识别模型更关心对象的相互作用。当将第二行与第三行进行比较时,很明显,机械动作识别模型关注工具-物体交互(第二行),而工具使用/非工具使用动作分类模型关注工具的存在(第三行)。这些结果表明,我们的启示性注释提供了一个更精确的启示性标签比以前的数据集,这是重要的区分启示与其他概念。4.3. 手物交互热点在本节中,我们将在交互热点预测任务上评估我们的启示性注释,该任务为给定的对象图像生成交互热点图我们遵循[18]中提出的弱监督方法。他们首先用动作标签训练动作识别模型,图7. GradCam [23]示能表示识别、机械动作识别和工具使用/非工具使用动作识别的可视化结果。示能表示识别模型关注手-物交互,而机械动作识别模型更关注物-物交互。这表明我们提出的注释标签清楚地将启示与其他概念分开,并完全代表了启示,而没有遗漏人类的运动能力。预测网络,可以预测非活动对象的“活动状态”。在推理阶段,输入图像被馈送到预期网络,随后是动作识别模型以获得动作预测。然后,他们推导出梯度加权的注意力图作为交互热点图。在我们的实验中,我们用我们的启示标签而不是动作标签来训练模型。我们首先将地面实况热图与我们的负担能力监督的交互热点和动作监督的交互热点进行比较。我们用4344个视频片段(包括43个不同的affor- dance标签)训练示能模型,用9236个视频片段(包括20个不同的action标签)训练动作模型。表5显示了结果,我们将误差报告为KL-发散[23]、SIM和AUC-J [2]。在这些指标中,示能模型优于动作模型,表明该模型可以更好地捕捉交互线索与示能标签的监督。一个原因是,示能表示标签此外,可供性标签的粒度也有助于模型避免错过可能的交互。除了定量性能改进之外,预测的交互热图还受益于我们注释的细粒度可供性标签。由动作模型和情感模型生成的交互热图如图8所示,其突出显示了ob上的不同动作(示能表示)的交互区域。2161KLD↓SIM↑AUC-J↑行动标签显示价格标签1.305 0.399 0.776表5.使用行为模型和启示模型生成交互热点预测结果。示能模型在所有指标上都优于动作模型,这表明我们的细粒度示能标签可以帮助模型更好地捕捉交互提示。图8.由动作模型和示能模型生成的交互热图。顶行:使用动作模型生成的take、open(红色)的交互热图。底部行:使用示能表示模型生成的在take、open中使用的示能表示(红色、绿色、蓝色、青色)的交互热图。用我们的注释训练的示能模型在捕获正确的交互区域和表示手-对象交互的多样性方面表现得更好。对象。顶部行显示动作模型可以预测不同对象上的可能交互区域(例如,我们可以通过抓住第一幅图像中的红色区域来获取切片)将这些热图与由示能表示模型生成的底部行中的那些热图进行比较,我们可以看到示能表示热图可以更好地表示不同的手-对象交互(例如,“这证明了我们的启示注释4.4. 示能性在不同领域的泛化能力在本节中,我们将评估启示识别模型的泛化能力。这个模型图9. 示能表示识别模型(顶部)和动作识别模型(底部)的可视化结果。我们的af-fordance注释引导模型专注于手-物体交互,这并不随域变化太大。因此,学习的示能表示从一个领域的视频培训工作在其他领域?我们遵循EPIC-KITCHENS数据集的无监督自适应(UDA)挑战的实验设置首先,我们根据EPIC-KITCHENS的UDA设置将带注释的视频片段分为源域和目标域然后,我们在源域中训练一个启示识别模型和一个动作识别模型。最后,选择在源域的验证集上工作最好的模型表6显示了示能表示识别和动作识别的比较结果在这里,我们对这两个任务使用相同的Slowfast模型我们可以看到,在目标域中的示能表示识别模型的性能图9显示了affor- dance识别模型(顶部)和action识别模型(底部)的可视化结果。我们可以看到,示能模型更关注手-物交互,而动作模型更关注目标对象。原因在于,可供性标签(与目标无关的动作,抓握类型)更多地关注我们如何与对象交互,例如手的外观和运动,以及要交互的对象的部分这些并没有太大的变化与不同领域。然而,动作标签(动词、名词)侧重于对象和人-物交互,在不同领域很难保持一致 具有相同标签的对象可能会在域中发生很大变化(例如,,不同颜色,大小的刀)。此外,人-物体交互也是可变的,因为不同的人可以不同地执行相同的动作。因此,示能表示识别模型在目标域中工作得更好。2162任务目标Top-1访问目标Top-5访问源Top-1访问源Top-5访问动作识别12.6730.9916.1632.91示能表示识别20.6954.5924.6853.58表6. 动作/启示的跨域识别结果:启示识别模型在看不见的目标域中工作得更好。5. 结论在这项研究中,我们提出了一个细粒度的手-物体交互视频的启示和符号方案,区分启示从其他概念,如对象功能,并减少手动注释负担。我们成功地将我们提出的注释方案应用于EPIC-KITCHENS数据集,并在三个任务上对其进行了评估。对启示、机械动作和工具/非工具使用动作的识别任务的结果表明,我们提出的注释清楚地区分了启示与其他概念,并在不遗漏人类运动能力的情况下完全代表了启示。交互热点的预测结果表明,我们的细粒度的启示标签可以更好地代表不同的手-物体的互动比动词。此外,我们的启示性注释也表现出其推广能力,在不同的领域。致谢这项工作得到了JST AIP加速研究资助号JPMJCR20U1和JSPS KAKENHI资助号JP20H04205和JP22K17905的支持。2163引用[1] 东龙之介,泷口哲也,有木康雄。利用视觉注意估计目标函数第4页,2018年。[2] Zoya Bylinskii , Tilke Judd , Aude Oliva , AntonioTorralba和Fre'doDurand。关于显着性模型,不同的评估指标告诉我们什么IEEE Transactions on Pattern Analysisand Machine Intelligence,41(3):740[3] 若昂·卡雷拉,埃里克·诺兰,克洛伊·希利尔,安德鲁·兹瑟曼.关于动力学-700人类行动数据集的简短说明。arXiv预印本arXiv:1907.06987,2019.[4] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿 景: 史诗 厨房 数据 集。欧 洲 计算 机视 觉会 议(ECCV),2018年。[5] DimaDamen , HazelDoughty , GiovanniMariaFarinella,Antonino Furnari,Evangelos Kazakos,JianMa , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price ,et al.重塑自我中心 视野:epic-kitchen-100的收集、管道和chal-chales。国际计算机视觉杂志,130(1):33[6] Kuan Fang , Te-Lin Wu , Daniel Yang , SilvioSavarese,and Joseph J Lim. Demo2vec:从在线视频中推理对象启示。在CVPR中,第2139-2147页[7] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,第6202-6211页[8] ThomasFeix、JavierRomero、Heinz-BodoSchmiedmayer、Aaron M Dollar和Danica Kragic。人类抓 握 类 型 的 抓 握 分 类 IEEE Transactions on Human-Machine Systems,46(1):66[9] 詹姆斯·吉布森启示的概念。《感知、行动和认知》,1977年。[10] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al.学习和评估视觉常识的“某事某事”视频数据库。在IEEE计算机视觉国际会议论文集,第5842-5850页[11] Yifei Huang,Minjie Cai,Zhenqiang Li,Feng Lu,andYoichi Sato.用于联合估计自我中心注视和动作的相互上下文网络。IEEE图像处理学报,第7795-7806页[12] Yifei Huang , Minjie Cai , Zhenqiang Li , and YoichiSato.通过学习任务依赖注意转移预测自我中心视频中的注视。在ECCV,第754-769页,2018年。[13] 赫马·斯韦塔·科普拉,鲁德希尔·古普塔,阿舒托什·萨克斯那.从rgb-d影片学习人类活动与物件启示。TheInternational Journal of Robotics Research,32(8):951[14] Hema S Koppula和Ashutosh Saxena。反应式机器人使用物体启示预测人类活动反 应 IEEE transactions on pattern analysis and machineintelligence,38(1):14[15] Miao Liu,Siyu Tang,Yin Li,and James M.前投式人机交互:第一人称视频中运动注意和动作的联合预测。见ECCV,第704-721页。Springer,2020年。[16] 蒂莫·鲁德克和弗洛伦汀·沃格特。学习区分启示。在ICCVW,第769-776页[17] AustinMyers , ChingLTeo , CorneliaFermüller ,andYiannisAloimonos.从几何特征中检测刀具零件的示能见ICRA,第1374-1381页。IEEE,2015年。[18] Tushar Nagarajan,Christoph Feichtenhofer,and KristenGrauman. 视频中的固定人机交互热点在ICCV,第8688-8697页[19] TusharNagarajan,YanghaoLi,ChristophFeichtenhofer,and Kristen Grauman.自我拓扑:来自自我中心视频的环境启示。在CVPR,第163-172页[20] Anh Nguyen,Dimitrios Kanoulas,Darwin G Caldwell,and Nikos G Tsagarakis.使用卷积神经网络和密集条件随机场进行基于对象的启示检测。在IROS中,第5908-5915页。IEEE,2017年。[21] 弗兰切洛是奥秀拉克,Y v esRossetti和ArnaudBadets。什么是启示?四十年后。Neuroscience Biobehav-ioralReviews,77:403[22] Boris Sekachev , Nikita Manovich , Maxim Zhiltsov ,An-Zhavoronkov , DmitryKalinin , BenHoff ,TOsmanov , DmitryKruchinin , Artyom Zankevich ,DmitriySidnev , Mak- sim Markelov , Johannes222 ,Mathis Chenuet , a andre , te- lenachos , AleksandrMelnikov,Jijoong Kim,Liron Ilouz,Nikita Glazov,Priya4607,Rush Tehrani,Seungwon Jeong,VladimirSkubriev,Sebastian Yonekura,vugia truong,zliang7,lizhming,和崔廷·张opencv/cvat:v1.1.0,8月2020年。[23] Ramprasaath R Selvaraju,Michael Cogswell,AbhishekDas,Ramakrishna Vedantam,Devi Parikh,and DhruvBatra. Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。见ICCV,第618-626页,2017年。[24] 斯皮里顿·塞默斯,乔治奥斯·帕帕多普洛斯,彼得罗斯·达拉斯和格拉西莫斯·波塔米安诺斯。深启示-接地感觉运动物体识别。在CVPR中,第6167-6175页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功