没有合适的资源?快使用搜索试试~ 我知道了~
HOI4D: 丰富注释的大规模4D自我中心数据集推动类别级人物-物体交互研究
https://hoi4d.github.io……210130HOI4D: 一种用于类别级人物-物体交互的4D自我中心数据集0刘云泽*1,3 , 刘云*1 , 姜澈 1 , 吕康波 1 , 万伟康 2 , 沈浩 2 , 梁博强 2 , 付周杰 1 , 王贺 2 , 易立 †1,301 清华大学, 2 北京大学, 3 上海启智研究院0摘要0我们提出了HOI4D,这是一个具有丰富注释的大规模4D自我中心数据集,旨在推动类别级人物-物体交互的研究。HOI4D包括240万个RGB-D自我中心视频帧,由9个参与者在610个不同的室内房间中与800个不同的物体实例进行交互而收集。除了重建的物体网格和场景点云外,还提供了帧级注释,包括全景分割、运动分割、3D手部姿态、类别级物体姿态和手部动作。借助HOI4D,我们建立了三个基准任务,以从4D视觉信号中促进类别级HOI,包括4D动态点云序列的语义分割、类别级物体姿态跟踪以及具有多样化交互目标的自我中心动作分割。深入分析显示,HOI4D对现有方法提出了巨大的挑战,并产生了巨大的研究机会。01. 引言0在过去的十年中,通过重要的数据集和基准努力,在图像、视频或3D点云中对物体和活动进行命名取得了巨大的进展[9, 14, 44,47]。然而,这些感知结果无法满足越来越多的关键应用的需求,例如人类助理机器人和增强现实,这些应用需要从4D自我中心感知输入(例如时间流的彩色点云)中感知交互。计算机视觉系统建立起对人物-物体交互的详细理解变得非常有价值。这种理解应该统一对4D动态场景的语义理解、物体遮挡下人手的3D姿态、物体的3D姿态和功能0* 同等贡献. † 通讯作者.0(b) 运动分割 (c) 3D手部姿态 和0类别级物体姿态0(e) 重建的物体网格0开放0(a) 手部动作 (d) 全景分割0伸手0图1.HOI4D概述:我们构建了一个具有丰富注释的大规模4D自我中心数据集,用于类别级人物-物体交互。提供了帧级注释,包括动作分割(a)、运动分割(b)、全景分割(d)、3D手部姿态和类别级物体姿态(c),以及重建的物体网格(e)和场景点云。0对于当今的计算机视觉系统来说,人类的行为和意图以及与之交互的新颖物体的兴趣构成了新的挑战。为了应对这些挑战,迫切需要大规模且注释丰富的4D自我中心HOI数据集以及相应的基准套件。最近已经有一些工作[18, 19,22]来满足这些需求。然而,这些工作大多集中在我们所称的实例级人物-物体交互上,其中与之交互的物体都来自一个非常小的实例池,其精确的CAD模型和尺寸在之前已知。这使得它们难以应用于感知人类与我们日常生活中各种各样的物体的交互。此外,这些工作往往忽视了关节物体,而只关注相对简单的刚性物体的交互模式。这些限制部分是由于以自我中心方式共同捕捉手部、物体和真实场景的具有挑战性和繁琐的性质。策划合成数据集[20]可能是一个替代方案。然而,模拟通用物体的自然人体运动和功能抓取仍然是一个开放的研究问题,使其成为allow perceiving human interactions with potentiallyunseen objects.210140允许感知人与潜在未知物体的互动。0•我们提出了一个数据收集和注释流程,将人工注释与自动算法相结合,有效地扩大了我们的数据集。0•我们对涵盖4D动态场景理解、类别级物体姿势跟踪和手部动作分割的三个类别级HOI任务进行了基准测试。我们对现有方法进行了全面分析,并指出了HOI4D所带来的新挑战。02. 相关工作02.1. 自我为中心的人-物互动数据集0理解人与物体的互动长期以来一直是计算机视觉研究人员的追求,许多之前的工作都集中在构建第三人称视角的数据集上[5, 8, 38,40]。最近,我们观察到对以自我为中心视角感知人与物体互动的兴趣激增。许多这些数据集侧重于识别日常活动[4,12, 17, 26,33],并主要提供2D特征,省略了3D手部姿势和物体姿势等3D注释,这对于全面理解底层互动至关重要。然而,由于相互遮挡,同时注释3D手部姿势和物体姿势并不容易。一些现有的工作利用磁性传感器或动作捕捉标记来跟踪3D手部姿势和物体姿势[5, 18,48]。然而,附加的标记可能会阻碍自然的手部运动并偏离手部和物体的外观。其他工作利用精心校准的多摄像头系统[8,38]或优化算法[19]来减轻困难,但通常限制在第三人称视角。与我们的工作最相关的是最近的一个以自我为中心的HOI数据集,名为H2O[22]。他们收集了带有3D手部姿势、实例级物体姿势和动作标签注释的自我为中心的RGB-D视频。然而,H2O仅限于实例级人物-物体互动,仅涵盖与8个物体实例的互动。此外,以前的工作只关注刚性物体,而我们还考虑到了关节物体,其中可能发生更丰富的互动。如表1所示,我们是首次提出了一个大规模的4D自我为中心的类别级HOI数据集,涵盖了刚性和关节物体类别,具有前所未有的注释丰富程度。02.2. 4D动态场景理解04D动态场景理解非常重要,因为它使AI能够理解我们生活的真实世界。现有的方法主要基于室外数据集,如Synthia 4D[ 36 ]和SemanticKITTI [ 3 ]。MinkowskiNet [ 11]提出使用4D时空卷积神经网络提取4D特征。MeteorNet [29 ]采用点云210150表1. 现有HOI数据集的比较。0数据集 4D真实无标记 3D手部 6D物体 自我 #帧数 #物体数 #序列数 动态 抓取 动作 标签 分割 类别级别 关节功能 意图0GTEA GAZE + [ 26 ] × � � × × � 778K - 37 � � × × � ×0EPIC-KITCHEN [ 12 ] × � � × × � 20M - 700 � � � � � �0FPHA [ 18 ] � � × � � � 105K 4 1,175 � � × × × �0ObMan [ 20 ] � × - � � × 154K 3K - - - � � × ×0FreiHAND [ 50 ] × � � � × × 37K 27 - - × � × × ×0ContactPose [ 5 ] � � × � � × 2,991K 25 2,303 × × × × × �0HO-3D [ 19 ] � � � � � × 78K 10 27 � × × × × ×0DexYCB [ 8 ] � � � � � × 582K 20 1,000 � × × × × ×0H2O [ 22 ] � � � � � � 571K 8 - � � × × × �0我们的 � � � � � � 2.4M 800 4K � � � � � �0将序列作为输入,并在时间和空间邻域中聚合信息。SpSequenceNet [ 37]以3D立方体样式处理4D点云数据,以减少空间信息损失。PSTNet [ 15]提出了一种点时空卷积来获得点云序列的信息表示。P4transformer [ 13 ]是一种新颖的点4DTransformer,用于避免点跟踪。4D-Net [ 32]提出了一种新颖的学习技术,用于融合来自多模态的4D信息。在室内交互场景中,物体的尺度较小,移动更加多样化,甚至存在物体的变形,这给现有方法带来了新的挑战。02.3. 类别级别的物体姿态估计和姿态跟踪0为了定义新物体的姿态,NOCS [ 42]提出了一种规范化的物体坐标空间作为类别特定的规范参考框架。将每个输入物体像素投影到类别级别的规范化3D空间中。ANCSH [ 25]将NOCS的概念扩展到关节物体,并提出了规范化部分坐标空间(NPCS),这是一个部分级别的规范参考框架。在姿态跟踪方面,6-PACK [ 41]在RGB-D视频中跟踪一小组关键点,并通过累积相对姿态变化来估计物体姿态。CAP-TRA [ 44]构建了一个端到端可微分的管道,用于精确快速地跟踪刚性和关节物体的姿态。BundleTrack [ 43]提出了一种新颖的集成方法和一种记忆增强的姿态图优化方法,用于低漂移准确的6D物体姿态跟踪。然而,现有方法并未考虑手部和物体的姿态跟踪,这在交互场景中非常重要。将第三视角替换为自我中心视角,物体遮挡的问题变得更加严重,这也使得这个任务更加困难。此外,现有数据集如NOCS [ 42]是合成数据集,因此真实世界数据和合成数据之间的领域差距也给现有算法带来了挑战。借助提出的HOI4D数据集,研究人员现在可以在上述更具挑战性的任务上工作,而几乎没有额外的开销。03. 构建HOI4D03.1. 硬件设置和数据收集0图2.数据捕获系统。我们构建了一个简单的头戴式数据捕获套件,包括一个自行车头盔,一个Kinect v2 RGB-D传感器和一个Intel RealSense D455 RGB-D传感器。0为了构建HOI4D,我们建立了一个简单的头戴式数据捕获套件,包括一个自行车头盔,一个Kinect v2RGB-D传感器和一个Intel RealSense D455RGB-D传感器,如图2所示。在数据捕获过程之前,两个RGB-D传感器进行了预校准和同步。参与者戴上头盔,在不同的室内场景中执行各种任务,并与各种日常物品进行互动。我们预先定义了涉及不仅仅是简单拾取和放置,还包括其他功能导向任务的任务池,例如将杯子放在抽屉里。为了完成这些任务,参与者需要根据特定的场景配置合理地规划他们的行动。例如,如果抽屉是打开的,参与者只需要直接将杯子放在抽屉里。否则,他们可能需要先打开抽屉。值得一提的是,我们采用了两个流行的RGB-D相机,IntelRealSense D455和Kinect v2,它们互为补充。Kinectv2基于飞行时间(TOF)并捕获远距离内容。RealSenseD455是一款基于结构光的相机,在短距离(约1m)内具有更多优势。两个传感器共同可以更全面地捕捉3D场景,它们还为跨传感器迁移学习提供了一个自然的测试平台。ˆθh = arg min(λjLj +λ2DL2D +λdLd+λpcLpc+λmLm)ˆθh = arg minθh(λjLj + λdLd + λpcLpc + λmLm+ λContactLContact + λtcLtc)(2)2101603.2. 数据标注流程0HOI4D包含了涵盖类别级人物-物体交互的丰富标签,收集这些标注并不是一项简单的任务。我们在图3中展示了我们的数据标注流程。给定一个动态的RGB-D序列,我们首先通过标注逐帧的2D运动分割来分离移动内容和静态内容,以便于全景标注。然后我们通过一个SLAM算法[10,49]将移动内容进行遮罩处理,并重建一个3D静态场景。这样我们就可以高效地标注整个序列中的所有静态内容。我们手动标注重建的场景,以获得3D静态场景全景分割。最后,将2D运动分割和3D静态场景全景分割合并,得到4D动态场景全景分割。我们在第3.3节中详细解释了这个过程。为了获得3D手部姿势标签,我们首先在RGB-D帧上标注一组手部关键点,然后利用优化模块恢复出底层的3D手部姿势,具体过程见第3.4节。为了获得类别级物体姿势,我们手动拟合RGB-D帧中的物体或物体部分的有向边界框,并确保姿势定义在某个物体类别中是一致的。我们进一步通过利用多视角扫描过程重建的物体网格优化物体姿势。类别级物体和部分姿势标注过程在第3.5节中描述。此外,我们还在第3.6节中描述了动作标注的过程。03.3. 4D全景标注0我们的4D全景标注过程主要分为两个部分,即2D运动分割标注和3D静态场景分割标注。在2D运动分割标注过程中,给定一个原始的RGB视频,标注员从视频中均匀采样10%的帧,并手动标注视频中移动的物体的分割掩码。由于手动标注整个视频帧是耗时的,我们使用现成的2D掩码传播工具[9]将已有的手动标注掩码传播到同一视频中的其他90%帧。标注员与传播工具交互,对所有的分割掩码进行精细调整,直到准确无误。在静态场景分割标注过程中,给定一个带有2D运动分割掩码的原始RGB-D视频,我们从单帧点云中移除所有被遮罩的物体,然后重建只包含位置未改变的物体的静态点云[10,49]。我们标注静态场景中的所有物体实例和背景内容,并将结果投影回每一帧,从而获得静态物体的分割掩码。最终的4D全景分割标签是通过合并运动分割和静态分割掩码获得的。03.4. 手部姿势标注0整个手部姿势标注过程包括四个阶段:标注、初始化、传播和细化。标注员均匀地在每个视频中标注20%的帧。对于标注阶段,基于标记的标注方法是不可行的,因为我们需要手部的真实外观。相反,我们手动标注一组手部关键点的2D位置。我们采用了在之前的工作中广泛使用的预定义的21个手关节关键点[19, 22,35]。对于每个标注的帧,标注员提供11个关键点的2D位置:腕部、5个指尖和从指尖开始计算的第二个关节。我们还估计了被遮挡关键点的合理位置。我们使用MANO参数化手模型[35]来表示手部姿势。形状参数β∈R10是根据数据捕捉器提供的真实手部信息确定的,我们通过最小化损失函数来优化每个标注帧的3D手部姿势。损失函数定义如下:0(1)其中L j ,L 2 D ,L d ,L pc 和L m分别表示关节角度损失、2D关节损失、深度损失、点云损失和掩码损失。λ j ,λ 2 D ,λ d ,λ pc 和λ m是平衡参数。有关损失项定义的详细信息请参见补充材料。考虑到视频的时间一致性,每帧都由其前一帧的手部姿势初始化以加速收敛。我们通过线性插值将注释帧的手部姿势θh在整个序列中传播,以获得视频中每帧的粗略手部姿势。在细化阶段,我们进一步优化θ h以获得所有帧的精确姿势。损失函数定义如下:0其中L Contact和L tc分别表示接触损失和时间一致性损失。有关损失项定义的详细信息请参见补充材料。为了平衡效率和有限的计算资源,我们选择6-11个连续帧作为一个优化批次,其中包含2-3个注释帧。由于优化过程可能由于手部姿势不明确或初始化不良而失败,我们手动检测失败帧。失败帧的手部姿势将被手动矫正。……210170...SLAM0...手部姿势优化0对象姿势优化02D运动分割3D静态场景0全景分割04D动态场景0全景分割03D静态场景重建03D对象扫描0手关键点和可见性0无模态定向边界框03D手部姿势和0类别级对象姿势0动作分割0拿起抓取0图3.注释流程概述。红色分支:给定一个动态RGB-D序列,我们首先对每帧进行2D运动分割的注释。然后,我们遮罩移动内容并重建一个3D静态场景。我们手动注释重建的场景以获得3D静态场景全景分割。最后,将2D运动分割和3D静态场景全景分割合并,得到4D动态场景全景分割。蓝色分支:为了获得3D手部姿势标签,我们首先在RGB-D帧上注释一组手关键点,然后利用优化模块恢复底层的3D手部。对于类别级对象姿势,我们在RGB-D帧上手动适配无模态定向边界框到对象或对象部分,并通过利用对象网格进行进一步优化。绿色分支:我们直接在原始视频上注释细粒度的动作标签。03.5. 类别级姿势注释0对于刚性和关节对象的类别级姿势注释过程包括三个阶段:对象测量和注释、模型扫描和重建以及标签传播和姿势优化。对象测量和注释。为了平衡注释质量和劳动强度,我们在每个视频的每十帧中手动注释感兴趣对象的紧密无模态定向边界框。具体而言,我们首先对每个感兴趣的对象进行物理测量,并定义其坐标系以获取其紧密无模态边界框。然后,注释者将手动旋转和放置这些边界框以适应每帧的深度点云中的对象。结合边界框的尺度,我们最终得到感兴趣的刚性对象的9D姿势。对于关节对象,我们将每个部分视为一个独立的对象并分别进行注释。模型扫描和重建。在3D中标记对象姿势是人工注释者的一项具有挑战性的任务,而并非所有注释都是完全可靠的。此外,我们只手动注释了10帧中的1帧,因此需要一些标签传播和优化技术(如[19])来为所有视频帧生成标签。现有的姿势优化技术主要设计用于实例级姿势注释,这需要对象的相应CAD模型。因此,我们已经扫描了数据集中的所有800个对象,以用于姿势优化目的。我们已经涵盖了各种对象类别。0物体类别的多样性,包括不同尺寸、材料和拓扑结构,使得物体扫描变得复杂。虽然商用的3D扫描仪可以用于建模小尺寸的物体,但是对于尺寸较大、拓扑结构和材料复杂的物体建模仍然具有挑战性。我们选择首先手动给物体贴上各种贴纸,丰富物体的纹理并隐藏一些高度反射的区域。然后我们使用现成的软件包[6,30]从多视角高分辨率彩色图像中重建物体的网格。具体来说,我们从不同的角度拍摄图像,完全覆盖物体的外表面。然后我们采用软件包提供的一系列算法自动对齐图像,重建物体网格并校准模型规格。对于关节物体,我们还提供类似于PartNet[31]的部分注释。值得一提的是,通过提供物体网格,HOI4D可以促进实例级HOI的研究,并且还可以将人类交互轨迹转移到仿真环境中,用于机器人模仿学习等应用[34]。标签传播。为了将手动注释的物体姿态传播到中间帧,我们使用相机矩阵将所有物体姿态转换为世界坐标系。然后我们线性插值注释的物体姿态之间的平移、旋转和关节角度。姿态优化。我们利用多模态数据,包括RGB-D图像、重建的物体网格以及2D运动分割掩码,通过梯度下降优化姿态,减少标签传播引起的误差。我们利用可微分渲染器SoftRas[28]和HOnno- tate[19]中的辅助损失项来优化姿态。物体姿态θ o 包括旋转R∈ SO(3),平移t ∈ R3和关节角度θ ∈R关节的物体,应该最小化定义为的损失函数:ˆθo = arg minθo(λ2DL2D + λdLd + λcdLcd + λtcLtc). (3)Detecting and temporally locating action segments inlong untrimmed 4D videos is a challenging task. For eachframe in a video, we annotate its action category to supportthe study of action segmentation. It is worth noting that wedefine fine-grained actions in the interactive scene, which issignificantly different from the existing datasets. Detailedcategories are provided in the supplementary materials.gory consists of 50 unique object instances, and each objectinstance corresponds to a CAD model reconstructed from aset of high-resolution RGB images. It is worth mentioningthat these categories are mainly selected from ShapeNet [7]and Sapien Assets [45]. This makes HOI4D well connectedwith popular synthetic 3D datasets and facilitates studyingsim-to-real knowledge transfer. The reconstructed meshesand human hand trajectories can be potentially put into sim-ulation environments to support robot learning as demon-strated in the supplementary materials.A RealSense D455 and a KinectV2 are used to capturehuman-object interaction simultaneously, providing oppor-tunities to study knowledge transfer across different depthsensors. Each video is captured at 15fps for 20 seconds. Asa result, HOI4D contains 2.4M frames in total.Diversity of interaction task. To reflect the functionalityof different object categories, we define interactive tasksbased on object functions as shown in Figure 5. We havedefined 54 tasks across all 16 categories. Each object in-cludes a pick and place task and several functionality-basedtasks, which can be used to support perceiving object mobil-ity and functionality in interactive scenarios. According tothe difficulty of the tasks and the complexity of the scenes,we divide the tasks into two levels: the simple level andthe complex level. For simple tasks, the captured sequencescontain a subject performing a pick-and-place task over atarget object with a relatively clean background regardlessof the functionality of the objects. For complex tasks, werandomly pick 10-20 objects from our 800-object pool andplace them in a cluttered manner. Tasks with different diffi-culties naturally support different research directions. Sim-ple tasks better support research regarding pose trackingand robot learning, while complex tasks introduce interest-ing research problems such as 4D panoptic segmentation.210180图4. 物体类别的多样性0其中L 2 D和L d由SoftRas[28]计算,惩罚渲染的物体掩码与在3.3中获取的真实掩码之间的轮廓差异,以及裁剪的真实深度图与渲染重建网格的深度图之间的深度残差。辅助损失项的定义与Hon- notate [19]类似,其中L cd指的是重建的物体点云与收集的物体点云之间的Chamfer距离,Ltc保持姿态轨迹的时间一致性。对于关节物体,我们还将关节角度限制在每个关节的物理极限内。0在长时间未修剪的4D视频中检测和时间定位动作片段是一项具有挑战性的任务。对于视频中的每一帧,我们注释其动作类别,以支持动作分割的研究。值得注意的是,我们在交互场景中定义了细粒度的动作,这与现有数据集有很大的区别。详细的类别信息请参见补充材料。03.6. 动作注释04. 数据集统计0图5. 交互任务示例05. 跨数据集评估0我们进行了跨数据集评估,进一步评估了我们的HOI4D数据集的优点。我们考虑了包括3D手部姿态估计、类别级对象姿态跟踪和动作分割在内的三个任务。设置。对于3D手部姿态估计,我们考虑了与HOI4D一致的自我中心视图的H2O[22]。5°5cm0.71.22.13.2Rerr88.367.953.939.4Terr47.620.128.423.95°5cm9.712.919.322.6Rerr21.057.518.1619.37Terr13.94.17.75.6210190测试 训练 HOI4D H2O HOI4D+H2O0HOI4D 22.3 70.4 24.3 H2O 48.9 19.9 15.90测试 训练 HOI4D NOCS HOI4D+NOCS0HOI4D 55.3 34.2 57.1 NOCS 50.4 70.5 83.70测试 训练 HOI4D GTEA HOI4D+GTEA0HOI4D 52.3 7.9 48.6 GTEA 14.1 77.4 90.40表2.跨数据集评估结果。(a)顶部:3D手部姿态估计。结果以根相对MPJPE(毫米)表示,数值越低越好。(b)中部:类别级对象姿态跟踪。结果以5°5cm准确率表示,数值越高越好。(c)底部:动作分割。结果以逐帧准确率表示,数值越高越好。0并选择Mesh Graphormer[27]作为骨干网络。对于类别级对象姿态跟踪,我们与NOCS[42]进行比较,NOCS是最常用的类别级对象姿态跟踪数据集,在“bottle”类别上进行评估,并选择CAPTRA[44]作为骨干方法。对于动作分割,我们选择GTEA[17]数据集进行比较,并在两个数据集上都有的5个动作类别(take、open、pour、close和put)上使用ASFormer[47]骨干进行评估。结果。表2显示了跨数据集评估结果。以3D手部姿态估计为例。当我们在H2O上评估在HOI4D上训练的模型时,由于域间差距,我们观察到错误增加了2.2倍(从22.3增加到48.9)。然而,当我们在HOI4D上评估在H2O上训练的模型时,错误增加更为严重,增加了3.5倍,这表明在H2O上训练的模型的泛化能力比在HOI4D上差得多。当我们在HOI4D和H2O的组合数据集上进行训练时,我们可以进一步减少仅在H2O上训练的错误。但与仅在HOI4D上训练相比,HOI4D上的错误增加了。这表明HOI4D比H2O更好地补充了H2O。类似的结论可以从其他子任务的结果中得出,即HOI4D具有更多样化的数据,具有更强的泛化能力。06. 任务和基准0在本节中,我们在HOI4D上设计了三个具体任务:类别级对象和部分姿态跟踪、4D点云视频的语义分割和自我中心手部动作分割。我们按照7:3的比例随机将我们的4D序列分为训练集和测试集,并分别使用第3.5节、第3.3节和第3.6节的注释来支持这三个任务。我们提供基线方法的结果和对现有方法的深入分析,并讨论从HOI4D中出现的新挑战。06.1. 类别级对象和部分姿态跟踪0大多数现有的6D物体姿态估计或跟踪方法都假设可以访问物体实例的3D模型[2,46]。在没有这样的3D模型的情况下,对于新实例的泛化变得非常困难。为了减轻对CAD模型的依赖,类别级对象和部分姿态跟踪是一个有前途的方向。0在本节中,我们在HOI4D上对最先进的类别级对象和部分姿态跟踪算法BundleTrack [43]进行基准测试。BundleTrack[43]是一个通用的6D姿态跟踪框架,适用于不依赖于实例或类级别3D模型的新对象。评估协议与之前的工作[43,44]相同。使用扰动的真实物体姿态进行初始化。我们还提供了一个ICP [49]基准,它利用了Open3D[49]中实现的标准点对平面ICP算法。我们选择了4个刚性物体类别和1个关节物体类别进行实验。使用以下指标:5°5cm:方向误差<5°和平移误差<5cm的估计百分比。Rerr:平均方向误差(以度为单位)。Terr:平均平移误差(以厘米为单位)。0表3. 4个刚性物体的类别级别物体姿态跟踪。0ICP玩具车杯子瓶子碗0BundleTrack玩具车杯子瓶子碗0表3显示了4个刚性物体的结果,表4显示了笔记本电脑类别的结果。以瓶子类别为例,BundleTrack在NOCS[42]数据集上可以达到86.5(5°5cm)的准确率,该数据集在人-物体交互期间未捕获数据,也不受严重的手遮挡问题影响。现在在HOI4D上只能达到19.3。这种性能下降证明了在真实世界的交互场景中,类别级别的姿态跟踪确实非常具有挑战性,数据受到传感器噪声、复杂背景、手遮挡以及快速运动的影响。大多数先前的算法首先是使用合成数据集开发的。有趣的是看到这种先前的成功经验如何转移到自我中心的人-物体交互。无论是专注于从合成到真实的转移还是直接从真实数据中学习,HOI4D都可以很容易地跟随这两条路径。预计将有更多的研究关注真实世界交互场景中的类别级别物体姿态跟踪。5°5cm0.91.55°5cm24.212.2Rerr47.384.2Rerr8.620.5Terr19.841.2Terr6.89.47PSTNet31.472.652.0P4Transformer44.677.761.2MS-TCN44.274.755.647.831.8MS-TCN++42.275.854.746.530.3Asformer46.880.358.951.335.0The main limitation of HOI4D is that human manipula-tion tasks with two hands are not covered since the single-hand manipulation tasks remain challenging for current re-search. Furthermore, the two-handed setting brings morechallenges that we hope to study in the future such as coop-eration of hands. As mentioned in Section 3.5, we have builta generic pipeline for creating various CAD models and thecorresponding object poses of each HOI4D object category.We hope that our realistic models and rich data from HOI4Dcan build the bridge between simulation environments andthe real world, and inspire more future research for robotlearning and augmented reality applications.210200表4. 笔记本电脑的类别级别部分姿态跟踪。0ICP键盘显示BundleTrack键盘显示06.2. 4D点云视频的语义分割0以前主要研究自动驾驶应用中的4D点云视频的语义分割,但在室内场景中很少涉及,因为缺乏带注释的数据集。室内场景通常更加杂乱,布局更加复杂。除此之外,HOI4D还引入了更多挑战,如由于自我中心视角而产生的严重遮挡、6自由度的快速自我运动以及与LiDAR点云相比非常不同的传感器噪声模式,使得现有的室外4D语义分割网络难以表现出色。为了证明这一点,我们对两种代表性方法进行了基准测试,这两种方法在室外4D语义分割任务上取得了最先进的性能:PSTNet [15]和P4Transformer[14]。我们总共提供了38个语义类别,将所有类别分为两个类别组(物体、背景)。在我们的4D点云视频语义分割设置中,我们精心选择了14个语义类别中的376个视频(物体类别7个,背景类别7个)。每个视频帧采样为4096个无颜色点。评估指标是每个类别组和所有类别的平均交并比(mIoU)。0表5. 4D点云视频的语义分割。0方法 物体 背景 mIoU 全部0目前的室外方法不能很好地处理室内动态点云,特别是物体类别,如表5所示。我们发现,现有的方法在背景类别上的表现明显优于物体类别,因为物体类别的尺寸较小,运动更灵活,遮挡问题更严重,使得分割更具挑战性。未来探索能够同时捕捉物体几何和背景几何的方法可能会很有趣。06.3. 细粒度视频动作分割0最近在视频动作分割方面取得了令人鼓舞的成果,对于Breakfast [21]、50 Salad[39]和GTEA数据集[1]上的粗粒度分割取得了很好的效果。细粒度的视频动作分割可以帮助AI更好地理解交互任务中的交互动作。然而,很少有研究关注细粒度的视频0由于缺乏大规模细粒度数据集,交互场景中的动作分割仍存在局限性和未来工作。我们考虑了三种代表性且高性能的方法: MS-TCN [ 16 ], MS-TCN++ [ 23 ] 和 Asformer [ 47]。我们使用根据第5.1节提取的I3D特征来训练网络。我们使用视频的时间分辨率为15fps,每帧的I3D特征维度为2048-d。报告以下三个指标:逐帧准确率(Acc),分段编辑距离,以及重叠阈值为10%、25%和50%的分段F1分数。重叠阈值由IoU比率确定。0表6. 视频动作分割.0方法 Acc Edit F1@10 F1@25 F1@500表6显示了结果。毫不奇怪,从粗粒度级别到细粒度级别,所有三种算法的性能都大幅下降。以Asformer [ 47]为例,它在HOI4D上只能达到46.8的准确率,但在50Salads [ 39]上可以达到85.6,这表明现有模型对最细粒度的动作理解能力不强。图6是失败结果的分析:尽管预测完全错误,但动作序列是正确的。由此我们推测,当前网络更多地学习了动作的顺序,但缺乏感知当前动作本身的能力。当我们使用最细粒度的动作标签打破动作的固有顺序时,现有方法的性能大幅降低。0图6. 失败结果的定性分析0HOI4D的主要限制是没有涵盖双手的人类操作任务,因为对于当前的研究来说,单手操作任务仍然具有挑战性。此外,双手设置带来了更多的挑战,我们希望在未来研究中研究这些挑战,例如双手的协作。如第3.5节所述,我们已经建立了一个通用的流程来创建各种CAD模型和每个HOI4D对象类别的相应物体姿态。我们希望我们从HOI4D获得的逼真模型和丰富数据能够在仿真环境和现实世界之间建立桥梁,并激发更多的机器人学习和增强现实应用的未来研究。07. 限制和未来工作210210参考文献0[1] Fathi A, Ren X, and Rehg J M.学习识别自我中心活动中的对象. 在CVPR 2011中,页码3281–3288, 2011. 80[2] Lee Aing, Wen-Nung Lie, Jui-Chiu Chiang, andGuo-Shiang Lin. Instancepose:从单个RGB图像快速估计多个物体的6自由度姿态.在IEEE/CVF国际计算机视觉会议论文集中, 页码2621–2630,2021. 70[3] Mehmet Aygun, Aljosa Osep, Mark Weber, Maxim Maxi-mov, Cyrill Stachniss, Jens Behley, and Laura Leal-Taix´e.4D全景激光雷达分割.在IEEE/CVF计算机视觉与模式识别会议论文集中,页码5527–5537, 2021. 20[4] Sven Bambach, Stefan Lee, David J Crandall, and ChenYu. Lending a hand:在复杂的自我中心交互中检测手部并识别活动.在IEEE国际计算机视觉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功