没有合适的资源?快使用搜索试试~ 我知道了~
互联网视频中的3D物体关节运动理解
15990在互联网视频中理解3D物体关节运动0Shengyi Qian Linyi Jin Chris Rockwell Siyi Chen David F. Fouhey密歇根大学0{syqian,jinlinyi,cnris,siyich,fouhey}@umich.edu0https://jasonqsy.github.io/Articulation3D0图1.给定一个普通视频,我们的系统生成观察到的关节运动的3D平面表示。3D渲染图示了微波炉(粉色)在3D空间中的关节运动。我们还使用蓝色箭头显示了预测的旋转轴。0摘要0我们提出研究如何从普通RGB视频中检测和表征物体的3D平面关节运动。虽然对人类来说似乎很容易,但这个问题对计算机来说存在许多挑战。我们的方法基于一种自上而下的检测系统,可以找到可以关节运动的平面。这种方法之后进行3D平面的优化,以解释一系列检测到的关节运动。我们展示了这个系统可以在组合视频和3D扫描数据集上进行训练。在具有挑战性的互联网视频数据集和Charades数据集上进行测试时,我们的方法表现出强大的性能。01.引言0你如何理解图1?在构成视频的一组RGB像素的背后,是一个由绕轴旋转的3D平面门组成的真实3D变换。本文的目标是赋予计算机相同的能力。我们专注于平面关节运动,即绕轴旋转或平移。这种特殊情况的关节运动在人类场景中无处不在,理解它可以让系统理解从冰箱和抽屉到壁橱和柜子等各种物体。虽然我们通常通过物理实体来学习这些形状和关节运动[50],但仅通过视频线索就可以轻松理解它们,例如在观看电影或观察其他人执行动作时。0电影或观看其他人执行动作时,我们将这种能力形式化为计算机识别和表征一种类别不可知的平面关节运动,通过3D平面段、关节类型(旋转或平移)、3D关节轴和关节角度。0这个问题超出了场景理解的当前技术水平,因为它要求将单幅图像的3D理解与动态3D理解相结合。虽然已经有大量关于从单幅图像中进行3D重建的工作[4,9,12,61],包括专门用于平面的工作[33],但这些工作都集中在重建静态场景上。另一方面,虽然已经有关于关节运动的工作,但这些工作通常需要标签的放置进行跟踪[36,41]、完整的3D模型或深度传感器[20,30,39],或成功的3D人体重建[65]。此外,由于数据的原因,取得进展是具有挑战性的。基于运动分析的无监督方法[42,51]需要跟踪的目标,这在现实数据中会出现问题,因为许多人造关节物体是无纹理的(例如冰箱)或透明的(例如烤箱)。虽然监督方法[30,38,39]可以绕过跟踪特征,但它们似乎需要大量的RGBD交互数据。目前,这样的数据并不存在,而在合成数据上的训练在真实数据上可能会出现问题(正如我们的实验证明的那样)。0我们通过一种基于学习的方法克服了这些挑战,该方法结合了检测和3D优化。16000并且在多个来源的监督下进行训练(第4节)。我们方法的基础是一种自上而下的检测方法,它识别关节轴、类型和3D平面;该方法的输出经过优化处理,以解释每帧结果,形成一个连贯的3D关节。通过这个模型,我们展示了可以通过对互联网视频中的物体关节运动进行2D监督以及对不包含关节运动的现有3D数据集进行3D监督,来建立对3D物体动力学的理解。为了提供2D监督,我们引入了(第3节)一组新的9447个创作共享许可的互联网视频。这些视频展示了各种物体的关节运动以及负样本,并附带有关节框、轴和表面法线的稀疏帧注释,可用于训练和评估平面关节模型。我们的实验(第5节)评估了我们的方法在识别和表征关节运动方面的性能。我们在我们的新视频数据集以及Cha- rades[48]数据集上进行评估。我们与各种其他方法进行比较,包括光流[53]和表面法线变化[3]等自下而上的信号,对合成数据的训练[64]以及分析人-物互动的系统[65]。我们的方法在我们的数据上优于这些方法,即使基线模型可以访问关节位置的真实值。我们的主要贡献包括:(1)在训练时不需要RGBD视频的无约束普通RGB视频中检测3D物体关节运动的新任务;(2)一个互联网视频数据集,其中包含关节框、轴和表面法线的稀疏帧注释,可用于训练和评估平面关节模型;(3)一种自上而下的检测网络和优化方法,用于解决这个问题,在互联网视频数据集和Charades上具有强大的性能。02. 相关工作0我们的论文提出从普通RGB视频中提取关节的3D模型。这个问题涉及到3D视觉、从视频中学习以及与机器人应用相关。我们注意到,有专门的方法来理解一般的关节(例如,非刚性运动结构[55])以及理解特定的运动模型(例如,完整的人体3D网格模型[69]或四足动物[28])或理解更一般的变换[19,59]。我们的工作重点是理解可以通过旋转或平移的3D平面来表示的一般物体的关节。由于关节物体的普遍性,理解它们的任务长期以来一直是人工智能领域的一个兴趣点。在视觉领域,理解刚性物体在变换下的运动是计算机视觉的早期成功之一[24,54,58]。不幸的是,这些早期的工作依赖于可靠的运动轨迹,而这在许多室内平面(例如,冰箱门)的无纹理或反射性质上是困难的。我们的自顶向下检测器提供了可以帮助在对应困难的帧之间提供对应关系的3D平面。最近的机器人研究工作已经将3D的价值应用到他们的建模方法中[5,8,37,42,51];然而,他们的方法通常使用RGBD传感器,而不是我们使用的普通RGB传感器。这种对RGBD的依赖已经延续到最近使用深度学习框架的工作中[1,20,30,35,62,64]。事实上,一些方法需要完整的3D模型[39],而这在真实世界的3D扫描中通常是不可用的。Mo等人的工作[38]可以在2D图像上运行,只要将点云编码器替换为RGB编码器,但其2D图像只包含单个对象,没有任何背景,而不是具有挑战性的互联网视频。虚拟关节物体的研究工作越来越多[52,64],同时实现规模和质量是具有挑战性的。例如,ReplicaCAD[52]只有92个物体。相比之下,我们的方法在测试时通过使用在RGBD数据上训练的学习检测器[33]来处理标准的RGB视频。虽然我们的输出是3D平面区域,但我们的方法与理解人-物体交互的任务密切相关。在这些工作中[2,13,47],目标是识别人类与他们互动的物体之间的关系。我们研究的互动是由这些人类引起的,因此我们使用可以预测人-物体交互的方法[47]来帮助识别我们系统训练的数据。这个领域中最相关的工作是[65],它旨在共同理解3D中的动态人-物体交互。然而,这项工作假设一旦检测到关节物体,就已经知道了物体CAD模型,而我们不需要这个假设。我们的方法还可以处理视角和透视更加多样的关节视频。对于关节的3D描述问题,我们通过生成3D平面模型来解决。这利用了从单个图像中提取3D的进展。特别是,我们建立在PlaneR-CNN[33]的基础上,它是一系列旨在从单个图像中提取平面的工作的一部分[34,66,67]。这些平面在关节推理中具有优势,因为它们提供了一种紧凑的表示来跟踪和描述。虽然我们使用平面识别,但平面只是我们输出的一个组成部分(连同旋转轴),我们通过视频的时间优化来分析我们的输出。0刚性物体在变换下的运动是计算机视觉的早期成功之一[24,54,58]。不幸的是,这些早期的工作依赖于可靠的运动轨迹,而这在许多室内平面(例如,冰箱门)的无纹理或反射性质上是困难的。我们的自顶向下检测器提供了可以帮助在对应困难的帧之间提供对应关系的3D平面。最近的机器人研究工作已经将3D的价值应用到他们的建模方法中[5,8,37,42,51];然而,他们的方法通常使用RGBD传感器,而不是我们使用的普通RGB传感器。这种对RGBD的依赖已经延续到最近使用深度学习框架的工作中[1,20,30,35,62,64]。事实上,一些方法需要完整的3D模型[39],而这在真实世界的3D扫描中通常是不可用的。Mo等人的工作[38]可以在2D图像上运行,只要将点云编码器替换为RGB编码器,但其2D图像只包含单个对象,没有任何背景,而不是具有挑战性的互联网视频。虚拟关节物体的研究工作越来越多[52,64],同时实现规模和质量是具有挑战性的。例如,ReplicaCAD[52]只有92个物体。相比之下,我们的方法在测试时通过使用在RGBD数据上训练的学习检测器[33]来处理标准的RGB视频。虽然我们的输出是3D平面区域,但我们的方法与理解人-物体交互的任务密切相关。在这些工作中[2,13,47],目标是识别人类与他们互动的物体之间的关系。我们研究的互动是由这些人类引起的,因此我们使用可以预测人-物体交互的方法[47]来帮助识别我们系统训练的数据。这个领域中最相关的工作是[65],它旨在共同理解3D中的动态人-物体交互。然而,这项工作假设一旦检测到关节物体,就已经知道了物体CAD模型,而我们不需要这个假设。我们的方法还可以处理视角和透视更加多样的关节视频。对于关节的3D描述问题,我们通过生成3D平面模型来解决。这利用了从单个图像中提取3D的进展。特别是,我们建立在PlaneR-CNN[33]的基础上,它是一系列旨在从单个图像中提取平面的工作的一部分[34,66,67]。这些平面在关节推理中具有优势,因为它们提供了一种紧凑的表示来跟踪和描述。虽然我们使用平面识别,但平面只是我们输出的一个组成部分(连同旋转轴),我们通过视频的时间优化来分析我们的输出。160103. 数据集0我们方法的一个关键组成部分是准确的2D关节注释,这些注释发生在RGB数据中。我们展示了这些2D注释可以与现有的RGBD数据和正确的方法相结合,构建能够理解视频数据中的3D关节的系统。接下来,我们将介绍如何收集关节数据集。我们的目标是拥有大量的对象框、关节类型和轴的注释。与其直接寻找人关节物体的示例,我们遵循[7,11,47,68]的数据优先方法,即收集包含许多相关活动的数据,然后对其进行分析和注释。0数据收集。我们的流程通过自动流程从一组候选视频中生成一组要进行注释的候选剪辑,旨在消除易于识别为不描绘关节的帧。我们从YouTube上的创意共享视频中找到候选视频,通过搜索一组10个对象的变体来找到这些视频。在这些视频中,我们使用ORB[46]特征上的单应性[15]拟合的静止连续镜头。这些剪辑中的许多剪辑不能描绘交互,因为它们不包含任何人或不包含感兴趣的对象。我们通过在互联网数据的100K+帧上训练的手部检测器[47]以及在COCO [32]和LVIS[14]上训练的对象检测器对响应进行过滤。这些过滤步骤通过消除明显的负面影响,最大限度地利用注释者的时间,并生成大量的候选剪辑。有了一组感兴趣的候选剪辑,我们转向手动注释。对于给定的剪辑,我们雇用一个注释公司在剪辑内稀疏地(每10帧)注释帧。他们注释:(box)关节平面周围的边界框及其类型(如果存在);(axis)关节轴的投影,作为线段分割注释问题。这导致一组19411个帧,其中包含19411个围绕关节平面的框,13508个旋转轴和2755个平移轴,以及39411个负面帧。关节轴的数量不等于框的数量,因为一些关节轴在图像外部。我们根据上传者提供的训练、验证和测试分割,得到7845/601/1001个视频的训练/验证/测试分割。有关我们的注释流程的更完整描述,请参见补充材料。我们收集了两个额外的注释。对于测试集,我们还注释了平面的表面法线,以便评估我们的模型能够学习3D属性的程度。为了展示泛化性,我们还在Charades[48]数据集上收集了相同的注释,除了表面法线。0数据可用性和伦理。我们的数据由用户公开上传并选择共享为创意共享数据的视频组成。这些视频不涉及与人类的互动。0人或私人数据。我们过滤了明显冒犯性的内容,描绘儿童的视频和卡通。本文中有示例;注释说明和详细信息的屏幕截图在补充材料中出现。04. 方法0我们的方法的目标是在未知的RGB视频剪辑中检测和表征平面关节。这些关节是一个重要的特例,在人类场景中无处不在。如图2所示,我们提出了一个3D关节检测网络(3DADN)来解决这个任务。作为输出,3DADN产生运动类型(旋转或平移),在运动位置周围的边界框,旋转或平移轴的2D位置以及关节平面的3D位置。3DADN的输出经过后处理,以找到整个视频上的一致解释。04.1. 3D关节检测网络03DADN独立处理每一帧。它的输出包括:一个分割掩膜Mi;平面参数πi=[ni,oi]给出平面方程πTi[x,y,z,-1]=0(其中ni是平面的法线,||ni||2=1,oi是平面的偏移量);一个投影的旋转或平移轴ai=[θ,p],它是3D关节轴的投影;以及关节类型。我们使用自顶向下的方法来检测这种表示,我们在描绘了没有3D信息的关节的RGB视频以及没有描绘关节的RGBD图像上进行训练。我们的骨干是一个Faster R-CNN[44]风格的网络,首先检测关节对象的边界框,并将它们分类为两类(旋转和平移)。这些框提供了ROI池化特征,传入预测输出(Mi,πi,ai)的检测头。我们的头部和损失函数Mi遵循Mask R-CNN[16]的常见做法。我们下面描述ai和πi。0参数化旋转和平移轴。我们将投影的关节轴建模为图像中的一条2D线。这个投影轴是3D关节轴(例如门的铰链)的投影。我们用线的法线形式x cos(θ)+ysin(θ)=p来描述投影轴,其中p≥0是从框到中心的距离,θ是轴法线在像素坐标中的倾斜度。由于平移对应于一族线的方向而不是一条线,我们任意地定义p=0作为平移。关节头包含两个独立的分支来预测旋转和平移轴。我们通过将角度的预测和真值提升到2D单位圆上来处理θ的循环性;由于线是180度模糊的(即θ+π与-θ是相同的),我们将预测的角度和真值映射到2D单位圆上。[……16020每帧检测0平面掩膜0平面参数0关节轴0预测 视频剪辑 每帧0检测CNN02D框和轴3D平面和轴0时间优化0跨帧0图2.我们方法的概述。给定一个普通的视频剪辑,我们首先应用我们的3D关节检测网络(3DADN)来检测每帧可以被关节化的3D平面。(b)然后我们应用时间优化来拟合关节模型。最终结果在2D图像和3D渲染中展示。0θ),我们预测一个2D向量[sin(2θ),cos(2θ)]。因此,得到的网络预测一个包含θ和p的3D向量,我们用L1损失进行监督。0参数化平面参数。在预测图像中的平面方面的一系列工作中,我们使用一个3D平面[34]来表示关节对象的3D位置,因为许多常见的关节对象,如门、冰箱和微波炉,可以建模为平面,并且过去的文献[21,22,33]表明R-CNN风格的网络擅长预测平面表示。一个3D平面由平面参数πi=[ni,oi]给出,给出平面方程πTi[x,y,z,-1]=0。通过相机内参,可以在3D中恢复平面,并且通过掩膜,可以将该平面转换为平面段。在[22,33]的基础上,我们通过添加一个平面头来扩展R-CNN,该头直接回归平面的法线。深度头用于预测图像的深度。深度仅用于计算平面的偏移值。我们对平面法线回归使用L2损失,对深度回归使用L1损失进行监督。0训练。没有一个非合成且足够大的数据集可以直接训练3DADN:3DADN需要真实的交互和3D信息。然而,我们可以分阶段训练3DADN。在第一阶段,我们直接在我们的互联网视频训练集上训练骨干、RPN和轴头,该训练集包含框和轴。然后,我们冻结骨干、RPN和轴头,并在修改后的ScanNet[6]上对掩膜和平面头进行微调。特别地,我们发现人类经常遮挡他们表达的物体,而在训练中没有见过人类的模型产生了更差的定性结果。因此,我们将SURREAL[57]中的人类合成到场景中。我们随机采样了98,235个ScanNet图像,选择一个合成的人类并将其渲染到ScanNet背景上。0在训练过程中,我们不改变地面真实情况,假设地面真实平面被人类部分遮挡,并训练我们的模型来识别它们。同时,我们发现训练头部的顺序非常重要。ScanNet[6]中的平面是几何定义的,因此未打开的门经常与墙壁合并;类似地,ScanNet[6]中不包含平面关节活动的过渡时刻。因此,在ScanNet[6]上训练的RPN在关节活动视频上表现不佳。相反,重要的是在我们的互联网视频上训练RPN,冻结主干网络,并仅依靠ScanNet来训练平面参数和掩码,这在互联网视频中是不可用的。在推理过程中,我们保留ScanNet相机,因为我们的数据没有相机内参。实现细节。我们方法的完整架构细节在补充材料中。我们的模型使用Detectron2[63]实现。主干网络使用在COCO[32]上预训练的ResNet50-FPN [31]。04.2. 时间优化0在3DADN提供了每帧关节估计之后,我们进行时间优化,以找到跨帧的单一解释。我们给出了一个以 [ M ( t ) i , π (t ) i , a ( t ) i ]形式索引的检测序列。我们的目标是找到这些检测的单一一致解释。跟踪。优化需要一系列平面进行优化。我们根据两两交并比(IoU)将第 i个框与下一帧中的框进行匹配。在时间 t 的框 i 与时间 t +1 的框 j = arg max j ′ IoU ( M ( t ) i , M ( t +1) j ′ )匹配;然后我们贪婪地进行跟踪以获得一个序列。为了清晰起见,我们随后省略了下标。关节模型拟合。给定一系列检测,我们通过类似RANSAC的方法找到一个一致的解释。16030输入 预测1 预测2 预测3 预测4 预测3D0图3.互联网视频的预测结果。对于每个示例,我们展示了输入(左),检测到的2D平面以及它们如何使用预测的关节轴和表面法线进行关节活动(中)。我们还展示了3D渲染,以说明这些常见物体在3D空间中的关节活动(右)。预测的旋转轴显示为蓝色箭头,平移轴显示为粉色箭头。0方法。我们首先假设一个平面片段 π 和关节轴 a,通过选择参考帧上的输出来获得。加上假设的相机内参 K,平面参数使我们能够将平面片段和轴提升到3D空间,产生3D平面片段 Π 和3D轴 A 。然后,对于每一帧 t,我们求解关节度 α ( t ) ,使得与时间 t的预测掩码的投影一致性最大化。让我们定义投影得分为0r ( α, t ) = IoU � M ( t ) , K [ R α , t α ] Π �,(1)0其中 R A ,α 和 t A ,α 是轴 A 上旋转和平移的 α步。然后,我们通过解决 arg max α r ( α ) 来求解 α ( t ),这样可以使用网格搜索得到每帧的角度。我们通过计算旋转角度 α ( t ) 能够被 t的线性函数解释的程度来检测关节活动(即存在恒定运动)。由于许多场景不是恒定运动,我们设定宽松的阈值:我们认为 R 2 ≥ 0.4 和斜率 k > 0.1 是关节活动。我们排除所有r ( α ( t ) , t ) < 0.5 的假设。05. 实验0我们在第4节中介绍了一种可以推断3D关节的方法。在实验中,我们的目标是回答以下问题:(1)从普通视频中能够多好地检测到3D关节物体;(2)问题的替代方法效果如何?05.1. 实验设置0我们首先描述了实验的设置。我们的方法旨在从普通的RGB视频中推断出物体上的一个关节平面的3D信息,包括:物体是否关节活动,其范围以及其旋转或平移轴的投影。因此,我们在两个具有挑战性的数据集上评估我们的方法,使用能够捕捉到关节平面在3D空间中各个方面的度量标准。0数据集:我们在互联网视频(在第3节中描述)和Charades数据集[ 49]上验证了我们的方法。我们使用Charades进行跨数据集评估。我们专注于Charades中的开启物体(门、冰箱等)的视频。Flow+NormalSAPIENSAPIEN w/ gtboxD3D-HOIOursGT16040图4。我们将我们的方法与四个基线进行比较。详细讨论请参见正文。我们用粉色表示平移,蓝色表示旋转,D3D-HOI使用了不同的检测器。0tors, etc.),并对479个视频中的2491帧进行注释;我们还随机采样了包含4401个负面帧的479个负面视频。我们的Charades注释过程与互联网视频类似,但有以下例外:我们只注释旋转,因为Charades中几乎没有平移关节;我们不注释表面法线。0评估标准:评估我们的方法是非常复杂的,因为我们假设的输入(RGB视频)不允许在3D中定量测量输出。因此,我们根据问题的一系列子集来评估我们的方法。我们从一开始就强调,这些指标是可以测量的(由于使用了RGB输入),而不是完整丰富的输出。关节识别:我们首先独立评估系统在某一时间点上是否能够检测到某人是否在关节活动。我们将其作为二元预测问题来构建。在真实场景中,这是非常困难的,因为当人们活动物体时,物体通常被人体部分遮挡,并且人们经常触摸关节物体(例如清洁表面)而不打开它。我们使用AUROC来衡量性能。关节描述:我们接下来评估系统检测关节物体、对应关节类型(旋转/平移)、轴和表面法线的能力。我们遵循其他方法[ 22 , 29 , 40 , 43 , 56],将场景重构为组件,并将其视为3D检测问题,使用平均精度(AP)进行评估。我们定义以下错误指标:(边界框0box ) IoU,阈值为0.5。我们发现常规的COCOAP,即IoU高达0.95,过于严格,因为关节部分的精确边界通常被人体遮挡,很难进行注释。(轴)来自语义线检测文献[ 70]的EA分数。该指标处理了许多边缘情况;我们使用0.5作为阈值,如[ 70]所推荐。(表面法线)平均角度误差,阈值为30°,参考[ 9, 60]。只有当所有误差都低于我们的阈值时,预测才是真正的正例。我们根据此计算精确度-召回率曲线,并报告不同指标组合的AP。0基线:以前的关节检测方法主要集中在机器人、合成数据集和真实世界的RGBD扫描上。这些与我们的设置不同,有两个原因。首先,人们活动物体的视频显示出与模拟器中孤立的关节物体不同的噪声背景,其中有一个人与物体进行交互并遮挡物体。其次,RGB视频没有深度,而现有的关节模型通常需要深度。例如,[ 30]需要深度,虽然他们展示了在真实世界深度扫描上的结果,但他们的RGBD扫描只包含一个静态物体,没有人体。我们建议与以下方法进行比较。03DADN + SAPIEN [ 64 ]数据:为了测试我们是否可以仅通过训练合成数据来解决问题,我们创建了一种基于合成数据的方法,在这种方法中,我们使用合成数据训练我们的3DADN系统。我们使用合成数据集进行渲染。16050表1。我们报告关节识别的AUROC,以及关节描述的AP。为了分离出检测关节和描述其参数的困难,我们使用了Flow+Normal和3DADN+SAPIEN与真实边界框的帮助,并将其标记为gtbox。3DADN+SAPIEN在没有gtbox的情况下无法检测到大多数物体。0识别。旋转。翻译方法。gtbox AUROC bbox bbox+axis bbox+axis+normal bbox bbox+axis bbox+axis+normal0Flow [53]+Normal [3]� 68.5 7.7 0.3 0.0 0.3 0.0 0.0 Flow [53]+Normal [3]� - - 3.0 0.3 - 1.4 0.7 D3D-HOI [65]上限� 62.7 28.8 19.7n/a 4.70 4.7 n/a 3DADN + SAPIEN [64]� - - 16.8 1.40 - 15.1 0.40 Ours� 76.6 61.3 30.4 17.2 34.0 27.1 17.90使用SAPIEN[64]通过随机采样和驱动3D对象进行训练。我们从PartNet-Mobility数据集[64]中过滤出18个类别的1053个可移动平面的对象,例如门和笔记本电脑。我们通过选择使场景合理的位置参数来渲染具有关节运动的对象的帧,并提取训练3DADN所需的信息。为了模拟真实的3D场景,我们将渲染结果与随机的ScanNet [6]图像作为背景混合,并从SURREAL[57]中渲染合成人体。为了公平比较,我们使用了用于训练系统平面参数头的相同ScanNet+SURREAL图像。在SAPIEN数据上评估时,该方法表现良好,获得了AP(bbox)60.3,(bbox+rot)64.1,(bbox+rot+normal)41.0。0自下而上的光流[53]和表面法线变化[3](Flow+Normal):为了测试是否可以通过使用相当简单的线索来解决数据,我们构建了一个基线,该基线使用光流[53](因为关节运动物体往往会引起运动)和表面法线[3](因为旋转平面会改变其方向)。流场和法线都提供了一个H×W的地图,可以进行分析。我们还使用在多个数据集上进行训练的人体分割系统[18]的输出,在改善性能的地方对法线和流量幅度图进行掩码。在给定这些地图的情况下,我们通过对特征向量进行逻辑回归来识别关节运动的存在,该特征向量由多个阈值上方的像素分数组成;我们通过阈值化和找到最紧密的包围框来识别边界框;我们通过在包围框中的平均流量变化处找到垂直于旋转轴(流量趋向于远离铰链);我们使用包围框中的平均流量方向找到平移轴;我们使用包围框中的平均预测法线找到关节运动法线。在整个过程中,我们使用了表面法线和流场的最佳选项;这种混合系统的性能明显优于单独使用流场或法线。0带+ GTBox的基线:为了分离出检测关节运动和表征其参数的困难,我们还尝试使用基线提供关于关节运动物体的真实边界框信息。这给出了0性能的上限。0D3D-HOI[65]上限:我们与D3D-HOI进行比较,因为它接受RGB视频作为输入,并检测人类如何关节物体。与D3D-HOI的直接比较具有挑战性,因为它只在EFT[23]重建3D人体姿势和Pointrend[25]检测被假定为关节运动的物体以及选择了正确的CAD模型时才起作用。然而,由于互联网视频中的截断或多个人体,EFT在数据集上表现不佳[26,45]。因此,我们报告了性能的上限。我们假设当EFT掩码和伪真实2D人体分割掩码[17]的IoU>0.5,并且PointRend[25]在关节物体上产生置信度>0.7的掩码时,它会预测出真实边界框。我们的方法:这是我们提出的方法。它包括第4.1节中描述的逐帧方法和第4.2节中的优化方法。我们注意到,该方法还会产生一些未被定量测量的输出,例如在3D中关节运动的3D平面。这些在图1和图3中以定性方式显示出来。05.2.结果0我们首先在图3中展示了定性结果。在具有挑战性的互联网视频中,我们的方法通常可以检测和恢复3D关节平面,而不受类别的限制。在图4中,我们通过视觉比较将我们的方法与四个基线进行了对比。流场有时可以定位关节(第三行),但在大多数情况下,流场不能仅定位到正在关节运动的物体(例如相机运动,顶部行)。即使我们以置信度>0.1的方式显示所有检测到的物体,仅在SAPIEN[64]数据上进行训练也很难检测到互联网视频中的关节物体。当我们使用真实边界框辅助训练时,它可以学习一些关节轴的信息。D3D-HOI [65]依赖于EFT[23]来检测人体和PointRend[25]来检测物体。然而,EFT在互联网视频上预测3D人体存在困难。0定量结果。我们在表1中定量评估了这种方法在三个任务上的表现。我们的方法明显优于其他方法。虽然16060预测 GT 预测 GT 预测 GT0图5.在Charades数据集上的定性结果。在没有对Charades数据进行微调的情况下,我们的模型在检测和描述3D关节运动方面表现出色。0表2. 在Charades数据集上的评估[49]。我们只报告旋转AP,因为Charades没有足够的平移运动。0识别 旋转 方法 gtbox AUROC bbox bbox+axis0Flow [53] + Normal [3] � 53.7 3.1 0.2 Flow [53] + Normal [3] � - -4.2 D3D-HOI 上限 � 55.9 14.9 13.7 3DADN + SAPIEN [64] � - - 1.54我们的方法 � 58.4 12.0 12.80统计组合的自下而上线索[3,53]在预测关节运动的存在方面比随机猜测要好,但它们远远不如我们提出的方法,并且无法得到合理的边界框。即使给出了真实的边界框,这种方法也无法获得良好的轴。由于互联网视频中截断人体的频率[26, 45],D3D-HOI[65]的性能上限远低于我们的方法的性能。当使用来自[64]的合成数据进行训练时,检测系统在我们的系统上失败;即使给出了一个好的边界框,合成训练数据也只能获得合理但较差的结果,并且在预测法线方面准确性较差。0消融实验 -优化。我们的优化在2D的识别准确性和轴定位方面产生了适度的提升:它将识别AUROC从74.0提高到76.6,旋转AP从16.6提高到17.2,平移AP从14.3提高到17.9。这种小的增益是可以理解的,因为评估是逐帧进行的,优化主要是为了使预测更加一致。如果我们量化优化前后结果的一致性,我们发现在优化之前和之后跟踪预测帧之间的EAScore[70]从0.69增加到0.96。05.3. 泛化结果0接下来我们在Charades[48]上测试我们训练好的模型,不进行微调。我们在图5中展示了结果。我们的方法通常能够生成合理的估计。我们发现Charades的视频质量和分辨率相对于我们的视频来说较低,有许多暗或模糊的视频。我们还在表2中展示了定量评估结果。在这里,我们的性能稍微下降。然而,我们在0预测 GT 预测 GT 预测 GT0图6. 典型故障模式。 (1) 关节类型不明确; (2)轴在框架外或由于对称性关节轴位置不明确; (3)物体具有复杂的运动 (一个人在关节运动时移动物体;旋转轴在关节表面之外).0明显优于基线方法。我们只在D3D-HOI上限的性能略微优于我们的方法,它假设只要数据可以获得,就能够实现完美的性能。05.4. 限制和故障模式0最后我们讨论我们的限制和典型故障模式,如图6所示。我们发现一些例子特别具有挑战性:(1)第一列:一些图像可能包含难以确定关节类型的困难示例。(2)第二列:轴在图像框架之外或由于对称性或遮挡而位置不明确。(3)第三列:物体具有复杂的动力学或双轴;例如,一个人在打开笔记本电脑时移动它,或者柜子有多个关节。06. 结论0我们已经展示了我们的方法能够从普通视频中检测和描述物体的3D平面关节运动。未来的工作包括将3D形状重建与关节运动检测流程相结合。我们的方法可以通过帮助构建能够理解和操作关节物体的智能机器人而产生积极影响。另一方面,我们的方法可能对监视活动有用。此外,我们的网络是在互联网视频上进行训练的,深度网络可能会放大数据中的偏见。0致谢本工作得到了DARPA机器常识计划和丰田研究所的支持.丰田研究所(“TRI”)提供了资金来协助作者进行研究,但本文仅反映作者的意见和结论,而不反映TRI或任何其他丰田实体的意见. 我们感谢Dandan Shan,JiaqiGeng,Sarah Jabbour和RuiyuLi对数据收集的帮助,感谢Mohamed ElBanani对blender的帮助,感谢FanboXiang对SAPIEN的帮助,以及感谢Yichen Yang和ZiyangChen对Figure 2的帮助. 我们还感谢JustinJohnson,Jiteng Mu,Tiange Luo和MaxSmith的有益讨论.16070参考文献0[1] Dhruv Batra, Angel X Chang, Sonia Chernova, Andrew JDavison, Jia Deng, Vladlen Koltun, Sergey Levine, Jiten- draMalik, Igor Mordatch, Roozbeh Mottaghi等. 重新排列:一个面向体验型人工智能的挑战. arXiv预印本 arXiv:2011.01975, 2020. 20[2] Yu-Wei Chao, Zhan Wang, Yugeng He, JiaxuanWang和Jia Deng. Hico: 用于识别图像中人-物互动的基准.在ICCV中, 2015. 20[3] Weifeng Chen, Shengyi Qian, David Fan, Noriyuki Kojima,Max Hamilton和Jia Deng. Oasis: 野外单张图像3D的大规模数据集.在CVPR中, 2020. 2 , 3 , 7 , 80[4] Christopher B Choy, Danfei Xu, JunYoung Gwak, KevinChen和Silvio Savarese. 3D-R2N2:用于单视图和多视图3D物体重建的统一方法. 在ECCV中, 2016. 10[5] Cristina Garcia Cifuentes, Jan Issac, Manuel W¨uthrich,Ste- fan Schaal和Jeannette Bohg.机器人操作的概率关节实时跟踪. IEEE Robotics and AutomationLetters , 2(2):577–584, 2016. 20[6] Angela Dai, Angel X Chang, Manolis Savva, Maciej Hal-ber, Thomas Funkhouser和Matthias Nießner. Scannet:室内场景的丰富注释的3D重建. 在CVPR中, 2017. 2 , 4 , 70[7] Dima Damen, Hazel Doughty, Giovanni Maria Farinella,Sanja Fidler, Antonino Furnari, Evangelos Kazakos, DavideMoltisanti, Jonathan Munro, Toby Perrett, WillPrice和Michael Wray. 扩展的视角视觉: epic-kitchens数据集.在ECCV中, 2018. 30[8] Karthik Desingh, Shiyang Lu, Anthony Opipari和OdestChadwicke Jenkins.使用高效的非参数信念传播进行关节物体的分解姿态估计.在2019国际机器人与自动化会议(ICRA)上, 页码7221–7227.IEEE, 2019. 20[9] David Eigen和Rob Fergus.使用通用多尺度卷积架构预测深度、表面法线和语义标签.在ICCV中, 2015. 1 , 60[10] David F. Fouhey, Vincent Delaitre, Abhinav Gupta, AlexeiA. Efros, Ivan Laptev和Josef Sivic.人的行为作为单视图几何的线索. 在ECCV中, 2012. 20[11] David F. Fouhey, Weicheng Kuo, Alexei A. Efros和Jiten-dra Malik. 从生活方式VLOG到日常互动. 在CVPR中, 2018. 30[12] R. Girdhar, D.F. Fouhey, M. Rodriguez和A. Gupta.学习可预测和生成的对象向量表示. 在ECCV中, 2016. 10[13] Georgia Gkioxari, Ross Girshick, Piotr Dollar和KaimingHe. 检测和识别人-物互动. 在CVPR中, 2018. 20[14] Agrim Gupta, Piotr Dollar和Ross Girshick. Lvis:用于大规模词汇实例分割的数据集. 在CVPR中, 2019. 30[15] R. I. Hartley和A. Zisserman. 计算机视觉中的多视图几何.Cambridge University Press, ISBN: 0521540518, 第二版, 2004.30[16] Kaiming He, Georgia Gkioxari, Piotr Doll´
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功