光度挑战对象类别级别物体姿态估计的多模态数据集PhoCaL

95 浏览量更新于2023-10-25 收藏 16.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

pengyuan.wang@tum.dehyunjun.jung@tum.deb.busam@tum.de212220PhoCaL：一种用于光度挑战对象类别级别物体姿态估计的多模态数据集0Pengyuan Wang � 1，HyunJun Jung � 1，Yitong Li 1，Siyuan Shen 1，Rahul Parthasarathy Srikanth 1，Lorenzo Garattoni 2，Sven Meier2，Nassir Navab 1，Benjamin Busam 10� 相等贡献 1 慕尼黑工业大学 2 丰田汽车欧洲0图1.PhoCaL包括60个高质量的家居物体的3D模型，分为8个具有不同光度复杂性的类别。所选物体包括具有挑战性的无纹理、遮挡、对称、反射和透明物体。我们的机器人引导的姿态注释流程为现代RGBD传感器难以捕捉的物体提供了高度准确的6D姿态标签。该图显示了RGB、3D边界框和渲染的归一化对象坐标空间（NOCS）地图的4个示例场景。0摘要0物体姿态估计对机器人应用和增强现实至关重要。除了实例级别的6D物体姿态估计方法外，估计类别级别的姿态和形状已成为一个有前景的趋势。因此，需要通过精心设计的数据集来支持这个新的研究领域。为了向社区提供具有高质量地面真实标注的基准，我们引入了一个用于光度挑战对象类别级别物体姿态估计的多模态数据集，称为PhoCaL。PhoCaL包括8个类别的60个高质量家居物体的3D模型，包括高反射、透明和对称物体。我们开发了一种新颖的机器人支持的多模态（RGB、深度、极化）数据采集和注释过程。它确保了不透明纹理、有光泽和透明物体的亚毫米级姿态准确度，无运动模糊和完美的相机同步。为了为我们的数据集设定一个基准，我们在PhoCaL的具有挑战性的场景上评估了最先进的RGB-D和单目RGB方法。01. 引言0视觉系统与其环境交互需要估计空间中物体的位置和方向，这凸显了6D物体姿态估计对机器人应用的重要性。尽管在这个领域取得了巨大的进展[6,42]，但实例级别的6D姿态方法需要预扫描的对象模型，并且只支持有限数量的对象。类别级别的物体姿态估计[40]更适应实际操作环境的需求。然而，具有光泽（如金属）和透明（如玻璃）等光度挑战对象在我们的日常生活中非常常见，但在类别级别上几乎没有研究来估计它们的6D姿态。这个困难来自两个方面：首先，对于光度挑战对象，很难注释6D姿态的地面真实标注，因为无法使用纹理确定关键点；其次，常用的深度传感器无法返回正确的深度信息，因为结构光和立体方法常常无法正确解释反射和折射伪影。因此，RGB-D方法[25,40]在光度挑战对象上无法可靠工作。我们引入了212230图2. 我们的数据集包括8个物体类别中的60个家居物体。这里显示了训练和测试的划分。0ducePhoCaL，一个类别级别的数据集，其中包含具有高质量地面真实标注的光度挑战对象。该数据集提供了RGB、深度和极化等多模态数据，可以研究对象的表面反射特性。我们使用一种新颖的方法，利用协作机器人臂在重力补偿模式下和校准的机械尖端获得高精度的地面真实姿态。为了注释透明和无纹理对象的6D姿态，特别设计的尖端安装在机器人臂上。通过校准的尖端，可以在真实对象上获取预定义点的位置，并将其与扫描匹配。使用这种方法，与以前的方法相比，可以以数量级更高的精度确定对象姿态。对于透明和无纹理对象，使用地形关键点代替纹理关键点。以这种方式收集的点然后与对象模型在最终的ICP[2]步骤中匹配，以获得准确的拟合。相机到机器人末端执行器的转换需要通过视觉估计标记位置并优化相机和末端执行器之间的转换来解决。为了最小化误差传播并获得高度准确的地面真实标签，我们改为使用重力补偿模式下的末端执行器尖端来测量ChArUco[1]板上12个点的位置。这使我们能够使用机器人的精确位置系统获取图像序列的对象姿态和相机姿态。除了光度挑战类别和高质量标注，PhoCaL的另一个亮点是多模态输入。由于主动式深度传感器在金属和透明表面上失效，我们在形式上包含了额外的被动传感器模态，即极化相机。它提供了有关对象表面的有价值信息[22]。在我们的0在设置中，我们设计并3D打印了一个支撑架，上面安装了多个相机，并进行了精确校准。在录制过程中，机器人手臂重复执行预定义的轨迹。当机器人手臂从所有相机捕获图像时停止，这样可以避免运动模糊和由于不完美同步而产生的效果减弱。总之，我们的主要贡献是：01.我们提出了PhoCaL，一个用于类别级物体姿态估计的多模态（RGBD +RGBP）数据集。该数据集包括8个类别的60个高质量家居物体的3D模型，包括对称、透明和反射物体，其中包含24个序列，具有遮挡、部分可见性和杂乱。02.我们引入了一种新的、高精度的姿态注释方法，使用机器人操纵器实现对光度挑战性物体的亚毫米级精度的6D姿态注释，即使是具有反射或透明表面的物体也可以实现。02. 相关工作和当前挑战0标准化数据集在物体姿态和形状估计领域中用于量化和比较贡献和进展。这些数据集通常分为两个领域：实例级数据集，其中已知物体的3D模型；和类别级数据集，其中精确的CAD模型未知。表1提供了这两个领域相关数据集的概述。02.1. 实例级6D物体姿态数据集0最早、最广泛使用的用于实例级姿态估计的公开数据集之一是LineMOD [19]及其遮挡扩展LM-Occlusion[5]。它们的数据212240数据集0RGB0深度0偏振0真实0多视角0机器人GT0遮挡0对称0透明0反射0类别0物体0序列0许可证0FAT [38] � � � � � ± 21 > 1 k CC BY-NC-SA 4.0 BlenderProc [12] � � � � � ± ± > 1 k GNU GPL 3.0 LabelFusion [31] � � � � ± 12138 BSD 3-Clause Toyota Light [21] � � � � ± 21 21 MIT YCB [8, 41] � � � � � ± 21 92 MIT Linemod [5, 19] � � � � � ± 15 15 CCBY 4.0 GraspNet-1Billion [15] � � � � � ± 88 190 CC BY-NC-SA 4.0 T-LESS [20] � � � � � ± 30 20 CC BY 4.0HomebrewedDB [23] � � � � � ± 33 13 CC0 1.0 Universal ITODD [14] � � � � � (�) ± 28 800 CC BY-NC-SA 4.0StereoOBJ-1M [26] � � � � � � � ± 18 183 Not (yet) released0kPAM [30] � � � � � 2 91 362 MIT CAMERA25 [40] � � (�) � � 6 42 30 MIT REAL275 [40] � � � � 6 42 13 MIT TOD[27] � � � � � � 3 20 10 CC BY 4.0 我们的（PhoCaL） � � � � � � � � � � 8 60 24 CC BY 4.00表1.姿态估计数据集概述。上半部分显示实例级数据集，下半部分包括类别级设置。PhoCaL是唯一一个包含具有高质量（机器人）姿态注释和RGB、深度和偏振三种模态的光度挑战性物体的数据集。0使用PrimeSense RGB-DCarmine传感器获取数据，并使用标记板跟踪相对传感器姿态。虽然无疑是该领域的先驱者，但3D模型质量现已过时，这些数据集上的排行榜已经饱和。HomebrewedDB[23]通过提供使用结构光传感器扫描的高质量3D模型解决了后者的缺点。除了LineMOD的三个模型外，还添加了30个玩具、家居和工业物品。不同的照明条件和遮挡使场景更具挑战性。其他数据集还包括家居物品[13, 21, 34,37]或专注于工业零部件[14,20]，这些零部件的纹理较低，也可以手动设计或检索准确的CAD模型[20]。BOP6D姿态基准[21]以通用格式提供了这些数据集的标准化指标摘要。0到目前为止提到的数据集提供了单个帧，YCB-Video数据集[41]还包括21个家用物品的视频序列。虽然YCB使用LabelFusion[31]进行半手动帧注释和序列中的姿态传播，但Garon等人[16]利用物体上的小标记直接估计其视频中的姿态，但需要在之后进行合成数据清理。逼真的照片渲染的出现进一步使得一些工作可以利用纯合成数据进行训练[12,38]。尽管这样可以避免繁琐的姿态标注过程，但也引入了领域差距。0在最终应用中面临的真实世界外观与合成数据之间存在差异。02.2. 类别级别的对象姿态和数据集0在实际应用中，3D模型并不总是可用的，但仍然需要姿态信息。在这些条件下检测这些对象通常使用3D几何原语来解决[3, 4, 9]。虽然这些方法考虑了kitti[18]提供3D边界框注释的室外场景，但它们缺乏对象形状比较，并且信息通常对于机器人抓取任务来说太不准确。NOCS[40]的开创性工作是第一个能够在室内环境中检测对象姿态和形状的类别级方法。进一步的研究考虑了无对应方法[10]，其中深度生成模型从RGBD学习了一个规范形状空间，并提出了一种用于完全看不见的对象估计姿态和形状的方法[32]，尽管这种方法需要参考图像来生成潜在代码。CPS[28]演示了如何仅使用单目视图在类别级别上估计姿态和度量形状。扩展CPS++[29]进一步利用合成数据和使用无注释的RGBD数据的自监督细化的领域转移方法。SGPA[11]探索了形状先验来估计对象姿态。DualPoseNet[25]利用球面融合更好地编码对象信息。1234212250RGB D0图3.RGBD传感器的局限性。对于光度挑战的物体，使用普通深度传感器很难测量其深度。这里使用的英特尔RealSense D515 LiDARToF传感器受到反射的影响，导致距离估计无效（1）不正确（2）。此外，玻璃器皿对传感器来说是不可见的（3），并且会引起噪音（4）。0我们利用标准的RGBD方法NOCS和最先进的RGB方法CPS来建立我们新数据集的基线。虽然针对机器人抓取的特定任务的数据集存在[15,30]，但类别级别的姿态估计方法通常在NOCS[40]数据上进行测试。NOCS对象包括各种类别，但不包含日常物体中常见的光度挑战，如反射和透明度。02.3. 光度学挑战和多模态0虽然无纹理物体[20]最初对姿态估计具有挑战性，但透明度则是一个更大的障碍。虽然这个问题并不新鲜，以前的方法使用RGB立体视觉而没有3D模型仅仅识别抓取点[36]。旋转物体对称性可以通过轮廓拟合用于透明物体重建[33]，使用模板匹配。ClearGrasp[35]提出了一种基于RGBD的透明物体几何估计方法。然而，该方法从深度图中跳过透明区域，并在这些区域中使用RGB预测深度。Liu等人[27]研究了来自立体图像的实例级和类别级姿态估计。由于他们的深度感知在透明物体上失败，他们使用不透明物体的双胞胎作为代理来建立地面真实深度。最近StereOBJ-1M提出了一个包括具有镜面反射和对称性的透明和半透明物体的大型数据集。然而，在撰写本文时，该数据集尚未提供下载。对于2D物体检测，来自多个正交传感器模态（如极化（RGBP））的信息可以帮助透明物体分割[22]。这种模态可以在深度传感器失败的区域提供信息。它们与表面法线的固有联系[43]也使它们对于光度挑战物体的姿态估计具有吸引力。0GT 修正后的3D0图4. 数据集Linemod [19]（投影的绿色轮廓，左）和YCB[8]（渲染的叠加，右）中姿态注释质量以及其修正[7]（右）的示例。02.4. 地面真实姿态注释0手动注释6D姿态是困难且非常耗时的。因此，大多数数据集依赖于半手动的地面真实注释过程。如果有深度传感器的数据，通常会使用它来注册3D模型，并对该帧进行视觉上的调整以提高姿态的精度。相对相机运动通常使用视觉标记物[19,23]来计算，以在一系列图像中传播姿态信息。使用RGBD传感器进行基于ICP的姿态标签对齐可以减少工作量，并提高完全手动注释的质量。然而，对于具有高反射率和半透明或透明表面的光度挑战性物体，RGBD传感器的深度图是错误的或无效的[26]。图3中显示了一个示例。确保一系列图像中姿态标签的高质量是困难的，并且错误会随着时间累积，如图4所示。这同样影响了基于深度的6D姿态流程的改进策略[21,24]。我们提出了一种使用机器人操纵器进行机械测量的过程，以避免这个问题，并允许获得高精度的标签，省去了相对相机姿态从图像中检索的误差传播。03. 数据集获取流程0我们的数据集包含多个物体类别，包括具有反射表面或透明材料的光度挑战性类别。它还提供高精度的多模态传感器数据和6D姿态注释。本节描述了我们的数据集获取流程，如图5所示。03.1. 物体模型获取0为了代表常见家庭物品的横截面，我们选择了八个常见类别作为我们的类别级6D物体姿态数据集：瓶子、盒子、罐头、杯子、遥控器、茶壶、餐具、玻璃器皿。所有物体模型都使用EinScan-SP 3D扫描仪（中国杭州的SHINING 3D Tech.Co.,Ltd.）进行扫描。该扫描仪是一个结构光立体系统，在扫描体积为1200×1200×1200毫米³时，单次扫描精度≤0.05毫米。212260图5.数据集获取流程概述。（a）：使用结构光扫描仪提取3D模型。（b）：使用倾斜工具对机器人坐标进行校准。（c）：使用工具和机器人的手动移动进行6D姿态注释。（d）：保存相机轨迹。（e）：按照计划的轨迹自动记录数据集。0图6.目标-机器人标定及其评估概述。（a）：显示标记物到机器人的标定。（b）：说明相机到机器人的目标-机器人标定。（c）：描述我们的精度评估。0前六个类别的模型以纹理化的obj文件形式提供。由于餐具和玻璃器皿的高反射和透明表面具有光度挑战性，我们使用一种自消失的3D扫描喷雾（AESUBBlue，Aesub，德国雷克林豪森）使物体在扫描时暂时变为不透明。我们扫描物体并提供一个没有纹理的obj文件。喷雾在大约4小时后会挥发。03.2. 场景获取设置0对于每个场景，将5-8个物体随机放置在桌子上。我们使用一台KUKA LBR iiwa 7 R800（德国奥格斯堡的KUKA RoboterGmbH）7自由度机械臂，保证位置再现性为±0.1毫米。视觉系统包括一台Phoenix 5.0MP偏振相机（IMX264MZR/MYR），采用索尼IMX264MYRCMOS（彩色）Polarsens（即PHX050S1-QC）（加拿大里士满的LUCID Vision Labs, Inc.）配备UniverseCompact镜头，C-Mount 5MP 2/3º 6mmf/2.0（美国纽约的Universe）。作为深度相机，我们使用了Intel® RealSense™LiDARL515的飞行时间（ToF）传感器，该传感器以1024x768像素的分辨率获取深度图像，在25厘米到9米的操作范围内，视场为70°x55°，在1米距离上的精度为5±2.5毫米，而在9米距离上的精度为14±15.5毫米。03.3. 尖端校准0我们使用一个坚固的尖锐金属尖端来获取物体上选定点的坐标位置。因此，尖端校准对于确保系统的准确性至关重要。连接到机器人末端执行器的固定装置由定制的3D打印支架组成，用于牢固地固定工具尖端。如图8（左）所示进行枢轴校准，其中尖端点放置在固定位置，而只有机器人末端执行器的位置发生变化。我们从N个这样的尖端位置收集数据，其中包含旋转i R b e 和平移i t b e，末端执行器的最终平移t e t计算如下：0t e t =0�0�01 R b e − 2 R b e02 R b e −3 R b e ...0n R b e − 1 R b e0�0��0†0∙0�0�01 t b e − 2 t b02 t b e −3 t b e ...0n t b e − 1 t be0�0�� (1)0其中†表示伪逆。通过计算每个尖端位置在枢轴点处的方差来评估尖端校准。在我们的设置中，尖端位置的方差为ε =0.057毫米。03.4. 6D姿态注释0在第2.4节中提到，注释物体的精确6D姿态是一项具有挑战性的任务。在这里，我们利用212270图7. 纹理缺失物体上ICP优化前后的注释质量示例。（a）叠加测量表面点（红点）的网格的初始姿态显示初始姿态中的误差（红箭头）。（b）经过ICP后，优化的姿态与表面点正确匹配（蓝箭头）。（c）显示6D姿态注释的改进。初始姿态的网格渲染（d）和优化姿态（e）的质量存在显着差异。0图8.尖端校准（左）及其枢轴点（红色）。物体表面的尖端测量点（右）及其在物体模型网格上的对应点（蓝色）。0机器人的准确性和可重复的编码器来注释物体姿态。我们的注释步骤如下：首先，我们将工具尖端安装在机器人的末端执行器上，并通过手动引导末端执行器测量给定物体的几个关键点以及20-30个表面点，同时机器人处于重力补偿模式（图5（c），图8（右））。然后，在物体模型的网格上手动选择相应的关键点，以获得各个物体的初始姿态（图8（右）（蓝色））。最后，应用ICP来对齐物体的密集网格点和测量的稀疏表面点，作为初始物体姿态的改进步骤。为了评估改进性能，在物体表面的特定区域上选择了25个点，并添加均匀分布的噪声±0.2mm来模拟测量噪声。然后，对物体姿态施加小的扰动，包括在x、y、z方向上范围为±2mm的随机平移误差和绕随机轴的最大角度为4度的旋转误差，以模拟由点对应引入的误差。然后，我们应用ICP在选择的表面点和扰动的网格之间进行姿态优化。在应用ICP之前，我们在3个选定的物体上进行了5次不同的随机扰动测试以恢复初始姿态。在优化后，使用平移和旋转距离[17]来测量姿态误差。0并且在平移中给出了平均RMSE为0.20毫米，在旋转中为0.38°。观察到ICP在现实场景中改善了注释，特别是在纹理缺失的物体上，很难从网格中找到精确的对应关系。纹理缺失物体上ICP之前和之后的注释姿势的极端示例如图7所示。03.5. 手眼标定0传统的手眼标定，如[39]，需要在不同位置从相机检测标记以获得准确的标定结果。由于标记的变换到机器人基座的未知性，相机到末端执行器的变换很难估计，两者必须共同估计。然而，在我们的情况下，可以通过机器人末端执行器准确测量标记位置。考虑到这一事实，我们测量标记板上的12个选定点，并计算T Marker →RB（图6（a））将末端执行器姿态与相机坐标系关联起来。从T Marker → RB，计算出如图6（b）所示的Thandeye。整个过程的整体准确性如图6（c）所示进行测量。通过应用T handeye并将n个不同视图的T marker →cam与12个标记板上的点（Ptransformedn）的机器人基座进行变换，形成T Marker →cam。通过将结果与Pmeasured进行比较计算RMSE。我们在RGBD和偏振相机上使用所述方法对一个场景进行手眼标定，并获得了所有视点的RMSE RGBD = 0.89毫米和RMSE Polarization =0.83毫米。在记录每个场景之前，对所有相机执行此标定过程，如图9所示。03.6. 图像与机器人姿态的同步捕获0数据采集使用RGBD和偏振相机。使用专门设计和3D打印的支架将两个相机紧密安装在末端执行器上。212280图9.在场景上测量标记点进行标定（左）和从其中一个相机检测到的标记（右）0在机器人处于重力补偿模式时，通过手动移动末端执行器记录机器人的所有关节的轨迹。然后，通过回放关节轨迹，每5-7个关节位置停止机器人以捕获图像和机器人姿态（约10-15帧/秒）记录场景的图像。这样可以确保在重现原始手持相机轨迹时不会出现运动模糊和相机同步伪影。03.7. 整体注释质量评估0我们通过运行模拟数据采集来评估数据集的整体注释质量，使用两个测量误差统计：ICP误差（第3.4节）和手眼标定误差（第3.5节）。对于RGBD和偏振相机，使用其中一个场景的设置，包括物体和轨迹进行模拟采集，分别模拟了带有和不带有上述误差的情况。最后，以毫米为单位计算了采集之间的逐点RMSE误差，对每个物体和轨迹中的每个帧进行了平均。RGBD相机的RMSE误差为0.84毫米，偏振相机的RMSE误差为0.76毫米。关于该过程的详细描述附在补充材料中。与其他数据集采集原则相比，注释质量如Tab. 2所示。0数据集RGBD数据集TOD [27] StereOBJ [26] 我们的数据集03D标注深度图多视角机器人点云RMSE ≥ 17毫米 3.4毫米 2.3毫米 0.80毫米0表2.不同数据集设置的姿态注释质量比较。RGBD的误差以MicrosoftAzure Kinect [26]的标准差为例。04. 基准测试和实验0基准评估PhoCaL数据集上考虑了单目（CPS）和RGB-D（NOCS）基于类别的方法。对于NOCS的评估，为每个训练图像渲染了法线物体坐标空间图，并将其与发布一起。0使用NOCS映射预测的归一化物体形状，利用深度信息使用ICP将2D检测提升到3D空间。考虑到数据集中金属和透明物体的深度数据中的伪影以及遮挡，对于RGBD方法来说，测试序列非常具有挑战性。与NOCS类似，CPS首先检测2D边界框。然后，每个类别的lifting模块将2D图像特征转换为6D姿态和尺度。同时，该方法还估计了相应物体类别的点云形状。CPS使用每个类别约1000个物体实例模型进行训练，以学习每个类别的深度点云编码。2D检测和lifting模块一起进行训练，学习率为1e-4，60k步时衰减到1e-5。04.1. 评估流程0我们的数据集总共包含24个图像序列，每个序列都有训练和测试集。在我们的评估流程中，前12个序列的训练集用于训练网络。为了对每个类别的已知和新颖对象进行评估，设计了两个实验。首先在已知对象上进行评估，网络在前12个序列的训练集上进行训练，并在相同序列的测试集上进行测试。为了进一步评估NOCS和CPS对同一类别中新颖对象的泛化能力，使用前12个序列的相同训练集，但在后12个序列的测试集上评估结果，其中大部分对象是未见过的。通过这种方式，强调了方法对类别中新颖对象的泛化能力，这是实际操作环境中的常见问题。评估指标是交并比（IoU）在25%和50%阈值下的结果。04.2. 评估结果0第一次实验设置中NOCS的3DIoU在25%和50%的评估结果如表3所示。3DIoU在25%的平均精度（mAP）为43.34%。实验中观察到，即使分割和归一化物体坐标映射预测准确，从NOCS映射到6D空间的提升对深度图中的伪影非常敏感。由于PhoCaL数据集中的物体高度遮挡，并且由于刀具和玻璃器皿类别的存在，深度测量不准确，该方法在数据集上的性能不佳，这表明RGBD方法在这些光度挑战情况下存在缺陷。每个类别相对于3DIoU阈值的平均精度在图10a中绘制。请注意，刀具和玻璃器皿类别的结果是最差的三个类别之一。为了比较，CPS的结果也列在表中。0如表所示，CPS的精度更高。2122903D 25 / 3D 50 瓶子盒子罐头杯子遥控器茶壶刀具玻璃器皿平均0NOCS [ 40 ] 91.17 / 0.65 16.10 / 0.01 85.44 / 23.01 51.83 / 1.48 93.26 / 86.05 0.00 / 0.00 4.89 / 0.01 4.00 / 0.06 43.34 / 13.910CPS [ 28 ] 80.08 / 40.30 31.68 / 28.18 68.96 / 6.69 81.60 / 70.24 86.30 / 37.08 67.43 / 4.31 44.00 / 24.95 30.33 / 17.74 61.30 / 28.690表3. NOCS [ 40 ] 和CPS [ 28 ] 在已知对象的测试集上的3D IoU的类别评估。03D 25 / 3D 50 瓶子盒子罐头杯子遥控器茶壶刀具玻璃器皿平均0实验1 91.17 / 0.65 16.10 / 0.01 85.44 / 23.01 51.83 / 1.48 93.26 / 86.05 0.00 / 0.00 4.89 / 0.01 4.00 / 0.06 43.3 / 13.910实验2 13.70 / 1.28 27.74 / 0.00 48.17 / 0.00 61.77 / 0.00 8.35 / 0.00 4.90 / 0.00 16.10 / 0.00 0.83 / 0.00 22.70 / 0.170表4. NOCS [ 40 ] 在已知（实验1）和大部分未见（实验2）对象的3D IoU的类别评估。0（a）第一次实验中的NOCS结果0（b）第一次实验中的CPS结果0（c）第二次实验中的NOCS结果0图10. 每个类别相对于3D IoU阈值的平均精度（AP）的绘图。0刀具和玻璃器皿类别的分割和归一化物体坐标映射预测准确，但从NOCS映射到6D空间的提升对深度图中的伪影非常敏感。由于PhoCaL数据集中的物体高度遮挡，并且由于刀具和玻璃器皿类别的存在，深度测量不准确，该方法在数据集上的性能不佳，这表明RGBD方法在这些光度挑战情况下存在缺陷。每个类别相对于3DIoU阈值的平均精度在图10a中绘制。请注意，刀具和玻璃器皿类别的结果是最差的三个类别之一。为了比较，CPS的结果也列在表中。04.3. 限制0尽管提出的用于注释6D姿态的管道是准确的，但在工作流程中，对具有可变形表面的对象进行表面测量步骤的注释是一项挑战，因为其轻微变形可能会降低初始姿态和基于ICP的改进的质量。此外，机器人的有限工作空间限制了图像序列的视角。0PhoCaL与其他机器人采集设置存在相同的问题，即图像序列中的角度问题。相机的手眼标定对注释质量起着关键作用。如果相机分辨率较低，则需要更多来自不同角度的输入图像才能获得良好的标定结果。05. 结论0在本文中，我们介绍了PhoCaL数据集，其中包含光度挑战性的类别。为所有类别和多个相机模式（RGBD和RGBP）提供了高质量的6D姿态注释。通过我们的操作器驱动的注释管道，我们实现了比以前仅使用视觉传感器的管道更精确一个数量级的姿态准确性，即使对于光度复杂的对象也是如此。此外，通过评估单目和RGB-D方法，为我们数据集上的未来类别级别6D姿态研究提供了基线。评估显示了该数据集的难度水平，特别是对于包含反射和透明表面的对象。因此，PhoCaL构成了一个具有准确地面真实性的具有挑战性的数据集，可以为适用于更现实场景中的日常物体的未来姿态管道铺平道路。212300参考文献0[1] Gwon Hwan An, Siyeong Lee, Min-Woo Seo, Kugjin Yun,Won-Sik Cheong, and Suk-Ju Kang.基于Charuco板的全向相机标定方法。电子学，7(12)：421，2018年。20[2] Paul J Besl and Neil D McKay.三维形状注册方法。在传感器融合IV：控制范例和数据结构中，卷1611，第586-606页。国际光学和光子学学会，1992年。20[3] Tolga Birdal, Benjamin Busam, Nassir Navab, SlobodanIlic, and Peter Sturm.一种极简主义方法用于点云中的类型不可知的四次曲线检测。在计算机视觉和模式识别IEEE会议论文集中，第3530-3540页，2018年。30[4] Tolga Birdal, Benjamin Busam, Nassir Navab, SlobodanIlic, and Peter Sturm.使用新型最小二次曲线拟合在点云中进行通用基元检测。IEEE模式分析与机器智能交易，42(6)：1333-1347，2019年。30[5] Eric Brachmann, Alexander Krull, Frank Michel, StefanGumhold, Jamie Shotton, and Carsten Rother.使用三维物体坐标学习6D物体姿态估计。在欧洲计算机视觉会议论文集中，第536-551页。Springer，2014年。2，30[6] Yannick Bukschat and Marcus Vetter.Efficientpose：一种高效、准确和可扩展的端到端6D多对象姿态估计方法。arXiv预印本arXiv:2011.04307，2020年。10[7] Benjamin Busam, Hyun Jun Jung, and Nassir Navab.我喜欢移动它：6D姿态估计作为一种动作决策过程。arXiv预印本arXiv:2009.12678，2020年。40[8] Berk Calli, Aaron Walsman, Arjun Singh, Siddhartha Srini-vasa, Pieter Abbeel, and Aaron M Dollar.操纵研究中的基准测试：YCB对象和模型集以及基准测试协议。arXiv预印本arXiv:1502.03143，2015年。3，40[9] Peter Carr, Yaser Sheikh, and Iain Matthews.使用三维几何图元进行单目物体检测。在欧洲计算机视觉会议论文集中，第864-878页。Springer，2012年。30[10] Dengsheng Chen, Jun Li, Zheng Wang, and Kai Xu.学习类别级别6D物体姿态和尺寸估计的规范形状空间。在计算机视觉和模式识别IEEE会议论文集中，第11973-11982页，2020年。30[11] Kai Chen and Qi Dou. Sgpa:结构引导的先验适应用于类别级别的6D物体位姿估计.IEEE国际计算机视觉会议论文集, 2021. 30[12] Maximilian Denninger, Martin Sundermeyer, DominikWinkelbauer, Youssef Zidan, Dmitry Olefir, Mohamad El-badrawy, Ahsan Lodhi, and Harinandan Katam. Blender- proc. arXiv预印本, 2019. 30[13] Andreas Doumanoglou, Rigas Kouskouridas, SotirisMalas- siotis, and Tae-Kyun Kim.在人群中恢复6D物体位姿并预测最佳视角. 论文集中的第0IEEE计算机视觉与模式识别会议论文集, 2016. 30[14] Bertram Drost, Markus Ulrich, Paul Bergmann, PhilippHartinger, and Carsten Steger. 引入mvtec itodd -一个用于工业中3D物体识别的数据集.IEEE国际计算机视觉会议论文集, 2017. 30[15] Hao-Shu Fang, Chenxi Wang, Minghao Gou, and CewuLu. Graspnet-1billion: 一个用于一般物体抓取的大规模基准测试.IEEE计算机视觉与模式识别会议论文集, 2020. 3 , 40[16] Mathieu Garon, Denis Laurendeau, and Jean-FrancËoisLalonde. 一个用于评估6自由度物体跟踪器的框架.欧洲计算机视觉会议论文集, 2018. 30[17] Mathieu Garon, Denis Laurendeau, and Jean-FrancËoisLalonde. 一个用于评估6自由度物体跟踪器的框架.欧洲计算机视觉会议论文集, 2018. 60[18] Andreas Geiger, Philip Lenz, and Raquel Urtasun.我们准备好自动驾驶了吗？kitti视觉基准套件.IEEE计算机视觉与模式识别会议论文集, 2012. 30[19] Stefan Hinterstoisser, Stefan Holzer, Cedric Cagniart,Slobo- dan Ilic, Kurt Konolige, Nassir Navab, and VincentLepetit. 多模态模板用于在严重杂乱场景中实时检测无纹理物体.IEEE国际计算机视觉会议论文集, 2011. 2 , 3 , 40[20] TomÂaˇs Hodan, Pavel Haluza, ˇ StepÂan ObdrˇzÂalek,Jiri Matas, Manolis Lourakis, and Xenophon Zabulis. T-less:一个用于无纹理物体6D位姿估计的RGB-D数据集.2017年IEEE冬季计算机视觉应用会议论文集, 2017. 3 , 40[21] Tomas Hodan, Frank Michel, Eric Brachmann, WadimKehl, Anders GlentBuch, Dirk Kraft, Bertram Drost, Joel Vidal,Stephan Ihrke, Xenophon Zabulis等. Bop:6D物体位姿估计的基准测试. 欧洲计算机视觉会议论文集, 2018. 3, 40[22] Agastya Kalra, Vage Taamazyan, Supreeth Krishna Rao,Kartik Venkataraman, Ramesh Raskar, and Achuta Kadambi.用于透明物体分割的深度极化线索.IEEE计算机视觉与模式识别会议论文集, 2020. 2 , 40[23] Roman Kaskman, Sergey Zakharov, Ivan Shugurov, andSlo- bodan Ilic. Homebreweddb:用于6D位姿估计的RGB-D数据集. IEEE国际计算机视觉会议论文集,2019. 3 , 40[24] Wadim Kehl, Fabian Manhardt, Federico Tombari,Slobodan Ilic, and Nassir Navab. SSD-6D:使基于RGB的3D检测和6D位姿估计再次变得强大.IEEE国际计算机视觉会议论文集, 2017. 40[25] Jiehong Lin, Zewei Wei, Zhihao Li, Songcen Xu, Kui Jia,and Yuanqing Li. Dualposenet: 6D目标位姿的类别级别估计212310使用双姿态网络进行目标位姿和尺寸估计，通过姿态一致性的精细学习. arXiv预印本, 2021. 1 , 30[26] Xingyu Liu, Shun Iwase, and Kris M Kitani. Stereobj-1m:用于6D物体姿态估计的大规模立体图像数据集。在《国际计算机视觉IEEE会议论文集》中，第10870-10879页，2021年。3, 4, 70[27] Xingyu Liu, Rico Jonschkowski, Anelia Angelova, and KurtKonolige. Keypose:透明物体的多视角3D标注和关键点估计。在《计算机视觉和模式识别IEEE会议论文集》中，第11602-11610页，2020年。3, 4, 70[28] Fabian Manhardt, Manuel Nickel, Sven Meier, LucaMinciullo, and Nassir Navab. Cps:从单目图像中估计类别级别的6D姿态和形状。

下载后可阅读完整内容，剩余1页未读，立即下载