UDA-COPE:无监督域自适应的类别级别物体姿态估计

32 浏览量更新于2023-10-25 收藏 13.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

148910UDA-COPE:无监督域自适应的类别级别物体姿态估计0Taeyeop Lee Byeong-Uk Lee Inkyu Shin Jaesung Choe Ukcheol Shin0In So Kweon Kuk-Jin Yoon0KAIST0摘要0学习估计物体姿态通常需要GT标签，如CAD模型和绝对尺度物体姿态，在现实世界中获取这些标签是昂贵且费力的。为了解决这个问题，我们提出了一种用于类别级别物体姿态估计的无监督域自适应（UDA-COPE）方法。受到最近多模态UDA技术的启发，所提出的方法利用教师-学生自监督学习方案来训练姿态估计网络，而不使用目标域姿态标签。我们还介绍了预测的标准化物体坐标空间（NOCS）图和观察到的点云之间的双向过滤方法，不仅使我们的教师网络对目标域更具鲁棒性，而且为学生网络训练提供更可靠的伪标签。广泛的实验结果在定量和定性上证明了我们提出的方法的有效性。值得注意的是，在不利用目标域GT标签的情况下，我们提出的方法在性能上与依赖GT标签的现有方法相当，甚至有时更优。01. 引言0物体姿态估计是各种机器人和计算机视觉应用中使用的关键任务之一，用于机器人操作[8, 34, 37,39]和增强现实（AR）[23, 24,28]。通过使用图像或点云等传感器数据，该任务旨在估计目标物体的姿态，包括3D方向、3D位置和尺寸信息。以前的6D物体姿态估计方法遵循实例级别的姿态估计方案[12,13, 25, 27, 31, 34, 38]，这些方法依赖于给定的3DCAD模型信息（例如关键点、几何形状）和已知物体的尺寸。然而，由于尚未具备3DCAD模型作为先验知识，这些方法通常难以估计未知物体的姿态。0与实例级别方案相比，类别级别的物体姿态估计[4, 5, 20,30, 35,36]方法更高效，因为一个网络可以同时推断多个类别。特别是，Wang等人[35]引入了一种开创性的表示方法，称为标准化物体坐标空间（NOCS），用于将同一类别中的不同物体实例在共享的3D方向上对齐。通过估计每个类别的NOCS图，它能够在没有先验3DCAD模型的情况下估计看不见的物体的6D姿态。它的优势导致了在以下研究中使用NOCS表示[4, 5, 20, 30,36]。然而，当前的物体姿态估计研究主要依赖于监督学习，这需要昂贵的GT标签，如3D物体CAD模型和绝对物体姿态。这些标签不仅在现实世界中难以获得，而且由于人工注释而不可靠。由于这个困难，大部分训练依赖于合成数据集[15, 29,31]，并且通常由于域间差异而在现实世界的应用中不可行。为了应对现实世界数据稀缺问题，我们研究了无监督域自适应（UDA）方法[14, 19,42]。UDA方法通常考虑两种类型的数据集，源域（即合成数据集）和目标域（即真实世界数据集）。UDA方法的主要目标是仅使用源域的GT标签成功地使深度学习网络对目标域具有鲁棒性。存在各种技术，如伪标签生成[14,19]，具有动量更新的教师和学生网络[1, 40]，对抗学习[2,3,16]等。在本文中，我们提出了一种用于类别级别物体姿态估计的无监督域自适应方法（UDA-COPE）。所提出的方法通过利用多模态自监督学习方案使用伪标签，有效地将任务知识从合成域传递到真实域。我们的UDA-COPE关注如何生成高质量的伪标签，以便有效地目标定位。they do not fully consider pose parameters at the category-level that consist of 3D orientation, 3d location, and sizeinformation.Multi-modal UDA. xMUDA [14] is a pioneer approach forunsupervised domain adaptation (UDA) in 2D/3D semanticsegmentation for multi-modal scenarios. A few methodshave considered an extra modality (i.e., depth) during train-ing time and leveraged such privileged information to boostadaptation performance [16,33]. Reza et al. [21] proposed amulti-modal UDA in instance-level object pose estimation,but it only considered relative pose on a 2D image level.However, multi-modal UDA approaches have not yet beenexplored in the category-level object pose estimation task.148920为了实现类别级别姿态估计任务，我们设计了双向点过滤器，通过姿态优化来去除噪声和不准确的点。大量实验证明，我们的UDA-COPE和双向点过滤器成功地减小了合成数据集和真实数据集之间的领域差距。此外，我们的框架在性能上优于之前的监督方法[4, 30, 35,36]。我们的方法的贡献总结如下：0•我们提出了一个基于RGB-D的无监督领域自适应类别级别物体姿态估计（UDA-COPE）框架，解决了现实场景中数据不足的问题。0•我们设计了一个师生框架，通过提出的双向点过滤器可以获得高质量的姿态感知伪标签。0•我们的方法显示出与监督姿态估计方法相当或有时更好的结果。02. 相关工作0类别级别的物体姿态估计。该任务[4-6，0[20, 30,35]处理的是未见过的实例但已知类别的物体。最近的类别级别物体姿态和尺寸方法[5, 17, 30, 35,36]使用密集的归一化对象坐标空间（NOCS）表示作为估计姿态的基本方式。它将同一类别中的不同物体实例对齐到共享的3D方向上。Shape Prior[30]通过为每个类别生成代表性的形状先验和变形NOCS映射来改进NOCS映射的质量。CR-Net[36]通过使用级联关系和循环重建方法扩展了形状先验方法[30]。类似地，SGPA[5]提出了一种先验适应方法。尽管取得了显著的改进，但这些研究依赖于完全监督学习，因此需要大量的手动标注数据，例如物体的6D姿态、3DCAD模型和NOCS映射。在现实世界的场景中创建准确的GT信息也是耗时且昂贵的。据我们所知，CPS++[22]是唯一解决这个数据依赖性问题的现有方法。它旨在使用RGB图像预测3D形状以优化姿态，并利用无监督学习方案通过计算观察到的深度图和渲染深度之间的一致性。渲染深度是通过将估计的3D形状投影到预测的姿态上获得的。然而，从单个图像中进行3D形状重建是具有挑战性的，使得他们的无监督引导不可靠。最近，Li等人[18]提出了一种利用SE（3）等价表示进行类别级别姿态估计的自监督方法。然而，他们没有充分考虑由3D方向、3D位置和尺寸信息组成的类别级别姿态参数。多模态UDA。xMUDA[14]是多模态场景中无监督领域自适应（UDA）在2D/3D语义分割中的先驱方法。一些方法在训练时考虑了额外的模态（即深度），并利用这种特权信息来提高适应性能[16,33]。Reza等人[21]提出了一种多模态实例级物体姿态估计的UDA，但它只考虑了2D图像级别上的相对姿态。然而，多模态UDA方法尚未在类别级别物体姿态估计任务中得到探索。0图1. 多模态NOCS映射估计的网络。03. 方法0给定RGB图像I，点云P和分割标签S，我们的架构旨在回归物体的6D姿态和尺寸s∈R3。6D姿态被定义为[R |t]的刚性变换：旋转R∈SO(3)和平移t∈R3。根据之前的研究[4, 5, 20, 30,36]，分割标签S用于裁剪RGB图像和点云。我们利用NOCS表示来将同一类别中的不同物体实例对齐到共享的方向上。通过Umeyama算法[32]和RANSAC[9]优化[R |t]和s，使点云P与估计的NOCS映射N之间的距离最小化，从而估计出类别物体的姿态[R |t]和尺寸s。我们首先介绍我们的网络架构（第3.1节）。然后，我们介绍使用合成数据集的监督学习训练方法（第3.2节）和使用真实数据集的无监督领域自适应方法（第3.3节）。03.1. 网络架构0最近的类别级物体姿态估计方法[4，0[20,30]的最新类别级物体姿态估计方法采用RGB-D输入提取2D/3D特征。我们设计了独立的2D/3D分支来从两种模态中提取特征。我们使用PSPNet [41]和ResNet34[11]提取2D特征，使用Mink16UNet34[7]提取3D特征。此时，通过从特征体积中有效匹配点云P的特征进行采样，提取2D特征。(1)148930图2.无监督领域自适应类别级物体姿态估计（UDA-COPE）的概述。UDA-COPE利用基于伪标签的教师/学生训练方案。我们提出的双向点过滤方法去除了噪声伪标签，并为学生网络提供可靠的指导。同时，过滤后的深度点为教师网络提供了额外的自我监督，使其能够适应合成和真实数据集之间的领域差异。0最后，我们有一个融合分支，将两个分支的每个特征组合在一起。每个分支都使用独立的NOCS头部估计一个NOCS图（N），该头部由三个多层感知器（MLP）层组成。我们的多模态NOCS图预测网络如图1所示。根据各自的特征属性，我们将每个分支的NOCS图估计分别称为N 2D，N3D，N Fused。03.2. 使用合成数据进行预训练0受伪标签（PL）方法的启发[14,19]，我们的方法由教师模型和学生模型组成。图2显示了我们的教师模型和学生模型的概述。教师模型的初始预测 M T成为学生模型的伪标签 N PL，学生模型 M S从伪标签中学习作为GT。我们的教师模型和学生模型的结构与第3.1节中描述的相同。我们首先使用带标签的合成数据集以监督方式训练教师模型。对于使用GT信息进行NOCS图预测，我们使用交叉熵损失，如 H(N gt, NT)，其中对三个分支的所有预测进行监督。此外，为了使我们的教师网络更加鲁棒，我们应用2D图像和3D点增强，并使用一致性损失 LC，以便每个模态可以输出一致的结果。合成数据集上教师网络的总损失如下所示：0L M T = λ N H(N gt, N T) + λ C L C,0L C = H(N T, N T Aug)0其中 N T Aug 是增强输入的NOCS图预测，λ N 和 λ C是权重参数。为了更好的可读性，预测的模态符号被省略。0图3.双向点过滤方法的概述。给定伪标签和深度点（a），我们使用Umeyama [32]算法和RANSAC[9]估计姿态和尺寸，并将深度点对齐到规范化的物体坐标（b）。伪标签（红色）和对齐的深度点（蓝色）存在噪声和不准确的点。通过我们的双向点过滤，可以去除噪声点，为教师和学生提供更可靠的监督（c）。03.3. 姿态感知无监督领域自适应0在使用合成数据集进行训练之后，最直接但也最幼稚的方法是使用教师网络的预测来训练学生网络。然而，使用教师模型的初始预测作为伪标签可能存在风险。这种风险是由于教师模型本身的鲁棒性不足，或者更重要的是，由于模拟和真实世界之间的领域差异，教师模型在真实世界情景下的知识不足。数据增强和动量更新等技术可能有助于可行性，但仍然受限。因此，我们需要额外的指导来估计教师模型的高质量预测，并为我们的学生模型提供更可靠的伪标签进行学习。(2)1489403.3.1 双向点过滤0为了解决这些问题，我们提出了双向点过滤方法，同时去除学生的伪标签噪声和过滤师傅网络的噪声深度点P。图3显示了所提出的双向过滤方法的概述。我们的双向过滤方法使用P和NPL作为输入，使用Umeyama算法[32]和RANSAC[9]初始估计姿态[R|t]和尺寸s。然后，通过应用估计姿态的逆矩阵，将深度点P对齐到NOCS坐标，即乘以矩阵[sR|t]^-1。我们将对齐的深度点称为P'。然后，我们计算对齐的深度点P'与伪标签NPL之间的点对点3D距离d，使用阈值ρ从两侧过滤掉噪声点。最后，我们得到了精炼的伪标签ˆNPL和过滤后的对齐深度ˆP。我们的双向点过滤可以表示为：0d(n) = ∥P'(n) - NPL(n)∥，其中�n∈[1|P']，ˆNPL= {NPL(n): d(n) < ρ}，ˆP = {P'(n): d(n) < ρ}，0图3显示了我们的双向过滤方法去除了伪标签NPL和深度P的离群点，并得到了精炼的伪标签ˆNPL和过滤后的深度点ˆP。03.3.2 自监督学习0在双向过滤之后，我们使用过滤后的伪标签ˆNPL和过滤后的对齐深度点ˆP共同训练教师网络和学生网络。需要注意的是，我们只使用过滤后的点ˆP来进行教师训练，这可能是原始P的一个较小子集。我们使用交叉熵损失使用干净的伪标签ˆNPL来训练学生模型。学生模型的损失定义为：0LMS = -10|ˆNPL|的绝对值0|ˆNP0n = 1 H(ˆNPL(n), NS(n)), (3)0其中NS是我们学生网络的预测。同时，教师从观察中学习真实数据的知识。我们使用交叉熵损失利用我们的过滤对齐深度ˆP和估计的伪标签NT之间的几何一致性。教师模型的损失定义为：0LMT = -10|ˆP|的绝对0|P|0n = 1 H(ˆP(n), NT(n))，(4)0我们使用较小的学习率训练我们的教师模型，以实现稳定的教师网络训练。对于教师和学生模型，我们计算所有估计的损失，N2D、N3D、NFused，结果比仅应用于NFused的损失更好。我们将所有估计损失称为全模态（AM）损失。04. 实验0数据集。我们使用了两个常用的类别级姿态估计数据集，一个是合成数据集，一个是真实数据集。合成数据集（源域）是Context-Aware MixedEdReAlity（CAMERA）数据集[35]，通过以上下文感知的方式将合成物体渲染和合成到真实图像中生成的。它包含了275k个用于训练的合成图像。该数据集包含了来自6个不同类别的1085个物体实例，包括瓶子、碗、相机、罐头、笔记本电脑和杯子。我们使用REAL数据集[35]作为真实数据集（目标域）。与之前的方法[4, 5, 30,35]相比，我们的方法在目标域中训练时不使用物体姿态、3DCAD和NOCS地图GT标签。它包含了43,000个用于训练的真实世界图像和2,750个用于评估的6个场景的真实世界图像。REAL评估集被指定为REAL275。我们在标准的REAL275基准上评估了我们的方法，用于类别级物体姿态估计任务。度量标准。我们遵循了Wang等人[35]之前的姿态和尺寸评估指标，评估了3D物体检测和6D姿态估计的性能。我们报告了不同Intersection-Over-Union（IoU）阈值下的3D物体检测的平均精度。使用了25%、50%和75%的阈值来评估结果。对于6D物体姿态评估，考虑了旋转和平移误差计算平均精度。例如，10°、10cm的度量表示预测误差小于10°和10cm的物体实例的百分比。04.1. 实现细节0我们使用PyTorch[26]实现了我们的方法。为了从真实世界数据集中获取物体区域，我们在训练过程中使用了GT分割标签，并在推理过程中使用现成的物体分割方法Mask R-CNN[10]。对于检测到的实例，我们将图像补丁调整为192 x192，并随机采样1024个点云。2D和3D特征具有64维，融合特征具有128维特征，因为进行了串联。我们在合成数据集上对我们的教师网络进行了50个时期的训练。我们使用Adam优化器，初始学习率为0.0001，批大小为16，学习率在15k、30k、45k、60k迭代时分别减少0.6、0.3、0.1、0.01倍。我们设置 λ N = 1.0，λ C = 1e-6用于教师网络。对于我们提出的双向过滤，将 ρ设置为0.05。在无标签的真实数据集上，教师网络和学生网络都进行了1个时期的训练。我们的学生网络的学习参数与合成数据集上的教师训练方案相同。我们将用于教师网络的真实世界自监督学习的学习率设置为1e-7。148950方法输入 Syn Real w/ Label Real w/o Label mAP ( ↑ ) 3 D 50 3 D 75 5 ◦ 2 cm 5 ◦ 5 cm 10 ◦ 2 cm 10 ◦ 5 cm0CPS++ [22] RGB � 72.6 - - 25.8 - - Metric Scale [17] RGB � 68.1 32.9 2.2 5.3 10.0 24.7 NOCS [35] RGB � 36.7 3.4 -3.4 - 20.4 SPD [30] RGB-D � 71.0 43.1 11.4 12.0 33.5 37.80NOCS [35] RGB � � 78.0 30.1 7.2 10.0 13.8 25.2 SPD [30] RGB � � 75.2 46.5 15.7 18.8 33.7 47.4 SPD [30] RGB-D � �77.4 53.5 19.5 21.6 43.5 54.0 CASS [4] RGB-D � � 77.7 - - 23.5 - 58.0 CR-Net [36] RGB-D � � 79.3 55.9 27.8 34.3 47.260.8 DualPoseNet [20] RGB-D � � 79.8 62.2 29.3 35.9 50.0 66.8 SGPA [5] RGB-D � � 80.1 61.9 35.9 39.6 61.3 70.70CPS++ [22] RGB � � 72.8 - - 25.2 - - 我们的 RGB � � 82.0 59.0 24.4 27.0 49.3 54.8 我们的 D � � 79.6 57.8 21.2 29.148.7 65.9 我们的 RGB-D � � 82.6 62.5 30.4 34.8 56.9 66.00表1. 与REAL275数据集上最先进方法的定量比较。空白条目要么无法评估，要么在原始论文中没有报告。0方法 Syn Real w/o Label mAP ( ↑ ) 3 D 25 3 D 50 3 D 75 5 ◦ 2 cm 5 ◦ 5 cm 10 ◦ 2 cm 10 ◦ 5 cm 10 ◦ 10 cm0CPS++ (RGB) � 84.5 72.6 - - 25.8 - - 55.4 CPS++ (RGB) � � 84.6 (+0.1) 72.8 (+0.2) - - 25.2 (-0.6) - - 58.6 (+3.2)0我们的（RGB）� 83.3 79.9 49.7 15.4 18.3 37.6 46.7 48.9 我们的（RGB）� � 83.8 (+0.5) 82.0 (+2.1) 59.0 (+9.3) 24.4 (+9.0) 27.0 (+8.7) 49.3 (+11.7) 54.8 (+8.1) 56.9 (+8.0)0我们的（RGB-D）� � 84.0 (+0.7) 82.6 (+2.7) 62.5 (+12.8) 30.4 (+15.0) 34.8 (+16.5) 56.9 (+19.3) 66.0 (+19.3) 68.3 (+19.4)0表2. 在REAL275数据集上对无监督姿态估计方法进行定量比较。空白条目要么无法评估，要么在原始论文中没有报告。性能边界是与仅合成结果相比计算的。04.2. 与最先进方法的比较0我们将我们的方法与在不同数据集和标签上训练的最先进方法进行了比较：1）带标签的合成数据集，2）带标签的合成和真实数据集，3）带标签的合成和无标签的真实数据集。所有方法都在REAL275数据集上进行了评估。请注意，只考虑了能够使用单个网络执行多类别姿态估计的方法。RGB、深度和RGB-D表示网络输入的模态，大多数基于RGB的方法在姿态优化或细化过程中利用深度信息。监督姿态估计方法。表1总结了最先进的类别级物体姿态估计方法的结果。显然，使用真实数据注释进行监督训练显著提高了整体性能，通过比较NOCS [35]和SPD[30]在不同训练数据集条件下的结果可以看出。然而，我们的无监督方法显示出优于NOCS [35]、SPD [30]、CASS[4]和CR-Net [36]的结果。与两种最强的先前方法SGPA[5]和DualPoseNet[20]相比，我们的方法仍然显示出可比较的性能。这表明我们提出的基于过滤的伪标签的UDA-COPE方法是稳健的。0在未见过的真实世界实例中估计物体姿态时。0无监督姿态估计方法。表2总结了CPS++和我们方法在仅源域和源域与未标记目标域训练条件下的结果。CPS++[22]通过计算观察到的深度图与渲染深度之间的一致性来提供自监督。渲染深度是通过将估计的3D形状与预测的姿态进行投影得到的。表2中的第1行和第2行的结果显示，对于CPS++，使用未标记的真实数据在性能上略有改善，有时甚至会恶化，如5°，5cm度量。我们认为他们的自监督不可靠，因为仅使用单视角RGB图像进行的模糊的3D形状重建。0通过比较第3行和第4行，可以看出我们提出的方法在每个指标上都显示出改进的结果，其中一些指标显示出明显的差距，例如5°，5cm上的8.7个mAP（48%）增加。此外，在最后一行，我们的RGB-D结果的性能优于单模态的输出。因此，我们声称我们提出的算法通过利用基于伪标签的学习方案以及模态和姿态感知的自监督方法更加有效。每个组件的有效性将在接下来的章节中进行详细的消融研究。148960方法 RGB 深度 RGB-D03D 50 3D 75 5° 2cm 5° 5cm 3D 50 3D 75 5° 2cm 5° 5cm 3D 50 3D 75 5° 2cm 5° 5cm0下限 79.9 49.7 15.4 18.3 76.7 52.7 14.9 22.7 80.7 60.9 23.0 27.90PL 78.7 51.0 11.6 13.5 76.2 51.0 15.4 23.0 80.3 58.6 23.8 28.20PL + MU 79.0 52.8 11.9 13.6 76.9 51.3 14.7 22.7 80.0 58.3 23.3 27.80PL + AM 80.2 56.2 21.2 24.8 77.1 57.9 18.2 24.7 81.6 60.8 24.6 29.20PL + xMUDA 78.4 55.3 21.9 25.5 76.5 56.6 18.3 26.0 80.7 60.2 25.7 30.30PL-F + AM 81.5 59.0 23.3 26.1 77.3 58.4 20.0 27.3 81.3 62.0 28.1 32.90PL-F + AM + TSL 82.0 (+2.1) 59.0 (+9.3) 24.4 (+9.0) 27.0 (+8.7) 79.6 (+2.9) 57.8 (+5.1) 21.2 (+6.3) 29.1 (+6.4) 82.6 (+1.9) 62.5 (+1.6) 30.4 (+7.4) 34.8 (+6.9)0上限 82.7 66.7 29.3 32.8 79.9 64.9 23.7 29.6 82.9 70.4 31.8 35.80表3.UDA组件的消融研究。下限：仅使用标记的源域进行训练，上限：同时使用标记的源域和目标域进行训练，PL：伪标签，MU：动量更新，AM：全模态损失，PL-F：伪标签过滤，TSL：教师自监督学习（4）。性能差距是与下限相比计算的。04.3. 消融研究0我们的消融研究使用了RGB、深度和RGB-D三个分支的预测结果。表3中的下限和上限是使用单个网络进行训练的结果，具体描述见第3.1节。下限仅使用源域数据进行训练，而上限利用了源域和目标域数据及其标签。表3总结了消融研究的结果。姿态估计的Naive Teacher/StudentUDA。为了验证我们提出的姿态感知UDA方法的有效性，我们首先应用了一个非常简单的带有动量更新的teacher-student学习方案。在应用动量更新时，我们使用γ为0.999每100次迭代更新一次teacher网络。然而，可以看出这两种方法都没有太大帮助。可能的原因是：1）直接使用teacher网络的初始预测作为伪标签不可靠，因为存在域差异和噪声预测；2）仅对融合分支提供监督可能限制了2D和3D分支的有效训练，从而最终破坏了融合分支；3）使用从不可靠伪标签中提取的梯度信息进行动量更新，以及因此不可靠的学生网络训练，对于teacher网络学习真实世界适应性是不足够的。模态感知UDA方法。我们应用了全模态（AM）损失，该损失计算伪标签与三个分支的所有输出之间的交叉熵损失。在表3中比较（PL）和（PL +AM）可以看出，基于RGB的预测和基于深度的预测的性能都有很大提升。相应地，我们也从基于RGB-D的融合分支中获得了改进的准确性。为了与之前的多模态无监督域自适应方法进行比较，我们还应用了xMUDA[14]，该方法对2D特征和3D特征进行一致性约束。xMUDA一致性是在学生网络训练期间给出的。xMUDA在一些指标上表现出类似的结果。0与我们的AM损失一样，xMUDA也提供了相同数量的性能提升。这是因为AM和xMUDA都帮助我们的网络在N2D，N 3D和NFused之间输出一致的预测。我们选择了AM，因为它可以为每个分支提供更直观的监督。0姿态感知UDA方法。我们比较了我们的两个主要组成部分，这两个部分专门为姿态估计而设计。如表3所示，伪标签过滤（PL-F + AM）相对于简单的伪标签（PL +AM）有显著的改进，这表明为我们的学生网络提供更可靠和自信的伪标签是重要的。关于选择可靠伪标签的各种方法的更详细比较将在下一部分中解释。使用AM和PL-F，我们的学生网络在真实世界数据上训练得更加稳健，现在拥有有意义的知识，可以传递回教师网络。在这个阶段利用教师自监督学习（TSL）会显著提高性能，相比于基本的动量更新技术从（PL）到（PL + MU）。0伪标签过滤。为了展示基于提出的双向点过滤的伪标签过滤的有效性，我们对众所周知的伪标签过滤技术进行了实验。候选方法包括Top k（置信度），Topk（置信度，按类别），熵，SoftMax最大值，SoftMax平均值和ArgMax匹配。Topk过滤使用基于softmax值的伪标签NPL的前k％预测，其中按类别在每个类别中进行排序/过滤。熵过滤使用预测熵的底部k％。对于SoftMax最大值，SoftMax平均值和ArgMax匹配，我们考虑了教师网络的三个输出N T 2D，N T 3D，N TFused。在这三个预测中，通过选择或组合最大的softmax值，平均的softmax值或argmax操作的索引匹配的值来生成过滤后的伪标签。我们将k设置为50，以便与双向点过滤的过滤近似比率相对应。148970过滤RGB深度RGB-D03D 50 3D 75 5° 2 cm 5° 5 cm 3D 50 3D 75 5° 2 cm 5° 5 cm 3D 50 3D 75 5° 2 cm 5° 5 cm0无 80.2 56.2 21.2 24.8 77.1 57.9 18.2 24.7 81.6 60.8 24.6 29.20Top k（置信度） 79.0 55.5 21.6 25.0 76.7 56.4 18.1 24.8 81.4 60.4 25.6 30.10Top k（置信度，按类别） 78.8 55.0 20.4 23.8 76.7 56.2 18.1 24.9 80.9 59.7 25.3 29.80熵 77.6 54.9 24.1 27.7 77.7 57.0 18.4 25.3 80.6 60.8 26.6 31.10SoftMax最大值 79.9 52.7 19.6 22.4 76.9 56.3 17.4 25.5 79.9 59.2 25.6 30.00ArgMax匹配 79.6 52.2 17.7 19.9 76.2 56.0 20.1 27.6 81.6 60.9 24.1 27.50Softmax平均值 79.1 55.9 21.8 25.3 77.1 55.9 18.6 26.1 81.3 61.9 25.5 30.00我们的方法 81.5（+1.3） 59.0（+2.8） 23.3（+2.1） 26.1（+1.3） 77.3（+0.2） 58.4（+0.5） 20.0（+1.8） 27.3（+2.6） 81.3（-0.3） 62.0（+1.2） 28.1（+3.5） 32.9（+3.7）0表4. 伪标签过滤方法的消融研究。与不使用任何伪标签过滤的结果相比，计算了性能差距。0图4.真实训练数据集的噪声GT标签示例。人工标注的真实数据集上的GT姿态标签（顶行）有时比我们预测的伪标签（底行）更不准确。0与其他过滤方法相比，我们的过滤方法在整体上取得了最佳性能，如表4所示。这表明我们的姿态感知双向点过滤生成了更可靠的伪标签。这是因为其他过滤方法只关注预测的逻辑本身，而我们的方法考虑了估计的NOCS图和观测深度点之间的关系。因此，我们的方法可以有效地去除姿态和深度感知的异常值。0我们伪标签的可靠性。图4可视化了一些真实训练集的示例，其中包括GT标签和我们的伪标签。使用Umeyama算法[32]使用GTNOCS图和我们的伪标签NOCS图获得并可视化了6D姿态。真实数据的注释主要是使用aruco标记自动完成的。对于一些失败的情况，需要额外的ICP或手动人工注释。因此，存在具有不准确标签的帧，这可能会破坏监督训练。0然而，我们的方法生成的注释比GT提供的更准确的情况也有。0数据集。例如，第一列的GT图像显示由于图像中的遮挡aruco标记，所有物体的姿态都相对错误，而我们的预测似乎更可靠。这表明我们的伪标签不仅可靠，而且有时比GT更准确，这意味着我们提出的方法成功解决了现实世界数据稀缺和不可靠性问题。04.4. 定性结果0图5显示了在REAL275数据集上的定性结果。我们将结果与一些监督方法NOCS [35]，SPD [30]和DualPoseNet[20]进行了比较。我们的方法在相机和笔记本电脑上比NOCS和SPD更准确地估计了姿态和尺寸。与最先进的方法DualPoseNet相比，我们的方法展示了可比较的预测，尽管它没有使用真实数据集的GT标签进行训练。148980（a）NOCS [35]（b）SPD [30]（c）DualPoseNet [20]（d）UDA-COPE（我们的方法）（e）地面真值（GT）0图5. REAL275数据集上的定性比较。05. 限制和未来工作0据我们所知，我们是第一个尝试使用无标签RGB-D数据解决类别级6D姿态估计的无监督域自适应方法。因此，可能存在一些问题或未来的方向需要解决。例如，我们的姿态估计依赖于对象分类、检测和分割来产生适当裁剪的图像和采样的深度点，因此对现成分割流程的性能敏感。此外，虽然所提出的方法利用单帧RGB-D图像，但我们可以利用视频输入的几何约束。06. 结论0我们提出了UDA-COPE，一种用于类别级物体姿态估计的无监督域自适应方法。0通过多模态（RGB-D）解决现实世界中缺乏标签的问题。具体而言，我们设计了一种双向点过滤方法来过滤噪声伪标签，并观察深度点，其中过滤后的深度点提高了教师网络的鲁棒性，而过滤后的伪标签有助于高效的学生网络训练。两者都为与现实世界的姿态估计进行更好的域自适应提供了支持。实验证明，我们提出的流程和姿态感知点过滤结果与完全监督方法的性能相当或有时更好。0致谢0这项工作由国防采购计划管理局（DAPA）和国防开发局（ADD）资助的人工智能应用研究中心（CARAI）的资助进行（UD190031RD）。148990参考文献0[1] Nikita Araslanov和StefanRoth。自我监督的增强一致性用于适应语义分割。在IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中，第15384-15394页，2021年。10[2] Konstantinos Bousmalis，Alex Irpan，Paul Wohlhart，YunfeiBai，Matthew Kelcey，Mrinal Kalakrishnan，LauraDowns，Julian Ibarz，Peter Pastor，KurtKonolige等。使用模拟和域自适应提高深度机器人抓取的效率。在IEEE国际机器人与自动化会议（ICRA）上，第4243-4250页，2018年。10[3] Konstantinos Bousmalis，Nathan Silberman，DavidDohan，Dumitru Erhan和DilipKrishnan。基于生成对抗网络的无监督像素级域自适应。在IEEE/CVF计算机视觉与模式识别（CVPR）会议论文集中，第3722-3731页，2017年。10[4] Dengsheng Chen，Jun Li，Zheng Wang和KaiXu。学习类别级别的6D物体姿态和尺寸估计的规范形状空间。在IEEE/CVF计算机视觉与模式识别（CVPR）会议论文集中，第11973-11982页，2020年。1，2，4，50[5] Kai Chen和QiDou。SGPA：面向类别级别的6D物体姿态估计的结构引导先验自适应。在IEEE/CVF国际计算机视觉大会（ICCV）会议论文集中，第2773-2782页，2021年。1，2，4，50[6] Xu Chen，Zijian Dong，Jie Song，Andreas Geiger和OtmarHilliges。通过神经分析合成进行类别级别的物体姿态估计。在欧洲计算机视觉会议（ECCV）论文集中，第139-156页，2020年。20[7] Christopher Choy，JunYoung Gwak和SilvioSavarese。4D时空卷积网络：Minkowski卷积神经网络。在IEEE/CVF计算机视觉与模式识别（CVPR）会议论文集中，第3075-3084页，2019年。20[8] Guoguang Du，Kai Wang，Shiguo Lian和KaiyongZhao。基于视觉的机器人抓取：从物体定位、物体姿态估计到抓取估计的综述。《人工智能评论》54（3）：1677-1734，2021年。10[9] Martin A Fischler和Robert CBolles。随机样本一致性：模型拟合的范例及其在图像分析和自动制图中的应用。《ACM通信》24（6）：381-395，1981年。2，3，40[10] 何恺明，Georgia Gkioxari，Piotr Doll´ar和RossGirshick。MaskR-CNN。在IEEE国际计算机视觉大会（ICCV）会议论文集中，第2961-2969页，2017年。40[11]何恺明，张祥宇，任少卿和孙剑。深度残差学习用于图像识别。在IEEE/CVF计算机视觉与模式识别（CVPR）会议论文集中，第770-778页，2016年。20[12] Yisheng He，Haibin Huang，Haoqiang Fan，Qifeng Chen和JianSun。FFB6D：用于6D姿态估计的全流双向融合网络。在IEEE/CVF会议上发表。0在计算机视觉和模式识别（CVPR）会议论文集中，第3003-3013页，2021年。10[13] Yisheng He，Wei Sun，Haibin Huang，JianranLiu，Haoqiang Fan和JianSun。PVN3D：用于6自由度姿态估计的深度逐点3D关键点投票网络。在IEEE/CVF计算机视觉与模式识别（CVPR）会议论文集中，第11632-11641页，2020年。10[14] Maximilian Jaritz，Tuan-Hung Vu，Raoul deCharette，Emilie Wirbel和PatrickP´erez。xmuda：用于3D语

下载后可阅读完整内容，剩余1页未读，立即下载