基于形状引导标签增强的弱监督三维目标检测

31 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8438回到现实：基于形状引导标签增强的弱监督三维目标检测徐秀伟1，2，王一凡1，俞铮1，2，饶永明1，2，周杰1，2，陆继文1，2*1清华大学自动化系2北京国家信息科学技术研究中心{xxw21，yifan-wa21，zhengyu19} @ mails.tsinghua.edu.cn; raoyongming95@gmail.com;{jzhou，lujiwen} @ tsinghua.edu.cn摘要布局信息椅子椅子椅子标签增强在本文中，我们提出了一种用于3D对象检测的弱监督方法，该方法可以训练具有位置级注释（即位置）的强3D检测器。对象中心的符号）。为了弥补从框注释到中心的信息损失，我们的方法，即回到现实（BR），利用合成3D弱注释真实场景表椅子形状存储库域适应全注释虚拟场景形状将弱标签转换为完全注释的虚拟场景作为更强的监督，并反过来利用完美的虚拟标签来补充和完善真实标签。具体来说，我们首先组装成物理上合理的虚拟场景的三维形状根据粗糙的场景布局提取的位置级注释。然后，我们通过应用虚拟到真实域自适应方法回到现实，该方法改进了弱标签，并且还用虚拟场景监督检测器的训练。此外，我们提出了一个更具挑战性的benckmark室内三维物体检测与更多样的对象大小更好的评价。在不到5%的标记劳动力的情况下，我们在广泛使用的ScanNet数据集上实现了与一些流行的全监督方法相当的检测性能代码可在：https://github.com/wyf-ACCEPT/BackToReality.1. 介绍三维物体检测是一个基本的场景理解问题，其目的是从三维场景的点云中检测出三维包围盒和语义标签。由于点云的不规则形式和3D场景中的复杂上下文，大多数现有的2D方法[31，32，50]不能直接应用于3D对象检测。幸运的是，随着点云深度学习技术的发展[27，28]，最近的作品[11，20，25，35，51]已经*通讯作者。图1. BR的演示。我们认为位置级标注作为场景的粗略布局，用于从3D形状库生成虚拟场景。通过对虚拟场景施加物理约束，弥补了从框标注到中心的信息丢失然后，提出了一种虚拟到真实虚线箭头表示监督培训。采用深度神经网络直接从点云中检测物体，取得了良好的性能。尽管基于深度学习的点云对象检测取得了成功，但需要大量标记的这极大地限制了这些方法的应用，因为即使是经验丰富的注释者，标记精确的3D框也需要超过100秒[36]。因此，使用廉价标签的3D物体检测方法对于实际应用是期望的。受此启发，弱监督3D对象检测方法受到越来越多的关注，根据注释的形式可以将其分为两类：scene-level [33]和position-level [21，22]，其中，对于每个对象检索，仅注释类标签以及对象中心和类。这两种类型的注释只需要不到1%和5%的时间为一个实例相比，标签的边界框，如表1所示。虽然场景级注释更节省时间，但检测器很难学习如何精确定位8439表1.根据不同类型的标注，给出了不同标注方法的标注时间和检测结果.基准在第4节中详细说明。(BBox是指框注释。S-L和P-L分别表示场景级和位置级注释。）注释BBox [20]S-L [33]P-L [21]P-L（BR）时间（s/对象）mAP@0.25（%）11054.21<20532.4547.0由于缺乏位置信息，因此性能远远不能令人满意[33]。考虑到时间精度的权衡，位置级注释是一个更实用的解决方案。然而，先前的位置级弱监督3D检测方法仍然需要许多精确标记的框，并且只能应对稀疏的室外场景[21，22]。对于复杂的室内检测任务，点位级弱监督方法仍在探索中。在本文中，我们提出了一种形状引导的标签增强方法，称为回到现实（BR）的弱监督3D对象检测1。为了减少人工成本，我们只标记每个物体在三维空间中的中心，并允许中心的标记误差2。在极大地减少标注工作量的同时，从框标注到中心的信息损失是不可忽略的。为了解决这些问题，BR将弱标签转换为包含大量丢失信息的虚拟场景，并反过来利用它们来额外监督真实场景训练，如图1所示。我们的方法基于两个动机：1）在3D视觉中，可以获得合成形状的大规模数据集。它们包含丰富的几何信息，可以作为强先验来辅助三维目标检测; 2）位置级注释不仅是用于训练的监督，而且它们还提供场景的粗略布局。因此，我们根据粗略的布局将3D形状组装成完全注释的虚拟场景，并对它们施加物理约束以弥补信息丢失。然后提出了一种虚实域自适应方法，将检测器提取的全局特征和目标建议特征在真实场景和虚拟场景之间进行匹配。此外，该方法还可以利用虚拟场景中精确的中心标记来校正位置级标注的中心误差。通过这种方式，将虚拟场景中包含的有用知识传递回现实。ScanNet [7]上的实验结果表明了所提出的BR方法的有效性。2. 相关工作3D形状到场景：因为它更容易获得比真实场景更大规模的合成3D形状数据集1标签增强（LE）是一种从逻辑标签中恢复标签分布的技术，如[46]中所定义。在这里，我们扩展LE的概念来表示恢复弱标签丢失信息的过程。2我们在3.1节中展示了详细的标记策略。数据集，利用形状来辅助场景理解是一个很有前途的想法。现有的方法可以分为两类：监督[2，3，6，40]和非超级-[8，19，24，30，42]。在监督方法中，通常使用合成形状来完成不完美的真实场景扫描。给定一组CAD模型和真实扫描，训练网络以预测如何将CAD模型放置在场景中并替换部分和有噪声的真实对象[2，3，6，40]。在训练过程中使用人工注释的原始扫描和对象对齐扫描对由于监督方法需要额外的人力，这可能限制3D形状数据集的充分利用无监督方法通常用于数据增强或数据集扩展。3D CAD模型按照基本物理约束以随机方式放置，以生成混合现实场景[8，42]或虚拟场景[19 ， 24] 。最近， RandomRooms [30] 提出使用ShapeNet数据集进行3D检测器的无监督预训练我们的方法还利用3D形状来辅助对象检测在一个unsupervised的方式。因此，我们的目标是利用合成形状来增强弱标记，并在位置级弱监督检测任务中获得更强的监督。3D物体检测：早期的3D物体检测方法主要包括基于模板的方法[16，18，23]和滑动窗口方法[37，38]。基于深度学习的点云3D检测方法开始出现，这要归功于PointNet/PointNet++ [27，28]。然而，[4，5，15，26]中的方法依赖于生成2D建议，然后将它们投影到3D空间中，这很难处理具有严重遮挡的场景。最近，已经提出了直接消耗点云的网络[11，20，25，35，51]。虽然三维目标检测方法发展迅速，但由于标注数据的有限性，其应用仍受到一定的限制。为了减少人工注释的劳动，弱监督方法[21，22，29，33]，半监督方法[41，49]和最近提出了无监督的预训练方法[12，30，45，47]然而，预训练方法依赖于巨大的计算资源来以对比学习的方式训练网络。半监督方法遵循与其2D对应物类似的程序[39]，并且不完全探索3D数据的特征。因此，我们研究了针对3D目标检测任务的弱监督方法。3. 方法图2展示了我们方法的框架。给定具有位置级注释的真实场景，我们使用3D形状将弱标签转换为虚拟场景，用于为检测器的训练提供额外的监督。在本节中，我们首先讨论弱监督设置，然后演示BR的关键步骤8440图2.我们的BR方法的框架。给定具有位置级注释的真实场景，我们首先增强弱标签以获得完全注释的虚拟场景。然后将真实场景和虚拟场景输入检测器，分别用弱监督和全监督检测损失进行训练。在训练过程中，我们使用虚拟场景中的精确对象中心来细化真实场景中的不精确中心利用强弱对抗域自适应方法来对齐两个域的特征分布。全局鉴别器输出针对每个场景的判断，并且提议鉴别器输出针对每个对象提议的判断。(Here GRL为梯度反转层;Dg和Dp分别代表全局和建议鉴别器。3.1. 职位级别注释由于在3D空间中选择一个点很难，我们将标记过程分为两个步骤：首先在场景的适当的2D视图中标记物体的中心，并根据2D视图的摄像机参数计算通过该中心和摄像机焦点的直线。其次，我们选择一个点上的线，以确定对象的中心在3D空间。该策略标记一个实例所需时间小于5 s，标记误差可控制在实例大小的10%以内。在对三维场景进行扫描时，在许多情况下我们可以获取网格数据。我们假设网格在我们的输入中是可用的然而，我们只有点云数据的情况下，也被认为是在我们的方法和实验。3.2. 形状引导标签增强虽然位置级标注所需的标注时间要少得多，但其信息损失严重，表现在两个方面：1）物体尺寸信息丢失;2）目标中心不精确。尽管如此，位置级注释可以提供场景的粗略布局。通过根据布局组装合成的3D形状，我们能够增强弱标签并生成精确注释的虚拟场景，其中大小是可用的并且中心是精确的。我们的标签增强方法是两步：1）首先，我们计算一些基本属性的3D形状; 2）然后我们放置这些形状生成物理上合理的虚拟场景的标签。我们在补充资料3中提供了一些实施细节。形状属性的定义：给定一个合成的3D形状，表示为O∈R N×3，我们假设它是3.我们用“”来表示确切的定义是补充性的。轴对齐并标准化为单位球面。O的长、宽和高定义为l、w和h。然后我们将形状的类别分为三类：支持者，支持者和支持者。支撑物和站立物是只能由地面支撑的物体，不同之处在于站立物不太可能支撑其他东西。其他类别是被拒绝者。然后，如果形状属于支持者，则计算三个属性：最小面积外接矩形（MER）、支撑面高度（SSH）和支撑面紧密度（CSS）。MER是在XY平面中计算的，XY平面是包围形状所有点的最小矩形。 SSH是其他物体可以站立的最高表面的高度.CSS是一个布尔值，指示支撑表面是否可以由MER近似。虚拟场景生成：我们利用三阶段方法来构建虚拟场景，这相当于逐阶段生成每个形状的位置：1)我们首先细化由位置级注释提供的粗略布局并生成初始位置; 2）通过恢复物体之间的支撑关系，生成重力感知位置; 3）生成碰撞感知位置，使虚拟场景具有物理合理性。流水线如图3所示。为了生成初始位置，我们需要从场景的几何信息中恢复更精确的布局给定网格格式的场景，我们首先使用基于法线的图切割方法[9，13]过度分割网格。结果是一个段图，其中节点表示段，边表示邻接关系。然后，对于面积大于Amin且高度大于Hmin的水平方向上的线段，我们迭代地合并它们的8441沙发椅书架书架键盘监测门键盘监测监测杯监测监测表表杯椅子沙发职位级别注释布局细化重力约束碰撞约束水平段（a）初始场景（b）重力感知场景（c）碰撞感知场景图3.三阶段虚拟场景生成方法的流程我们首先从网格数据中提取水平段，并使用它们来细化由位置级注释提供的粗略布局然后根据新的布局将合成的3D形状放置在虚拟场景中，在此基础上，对虚拟场景施加重力约束和碰撞约束，恢复物体之间失去的物理关系，使场景更加真实。如果水平段和相邻段之间的高度差小于Δh，则将相邻段插入到它们中。合并后，这些线段被视为一个整体，新合并线段的高度被设置为与原始水平线段相同。合并后，每个水平段由其MER表示。如果只有一个支持者当多个支撑点的中心落在同一MER内时，根据这些中心对水平段进行K均值聚类，分别计算每个支撑点的MER。然后将相应类别的3D形状放置在由位置级注释给出的中心上，并利用水平段来细化布局。形状的初始位置由字典表示，其键是实例索引，值是列表：[（x，y，z），（sx，sy，sz），O，θ，S，M，H]（1）其中实例索引是范围从1到场景中的对象的数目的整数。（x，y，z）表示中心坐标。（sx，sy，sz）表示三维尺度。θ是形状的旋转角度。S表示该形状是否为支持体。M和H表示载体的MER和SSH。当S为假时，它们被设置为None。如果形状被分配了一个水平段，我们使用该段的MER也就是说，我们选择CSS为True的支持者，并使该支持者的MER与水平段重叠。否则，我们进行随机初始化。如果只有点云数据可用，我们只需执行随机初始化，以下阶段是相同的。与地面对齐。之后，我们移动形状以获取碰撞感知位置。在这个阶段，位置字典中只有x和y首先，我们移动地面上的物体，如果有支撑的物体，它们将一起移动我们每一个人，都有自己的故事，没有自己的故事，没有自己的故事。注意，这三个生成阶段不仅可以使虚拟场景更加真实，而且可以削弱不精确的中心标签的影响因此，虚拟场景生成方法对标记错误是鲁棒的。最后，我们将碰撞感知位置转换为具有适当密度的点云。由于较大的表面更有可能被传感器捕获，因此我们使用（lsx）（wsy），（wsy）（hsz）和（lsx）（hsz）的最大值来近似形状的表面积。然后使用均匀采样将每个对象的点的数量设置为与它们的表面积成比例，最大的一个剩余N个点。3.3. Virtual2Real域适配虽然标签增强方法能够生成物理上合理的完全注释的虚拟场景，但它们与真实场景之间仍然存在巨大的域差距（例如，在虚拟场景中错过了像墙这样的背景因此，需要在完善的虚拟标注中挖掘有用的知识，弥补位置级标注的信息损失，而不是仅仅依赖于虚拟场景。我们将虚拟场景和真实场景分别称为源域和目标域。利用虚拟到真实对抗域自适应方法来解决上述问题，其总体目标是：接下来我们遍历初始位置以产生重力-max minJ=Lsup（O）−Ladv（O，D）（二）意识的立场。在这个过程中我们只需要改变z和SSH在位置字典中。对于支持者和站立者，我们直接将其底部与地面对齐（即，XY平面）。对于一个被测物体，如果它的（x，y）落在任何支持者否则D O=（L1+L2+L3）−（L4+L5）其中，O指的是对象检测网络（检测器），D表示用于对抗特征对齐的鉴别器。Lsup旨在最小化预测边界框和注释之间的差异，8442ΣΣΣ.我抖动雷芬源域共享功能（源）功能（目标）中心（源）抖动中心（源）中心（目标）目标（Target）目标域图4.演示我们的中心细化方法。我们首先在源域中抖动中心标签，并利用PointNet类模块从抖动中心的局部图预测中心偏移该模块可以直接用于预测目标领域的中心误差，因为来自两个领域的全局语义特征已经对齐。其可以进一步分为中心细化模块（L1）、源域上的全监督检测丢失（ L2 ）和目标域上的弱监督检测丢失（ L3）。 Ladv的目标是对齐来自源域和目标域的特征，其目的是利用从源域学习的知识来辅助目标域中的对象检测。Ladv可分为全局特征对齐损失（L4）和建议特征对齐损失（L5）.下面我们将详细解释这些损失函数和我们的网络。首先，我们详细介绍了Lsup（O）。如图2所示，我们将检测器分为三个模块：从场景中提取全局语义特征的主干、从语义特征生成对象提议的检测模块、以及从每个对象提议特征预测语义标签和边界框的预测头。在训练过程中，我们共同细化目标域中不精确的中心标签，并监督检测器的预测。如图4所示，我们通过在对象的10%范围内添加噪声来抖动源域中的中心标签L2的简单版本，它忽略了对盒子大小的监督有关L3的更多详情，请参阅补充资料。其次分析了Ladv（O，D）。我们以对抗的方式进行特征对齐：所述鉴别器预测所述特征属于哪个域，并且所述检测器旨在生成难以区分的特征。梯度的符号由梯度反转层翻转[10]。当虚拟场景和真实场景被处理时，同样的网络，我们希望L3帮助网络学习如何在真实场景中定位每个对象，L2补偿中心和大小的信息损失。然而，由于领域间隙，L2将引入虚拟场景的领域特定知识，这削弱了L3的影响。此外，中心细化模块仅在源域上训练，这可能在目标域上表现不佳。因此，我们将全局语义特征和对象建议特征分别与L4和L5相匹配.受[34]的启发，这些特征在不同阶段与不同强度对齐对于全局语义特征，我们使用PointNet来预测域标签。焦损失[17，34]用于应用弱对齐：BL4=−（1 −pi）γlog（pi），γ >1（4）i=1其中，B是批量大小，p i是指在相应域上的全局预测的概率。具有高p值的特征很容易判断，这意味着它们是特定于域的特征，强制对它们进行入侵可能会损害性能。所以用小重量来减少它们对训练的影响。对于对象提议特征，它们将被直接用于预测边界框的属性。由于属性是域不变的，并且具有真实的物理意义，因此我们使用对象加权L2损失来强烈对齐这一大小以模仿目标域中的标记错误。然后BN对于每个抖动中心，我们从全局语义特征中查询其在3D欧氏空间中的k个最近邻居以构建局部图，并通过PointNet类模块预测中心偏移L5=sij（1−pij）2（5）i=1j =1其中，B是批量大小，N是提案数，sij表示对象性标签，pij是p（c）=MLP2 max∈N（c）{MLP1[fi;ci−c]}{\displaystyle {\mathbb {f i}在相应的域上的预测。我们详细介绍了中心精化的体系结构其中，p表示类PointNet模块，c表示抖动中心标签，N（c）是c的k个最近邻居的索引集，fi是全局语义特征，其坐标是ci，并且max是指通道最大池化。Weset L1 as the mean square error between地面实况中心偏移和p（c）。然后对于全监督训练，检测损失L2与原始方法中使用的损失相同。对于弱监督训练，我们利用p来预测目标域中的中心误差，并获得精细的中心标签。我们将L3设置为模块和鉴别器。4. 实验在本节中，我们进行实验，以显示我们的BR方法的有效性。我们首先描述数据集和实验设置。然后，我们评估生成的虚拟场景，并提出我们的方法的检测结果。我们还设计了实验来展示我们的虚拟场景生成方法的鲁棒性和演示我们的方法的实用性最后，我们设计雷芬8443表2. ScanNet的训练集和验证集中每类对象的数量，以及真实场景和虚拟场景中每类对象的平均点数。财产洗澡-浴缸床板凳书-架瓶椅子杯Cur-tain书桌门梳妆台钥匙-板灯笔记本监测晚上-站植物沙发凳子表厕所病房-长袍#火车对象编号113308587862344357132408551202817419337686574190293406315152620198#验证318121234411368349512746743538325191345097514075819#real点编号2941390510152679101726662919152511101274742721733707007922718525128214452762#虚拟689186834097625816221359154955004604827034806093439391088124972501391542137166105表3. ScanNet验证集上不同弱监督方法的类特异性检测结果（mAP@0.25）。(FSB是完全受监督的基线。†表示该方法需要小比例的边界框来细化预测。其他方法仅使用位置级注释作为监督。我们以粗体显示最好成绩，亚军则用下划线标出。）设置浴缸床板凳bsf。机器人椅子杯限功率书桌门衣服钥匙灯lapt. monit. N.S. 植物沙发凳子表辛苦病房 mAP@0.25VoteNet俄罗斯联邦安全局[25]66.8 86.2 24.4 55.6 0.0 88.3 0.0 48.5 62.8 45.8 24.10.147.2 5.262.1 73.2 13.4 88.7 35.1 62.6 94.67.845.1WSB21.9 46.90.32.3 0.0 53.7 0.0 0.9 32.1 1.06.60.10.20.11.853.6 0.1 57.0 4.66.4 19.70.014.1[21]第二十一话22.0 58.5 10.35.8 0.0 60.4 0.0 4.1 26.7 3.21.60.014.0 0.618.6 46.3 0.4 32.7 11.8 23.5 65.00.018.4WSBPP43.2 58.02.416.1 0.0 75.1 0.7 7.9 54.2 6.47.12.335.2 18.4 12.8 64.0 4.4 68.5 20.2 22.0 71.65.227.1WSBPM45.0 49.65.518.5 0.0 62.7 2.9 11.4 49.6 6.92.51.030.0 7.621.4 64.8 7.3 79.6 23.1 35.2 80.92.227.6BRP（Ours）51.2 73.0 16.4 27.1 0.1 70.3 0.0 8.3 44.5 7.3 16.01.540.2 7.742.1 50.8 7.4 67.1 10.7 39.0 88.4 18.131.2BRM（Ours）57.1 80.4 14.3 31.7 0.0 77.4 0.0 13.2 49.7 11.3 14.81.043.5 6.056.5 65.0 10.6 80.2 26.9 44.2 91.46.535.5GroupFree3D俄罗斯联邦安全局[20]86.2 87.5 16.3 49.6 0.6 92.5 0.0 70.9 78.5 53.5 56.06.468.2 11.5 81.5 88.5 15.2 88.2 45.6 65.0 99.7 31.254.2WSB75.0 75.74.317.2 0.0 81.4 0.0 3.5 34.0 4.73.22.146.6 3.345.8 52.8 8.3 71.0 15.7 18.1 90.80.729.7[21]第二十一话71.9 78.30.920.2 0.8 79.2 1.0 2.9 47.6 7.7 10.6 19.2 41.6 13.5 65.6 41.2 0.8 74.6 17.7 26.3 88.91.732.4WSBPP71.9 77.17.725.2 3.0 80.6 0.4 3.2 50.1 10.5 36.3 17.0 52.9 30.3 59.9 63.8 9.6 78.2 28.4 25.3 93.3 14.438.2WSBPM81.8 82.60.035.0 0.0 77.5 0.4 27.1 38.4 7.6 22.39.744.3 24.4 65.4 76.5 5.5 62.4 34.7 28.7 99.75.437.7BRP（Ours）72.3 73.5 45.8 27.7 0.0 77.2 8.2 30.8 35.0 17.8 51.70.364.2 25.0 63.5 66.6 23.8 86.7 33.9 37.6 98.35.243.0BRM（Ours）85.3 90.98.834.3 1.9 80.0 7.7 24.7 58.0 20.8 45.4 31.3 64.4 25.8 67.5 76.7 27.3 91.4 43.3 46.7 94.88.347.1几个烧蚀研究，以验证我们的场景生成和域适应方法。4.1. 实验设置数据集：我们选择ModelNet40 [43]作为合成3D形状的数据集。ModelNet40包含来自40个类别的12，311个合成CAD模型，分为9，843个用于训练，2，468个用于测试。我们在ScanNet [7]数据集上进行实验。ScanNet是一个带有丰富注释的室内场景数据集，包含1201个训练场景和312个验证场景。对于场景中出现的每个对象，ScanNet在Mod-elNet 40中正式提供了相应的类因此，我们选择了22个类别的ModelNet40，其中有超过50个对象在ScanNet的训练集和20个在验证集，并报告检测性能。由于ScanNet不提供人工标记的边界框，因此我们预测轴对齐的边界框并在验证集上评估预测，如[20，25，44，48]所示。我们将此基准命名为ScanNet-md 40。与18个类别的设置相比，以前的作品[20，25，44]，我们的ScanNet-md 40基准更具挑战性。除了大对象的类别（例如，桌子和浴缸），我们还旨在检测相对较小的物体，如笔记本电脑，键盘和显示器。因此，我们的基准可以更好地评估两个de-tectors和弱监督学习方法。比较方法：为了说明我们的BR方法的效果，选择流行的VoteNet [25]和最先进的 GroupFree3D [20]作为我们的检测器。我们8444将BR与以下设置进行比较：1）FSB：完全监督基线，其用作弱监督方法的上界; 2）WSB：弱监督基线，其仅通过使用L 3在真实场景上训练检测器;3）WS 3D：在[ 21 ]中提出的另一种位置级弱监督方法，其利用许多精确注释的边界框; 4）WSBP：在虚拟场景上预训练的WSB。For settings whichrequire the virtual scenes, we conduct experiments ontwo versions of virtual scenes (from points/meshes),which are distinguished by subscripts M and Prespectively.实现细节：我们设置N = 10000，A min=0。1m2，Hmin=0. 1m，Δh=0。0 2m，k=16，γ= 3.在训练过程中，由于真实场景更加复杂，L3的收敛速度比L2慢得多. 因此我们将L2乘以0. 1，以减慢虚拟场景上的训练并稳定特征对齐的过程。为了更好地训练我们的中心细化模块，全局语义特征不应该快速变化因此，我们首先在没有L1的情况下训练BR直到收敛，然后使用整个损失函数来微调网络。对于GroupFree3D有几个解码器，每个解码器输出一个阶段的建议功能，我们只进行最后一个阶段的功能对齐。与以前的作品不同[20，25]，在我们的设置中，我们需要检测小物体，如瓶子，杯子和键盘。由于网络很难提取这些对象的高质量特征，我们利用增强策略来缓解这个问题，这类似于[14]。8445(a) 真实场景（b）关心的对象（c）网格版本的虚拟场景（d）点版本虚拟场景图5.我们的虚拟场景生成的定性可视化结果。在（b）、（c）和（d）中，相同的颜色表示相同的对象。灰点是地板、墙壁和我们不关心的物体可以看出，虚拟场景保留了粗糙的场景上下文和对象之间的支持关系详情请参阅补充资料。4.2. 结果和分析虚拟场景评测：我们首先通过计算真实场景和虚拟场景中每类对象的平均点数来评估生成的虚拟场景的统计性。由于输入点云在馈送到网络之前被下采样到给定数量，因此我们只关心每个类别中对象的平均点数的比率，因为这些数量可以通过下采样尺度来我们在表2中展示了结果。结果表明，虚拟场景中的比例与真实场景中的比例基本一致，说明虚拟场景的统计是合理的。在图5中，我们还展示了定性可视化来演示我们的场景生成方法。利用网格信息生成的虚拟场景称为网格化虚拟场景。否则，它们被称为点版本虚拟场景。结果表明，网格版本的虚拟场景可以在很大程度上保持真实场景的布局，和点版本的成功地结合在一个有意义的方式的个人的三维形状。3D物体检测结果：如表3所示，仅使用位置级注释时，WSB会大幅降低检测精度（mAP@0.25）与FSB相比这WS3D使用了一些框注释，并获得了更好的性能。然而，由于WS3D是专门为室外3D目标检测而设计的，因此在处理复杂的室内场景时仍然远远不能令人满意。通过在虚拟场景上进行预训练，WSBP比WSB提高了8%以上。这表明在源域中学习的预测精确边界框的能力已成功转移到目标域。我们的域自适应方法进行更好的转移环，提高了WSB到一个更高的水平。以上结果表明，BR中的每一步都是必要的：虚拟场景有助于提高检测性能，而领域自适应方法可以进一步挖掘虚拟场景的潜力有趣的是，随着虚拟场景变得更加逼真（从点版本到网格版本），BR的性能提高了很多，而WSBP的变化很小，这表明布局在预训练中可能没有域适应那么重要。在特定类别的结果方面，在某些类别上，BRM（用于GroupFree3D）的mAP@0.25甚至是所有方法（包括FSB）中最高的。然而，所有方法都不能精确地检测杯子和瓶子，8446表4.在ScanNet上中心标记的不同错误率下BR的检测结果（mAP@0.25）我们采用GroupFree3D作为检测器，并利用网格版本的虚拟场景BR。错误率显示当前的3D探测器在小物体检测方面仍然面临巨大挑战。更多检测结果（mAP@0.5）见补充资料。标签错误的稳健性：在我们的标记策略中，中心误差在10%以内，我们定义为误差率，对象的大小。为了显示我们的方法的鲁棒性，我们通过根据盒子大小随机抖动中心来逐渐将该比率从10%增加到50%，并以mAP@0.25报告WSB和BR M（对于GroupFree3D）的检测结果。如表4所示，随着错误率的增加，BR的性能下降比WSB慢。即使错误率为50%，这允许我们以更节省时间的策略标记中心，BR仍然可以获得令人满意的结果（就mAP@0.25而言高于0.41）。4.3. 消融研究我们进一步设计消融实验来研究每个场景生成步骤和每个域适应损失对我们的BR方法性能的影响。在本节中，我们采用VoteNet作为检测器，并使用点版本的虚拟场景来实现通用性.在表5中，我们说明了在我们的虚拟场景生成流水线中，物理约束和密度控制是有效的。随着虚拟场景变得越来越逼真，我们的BR方法的性能也越来越好。如表6所示，我们显示了每个域自适应模块和中心细化模块的效果可以看出，与全局对齐或对象建议对齐，检测性能可以分别提高3.5%和2.2%。通过结合两种特征对齐，我们实现了更高的检测精度。应用中心细化法后，性能进一步提高了1.0%.4.4. 限制由于Model-Net 40中的类别数量有限，我们选择性地评估了BR在22个类别上的性能然而，由于用户生成的3D形状的在线存储库（如3D Warehouse存储库[1]）包含几乎任何类别的3D形状，因此BR可以很容易地一旦这些在线合成形状被组织成标准数据集，就可以轻松扩展到更多类的3D对象检测。因此，理想情况下，我们可以利用一个更大的同步-表5.在ScanNet上的不同生成阶段的虚拟场景的BR检测结果（mAP@0.25）这里的检测器是VoteNet，虚拟场景是点版本。重力约束碰撞约束密度控制mAP@0.2526.3C27.2CC28.5CCC31.2表6.在ScanNet上使用不同的域适配模块对BR的检测结果（mAP@0.25）。这里的检测器是VoteNet，虚拟场景是点版本。全球对准提案对准中心细化mAP@0.2524.2C28.7C27.4CC30.2CCC31.2thetic 3D形状数据集，涵盖了室内场景中可能出现的所有对象。该数据集可以促进更多的研究与合成形状的三维场景理解，这是我们留给未来的工作。5. 结论在本文中，我们提出了一种新的标签增强的方法，即回到现实（BR），3D对象检测训练只使用对象中心和类标签作为监督。为了充分利用位置级注释中包含的信息，我们将其视为场景的粗略布局，用于将3D形状装配成完全注释的虚拟场景。我们对生成的虚拟场景施加物理约束，以确保对象之间的关系是合理的。为了利用虚拟场景来弥补从框标注到中心的信息丢失，提出了一种虚实域自适应方法，将从虚拟场景中学习到的有用知识转移到真实场景的三维目标检测中。在ScanNet数据集上的实验结果表明了该方法的有效性。确认这项工作得到了中国国家自然科学基金62125603和U1813218基金的部分支持，以及北京人工智能研究院（BAAI）的部分资助。方法百分之十百分之二十百分之三十百分之四十百分之五十WSB29.726.825.022.319.78447引用[1] Trimble3D仓库[EB/OL]。http：3dwarehouse.sketchup.com/。8[2] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad：学习rgb-d扫描中的cad模型对齐。在CVPR中，第2614-2623页，2019年。2[3] Armen Avetisyan，Angela Dai，and Matthias Nießner.三维扫描中端到端cad模型检索和9dof对齐在ICCV，第2551-2560页，2019年。2[4] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测在CVPR中，第21472[5] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，第1907-1915页，2017年。2[6] Manuel Dahnert，Angela Dai，Leonidas J Guibas，andMatthias Niessner.三维扫描与cad观测的联合嵌入。在ICCV，第8749-8758页，2019年。2[7] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在CVPR中，第5828- 5839页，2017年。二、六[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，第2758-2766页2[9] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。IJCV，59（2）：167- 181，2004. 3[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在ICML，第11805[11] Ji Hou ， Angela Dai ， and Matthias Nießner.3D-SIS ：RGB-D扫描的3D在CVPR中，第4421-4430页，2019年。一、二[12] Ji Hou ， Benjamin Graham ， Matthias Nießner ， andSaining Xie.利用对比场景环境探索数据有效的3d场景理解。在CVPR中，第15587-15597页，2021年。2[13] Andrej Karpathy，Stephen Miller，and Li Fei-Fei.通过形状分析在3d场景中发现目标。ICRA，第2088-2095页，2013年。3[14] Mate Kisantal 、 Zbigniew Wojna 、 Jakub Murawski 、Jacek Naruniec和Kyunhyun Cho。用于小物体检测的增强。arXiv预印本arXiv：1902.07296，2019。6[15] Jean Lahoud和Bernard Ghanem。RGB-D图像中的2D驱动的3D对象检测。在ICCV，第4622-4630页，2017年。2[16] Yangyan Li ， Angela Dai ， Leonidas Guibas ， andMatthias Nießner.实时三维重建的数据库辅助对象检索。在CGF，第34卷，第435-446页，2015中。2[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在ICCV，第2980-2988页5[18] 或Litany，Tal Remez，Daniel Freedman，Lior Shapira，Alex Bronstein 和 Ran Gal 。自动语义不变场景变换 .CVIU，157：284-299，2017。2[19] 刘兴宇，Charles R. Qi和Leonidas J. Guibas Flownet3d：学习3D点云

下载后可阅读完整内容，剩余1页未读，立即下载