基于RGB-D扫描的室内场景图像自动标注方法及其在Scan-Net和ARKitScenes数据集上的效果

138 浏览量更新于2023-10-16 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3156ARKit场景RGB-D扫描（我们的）2D重投影（我们的）基于RGB-D扫描的CAD模型室内图像自动标注Stefan Ainetter（1），Sinisa Stekovic（1），Friedrich Fraundorfer（1），Vincent Lepetit（2，1）（1）奥地利格拉茨格拉茨科技大学计算机图形与视觉研究所（2）LIGM，E'cole des Ponts，Uni v Gustav e Eif fel，CNRS，Marne-la-Valle' e，France{stefan.ainetter，sinisa.stekovic，fraundorfer}@ icg.tugraz.at，vincent. enpc.fr摘要本文提出了一种基于RGB-D扫描的室内场景图像自动标注方法。通过3D专家的视觉评估，我们表明我们的方法检索的注释至少与手动注释一样准确，因此可以用作地面实况，而无需手动注释3D数据。我们使用合成分析方法来实现这一点，该方法将CAD模型的渲染与捕获的场景进行我们介绍了一个这使我们能够获得Scan-Net数据集和最近的ARKitScenes数据集的完整注释我们将公开发布这些注释，因为我们相信它们对计算机视觉社区非常有用。1. 介绍三维场景理解是计算机视觉中最具挑战性的问题之一。对于室内场景，已经有几个数据集可用，包括SceneNN [12] ， ScanNet [7] ， Matterport3D [4] 和ARKitScenes [3] 。然而，除了 ScanNet 之外，由于Scan2CAD数据集[1]，一些对象被注释，它们不提供对象形状的注释。这是因为形状的3D手动注释创建起来特别麻烦，因为必须联合估计良好的6D姿态并为每个对象检索非常合适的CAD模型。Pix3D数据集[20]也使用CAD模型进行注释。然而，它是由单对象图像组成的使用合成图像进行训练是另一种选择，但是生成逼真的虚拟3D场景在创建和渲染方面也具有很高的财务成本[19]。此外，测试仍应在真实图像上进行。ScanNet RGB扫描Scan2CAD注释（我们的）图1：给定场景的RGB-D视频序列和3D定向边界框或3D语义实例分割，我们的方法从ShapeNet中检索适合对象的CAD模型。左图：Scan 2CAD不提供所有对象的CAD模型;红色的CAD右图：我们的克隆过程为共享公共形状的对象检索相同的CAD模型，例如本例中的椅子。右下角：我们检索的CAD模型和姿态在图像中很好地再现，因此可以用于训练和测试快速推理方法，例如从单个图像预测对象几何形状的方法。3157标签在本文中，我们报告了我们的工作，如何自动检索良好的CAD模型的物体在一个场景中捕获的移动RGB-D相机。图1显示了我们从ScanNet和ARKitScenes中检索的一个场景的CAD模型。计算机视觉领域的专家进行的视觉评估表明，我们的CAD模型通常与人一样好，甚至更好。数据集扫描3D GTCAD模型对齐Scan2CAD中的手动注释，而它们是自动获得的。因此，我们将我们的方法视为自动生成注释的工具，然后可以用于训练监督方法以进行快速推理。平均而言，我们的非优化实现大约需要11。00使用两个NVIDIA GeForce RTX 2080Ti图形卡，相比之下，Scan2CAD人类注释，需要20。每幕52分钟[1]，同时完全自动化。我们的方法不基于学习，因此不需要注册3D模型进行训练。相反，我们使用面向3D的边界框或对象的实例分割作为输入：这些注释比CAD模型拟合简单得多，实际上它们可用于主要的现有数据集，如表1所示。因为我们还调整了边界框，所以这些框不必特别精确。为了找到合适的 CAD 模型，我们依次用ShapeNet数据库中的一个3D模型替换目标对象通过遵循综合分析方法，我们通过将深度渲染与捕获的深度图进行比较，同时调整CAD模型的9D姿态和比例，来选择最佳CAD模型如图1所示，通过依赖深度数据来选择和配准CAD模型，我们检索的CAD模型不仅在3D中定位良好，而且在RGB-D扫描的图像中重新投影良好。在人造环境中，经常会发生多个对象具有相同形状的情况，例如图1中ARKitScenes示例中桌子周围的椅子。然而，独立地搜索这些多个实例的CAD模型可能会产生不同的3D模型。利用高层次的知识，几个对象往往具有相同的形状，我们聚类的CAD模型检索后，一个独立的搜索基于其形状的相似性。然后，我们执行联合检索，为集群中的所有对象寻找相同的CAD模型。通过这种方式，我们可以从深度图中获取更多信息，以检索更好的CAD模型：例如，如果我们发现两把椅子具有相同的形状，但第一把椅子的顶部和第二把椅子的底部在RGB-D扫描中不可见，我们仍然可以为这两把椅子恢复正确的CAD模型。我们没有找到任何以前的方法，试图解决同样的问题，因为我们。请注意，[1]中的Scan2CAD方法（不要与Scan2CAD注释混淆）确实为ScanNet检索CAD模型，但表1：最受欢迎的真实RGB-D室内场景理解的数据集。“OBB”和“Inst.Seg.”指示3D定向边界框或3D对象实例分割分别可用作基础事实。没有一个数据集直接为CAD模型提供完整的地面实况，除了ScanNet，这要归功于Scan2CAD数据集。（*）但请注意，Scan2CAD数据集仅为约三分之二的对象提供CAD模型。从一个非常小的池创建的基准提出的方法：池的大小取为等于场景中对象的数量，即，从ShapeNet数据集中选择5到30个CAD模型。它还旨在包含地面实况模型。[1]示出了具有更多CAD模型（400）的实验，然而，其仅是定性结果。相比之下，我们在整个CAD模型集中搜索目标对象类。例如，我们考虑ShapeNet中的8437 CAD Tables模型和据我们所知，我们的方法是第一个实现地面实况的CAD模型检索和对齐。总的来说，我们做出了以下贡献：1. 我们介绍了一种全自动的方法，CAD模型检索和对齐，结果在图像和重新投影的CAD模型之间的精细对齐。2. 我们将展示如何识别共享相同几何形状的对象，并检索这些对象的公共CAD模型，我们称之为“克隆”的过程3. 我们表明，我们的结果的质量是可比的或优于人类注释。4. 由于不需要监督，因此我们的方法可以直接用于各种数据集以进行室内场景理解，我们通过使用两个流行的数据集，即ScanNet [7]和ARKitScenes[3]来展示这一点。5. 我们的方法可以被看作是一种工具，自动标注的图像与CAD模型和构成的ob-turbine在图像中，我们将使我们的注释的ScanNet场景和ARKitScenes公开。SceneNN [12]100OBB，仪器段✗ScanNet [7]1513Inst.Seg.Scan2CAD [1]（*）Matterport3D [4]2056Inst.Seg.✗ARKitScenes5047OBB✗3158图2：我们的方法概述。我们使用室内场景的RGB-D扫描以及3D框注释或3D对象实例分割作为输入，从ShapeNet中准确检索和对齐CAD模型。我们还为具有相同形状的对象检索相同的CAD模型：具有相同颜色的3D模型渲染对应于相同的CAD模型。2. 相关工作重点讨论了三维扫描中CAD模型的检索方法2.1. 使用对象表示CAD模型检索的一种流行方法是用嵌入来表示对象更确切地说，可以学习对象的点云的表示，以及相同嵌入空间中的CAD模型的表示[1，2，6，8，10]。这种方法允许快速检索：嵌入空间可以被学习，以便它可以被有效的方法使用，例如用于最近邻搜索的散列。然而，需要注释数据来学习嵌入。在我们的例子中，我们对离线方法感兴趣;因此，计算时间并不重要，而准确度则重要得多。因此，我们考虑一个详尽的搜索和几何标准，以评估有多少CAD模型对应于3D扫描。这是一种比依赖于隐式嵌入之间的相似性更安全的方法。2.2. [半]手动检索已经有一些数据集用于评估CAD模型检索的深度Pix3D [20]的作者抓取网络图像，从宜家物品目录中找到物品的图像，这些物品后来被亚马逊土耳其机械工人验证为了简化3D注释过程，他们也只保留图像而不进行遮挡。然后，人类注释者将手动选择每个输入图像与针对该图像手动选择的3D模型之间的关键点对应关系使用PSNR和细化，然后可以确定6D对象姿态。类似地，为了创建Scan2CAD数据集[1]，要求人类注释者每个对象首先在边界框内的ShapeNet数据集[5]中找到对象的对应模型，然后单击3D模型和点云之间的对应关系以获得对齐。然而，手动标注3D扫描是一个沉重的负担：并非所有对象都在 Scan2CAD 中注释，ARKitScenes尚未使用CAD模型注释。因此，我们相信我们的方法非常有用，并且可以更好地扩展到大型数据集。使用合成图像进行训练也是一个有吸引力的选择，因为3D注释是免费的。然而，创建3D内容并渲染它也具有高成本。例如，[19]报告了创建Hyper- sim的成本为57 K美元，Hyper- sim是一个用于场景创建+图像渲染的约71，000个合成图像的数据集2.3. 综合分析法综合分析在计算机视觉中不是一个新概念[21，14，11，13]。一些方法将综合分析与学习结合起来[16，17]，但其他方法，比如我们，没有[9，22，10]。特别是最近的[10]可能是最接近我们的工作。然而，[10]侧重于检索解释点云整体的对象排列，而不是准确性。在我们的例子中，我们利用现有的3D边界框注释，因为我们的目标是提供准确的注释。我们对CAD模型进行了详尽的搜索，而[10]依赖于嵌入。我们还提供了我们检索到的注释。3. 方法对于每个场景，我们有一个RGB-D扫描的N个注册的RGB图像和深度图，以及从扫描重建的3D网格。我们的目标是在ShapeNet数据集中为场景中的每个对象找到最相似的CAD模型，以及相应的姿势作为3159不不VCADSNSMSMSHNTSNStmMCADMSH1SCAD19-自由度变换Ti，由3D平移、3D旋转和沿3个轴的缩放组成。我们只考虑具有对象框注释或语义实例分割的目标对象可用作监督。注意，与CAD模型检索注释相比，这种监督相对容易生成（并且通常已经可用作公共3D室内场景数据集中的地面实况，如表1所示），CAD模型检索注释需要注释者手动搜索合适所有盒子“背景”场景使用插入的CAD模型从大型数据库中提取CAD模型。我们的方法的概述如图2所示。它首先执行CAD模型检索，通过顺序地替换目标对象在场景中的所有可用的CAD模型从同一对象类别。在替换对象之后，我们渲染修改的场景以生成与所选CAD模型相对应的观察结果。通过对所有CAD模型执行此操作，我们将根据观察结果彻底搜索感知上在为每个目标对象找到初始CAD模型之后，我们的方法专注于为场景中的几何相似的目标对象检索几何最后，我们执行可微对象对齐以优化每个CAD模型的9-DoF姿态，同时考虑到用于识别感知对象检索的前k个检索。我们在下面详细描述了CAD模型检索管道的每个组件。3.1. 数据预处理我们使用3D面向对象框作为初始化的位置，规模和方向的目标对象，而3D语义实例分割被用作几何信息，以取代目标对象在场景中的CAD模型。我们使用数据集提供的3D边界框信息或实例分割，这使我们能够计算其他缺失部分的近似值我们参考补充材料，详细描述我们如何从定向边界框推断3D实例分割，反之亦然。我们从RGB-D扫描的所有帧中选择NT个帧，方法是根据目标对象的3D边界框选择目标对象在视场中的帧，然后进行正则化。对这些帧进行采样。我们还使用从每个目标对象提供的类标签来标识对应的图3：通过删除属于真实对象的3D点并插入一个可能的CAD模型来替换对象。然后，修改后的场景用于生成用于我们的目标函数的观测。边界框来计算初始变换，该初始变换使我们能够在目标对象oi的位置处直接插入CAD模型mi。我们的方法遵循综合分析的方法来评估CAD模型与真实对象的对应程度。这种方法对于获得重新投影的CAD模型与输入图像的精细对准是重要的为了定量地测量CAD模型与真实对象的拟合程度，我们引入了一个简单的目标函数，该目标函数主要比较观察到的深度数据和CAD模型的深度。该目标函数不需要任何训练，因此不需要任何注释。3.2.1深度匹配项Ldpt我们的目标函数的主要条款比较的深度图的CAD模型和3D场景网格后，与观察到的深度图。我们注意到，使用ScanNet，可以通过渲染网格生成比捕获深度图更好的场景深度图，如图4所示对于ARKitScenes，当前可用的场景网格非常嘈杂，通常最好考虑捕获的深度图而不是渲染的网格。因此，我们使用两种可能比较的线性组合：Ldpt=1μm。λm|M t·（D−D）|+的不（一）ShapeNet类别。λst t|M·(D− D）|Σ3.2. 初始CAD模型检索其中，和除以NTRGB的选定帧我们顺序地替换输入D扫描中的目标对象深度图Dt，每个ShapeNet CAD模型的场景，不MSH Dt分别是渲染的深度图sponding类category类。图3说明了该替换过程：我们使用3D语义实例段-从替换后的CAD模型和3D场景网格，从场景网格渲染的深度图，以及移除场景中所有3D点的操作，这些点是帧t的捕获的深度图。Mt和Mt表示目标对象i.然后，我们使用初始3D比例，po-深度图DtDt，分别-从3D定向对象中提取位置和方向。我们使用L1范数来比较深度图，CAD模型库目标对象不VDtsSNS3160M简体中文SCADSNSMSHCADLLLLMSHCADMSHCAD传感器深度Dsns深度图Dmsh深度图Dcad从场景网格从场景网格更换后的CAD模型MaskSmsh MaskS从场景网格从CAD模型图4：我们的目标函数中使用的不同深度图（上）和遮罩（下）的示例。参见第3.2.1和3.2.2节。通过有效像素的数量Vt和Vt来归一化范数。权重λm和λs可以根据所捕获的深度图和3D网格的质量来适应数据集从实物上的点到CAD模型：=1minpq，（3）|P|p∈Pq∈Q其中，P是如使用3.1节中解释的边界框和/或分割识别的真实对象的点云，Q是在CAD模型上采样的一组3D点。3.2.3目标函数我们的目标函数可以定义为：L=Ldpt+λSilLSil+λCDLCD，（4）其中λSil和λCD是权重。我们为ShapeNet中与当前目标对象的类标签匹配的每个CAD模型3.3. CAD模型克隆给定一个3D场景（如图5所示的ScanNet场景），注释人员将识别出场景中的几个对象共享相同的几何结构。然而，这种行为并不能保证我们的每对象预测Dt的例子不MSH Dt如图所示，用于CAD模型检索。为了解决这个问题，我们添加了一个SIM卡-图4.渲染深度图Dt对每个目标对象计算一次，而Dt必须针对所考虑的每个CAD模型计算。然而，这可以通过渲染“背景”场景一次，然后独立渲染每个CAD模型并融合结果来有效地完成3.2.2附加条款LSil和LCD在我们的实验中，我们注意到在某些特定情况下，上面介绍的术语dpt例如，当帧的选择不覆盖整个目标对象时，下面引入的术语CD被证明是决定性的，而术语Sil提供关于去中心化的强信息。物体形状的尾巴对于Sil，我们考虑真实对象和CAD模型的轮廓之间的交集：1Σ不，S简单而有效的方法来识别共享其形状的对象，并为所有识别的对象检索适当的CAD模型我们首先通过第3.2节中描述的方法对每个对象独立检索的CAD模型进行聚类我们使用基于CAD模型之间的成对倒角距离的自更准确地说，对于检索到的每一对CAD模型，我们首先计算它们的对称倒角距离。然后，我们从最低到最高的Chamfer距离迭代遍历所有对象对，如果它们的Chamfer距离低于阈值τ（我们使用τ=3。10- 3在实践中）：（a）如果两个对象都不是集群的一部分，则新的创建了包含这两个对象的集群。(b)如果其中一个对象已经是群集的一部分，而另一个对象尚未分配给群集，则会将其添加到同一群集。（c）如果两个对象已经被分配到不同的集群，则这些集群被合并。然后，对于具有多于一个对象的每个聚类，我们寻找一个公共的CAD模型，该模型使来自等式2的目标函数L的（4）在所有的物体上，LSil=N（1−IoU（St不不CAD）），（2）当用CAD模型替换每个对象图5显示了我们的CAD模型集群的一个示例克隆。其中，St和St是3.4. 可微姿态优化真实对象和可能的CAD模型，分别用于弗雷姆湖St的例子St如图4所示。一旦我们找到了一个物体的CAD模型，此外，我们使用（单向）倒角距离克隆过程如上所述，我们细化其9自由度得双曲余切值.MSH3161L图5：CAD模型克隆。我们首先为每个对象独立地寻找CAD模型。然后，我们聚类的CAD模型的形状相似性的基础上。具有多个CAD模型的簇表示共享相同形状的对象。然后，我们分配给所有的对象在clus- ter的CAD模型，最大限度地减少所有对象的目标函数的总和。姿态T，即，它的规模，位置和方向，以适应深度观测更好。我们使用3D边界框初始化其姿势，该边界框是数据集的一部分作为地面实况，或者在预处理步骤中计算。为了做到这一点，我们最小化方程的目标函数。(4)使用[18]的可微分渲染流水线和Adam优化器[15]对T中的9个姿态参数进行4. 评价和实验为了评估我们的方法的性能，我们考虑了流行的ScanNet数据集和最近的ARK-itScenes数据集。我们要求计算机视觉专家在ScanNet上进行视觉评估，将我们自动检索的注释与Scan2CAD提供的注释进行比较，以评估我们的方法是否可以提供与手动注释质量相当的地面实况注释。然后，我们在ScanNet上对结果进行了目视检查，并在ARKitScenes数据集上提供了定性结果。我们参考补充材料，以获得所有即将进行的实验结果的额外可视化4.1. 使用Scan2CAD进行为了评估我们提出的方法的性能，我们进行了一个视觉评估，要求3D专家将我们的结果与Scan2CAD进行比较，Scan2CAD为ScanNet的CAD模型检索和对齐提供了基础我们对ScanNet验证集执行此评估，图6：我们的结果与Scan2CAD地面实况的偏差，针对整个ScanNet评估数据集上的每个标准大多数CAD检索非常接近他们的Scan2CAD对应，表明我们的结果的高质量。由312个室内场景组成。为了确保公平比较，我们使用Scan2CAD的初始3D边界框。实作详细数据。我们在Eqs中设置权重。(1)（4）λmsh=0. 75，λsns=0。9，λSil=0的情况。λCD=2。0的情况。为了计算CD中的倒角距离，我们从每个CAD模型的表面网格中均匀采样N=10k个点对于没有被我们的克隆方法取代的CAD模型，我们首先检索前3个最好的CAD模型，对它们中的每3个执行姿势细化，并保留具有最低目标函数值的模型。对于克隆过程中生成的CAD模型，我们使用普通CAD模型进行姿态细化4.1.1定量比较如Scan2CAD论文[1]中所提出的，可以根据平移、旋转和缩放误差来评估CAD检索和对齐此外，我们认为，形状差异也是一个重要的标准。对于验证集中的每个目标对象，我们通过计算旋转、平移、缩放和形状的差异，将我们的结果与相应的Scan2CAD地面实况进行比较。图6显示了我们的结果与Scan2CAD注释相比的偏差。可以看到，我们预测的大多数CAD模型检索与所有标准的地面实况相比确实有很小的差异，这已经表明我们的结果质量很高。3162标准Scan2CAD注释更好用我们的方法做的注释更好注释具有类似的质量我们的方法的注释是类似的或更好翻译1073340旋转12102838规模1273138形状2082230图7：左：我们对165个对象进行视觉评估的一个示例，这些对象与Scan2CAD注释的偏差最大。专家们看到了两张图像，这两张图像是通过在RGB-D扫描的同一视图中重新投影CAD模型而创建的。我们使用的CAD模型和他们的姿态提供的Scan2CAD的一个图像，和模型和姿态检索我们的方法为其他图像。专家们没有被告知使用哪种方法，图像被打乱，因此我们的方法有50%的时间出现在顶部图像中，50%的时间出现在底部图像中。对于每一对图像，专家们被要求回答以下问题：“顶部图像中的重新投影看起来更好，更差，还是与底部图像中的重新投影相似？“右图：答案的直方图。平均而言，对于这165个偏差最大的对象，我们的方法提供了类似或更好的CAD模型，同时是自动的。4.1.2专家视觉评价与上面提供的Scan 2CAD注释的定量比较给出了这些注释的偏差，但是它没有说明这些差异在总体质量方面意味着什么，以及哪些注释更好-或者它们是否等同。为了回答这些问题，我们由计算机视觉专家对与Scan2CAD注释偏差最大的165个对象进行了视觉评估为了保持比较简单，我们生成了成对的图像，其中我们重新投影了Scan2CAD提供的CAD模型和通过我们的方法检索的CAD模型。图7示出了这样的一对图像的示例。对于受试者来说，这种重投影比3D场景更容易解释，但为了确保CAD模型的姿势也得到正确评估，而不仅仅是它们的重投影，我们使用了相同场景的多个视图。专家们没有被告知使用哪种方法，图像被打乱，因此我们的方法50%的时间出现在顶部图像中，50%的时间出现在底部图像中，以防止受试者偏向两边或方法之一。对于每一对图像，专家们被要求回答以下问题：“顶部图像中的重投影看起来比底部图像中的重投影更好、更差还是相似？“由于这个问题需要一些领域的专业知识，我们不得不限制子表2：与Scan2CAD注释偏差最大的50个对象的目视检查结果显然大多数注释至少在质量上是相等的给从事计算机视觉和计算机图形学研究的博士生共有9名专家参加了这项研究。结果如图7所示：对于所有显示的对中的43.7%，受试者更喜欢来自Scan2CAD的CAD模型和姿势，对于24.5%，他们更喜欢通过我们的方法检索的CAD模型和姿势，对于剩下的31.8%，他们发现这两个来源是相似的。这验证了我们的方法可以用来代替人类注释，因为它平均产生类似或更好质量的注释4.1.3细粒度评价为了更好地理解我们的自动注释与手动注释的比较，我们对第4.1.1节中考虑的每个标准（平移、旋转、缩放、形状）的最高偏差的50个对象进行了可视化，并通过目视检查评估了几何形状和对齐。表2示出了结果。对于这些对象中的大多数，几何形状和对齐的整体质量等于或优于来自Scan2CAD数据集的注释。图8显示了针对不同条件具有较大差异的对象的示例。我们指的是supp。材料的广泛可视化的例子。4.1.4ScanNet的其他注释图9显示了通过我们的方法与Scan2CAD进行全场景CAD检索的结果比较：如前所述，Scan2CAD数据集不为所有对象提供注释。大约三分之一的标准类对象（ScanNet验证集中312个场景的1130个对象）没有标记CAD模型或姿势，但由于我们的方法是自动化的，我们能够检索所有这些对象的CAD模型和姿势这意味着平均3。每个场景增加6个对象，检索到的对象比Scan2CAD注释多37%。4.2. ARKitScenes数据集为了展示我们方法的泛化能力，我们还在最近发布的ARKitScenes数据集上运行了我们的方法该数据集由室内场景的5047个RGB-D扫描组成，并提供3D定向边界框，3163图9：与Scan2CAD注释的比较。左：RGB-D扫描。中间：Scan2CAD注释。右：我们的结果，其中红色CAD模型用于Scan2CAD中未标注的对象。图8：Scan2CAD注释和我们的方法创建的注释之间差异最大的一些对象的可视化我们显示了RGB-D扫描，Scan 2CAD对象的3D覆盖（绿色）和使用我们的方法检索的CAD模型的3D覆盖（蓝色），下面是CAD模型的2D重投影。第一个示例：旋转差为6。三十三岁，考核：我们的方法更准确。第二个例子：翻译差异8 5cm，评估：同等质量。第三个例子：倒角距离为0。42、考核：Scan2CAD注释更准确。地面实况注释。请注意，没有提供CAD模型作为此数据集的地面实况。实作详细数据。与ScanNet相比，该数据集的传感器数据质量明显更好，ARKitScenes提供的深度图也更好。然而，ARKitScenes提供的3D场景网格的质量仍然明显低于ScanNet提供的因此，我们将权重参数调整为λ s=1。3，λ m=0。3，λSil=0. 4，λCD= 1。五、已检索注释。图 10显示了通过我们的方法检索的CAD模型及其姿态的示例。我们的克隆程序的优势也是显而易见的。图10：ARKitScenes数据集上的定性结果。左：RGB-D扫描。图中：克隆前的结果。右：克隆后。具有相同颜色的CAD模型具有相同的几何形状：在最上面的一行中，我们的克隆过程正确地为椅子和底部的两个扶手椅检索了相同的模型。补充材料中列出了更多的例子。5. 结论我们提出了一种方法来检索 CAD 模型的 ob-obligations在3D扫描和他们的姿态，具有类似的质量手动注释。CAD模型在用于捕获扫描的图像上重新投影良好。因此，我们希望我们的结果可以用于从单个图像的3D场景理解。我们将提供我们为ScanNet和ARKitScenes数据集检索的注释。谢谢。这项工作是由克里斯-田多普勒实验室语义三维计算机视觉，部分资金由高通公司。3164引用[1] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva ， Angel X. Chang 和 Matthias Nießner 。Scan 2cad：学习RGB-D扫描中的CAD模型对齐。在计算机视觉和模式识别会议上，2019年。[2] Armen Avetisyan，Angela Dai，and Matthias Nießner.端到端CAD模型检索和3D扫描中的9dof对齐。在2019年国际计算机视觉会议上。[3] Gilad Baruch 、Zhuoyuan Chen 、 Afshin Dehghan 、TalDimry 、 Yuri Feigin 、 Peter Fu 、 Thomas Gebauer 、Brandon Joffe 、 Daniel Kurz 、 Arik Schwartz 和 EladShulman。ARK- itScenes -使用移动RGB-D数据进行3D室内场景理解在第三十五届神经信息处理系统数据集和基准跟踪会议（第1轮），2021年。[4] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从室内环境中的RGB- D数据中学习在2017年的3D视觉国际[5] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，andOthers.ShapeNet：一个信息丰富的3D模型库。InarXivPreprint，2015.[6] Manuel Dahnert ， Angela Dai ， Leonidas Guibas ， andMatthias Nießner. 3D扫描和CAD对象的联合嵌入。在2019年国际计算机视觉会议上。[7] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.ScanNet：室内场景的丰富注释3D重建。计算机视觉与模式识别会议，2017年。[8] 放大图片作者：Peter M. Roth和Vincent Lepetit野外物体的三维姿态估计和三维模型检索。在计算机视觉和模式识别会议上，2018年。[9] Abhinav Gupta ， Martial Hebert ， Takeo Kanade ， andDavid Blei.使用物体和表面的体积推理估计房间的空间布局。神经信息处理系统进展，2010。[10] Shreyas Hampali，Sinisa Stekovic，Sayan Deb Sarkar，Chetan S.库马尔，弗劳恩多夫，莱伊特. 蒙特卡罗场景搜索用于3D场景理解。在计算机视觉和模式识别会议上，2021年。[11] 穆赫辛·海杰拉提和德瓦·拉曼南合成分析：基于物体重构的三维物体识别。在计算机视觉和模式识别会议上，2014年。[12] Binh-SonHua 、 Quang-HieuPham 、 DucThanhNguyen 、 Minh-Khoi Tran 、 Lap-Fai Yu 和 Sai-KitYeung。SceneNN：一个带有注释的场景网格数据集。2016年国际3D视觉会议[13] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.整体三维场景解析与重构从单个RGB图像构建。在欧洲计算机视觉会议上，2018年。[14] 菲利普·伊索拉和刘策场景拼贴：具有语义层的自然图像分析与合成。国际计算机视觉会议，第3048-3055页，2013年[15] Diederik P. Kingma和Jimmy Ba。亚当：一种随机优化方法。在2015年国际学习代表会议上[16] Abhijit Kundu，Yin Li，and James M.瑞格3D-RCNN：通过渲染和比较进行实例级3D对象重建。计算机视觉与模式识别会议，2018年。[17] 易离，顾望，向阳季，于翔，迪特尔福克斯。DeepIM：用于6D姿势估计的深度迭代匹配。2018年欧洲计算机视觉会议[18] Nikhila Ravi 、 Jeremy Reizenstein 、 David Novotny 、Taylor Gordon、Wan-Yen Lo、Justin Johnson和GeorgiaGkioxari。使用PyTorch3D加速3D深度学习。在arXiv预印本，2020年。[19] 迈克·罗伯茨和内森·帕赞Hypersim：用于整体室内场景理解的在arXiv预印本，2020年。[20] Xingyuan Sun，Jiajun Wu，Xiuming Zhang，ZhoutongZhang ， Chengkai Zhang ， Tianfan Xue ， Joshua B.Tenen-baum和William T.弗里曼。Pix3D：单图像3D形状建模的计算机视觉与模式识别会议，2018年。[21] Alan Yuille和Daniel Kersten。视觉作为贝叶斯推理：综合分析？《认知科学趋势》，2006。[22] Chuhang Zou ， Ruiqi Guo ， Zhizhong Li ， and DerekHoiem.从RGBD图像完成3D场景解析国际计算机视觉杂志，2019。

下载后可阅读完整内容，剩余1页未读，立即下载