Patch2CAD：从单个图像学习共享的图像-CAD嵌入空间以实现更强大的CAD检索形状估计

73 浏览量更新于2023-10-14 收藏 1.42MB PDF 举报

对象检测

CAD模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Patch2CAD：用于从单个图像Weicheng Kuo1，Anelia Angelova1，Tsung-Yi Lin1，AngelaDai21 Google Research，Brain Team2慕尼黑工业大学{weicheng，anelia，tsungyi} @ google.com，angela. tum.de图1：从输入的RGB图像中，我们通过从RGB图像和CAD模型的补丁中嵌入检测到的对象的补丁来学习共享的图像-CAD嵌入空间。通过在图像和CAD之间建立逐块对应关系，我们可以基于部件相似性建立对象对应关系，从而实现针对新视图的更有效的形状检索以及鲁棒的top-kCAD检索。我们的补丁为基础的检索一个类似的3D CAD表示加上姿态预测的结果在基于CAD的3D理解的图像中的对象。摘要从RGB图像输入的对象形状的3D感知是语义场景理解的基础，在我们的空间三维现实世界环境中基于图像的感知。为了实现对象的图像视图和3D形状之间的映射，我们利用来自现有大规模数据库的CAD模型先验，并提出了一种新的方法，以逐块方式在2D图像和3DCAD模型之间构建联合嵌入空间-这使得能够进行部件相似性推理，以检索与新图像视图相似的CAD，而无需在数据库中进行我们的补丁嵌入，丁提供了更强大的CAD检索形状估计，在我们的端到端的估计CAD模型的形状和在单个输入图像中检测到的对象的姿态。在野外，复杂的图像从ScanNet的实验表明，我们的方法是更强大的比在现实世界的情况下，没有任何确切的CAD匹配的最先进的。1. 介绍许多视觉感知任务的基础是理解将观察到的场景分解成其组成对象以及这些对象的语义含义近年来，2D对象识别和定位的进步在基于图像的理解中取得了令人印象深刻的成功，即使仅来自单个图像输入[22，18，46，21]。这样的识别和感知受限于图像域，不幸的是仍然局限于理解3D属性1258912590例如形状和结构，它们不仅是对场景中对象的全面的、类似人类的理解的基础，而且是对许多应用例如环境的自主探索和交互的基础。为了解决来自单个RGB图像的3D感知，我们最近已经看到提出了几种方法，这些方法采用了一种通用的方法来重建观察到的物体这些方法在获得复杂场景图像中的对象的3D理解方面示出了有前景的结果，但是对几何重建采取低级方法，逐体素或逐顶点构造体素或顶点，经常导致噪声或过平滑的几何结构，或者不表示有效对象实例的几何结构（例如，在椅子上少了一条腿）。相比之下，几种方法已经采取了基于CAD的先验来表示在RGB或RGB-D观察中看到的对象的3D结构，通过从与观察到的对象类似的数据库中检索和对齐CAD模型[41，33，2，30]。该CAD先验使得能够用已知表示对象的有效实例的干净、完整的3D网格来表示每个对象不幸的是，这种基于检索的方法往往难以泛化，特别是当对象的新观察图像不完全匹配数据集中的任何CAD模型时。我们观察到，在这些具有挑战性的情况下，可以利用各种部件相似性来找到相似的形状。因此，我们提出了Patch2CAD，它通过建立图像补丁与对象几何补丁的相似性，基于编码中级几何关系在图像和CAD模型之间构建联合这些对应关系可以通过多数表决聚合到CAD预测中。这使得能够基于主要部分相似性进行CAD检索，从而使得能够改进CAD检索的泛化性以重建在图像中看到的对象的形状。为了从单个RGB图像实现对对象结构的3D理解，我们首先检测2D中的对象位置，然后构建我们的基于块的图像CAD嵌入空间，从而能够投票检索类似的CAD模型，并预测图像中的CAD的姿态Patch2CAD经过端到端的训练，以全面建立有效的图像CAD嵌入。我们的主要贡献是对2D图像和3D CAD模型这两个非常不同的领域之间的联合嵌入空间进行基于补丁的学习，这建立了更强大的基于部分级别的对应关系（见图1）。我们证明，这种贴片式嵌入使意味着-ingful CAD检索图像观察不仅在顶部最近的邻居，但前k检索。因此，我们实现了CAD形状与候选数据库中没有精确CAD匹配的对象的图像观察的更有效的关联，这通常是真实的情况世界场景我们在ScanNet [ 11 ]和Pix3D [ 52 ]数据集上展示了Patch2CAD特别是，在ScanNet [11]的复杂野外图像上，Patch2CAD显示出其基于补丁的方法的显着优势，超过了1.9 Mesh AP（22%的相对改进）。2. 相关工作场景理解是计算机视觉的基本问题之一。关于该主题的大量文献已经推动了对2D图像的理解的领域：例如，用于对象检测的流行方法[18，46，45，37，36，32，15，58 ]，语义分段[18，46，45，37，36，32，15，58]。[38，23]和实例分割[21，31]。我们的方法的灵感来自于这些2D图像理解方法，而是专注于产生一个3D的表示，在一个单一的图像中观察到的对象，提供额外的几何，结构信息的场景。单视图对象重建。最近，我们也看到了显着的进步，重建一个物体的三维形状从一个单一的RGB图像。这些工作也是由形状表示驱动的：早期的研究集中在密集的体积网格[10，57]，而点云[16，59]和分层结构，如八叉树[53，47]提供了更多的内存和计算效率的表示。基于网格的方法提供了一种有效的表面表示以及自适应结构，但往往依赖于强拓扑假设，从给定的模板网格中采用基于变形的方法[55，56];不依赖于模板的生成方法往往限于少量顶点[12]。隐式函数最近在单对象形状重建中取得了显着的成功，通过预测空间位置的占用或符号距离场值来表征形状[40，44，49]。预测凸基元的方法也被证明可以产生有前景的结果[13]。虽然这些方法只对包含一个对象的图像进行操作，但Mesh R-CNN开创了一种用于生成RGB图像中看到的多个对象的形状的方法，该方法更接近地表示真实世界的感知场景。现在有几种方法在这项任务上得到了进一步的发展; Mask 2CAD [30]提出了一种基于CAD检索的方法来理解对象的形状和姿态，Nie等人。[42]一种用于物体重建的网格生成方法，该方法基于从球体的初始我们的方法还解决了RGB图像中看到的多个对象的形状重建，利用CAD检索并专注于构建鲁棒的图像CAD嵌入空间。12591◦基于CAD的检索和对齐。用于重建的生成方法的替代方案是利用CAD模型先验来表示场景中的对象，并且检索和对齐它们以实现由每个对象的干净、紧凑的网格表示组成的场景重建。计算机视觉的早期工作证明了现有几何模型作为先验的使用[6，9，48];大规模CAD模型数据集的当前可用性（例如，ShapeNet [7]，Pix3D [52]）已经使这种方法重新焕发了活力。已经引入了用于CAD模型检索和与RGB-D扫描对齐的各种方法[50，29，33，5，2，20，27]，包括端到端学习流水线[3，4]，以及与假设给定形状的图像的CAD对齐[35，17，24]。从单个图像，Aubry等人[1]开发手工制作的基于HOG的特征，以将CAD模型的纹理渲染与图像匹配，以便检测椅子;我们的方法基于对纯几何对应的更一般的学习来学习将CAD补丁与图像补丁相关联，从而能够学习几何结构以及使用仅几何CAD数据库。最近，Iza- dinia和Seitz [28]和Huanget al.[25]应用综合分析方法从单个图像进行CAD模型对准和场景布局估计，利用昂贵的优化（分钟到小时）每个输入图像。形状检索方法通过学习联合RGB-CAD空间嵌入也显示出有希望的结果[54，34，39，30]。Li等[34]提出了一种在RGB图像和CAD模型之间构造联合嵌入空间的方法，使得能够从图像中检索CAD模型;首先从形状描述符构造嵌入空间，然后优化图像嵌入到形状空间中。Massa等人[39]学习使用投影层使对象RGB特征适应CAD空间以进行对象实例检测。Kuo等人[30]共同优化图像视图和CAD模型之间的共享嵌入空间，以便对图像中看到的多个对象执行检索。这样的技术可能倾向于过拟合，因为对象形状获得单个全局表示，并且新图像可能不包含精确的CAD匹配，而是包含各种部件相似性。我们的方法在学习图像和CAD模型之间的映射时解决了类似的问题;然而，为了更好地推广到具有不精确匹配的新观察，利用大部分相似性来更鲁棒地检索CAD模型以用于重建。3. 方法3.1. 概述从一个单一的输入RGB图像，我们的目标是通过预测对象的语义和3D结构，通过检索和对齐类似的CAD模型- els观察到的图像来理解观察到的场景。首先在2D图像中检测对象，由它们的2D边界框表示，类别la。bel和2D实例分割掩码。然后，我们的目标是学习对象的图像表示与CAD模型之间的共享嵌入空间，以便重新获得表示检测到的对象的3D结构的类似CAD模型。在一个单独的姿态预测头，我们同时回归的CAD模型，使其与图像观察对齐的姿态。图像和CAD之间的共享嵌入空间可能难以有效地构建，这是由于两个域之间的强烈差异。虽然将对象的图像观察与完整CAD模型一起映射到共享嵌入空间中已经显示出前景[34，30]，但这种方法往往难以推广到CAD数据库中没有精确匹配的对象的视图。因此，而不是构建一个嵌入空间映射类似的图像观察的对象与完整的CAD模型，我们的目标是学习一个嵌入空间，不仅捕捉图像和CAD之间的全局语义相似性我们建议通过构建一个共享的特征空间来学习对象部分和CAD部分的嵌入，其中对象图像的补丁靠近CAD对象的类似补丁。这使得能够在没有针对新图像视图的精确CAD匹配的情况下推理用于检索的类似部件，从而实现更鲁棒的CAD重建。3.2. 2D目标检测我们利用最先进的2D对象检测和实例分割主干来告知我们的3D形状推理。从输入RGB图像，使用Reti-naNet [36] 定位 2D 对象边界框和类标签，并使用ShapeMask [31]预测实例分割掩码。从2D对象检测中学习的特征指导我们的形状预测;对于检测到的对象k，我们使用对象的预测框来裁剪对应于该对象的特征fk，并与实例掩码预测mk相乘。然后，我们使用mk fk作为图像形状嵌入以及姿势对齐的输入。3.3. 基于补丁的联合嵌入学习我们的方法围绕构建一个基于补丁的联合嵌入空间之间的两个域的图像观测的对象和3D CAD模型表示的对象。虽然人类可以在图像和CAD模型之间建立感知对应，但由于表示的强烈差异，桥接这些域是一项挑战：与3D几何CAD模型相比，图像是视景相关、彩色的，并且包含照明和材料效果。此外，在现实世界场景中，我们通常不具有与图像视图的精确CAD匹配作为地面实况注释。我们在图像块和CAD块之间构造了一个嵌入空间，以实现对中级和低级结构的推理。12592形状编码器RGB编码器斯库p基希姆一斯库$Le=−◦J一J------|| ||||||pΣ−一个pn1ΣanΣ输入RGB图像渲染形状面片培训RGB ROI贴片检索到的形状面片数测试图2：我们的目标是通过利用RGB和形状之间的补丁对应来学习用于检索的形状嵌入空间。在训练时，我们从对象区域中采样RGB补丁，并从对象类中渲染形状补丁。我们形成的嵌入空间的对比损失，并正规化的学习与表面正常匹配，使积极的补丁具有较高的几何相似性，而消极的补丁来自非匹配的形状与低几何补丁相似性。这种逐块构造为在测试时从图像中进行形状检索建立了更鲁棒的对应关系在一些实施例中，对象之间的相似性是不一致的，因为许多对象可以共享相似结构的部分，而不完全匹配因此，我们可以建立部分相似性，其中全局对象映射可能难以实现完整的对象匹配。通过以这种方式桥接两个域，我们可以更容易地识别相似的几何结构，在一个新的观察对象不完全表示在CAD数据库中。我们的基于块的联合图像-形状嵌入空间在图2中可视化，并且基于对象的图像特征的块和渲染的CAD模型到n个规范视图c〇，…c n−1（相似到光场描述符[8]）。CAD的表示模型的渲染视图有助于减少2D图像和3D形状之间的域间隙;我们使用n = 16个视图，其中规范视图由训练视图的K中心聚类确定。为了嵌入图像和形状，我们提取特征从m k f k和采样补丁从渲染的CAD视图使用嵌入模块组成的一系列的2D卷积，导致在f im和f cad，分别。图像和CAD特征的每个嵌入网络结构对称，没有共享的权重，因为它们在不同的域上操作。然后，我们构建补丁嵌入空间随机抽样锚补丁从f im，我们表示为f im，然后建立积极和消极的相似性与f cad 。在我们所有的实验中，我们使用1/3RGB-ROI的补丁大小或渲染形状图像大小。嵌入空间由噪声对比估计损失构成[43]：D（a）= exp（D（fim，fcad））（2）|p∈ P（a）|p∈P(a)D（a）=1exp（D（fim，fcad））（3）|n∈ N（a）|n∈N(a)其中Le表示总丢失，A是所有锚（查询）补丁的集合，P（a）和N（a）是查询补丁a的正匹配和负匹配，C=24是加权值，D（x，y）=（x/ x）T（y/ y）/τ，其中τ=0。十五岁 Dp（a）和Dn（a）是正对和负对的平均指数权重。为了进一步提高学习效率，我们排除了空的RGB和形状补丁的嵌入-丁损失，所确定的渲染的二进制掩码。我们的整体损失与Mask2CAD相似，但由于我们在补丁级别的对应关系上操作，因此由于对补丁匹配的限制相对宽松，我们删除了硬正挖掘。实例完全匹配。我们的损失的公式与标准InfoNCE损失不同，因为我们对每个查询补丁都有多个阳性（形状渲染补丁）。因此，我们需要通过C参数平衡每批阳性/阴性的比率。用于嵌入构造的面片相似性。为了训练我们的嵌入构造，我们通过估计它们的几何相似性来建立图像和CAD补丁之间的匹配和非匹配补丁的补丁相似性。我们使用来自CAD模型的渲染法线（具有在规范空间中表示的法线）及其对应的补丁来表示局部几何形状，并且对于图像，L= logDp（a）eDp（a）+CDn（a）a∈A（一）我们使用地面实况对应CAD模型的渲染法线的补片。对于每个法线面片，我们123基于法线的面片相似性ΣlogDp（a）Dp（a）+CDn（a）a∈A12593×个||≈≈≈-通过自相似性直方图计算其描述符，该自相似性直方图被评估为在面片中的法线的所有成对角距离上的直方图;直方图被归一化以求和为1。这允许我们估计与取向无关的几何相似性。然后，我们测量两个补丁的法线之间的差异，与查询的正匹配由对应于具有自相似性IoU>θp的地面实况CAD注释的分块来确定，并且负匹配由对应于具有自相似性IoUθn的非对应CAD模型的分块来确定。<由于地面实况CAD注释可能包含与查询补丁不相似的补丁，并且非地面实况CAD模型可能包含与查询相似的补丁，因此我们根据经验发现双阈值有助于避免这种关联。设θ p，θ n= 0。四，零。6在我们的实践中我们还采用硬负挖掘采样的顶部负补丁的距离查询。在训练过程中，我们将每个图像的对象数量取为16，用于硬负样本。这使得能够更好地区分困难的情况，并改善嵌入空间。我们为每个锚补丁设置N（a）=1024。关于硬正挖掘，我们观察到它损害了固定的top-K挖掘的性能，这是由于未每批阳性对的稳定数量。为了解决这个问题，我们对所有正对的权重进行平均，并将它们视为一个正样本Dp（a），这会导致更稳定的学习和更好的性能。3.4. 补丁检索由于我们的图像和形状的联合嵌入是构建的补丁明智的，我们可以利用许多补丁检索更强大，全面的形状检索。我们使用随机抽样补丁从CAD渲染构建数据库进行检索。然后，对于图像中检测到的对象，我们随机采样Kq块fim，并且对于每个补丁，我们从数据库中检索Kr个补丁。然后利用检索到的Kr个面片，通过多数表决的方式确定面片查询对应的CAD模型，得到每个面片对应的Kq个CAD模型;最终的形状检索是通过Kq块检索的CAD的多数表决获得的，排除完全在预测实例掩码之外的块检索的那些CAD。虽然基于对象的完整图像视图和整个CAD模型的图像-CAD映射可能难以在不精确匹配下从全局相似性角度进行检索，但我们的基于块的形状检索鼓励检索到的形状更全面地匹配图像。3.5. 姿态预测我们同时预测3D形状核心的姿态旋转分类之后是回归细化，并且平移作为从2D边界框中心的偏移。为了获得估计的旋转，使用通过训练对象旋转的K中心点聚类计算的旋转仓作为四元数，并使用交叉熵损失预测仓，然后预测具有Huber损失的细化偏移四元数[26]。平移被估计为从预测的边界框中心的偏移，作为框尺寸的比率，并且利用Huber损失进行优化3.6. 实现细节我们的ShapeMask [31]实例分割主干（ResNet-50-FPN）使用COCO预训练进行初始化，我们对图像和CAD渲染的嵌入使用具有随机初始化的ResNet-18-FPN主干。我们训练我们的实例分割用于非模态边界框预测，而不是标准COCO设置中的模态框，因为这可以捕获更一致的上下文，并为姿势平移估计提供更稳定的指导。我们还应用数据增强来提高泛化能力，包括训练期间的HSV颜色抖动、ROI框抖动和图像缩放抖动。我们在ScanNet上使用256的批量大小训练我们的方法进行36K迭代，这需要2天。学习率初始化为0.16，在24K时降低10倍，在30K次迭代时再降低10倍。在推理时间方面，Patch2CAD每幅图像需要74ms，58ms模型+ 16ms检索（与Mask2CAD 60ms），具有未优化的并行补丁检索。4. 实验我们在ScanNet数据集[11]上评估了我们的方法，该数据集包含杂乱室内环境中每个图像多个对象的具有挑战性的真实世界图像，具有许多遮挡，部分视图和不同的照明条件。ScanNet数据集包含1513个室内场景;我们将ShapeNet [7] CAD模型的Scan 2CAD [2]注释用于ScanNet场景，以提供用于训练和评估的地面真实CAD对应关系注意，在CAD模型与真实世界图像之间不存在精确匹配，这反映了许多真实世界应用场景。根据ScanNet上的Mask2CAD [30]评估协议，我们使用数据集提供的25K帧子集进行训练和验证，分别包含19387个训练和5436个验证图像此外，我们在Pix3D数据集[52]上评估了我们的方法，该数据集包含10，069张标有相应CAD模型的室内我们使用Mesh R-CNN [19]的训练/测试分裂进行直接比较。响应于其在单独分支中的2D图像观察与[30]类似，我们预测形状的旋转1在Pix3D上测量，用于与Mask2CAD [30]进行比较。12594ScanNet 25KAP AP50 AP75 床沙发椅子橱柜垃圾桶展示台书架Mask2CAD [30]8.423.14.914.213.013.27.57.85.92.93.1Patch2CAD（我们的）10.3 26.06.618.812.417.67.58.610.83.33.3表1：ScanNet上的性能[11]。我们报告平均AP网格和每类AP网格。图3：ScanNet [11]图像的定性结果，与最新技术水平的Total3D [42]和Mask2CAD [30]进行比较。我们的基于块的形状嵌入的结果在更准确的形状检索以及更强大的检索强烈遮挡对象（见行3，4，9，10）。请注意，不同的颜色表示可视化中的不同对象实例。评估指标。我们采用先前建立的2D和3D评估指标。用于评估2D输出，我们采用来自2D对象识别的主要度量：2D检测上的APbox和APmask12595ScanNet 25KAP AP50 AP75 床沙发椅子橱柜垃圾桶展示台书架3D打印[42]1.46.30.21.94.31.50.80.10.00.72.1Mask2CAD [30]10.5 33.34.513.913.1 14.811.610.88.84.17.4Patch2CAD（我们的）12.9 37.56.614.511.6 18.812.413.019.05.78.1表2：使用地面实况2D检测的ScanNet [11]性能。我们报告平均AP网格和每类AP网格。输入图像检测到的对象GT形状前8个最近邻居我们Mask2CAD我们Mask2CAD图4：与Mask2CAD [30]（相同的检测输入）相比，使用Scan2CAD [2]地面实况CAD从ScanNet [11]图像中检测到的对象中检索前k个我们的方法实现了一个更一致的形状嵌入空间，使强大的前k检索与结构相似的CAD协会，不仅顶部1最近的邻居。方法斑块大小法线APAP50Mask2CAD [30]1.08.423.1Patch2CAD（我们的）1.0V9.424.7Patch2CAD（我们的）0.5V9.524.5Patch2CAD（我们的）0.33V10.326.0Patch2CAD（我们的）0.25V10.025.8表3：性能与补丁大小和法线的使用。1.0面片大小对应于完整对象大小。的对象。我们使用新推出的APmesh网-ric [19]来评估3D对象的3D形状和姿势预测。与Mask 2CAD [30]类似，我们使用0.5至0.95之间的10个IoU阈值，在IoU 0.5（AP 50）和IoU 0.75（AP 75）处评估APmesh指标，以及AP作为AP 50-AP 95的平均值。为了更一致的再现性，我们将我们的评估报告为2次独立运行的平均值。F分数中使用的阈值如下[30]在ScanNet和[19，30]在Pix3D。与最新技术水平的比较。在表 1 中，我们根据Mask2CAD提出的ScanNet [ 11 ]基准，与Mask2CAD[ 30 ]相比，从单个图像评估了我们的3D对象理解。我们对Mesh AP50的改进大于AP75，表明Patch2CAD即使在检索非精确匹配时也能保持更稳健的形状估计Mask2CAD也采用基于检索的方法，但将对象的完整图像观察映射到12596整个CAD模型，其倾向于过拟合并且与对象不精确匹配数据库的新测试图像斗争;我们的块级嵌入通过建立与类似对象部分的对应关系而不是整个对象的更严格要求来实现更鲁棒的检索和对准。此外，这可以帮助检索和对齐输入图像中被遮挡或部分可见的对象（参见图3）。分片嵌入学习对表示形状几何有什么影响？在表1中，我们看到，与Mask2CAD的整体形状嵌入相比，我们的基于块的嵌入改进了基于检索的3D对象重建。我们还评估了我们的基于补丁的嵌入，用于在表2中给定地面真实2D检测的检索，显示了对Mask2CAD检索和Nie等人的网格生成方法的一致改进。[42]。注意，我们使用Nie等人的训练方案。在SUN RGB-D[51]上，因为它们在训练期间使用场景布局信息（类似于Scan-Net，SUN RGB-D也是使用基于PrimeSense的传感器从真实室内场景中捕获的）。最后，我们评估Patch2CAD给定地面真实2D检测以及姿态（即，仅评价形状）与 Nie 等的比较。 [42] 以及表 4 中的Mask2CAD [30]，使用F分数进行形状重建评估。即使有一个12597S3ScanNet 25K是说床沙发椅子橱柜垃圾桶展示台书架3D打印[42]52.4 58.872.66941.538.935.944.458.4Mask2CAD [30]60.6 63.1 64.4 66.161.068.358.747.156.3Patch2CAD（我们的）63.8 64.362.0 68.159.971.673.951.958.9表4：ScanNet [11]上的平均F分数和类别F分数，仅使用地面实况2D检测和评估形状。表5：Pix3D上的性能[52]1.我们报告平均AP网格如下[19，30]。仅形状预测，图像视图中的强遮挡可能具有挑战性;Patch 2CAD保持更高的鲁棒性。面片大小的影响和曲面法线的使用。表30.250.20.150.10.050形状提取回忆与Top-KMask2CADPatch2CAD0 5 10 15 20 25K分析各种贴片尺寸和具有/不具有表面法线。第一行对应于Mask 2CAD;我们的在第四行。我们的1补丁的基础和法线的使用有助于显着提高形状检索。在Pix3D上比较。表5显示了Pix3D上生成和检索方法的比较[52]。Pix3D在比ScanNet更简单的场景中提供了精确的形状匹配。Patch 2CAD的性能明显优于Mesh R-CNN [19] ，并且与 Mask 2CAD[ 30] 竞争， Mask2CAD[30]的完整对象匹配方法非常适合具有精确3D匹配的场景。分片嵌入如何塑造top-k检索的空间？我们评估我们的补丁为基础的图像CAD嵌入空间，通过分析前k个最近的邻居CAD模型检索一个给定的检测对象的ScanNet验证集。我们在图4中可视化针对各种图像对象检测的前8个检索的CAD模型。与全形状映射相比的图像-CAD建立的Mask 2CAD，我们的分块嵌入构造鼓励更相似的结构的CAD形状被投票的补丁，导致在几何上一致的top-k。定量地，我们分析我们的前k形状检索通过评估召回从 k 检索的形状。我们与图 5 中的最先进的Mask2CAD [30]方法进行比较，使用k=1至24。我们的补丁为基础的方法始终产生更准确的形状检索。局限性。虽然我们的Patch2CAD方法展示了图像和CAD模型之间的更鲁棒的联合嵌入空间构造，但有各种发展方向。例如，我们的基于补丁的检索可以图5：与Mask2CAD的形状检索比较[30]产生更稳健的CAD检索结果，但不能表示与数据库显著不同的形状;我们相信来自我们的各种补丁检索的基于部分的合成或变形方法具有希望。此外，我们的方法处理对象的形状和结构，但不代表完整的场景几何，这是一个重要的方向全面的3D感知。5. 结论在本文中，我们提出了Patch2CAD，它建立了基于补丁的2D图像和3D CAD模型之间的对应关系，一个强大的建设共享嵌入空间映射两个域之间。这使得能够基于CAD理解从2D图像看到的对象的形状，将每个对象表示为摆姿势的、轻量的、完整的网格。我们证明了我们的补丁式嵌入学习可以构建一个更有意义的嵌入空间，用于最近邻检索，以及在许多遮挡下对复杂的真实世界图像进行更鲁棒的形状估计。我们相信，这带来了理解在桥接这些领域的2D-3D以及真正的合成，这开辟了领域转移，内容创建和3D场景理解的途径。确认我们要感谢谷歌再搜索的同事们的建议，以及巴伐利亚州科学和艺术部在巴伐利亚数字化转型研究所（bidt）的协调下为安吉拉·戴提供的支持。召回Pix3DS1APAP50AP75网格R-CNN [19]17.251.254.951.77.430.828.2Mask2CAD [30]33.2Patch2CAD30.912598引用[1] Mathieu Aubry 、 Daniel Maturana 、 Alexei A Efros 、Bryan C Russell和Josef Sivic。3D椅子：使用CAD模型的大数据集的示例性的基于部件的2D-3D对准。在IEEE计算机视觉和模式识别会议论文集，第3762-3769页，2014年。三个[2] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva ， Angel X. Chang 和 Matthias Nießner 。Scan 2cad：学习rgb-d扫描中的cad模型对齐。CVPR，2019年。二三五七[3] Armen Avetisyan，Angela Dai，and Matthias Nießner.三维扫描中端到端cad模型检索和9dof对齐在IEEE计算机视觉国际会议论文集，第2551-2560页，2019年。三个[4] ArmenAvetisyan 、 TatianaKhanova 、 ChristopherChoy、Den ver Dash、Angela Dai和Matthias Nießner。Scenecad ：预测 rgb-d 扫描中的对象对齐和布局在ComputerSpringer，2020年。三个[5] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在IEEE计算机视觉和模式识别会议论文集，第5965-5974页，2016年。三个[6] 托马斯·宾福德基于模型的图像分析系统综述。国际机器人研究杂志，1（1）：18-64，1982。三个[7] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。三、五[8] Ding-Yun Chen，Xiao-Pei Tian，Yu-Te Shen，and MingOuhyoung.基于视觉相似性的三维模型检索研究。在计算机图形论坛，第22卷，第223-232页。Wi- ley在线图书馆，2003年。四个[9] Roland T Chin和Charles R Dyer。机器人视觉中基于模型的识别。 ACM Computing Surveys （ CSUR ）， 18（1）：67-108，1986. 三个[10] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。二个[11] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.ScanNet：室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别（CVPR）IEEE，2017年。二五六七八[12] 安吉拉·戴和马蒂亚斯·尼斯纳Scan2mesh：从非结构化范围扫描到三维网格。在IEEE计算机视觉和模式识别会议集，第5574-5583页，2019年。二个[13] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz 、 Geoffrey Hinton 和 Andrea Tagliasacchi 。Cvxnet：可学习的凸分解。InProceedings of theIEEE/CVF计算机视觉和模式识别会议，第31-44页，2020年。二个[14] 马克西米利安·丹宁格和鲁道夫·特里贝尔。从单个视区重建三维场景。欧洲计算机视觉会议（ECCV），2020年。2[15] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在IEEE计算机视觉国际会议论文集，第6569-6578页，2019年。二个[16] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。二个[17] Georgios Georgakis，Srikrishna Karanam，Ziyan Wu，and Jana Kosecka.学习局部rgb-to-cad对应关系用于物体姿态估计。在IEEE/CVF计算机视觉国际会议论文集，第8967- 8976页，2019年。三个[18] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。一、二[19] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。在IEEE/CVF计算机视觉国际会议论文集，第9785-9795页，2019年。二、五、七、八[20] Alexander Grabner、Peter M Roth和Vincent Lepetit。位置字段描述符：野外单幅图像三维模型检索。在2019年3D视觉国际会议（3DV）上，第583-593页。IEEE，2019。三个[21] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。一、二[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一个[23] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页，2017年。二个[24] Qixing Huang，Hai Wang，and Vladlen Koltun.通过图像和形状集合的联合分析的单视图重建。 ACMTransactions on Graphics（TOG），34（4）：1-10，2015。三个[25] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.从单个RGB图像进行整体 3D 场景解析和重建。在 European Conference onComputer Vision中，第194Springer，2018.3[26] 彼得·J·胡贝尔。位置参数的鲁棒估计。在统计学的突破，第492-518页。Springer，1992年。5[27] Hamid Izadinia和Steven M Seitz.基于学习的icp场景重组在CVPR，2020年。三个[28] Hamid Izadinia，Qi Shan，and Steven M Seitz. Im2cad。在IEEE计算机视觉和模式识别会议论文集，第5134-5143页，2017年。三个12599[29] Young Min Kim ， Niloy J Mitra ， Qixing Huang ， andLeonidas Guibas.引导实时扫描室内物体。在ComputerGraphics Forum，第32卷，第177Wi- ley在线图书馆，2013年。三个[30] 郭伟成、安蕾莉亚·安杰洛娃、林宗怡和戴安琪。Mask2CAD：通过学习分割和检索进行3D形状预测。以Eur.确认补偿目视，2020年。二、三、五、六、七、八[31] Weicheng Kuo，Anelia Angelova，Jitendra Malik，andTsung-Yi Lin. Shapemask：通过细化形状先验来学习分割新对象。在IEEE计算机视觉国际会议论文集，第9207- 9216页，2019年。二三五[32] 黑律和贾登。对象作为成对的关键点。ECCV，2018年。二个[33] Yangyan Li ， Angela Dai ， Leonidas Guibas ， andMatthias Nießner.实时三维重建的数据库辅助对象检索。计算机图形论坛，第34卷，第435-446页。WileyOnline Library，201

下载后可阅读完整内容，剩余1页未读，立即下载