没有合适的资源?快使用搜索试试~ 我知道了~
Scan2CAD:基于RGB-D的CAD模型对齐与扫描
2614Scan2CAD:Learning CAD Model Alignment in RGB-DScansArmen Avetisyan 1ManuelDahnert 1AngelaDai 1Manolis Savva 2Angel X. 长2马蒂亚斯·尼斯纳11慕尼黑工业大学2西蒙弗雷泽大学图1:Scan 2CAD将RGB-D扫描和一组3D CAD模型(左)作为输入。然后,我们提出了一种新的3D CNN方法来预测扫描和CAD模型之间的热图对应关系(中)。从这些预测中,我们制定了能量最小化,以找到最佳的9自由度物体姿态,用于CAD模型与扫描(右)对齐摘要我们提出了Scan 2CAD1,一种新的数据驱动的方法,学习对齐干净的三维CAD模型从形状数据库的噪声和不完整的几何图形的RGB- D扫描。对于室内场景的3D重建,我们的方法将一组CAD模型作为输入,并预测将每个模型与底层扫描几何结构对齐的9DoF姿势。为了解决这个问题,我们创建了一个新的扫描到CAD对齐数据集,该数据集基于1506个ScanNet扫描,其中包含ShapeNet中的14225个CAD模型及其扫描中的对应对象之间的97607个注释关键点对。我们的方法在3D扫描中选择一组代表性的关键点,我们发现这些关键点与CAD几何形状相对应为此,我们设计了一种新的3D CNN架构来学习真实和合成对象之间的联合嵌入,从而预测对应的热图。基于这些对应的热图,我们制定了一个变分能量最小化,将一组给定的CAD模型与重建对齐。我们在新引入的Scan2CAD基准上评估了我们的方法,在该基准中,我们的性能优于手工制作的特征描述符以及最先进的基于CNN的方法21。百分之三十九1Scan2CAD 数 据集 与 用 于测 试 的 自动 基 准测 试 脚 本一 起 在www.Scan2CAD.org下公开发布1. 介绍近 年 来 , 消 费 级 RGB-D 传 感 器 ( 如 MicrosoftKinect、 Intel Real Sense或 Google Tango )的 广泛应用,使RGB-D重建取得了重大进展。我们现在有3D重建框架,通常基于体积融合[6],实现令人印象深刻的重建质量[18,29,30,40,21]和可靠的全局姿态对准[40,5,8]。与此同时,用于3D对象分类和语义分割的深度学习方法已经成为大规模注释重建数据集的主要消费者[7,2]。这些发展表明3D数字化在未来的巨大潜力,例如,在虚拟和增强现实应用中尽管在重建质量上有了这些改进,但室内场景重建的几何完整性和精细尺度细节仍然是一个根本的限制。与艺术家创建的计算机图形模型相比,由于传感器噪声,运动模糊和扫描模式,3D扫描是嘈杂和不完整的用于对象和场景完成的基于学习的方法[9,37,10]不能可靠地重新覆盖尖锐边缘或平面表面,导致质量远离艺术家建模的3D内容。解决该问题的一个方向是从形状数据库中检索一组CAD模型,并将它们与输入扫描对齐,这与自底向上的CAD模型重建相反。2615场景几何体。如果以这种方式替换所有对象,我们将获得干净紧凑的场景表示,精确地服务于从AR/VR场景到建筑设计的许多应用的要求不幸的是,将CAD模型与扫描几何形状匹配是一个非常具有挑战性的问题:虽然高级几何结构可能相似,但低级几何特征显著不同(例如,表面正态分布)。这严重限制了手工制作的几何特征的适用性,例如FPFH [33],SHOT[35],点对特征[11]或基于SDF的特征描述符[25]。虽然存在基于学习的方法,如随机森林[28,36],但它们的模型容量仍然相对较低,特别是与基于深度学习的更现代的方法相比,后者可以实现更高的准确性,但仍处于起步阶段。我们认为,这在很大程度上是由于缺乏适当的培训数据。在本文中,我们做出了以下贡献:• 我们介绍了Scan2CAD数据集,这是一个大规模的数据集,包括97607个成对关键点对应。在3049个独特合成模型的14225个实例之间,ShapeNet [3]和ScanNet [7]中的重建扫描之间,以及每个对象的定向边界框之间,• 我们提出了一种新的3D CNN架构,该架构学习真实和合成3D对象之间的联合嵌入,以预测真实和合成3D对象之间的准确对应热图。两个领域。• 我们提出了一种新的变分优化公式,以最小化扫描关键点与其对应热图之间的距离,从而获得鲁棒性。9DoF扫描到CAD对齐。2. 相关工作RGB-D扫描和重建低成本RGB-D传感器的可用性导致了RGB-D 3D重建的重大研究进展。一个非常突出的研究方向是基于体积融合[6],其中深度数据集成在体积符号距离函数中。许多现代实时重建方法,如KinectFusion [18,29],都是基于这种表面表示。为了使表示更节省内存,已经提出了八叉树[4]或基于散列的场景表示[30,21]。另一种融合方法基于点[22];重建质量略低,但在处理场景动态时具有更大的灵活性,并且可以在运行中适应循环闭合[40]。最近的RGB-D重建框架将有效的场景表示与全局姿态估计相结合[5],甚至可以使用全局循环闭合执行在线更新[8]。一个与我们的研究方向(以及一个可能的应用)密切相关的方向是将物体识别为SLAM方法的一部分,并使用检索到的对象作为全局姿态图优化的一部分[34,27]。几何特征在计算机视觉中具有悠久的历史,例如自旋图像[20],快速点特征直方图(FPFH)[33]或点对特征(PPF)[11]。基于这些描述符或它们的变体,研究者们开发了形状检索和对齐方法。例如,Kim et al. [24]从输入扫描中学习可变形部件模型形式的形状先验,以在测试时找到匹配;或AA 2 h [23]使用与PPF类似的方法,其中样本点的正态分布直方图用于检索。Li等人[25]提出了一种基于手工制作的TSDF特征描述符的公式,以实时将CAD模型与RGB-D扫描对齐。虽然这些基于手工制作的几何特征的检索方法显示出初步的希望,但它们难以概括干净的CAD模型和嘈杂的不完整的真实世界数据的不同数据特征之间另一个方向是学习几何特征描述器。例如,Nan etal.[28]使用随机决策森林对来自高质量扫描的过分割输入几何学上的对象进行分类。Shao等人[36]介绍了一种半自动系统来解决分割歧义,其中用户首先将场景分割成语义区域,然后应用形状检索。3DMatch [43]利用Siamese神经网络来匹配3D扫描中的关键点以进行姿态估计。Zhou等人[44]具有类似的性质,提出了RGB-D图像数据上的3D关键点预测网络受这些方法的启发,我们开发了一种基于3D CNN的方法,目标是CAD模型的合成域与RGB-D扫描数据的真实域之间的对应关系其他方法检索并对齐给定单个RGB [26,19,38,17]或RGB-D [12,45]图像的CAD模型。这些方法是相关的,但我们的重点是独立于RGB信息的几何对齐,而不是CAD到图像。形状检索的挑战和RGB-D数据集形状检索挑战最近被组织为Eurographics 3DOR的一部分[16,32]。 在这里,任务被公式化为来自ScanNet [7]和SceneNN [15]的对象实例与来自ShapeNetSem数据集[3]的CAD模型的匹配。评价仅考虑二元类内与类外(和子类)匹配作为相关性的概念。因此,此评估不涉及扫描对象和CAD模型之间的对齐质量,这是我们的重点。ScanNet [7]为注释对象实例的一个小子集(总共36000个对象中只有200个对象)提供对齐的CAD模型。此外,对齐2616由于注释任务是由众包执行的,因此质量很低,存在许多对象类别不匹配和对齐错误。PASCAL 3D+ [42]数据集注释了PASCAL VOC图像中的13898个对象,并根据代表性CAD模型定义了粗略的Object-Net 3D [41]提供了一个与2D图像对齐的CAD模型数据集,大约90K图像中的200 K对象实例。IKEA objects [26]和Pix 3D[38]数据集类似地提供了一小组可识别的CAD模型与现实世界中相同对象的2D图像的对齐;前者有759幅图像,标注了90个模型;后者有10069幅图像,标注了395个模型。没有现有的数据集提供细粒度的对象实例对齐在我们的Scan2CAD数据集的规模与14225 CAD模型(3049个独特的实例)注释到他们的扫描对应分布在1506三维扫描。3. 概述任务我们解决了干净的CAD模型和来自RGB-D融合的噪声、不完整的3D扫描之间的对齐,如图所示。1.一、给定3D场景S和一组3D CAD模型M={mi},目标是为每个CAD模型mi找到9DoF变换Ti(平移、旋转和缩放各3度),使得其与扫描中的语义匹配对象O={oj}对准一个重要请注意,我们不能保证3D模型的存在其精确地匹配扫描对象的几何形状。数据集和基准测试4、介绍了Scan2CAD数据集的结构。我们提出了一个注释管道设计用于训练的注释。注释器首先检查3D扫描并从CAD数据库中选择与扫描中的目标对象几何相似的模型然后,对于每个模型,注释器在扫描中定义模型和对象之间的对应关键点对从这些关键点,我们计算地面实况9自由度对齐。我们对整个ScanNet数据集进行注释,并使用原始的训练、验证和测试分割来建立我们的对齐基准。热图预测网络在秒。 5,我们提出了一种3D CNN,将扫描中候选关键点周围的体积和CAD模型的体积表示作为输入。训练网络以预测CAD体积上的对应热图,表示扫描中的输入关键点与每个体素匹配的可能性。热图预测被公式化为分类问题,其比回归更容易训练,并且产生姿态优化所需的稀疏对应对准优化6描述了我们的变分对齐优化。为了在3D扫描中生成候选对应点,我们检测Harris关键点,并预测每个Harris关键点(a) 第一步:检索视图。(b) 第二步:路线视图。图2:我们的注释Web界面是一个两步过程。(a)当用户将锚点放置在扫描表面上之后(b)然后,用户在扫描和CAD模型之间注释关键点对CAD模型。使用预测的热图,我们找到最佳的9DoF变换。通过几何置信度度量修剪错误对齐。4. 数据集我们的Scan2CAD数据集基于ScanNet [7]的3D扫描和ShapeNet [3]的CAD模型。每个场景S包含多个对象O={oi},其中每个对象oi与ShapeNet CAD模型mi匹配,并且两者共享多个关键点对(对应关系)和一个关键点对。定义对齐的变换矩阵Ti。请注意,ShapeNet CAD模型具有一致定义的正面和直立方向,这会为每个扫描对象引入非模态紧定向边界框,参见图。3.第三章。4.1. 数据注释注释是通过一个Web应用程序完成的,该应用程序允许简单地缩放和分发注释作业;参见图2。注释过程分为两个步骤。第一步是对象检索,用户单击3D扫描表面上的一个点,从ScanNet对象实例注释中隐式确定对象类别标签。我们使用实例类别标签作为ShapeNet数据库中的查询文本来检索和显示所有匹配2617图3:(左)从ScanNet [7]的实例分割中计算出的定向边界框(OBB)通常由于缺少几何形状而不完整(例如,在这种情况下,缺少椅子腿)。(右)我们的OBB是从对齐的CAD模型中导出的,因此是完整的。CAD模型在一个单独的窗口,如图2a所示。选择CAD模型后,用户执行对齐。在对准步骤中,用户看到两个单独的窗口,其中示出了CAD模型(左)和扫描对象(右)(参见图2b)。通过交替点击CAD模型和扫描对象上的成对点来定义我们要求用户指定至少6个关键点对,以确定一个强大的地面真理变换。指定关键点对后,通过单击按钮触发对齐计算。该对齐(给定精确的1对1对应关系)使用遗传算法CMA-ES[14,13]求解,该算法在9个参数上最小化点对点距离。与基于梯度的方法或Procrustes叠加方法相比,我们发现这种方法在可靠地返回高质量比对方面表现得更好,更少的初始化。这些关键点对和比对的质量在几次验证中得到了验证,并进行了重新注释,以确保数据集的高质量。验证通行证由本工作的作者进行。ShapeNet CAD模型的一个子集具有对称性,在建立对应关系方面发挥着重要作用因此,我们用旋转对称性注释了数据集中使用的所有ShapeNet CAD模型,以防止评估中的假阴性。我们定义了一个环的2-重(C2)、4-重(C4)和无限(C∞)旋转对称对象的canonical axis4.2. 数据集统计数据注释过程产生了97607个关键点对14225(3049个独特的)CAD模型,其各自的扫描对应物分布在总共1506个。3049个CAD模型中约有28%具有对称标记(C2、C4或C∞)。考虑到任务的复杂性并确保高质量的注释,我们雇用了7名兼职注释员(与众包相反)。平均而言,每个场景都被编辑了1。在整个重新注释周期中重复了76前3名的注释模型类是椅子,桌子和橱柜,这是由于室内场景的性质而产生的,扫描网每个场景对齐的对象数量范围从1到40,平均为9。3 .第三章。平均需要2个注释者。48分钟来对准每个对象,其中找到合适的CAD模型的时间支配了关键点放置的时间整个场景的平均注释时间为20。52分钟值得注意的是,扫描和CAD模型之间手动放置的关键点对应关系与从Harris角检测器中提取的关键点对应关系存在显著差异。在此,我们将与标注的CAD关键点的平均距离与以下值进行比较:(1)对应的注释扫描关键点(= 3. 5cm)和(2)扫描中最近的Harris关键点(= 12. 8厘米)。4.3. 基准使用我们的注释数据集,我们设计了一个基准来评估扫描到CAD的对齐方法。只有当CAD模型的类别与扫描对象的类别相匹配并且姿态误差在相对于地面真实CAD的平移、旋转和缩放范围内时,模型对准才被视为成功。我们不强制严格的实例匹配(即,匹配地面实况注释的精确CAD模型相反,我们将相同类别的CAD模型视为可互换的(根据ShapeNetCorev2顶级同义词集)。一旦CAD模型被确定为正确对齐,则从候选池中移除地面实况对应物,以防止对同一对象的多次对齐。路线是完全参数化的9位姿参数。基于边界框重叠(IoU)的定量测量可以很容易地用这些参数计算,因为CAD模型是在单元框上定义的。 误差对于平移、旋转和缩放,成功对准的阈值分别设置为≤20cm、≤20cm和≤20%(有关详细的误差分析,请参见sup.js)。补充的)。 旋转误差计算取C2、C4和C∞考虑了旋转版本。Scan2CAD数据集和相关的对称注释可供社区使用。为了对未来的方法进行标准化比较,我们在一个隐藏的测试集上运行一个自动化测试脚本,该测试集可以在www.example.com下找到www.Scan2CAD.org。5. 对应预测网络5.1. 数据表示扫描数据由编码在体积网格中的带符号距离场(SDF)表示,并通过体积融合[6]从RGB-D重建的深度图(体素分辨率=3cm,截断=15cm)生成。对于CAD模型,我们使用Batty [1]的水平集生成工具包计算无符号距离场(DF)。26182图4:Scan2CAD方法的3D CNN架构:我们将3D扫描中给定关键点周围的SDF块和CAD模型的DF作为输入这些数据用3D CNN编码,以学习合成数据和真实数据之间的共享嵌入;由此,我们对两个输入之间是否存在语义兼容性进行分类(顶部),预测CAD空间中的对应热图(中间)以及输入之间的比例差异(底部)。5.2. 网络架构我们的架构将一对体素网格作为输入:SDF以扫描中的一个点为中心,具有64 3尺寸的大感受野,以及32 3尺寸的特定CAD模型的DF。我们使用一系列卷积层来分别编码每个输入流(见图4)。这两个编码器将体积表示压缩成紧凑的fea。43×64(扫描)和43×8(CAD)的真实体积,然后在传递到解码器级之前将其连接起来解码器阶段预测三个输出目标,热图,兼容性和比例,如下所述:热图第一输出是CAD模型的323体素域N∈N3上的热图H:N→[0,1],这在-指示将每个体素与扫描SDF的中心点匹配的概率。我们使用组合的二进制交叉熵(BCE)损失和负对数似然(NLL)来训练网络,以预测最终的热图H。的解码器中最后一层的原始输出S:N→R用于生成热图:H1:H2→[0,1],x<$→ sigmoid(S(x))H2:Ω→[0,1],softmax(S(x))Σ ΣL=w(x)·BCE(H,H)+v·NLL(H,H)是用两个热图变体的逐元素乘法构造的:H=H1H2。兼容性第二预测目标是指示扫描和CAD之间的语义兼容性的单个概率得分∈[0,1]本类别等效性评分当类别标签不同时为0(例如,扫描台和CAD椅)和1(当类别标签匹配时)(例如,扫描椅和CAD椅)。这个输出的损失函数是一个sigmoid函数,后面跟着一个BCE损失:我明白。=BCE( sigmoid(x),xGT)第三个输出预测CAD模型到相应扫描的比例∈R3请注意,我们没有明确地强制预测的积极性。该损失项是预测x∈R3的均方误差(MSE):L标度=MSE(x,xGT)=x−xGT2最后,为了训练我们的网络,我们使用所呈现的损失的加权组合:L= 1。0 L H+0. 1 L compat. + 0。2L规模其中每个损耗分量的权重是经验性地确定的,以用于平衡收敛。Hx∈Ω1GTx∈Ω2GT5.3. 训练数据生成其中w(x)= 64。0,如果HGT(x)>0。0其他1. 0,v= 64是加权因子,用于增加体素网格中的少数稀疏正关键点体素的信号(约99%的目标体素具有等于0的值)。sigmoid和softmax项的组合是以下两者之间的折衷:高召回率,但低精度使用sigmoid,和更局部尖锐的关键点预测使用softmax在所有vox-els。最终的目标热图,稍后用于对齐,体素网格以扫描体积为中心的生成投影到扫描体素网格的注释的关键点,然后裁剪它周围的裁剪窗口为633。地面实况热图通过将注释的关键点(和任何等效关键点)投影到CAD体素网格中来生成。然后,我们使用高斯模糊内核(σ= 2。0),以考虑小的关键点注释误差并避免损失残差中的稀疏性。26192MiMi3训练样本使用我们的注释数据集,我们生成N P,ann。=97607个正训练对,其中一个对由注释的扫描关键点和相应的CAD模型组成。此外,我们创建N P , aug 。=10·NP,ann. ,通过随机采样CAD表面上的点来增强正关键点对,经由地面真值变换将它们投影到扫描,并且如果扫描中到表面的距离≥3cm则拒绝。总的来说,我们-erateN P= N P,ann. + N P,aug. 积极的训练对。从剩余的K过滤器变分优化。通过使用Harris关键点,我们为每个CAD模型m i构建点-热图对(p j,H j),其中p j∈R 3是扫描中的点,H j:R → [0,1]是热图。为了找到一个最佳的姿势,我们构建了以下内容-最小化问题:cvox=Tworld→vox·Tmi(a,s)·pjΣN负对通过两种方式生成:(1)在扫描中随机选择一个体素点,随机CADf=最小a,s(1−Hj(cvox))2+λs<$s<$2J(一)模型(假阴性的可能性极低)。(2)获取带注释的扫描关键点并将其与不同类别的随机CAD模型我们用(1)生成NN=NP负样本,用(2)生成NHN=NP负样本因此,训练集具有1:2(NP:NN+NHN)的阳性与阴性比率。我们发现负对的过度表示在com上提供了令人满意的性能其中cvox是体素坐标,Tworld→vox表示反式坐标。将世界点映射到体素网格中进行查找的构造,a表示李代数的坐标(用于旋转和平移),s定义尺度,λs定义尺度正则化强度。a,s构成变换矩阵T mi = T(a mi,s mi):R:R6×R3→R4×4,相容性预测a,s›→expm. ΣΓ(a一、二、三ΣΣ Σ Σ)a 4、5、6·s05.4. 训练过程我们使用SGD优化器,批量大小为32,初始学习率为0。01,每50K次迭代减少1/2。我们训练了25万次迭代(2062年)。5小时)。权重随机初始化。 热图预测流的损失和尺度预测流被屏蔽,使得只有正样本构成0 0 0 1其中,Γ是帽子映射,expm是矩阵指数。我们求解Eq。 1使用Levenberg-Marquardt(LM)al-出租m.由于我们可能会遇到零梯度(特别是在初始化不好的情况下),我们从热图中构建了一个尺度金字塔,并以从粗到精的方式进行求解。在每个LM步骤中,我们对增量变化进行优化并更新参数,如下所示:T k+1←用于反向传播的残差。φ(a,s)·Tk其中,a、s是最优参数。作为CAD编码器使用自动编码器进行预训练,ShapeNet模型具有重建任务和MSE作为损失函数。ShapeNetCore(1055K)的所有模型都用于预训练,输入和输出维度为323距离场网格。该网络使用SGD进行训练,直到收敛(约50个epochs)。6. 对齐优化我们的比对优化的输入是Harris关键点的代表性集合K ={p j},j=1。. .从场景S和一组CAD模型M ={mi}。K和M之间的对应关系是由先前的对应预测建立的。阶段(见第二节) 5)其中,针对每个模型m i测试每个关键点p j。由于不是每个关键点pj都与每个CAD模型mi语义匹配,因此我们基于我们的网络的兼容性预测拒绝对应性。拒绝pj的阈值由Otsu阈值方案[31]确定。在实践中,这种方法被证明是非常有效的。比固定阈值更有效。滤波后有N≤N0(通常N≤0)。1N0)对应对以用于比对优化。在Eq. 1,我们在尺度上添加正则化,以防止退化的解决方案,这可能会出现非常大的规模。通过用不同的平移参数重新开始优化(即,变化的初始化),我们获得每个CAD模型m i的多个比对。然后,我们生成尽可能多的CAD模型对齐所需的一个给定的场景中的评估。注意,在地面实况场景中,一个唯一的CAD模型m i可以出现在多个位置,例如,会议室里的椅子修剪最后,将各种CAD模型对齐到一个场景中,其中一个子集将未对齐。为了只选择最佳对齐并修剪潜在的不对齐,我们使用类似于[25]的置信度度量;更多细节,请参阅附录。7. 结果7.1. 对应预测为了量化对应热图预测的性能,我们评估预测及其高斯模糊目标的逐体素F1分数。任务是chal-随机和通过设计2个测试样本是假对应,1099%的目标体素是0值,只有一个2620基础[+变量,.]浴书架内阁椅子显示沙发表垃圾桶其他类平均值avg.+sym46.8844.3940.4964.4626.8556.2647.1538.4324.6843.2948.01+sym,+scale51.3545.4645.2466.9429.8864.7848.3038.0028.6546.5150.85+sym,+CP59.3251.9355.1170.9941.5866.7753.7443.3942.9353.9760.44+规模,+CP45.2445.8547.1661.5527.6551.9241.2131.1329.6242.3747.64+sym,+scale,+CP56.0551.2857.4572.6436.3670.6352.2846.8043.3254.0960.43+对称,+刻度,+CP,+PT(3/3固定)57.0350.6356.7670.3939.7465.0052.0346.8741.8353.3658.61+对称,+刻度,+CP,+PT(1/3固定)60.0858.6256.3573.9244.1975.0856.8045.7846.5357.4863.94表1:对应预测F1-分数(%),对应预测网络的变化 我们评估了对称性(sym),预测尺度(scale),预测兼容性(CP),编码器预训练(PT)以及部分编码器固定(#fix)的预训练的效果,参见第二节。 5有关我们的网络设计和培训计划的更多详细信息。存在32个3体素中的单个1值体素F1分数只有通过识别真正的对应关系才能增加。如Tab中所示。1、我们最好的3D CNN达到63. 百分之九十四选项卡. 1还解决了我们的设计选择;特别是,我们评估了使用预训练(PT)的效果,使用兼容性(CP)作为代理损失(定义见第2节)。 5.2),使对称意识(sym),并预测规模(规模)。在这里,预先训练的网络减少了过度拟合,增强了泛化能力。针对兼容性的优化大大提高了热图预测,因为它可以有效地检测错误的对应关系。虽然预测规模对热图预测的影响很小,但它对后期对齐阶段非常有效。此外,通过解释消除对称关键点匹配的歧义,引入对称性可以实现显著的改进。7.2. 对准在下文中,我们将我们的方法与其他手工特征描述符进行比较:FFPH [33],SHOT [39],Li等人[25]和学习的特征描述符:3D匹配[43](在我们的Scan2CAD数据集上训练)。我们将这些描述符与RANSAC离群值拒绝方法相结合,以获得CAD模型输入集的姿态估计关于基准的详细说明见附录。如Tab中所示。2、我们的最佳方法达到31. 68%,并优于所有其他方法的显着保证金。此外,我们还在图中显示了定性结果。 五、与最先进的手工特征描述符相比,我们的学习方法由我们的Scan2CAD数据集提供支持,可以产生更可靠的对应关系和CAD模型对齐。即使与3DMatch的学习描述符方法相比,我们在合成域和真实域之间的显式学习加上我们的对齐优化也显著改善了CAD模型对齐。图6显示了我们的方法在不受约束的现实世界设置中对齐的能力,其中未给出地面真实CAD模型,而是提供了来自ShapeNet的一组400个随机CAD模型[3]。图5:四个不同测试ScanNet [7]场景的比对定性比较我们学习真实数据和合成数据之间的几何特征的方法产生了更可靠的关键点对应关系,再加上我们的对齐优化,产生了更准确的对齐。2621浴书架内阁椅子显示沙发表垃圾桶其他类平均值avg.FPFH(Rusu et al. [33])0.001.920.0010.000.005.412.041.752.002.574.45SHOT(Tombari等人[39])0.001.431.167.080.593.571.470.440.751.833.14Li等人[25日]0.850.951.1714.080.596.252.951.321.503.306.033DMatch(Zeng et al. [43])0.005.672.8621.252.4110.916.983.624.656.4810.29Ours:+sym24.3010.615.979.493.9025.2612.3410.743.5811.808.772我们的:+sym,+scale18.9913.617.2414.739.7641.0514.045.266.2914.5511.48Ours:+sym,+CP35.9032.3528.6440.4818.8560.0033.1128.4216.8932.7429.42我们的:+规模,+CP34.1831.7621.8237.0214.7550.5332.3131.0511.5929.4526.75Ours:+sym,+scale,+CP36.2036.4034.0044.2617.8970.6330.6630.1120.6035.6431.68我们的:+sym,+scale,+CP,+PT(3/3 fix)37.9730.1528.6441.5519.5157.8933.8520.0017.2231.8629.27Ours:+sym,+scale,+CP,+PT(1/3 fix)34.8136.4029.0040.6023.2566.0037.6424.3222.8134.9831.22表2:我们的CAD对准基准的精度比较(%)。虽然手工制作的特征描述符可以在更有特征的对象上实现某种对齐(例如,椅子、沙发),它们不能很好地容忍扫描和CAD数据之间的几何差异Scan2CAD直接解决了学习跨这些领域概括的特征的问题,从而显著优于最先进的技术。图6:无约束场景,我们使用一组从ShapeNetCore [3]中随机选择的400个CAD模型,而不是给出一组CAD模型的基础事实,更接近地模仿现实世界的应用场景。8. 限制虽然这项工作的重点主要是3D扫描和CAD模型之间的对齐,我们只提供了一个基本的算法组件检索(找到最相似的模型)。这需要对一组CAD模型进行详尽的搜索。我们认为,在这方面,接下来的一个此外,我们目前只考虑几何信息,将学习的颜色特征引入到核心中也是有趣的。响应预测,因为RGB数据通常比深度或几何结构具有更高的分辨率,并且可以潜在地改进对准结果。9. 结论在这项工作中,我们提出了Scan2CAD,它通过以热图的形式预测对应关系,然后优化这些对应预测,将一首先,我们介绍了一个新的数据集的9DoF CAD扫描对齐与97607成对的关键点注释定义14225个对象的对齐。基于这个新的数据集,我们设计了一个3D CNN来预测CAD模型和3D扫描之间的对应热图。从这些预测的热图中,我们制定了一个变量成本最小化,然后找到CAD模型和扫描之间的最佳9DoF姿态对齐,使噪声,不完整的RGB- D扫描有效转换为干净,完整的CAD模型表示。这使我们能够实现比最先进的方法更精确的结果,我们希望我们的数据集和基准将激励未来的工作,使RGB-D扫描达到CAD或艺术家建模的质量。确认我们要感谢专家注释员Soh Yee Lee、Rinu ShajiMariam 、 Suzana Spasova 、 Emre Taha 、 Se- bastianThekkekara和Weile Weng为构建Scan 2CAD数据集所做的努力。我们感谢与于尔根·斯特姆进行的宝贵讨论。这 项 工 作得 到 了Occipi-tal、ERC Starting Grant Scan2CAD(804724)、Google Faculty Award和ZD. B的支持我们还要感谢TUM-IAS的支持,该支持由德国卓越计划和欧盟第七框架计划根据赠款协议n 291763资助,用于TUM-IASRudolfM oßbauerFello wship和Hans-Fisher奖学金(焦点小组视觉计算)。2622引用[1] C.巴蒂SDF生成https://github.com/christopherbatty/SDFGen. 4[2] A. Chang,A.戴氏T.Funkhouser M.Halber,M.尼斯纳M. Savva , S. Song , 中 国 黑 杨 A. Zeng 和 Y. 张 某Matterport3D:从室内环境中的RGB-D数据学习。国际3D视觉会议(3DV),2017年。1[3]A. X. 张, T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. 苏肖湖,加-地Yi和F. Yu. ShapeNet:一个信息丰富的3D模型库。技术报告arXiv:1512.03012 [cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所,2015年。二三七八[4] J.Chen,D. Bautembach和S.伊扎迪可扩展的实时体积表面重建。ACM Transactions on Graphics(TOG),32(4):113,2013。2[5] S. Choi,Q.- Y. Zhou和V.科尔顿。室内场景的鲁棒重建 。 在 2015 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,第5556IEEE,2015年。 一、二[6] B. Curless和M.勒沃从距离图像建立复杂模型的体积法在第23届计算机图形和交互技术年会的会议记录中,第303-312页。ACM,1996年。一、二、四[7] A. Dai , A. X. 张 , M 。 Savva , M. Halber , T.Funkhouser和M.尼斯纳ScanNet:室内场景的 在proc 计算机视觉和模式识别(CVPR),IEEE,2017。一二三四七[8] A. 戴,M. Nießne r,M. Zol l hofer,S. Izadi和C. 希奥博尔特Bundlefusion:实时全球一致的三维重建使用的飞 行 表 面 重 新 整 合 。 ACM Transactions on Graphics(TOG),36(3):24,2017。一、二[9] A.戴角,澳-地R. Qi和M.尼斯纳使用三维编码器预测器cnn和形状合成的形状完成。在Proc.计算机视觉和模式识别(CVPR),IEEE,2017。1[10] A. Dai,D.Ritchie,M.Bokeloh,S.Reed,J.斯特姆,和M.尼斯纳扫描完成:3d扫描的大规模场景完成和语义分割。arXiv预印本arXiv:1712.10215,2018。1[11] B. Drost和S.伊利克使用多模态点对特征的3d对象检测和定位。2012年第二届3D成像、建模、处理国际会议,可视化传输,第9-16页。IEEE,2012。2[12] S. 古普塔山口阿尔贝拉兹河。Girshick和J. 马利克将3D模型与杂乱场景的RGB-D图像对齐。在IEEE计算机视觉和模式识别会议的会议论文集,第4731-4740页,2015年。2[13] N.汉森在bbob-2009函数测试平台上对双种群cma-es进行基准测试。在第11届遗传和进化计算年会上:最新的突破文件,第2389-2396页。ACM,2009年。4[14] N. Hansen ,S. D. Müller和P. Koumoutsa k os. 降低去随机化进化策略协 方 差 矩 阵 自 适 应 ( CMA-ES ) 。 演 化 计 算 , 11(1):1-18,2003. 4[15] B.- S. 华,Q.-H. Pham,D.T. Nguyen,M.-K. 特兰湖F.Yu和S.- K.杨Scenenn:带有注释的场景网格数据集。在3D Vision(3DV),2016年第四届国际会议上,第92-101页。IEEE,2016. 2[16] B.- S. 阿华 问:T. 张 M.- K. 特兰 问:H. 范A. Kanezaki,T. Lee,H.蒋,W。许湾,澳-地Li,Y. Lu等人shrec 17:Rgb-d到cad检索与objectnn数据集。2[17] S. Huang,S. Qi,Y. Zhu,Y.肖氏Y. Xu和S.- C.竹从单个RGB图像解析和重建整体3D场景。欧洲计算机视觉会议,第194-211页。Springer,2018. 2[18] S. 伊萨迪D.Kim,O.希利格斯,D。莫利诺河纽科姆P. Kohli , J. Shotton , S. Hodges , D. Freeman , A.Davison等人运动融合:使用移动深度照相机的实时3D重建和交互。第24届ACM用户界面软件和技术研讨会集,第559-568页。ACM,2011年。一、二[19] H. Izadinia,Q. Shan和S. M.塞茨Im2cad。在计算机视觉和模式识别(CVPR),2017年IEEE会议上,第2422-2431页。IEEE,2017年。2[20] A. E.约翰逊自旋图像:用于3D表面匹配的表示。1997.2[21] O. K aühler,V.A. 普里萨卡留角Y. Ren,X.Sun,P.T或r,以及D.默里移动设备上深度图像的非常高的帧速率体积集成 。 IEEE transactions on visualization and computergraphics,21(11):1241-1250,2015. 一、二[22] M. Keller , D. Lefloch , M. Lambers , S. Izadi , T.Weyrich和A.科尔布基于点融合的动态场景实时三维重建在3D Vision-3DV 2013,2013国际会议上,第1-8页。IEEE,2013。2[23] Y. M.金,N. J. Mitra,Q. Huang和L. Guibas引导实时扫描室内物体。在Computer
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功