没有合适的资源?快使用搜索试试~ 我知道了~
5543学习结构化潜在空间实现无监督点云补全蔡颖杰1,郭焕-李怡1*,张超2,王强2,王晓刚1,李洪生1*1香港中文大学-商汤科技联合实验室2三星中国研究院-北京(SRC-B)caiyingjie@link.cuhk.edu.hk摘要无监督点云完备化的目的是以不成对的方式估计部分点云对应的完整点云这是一个关键但具有挑战性的问题,因为没有配对的部分完全监督,可以直接利用。在这项工作中,我们提出了一个新的框架,它学习一个统一的和结构化的潜在空间,编码部分和完整的点云。具体地说,我们将一系列相关的局部点云映射成多个完整的形状和闭合码对,并将这些码对进行融合,以获得它们在统一潜空间中的表示。为了加强对这种结构化潜在空间的学习,该方法采用了一系列约束,包括结构化排序正则化、潜在代码交换约束和对相关部分点云的分布式监督。通过建立这样一个统一的、结构化的隐空间,可以获得更好的部分完备几何一致性和形状完备精度。大量实验表明,我们提出的方法在合成ShapeNet和真实世界的KITTI、ScanNet和Matterport3D数据集上的性能始终优于最先进的无监督方法。1. 介绍点云补全的目的是估计部分点云的相应完整点云,这是一项重要任务,可以帮助下游应用,如形状分类[17,26导航[12,31]和场景理解[1,2,10,19],因为原始点云通常是嘈杂的,稀疏的和局部的。尽管完全监督的点云完成方法[21,22,25,43,45,48- 然而,很难收集z图1.统一和结构化的潜在空间的图示,其中任何点云都可以表示为完整的形状代码z和相应的遮挡代码o。我们以无监督的方式通过适当地正则化这些代码来完成部分点云。最好用彩色观看。在成对的真实数据或成对的合成数据上训练的并行网络不能充分地推广到实际扫描,因为它们的数据分布可能与训练样本的数据分布不匹配。一个有前途的替代解决方案是在设置之后以不成对的方式学习复杂网络[6,41,44,52]。然而,这是一个更具挑战性的设置,因为没有可以直接采用的配对和准确的逐点为了解决这个问题,提出了不同的方法,采用不同类型的监督从不成对的数据。代表性工作[52]采用GAN反演进行3D形状完成。它训练了一个完整的点云生成器与对抗损失。在推理过程中,通过最小化部分-完全一致性损失,可以通过数百次梯度下降迭代来恢复最佳形状代码。可以保持预测点云与输入点云的一致性然而,逆优化算法通常是不稳定的,如果使用不当,来自真实世界扫描的配对数据。此外,这样的COM-1一致性描述预测的点云是否代表*H. Li和K. Lin为共同通讯作者。与部分输入相同的对象。统一潜空间完成完整形状代码(z′′,o′′)(z,o)z= zY = zYYo> oY> oYY闭塞代码O5544∼初始代码,不合适的学习率或太多的迭代等。反演过程比直接方法(3500倍)耗时得多。另一个代表性的非监督工作[41]利用循环监督,通过学习完整和不完整形状(点云)的潜在空间之间的双向变换来间接增强一致性然而,双向转换需要单独建模并且难以学习,特别是对于完全到部分映射。如果一个方向学得不好,另一个方向也会受到相应的影响。总之,在没有直接和准确的成对监督的情况下,设计适当的监督并应用于无监督点云完成这项任务是非常重要的。为此,我们建议创建一个统一的和结构化的潜在空间编码部分和完整的形状。为了对无监督点云完成应用强监督,我们假设每个部分形状都是通过遮挡一个完整的形状来创建的如果一个完整的形状被遮挡而在3D空间中变成部分,那么它在潜在空间中的代码也应该相应地从一个完整的形状代码中被我们将潜在空间中完整代码的“遮挡”建模然而,我们不是手动确定遮挡权重,而是从训练数据中学习它们通过这种方式,完整和部分形状在统一的潜空间中是强有界的此外,为了更好地正则化来自同一完整形状的部分点云之间的关系,需要遮挡更严重的形状的遮挡代码具有比遮挡较少的形状的遮挡代码更小的权重。具体地说,为了学习统一的潜在空间,我们用两个代码来表示任何部分或完整的点云:一个完整的形状代码和一个遮挡代码。完整的形状代码可以被馈送到完成解码器中以重构对应的完整点云。通过将上述两个代码相乘而得到的“包含”形状代码可以被馈送到部分解码器中以重构部分形状。此外,我们通过逐渐从局部形状中移除更多点来创建一系列相关的局部点云,并根据其相对遮挡程度通过N对损失[36它们的完整形状代码要求相等,因为它们表示相同的对象。采用这种设计合理的强监督,可以重建出更精确、更完整的点云,具有更好的几何一致性和形状细节。我们对流行的点云完成基准进行了实验,包括合成数据集(ShapeNet [23])和真实数据集(KITTI [13],ScanNet [9]和Matter-port 3D [3])。所提出的方法优于最先进的无监督方法[6,41,44,52]。我们的主要贡献概述如下:• 我们建议学习一个统一的和结构化的潜在空间的无监督点云完成,编码部分和完整的点云,以提高部分-完整的几何一致性,并导致更好的形状完成精度。• 我们建议约束一系列相关的部分点云的完整代码和遮挡代码,以增强结构化潜在空间的学习。• 实验结果表明,所提出的方法优于国家的最先进的无监督点云完成方法在合成和真实数据集。2. 相关工作点云完成。点云完成在许多下游应用中发挥了重要作用,例如机器人[12,31]和感知[1,2,10,20],自开创性工作PCN [51]提出以来,已经取得了重大发展。大多数现有的方法,如[6,11,22,22,25,29,37,39,42,48,50,53]都是以完全监督的方式训练的虽然监督点云完成方法已经取得了令人印象深刻的结果,但它们很难推广到现实世界的扫描,因为配对数据很难收集实际扫描,并且它们的数据分布可能不匹配。Pcl2pcl [6]首先提出以无监督的方式完成部分形状,而不需要配对数据,其训练两个单独的自动编码器,分别用于重建完整形状和部分形状,并学习从部分形状的潜在空间到 的完整的。其后续工作[44]从部分 输入 输出 多个 看似 完 整的 形状 。基 于Pcl2pcl,Cycle4completion [41]利用部分到完整方向的额外完整到部分潜在空间变换另一个无监督工作ShapeInversion[52]提出应用GAN反演,其利用从预训练的生成器学习的形状先验以无监督方式完成部分形状然而,逆优化过程与正优化方法相比耗时长,且结果容易陷入局部极小,极大地限制了逆优化方法的实际应用。与现有的方法不同,我们提出了学习一个统一的潜在空间监督定制的结构化潜在的约束,以重建更好的完整形状。结构性排名损失。深度度量学习在计算机视觉的各种应用中发挥着重要作用,例如图像检索[30,36],聚类[18]和迁移学习[33]。损失函数是成功的深度度量学习框架中的重要组成部分之一5545代码融合已完成的点云(z,o)(z′,o′)(z,1)统一潜空间∈∈∈PP′P′′部分输入完整形状闭塞代码(z′′,o′′)(一)z = zY = zYYo > oY> oYY排名监督图2. 概况. (a)编码为多个完整形状和遮挡代码对的一系列相关部分点云。它们的逐元素乘法是在统一的潜空间中的表示。(b)重构部分输入P_i,并同时利用形状潜在码P_i和完整点云判别器来预测完整点云C_i。(c)完整的点云自动编码器提供真实的最好用彩色观看。已经提出了许多种损失函数。对比损失[7,16]捕捉成对数据点之间的关系,即,相似或不相似。基于三重态的损失被广泛研究[8,35,38],由锚点、正数据点和负点,并且旨在将锚点拉得更靠近正点而不是负点固定余量δ。受此启发,最近的排名驱动方法[24,30,32,33,35,36]提出了考虑跨多个数据点的更丰富的结构化信息,并实现了令人印象深刻的性能。与考虑一个负点的三重损失不同,N对损失[36]旨在从多个负例子中识别一个正例子。3. 方法我们工作的目标是从输入的部分点云数据中重建出完整设计适当和强有力的监督对于解决这一具有挑战性的问题至关重要。我们建议学习一个统一的潜在空间,用于编码完整和部分点云(形状)。我们首先在3.1节中介绍了统一的潜在空间,它在联合空间中编码然后对一系列相关的局部点云数据进行结构化隐监督完整点云和完整点之间的差异只是它们的遮挡程度,如图2(a)所因此,我们将不完整点云和完整点云嵌入到一个统一的具有不同遮挡度的潜在空间中。具体而言,如图2(b)所示,我们通过由EdgeConv[40]层组成的点云编码器Ep[46]将任何部分点云P映射为完整的形状代码zRd和相应的遮挡代码oRd。每个条目z i,i[1,. . .,d]由S形函数在[0,1]中界定,并且具有与完整形状代码相同的长度。潜在空间中完整形状的遮挡被建模为软“门控”完整形状代码的每个维度。较小的遮挡值表示对完整形状的遮挡较多在统一的潜在空间中的部分形状的嵌入,然后可以通过两个代码的元素乘得到。然后将完整码和部分码馈送到两个单独的解码器Dc和Dp中,以生成完整码。点云C_n,并分别重建输入部分点云P_n。 这两个单独的解码器采用由多层感知(MLP)构成的相同架构[41] 。C和P都由相对于部分输入的逐点倒角距离(CD)损失来监督逐点重构损耗表示为:被采用来进一步正则化空间的学习(第3.2节)。整体架构如图2所示。L记录=LCD (P,P)+LCD(P,De g(C)).(一)3.1. 点云编码的统一隐空间我们引入统一的隐空间,以不成对的方式建立部分点云和完整点云之间的关系部分点云可以被认为是通过遮挡完整的形状而创建的。部分点云表示与其对应点云相同的对象F或(P,C),双向倒角距离不能为直接使用,但只有单向倒角距离(UCD)不能为缺失部分的干扰提供足够的监督,因此我们降低(即,Deg)the按照文[52]的d-e渐变将点云分解为部分点云模块,其中仅保留相对于部分点云的前k个最近点。为了进一步鼓励预测的完整点云代表合理的(c)第(1)款YY^zC重构完成宝在在在TDI划线器划线器划线器代码鉴别器(b)第(1)款闭塞代码0.30.90.60.2Z1 ×0.3Z2 ×0.9Z3 ×0.6⁝部分码重建部分P^P部分输入已完成的点云完整形状代码融合编码器EPDual DCDC5546P′P′^PP^p不p∈∈∈j=1j=1--我j=1我我.ΣΣΣN形状时,采用点云插值。我们将WGAN-GP [15]损失的点云计算公式化逐点重建损失LD=ECD(C)−EYD(Y)+λgpTD,(2)其中λgp是预定义的权重因子,D是梯度惩罚项,表示为部分输入重建部分TD=ECΣ。-- D(C)?-102磅(三)编码器Ep和解码器Dc的代码对抗训练损失为:LG=−ECD(C)。(四)注意,在推断期间,仅需要编码器Ep和解码器Dc。3.2. 统一空间为了进一步规范结构化潜在空间的学习,我们创建了一系列相关的部分点云,并提出了几个适当设计的潜在代码监督,包括结构化排名正则化,潜在代码交换约束和潜在代码分布监督,以增强结构化潜在空间的学习。具体来说,给定一个部分输入P,我们可以创建--图3. 潜码交换的图解。为了更好地解耦完整的形状和遮挡代码,我们在相关的部分点云之间交换最好用彩色观看。对于N对损失,有一个锚样本aRd,一个正样本pRd和N个负样本njRd,如等式2所示。(七)、通过最小化损失函数,正样本将被拉得更靠近锚点,而负样本将被推得更远离锚点。这里,我们通过选择不同的遮挡码作为锚来采用N对损失,其可以被写为以下集合,其中1∈Rd是全一向量:,a=1,p=0, {nj}N={o′,o′},一系列相关的部分点云(参见图1中的P、P′、P图2(a))通过逐渐移除更多点。对于P′和P′′,则从初始局部形状P中去除了K个和2K个点。因此,对于这样的三重相关,j=1,a=o,p=o′, {nj}N,a=o′′,p=o′, {nj}N={o′′},,={o},,(八)部分点云S=P,P′,P′′,它们的遮挡程度逐渐增加。结构化排名规则化。对于它们的完整形状代码,由于点云表示相同的对象,所以它们的完整形状潜在代码z、z′、z′′必须相等。并采用平滑L1损失对它们进行Lz= L1(z,z′)+L1(z,z′′).(五)此外,由于它们的遮挡代码表示遮挡程度的增加,因此它们对应的遮挡代码的权重随着它们的遮挡程度的它们的遮挡代码之间的这种关系可以表示为因此,建议的相对排名关系方程。(6)须─补间遮挡代码通过应用N-在Eq中的每个集合上的对损失。(八)、通过采用这种强排序正则化,统一的潜在空间被训练得更加结构化。潜在代码交换。为了进一步正则化完整的形状代码和遮挡代码,我们采用了潜在的代码交换约束。具体地,如图3所示,我们交换从部分点云P和P’的更遮挡版本中提取的完整代码和遮挡代码,以重建相应的部分点云。基于我们对统一空间的假设,z和z′表示相同的完备对象,并且偏度为o′′≤o′≤o≤1,对于i=1,···,d,(6)由它们的遮挡代码决定。因此,无论O与z或z′结合,同一部分点云应其中o′i′、o′i、oi分别是P′′、P′、P的遮挡代码的第i个条目。为了实现这样的约束,我们采用N对损失[36]来约束方程中提出的(6)、NLa,p,{nj}=log(1+实验a nj−a p)。j=1z O佐z′ o′z o′逐点重建损失编码器EP解码器DP25547被重建。因此,我们还将来自z和o'的融合码馈送到解码器Dp,并应用逐点重构损失rec来约束。并且类似地处理来自z′和o通过这样的一个潜在的代码交换约束,完全形状码和闭塞码的解纠缠大大提高,从而导致更好的形状完成。潜在代码分发。 为了进一步约束(7)完整形状代码的真实性,形状潜在代码显示-5548∈DGpDpc2CΣLLCriminator用于直接监督从部分点云中学习的完整形状代码与从完整形状自动编码器中提取的真实完整形状代码是否 如图2(c)所示,真实形状潜码z cRd可以从一个完整的点云自动编码器如下[41]。自动编码器Y的输入是从不与P配对的完整点云集合中随机采样的形状。用于更新潜在代码识别器c和潜在代码生成器c的目标函数类似于等式1。(2)和(4)。总之,通过对统一潜在空间的约束,可以很好地学习完整的形状和遮挡代码,以增强完整点云和部分点云之间的关系。整体损失。两个鉴别器的总体训练目标是LD=LD+ L。(九)并且包括Ep、Dp、Ec和Dc的编码器和解码器的总体训练损失是逐点重建损失、结构化潜在监督和对抗损失的加权和:L=γLrec+βLz+Lnpair+LG+ LG,(10)其中γ和β是预定义的权重因子。4. 实验我们通过广泛的实验评估所提出的方法。除了在虚拟扫描基准上的形状完成之外,我们还在广泛使用的真实世界部分扫描上证明了其与其他方法的有效性。数据集。为了进行全面的比较,我们采用最先进的无监督点云完成方法对合成和真实世界的部分形状进行了实验[6,41,44,52]。我们在三个合成数据集CRN[39],3D-EPN [11]和Part-Net [29]上评估了我们的方法,这些数据集都来自ShapeNet [5]。对于真实世界的扫描,我们评估了从三个数据集中提取的对象,这些数据集涵盖室内和室外场景,KITTI(汽车)[14],ScanNet(椅子和桌子)[9]和Matter-Port 3D(椅子和桌子)[4]。评估指标。对于配备了地面实况的数据集,我们使用CD和F1分数评估形状完成性能,遵循先前的无监督点云完成方法[6,41,52],其中F1分数是准确性和完整性的调和平均值。倒角距离定义为:其中xout和xin是两个点云。距离值越小,重建的点云越精确对于[44]使用的合成数据集PartNet,我们遵循该方法,并使用最小匹配距离(MMD)度量来评估完成的准确性。MMD测量完成形状的质量,并且我们计算完成形状集合和测试形状集合之间的MMD。对于没有提供地面实况的真实世界扫描,我们遵循[44,47]分别根据UCD和MMD评估生成的形状。UCD评估一致性并计算从部分输入到预测的完整点云的倒角距离实施详情。所提出的方法遵循以前的无监督点云方法[6,41,44,52],以单独训练单类模型,以获得更好的保真度。对于所有数据集,预测的完整形状的点数为2048我们使用8个TITAN GPU来实现我们的实验。具体来说,我们采用Adam优化器,学习率为10−4,每个GPU的批量大小为16,以训练框架500个epoch。保留前5个点完整形状代码和遮挡代码的尺寸d都是96和500个点(即,K=500)被逐渐移除以生成更多的部分点云。γ=100、β=10和λgp=1是针对损失的组合而设置的。4.1. ShapeNet基准测试我们在ShapeNet生成的CRN、3D-EPN和PartNet合成数据集上进行实验,以证明我们的方法优于最先进的非监督方法。CRN和3D-EPN数据集的比较。对于配备地面实况的合成数据集CRN和3D-EPN,我们使用CD和F1评分评估形状完成性能[6,41,52]。表1和表2显示了在两个数据集上跨八个类别的实验结果和“反转”分别表示Cy-cle 4Completion和Shape Inversion。如表1所示,所提出的方法在大多数类别中均优于最先进的无监督方法Shape Inversion [52],并达到12.2 CD和85.6平均CD和F1评分指标的F1评分分别超过[52] 2.7和1.7。对于ShapeNet 3D-EPN数据集,如表2所示,我们的方法在大多数类别上始终实现最佳完成性能,特别是对于“椅子”和“桌子”等类别与其他类别相比相对丰富座椅之L(x1得双曲余切值. )=的最小值p-q<$2和表中,CD和F1评分指标显示出显著的改善。CD outin|xout| p∈xout q∈xin2(十一)改进(椅子从14.6/84.2提高到12.1/86.4,1+|中的x|q∈xinminp∈xoutp-q表为22.5/82.7至19.8/85.5)。在汽车类别上,我们的方法和[41]之间有0.9的差距通过评估,5549表1.CRN基准上的形状完成性能显示的数字为[CD↓/F1↑],其中CD按104缩放。方法平面内阁车椅子灯沙发表船平均Pcl2pcl [6]9.7/89.127.1/68.415.8/80.826.9/70.425.7/70.434.1/58.423.6/79.015.7/77.822.4/74.2周期[41个]5.2/94.014.7/82.112.4/82.118.0/77.517.3/77.421.0/75.218.9/81.211.5/84.814.9/81.8反演[五十二]5.6/94.316.1/77.213.0/85.815.4/81.218.0/81.724.6/78.416.2/85.510.1/87.014.9/83.9我们3.9/95.913.5/83.38.7/90.413.9/82.315.8/81.014.8/81.617.1/82.610.0/87.612.2/85.6表2.在3D-EPN基准上的形状完成性能显示的数字为[CD↓/F1↑],其中CD按104缩放。方法平面内阁车椅子灯沙发表船平均Pcl2pcl [6]4.0/-19.0/-10.0/-20.0/-23.0/-26.0/-26.0/-11.0/-17.4/-周期[41个]3.7/96.412.6/87.18.1/91.814.6/84.218.2/80.626.2/71.722.5/82.78.7/89.814.3/85.5反演[五十二]4.3/96.220.7/79.411.9/86.020.6/81.125.9/78.454.8/74.738.0/80.212.8/85.223.6/82.7我们3.5/96.812.2/86.49.0/88.412.1/86.417.6/81.626.0/75.519.8/85.58.6/89.813.6/86.3表3.在PartNet基准测试中的形状完成性能。我们用MMD↓评估结果,其比例为102。方法椅子灯表平均Pcl2pcl [6]1.902.501.902.10MPC [44]1.521.971.461.65周期[41个]1.713.461.562.24反演[五十二]1.682.541.741.98我们1.431.951.371.58在两个流行的八类合成数据集上,我们的方法的性能始终优于现有的方法,这证明了所提出的框架的优越性,学习一个统一的潜在空间,有效和高效的结构化正则化。PartNet数据集上的比较。我们还对MPC使用的PartNet数 据 集 进 行 了 实 验 [44] 。 PartNet 基 准 是 通 过 删 除ShapeNet数据集上的语义部分生成的我们遵循[44]在三个类别上采用最小匹配距离来评估完成形状的质量。如表3所示,我们的方法在这三个类别上的表现始终优于现有的最先进的无监督方法。定性结果。图4显示了来自ShapeNet数据集的相同样本的定性结果。尽管以前的方法做了很多努力,但它们通常不能处理严重的咬合情况,并且不能保持形状细节。如图4前两行中的沙发和汽车所示,在严重遮挡的情况下,先前方法的完整点云不代表目标对象(参见未正确恢复的大的缺失区域)。然而,我们的方法可以准确地恢复目标对象的完整点云,即使在严重遮挡下只有相当有限的信息可用。更重要的是,我们的方法recon- structs更准确的完整的点云配备了更好的细粒度的形状细节。如图中红点框所示,我们的方法可以在灯的拐角、飞机的尾部以及椅子和桌子的腿处生成更精确的我们把这一伟大成果归功于学习的统一的潜在空间和适当应用的结构化潜在监督,这导致更合理的预测完整点云和更好的部分和完整点云之间的一致性。4.2. 真实世界扫描我们研究了所提出的方法在各种真实世界数据集上的推广,包括室外和室内场景,其中对象往往更不完整和噪声更大。在CRN数据集上训练的汽车,椅子和桌子模型直接用于预测KITTI,ScanNet和MatterPort3D数据集上的完整点云,而无需任何进一步的微调过程。如表4所示(循环。[41]vs. Ours),我们的方法在所有三个真实扫描数据集上的多个类别中的性能显著优于Cycle4Completion [41]。对于与Shape Inversion [52]的比较,由于反演过程是为了最小化部分-完全对之间的UCD损失,因此将我们的方法与不涉及GAN反演的Shape Inversion [52]进行比较是不公平的。然而,我们的方法也与Shape Inversion兼容[52]。当在我们的方法顶部集成GAN反演时,它可以在所有各种真实世界扫描上超过Shape Inversion,如表4所示(反演。[52]vs.Ours+Inversion),这表明我们的方法可以增强预测的完整点云和部分输入之间的一致性。另一方面,表5中我们的方法的结果也始终优于其他无监督方法。此外,如表4和表5所示,我们还将我们的模型的泛化与最先进的全监督方法[48,50]在真实扫描上的泛化进行了这里使用了作者的官方发布模型。我们的无监督模型可以在多个类别的真实扫描上胜过它们,这表明所提出的无监督方法在真实世界的扫描上具有比监督方法更好的泛化能力,监督方法经过专门训练,仅适合其原始合成数据。图5显示了我们的方法在5550↓↓输入周期4完成形状反转我们的地面真相图4. ShapeNet数据集上的点云完成结果。从左到右:部分输入,Cycle4completion [41]的结果,Shape Inversion [52]我们的结果和地面实况。我们的研究结果实现了更准确的完成严重的遮挡和恢复更好的细粒度的形状细节相比,国家的最先进的方法。更好地查看颜色和放大。表4.真实扫描的形状完成性能。结果通过UCD进行评估,其中UCD的比例为104。辅助核算:监督方法。方法辅助核算ScanNetMatterPort3DKITTI椅子表椅子表车GRNet [48]是的1.61.61.61.52.2[50]第五十话是的1.71.51.81.31.9Pcl2pcl [6]没有17.39.115.96.09.2周期[41个]没有9.44.34.94.99.4反演[五十二]没有3.23.33.63.12.9我们没有3.22.73.32.74.2我们的+反转没有1.10.871.10.870.76表5.真实扫描的形状完成性能。我们评估的结果与MMD,其中MMD是缩放10- 2。辅助核算:监督方法。方法辅助核算ScanNetMatterPort3DKITTI椅子表椅子表车GRNet [48]是的6.0706.3026.1476.9112.845[50]第五十话是的6.0016.0896.2486.6482.790周期[41个]没有6.2785.7276.0226.5353.033反演[五十二]没有6.3706.2226.3607.1102.850我们没5.8935.5415.7706.0762.742有真实数据,这表明,即使在严重的闭塞(如KITTI表灯椅子平面车沙发55514.3. 消融研究为了验证所提出的方法的每个组件的有效性,我们在ShapeNet CRN数据集上对四个代表性类别进行了一系列实验。统一隐空间对点云编码的影响。为了评估引入统一潜在代码空间用于无监督点云完成的好处,我们比较了两种不将遮挡代码编码为软权重向量的替代策略。我们不是通过逐元素乘法来融合代码,而是通过级联或逐元素加法来测试形状和遮挡代码。表6显示了比较方案的定量结果。我们采用我们的简化模型,该模型将形状和遮挡代码相乘,并且在我们的统一空间设计下具有点和代码鉴别器以及代码交换约束,但不使用排名约束作为基线(表示为空间平均CD从18.3下降到19.1通过拼接或相加融合两种编码时,得到的特征空间为18.6,证明了学习到的统一特征空间有利于无监督点云补全,也为集成我们更强的排序监督奠定了基础。结构化排名监管的效果 评价5552↓表6.融合完整形状码和遮挡码的不同方案比较。此处报告了CD↓(按104方法椅子灯沙发表Avg.大学空间16.220.316.120.518.3级联此外17.217.220.720.117.516.320.820.819.118.6输入周期4完成形状反演我们的图5. 真实世界扫描的点云完成结果。从左到右:部分输入,分别是Cycle4completion [41],Shape Inversion [52]和我们的结果。与其他方法相比,我们的方法预测了更合理的完整形状结果更好地查看颜色和放大。表7. 不同等级监督的效果。 CD 缩放104人在此报道。方法椅子灯沙发表Avg.大学空间16.220.316.120.518.3+三重态14.7(δ=5)19.5(δ=2)15.0(δ=10)19.5(δ=5)17.2+ n对13.915.814.817.115.4我们提出的结构化排名监督的效果,我们采用不同的排名监督,N对损失和三重损失与不同的超参数。如表7所示,与不使用排名监督相比,我们的具有不同超参数的三重态损失(表示为“+三重态”)的模型显示出更好的性能。具体而言,平均倒角距离从18.3提高到17.2。此外,当配备N对损耗时,结果进一步改善,平均CD从18.3明显改善到15.4。它表明,所提出的结构化排名监督有助于学习的统一潜在空间。因此,对于我们的完整模型,我们使用没有任何超参数的N对损失作为我们最终的结构化排名监督。歧视者的影响通过对码元的推导,对系统中使用的两种鉴别器的效果进行了测试表8.鉴别器和潜码交换的效果。这里报告了104方法椅子灯沙发表Avg.完整模型13.915.814.817.115.4不含点D14.723.620.019.419.4无代码D18.521.722.020.820.8无代码交换14.720.017.019.217.7从我们的最终模型中提取点云识别器(表示为w/ocodeD)或点云识别器(表示为w/o pointD),以与我们的完整解决方案(表示为完整模型)进行比较。如表8所示,当去除点云识别器或潜在代码识别器时,平均Cham- fer Distances分别下降4和5.4个点。证明了鉴别器的集成可以通过提供关于完整形状潜码和点云分布的直接指导来辅助完整模型生成更好的潜在代码交换的影响。设计了一系列相关部分点云之间的遮挡代码交换,以提高完整形状代码和遮挡代码的解纠缠在这里,我们测试删除的设计交换闭塞代码重建对部分点云(表示为w/o代码交换),以比较与我们的解决方案。如表8的最后一行所示,在没有潜在代码交换的情况下,系统在所有类别上显示出差得多的性能,对于2.3 CD从15.4降低结果表明,生成相关的部分点云并交换它们的隐代码可以更彻底地解耦完整的形状代码和5. 局限性和结论在本文中,我们提出了学习一个统一的和结构化的潜在空间,它编码部分和完整的点云,以提高部分-完整的几何一致性在无监督的方式。此外,我们还在一系列相关的部分点云之间应用定制的结构化潜在监督,以增强结构化潜在空间的学习大量的实验证明,所提出的方法始终达到最先进的性能在合成和现实世界的基准。虽然我们的方法在精度上取得了很大的进步,但是对于一些细粒度的物体结构重建,如椅子的复杂纹理结构,仍然存在局限性。 这些限制可以通过以下方式解决:签署更好的解码器或引入隐式函数。鸣谢:本研究部分由感知及互动智能研究中心有限公司资助,部分由香港研究资助局透过研究资助基金资助。14204021,14207319,14203118,14208619),部分由Re-搜寻影响基金拨款编号R5001-18,部分由中大策略基金提供。MatterportScanNetMatterportScanNetKITTIKITTI↓5553引用[1] Yingjie Cai,Xuesong Chen,Chao Zhang,Kwan-YeeLin,Xiaogang Wang,and Hongsheng Li.通过在循环中集成实例和场景来实现语义场景的完成。在IEEE/CVF计算机视觉和模式识别会议论文集,第324-333页,2021年。一、二[2] Yingjie Cai , Buyu Li , Zeyu Jiao , Hongsheng Li ,Xingyu Zeng,and Xiaogang Wang.具有解耦结构多边形估计和高度引导深度估计的单目三维物体检测。在AAAI人工智能会议论文集,第34卷,第10478- 10485页,2020年。一、二[3] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d:从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议(3DV)。2[4] Angel Chang,Angela Dai,Thomas Funkhouser,MaciejHalber , Matthias Niessner , Manolis Savva , ShuranSong,Andy Zeng,and Yinda Zhang. Matterport 3d:从室内环境中的rgb-d数据中学习。arXiv预印本arXiv:1709.06158,2017。5[5] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimo Li,SilvioSavarese,Manolis Savva,Shuran Song,Hao Su,et al.Shapenet:An information-rich 3d model repository. arXiv预印本arXiv:1512.03012,2015。5[6] Xuelin Chen,Baoquan Chen,and Niloy J Mitra.使用对抗训练 在真实扫描上 完成不成对 点云arXiv预印本arXiv:1904.00069,2019。一、二、五、六、七[7] Sumit Chopra Raia Hadsell和Yann LeCun。 学习相似性度量有区别地,与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2005年。3[8] Yin Cui,Feng Zhou,Yuanqing Lin,and Serge Belongie.使用深度度量学习进行细粒度分类和数据集自举,人类参 与 其 中 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition , 第 1153-1162页,2016中。3[9] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页,2017年。二、五[10] Angela Dai , Daniel Ritchie , Martin Bokeloh , ScottReed,JürgenSturm,andMatthiasNießner.Scancomplete:用于3D扫描的大在IEEE计算机视觉和模式识别会议论文集,第4578-4587页,2018年。一、二[11] Angela Dai , Charles Ruzhongtai Qi , and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。在IEEE计算机视觉和模式识别会议论文集,第5868- 5877页,2017年。二、五[12] Ja k obEngel,ThomasScho¨ ps,andDanielCremers. Lsd-slam:大规模直接单眼slam。在欧洲计算机视觉会议上,第834-849页。Springer,2014.一、二[13] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在计算机视觉和模式识别会议中,2012年。2[14] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议,第3354-3361页。IEEE,2012。5[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron Courville。改进的瓦瑟斯坦甘斯训练。arXiv预印本arXiv:1704.00028,2017。4[16] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2006年。3[17] Zhizhong Han,Xiyang Wang,Chi-Man Vong,Yu-ShenLiu,Matthias Zwicker,and CL Chen.3dviewgraph:从无序视图的图形中学习3D形状的全局特征。arXiv预印本arXiv:1905.07503,2019。1[18] John R Hershey,Zhuo Chen,Jonathan Le Roux,andShinji Watanabe.深度聚类:用于分割和分离的判别嵌入。在2016年IEEE声学、语音和信号处理国际会议,第31-35页。IEEE,2016. 2[19] Ji Hou , Angela Dai , and Matthias Nießner.3D-SIS :RGB-D扫描的3D在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功