通用的自监督3D关键点检测器UKPGAN及其在非刚性变形和几何重复性方面的应用

86 浏览量更新于2023-10-25 收藏 2.46MB PDF 举报

关键点检测

自监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17042UKPGAN：一种通用的自监督关键点检测器Yang You，Wenhai Liu，Yanjie Ze，Yong-Lu Li，Weiming Wang*，Cewu Lu*上海交通大学{qq456cvb，sjtu-wenhai，zeyanjie，yonglu_li，wangweiming，lucewu}@sjtu.edu.cn摘要关键点检测是物体配准和对准的重要组成部分。在这项工作中，我们认为关键点的检测是信息压缩，并迫使模型提取一个目标的重要点。在此基础上，我们提出UKPGAN，一个通用的自我监督的3D关键点检测器，其中关键点的检测，使他们可以重建原始的物体形状。 Two mod- ules: GAN-based keypoint sparsitycontrol and salient in- formation distillation modules areproposed to locate those important keypoints.大量的实验表明，我们的关键点对齐以及人类注释的关键点标签，并可以应用于SMPL人体各种非刚性变形。此外，我们在干净的对象集合上训练的关键点检测器可以很好地推广到现实世界的场景，从而在与现成的点描述符相结合时进一步提高几何重复性实验表明，我们的模型是稳定的刚性和非刚性转换下，与本地参考系估计。我们的代码可在https://github.com/qq456cvb/UKPGAN上获得。1. 介绍近年来，三维物体分析和场景理解受到越来越多的关注。虽然已经提出了大量的对象分析方法[7，13，19，23]，但仍然缺乏处理和理解对象的能力，特别是在无监督的情况下。与零件注释不同，3D关键点提供对象的稀疏但有意义的表示它们被广泛用于许多任务，如对象匹配，对象跟踪，形状检索和配准[4，22，34]。关键点检测起源于2D图像处理[12，21，28]。在3D领域，传统的方法，如Harris-3D [29]，HKS [30]，显着点[5]，网格显着性[18]，ISS [41]，*Cewu Lu和Weiming Wang为通讯作者。卢策武是中国上海交通大学人工智能研究所和上海启智研究所的青元研究院和MoE商业智能重点实验室成员。Sift-3D [27]和Scale Dependent Corners [24]建议基于几何变化检测关键点。然而，这些手工制作的检测器严重依赖于硬编码的参数，并且它们的性能无法与当前基于学习的方法相比图1.我们的模型输出无监督的关键点和嵌入给定的点云，无论是刚性或非刚性变形。左边是干净模型上的关键点预测（用红色表示），右边是真实场景上的关键点预测，最好用彩色显示。这些关键点是一致的，可用于配准。最近，已经提出了一些基于学习的方法，如USIP[20]和D3Feat [2]USIP从预分割的局部组回归关键点位置，然后利用概率倒角损失。然而，他们的方法需要最远的点采样，并且可能输出不在输入上的点。相反，D3Feat为每个点密集地给出显著性分数和描述符。USIP和D3Feat都通过解决正确估计Siamese架构中的旋转的辅助任务来预测3D关键点。它们都需要在训练期间真实世界的点云，并且对输出关键点没有太多的控制。为了解决这些问题，我们采用了一种完全不同的方法来获取 3D 关键点，称为无监督关键点生成（UKPGAN）。通过检测器网络给出关键点显著性分布，并使用新的对抗性GAN损失来控制其稀疏性。然后，为了使这些关键点提供信息，我们利用显著信息蒸馏过程从这些稀疏关键点重建原始点云，形成编码器-解码器架构。我们的模型可以被看作是一个信息压缩方案，保留了17043关键点最少的对象。我们的方法背后的基本原理很简单，但很强大：应该能够从一组小的关键点完全恢复物体的结构。这也与[35]中提到的一致：结果表明，我们的模型可以输出稳定的信息关键点从看不见的对象，并推广到现实世界的场景。与以前的方法相比，UKPGAN具有以下优点：1）通过首先估计局部参考系（LRF），证明我们的检测器在没有任何数据增强的情况下是旋转不变的，这也使我们的局部关键点表示与旋转分离; 2）检测到的关键点在刚性和非刚性对象上都是类内一致和稳定的，具有高可重复性; 3）我们的模型在干净的对象集合上训练（即，ModelNet）可以很好地推广到真实世界的点云，使用真实世界的训练数据。我们首先在具有关键点标签的ShapeNet模型上评估我们的方法。我们的模型在保持与人类标记部分和关键点的一致性UKP-GAN通过保持SMPL人体可变形网格的一致性，不仅适用于刚性物体，而且适用于非刚性物体。作为我们模型的应用，我们还在3DMatch和ETH数据集上评估了UKPGAN，这是真实世界的几何配准基准。实验表明，当在干净的对象上训练时（即ModelNet），我们的模型很好地推广到现实世界的场景，并进一步提高了目前最先进的方法的配准性能最后，通过大量的实验证明，UKPGAN实现了高旋转重复性，这是一个重要的和期望的属性的关键点。2. 相关工作2.1. 手工制作的Keypoint探测器在深度学习之前，研究人员提出了许多方法来检测物体上的稳定兴趣点，包括2D和3D领域。SIFT [21]，ORB [28]和SURF [3]通过检测2D图像上的局部图案变化来提取特征。它们对缩放和旋转变化具有鲁棒性，并在两个身份对象上提供一致的关键点。3D Harris [29]将Harris角点检测器扩展到3D网格。HKS [30]提出了一种基于形状上的热扩散过程的特性的新点签名。显着点[5]通过隐马尔可夫模型（HMM）对兴趣点进行建模，该模型通过使用上下文3D邻域信息以无监督的方式进行训练网格显著性[18]使用高斯加权平均曲率的中心环绕算子以尺度相关的方式定义网格显著性。CGF[16]学习表示周围的局部几何非结构化点云中的点。 3D SIFT [27] 尺度不变特征变换（SIFT）for three-dimensional三维images图像. ISS [41]引入了内在形状签名，其使用3D形状的视图独立表示来直接匹配来自不同视图的形状块。然而，这些方法只考虑了局部几何信息，没有语义知识，导致与人类的感知不符。2.2. 基于学习的关键点检测器最近，已经提出了一些基于深度学习的检测器来绕过2D和3D域中的手工关键点检测规则。在二维图像上，提出了一些非监督的关键点检测方法。Jakab等人[14]通过使目标图像穿过紧密的瓶颈来提取对象的几何形状，从而提取语义上有意义的关键点。Zhang等人[40]使用具有通道式softmax操作的自动编码模块来发现地标。Suwajanakorn等人[32]通过强制多视图一致性从2D图像中发现潜在的3D关键点。Georgakis等人[9]采用由采样层和新颖的分数损失函数增强的Siamese在3D领域，像SyncSpecCNN [36]和深度功能词典[31]这样的方法依赖于地面实况关键点监督。对于无监督方法，USIP [20]从预先分割的局部组中回归关键点位置，然后利用概率倒角损失。相反，D3Feat [2]为每个点密集地给出了显着性分数和描述符它依赖于一个辅助任务，正确估计旋转的暹罗架构，忽略语义信息。存在另一条搜索线[6，8，15]，通过回归绝对坐标输出预定义的固定数量的关键点然而，这些方法对刚性变换不鲁棒，并且不能推广到现实世界的场景。3. 方法3.1. 概述G iv en a point set X={xn|xn∈R3，n=1，2，. -是的-是的 N}，其中x从某个流形M采样，我们寻找关键点集XX，其中|X~|是所需k个点的数量。在这里，我们提出了一个无监督的编码器-解码器架构。在编码器（也是检测器）中，针对每个点预测关键点概率s为了保持检测到的在解码器中，也是一个重建网络，我们利用显著信息蒸馏重建原始点云，在一个无监督的方式。直觉是，一组好的关键点应该有助于对象的唯一信息，使重建成为可能。我们的方法的概述如图2所示。17044∈∈S∈F∈S{−∥联系我们·图2. 我们的关键点和嵌入生成的整个管道。我们首先提取逐点旋转不变特征，然后分别通过两个MLP输出关键点概率和语义嵌入GAN用于控制关键点稀疏度，显著信息提取用于提取最显著的特征。解码器被连接以重建原始点云。3.2. 旋转不变特征提取为了在刚性变换下具有鲁棒性，我们首先通过对每个点x =xi： XiX2R. 那么在局部邻域xi中的点根据估计的LRFs变换到它们的正则位置x′i。接下来，我们遵循与PerfectMatch [10]中相同的策略，在平滑密度值（SDV）网格中离散这些点，以点x为中心并与LRF对齐。体素化基于高斯平滑核。然后，我们将得到每个点x的体素化描述符（x）RW×H×D。有关模式的详细信息，我们请读者参阅Per- fectMatch [10]。这些逐点3D描述符被批处理在一起，并通过3D卷积层馈送以进一步细化。由于估计的LRF，该步骤提供了局部旋转不变特征，这对于旋转可重复性至关重要3.3. 概率估计的对偶分支与嵌入在提取旋转不变的逐点特征之后，我们使用双重多层感知器（MLP ）网络来估计关键点显著概率 Φ（x）。[0, 1] and a high-dimensional embedding h(x)RF , which will be used for reconstruction.Φ（x）上的稀疏性。为了用最小的关键点集压缩整个点云，Φ（x）需要是稀疏的。什么是使Φ（x）稀疏的好方法？我们可以考虑L1正则化。但是，它倾向于-把更多的概率放在零附近，对非零概率没有太多的控制。为了输出可区分的关键点并抑制那些无意义的点，我们希望Φ（x）在0和1周围累积一个简单的解决方案是定义一个可控的关键点分布，它在0和1周围积累，然后强制网络预测匹配这个先验。受[38]的启发，我们将Beta分布（如图2所示）作为我们的关键点分布先验。在Beta分布中，有两个参数α和β，分别控制正（1）和负（0）样本的关于Beta分布提供的可控性的更多细节，请参见我们的补充。基于GAN的关键点稀疏性控制强制稀疏性的直接解决方案是计算预测的关键点分布和Beta先验之间的KL散度。然而，由于我们预测的是关键点样本而不是分布参数，因此Beta先验和Φ（x）之间的KL散度的封闭形式不存在。我们诉诸对抗性败诉来解决这个问题。GAN [11]用于生成对我们的Beta先验来说看起来真实的假关键点分布（即，p（x））。它需要一个子网D和一个生成器网络（即，Φ（））。请注意，在我们的对抗训练设置中，每个样本都是点云上的关键点分布，点云本身就是从一个仓库中取样。到RBF网络D的输入是单个点云上的整个关键点分布集不输入单个关键点的原因是我们希望每个对象17045{∈|M}{∈|M}→·n=1∈··⊕⊕·−{F}∈∈在实践中，我们采用WGAN-GP [1]而不是朴素的GAN损失，因为它更鲁棒。损失如下：LGAN=minmax（EM[D（{p（x）|x∈M}）]（1）例如，给定四个角，可以完美地重建矩形角之间的点提供的关于整体形状的信息很少。关于显著信息提取的详细分析将在第4.5节中给出。ΦD2-EM[D（{Φ（x）|x∈M}）]+λ（<$$>D<$2−1）），这会对梯度的斜率产生不利影响。3.4. 重建网络给定关键点分布 Φ（x）R x与高维嵌入h（x）RF x，一个点云解码器，用于重建原始图像3.5. 对称正则化虽然我们首先从原始点云中提取旋转不变的局部描述子，但它不是对称不变的。对于大多数常见对象，我们有一个强先验，使得检测到的关键点和特征应该是对称的，导致以下损失：形状将点云解码器表示为：L对称1= |S|（RN×FRN×3，重建损失可表示为如下所示（x，x′）∈S（七）L_r_econ=C_D （ {Φ （ x ） |x<$M} ， {h （ x ）|x<$M}），X），其中CD是倒角距离。在等式3中，隐写器将关键点分布和高维嵌入作为输入。我们的目标是找到一个稀疏集，可能重建原始形状的显著关键点。为了实现这一点，我们从PointNet[26]中的max操作中得到了一些启发，并提出了一个显着的信息提取模块。利用该模块来迫使网络给出可能的（大Φ（x））和语义丰富的（大h（x））关键点。我们定义了一个类：n=TopNet（max[Φ（x）h（x）]），（4）xM其中我们稍微滥用了符号，使得Φ（x）在与h（x）相乘时被广泛地转换。 MAX操作也按通道传导，使得maxx <$M[Φ（x）h（x）RF. TopNet表示类似于Tchapmi等人的点解码器结构。 [33 ]第33段。此外，对于语义h（x），我们关心h（x）的绝对值（具有大的负幅度的特征不应被抑制），并且最终解码器是* =TopNet（max[Φ（x）max（h（x），0）]（5）xMmax[Φ（x） max（h（x），0）]），（6）xM哪里表示连接。直观地说，我们的解码器迫使网络将那些语义丰富的（大h（x））标记为突出的关键点（大Φ（x）），否则乘积将很小，并且由于max运算而被抑制。另一方面，具有相似局部上下文的不可区分的点因此被丢弃。其中S是所有对称点对的集合。请注意，对称正则化仅用于训练;在测试中，不需要关于对象的对称信息。最终损失是三项的经验总和：L= η1·L重组+ η2·L GAN+ η3·L对称（八）3.6. 实现细节网络架构我们的模型将点云XRN×3作为输入，其中N=2048。然后为每个点提取一个体素化描述符（xn）NRN ×W ×H×D。然后，这些描述符被馈送到具有通道32、32、64、64、128、129、129、128.为了预测Φ（x），采用具有通道512、256、1的三层MLP;对于h（x），采用具有通道512、256、128的三层MLP，并且嵌入维数为128.这两个分支共享前两层。对于WGAN-GP网络，我们使用五个conv 1d层（通道为512，256，128，64，1）和一个最大池化层作为评价函数D。梯度惩罚系数λ=1。对于解码器，我们利用与Top-Net类似的结构[33]。具体地，解码器具有6个级别，并且解码器树中的每个MLP生成大小为8的小节点特征嵌入。当生成N=2048个点时，根节点有4个子节点，所有其他内部节点都在子节点中。第一级生成8个子级。解码器中的每个MLP具有3级，分别具有256、64和8个通道对于ShapeNet模型，我们选择η1= 10。，η2= 1，η3=0。1通过验证集;对于SMPL人体数据集，我们选择η1=10。，η2=1，η3=0。在我们所有没有指定的实验中，Beta先验分布是固定的，α = 0。01和β=（二）（三）170460的情况。05.使用Adam [17]优化网络的参数，学习率为1 e-4。17047×4. 实验4.1. 与人类注释的关键点的比较在本节中，我们将检测到的关键点与那些人类注释的关键点进行比较，以查看关键点之间是否存在任何数据集使用两个数据集： ShapeNet-chair 关键点和KeypointNet [37]数据集。ShapeNet-chair关键点集由SyncSpecCNN [36]提出，它由专家在ShapeNet椅子上注释的数千个关键点组成。KeypointNet在ShapeNet的16个对象类别中的我们评估飞机，椅子和桌子上的KeypointNet和椅子上的ShapeNet-chair关键点数据集。对于这两个数据集，我们评估。它被计算为模型A中检测到的点与模型B中检测到的最近邻点之间的平均距离。评价和结果我们评估性能并与USIP [20]、D3 Feat[2]、 Harris-3D [29]、 ISS [41]和 SIFT-3D [27]进行比较。关键点以阈值p = 0选择。5、不使用NMS。此外，我们调整基线的预测关键点的数量，以便它们直接与我们的模型更多的比较固定数量的关键点（10，20，40）与NMS启用，在我们的手册。定量结果见表1。我们的方法实现了最佳的IoU和一致性损失，这表明它是鲁棒的和稳定的。定性结果如图8所示。随机分配75%、10%和15%用于训练、验证和测试。IoU（%）↑ Consis. （×10−3）↓我们通过平均相交来评估性能在Union（mIoU）上。如果检测到的关键点到其最接近的地面实况的测地距离小于某个测地阈值，则对相交进行计数。联合只是检测到的关键点和地面实况关键点的联合。评价和结果我们将 UKPGAN 与 USIP [20] ， D3 Feat[2]，Harris-3D [29]，ISS [41]和SIFT进行比较。3D [27].每个类别的培训都是独立进行的。UKPGAN、USIP和D3Feat输出关键点概率，这些关键点概率通过半径为0.1且阈值为p = 0的非最大值抑制（NMS）进行细化。（五）。定量结果见图4。我们看到UKPGAN与更好地与人类注释的关键点。它实现了比其他方法更高的IoU。定性可视化如图3所示。UKPGAN给出类内一致和边缘/角突出的关键点。4.2. 基于语义的人体姿态稳定关键点数据集蒙皮多人线性模型（SMPL）是一种基于顶点的蒙皮模型，可以精确地表示自然人体姿势中的各种体型人体姿势由三个参数控制，我们通过改变这些参数来生成训练数据。从原始网格均匀采样2048个点。度量SMPL在不同的人体模型之间提供点对点的对应关系。在给定一对模型（Model A，B）的情况下，通过求交并（IoU）来评价检测器的稳定性和一致性。如果在模型A中检测到的关键点在模型B中也检测到其对应点，则对交叉部分进行计数。并集是两个模型中所有检测到的关键点的总和。为了考虑噪声，一致性损失也美国投资促进署[20]D3Feat [2] 20.3 3.8哈里斯-3D [29] 8.1 3.2国际空间站[41]SIFT-3D [27] 8.2 3.3我们的66.6 1.2表1. SMPL数据集的IoU（%）和一致性损失（10−3）结果。我们的关键点检测器在不同的变形下是稳定的。4.3. 真实世界配准的关键点数据集3DMatch数据集[39]是室内配准基准。测试集包含8个场景，其具有部分重叠的点云片段及其对应的变换矩阵。ETH数据集[25]是另一个户外配准基准，其测试集包含4个具有重叠片段的场景我们的关键点检测器在ShapeNet数据集上训练，然后直接应用于3DMatch和ETH。我们分别使用大小为0.03 m和0.02 m的体素网格过滤器对3DMatch和ETH点云进行下采样公制几何配准通常包括两个阶段：关键点检测和描述符提取。为了比较不同关键点检测器的性能，我们利用两个最先进的描述符：Perfect-Match [10]和D3 Feat[2]，并将它们与我们的检测器相结合。作为基线，随机采样，传统检测器（即，ISS，SIFT-3D）或基于任务特定学习的检测器（即，D3Feat）也被评估。对于每个片段，给出不同数量的点（即，2500，1000，500，250，100）作为预算。我们在D3Feat和UKPGAN的关键点得分上使用NMS，并对传统检测器利用随机采样来满足预算要求。我们遵循17048图3.ShapeNet模型上六种无监督关键点检测算法的可视化。图4. ShapeNet椅子数据集和KeypointNet上的mIoU结果。图5. 旋转重复性。D3Feat使用特征匹配召回、配准召回和内点比率进行评估。特征匹配查全率是内点比率高于某个阈值（即，τ2=5%），其测量成对配准的匹配质量如果点对的距离在某个阈值内（即，τ1=0。1米）。配准召回率是其变换误差低于某个阈值的成功对准的百分比（即， RMSE <0。2m），这更好地反映了最终的性能。我们使用具有50，000次最大迭代的RANSAC来估计变换矩阵。评价和结果结果示于表2和3 .第三章。PerfectMatch和D3Feat描述符基于作者发布的预训练模型。对于完美匹配描述符，我们的关键点检测器的性能大大优于其他检测器，特别是当关键点的数量很小时。对于D3Feat描述符，尽管D3Feat检测器表现最好，但检测器与描述符一起在真实世界的训练数据上训练，而我们的关键点检测器仅在合成ShapeNet模型上训练。此外，我们的方法也优于其他传统的关键点检测器的大幅度。我们的模型可以泛化到真实世界的数据，并可能改善配准结果。17049图6.3DMatch数据集上的关键点检测比较请注意，我们的方法仅在合成模型上训练，并且与在真实场景上训练的方法（即，D3Feat）。UKPGAN能够给出用于配准的可区分的关键点图7. ShapeNet表格上的消融研究可视化。颜色表示关键点概率（红色表示高，蓝色表示低）。我们看到，如果没有GAN稀疏控制，我们的模型无法给出有意义的关键点。检测器描述符特征匹配召回率（%）配准召回率（%）内点比率（%）250010005002501002500100050025010025001000500250100国际空间站[41]PerfectMatch90.387.982.771.951.775.568.655.437.914.028.122.618.715.712.9SIFT [27]PerfectMatch90.387.782.574.552.777.468.156.435.811.728.022.618.515.112.4随机PerfectMatch90.486.882.371.253.576.868.954.836.216.128.222.818.515.112.3我们PerfectMatch90.187.885.683.174.276.172.570.063.637.628.525.425.724.518.8国际空间站[41]D3Feat95.294.493.490.181.083.579.276.064.337.238.233.528.823.917.4SIFT [27]D3Feat94.994.093.091.281.384.079.976.160.938.638.433.628.823.317.4随机D3Feat95.194.592.890.081.283.080.077.065.538.838.633.628.923.617.3D3Feat [2]D3Feat95.594.594.193.190.684.383.682.578.167.240.542.644.044.745.6我们D3Feat94.794.293.592.685.982.881.477.169.747.438.835.534.033.127.7表2.3DMatch上的配准结果。我们评估两个国家的最先进的描述符，结合不同的关键点检测器。检测器描述符特征匹配召回率（%）配准召回率（%）内点比率（%）250010005002501002500100050025010025001000500250100国际空间站[41]PerfectMatch59.141.323.111.36.348.828.112.85.21.311.49.08.06.86.8SIFT [27]PerfectMatch58.539.423.910.86.245.526.912.96.00.911.39.07.56.86.5随机PerfectMatch60.839.722.213.74.450.130.716.64.30.411.39.17.66.86.4我们PerfectMatch68.162.453.644.829.658.245.532.319.16.118.716.214.211.810.0国际空间站[41]D3Feat37.924.416.310.86.225.618.18.94.71.78.87.77.26.67.5SIFT [27]D3Feat36.824.614.910.25.528.416.79.03.01.18.77.77.07.26.7随机D3Feat27.716.77.73.62.120.411.07.01.51.58.16.76.56.36.3D3Feat [2]D3Feat48.554.557.057.349.929.228.729.522.811.210.912.013.013.513.9我们D3Feat47.543.137.433.021.528.322.014.210.93.912.411.610.99.99.2表3.ETH上的注册结果。我们评估两个国家的最先进的描述符，结合不同的关键点检测器。定性结果在图6中给出。17050图8. SMPL数据集上的关键点预测结果。4.4. 任意旋转一个好的关键点检测器应该是旋转不变的因此，旋转重复性是衡量关键点检测器质量的重要指标。我们评估的测试分裂的关键点网络数据集，平均超过飞机，椅子和桌子.我们遵循USIP中提出的相对重复性度量作为评估度量。给定同一对象的两个点云，在地面实况变换下，如果第一个点云中的关键点到第二个点云中最近的关键点的距离小于0.1，则第一个点云中的关键点被认为是可重复的当检测到不同数量的关键点时，我们报告可重复关键点的百分比我们将UKPGAN与USIP [20]、D3 Feat [2]、Harris-3D [29]、ISS [41]和SIFT-3D [27]进行比较。我们生成4，8，16，32，64，128，256，512个最显著的关键点，并分别计算相对重复性KeypointNet数据集上任意旋转下的相对重复性如图5所示。由于我们的方法中的局部参考系（LRF），我们实现了比以前所有方法更高的关键点重复性。即使只检测到四个关键点，我们也实现了接近100%的重复性。4.5. 消融研究在本节中，我们通过进行几项消融研究来验证我们的设计选择。评估结果在KeypointNet测试分割上完成。评价了IoU和旋转NMS在阈值0.1，旋转可重复性报告有4个最显著的关键点。定量和定性结果见表4和图7。基于GAN的关键点稀疏控制。GAN允许学习具有容易控制的参数的关键点分布。我们用L1标准进行了实验，发现它IoU（%）轮换代表（%）飞机椅子表飞机椅子表我们68.836.234.798.388.390.6Ours w/o GAN Sparsity36.327.223.199.895.999.6我们没有显著信息。蒸馏51.833.319.094.187.599.9Ours w/o LRF Feat.22.416.021.215.44.90.7我们的无对称寄存器54.920.022.385.177.073.0表4. 各种消融研究的结果。无法通过调整范数损失系数来输出有意义的关键点分布，如图7所示。显着的信息蒸馏。显著信息提取是我们模型的另一个重要模块。我们将完整的模型与实现简单平均而不是最大池化的基线进行比较。结果表明，在没有显著信息提取的情况下，模型的显著部分不能被检测到。局部旋转不变描述符。局部旋转不变描述子在保持任意旋转下的重复性方面起着重要的作用.如果我们用原始XY Z特征替换它，IoU和旋转重复性都会下降。对称正则化在第3.5节中，我们将对称不变性先验集成到我们的模型中，这很有帮助，因为提取的描述符只是旋转不变的，而不是对称不变的。如果我们去除对称正则化，我们看到检测到的关键点在图7中不再对称。5. 结论在这项工作中，我们提出了一个关键点检测器，它可以在一个无监督的方式检测有意义的点。我们的方法的主要贡献是基于GAN的稀疏控制和显着信息蒸馏模块。实验表明，我们的UKPGAN检测器可以产生稳定的点刚性和非刚性物体。此外，我们的方法也很好地推广到真实场景。6. 确认本工作得到了国家重点研究开发项目（第1000号）的资助。2021 ZD 0110700）、国家自然科学基金资助项目51975350、上海市科技重大专项（2021 SHZDZX0102 ）、上海启智研究所、 SHEITC（ 2018-RGZN-02046）。本工作还得到了上海人工智能发展项目（2020-RGZN-02006）和上海交通大学“转化医学交叉研究基金”（zh 2018 qnb 17，zh 2018 qna 37，YG 2022ZD 018）的支持17051引用[1] Martin Arjovsky 、 Soumith Chintala 和 Léon Bottou 。wasser-stein生成对抗网络。在机器学习国际会议上，第214-223页。PMLR，2017年。4[2] 白旭阳、罗紫欣、周磊、符洪波、龙泉、戴洁兰。D3feat：3D局部特征的密集检测和描述的联合学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第6359-6367页，2020年。一、二、五、七、八[3] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲计算机视觉会议上，第404-417页Springer，2006年。2[4] Mánio，J Martínez-Sánchez，H González-Jorge，and HLorenzo. 几何关键点检测及其在点云粗配准中的国际摄影测量档案，遥感空间信息科学，41，2016。1[5] 翁贝托·卡斯特拉尼，马可·克里斯坦尼，西蒙尼·范托尼，和维托里奥·穆里诺.结合3d网格显著性与统计描述子的稀疏点匹配在Computer Graphics Forum，第27卷，第643-652页中。Wiley Online Library，2008. 一、二[6] Nenglun Chen ， Lingjie Liu ， Zhiming Cui ， RunnanChen，Duygu Ceylan，Changhe Tu，and Wenping Wang.内在结构表征点的无监督学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第9121-9130页，2020年。2[7] Angela Dai ， Angel X Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Nießner.扫描网：丰富的注释三维重建的室内场景。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页1[8] Clara Fernando-Labrador ， Ajad Chhatkuli ， Danda PaniPaudel，Jose J Guerrero，Cédric Demonceaux，and LucVan Gool.从点集无监督学习类别特定的欧洲计算机视觉会议，第546-563页。Springer，2020年。2[9] Georgios Georgakis，Srikrishna Karanam，Ziyan Wu，Jan Ernst，and Jana Košecká.用于姿态不变3d匹配的关键点检测器和描述符的端到端学习。在IEEE计算机视觉和模式识别会议论文集，第1965-1973页，2018年。2[10] Zan Gojcic 、 Caifa Zhou 、 Jan D Wegner 和 AndreasWieser。完美匹配：具有平滑密度的三维点云匹配。在IEEE计算机视觉和模式识别集，第5545三、五[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26723[12] Christopher G Harris，Mike Stephens，等.一种组合的角点和边缘检测器。Alvey视觉会议，第15卷，第10-5244页Citeseer，1988年。1[13] Tong He，Haibin Huang，Li Yi，Yuqian Zhou，ChihaoWu，Jue Wang，and Stefano Soatto.Geonet：用于点云分析的深度测地线网络。在IEEE计算机视觉和模式识别会议论文集，第6888-6897页，2019年。1[14] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习。神经信息处理系统的进展，第4016-4027页，2018年2[15] Tomas Jakab，Richard Tucker，Ameesh Makadia，JiajunWu，Noah Snavely，and Angjoo Kanazawa.关键点变形器：用于形状控制的无监督 3d 关键点发现。在IEEE/CVF计算机视觉和模式识别会议上，第12783-12792页，2021年2[16] Marc Khoury，Qian-Yi Zhou，以及Vladlen Koltun。学习紧凑的几何特征。在IEEE计算机视觉国际会议论文集，第153- 161页，2017年。2[17] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在Yoshua Bengio和Yann LeCun的编辑，第三届学习表征国际会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪程序，2015年。4[18] Chang Ha Lee，Amitabh Varshney，and David W Jacobs.网格显著性。ACM图形交易（TOG），24（3）：659-666，2005年。一、二[19] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集，第9397-9406页，2018年。1[20] Jiaxin Li and Gim Hee Lee. Usip：从3D点云中进行无监督的稳定感兴趣点检测。在IEEE计算机视觉国际会议论文集，第361-370页，2019年。一、二、五、八[21] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91-110，2004。一、二[22] Ajmal S Mian，Mohammed Bennamoun和Robyn Owens。杂乱场景中基于三维模型的目标识别与分割。IEEEtransactions on pattern analysis and machine intelligence，28（10）：1584-1601，2006。1[23] Zak Murez、Tarrence van As、James Bartolozzi、AyanSinha、Vijay Badrinarayanan和Andrew Rabinovich。图集：端到端的三维场景重建从构成的图像。在欧洲计算机视觉会议上，第414Springer，2020年。1[24] 约翰·诺瓦纳克和西野高比例相关的三维几何特征。2007年IEEE第11届计算机视觉国际会议，第 1-8页IEEE，2007年。1[25] François Pomerleau ， Ming Liu ， Francis Colas ， andRoland Siegwart.点云配准算法具有挑战性的数据集。国际机器人研究杂志，31（14）：1705-1711，2012。5[26] Charles R Qi ， Hao Su ， Kaichun Mo ， and Leonidas JGuibas. Pointnet：对点集进行深度学习，用于3D分类和分割。InProceedings of the IEEE Conference17052《计算机视觉和模式识别》，第6522017. 4[27] 布莱恩·里斯特，马克·A·霍洛维茨，丹尼尔·L·鲁宾。基于不变关键点的三维图像配准。IEEE Transactions onImage Processing，26（10）：4900一、二、五、七、八[28] Ethan Rublee ， Vincent Rabaud ， Kurt Konolige ，

下载后可阅读完整内容，剩余1页未读，立即下载