高维几何模式识别方法

185 浏览量更新于2023-10-25 收藏 1.76MB PDF 举报

斯坦福大学

高维空间

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于几何模式识别的斯坦福大学JunhaLeePOSTECH英特尔实验室Jaesik ParkPOSTECHVladlenKoltun IntelLabs摘要科学和工程中的许多问题都可以用高维空间中的几何模式我们提出了高维卷积网络（ConvNets）的模式识别问题，出现在几何配准的背景下我们首先研究卷积网络在高达32维的高维空间中检测线性子空间的有效性：比ConvNets的先前应用高得多的维度。然后，我们将高维Con- vNets应用于刚性运动和图像对应估计下的3D配准。实验表明，我们的高维ConvNets优于依赖于基于全局池运算符的深度网络的先前方法。1. 介绍在噪声数据中发现结构是许多不同学科中出现的一个普遍问题。例如，鲁棒线性回归需要在噪声数据中找到模式（线，平面）。点云的3D配准需要在存在虚假对应的情况下识别真实对应[6]。运动恢复结构（SfM）流水线使用基于规定几何模型的验证来过滤虚假图像匹配[38]。各种这样的appli-阳离子可以受益于改进的方法，用于检测的几何结构，在嘈杂的数据。这种检测具有挑战性。属于所寻求的结构的数据点通常只占一小部分，而大多数是离群值。多年来，已经提出了各种算法来处理噪声数据[3，9，14，19，20，32，36，39]，但它们通常只适用于问题的子集。最近的工作提倡使用深度网络[33，46，49]来学习鲁棒模型，以在存在离群值的情况下对几何结构进行分类。深度网络提供了极大的灵活性，并有望通过直接从数据中学习的模型来取代手工制作的算法和算法。然而，由于几何问题中数据的非结构化性质，现有的工作都是将这些数据作为无序集处理，并依赖于网络主要基于全局池运算器和多层感知器（MLP）的架构[31，47]。这样的网络架构缺乏对局部几何结构进行建模的能力，并且不利用数据的性质，数据的性质通常嵌入在（高维）度量空间中并且具有有意义的几何结构。在这项工作中，我们介绍了一种新型的深度卷积网络，可以在高维空间中运行。我们的网络采用稀疏张量作为输入，并采用高维卷积作为基本算子。我们的方法的显着特点是，它能够有效地利用局部邻域关系与全球范围内，即使是高维数据。我们的网络是完全卷积的，不变性的，并且结合了用于二维图像分析的Con-vNets开发的最佳实践[16，21，34]。为了证明我们的方法的有效性和通用性，我们解决各种几何模式识别问题。我们从线性子空间检测的诊断设置开始，并表明我们的构造在高维空间和低信噪比下是有效的。然后，我们将所提出的结构应用于计算机视觉中出现的几何模式识别问题，包括刚体运动下的三维点集的配准（6D问题）和核线约束下的图像之间的对应估计（4D问题）。在这两种情况下，由于离群值的存在，问题变得困难。我们的实验表明，所提出的构造可以可靠地检测几何图案的高维数据，是严重污染的噪声。它可以在现有算法失效的情况下运行。当与3D点云对齐的标准方法结合时，我们的方法显著提高了3D配准性能[6，37，51，52]。所提出的高维卷积网络也优于用于图像之间的对应性估计的最先进方法[46，49]。所有网络和培训脚本均可在https://github.com/chrischoy/HighDimConvNets上获得。1122711228不}∈0| |XCCNN C0D∈ ∈ℵN2. 相关工作稳健模型拟合。将几何模型拟合到集合观测值被野值污染是计算机视觉及相关领域经常出现的一个基本问题。鲁棒几何模型拟合最广泛使用的方法是随机样本一致性（RANSAC）[13]。由于其根本的重要性，多年来已经提出了RANSAC的许多变体和改进[3，9，23，32，36，39，42，41]。或者，稳健几何模型拟合的算法经常使用稳健统计学[14，19，20，50]中的技术导出，其中离群值拒绝通过为估计器配备对总离群值不敏感的成本函数来执行。虽然所得到的算法是计算效率高的，但它们需要仔细的初始化和优化过程，以避免不良的损失。3. 高维卷积网络在本节中，我们将介绍我们的高维卷积网络构造的两个主要构建模块：广义稀疏张量和广义卷积。3.1. 稀疏张量与卷积张量是表示高阶数据的多维数组。 D阶张量需要D索引来唯一访问其元素。我们将这样的索引或坐标表示为x=[x1，...，xD]和坐标处的元素T[x]类似于我们如何访问矩阵中的分量。同样，稀疏张量是稀疏矩阵的高维扩展，其中大多数元素为0。具体来说.[51].另一条工作线提出找到共识最大化问题的全局最优解[5，24，T[xi]=fiifxi∈ C否则，（一）45]。然而，这些方法目前对于许多实际应用来说在计算上要求太高。其中C={xi|xi ∈ND，T[xi]0Ni=1 这是一个集合，3D配准。在一对表面之间找到可靠的对应关系是3D重建的重要步骤[6，10，12，29]。该问题通常被构造为能量最小化问题，可以使用各种技术来解决，例如分支定界[44]、黎曼优化[35]、混合整数规划[22]、鲁棒误差最小化[51]、半定规划[18，26]或随机采样[6]。最近的工作已经开始利用深度网络进行几何配准[2，28，30]。这些工作主要基于PointNet和相关架构，通过全局池操作检测模式[31，47]。在用非零值表示，N是非零值元素，并且fi是第i个坐标处的非零值。稀疏张量特征映射是（D+1）阶张量，其中fiR ND+1，因为我们使用最后一个维度来表示特征维度。一个稀疏张量具有xi∈ N D的约束。我们将稀疏张量坐标扩展到整数指数xiZ D，并定义T R ×ND+1，其中表示整数空间Z的基数以定义广义稀疏张量。这个广义稀疏张量上的卷积可以定义为广义稀疏卷积的简单扩展[7]：Σ相比之下，我们开发了一个高维卷积网络-在多个尺度上运作的工作，不仅可以利用全球，而且可以利用局部几何结构。f输出=i∈ND（ x）<$Cin在X+I为x∈ Cout，（2）图像对应。 Yi等人 [46]和Zhang etal. [49]将基本矩阵估计简化为将对应分类为内点和外点。Ranftl和Koltun [33] 提出了基本矩阵估计的类似公式。Brachmann和Rother [4]提出学习一个神经网络，用于指导RANSAC中的假设采样，以解决模型拟合问题。Dang等人[11]提出了一种数值稳定的损失函数用于本质矩阵估计。所有这些工作都采用PointNets的变体来对假定对应的无序集合中的内点进行分类。这些架构，基于逐点MLP，缺乏能力，局部几何结构建模。相比之下，我们开发的卷积网络直接利用了高维对应空间中的邻域关系。其中in和out是由用户预定义的输入和输出位置的集合，Wi是权重矩阵，并且（x）定义了x的一组邻居，通过卷积核的形状。例如，如果卷积核是大小为K的超立方体，D（x）in是输入稀疏张量的所有非零元素的集合，该输入稀疏张量在范围K的L∞球内以x为中心。3.2. 卷积网络我们基于广义卷积为稀疏张量（稀疏张量网络）设计了一个高维全卷积神经网络[7，8]。我们使用U形网络[34]来捕获大的感受野，同时在最终层保持原始分辨率。该网络在具有相同分辨率的层内和整个网络中具有剩余连接[16]，以加速收敛WifD11229−−≥√i=1≥X{}并恢复最后一层中丢失的空间分辨率。网络架构如图1所示。1.一、为了提高高维的计算效率，我们对所有卷积都使用十字形核[7我们用K表示内核大小。十字形核仅对沿每个轴的K1个最近邻具有非零权重，这导致中心位置的一个权重参数和每个轴的K1个权重参数。注意，十字形核类似于可分离卷积，其中全卷积由大小为K的D个一维卷积近似。这两种类型的核都是全超立方核KD的秩-1近似，但可分离卷积需要KD矩阵乘法，而十字形核只需要（K−1）D+1矩阵乘法。3.3. 执行我们扩展了Choy等人的实现。[7]，它支持任意核形状，高维卷积网络。为了实现稀疏张量网络，我们需要一个有效的数据结构，可以生成一个新的稀疏张量，以及找到邻居的稀疏张量。Choy等人[7]使用对插入和搜索都有效的哈希表。我们用一个更快、更有效的变体取代了哈希表[1]。此外，由于邻居搜索可以并行运行，我们创建了一个迭代器函数，可以通过将表划分为更小的并行块来与OpenMP并行运行[27最后，U形网络生成扩展感受野的分层特征图。Choy等人[7]使用具有内核大小K的步幅-K卷积来生成较低分辨率的分层特征映射。尽管如此，这样的实现需要在超三次内核内的至少KD个元素上迭代，因为坐标被存储在哈希表中，这导致O（ND）复杂度，其中N是输入的基数。因此，对于高维空间，将权重存储在GPU上变得不可行。代替步幅卷积，我们提出了一个有效的实现步幅-K总和池层与内核大小K。而不是在所有可能的neigh- bors迭代，我们在所有输入坐标，并将其四舍五入到K的倍数，这只需要O（N）的复杂性。4. 几何模式识别我们的方法使用卷积网络来识别高维空间中的几何图案。具体来说，我们对高维数据集中的每个点xi进行分类 =xiN作为一个内点或外点。我们首先在不同维度的合成数据集上验证我们的方法，然后显示3D配准和基本矩阵估计的结果。图1：一个通用的U形高维卷积网络架构。每个块旁边的数字表示内核大小、步幅和通道数。降低激活分辨率的步幅卷积向上移动，以指示不同的分辨率水平。对于所有实验，我们首先对输入坐标进行归一化以创建D+1阶的稀疏张量，其中最后一个维度表示特征通道。然后，网络预测稀疏张量中每个非零元素的logit得分，以指示点是几何图案的一部分还是离群值。4.1. 直线和平面检测我们首先测试了我们的全卷积网络在简单的高维模式识别问题上的能力，这些问题涉及在噪声中检测线性子空间。我们的数据集由均匀采样的噪声从D维空间和少量的样本，从一条线下的高斯噪声模型。离群点的数量在维度上呈指数增长（O（LD）），而内点的数量呈次线性增长（O（LD）），其中L是域的范围。补充资料中给出了进一步的详细信息。网络预测输入稀疏张量中每个非零元素的似然得分，并且我们将概率为0的内点阈值化。五、我们使用未加权最小二乘法从预测的内点估计线方程。我们使用PointNet变体作为此实验的基线[31，46，47]。对于Zaheer等人，[47]，我们不能得到合理的结果与网络结构中提出的文件。因此，我们在每次线性变换后使用批规范化和实例规范化层来增强架构，类似于Yi等人。[46]这大大提高了业绩。对于所有实验，我们使用交叉熵损失。我们使用相同的训练超参数，包括损失，批量大小，优化器和所有方法的学习率计划。我们使用三个指标来分析网络的性能：均方误差（MSE）、F1评分和平均精密度（AP）。对于MSE，我们使用最小二乘法估计直线方程，以将直线拟合到内点。第二个指标是F1分数，精确度和召回率的调和平均值。在许多问题中，F1得分是一个分类器性能的直接指标，我们还发现，ResBlock -FN-D转换器3N、1、FN-D转换器3N、1、F输出N-D转换1N，1，1N-D ConvTr 1N，1，128ResBlock -128N-D ConvTr 3N 2，128ResBlock -128N-D ConvTr 3N，2，128ResBlock -128N-D ConvTr 3N，2，128ResBlock -128N-D Conv 3N，2，128ResBlock -128N-D Conv 3N，2，128ResBlock -128N-D Conv 3N，2，128ResBlock -128输入N-D Conv 3N，1，12811230{|}i=1′J′JJ′↔∈表1：在存在极端噪声的情况下高维空间中的线检测。所有网络都使用交叉熵损失进行了40个epochs的训练。内值比列在左侧。在32维设置中，10，000个数据点中只有7个是内点。该表报告了我们的方法（高维ConvNet）与基线（PointNet变体）的均方误差（MSE），F1得分和平均精度（AP）MSE：越低越好。F1和AP：越高越好。Qi等人[三十一]Zaheer 等人[47]第四十七话Yi等人[46个]我们Dim.内围比MSEF1AP（AUC）MSEF1AP（AUC）MSEF1AP（AUC）MSEF1AP（AUC）4百分之十五点五九1.3370.0250.1646.33E-40.8670.9369.11E-50.9810.9962.33E-50.9980.99985.54%2.3690.0220.0650.0010.8910.9552.45E-40.9460.9891.64E-50.9990.999162.75%3.8540.0120.0344.86E-40.9700.9920.0020.9620.9863.39E-50.9990.999240.40%5.3720.0210.0110.6760.6340.6910.7750.6100.6745.34E-50.9940.99632百分之零点零七6.7150.0126.71E-5-0.00.295-0.00.0500.0100.6690.689Table 2: Plane detection in high-dimensional spaces in the presence of extreme noise.内值比列在左侧。在32维设置中，100，000个数据点中只有不到5个是内点。该表报告了我们的方法（高维ConvNet）与基线（PointNet变体）的F1得分和平均精度（AP）。越高越好。Qi等人[三十一]Zaheer等人[47]第四十七话Yi等人[46个]我们Dim.内围比F1 AP（AUC）F1 AP（AUC）F1 AP（AUC）F1 AP（AUC）429.96%0.00.3150.9800.9960.9930.9990.9910.99888.07%0.00.0880.9850.9990.9900.9990.9980.999160.34%0.00.0040.1550.2990.1820.3590.9510.961240.01%0.01.61E-40.0320.1330.00.0810.3040.346324.64 E-3%0.05.56E-50.00.2210.00.0230.1380.240Qi等人[31] Zaheeret al. [47] Yiet al. [46]我们的图2：16D线检测投影到2D平面进行可视化。黑点是噪声，蓝点是来自16D空间中的线的样本。红色虚线是相应方法的预测值。来自地面实况线（蓝色）的样本被放大10倍以进行可视化。F1得分和均方误差之间的强相关性。我们使用的最后一个指标是平均精度（AP），它测量精度-召回率曲线下的面积。我们在Tab中报告结果。1，并提供定性的例子图。二、选项卡. 1列出了内值比率，以指示每个任务的难度。在第二个实验中，我们创建了另一个合成数据集，其中内层模式是从两个向量跨越的平面中采样的：c1v1+c2v2+cc1，c2R. 这两个基向量从D维单位超立方体中均匀采样. 我们对网络和基线使用相同的训练程序，并在Tab中报告结果。二、我们发现，卷积网络比PointNet变体对高维空间中的噪声更具鲁棒性。此外，卷积网络训练收敛很快，如图所示3，这进一步表明，该架构可以有效地利用结构，数据的真实性4.2. 3D配准典型的3D配准流水线由1）特征提取、2）特征匹配、3）匹配过滤和4）全局配准组成。在本节中，我们将展示在匹配过滤阶段，正确的（内点）对应关系形成了一个6维几何结构。然后，我们扩展了我们的几何模式识别网络，以确定在这个6维空间中的内点对应。设 X 是从 3D 表面采样的点的集合，X={xi|xi∈R3}N，设X′是X的一个经过刚性变换T的子集，X={T（x）|x∈ S，S <$X }.例如，X可以是来自与X重叠的不同视角的3D扫描。我们将点xi∈ X和x′∈ X之间的对应表示为xix′。当我们形成有序对（xi，x′）R6时，地面真值对应满足T（x）= x′，11231J ∈′ǁ −ǁˆ↔ǁ − ǁS1.00.80.60.40.20.00 1 2 3 4 5 6 7 8 9 10时代1.00.80.60.40.20.00 1 2 3 4 5 6 7 8 9 10时代1.00.80.60.40.20.00123456789 10时代Qi等人Zaheer等人Yi等人我们图3：16D线检测，训练进展。我们在验证集上绘制精确度、召回率和F1得分的运行均值和标准差。我们的高维卷积网络可以快速达到比基线更高的精度。1110987651234567x轴后[48]。在训练过程中，我们随机旋转每个场景以增强数据集。我们使用流行的手工设计的特征描述符FPFH [37]来计算对应关系。然而，请注意，我们的管道对特征的选择是不可知的，并且也可以与学习的特征一起使用[8]。我们遵循3D配准文献中的标准程序来生成候选对应。第一、图4：集合Y是集合X=[1，...，7]，Y ={x +4|x ∈ X}。有序对应对（蓝色）形成线段，而离群值（红色）形成外部随机噪声the line.常见的3D几何形状，而不正确的对应关系意味着T（x）x′。例如图4.从一维集合中直观地刻画了有序偶。请注意，内点遵循输入的几何形状并形成线段。类似地，几何（x，x′）∈R6或（x，T（x））对于x∈ S，形成6维空间中的曲面。因此，我们可以使用我们的高维卷积网络构造，通过估计每个对应关系的内点似然性，将6维对应关系集分割为内点和离群点。网络我们使用了第二节中提出的U形卷积网络的6维实例。3 .第三章。由于维数是可管理的，我们使用超三次内核。该网络采用一个6阶稀疏张量，其坐标为对应关系（xi，x′）R6。我们用用于提取特征的体素大小我们由于3D扫描经常表现出不规则的密度，我们使用体素网格重新采样输入点云以产生规则的点云。我们使用2.5cm和5cm的体素尺寸进行实验。接下来，我们计算FPFH特征，并在特征空间中找到每个点的最近邻居以形成对应。从这个过程中获得的对应其中x x′满足T（x）x2<τ时为内点，其余均为外点.我们将τ设为两倍的体素大小。最后，我们使用一种配准方法将过滤后的对应关系转换为最终的配准结果。我们显示了两种不同的注册方法的结果。第一种是快速全局配准[51]，其直接最小化鲁棒误差度量。第二种是RANSAC [13]的变体，专门用于3D配准[52]。评价我们使用三个标准指标来评估注册性能：旋转误差、平移误差和成功率。旋转误差测量绝对值-从地面真实旋转Rθ中减去角θ，不arccosTr（RR）−1。同样，翻译错误的衡量标准基线是Yiet al.[46]，取无量纲平均值-2没有离散化的中心对应。我们训练网络来预测每个对应的内点概率，并平衡交叉熵损失。数据集。我们使用3DMatch数据集进行此实验[48]。3DMatch数据集是各种3D扫描数据集的组合[15，43，48]，因此涵盖了广泛的场景和不同类型的3D相机。我们整合RGB-D图像，形成场景的片段平移的偏差是t，t，2。当我们报告这些指标时，我们排除了超过阈值的比对[8]，因为当配准失败时，配准方法[51，13]的结果可能任意差最后，成功率是成功配准的比率;如果旋转和平移误差都在各自的阈值内，则认为配准成功。对于所有实验，我们使用15度的旋转误差和30cm的平移误差作为阈值。y轴精度召回F111232◦↔表3：采用2.5 cm下采样的3DMatch测试场景上的成对配准。平移误差（TE）、旋转误差（RE）、成功率。如果TE30 cm且RE15，则认为配准成功。<<内围比FPFH + FGRTE RE Succc. 率FPFH + Ours + FGRTE RE Succc. 率FPFH + RANSACTE RE Succc. 率FPFH + Ours + RANSACTE RE Succc. 率厨房1.62%10.984.9937.155.682.2165.616.252.1744.475.901.9869.57主场12.71%11.124.4045.516.522.0880.777.072.1961.546.001.8780.13主场22.83%9.613.8336.547.132.5664.426.472.4050.007.862.5669.71Hotel 1百分之一点三五12.315.0933.197.952.6576.117.482.7548.677.382.3880.09酒店2百分之一点五四12.275.2225.007.862.5669.239.543.1847.126.402.2570.19酒店31.59%13.527.0427.785.391.9972.225.912.4659.265.852.3681.48研究0.87%16.106.0116.789.612.6453.4210.053.0130.488.512.2356.16实验室1.59%10.484.8042.867.692.4461.048.012.3145.456.642.1268.83平均12.055.1733.107.232.3967.857.602.5648.376.822.2272.02806040200厨房首页1首页2酒店1酒店2酒店3学习实验室图5：基线方法和我们在3DMatch基准[48]上的成功率，体素尺寸为5 cm。FGR表示在FPFH [37]和Zhou等人处注册。 [51]，Yi etal. + X表示使用Yi等人的FPFH滤波。[46]和注册X，我们的+X表示我们的过滤方法，然后注册X。选项卡. 3显示了使用和不使用我们的网络过滤离群值的3D配准管道请注意，对于FGR [51]，我们观察到我们的网络有了相当大的改进，因为FGR假设输入更准确的对应关系。RANSAC的改进较小，因为它对高离群值率更鲁棒。尽管对于许多3D场景对，内点比率低至1%，但我们的网络可以生成非常准确的预测。类似于图1中的线性回归实验。3、我们发现网络收敛非常快。我们比较Yi等人的模型。[46]在图5中，使用5cm体素大小来研究6维卷积网络对体素大小的鲁棒性，并且发现卷积网络即使对于用5cm离散化分辨率看到的较高内点比率也显著提高了配准成功率从质量上讲，我们的网络即使在存在极端噪声的情况下也能准确地过滤出离群值（六）。4.3. 过滤图像对应在本节中，我们将高维卷积网络应用于图像对应性内点检测。在射影空间P2中，内点对应u u′必须满足u′ <$Eu = 0，其中E是本质矩阵，u表示归一化齐次坐标u = K−1x，当u′≠Eu=0时，得到u′1Au1+u′2Bu1+u′1Cu2+u′2Du2+Eu′1+Fu′2+Gu1+ Hu2+ I = 0，这是一个四元二次函数. 如果有一个实值解，则有无穷多个解形成椭圆（球面）、抛物线或双曲线。这些被称为圆锥曲线。因此，一组地面实况图像对应将在4维空间中形成超圆锥截面。我们使用卷积网络来预测对应是内点的可能性。数据集：YFCC 100M。我们使用大型照片旅游数据集YFCC 100M [40]进行实验。该数据集包含旅游热点的1亿个闪烁图像和元数据，这些图像被整理成72个位置，使用 SfM [17] 估计相机外部参数。我们遵循Zhanget al. [49]生成一个数据集，并使用68个位置进行训练，其他位置进行测试。我们从SfM中过滤了具有少于100个重叠3D点的任何图像对，以保证图像之间的非零重叠。我们使用SIFT特征[25]来创建对应关系，并且如果对应关系的对称核线距离低于使用所提供的相机参数的特定阈值，则将对应关系标记为地面实况内点，即，x是相应的齐次图像坐标，.R2r2K是摄像机固有矩阵。当我们扩大l2+l2+l′2+l′2<τ，（3）1 2 1 2FGRYi等人+FGRYi等人+ RANSACOurs + FGR我们的+RANSAC成功率（%）11233厨房卧室客厅书房图6：异常值过滤前后颜色编码对应关系的可视化（第二节）4.2）。对于每一对，我们在左边可视化来自候选集的100个随机对应，在右边可视化经过离群值修剪后的100个随机对应红线是异常值对应关系，蓝线是内点对应关系。在右下角，有两个相同的椅子。平均内点比率为1.76%。其中l=u′ <$E=（l1，l2，l3）是一条齐次直线，l′=Eu，且r=u′ <$Eu.网络我们将一组候选图像对应转换为具有四个空间维度和矢量化特征的5阶稀疏张量坐标被定义为归一化图像坐标u。我们定义整数坐标通过离散化的归一化图像坐标与量化分辨率0.01，并另外使用归一化坐标作为功能。我们使用YFCC数据集上最先进的基线和两种卷积网络变体来完成这项任务。第一种变体是U形卷积网络（Ours）;第二个网络是具有空间相关模块（Ours+ SC）的类ResNet网络。空间相关模块[49]是共享MLP的块，其从一组对应中编码全局上下文。我们在所有实验中使用平衡交叉熵损失[46]。评价我们使用精确度，召回率和F1得分来评估对应分类的准确性。我们使用τ= 10−4作为距离阈值来定义地面真值对应。我们的网络预测对应是准确的，如果其内点概率预测高于0.5.我们在Tab中提供定量结果。4和定性结果图。7.第一次会议。我们的方法（使用空间相关模块）优于PointNet变体[46，49]，如F1分数所测量的，但不是很大的差距。我们将此归因于SIFT关键点的稀疏性。不像FPFH，我们密集地采样关键点，对应只定义在稀疏的关键点上。这种稀疏性导致高维空间中的邻居更少我们的卷积网络在这种情况下仍然有效，但它们利用局部几何结构的独特能力没有得到充分利用。5. 结论计算机视觉中许多有趣的问题涉及高维空间中的几何图案。我们提出了高维卷积网络的几何模式识别。我们提出了一种全卷积网络架构，该架构高效，即使在存在严重噪声的情况下也能够在高维数据中找到模式。我们验证了我们的方法在诸如线和平面检测，3Dregis，11234表4：YFCC 100M测试集的分类评分如果对称核线距离−4低于10，预测置信度高于0.5。Yi等人[46个]Zhang等人[49个]我们我们的+SC预处理召回F1预处理召回F1预处理召回F1预处理召回F1BUCKINGHAM0.4970.7720.6050.4860.8890.6290.5350.8220.6480.6110.8350.705NOTRE DAME0.5810.8940.7050.6290.9510.7570.6470.9150.7580.7210.9290.812REICHTAG0.7470.8770.8070.7340.9170.8150.6950.9110.7890.7690.8970.827SACRE COEUR0.6580.8710.7500.6620.9480.7800.6320.9170.7480.7180.9320.811平均0.6210.8540.7170.6280.9260.7450.6280.8910.7360.7040.8980.789BUCKINGHAMNOTREDAMESACRECOEUR图7：使用Yi等人的匹配结果。[46]（第一行），Zhanget al. [49]（第二行）和我们的+ SC（最后一行）。我们可视化对应的内点概率高于0.5。如果对应关系为真正（对称核线距离），则将其涂为绿色−4小于10）和红色否则。过滤和图像对应的几何过滤。我们将进一步分析网络架构，超参数，以及高维卷积网络在未来工作中成功的条件。确认这项工作部分得到了韩国国家研究基金会（NRF）的资助，并由韩国政府（ MSIT ）资助2020R1C1C1015260）。11235引用[1] 马丁·安克尔。罗宾汉散列法。https：//github.com/martinus/robin-hood-hashing，2019年。3[2] 青木康弘，亨特·戈福斯，兰加普拉萨德·阿伦·斯里瓦特山，西蒙·露西.PointNetLK：使用pointnet的强大高效在CVPR，2019年。2[3] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother。DSAC -用于相机局部化的可微RANSAC。在CVPR，2017年。一、二[4] Eric Brachmann和Carsten Rother。神经引导RANSAC：学习在哪里采样模型假设。在ICCV，2019年。2[5] 放大图片作者：Tat-Jun Chin，Pulak Purkait，Anders P.埃里克森和大卫·苏特。树搜索的高效全局最优共识最大化。IEEE Transactions on Pattern Anaysis and MachineIntelligence，2017。2[6] Sungjoon Choi，Qian-Yi Zhou，and Vladlen Koltun.室内场景的鲁棒重建。CVPR，2015。一、二[7] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空ConvNets：Minkowski卷积神经网络。在CVPR，2019年。二、三[8] Christopher Choy，Jaesik Park和Vladlen Koltun。完全卷积几何特征。在ICCV，2019年。二、五[9] Ondrej Chum和Jiri Matas。与prosac匹配-渐进样本共识。在CVPR，2005年。一、二[10] AngelaDai ， Mat thiasNießner ， MichaelZoll oüfer ，ShahramIzadi，and Christian Theobalt.BundleFusion：使用动态表面重积分的实时全局一致3d 重建。 ACMTransactions on Graphics，2017。2[11] Zheng Dang，Kwang Moo Yi，Yinlin Hu，Fei Wang，Pascal Fua，and Mathieu Salzmann.具有零特征值损失的深度网络的无特征分解在ECCV，2018。2[12] Wei Dong，Jaesik Park，Yi Yang，and Michael Kaess.GPU加速的鲁棒场景重建。在IROS，2019年。2[13] Martin A. Fischler和Robert C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。ACM通讯，1981年。二、五[14] Andrew W.菲茨吉本2D和3D点集的稳健配准。图像和视觉计算，2003年。一、二[15] Ben Glocker、Shahram Izadi、Jamie Shotton和AntonioCriminisi。实时RGB-D摄像头重新定位。在IS-2013年3月。5[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、二[17] Jared Heinly，Johannes L Schonberger，Enrique Dunn，and Jan-Michael Frahm.在六天内重建世界。CVPR，2015。6[18] M. B. Horowitz，N. Matni和J. W.伯迪克用于视觉姿态估计的SE（2）和SE（3）的凸关系。InICRA，2014. 2[19] Reza Hoseinnezhad和Alireza Bab-Hadiashar。计算机上高崩溃抗差估计的m估计11236视野计算机视觉和图像理解，2011年。一、二[20] 彼得·J·胡贝尔。稳健的统计数据。Springer，2011. 一、二[21] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。1[22] 格里高利·伊扎特和拉斯·特德雷克基于混合整数规划的点云目标姿态估计在2017年机器人研究国际研讨会。2[23] Karel Lebeda，Jirı Matas，and Ondrej Chum.修复局部优化的RANSAC完整实验评估。2012年英国机器视觉会议。2[24] 李宏东。鲁棒几何估计的保证全局最优性的一致集最大化。ICCV，2009年。2[25] David G.洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，2004年。6[26] Haggai Maron ， Nadav Dym ， Itay Kezurer ， ShaharKovalsky，and Yaron Lipman.通过有效的凸松弛进行点配准。ACM Transactions on Graphics，2016。2[27] OpenMP体系结构审查委员会。OpenMP应用程序接口版本3.0，2008年5月。3[28] G. Dias Pais，Pedro Miraldo，Srikumar Ramalingam，Venu Madhav Govindu，Jacinto C.纳希门托和拉玛·切拉帕3DRegNet：用于3D点配准的深度神经网络。arXiv，2019年。2[29] Jaesik Park，Qian-Yi Zhou，and Vladlen Koltun.重新审视彩色点云配准。InICCV，2017. 2[30] Thomas Probst、Danda Pani Paudel、Ajad Chhatkuli和Luc Van Gool。3D视觉问题的共识最大化的无监督学习。在CVPR，2019年。2[31] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。一、二、三、四[32] Rahul Raguram、Ondrej Chum、Marc Pollefeys 、JiriMatas和Jan-Michael Frahm。USAC：随机样本共识的通用框架。IEEE Transactions on Pattern Anaysis andMachine Intelligence，2013。一、二[33] Rene 'Ranftl和Vladlen Koltun。深度基本矩阵估计。在ECCV，2018。一、二[34] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox.U-网：用于生物医学图像分割的卷积网络在MICCAI，2015年。一、二[35] David M Rosen、Luca Carlone、Afonso S Bandeira和John J Leonard。Se-sync：一种在特殊欧氏群上进行同步的可证明正确的算法。国际机器人研究杂志，2019年。2[36] Peter J.Rousseeuw。最小平方回归中位数美国统计协会杂志，1984年。一、二[37] Radu Bogdan Rusu，Nico Blodow和Michael Beetz。用于三维配准的快速点特征直方图InICRA，2009.一、五、六[38] Schoenbe r ge r，JohannesLutz，andJan-MichaelFrahm.结构从运动重新审视。在CVPR，2016年。111237[39] 鲁万湾 Tennakoon ， Alireza Bab-Hadiashar ， ZhenweiCao，Reza Hoseinnezhad，and David Suter.使用高于最小子集采样的稳健模型拟合。IEEE Transactions onPattern Analysis and Machine Intelligence，2016。一、二[40] Bart Thomee 、 David A Shamma 、 Gerald Friedland

下载后可阅读完整内容，剩余1页未读，立即下载