自监督等变学习用于定向关键点检测

148 浏览量更新于2023-10-25 收藏 20.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

48470自监督等变学习用于定向关键点检测0Jongmin Lee Byungjin Kim Minsu Cho0韩国浦项科技大学(POSTECH)0http://cvlab.postech.ac.kr/research/REKD0摘要0从图像中检测到稳健的关键点是许多计算机视觉问题的重要组成部分，关键点的特征方向和尺度对于关键点描述和匹配起着重要作用。现有的基于学习的关键点检测方法依赖于标准的平移等变CNN，但往往无法对抗几何变化检测到可靠的关键点。为了学习检测稳健的定向关键点，我们引入了一种使用旋转等变CNN的自监督学习框架。我们提出了一种通过合成变换生成的图像对进行密集方向对齐损失的方法，用于训练基于直方图的方向图。我们的方法在图像匹配基准和相机位姿估计基准上优于先前的方法。01. 引言0从图像中检测到稳健的关键点是许多计算机视觉任务的重要组成部分，例如图像匹配[21]、视觉定位[28, 54, 55]、SLAM[13, 14,39]和3D重建[1, 19, 57,76]。稳健的关键点原则上是一致可定位的，对图像的视点/光照变化不变，关键点通常被赋予其特征方向/尺度作为几何特征，这对于关键点描述[14, 15, 27, 37, 41, 45, 51, 62, 63, 70]或匹配[6, 53,71,73]起着重要作用，如图1所示。由于真实世界图像中的感兴趣模式经常发生旋转，关键点及其几何特征需要在图像旋转方面保持一致。早期的方法通过在浅层基于梯度的特征图上使用手工设计的滤波器检测关键点。例如，SIFT[27]通过在尺度空间上的高斯差分特征中找到局部极值来检测关键点，并从梯度直方图中获得主导方向。虽然这种技术在浅层特征图上已经证明有效，但它无法应用于标准网络的深度特征图，因为旋转或缩放会导致特征的不可预测变化。因此，最近的方法依赖于数据学习。它们通常通过回归方向和尺度来训练卷积神经网络(CNN)进行关键点检测和/或描述。一些方法采用自监督学习通过合成变换，而其他方法通过同源性或SfM进行强监督训练。然而，所有这些方法通常无法对抗几何变化检测到可靠的关键点；它们通过依赖数据增强进行不变性或等变性的训练，但这不能提供足够的关键点检测水平。在这项工作中，我们提出了一种自监督等变学习方法用于定向关键点检测。最近的研究引入了不同的等变神经网络，通过设计嵌入了等变学习的显式结构。群等变CNNs0(a) Key.Net (b) 我们的0图1.使用现有关键点检测器Key.Net[3]（左）和我们的定向关键点检测器（右）进行预测匹配的可视化。我们使用地面真值单应性绘制正确匹配（绿色）和错误匹配（红色）。我们提取300个关键点，并使用HardNet[37]描述符进行匹配。右侧关键点的箭头表示用于过滤异常值的估计方向。0基于梯度的特征图方法无法应用于标准网络的深度特征图，因为旋转或缩放会导致特征的不可预测变化。因此，最近的方法[3, 41, 58,70]依赖于数据学习。它们通常通过回归方向和尺度来训练卷积神经网络(CNN)进行关键点检测和/或描述。一些方法[3, 41]采用自监督学习通过合成变换，而其他方法[58,70]通过同源性或SfM进行强监督训练。然而，所有这些方法通常无法对抗几何变化检测到可靠的关键点；它们通过依赖数据增强进行不变性或等变性的训练，但这不能提供足够的关键点检测水平。在这项工作中，我们提出了一种自监督等变学习方法用于定向关键点检测。最近的研究[10, 11, 29,68, 69,75]引入了不同的等变神经网络，通过设计嵌入了等变学习的显式结构。群等变CNNs48480在循环群上的操作具有明确编码丰富的方向信息和通过权重共享来减少模型参数数量的优势，相比传统的CNN。我们提出了一种方向对齐损失，通过基于直方图的表示来估计关键点的特征方向。与回归方法[41，70，72]通过预测多个方向候选项相比，基于直方图的表示提供了更丰富的信息。为了训练不变的关键点检测器，我们利用基于窗口的损失[3]来满足图像中不同锚点的几何一致性。我们通过随机平面旋转生成合成图像对，以创建多样化的示例并降低注释成本。此外，我们在网络中生成了一个尺度空间表示，并使用多尺度推断来近似考虑尺度不变性。我们通过与现有模型[27，41，51]在合成旋转下进行旋转不变关键点检测和旋转等变方向估计的比较来评估模型。我们通过在图像匹配基准[2]上使用重复性得分和匹配准确性验证了我们的关键点检测器相对于手工制作方法[27，51]和基于学习的方法[3，14，15，45]的有效性。估计的方向通过HPatches[2]中的异常值过滤来提高图像匹配准确性。此外，我们通过在IMC2021[21]中评估6自由度姿态估计来展示对更复杂任务的可迁移性。我们进行了消融实验和可视化来验证我们模型的有效性。我们的论文贡献有三个方面：•我们提出了一种自监督框架，用于学习使用旋转等变表示检测旋转不变关键点。0•我们提出了一种密集方向对齐损失，通过对齐一对直方图张量来训练特征方向。0•我们通过与现有关键点检测方法在标准图像匹配基准上进行广泛评估，证明了我们的定向关键点检测器的有效性。02. 相关工作0图像匹配的关键点检测。传统的关键点检测器依赖于精心设计的手工制作滤波器。Harris [18]和Hessian[5]使用一阶和二阶图像导数在图像中找到角点或斑点。这些检测器通过处理多尺度和仿射变换[32，34]进行扩展。SIFT[27]通过从DoG特征中找到局部极值来检测关键点，SURF[4]通过使用Haar滤波器进一步提高速度。ORB[51]提出了一种有向FAST[50]检测器。最近，学习方法[14，15，40，41，45，56，58，61，65，66，70]0使用基于CNN的响应图来训练关键点检测器。Key.Net[3]利用手工制作和基于学习的两种表示的优点，以提高可重复性的性能。此外，一些方法[8，24，35，36，47，48，64]使用一对密集特征在相关张量中找到对应关系，而无需单独的关键点检测器，但构建相关张量需要高内存消耗，因此会影响对应关系的像素准确性。与使用传统的平移等变CNN的学习方法相反，我们利用旋转等变CNN来获得一致的2D关键点。我们的模型可以通过组卷积中的权重共享显著减少模型参数的数量。0局部方向估计。SIFT[27]使用图像梯度的直方图来估计局部方向。ORB[51]提出了一种使用强度质心[49]测量角点方向的高效方法。学习方法通过描述符相似性损失[16，38，58，72]隐式学习方向，或通过方向回归损失[41，70]显式学习方向，并将方向作为STN[20]中的仿射参数之一进行补丁采样。虽然[41，70]通过最小化角度距离学习关键点的稀疏方向，但我们的模型通过匹配移位方向直方图的直方图对齐损失学习所有位置的密集方向。与[41，70]的回归相比，我们的直方图输出自然地促进了多个方向的预测，并且与旋转等变表示的直方图对齐损失允许更强大的学习。先前的工作[23]提出了局部补丁级别的直方图对齐损失，但我们将其扩展到图像的所有区域。通过异常值过滤验证方向以进行图像匹配。0等变表示学习。[30, 31, 59]提出了基于受限玻尔兹曼机（RBM）的等变表示，通过张量分解实现。自从卷积神经网络流行起来，[10]提出了使用离散等距群的等变卷积网络。[29, 75]提出使用插值来编码明确的方向的重采样滤波器。[68, 69]使用谐波作为滤波器，从更多种类的群和连续域中提取等变特征。[67] 将这个群扩展到一般的 E(2) 群，[60]提出了尺度等变的可操纵网络。从应用的角度来看，[17]提出了旋转等变网络来解决航空图像上的旋转物体检测问题。[44] 将等变卷积神经网络应用于多模态图像的配准。[43]对光照和视角的不变性群进行解耦，用于训练局部描述符。最相似的工作是 GIFT[26]，它使用等变网络获得密集的局部描述符，但是 [26]是通过增强图像构建群表示，而我们是通过在运行时使用可操纵核[67]构建表示。48490而不是在运行时旋转图像。03. 旋转等变关键点检测03.1. 概述0我们的工作目标是从图像中学习检测有方向的关键点。传统的关键点检测器依赖于手工设计的特征，满足旋转/平移等变性，但是手工方法对光照变化或颜色失真敏感。相反，最近的基于学习的关键点检测器使用标准的卷积神经网络通过卷积层编码局部几何和高级语义。卷积操作本质上是平移等变的，而不是旋转等变的。因此，我们使用旋转等变卷积[67]而不使用手工设计的特征，以充分利用两种方法的优势。旋转等变的卷积神经网络特征有助于提取具有方向性的旋转不变关键点。图2展示了所提出的方法，它由旋转等变层组成，并且后面跟着两个分支，即关键点检测和方向估计。关键点检测分支通过群池化生成旋转不变的关键点得分图，方向估计分支通过通道池化生成旋转保持的方向图。我们使用基于窗口的关键点检测损失[3]和提出的密集方向对齐损失来以自监督的方式学习有方向的关键点。此外，多尺度图像金字塔鼓励网络对尺度变化具有鲁棒性。03.2. 预备知识0等变性。如果一个特征提取器 Φ 对于几何变换 Tg是等变的，那么将输入 x ∈ X 经过变换 Tg再通过特征提取器 Φ 得到的结果与先将 x 通过 Φ映射再通过变换 T'g 得到的特征图相同[67]。形式上，对于变换群 G 和 Φ：X →Y，等变性可以表示为：0Φ[Tg(x)] = T'g[Φ(x)], (1)0其中 Tg 和 T'g表示每个空间上的变换，作为预定义的群作用 g ∈G。在这种情况下，函数 Φ对一种表示到另一种表示的“结构保持”映射进行操作。例如，卷积操作被设计为平移等变。如果 Tt 是一个平移群(R2, +)，f 是发送到 Z2 → RK 的 K维特征映射，那么平移等变性可以表示如下：0[Ttf] * ψ(x) = [Tt[f * ψ]](x), (2)0其中 ψ 表示卷积滤波器的权重 Z2 → RK，*表示卷积操作。0群等变卷积。最近的研究[10-12, 67,68]开发了对平移、旋转和反射的对称群等变的卷积神经网络。设H为旋转群。群G可以定义为G�=(R2,+)�H，即平移群(R2,+)与旋转群H的半直积。然后，群G上的旋转等变卷积可以定义为：0[Tgf] � ψ(g) = [Tg[f � ψ]](g)，(3)0在等式2中，将t ∈ (R2, +)替换为g ∈G。这个操作可以应用于输入张量，产生一个平移和旋转等变的输出。注意，循环群GN表示一个2π的区间。0其中N表示离散旋转。可以通过堆叠旋转等变层来构建旋转等变网络，类似于标准CNN。这个网络以与平移等变卷积网络相同的方式对平移和旋转都具有等变性。形式上，令Φ ={Li | i ∈ {1, 2, 3, ...,M}}，其中包含M个旋转等变层，属于群G。对于Φ中的一层Li，变换Tg定义为0Li[Tg(g)] = Tg[Li(g)]，(4)0这表明输出在关于Tg的Li操作后保持不变。进一步扩展，如果我们将Tg应用于输入I，然后通过网络ϕ传递它，整个网络都会保持变换Tg。0[ΠMi=1Li](TgI) = Tg[ΠMi=1Li](I)，(5)03.3. 旋转关键点检测网络0在本小节中，我们描述了创建旋转不变关键点检测和旋转等变方向估计的表示的过程。旋转等变特征提取。对于特征提取，我们使用旋转等变卷积层[67]。为了在有限的计算资源下提高计算效率，我们只考虑离散旋转群。该层作用于(R2,+)�GN，并对所有平移和N个离散旋转等变。在第一层L1中，输入图像的标量场通过在预定义群中定义场类型，被提升为群表示的向量场[67]。给定一个输入图像，M个堆叠的层通过以下方式产生输出特征图0H = [ΠMi=1Li](I)，(6)0其中H∈R|G|×C×H×W是旋转等变表示的输出，C是为每个群作用分配的通道数。在我们的实验中，我们使用3层(M=3)。输出H∈R|G|×C×H×W是一组特征图，表示了|G|个C通道的特征图• • •H• • •𝚸• • •• • •H• • •𝑸• • •• • •K = ρ(�s S(ζ(Ps))),(7)Q = η(H:,c),(8)O = σ(s S(ζ(Qs))),(9)48500RE层0图像金字塔0K∈�(", $) 关键点检测0分组池化0双线性插值0插值01x1卷积，使用0一个卷积核0在通道维度上进行拼接0O∈�(|'|, ", $)0方向估计0通道池化0双线性插值0插值0每个像素上的Softmax0逐元素操作0求和0图2. 整体架构。旋转等变卷积层接收输入图像并在多个尺度上进行处理。多尺度旋转等变表示Hs通过两个独立的分支，预测关键点图K和方向图O。0方向， H i 表示 G 中第 i个方向的特征映射。这种旋转等变网络使得不同方向（即旋转变换）之间的核权重得以广泛共享，从而提高了学习的样本效率，特别是在涉及旋转的任务中。旋转不变关键点检测。鲁棒的关键点需要对旋转变换具有不变性；对于图像上的特定位置，其关键点得分（即关键点分数）不应受到旋转图像的影响。为了获得这样的关键点得分的旋转不变映射，我们通过组池化将 G 中的 H ∈ R | G |× C × H × W折叠，将其减少为一个旋转不变的表示 P ∈ R C × H ×W 。具体而言，我们使用方向上的最大池化： P = max g H g, : , : , : 。给定多尺度输出 { P s } s ∈ S，最终得分映射 K ∈ R H × W 通过对 P s的串联使用标准卷积 ρ 而得到：0其中 ρ 是一个卷积操作，� 表示元素的连接， ζ表示双线性插值函数。插值函数将输入映射调整为目标大小，卷积将旋转不变的特征映射转换为旋转不变的得分映射。旋转等变方向估计。为了估计候选关键点的特征方向，我们利用旋转等变张量 H的方向群，并将其转换为方向直方图张量 Q。具体而言，我们通过通道池化折叠每个方向的通道维度 C，并生成一个 | G | -通道特征映射 Q ∈ R | G |× H × W，其中每个位置可以被视为分配了一个 | G |个箱子的方向直方图。我们使用具有单个滤波器的 1 × 1组卷积实现折叠每个方向的通道：0其中 η : R | G |× C → R | G | 将 H映射为一个离散的直方图分布，其中有 | G |个箱子。注意，通道池化可以0可以是任何其他操作，例如最大池化、平均池化等。结果输出可以解释为相应位置的特征方向映射。输出像素级的旋转等变表示 Q用于学习基于直方图的密集概率映射的关键点方向。给定多尺度输出 { Q s } s ∈ S，通过对多个尺度的输出求和，得到最终的方向概率张量O ∈ R | G |× H × W ：0其中 σ ∈ R | G | → [0 , 1] | G |0是逐元素求和操作。03.4. 训练0在本小节中，我们描述了关键点检测和方向估计的两个损失函数。首先，描述方向估计的损失。密集方向对齐损失。我们训练直方图张量 O来表示每个像素的方向。我们的方法兼具基于直方图的方法[ 27 , 51 ] 和基于学习的方法 [ 41 , 70 , 72 ]的优点。密集方向张量 O ∈ R | G |× H × W对每个特征点编码相对方向。我们通过显式监督将 O a的特征点的直方图和 O b的空间维度进行转换，以学习特征方向，如图 3所示。图像对 I a ， I b 和已知的真实旋转 T g被假设为网络的输入。首先，我们用 T − 1 g 对 O b进行空间对齐的旋转。接下来，通过在向量空间中使用 T ′g 移动 O a中每个位置的直方图来执行直方图对齐。注意， O中每个像素的直方图在一个循环群 G中。最后，对于所有像素，使用以下交叉熵损失训练对齐的表示 T ′ g ( O a ) 和 T − 1 g ( O b ) ：0Lori=−0W�0i=10j=1M∙0k=1T′g(Oa)klog(T−1g(Ob))k, (10)m(i)u,v =w(i)(13)(14)48510其中M=1∧T−1g(1)是用于去除越界区域的掩码，1∈1H×W。为简单起见，在方程10中省略了张量Oa，Ob和M的空间索引i，j。基于窗口的关键点检测损失。我们使用多尺度索引提案[3]进行关键点检测损失。一般来说，一个好的关键点在几何或光度图像变换下具有一致的位置不变性。基于窗口的关键点检测损失[3]既利用了选择基于锚点的关键点[14,66, 74]，又利用了使用单应性而不限制它们位置的窗口[25,41]。关键点得分图K∈RH×W通过基于窗口的指数缩放进行非极大值抑制。得分图K中的窗口m(i)由大小为N×N的空间窗口上的图像坐标(u, v)的softmax导出：0�c(i)+Nj=c(i)�c(i)+Nk=c(i)ew(i)j,k,(11)0其中窗口w(i)是得分图K中的非重叠第i个N×N网格，c(i)是窗口w(i)的左上坐标。然后，m(i)中的最大值成为窗口中的主要位置，并通过乘以窗口w(i)中的索引进行加权平均，如下所示：0[x(i), y(i)]�=[¯u(i), ¯v(i)]�=�0[u,v]∈w(i)m(i)u,v∙[u,v]�,0(12)其中[x(i),y(i)]�是图像中的软选择坐标。方程11-12旨在通过选择关键点的实值坐标来抑制噪声预测，并使层可微分，与[70]中使用的软最大值相同。索引提案损失将软选择的索引与通过argmax在w(i)中使用地面真实几何变换Tg获得的硬选择坐标[ˆx(i), ˆy(i)]进行比较：0LIP(Ia, Ib, Tg, N) = �0iα(i)||[x(i), y(i)]a�−T−1g[ˆx(i), ˆy(i)]b�||2,0其中α(i)=Ra[x(i), y(i)]a+Rb[ˆx(i), ˆy(i)]b,0其中α(i)是基于分数图的加权项，Ra和Rb是Ia和Ib的响应图，其坐标由T−1g相关。最后，关键点检测损失使用多个窗口大小，并添加输入源和目标的切换项：0Lkpts(Ia, Ib, Tg) = �0lλl(LIP(Ia, Ib, Tg, Nl)0+LIP(Ib, Ia, T−1g, Nl)),0空间对齐�!"#0EquiCNN0�$0�%0O$0O%0�!0EquiCNN0直方图对齐�!&0�!&O$0�!"#O%0�'()(�!&O$, �!"#O%)0图3.稠密方向对齐损失的示意图。使用T−1g对稠密方向直方图Ob进行空间对齐。使用T′g对Oa中的特征点的等变直方图向量进行平移。在计算损失时排除平面外的区域。0其中l是窗口级别的索引，Nl是l中的窗口大小，λl是窗口级别的平衡参数。我们将最终的损失函数L定义如下：0L = βLori + Lkpts, (15)0其中β是损失函数的平衡参数。由于图像变化通常不仅限于离散旋转，还包括其他几何/光度变化，例如连续旋转、缩放和光照变化，因此在训练中使用Lori和Lkpts考虑这些变化。因此，尽管我们使用了循环群GN的等变表示，但这两个损失都是非零的。04. 实验0本节展示了比较实验，以证明我们模型的有效性。我们描述了实现细节和实验基准（第4.1节）。我们在合成旋转下进行关键点和方向的实验（第4.2节），然后展示了在HPatches [2]和IMC2021[21]上的关键点匹配结果（第4.3节）。我们对模型的变化进行了实验，并展示了定性结果（第4.4节）。04.1. 实验设置0实现细节。我们使用E(2)-CNN框架[67]在PyTorch [42,46]中实现了旋转等变卷积。我们使用36作为循环群G的阶数，通道维度C为2。我们使用3个等变层，每个层由一个conv-bn-relu模块组成。每个卷积层的卷积核为5×5，填充为2，没有偏置，并且模型参数是随机初始化的。我们使用批量大小为16。in scale s. We use simple arg max to obtain an orienta-tion value from the histogram, which performs well enoughcompared to a soft prediction for deriving real value.Training dataset. We generate a synthetic dataset for theself-supervised training. Our model needs a ground-truthrelative orientation for the training. We generate randomimage pairs with in-plane rotation [-180, 180], which is suf-ficient for the planar homography [2] or the 3D viewpointchanges [21]. To improve the robustness at illuminationchanges, we modify the contrast, brightness, and hue valuein HSV space.We exclude the images with insufficientedges through Sobel filters [22] as a pre-processing. Thesynthetic dataset has 9,100 image pairs of size 192 × 192split into 9,000 as a training set and 100 as a validation set.We use ILSVRC2012 [52] as source data.Evaluation benchmark. We use two test datasets for com-parative evaluation. HPatches [2] is for evaluating keypointdetection and matching. IMC2021 [21] is for evaluating the6 DoF pose estimation accuracy.HPatches consists of 116 scenes with 59 viewpoint varia-tion and 57 illumination variation [2]. Each scene consistsof 5 image pairs with ground-truth planar homography, fora total of 696 image pairs. We compare our model withthe existing models using 1,000 keypoints for evaluation.We use the repeatability score, the number of matches, andmean matching accuracy (MMA) as evaluation metrics pro-posed to [15, 33]. Repeatability1 is the ratio between thenumber of repeatable keypoints and the total number of de-tections by 3 pixel threshold. MMA is the average percent-age of correct matches per image pair. We measure the cor-rect matches by thresholding 3 and 5 pixels for MMA.IMC2021 is a large-scale challenge dataset of wide-baseline matching [21]. IMC2021 consists of an uncon-strained urban scene with large illumination and viewpointvariations. In this experiment, we compare our method withthe existing keypoint detection methods in an image match-020406080100045901351802252703153600204060801000459013518022527031536048520使用Adam优化器进行训练，学习率为0.001。每10个epoch学习率衰减0.5，总共训练20个epoch。为了避免过拟合，我们使用验证集的可重复性得分进行早停。关键点损失使用窗口大小Nl∈[8, 16, 24, 32, 40]，λl∈[256, 64, 16, 4,1]，与[3]相同，损失平衡参数β为100。测试时使用NMS尺寸15×15，与Key.Net[3]相同。推断。为了适应尺度变化的鲁棒性，我们通过√进行八个尺度金字塔的缩放0当我们提取了总共p个关键点时，我们将尺度值赋为√{0, 1,.., 7}0我们通过测量2D点中心之间的距离来计算重复性，参考了[14]的附录A，因为几种比较方法[14, 15]不依赖于图像块提取。0重复性0旋转角度（度）0ORB SIFT LF-Net LIFT 我们0图4.在带有高斯噪声的合成旋转下评估旋转不变关键点检测的重复性结果。为了更好地展示，我们使用移动平均法平滑了图表。0方向估计准确性0旋转角度（度）0LF-Net SIFT OriNet LIFT 我们0图5.在带有高斯噪声的合成旋转下的方向估计准确性结果。我们使用15°的阈值来测量准确性。0使用Phototourism和PragueParks的验证集，在立体跟踪上进行实验。该基准测试将预测的匹配作为输入，并测量6自由度姿态估计的准确性。我们测量了5°和10°处姿态估计的平均准确性（mAA）以及内点的数量。04.2. 在合成旋转下的实验0受[51]第4.4节的启发，我们使用平面旋转从0°到359°进行了两个使用合成图像的实验。0使用大小为224×224的十个未用于训练和验证的图像，将旋转角度从1°到359°以1°间隔进行测量。我们比较了两种手工制作的方法[27, 51]和两种学习方法[41,70]中的代表性关键点检测器的方向。图4显示了旋转不变关键点检测的重复性结果。我们的方法始终比现有方法[27,41, 51, 70]获得更好的重复性。请注意，学习方法LF-Net[41]在10度后急剧下降，而手工制作的SIFT [27]和ORB[51]对旋转具有鲁棒性。图5显示了带有高斯噪声的合成旋转下的方向估计准确性结果。我们使用15°的阈值来测量准确性。48530所有变化0检测描述重复性 MMA 预测匹配 @3px @5px0SIFT [27] SIFT [27] 41.9 49.4 52.4 404.2 SIFT [27] HardNet[37] 41.9 57.1 62.3 437.8 SIFT [27] SOSNet [63] 41.9 57.963.0 430.8 SIFT [27] HyNet [62] 41.9 57.3 62.5 438.9 ORB[51] ORB [51] 57.4 46.6 50.0 362.0 D2-Net [15] D2-Net [15]19.8 35.2 48.6 371.8 LF-Net [41] LF-Net [41] 43.8 52.0 56.9330.2 R2D2 [45] R2D2 [45] 45.5 64.6 74.8 358.9 SPoint [14]SPoint [14] 47.0 63.9 70.3 466.3 SPoint [14] GIFT [26] 47.068.8 76.0 496.7 Key.Net [3] HardNet [37] 55.9 72.5 79.4474.4 Key.Net [3] SOSNet [63] 55.9 72.7 79.6 464.7 Key.Net[3] HyNet [62] 55.9 72.0 78.9 475.30我们的HardNet [37] 57.6 73.1 79.6 505.8 我们的SOSNet[63] 57.6 73.4 80.0 499.5 我们的HyNet [62] 57.6 72.9 79.5503.3 我们的GIFT [26] 57.6 75.2 81.5 415.60表1.HPatches结果。在此实验中，我们使用了1,000个关键点。‘Det.’表示关键点检测方法，‘Desc.’表示描述符提取方法，‘Rep.’表示重复性得分，‘pred.match.’表示预测匹配的平均数量。粗体数字表示最佳得分。0在方向估计准确性方面的等变定向估计。我们使用T-1g将Ob与Oa对齐，然后在图像的整个区域（边界区域除外）测量准确性，如图6所示。我们通过在所有位置生成关键点来获得SIFT[27]的方向值。尽管我们的方法通过直方图离散地预测方向，但它比基于回归的学习方法OriNet [72]、LIFT[70]和LF-Net[41]更有效。特别是，在15度的阈值下，我们的模型的准确性始终在80%以上。04.3. 关键点匹配0HPatches上的结果。表1显示了在HPatches[2]中进行关键点检测和匹配的结果。在这个实验中，我们排除了我们的方向。我们将手工设计的检测器[27,51]和学习的检测器[3]与基于补丁的描述符[37, 62,63]作为基准进行比较。我们还比较了联合检测和描述方法[14, 15, 41,45]以及旋转不变密集描述符的集成[26]。在这个实验中，我们对所有情况使用互相最近邻匹配算法。与现有的关键点检测方法[3, 14, 15, 27, 41, 45,51]相比，我们的模型实现了最佳的重复性得分，这意味着我们的检测器对视角和光照变化具有鲁棒性。我们的模型在所有使用补丁描述符[37, 62,63]的情况下始终获得更多的预测匹配和更好的MMA得分，相比之下，与最先进的关键点检测器Key.Net[3]相比，我们的模型具有更好的性能。0Det. K 立体跟踪。0Num. Inl. mAA(5°) mAA(10°)0DoG+AN [27, 38] 1,024 43.8 0.210 0.277 Key.Net [3] 1,024126.5 0.397 0.512 我们的模型 1,024 135.6 0.441 0.5490DoG+AN [27, 38] 2,048 105.9 0.385 0.477 Key.Net [3] 2,048245.4 0.473 0.588 我们的模型 2,048 269.3 0.521 0.6320DoG+AN [27, 38] 8,000 539.0 0.605 0.718 Key.Net [3] 8,000563.0 0.522 0.635 我们的模型 8,000 992.9 0.601 0.7100表2. 6自由度姿态估计的平均平均准确度（mAA;5°，10°）和IMC2021验证集上的平均内点匹配数（Num.Inl.）[21]。列'K'表示关键点的数量。粗体数字表示最佳得分。0perPoint [14] SuperPoint描述符[14]和GIFT[26]的情况下的检测器。特别是，我们的具有旋转不变描述符[26]的模型实现了最佳的MMA，这表明旋转不变表示有助于提高对应关系的准确性。IMC2021的结果。表2显示了IMC2021[21]中6自由度姿态估计的结果，用于评估复杂的一般场景2的任务。对于这个实验，我们使用HardNet描述符[37]和DEGENSAC几何验证[9]以及AdaLAM[7]的图像匹配流程的其余部分。对于AdaLAM[7]阶段，我们使用我们估计的方向值和尺度值来进行尺度空间推断。我们与两个基准进行比较，DoG+AN [27,38]和Key.Net [3]。结果显示，与Key.Net[3]相比，我们的模型始终提高了相机姿态估计的准确性（mAAs）和内点数量。虽然我们模型在8,000个关键点上的mAAs略低于DoG+AN [27,38]，但内点数量几乎翻倍，这表示了3D重建的质量。特别是，我们的模型在1,024个关键点上显著提高了mAAs和内点数量，相比之下，与DoG+AN [27,38]相比，我们的模型以更少的计算估计出更准确的相机姿态。我们的模型在所有指标上始终优于基准Key.Net [3]。04.4. 附加结果0定向关键点的效果。表3通过使用估计的方向与[27, 41,51]进行比较，显示了在HPatches[2]中通过异常值过滤算法3过滤异常匹配的结果。在预测的匹配中，我们通过匹配关键点中分配的方向值的全局一致性来过滤异常匹配。我们首先计算暂定匹配的估计方向的差异，然后得出02 我们使用IMC2021提供的源代码进行评估。3异常值过滤算法的更详细描述在补充材料中。48540Det.+Des. Ori. fltr. MMA match. @3px @5px0ORB [51] ORB [51] 46.6 50.0 362.0 ORB [51] ORB [51] �42.6 45.8 196.1 ORB [51] 我们的 � 61.7 66.0 228.30SIFT [27] SIFT [27] 49.4 52.4 404.2 SIFT [27] SIFT [27] � 52.655.8 251.6 SIFT [27] 我们的 � 63.7 67.4 236.50LF-Net [41] LF-Net [41] 52.0 56.9 330.2 LF-Net [41] LF-Net[41] � 49.9 54.3 197.0 LF-Net [41] 我们的 � 63.2 69.2 236.20我们+HN [37] 我们 73.1 79.6 505.8 我们+HN [37] 我们 � 76.782.3 440.10表3. 使用HPatches[2]中通过离群值过滤的估计方向进行比较的结果。我们使用1,000个关键点。'Det.+Des.'表示关键点检测器和描述符，'Ori.'表示方向估计方法，'fltr.'表示是否使用离群值过滤。0MMA # param. w/o out. filter. out. filter.0@3px @5px @3px @5px0G 36 73.1 79.6 76.7 82.3 3.3K G 18 66.2 75.0 72.780.8 6.5K G 9 62.4 70.7 72.0 79.1 13.0K G 8 63.273.7 69.5 79.0 14.7K G 4 62.3 70.7 68.2 75.8 29.1K- 64.5 74.0 64.5 74.0 116K0表4. 根据HPatches[2]中组的顺序进行的实验。G的下标表示组的顺序。'out.filter.'表示使用离群值过滤的结果。最后一行表示不使用组表示并使用传统CNN的结果。0图像对之间最常见的差异。我们排除与最常见差异较远的匹配作为离群值。为了比较，我们用我们的方向替换比较方法的方向。使用我们的方向的结果比所有基线[27, 41,51]的方向产生更高的MMA和更多的预测匹配。我们的模型与HardNet[37]一起获得了最佳性能，无论是在有离群值过滤还是没有过滤的情况下，因此我们的方法比由图像梯度[27,51]和回归[41]得出的方向更一致地生成与视点和光照变化相关的方向。更改组的顺序。表4显示了根据组的顺序|G|的参数数量的MMA结果。我们通过改变通道数C对所有模型进行相同的计算

下载后可阅读完整内容，剩余1页未读，立即下载