没有合适的资源?快使用搜索试试~ 我知道了~
81328RF-Net:一种基于感受野的沈学伦1王成1李欣2余增磊1李强1,3温成禄1程明1何子健11福建省智慧城市感知与计算重点实验室厦门大学信息科学与工程学院2美国路易斯安那州立大学电气工程与计算机科学学院3加拿大滑铁卢大学地理与环境管理系{cwang,junli,clwen,chm99}@ xmu.edu.cn,xinli@cct.lsu.edu{xuelun,zengleiyu,kemoho}@ stu.xmu.edu.cn,摘要提出了一种基于感受野的端到端可训练匹配网络RF-Net,用于计算图像间的稀疏对应关系。构建端到端可训练的匹配框架是一个值得期待和挑战的问题。最近的方法LF-Net成功地将整个特征提取管道嵌入到一个联合可训练的管道中,并产生最先进的匹配结果。本文介绍了两个修改的结构LF-Net。首先,我们提出建构可接受的特徴图,以达到更有效的关键点侦测.其次,我们引入了一个通用的损失函数项,邻居掩码,以方便训练补丁选择。这导致描述符训练的稳定性提高。我们在开放数据集HPatches上训练RF-Net,并将其与多个基准数据集上的其他方法进行了实验表明,RF-Net优于现有的国家的最先进的方法。1. 介绍建立图像之间的对应关系在许多计算机视觉任务中起着关键作用,包括但不限于宽基线立体,图像检索和图像匹配。典型的基于特征的匹配流水线包括两个组件:检测具有属性(尺度、方向)的关键点,并提取描述符。许多现有方法集中于单独地构建/训练关键点然而,当将这些单独优化的子组件集成到匹配的流水线中时,单个性能增益可能不会直接相加[29]。联合训练检测器和描述符*通讯作者。因此,使它们最佳地相互配合是更理想的。然而,训练这样的网络是困难的,因为这两个子组件有各自不同的优化目标。在文献中没有报道很多成功的端到端匹配管道。LIFT [29]可能是实现这一目标的第一个值得注意的设计然而,LIFT依赖于SIFT检测器的输出来初始化训练,因此,其检测器与SIFT检测器类似。最近的网络SuperPoint [5]实现了这种端到端训练。但其检测器需要在合成图像集上进行预训练,整个网络需要在合成仿射变换下使用图像进行训练。最近的LF-Net [18]受到Q学习的启发,并使用连体架构来训练整个网络,而无需任何手工方法的帮助。在本文中,我们开发了一个端到端的匹配网络与增强的检测器和描述符训练模块,我们阐述如下。关键点检测。构造响应图是寻找关键点的一般方法。LIFT [29]通过直接对输入图像的不同分辨率应用卷积来获得响应图。SuperPoint [5]不构建响应图,但它使用一些卷积和最大池化层来处理输入图像,以产生一个中间值。diate张量B,其宽度和高度仅为输入的1因此,B上的响应表示输入图像的高度抽象的特征,并且特征的重新构造的大小感受场大于8个像素。LF-Net使用ResNet [9]从输入图像生成抽象特征图,然后通过在不同分辨率的抽象特征图上进行卷积来构建响应图。因此,每个地图上的响应具有大的感受野。在这项工作中,我们建立反应地图使用有关的感受野。具体来说,我们应用卷积来生成与增加的感受野相关的特征图 考试-8133调整大小5 × 5调整大小H5调整大小5 × 5调整大小4Hhn1≤n ≤5摘要特征图调整大小S5 ×5调整大小3HS合并调整大小5 × 5调整大小H2共享调整大小5 × 5调整大小H15 × 5道Θ1≤n≤N接受的,接受的特征映射h1≤n ≤NS合并SAbs特征图(a) LF-Det(b)RF-Det图1. 尺度-空间响应图LF-Det(LF-Net中的检测器[18])和RF-Det(我们的RF-Net中的检测器)中的构造。(一)LF-Det使用从ResNet [9]中提取的抽象特征映射来构建响应映射。(b)我们的RF-Det构建响应图使用接受特征图。注意,hn上的RF表示感受野大小。简单地说,应用卷积,核大小为3×3,步长为1,感受野将增加到3,5,7等。这种设计产生了更有效的反应图,关键点检测特征描述符。在端到端网络中训练描述符与训练单个描述符非常不同。现有的(单个)描述符训练通常在准备良好的数据集上完成,例如Oxford Dataset[15] , UBCPhotoTour Dataset [28] 和 HPatchesDataset[1]。相比之下,在端到端网络训练中,补丁需要从头开始制作。在LF-Net中,通过将图像I i中的关键点周围的补丁刚性变换到图像Ij来对补丁对进行采样。然而,这种简单采样策略的缺陷可能会影响描述符训练。具体地,两个原本远离的关键点在变换之后可以变得彼此非常接近。因此,负补丁可能看起来非常类似于锚补丁和正补丁。这将在训练期间混淆网络。这种情况带来了标签的歧义和有效的描述符训练。我们提出了一个通用的损失函数项称为邻居掩码来克服这个问题。Neighbor掩模可用于三重态丢失及其变体。集成我们新的骨干检测器和描述符网络,我们的稀疏匹配管道也以端到端的方式进行训练,而不涉及任何手工设计的组件。我们观察到描述符的性能极大地影响了检测器的训练,并且更鲁棒的描述符有助于检测器更好地学习。因此,在每次训练迭代中,我们训练描述符两次,检测器一次。为了通过全面和公平的评估来展示我们方法的有效性,我们将我们的RF- Net与其他方法进行了比较,其中包括两个公共数据集HPatches[1]和EFDataset [34]中的三个评估协议。匹配实验表明,我们的RF-Net优于现有的最先进的方法。本文的主要贡献有三个方面。(1) 我们提出了一种新的基于感受野的检测器,它产生更有效的尺度空间和响应地图。(2) 我们提出了一个通用的损失函数项的描述符学习,提高了补丁采样的鲁棒性。(3)我们的集成RF-Net支持有效的端到端训练,从而实现比现有方法更好的匹配性能。2. 相关工作典型的基于特征的匹配流水线由两个组件组成:检测具有属性(尺度、方向)的关键点,并提取描述符。许多最近的基于学习的管道专注于改进一个这些模块,如特征检测[22,33,19,26],方向估计[30]和描述符表示[17,24,8]。这些方法的不足之处在于,来自一个改进组件的性能增益可能不直接对应于整个流水线的改进[29,23]。手工制作的方法,如SIFT [14],可能是最著名的传统局部特征描述符。SIFT的一个很大的限制是速度。SURF [3]使用箱式过滤器近似LoG,并显著加快检测速度。其他流行的手工制作的功能包括WADE [21],边缘焦点[34],Harris角[7]及其仿射协变[16]。最近也提出了许多有效的机器学习检测器。FAST[19]和ORB [20]使用机器学习方法来加速角检测过程。TILDE [26]从不同照明条件下相同场景的预对齐图像中学习。虽然在SIFT的帮助下进行了训练,TILDE仍然可以识别SIFT错过的关键点,并且在评估的数据集上表现得比SIFT更好。Quad-Network [22]是在无监督的情况下训练的,有一个[32]将这种 Lenc等人[13]提出直接从协变约束训练特征检测器。 Zhang等人[33]第三十三话ResNetnnθn1 × 1M1 × 1HRF:3+(n−1)21×1Mn− 13 × 31 × 1hn1−θn−1RF:3+(n−2)<$233θ31 × 1M3 × 31 × 1HRF:71 × 1M23 × 31 × 1小时2RF:5θ21 × 1M13 × 31 × 1h1RF:3θ1Θ合并为了简单地表示81341≤n≤N通过定义“标准补丁”和“规范特征”的概念来实现约束[30]的方法学习估计取向以改进特征点匹配。描述子学习是图像对齐研究的重点. DeepDesc [27]应用Siamese网络MatchNet [6]和Deepcompare [31]来学习非线性距离矩阵进行匹配。近期一系列研究已经考虑了更先进的模型架构和基于三元组的深度度量学习公式,包括UCN [4],TFeat [2],GLoss[12],L2-Net [24],Hard- Net [17]和He等人。[8]的一项建议。最近的工作集中在设计更好的损失函数,同时仍然使用L2-Net [24]中提出的相同网络架构。构建端到端匹配框架的探索较少。LIFT [29]可能是建立这样一个网络的第一次尝试。它结合了三个CNN(用于检测器,方向估计器和描述符),通过不同的LF-Net [18]使用从ResNet [9]中提取的抽象特征图来构建其响应图。抽象特征图中的每个响应表示从图像中的大区域提取的高级特征,而不提取低级特征因此,hn中的每个映射都是尺度空间中的大尺度响应。我们的想法是在构建响应映射{hn}保留高级和低级特征,并使用一些映射(例如,具有较小的索引)以提供小规模响应,以及一些其它的(例如,具有更大的索引)以提供大规模响应。遵循这一思想,我们使用N个分层卷积层来产生具有递增感受野的特征图{Mn},1 ≤ n ≤ N。因此,Mn中的每个响应描述了从某个图像的范围,并且该范围随着卷积的应用而增加然后我们对每个应用一个1×1卷积,可引用的操作。虽然它旨在提取SfM-生成响应图hn在多尺度中DoG检测的幸存子集,其检测器和方向-站估计器被馈送以补丁而不是整个图像,并且因此没有被端到端地训练。 Super- Point [5]训练了一个全卷积神经网络,该网络由一个共享编码器和两个独立的解码器(分别用于特征检测和描述)组成。合成形状用于生成检测器预训练的图像,合成单应变换用于生成检测器微调的图像对。最近的LF-Net [18]提出了一种新颖的深度架构和训练策略,用于从头开始学习本地特征管道。基于Siamese Network结构,LF-Net在一个分支上进行预测,并在另一个分支上生成地面实况。它馈入QVGA大小的图像并产生多尺度响应图。接下来,它处理响应图以输出三个密集图,分别表示关键点显著性、尺度和方向3. 方法我们的RF-Net由一个称为RF-Det的检测器和一个描述提取器组成,该检测器基于接受性特征图,该描述提取整个网络结构的设计如图2所示在测试期间,检测器网络RF-Det接收图像并输出分数图S、方向图Θ和比例图S′。这三地图产生的位置,方向,和规模的关键,点,分别。 从这些地图上裁剪的补丁将空间在我们的实现中,我们设置N=10。而卷积层由16个3×3的内核组成,后面是实例归一化[25]和泄漏ReLU激活。我们还在每个层之间添加了快捷连接[9],这不会改变特征图中的感受为了生成多尺度响应映射hn,我们使用一个1×1内核,然后进行实例归一化。全体会议-结果被零填充以使输出大小与输入相同。3.2.关键点检测遵循通常采用的策略,我们选择高响应像素作为关键点。响应图hn表示像素然后,我们设计了类似于LF-Net [18]的关键点检测,除了我们的响应图hn是由接受性特征图构建的具体来说,我们执行两个softmax运算符来支持得出得分图S。 第一个softmax运算器的目的是产生更清晰的响应图hn。 第一个软最大算子应用于15 × 15 ×N窗口上,在hn上滑动,具有相同的零填充。 然后,我们用第二个maxxn运算符将所有的hn合并到最终的得分图S中,Prn=softmax n(hn),(1)被馈送到描述符模块以提取用于匹配的固定长度特征向量。和ΣS=h<$n<$Prn,(2)n3.1.比例空间响应图构建构建尺度空间响应图是关键点检测的基础 我们将响应映射表示为{hn},其中1≤n≤N,N是总层数。其中,Pr是Hadamard乘积,并且Prn指示像素是关键点的概率。第二个softmaxn应用于1×1×N窗口,hun.8135评分ijiiSIGiw,t,gSJ射频检测Θip阴性样本我p̂Θj射频检测JSI描述符SJD阴性Di德·DJAtch斯诺克图2. RF-Net的整个网络结构。在训练中,我们将一对图像输入网络。右边的图像由网络处理,以生成左边图像的地面真值。在计算损失函数的梯度之后,通过反向传播来更新参数。接下来,我们交换两个图像的位置,并再次训练网络。基于Prn,给出了方向和尺度的估计.我们在Mn上使用两个1×1核函数进行卷积,以产生多尺度方向图{θn}(见图1(b)),其值表示正弦和方向的余弦 这些值用于计算使用arctan函数的角度。然后我们应用相同的乘积将所有θn合并到最终的方向图中分数损失和补丁损失。一旦选择了关键点,则补丁描述符独立于检测组件。因此,我们使用另一种描述损失来训练它。分数损失。在这个特征匹配问题中,因为不清楚哪些点是重要的,所以我们不能通过人工标记来产生地面实况得分图。好的探测器应该能够找到相应的内部-Θ,通过ΣΘ=θn <$Prn。(三)n当图像经历变换时,est点一种简单的方法是让两个得分图Si和Sj(分别从图像Ii和Ij产生)具有为了产生比例图S′,我们应用在取向估计中使用的类似操作ΣS<$=<$snP rn,(4)n其中,sn是hn的接收域大小。3.3. 描述符提取我们在网络中开发了描述符提取模块,其结构类似于L2-Net [24]。这种结构也被采用在其他最近的描述符学习框架中,例如Hard-Net [17]和He等人。[8]的一项建议。具体来说,这个描述符网络由七个卷积层组成输出描述符是L2归一化的,其维数为128。我们将输出描述符表示为D。虽然我们采用了这种类似于许多最近的描述符提取模块的有效网络结构,但我们使用了不同的损失函数,这将在下面进行讨论。3.4. 损失函数关键点检测器预测关键点因此,其损失函数由以下组成:在相应的位置上有相同的分数。一个简单的ap-proach实现的想法是最小化Si和Sj上的相应位置之间的均方损失(MSE)。然而,这种方法在我们的实验中证明不是很LF-Net提出了另一种方法。 我们将图像对Ii和Ij送入网络以产生Si和Sj。我们处理Sj以产生地面真值Gi,然后将得分损失定义为Si和Gi之间的MSE。 更具体地,给定地面实况透视矩阵,首先,我们从扭曲的分数图Sj中选择前K个关键点,并且我们将其记为操作t。然后,我们通过放置具有标准偏差σ=0的高斯核来生成干净的地面实况得分图Gi。5在这些地方该操作表示为g。然后,对于扭曲,我们应用透视变换w。这个分数损失最后写成:Gi=g(t(w(Sj),(5)L(S,S)=|S −G|二、(六)如果关键点落在图像I1之外,则我们将其从优化过程中丢弃。补丁丢失。关键点方向和比例影响从图像裁剪的补丁;和提取的描述符8136我J′(a) SIFT(b)FAST+Hard-Net(c)LF-Net(d)RF-Net图3.定性匹配结果,正确匹配用绿线表示,失败匹配用红线表示。这些列是SIFT、FAST检测器与硬网描述符、LF-Net和RF-Net集成顶部两行的图像来自EFDataset [34],底部两行的图像来自HPatches[1]。 我们使用最近邻距离比(0。7)作为匹配策略,K= 1024个关键点以匹配两个图像。如图所示,更多的绿线和更少的红线意味着更好的匹配结果。影响匹配精度。我们定义了一个补丁丢失来优化检测器,以检测更一致的关键点。我们希望从相应位置裁剪的补丁尽可能相似。具体来说,我们从Gi中选择前K个关键点,然后将它们的空间坐标扭曲回Ij,并根据预测的Θ和S形成具有方向和尺度的k个关键点每一个图像。我们在这些条件下提取描述符Dk和Dk描述损失。我们使用的描述损失是基于硬网[17]中提出的硬损失。 硬损失最大化批次中最接近的正样本和最接近的负样本之间的距离。考虑到从零开始采样的图像块可能会带来标签歧义,我们通过邻居掩码来改善硬丢失,使描述符训练更加稳定。我们将描述损失公式化为I j对应的补丁pk和pk。贴片损耗可为1μ m配制为L我(Dk,Dk)=1JΣ d(Dk,Dk), (7)Ldes(Dpos,Dng)=K哪里max(0,1+Dpos−Dng),(9)补丁ijKijD(Dk,Dk)=d(Dk,Dk),(10)k=1,K和位置ijij其中,Dng=min(d(Dk,Dn),d(Dm,Dk)).(十一)i j i jd(x,y)=2- 2xy。(八)这里n是与Dk最接近的非匹配描述符与从Ii中选择关键点的LF-Net不同,我们选择Gi的关键点。这是因为在许多公共火车上-哪里K伊坎kn′ing数据集(例如,HPatches),没有背景遮罩n=argminn′kd(Di,Dj)&E(pij,pj)>C.(十二)available.变换后,从I中选择的关键点为:Dm是与Dk 最接近的非匹配描述符,其中我可能在图像Ij上超出范围。 因此,培训MkJm′kD8137我们使用的数据抽样方法比较一般。m=argminm′/=kd(Di ,Dj)&E(pi ,pi)>C.(十三)8138J函数E计算两个面片的质心之间的欧几里得距离。我们称之为邻居面具。如果如果一个补丁pm′非常接近pk,那么pm′和pk应该是i i ij正确的匹配。如果一个面片pn′非常接近pk,则pn′j j j而pk应该是正确的匹配。 因此,我们称之为补丁伊M Kpi如果p的质心距离小于阈值C。我们在收集阴性样本时会掩盖它。总之,我们用Ldes训练描述网络,用Ldet训练检测网络:Ldet=λ 1 L评分+ λ 2 L贴片。(十四)4. 实验4.1. 培训训练数据。我们在开放数据集HPatches上训练了我们的网络[1]。这是一个最近的数据集,用于局部补丁描述符评估,由116个序列的6个图像与已知的单应性。该数据集分为两部分:视点-59个具有显著视点变化的序列和照明- 57个具有显著照明变化的序列,包括自然的和人工的。我们以0的比率分割视点序列。9个(53个序列用于训练和验证,其余6个序列用于测试)。在 训 练 阶 段 , 我 们 将 所 有 图 像 的 大 小 调 整 为320×240,然后将图像转换为灰度以简化并归一化分别使用它们的平均值和标准差。与LF-Net [18]不同,我们没有每个图像的深度图,因此图像中的所有像素都用于训练。关于描述提取器的训练补丁,我们裁剪图像块,并通过选择前K个关键点及其方向将其调整为32×32,规模为了保持可微性,我们使用[10]的双线性采样方案进行裁剪。训练细节。在训练阶段,我们提取了K=512个关键点进行训练,但在测试阶段,我们可以根据需要选择任意多个关键点。为了优化,我们使用ADAM [11],并将初始学习率设置为0。对于检测器和描述符都是1,并且训练描述符两次,然后训练检测器一次。邻居掩码中的C是5。4.2. 评价数据和方案除了HPatches照明和视点序列之外,我们还在EF数据集上评估了我们的模型[34]。EF数据集有5个序列的38幅图像,其中包含了剧烈的照明和背景杂波变化。匹配的定义取决于匹配策略。为了评估整个局部特征管道性能,我们使用[15]中的三种匹配策略来计算定量评估的匹配分数:• 第一种是基于最近邻(NN)的匹配,如果描述符DB是表1. 与最新技术水平和基线的比较。在每个图像序列中用三种评价方案测量平均匹配分数。单个描述符和检测器在与端到端网络相同的序列下进行训练。所有特征描述符都是128维和L2归一化的。DA的最近邻居使用这种方法,一个描述器只有一个匹配项。• 第二种是基于阈值的最近邻(NNT)匹配,如果描述符DB是DA的最近邻并且如果它们之间的距离低于阈值t,则两个区域A和B被匹配。• 第三种是基于最近邻距离比(NNR)的匹配,如果满足以下条件,则两个区域A和B被||//下一页||D A − DC||t,其中D B是D A的第一近邻,D C是D A的第二近邻。||< t, whereDBis the first and DCis the second nearestneighbor to DA.所有匹配策略都将参考图像的每个描述符与变换图像的每个描述符进行为了强调关键点的准确定位,下面[18,19],我们使用5像素阈值而不是[15]中使用的重叠测量。所有学习的描述符都经过L2归一化,它们的距离范围为[0,2]。为了公平起见,我们还对手工描述符进行了L2规范化,并设置1 .一、0作为最近邻阈值,0. 7作为最近邻距离比阈值。4.3. 比赛成绩我们将RF-Net与三种类型的方法进行了比较,第一种是完整的局部特征管道,SIFT [14],SURF [3],LF-Net [18]。第二种是与学习描述符集成的手工检测器,即 与 L2-Net [24] 和 Hard-Net [17] 集 成 的 DoG [14] ,SURF [3] FAST [19]和ORB [20]。第三种是与学习描述符集成的学习检测器,即Zhang等人 [33]与L2-Net [24]和Hard-Net [17]集成。我们使用了作者HP照明HP视图EFSIFT冲浪0.4900.4930.4940.4810.2960.235L2-Net+DoG0.4030.3940.189L2-Net+SURF0.6270.6290.307L2-Net+FAST0.5710.4310.229L2-Net+ORB0.7050.6730.298L2-Net+Zhang et al.0.6850.4250.235硬网+狗0.4360.4680.206硬网+次区域资源中心0.6500.6680.334硬网+FAST0.6170.6300.290硬网+ORB0.6160.6320.238Hard-Net+Zhang et al.0.6710.5570.273LF-Net0.6170.5660.251RF网络0.7830.8080.45381391.0000.9000.8000.7000.6000.5000.4000.3000.2000.1000.000匹配分数(%)HPatches光照神经网络HPatches照明NNTHPatches照明NNRHPatches视点神经网络HPatchesviewpointNNTHPatchesviewpointNNR EFDatasetNN EFDatasetNNT EFDatasetNNR300.00匹配数量250.000200.000150.000100.00050.0000.000HPatches光照神经网络HPatches照明NNTHPatches照明NNRHPatches视点神经网络HPatchesviewpointNNTHPatchesviewpointNNR EFDatasetNN EFDatasetNNT EFDatasetNNRSIFT SURF L2+DoG L2+SURF L2+FAST L2+ORB L2+CovDetHard+DoG Hard+SURF Hard+FAST Hard+ORB Hard+CovDet LF-Net RF-Net图4. 顶部:每个评估协议和序列中的平均匹配分数底部:每个评估中的平均匹配数量协议和序列。在EFDataset NNT中,RF-Net的匹配分数远远超过最接近的竞争对手0.9000.800表2. 消融研究。在每个图像序列中使用三种评估协议测量的平均匹配分数。所有方法都使用相同的训练数据进行端到端训练。LF-Des表示LF-Net [18]中使用的描述符,RF-Des表示我们的RF-Net中使用的描述符。用RF-Det代替LF-Det,提高了流水线性能。0.7000.6000.5000.4000.3000.2000.1000.0001 2 3 4 5 6 7 8 9 10响应图的层数RF-NetHPatchesillumination LF-NetHPatchesilluminationRF-NetHPatchesviewpointLF-NetHPatchesviewpointRF-NetEFDatasetLF-NetEFDataset表3.消融研究。 平均匹配得分,图5.不同N层响应图下RF-Net和LF-Net的匹配分数比较。每个图像序列中有三个评估协议RF-Net(无掩码)表示在没有邻居掩码丢失函数项的情况下训练的RF网络RF-Net(No Orient)表示在没有方向估计模块的情况下训练的RF-Net。al. OpenCV用于其余部分。对于LF-Net和Zhang et al.我们在从HPatches[1]中剪切的53个视点图像序列中对它们进行了与RF-Net相同的训练。对于Hard-Net和L2-Net,我们在HPatches提供的53个视点补丁序列中训练它们。所有特征描述符的长度为128维和L2归一化。如表中所示。1,我们的RF-Net优于所有其他人,并在HPatches和EFDataset上设置了新的最先进的技术。我们的RF-Net在三个序列中的相对表现优于最接近的竞争对手11%,20%和35%匹配分数代表方法预测的正确率,匹配数量代表方法预测的正确率。指定数量。图. 4描述了在所有评估中的匹配分数和匹配数量,并且我们的RF-Net获得了高的匹配分数和匹配数量。ORB流水线结合硬网在NN和NNT协议中也取得了较好的这表明该管道提取的描述符具有较高的最近邻距离比,而我们的RF-Net没有这个问题。图中给出了N个响应层对RF-Net和LF-Net影响的实验结果。5.对于RF-Net,匹配分数随着响应层的数量而增加,并且在N=8之后饱和,并且LF-Net和RF-Net之间的性能差距从N=3开始并且随着N的增加而增加。这表明基于感受野的反应图比基于抽象特征的方法匹配分数HP照明HP视图EFLF-Det+LF-Des0.6170.5660.251RF-Det+LF-Des0.7200.6650.325LF-Det+RF-Des0.7440.7140.361射频检测器+射频检测器0.7830.8080.453HP照明HP视图EF射频网(无屏蔽)0.7340.7530.423RF网络(无方向)0.7620.7910.432RF网络0.7830.8080.4538140HPatches-illumHPatches-viewEF数据集#关键点512102420485121024204851210242048平均狗0.6380.6720.6870.6090.6450.6460.5120.5720.5720.617快速0.7900.8530.8990.7040.8010.8530.5600.6910.7910.771ORB0.7800.8300.8690.7090.7690.8210.5240.5980.6690.730冲浪0.7080.7460.7460.6330.6650.6650.5690.6130.6130.662Zhang等人0.8270.8940.9170.5160.6640.7470.5880.6380.6380.714LF-Det0.7270.8540.9220.5580.6500.7170.5070.5860.6670.688射频检测0.7930.8680.8890.6890.7230.7290.5750.6690.7040.738表4.三个评估序列中不同关键点的重复性。接近的关键点可能产生太相似而不能匹配的补丁。因此,解析检测器在此任务中工作得更好。比较RF-Det和LF-Det,RF-Det确实在所有序列中获得比LF-Det这也得益于感受野的设计。4.6. 定性结果(a) FAST(b)LF-Det(c)RF-Det图6。可视化FAST、LF-Det和RF- Det检测到的关键点。RF-Det和LF-Det检测到的关键点比FAST更稀疏。4.4. 讨论和消融研究在本节中,我们将研究架构中各个组件的重要性。我们用RF-Det取代了LF-Det,并用相同的训练数据训练它们,以显示我们的RF-Det的有效性。表.图2显示了用RF-Det替换LF-Det后的流水线性能。为了挖掘RF-Net中模块的有效性,我们尝试从RF-Net中去除邻居掩码和方向估计模块。表.图3显示了邻居掩码为RF-Net带来了显著的匹配改进即使我们删除了方向预测,我们的RF-Net仍然可以获得最先进的匹配分数,这代表了我们的RF-Det的鲁棒性。4.5. 重复性结果表. 4显示了手工方法的可重复性性能,Zhang etal. ,LF-Det和我们的RF-Det。尽管FAST在图像匹配方面表现不佳,但它的可重复性最高匹配流水线是检测器和描述器之间的一个协同工作如图所示6、通过学习的端到端检测器(LF-Det和RF-Det)检测到的关键点比FAST更稀疏。这表明稀疏关键点更容易匹配,因为在图中。3、对EFDataset和HPatches提供的具有挑战性的图像对进行匹配,给出了一些定性的结果。首先选取前K=1024个关键点,然后采用最近邻距离比匹配策略进行匹配。7门槛。我们将我们的方法与SIFT[14],FAST [19]与Hard-Net [17]和LF-Net [18]集成的检测器进行了比较。上面两行的图像来自EFDataset,下面两行的图像来自HPatches。这些图像处于大的照明变化或透视变换下。如图所示3、我们的方法产生了最大数量的绿色匹配线和较少的红色失败匹配线。5. 结论我们提出了一种新的端到端深度网络RF-Net,用于局部特征检测和描述。为了学习更鲁棒的响应图,我们提出了一种新的基于感受野的关键点检测器。我们还设计了一个损失函数项,邻居掩码,学习一个更稳定的描述符。这两种设计都为匹配流水线带来了显著的性能我们在三个数据序列中进行了定性和定量评估,并显示出比现有技术水平的显着改进。致谢本 工 作 得 到 国 家 自 然 科 学 基 金 项 目 ( No.U1605254 , 61728206 ) 和 美 国 国 家 科 学 基 金 会(National Science Foundation of USA)的研究。8141引用[1] Vassileios Balntas , Karel Lenc ,Andrea Vedaldi, andKrys- tian Mikolajczyk. Hpatches:手工制作和学习的本地描述符的基准和评估。CVPR,第3852-3861页[2] Vassileios Balntas , Edgar Riba , Daniel Ponsa , andKrystian Mikolajczyk.使用三元组和浅层卷积神经网络学习局部特征描述符。在BMVC,2016年。[3] Herbert Bay,Andreas Ess,Tinne Tuytelaars,and LucVan Gool.加速健壮功能(冲浪)。计算机视觉和图像理解,110:346[4] Christopher Bongsoo Choy , JunYoung Gwak , SilvioSavarese,and Manmohan Krishna Chandraker.通用通信网。在NIPS,2016年。[5] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. Superpoint:自监督兴趣点检测和描述。arXiv:1712.07629,2017。[6] 韩旭峰、梁建民、贾阳青、苏坦卡、王建民.伯格。Matchnet:Unifying feature and metric learning for patch-based matching.CVPR,第3279-3286页[7] 克里斯托弗·G哈里斯和迈克·斯蒂芬斯一种组合的角点和边缘检测器。1988年,Alvey Vision Conference[8] 昆河,炎栾,斯坦.斯克拉罗夫。局部描述符优化平均精度。CVPR,第596-605页[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页[10] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。参见NIPS,第2017-2025页,2015年。[11] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[12] B. G. Vijay Kumar、Gustavo Carneiro和Ian D.里德通过最小化全局损失函数,使用深度连体和三重卷积网络学习局部图像描述符。CVPR,第5385-5394页[13] Karel Lenc和Andrea Vedaldi。学习协变特征检测器。在ECCV中,第100-117页。施普林格,2016年。[14] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。IJCV,60(2):91[15] Krystian Mikolajczyk和Cordelia Schmid。局部描述符的性能评估TPAMI,27:1615[16] Krystian Mikolajczyk和Cordelia Schmid。尺度仿射不变兴趣点检测器。IJCV,60:63-86,2004.[17] Anastasiya Mishchuk,Dmytro Mishkin,Filip Radenovic和Jiri Matas。努力了解邻居的婚姻状况:局部描述符学习损失。在NIPS,2017年。[18] Yuki Ono 、 Eduard Trulls 、 Pascal Fua 和 Kwang MooYi。Lf-net:从图像中学习局部特征。arXiv预印本arXiv:1805.09662,2018。[19] 爱德华·罗斯滕里德·波特和汤姆·德拉蒙德更快更好:一种用于角点检测的机器学习方法TPAMI,32:105 -119,2010。[20] Ethan Rublee、Vincent Rabaud、Kurt Konolige和Gary R.布拉德斯基Orb:一个有效的替代筛选或冲浪。ICCV,第2564-2571页[21] 萨穆埃尔·萨尔蒂,亚历山德罗·兰扎,路易吉·迪·斯蒂法诺.波传播对称性的关键点。CVPR,第2898-2905页[22] Nikolay Savinov、Akihito Seki、Lubor Ladicky、TorstenSat tler和Marc Pollefeys。四网络:无监督学习来对兴趣点检测进行排名。CVPR,2017年。[23] 约 翰 内 斯 湖 Scho ? nber ger , HansHardmeier ,TorstenSattler,and Marc Pollefeys.手工制作和学习的地方特色的比较评价CVPR,第6959-6968页[24] Yurun Tian,Bin Fan,and Fuchao Wu.L2-net:在欧氏空间中对判别性补丁描述符进行CVPR,第6128-6136页[25] Dmitry Ulyanov、Andrea Vedaldi和Victor S. Lempitsky实 例 规 范 化 : 快 速 样 式 化 缺 少 的 成 分 。 CoRR ,abs/1607.08022,2016。[26] Yannick Verdie、Kwang Moo Yi、Pascal Fua和VincentLepetit。Tilde:一种时间不变的学习检测器。CVPR,第5279-5288页[27] 王利民,乔宇,唐晓鸥。使用轨迹池深度卷积描述符进行动作识别。CVPR,第4305-4314页[28] Simon A. J. Winder和Matthew A.布朗学习局部图像描述符。CVPR,第1-8页[29] Kwang Moo Yi, Eduard Trulls , Vincent Lepetit ,andPascal Fua. Lift:学习的不变特征变换。在ECCV,2016年。[30] Kwang Moo Yi,Yannick Verdie,Pascal Fua和VincentLepetit。学习为特征点指定方向。CVPR,第107-116页[31] Sergey Zagoruyko和Nikos Komodakis学习通过卷积神经网络比较图像补丁。CVP
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功