没有合适的资源?快使用搜索试试~ 我知道了~
地空影像定位中硬样本重加权三重损失的作用
8391基于硬样本重加权三重损失的地空影像定位蔡苏东1郭玉兰2、1萨尔曼·汗3胡继伟4龚建文1、21国防科技大学2中山大学3人工智能初始研究院4武汉理工大学781594648@whut.edu.cnyulan. nudt.edu.cnsalman. inceptioniai.org摘要地对空图像地理定位的任务可以通过将地面视图查询图像与航空/卫星图像的参考数据库进行匹配来实现。这是非常具有挑战性的,由于戏剧性的观点变化和未知的方向。在本文中,我们提出了一种新的批量重新加权三重损失,以强调硬样本在端到端训练过程中的积极作用。我们还集成了一个注意力机制到我们的模型使用功能级的上下文信息。为了分析每个三联体的困难程度,我们首先对三联体实施具有距离校正因子的修改的逻辑回归然后,为相应的锚点设置参考负距离,并通过将其难度与相应的参考进行比较来计算三元组的相对权重为了减少极端硬数据和较少使用的简单样本的影响,使用上界和下界约束修剪最终的权重。在两个基准数据集上的实验表明,该方法的性能明显优于现有的方法。1. 介绍基于图像的地理定位因其在自动驾驶[21]、增强现实[22]和移动机器人[30,21]中的众多应用而引起了极大的关注传统方法主要集中于地对地图像匹配,其中查询图像和参考图像两者都是从地面视图[2,14,13,27,25,21,40,41,42,43,44,45]获取的。6]。尽管匹配全部来自地面的图像相对容易,但是仅使用从车载相机或众包网站获得的地面视图图像难以全面覆盖大区域[32,11,34]。因此,地对地图像地理定位往往在没有可用参考图像的地方失败。相比之下,由卫星和飞行器从鸟瞰图捕获的图像查询:地面视图图像图1.一个由航空影像组成的参考数据库匹配地面视图查询的示例。这里,均匀地覆盖地球。因此,将地面图像与航空图像匹配已逐渐成为粗级地理定位和地点识别的有吸引力的方法[32],如图1所示。然而,由于大的视点差异、照明变化和取向(即,方向),交叉视图图像匹配是极其具有挑战性的。方位角)的不确定性之间的地面和空中图像[11,32,17,38,34]。尽管进行了多次尝试,但这个问题在很大程度上仍未解决,需要新的突破。由于手工制作的特征的低交叉视图匹配精度,现有方法通常计算来自针对地面和航空图像独立训练的CNN模型的特征之间的相似性。受人脸识别的启发[28,31],Linet al.[17]提出了然而,已经证明,连体架构中的重量分担导致参考数据库:空间图像无重量分担暹罗网络8392在交叉视图图像识别中性能差。Vo和Hays [34]提出了基于距离的软余量损耗和辅助网络分支来估计方向。他们的模型对随机方向具有鲁棒性。最近,Huet al.[11]提出了基于Siamese CNN和NetVLAD [2](一个可学习的特征聚集模块)的CVM-Nets。他们还引入了带有手动给定权重的软利润损失来加速训练,并通过直接使用前1个硬底片来应用硬样本挖掘,实现了最先进的性能。虽然[11]中研究了硬样本挖掘的有效性,但仍然难以适当地定位信息丰富的硬样本。相反,我们提出了一个硬样本挖掘策略的跨视图图像匹配。具体来说,我们的方法自动分配权重的三胞胎根据其难度水平。这使我们能够专注于信息丰富的硬样本,以提高跨视图图像的地理定位。贡献:本文的贡献如下:(1)我们提出了一种新的三元组损失,以提高跨视图图像的网络训练质量。这种损失可以以端到端的方式实现在线硬样本挖掘。在基准数据集上的实验结果表明,我们的损失优于软利润三重损失[34]。(2)提出了一种轻量级注意力模块(FCAM),并将其集成到基本剩余网络中,形成了Siamese网络。(3)我们用我们的损失训练我们的Siamese网络,以获得用于基于跨视图图像的地理定位的有区别的CNN特征。实验结果表明,我们的方法显着优于国家的最先进的ap-在基准数据集上进行[11,342. 相关工作现有的图像地理定位方法可以根据其图像表示方法大致分为两类。2.1. 基于特征的手工制作方法在深度学习被引入该领域之前,手工制作的特征被广泛用于执行跨视图图像匹配[23,4,29,16,33]。Bansal等人[4]从倾斜航空图像中提取建筑物立面,然后通过匹配建筑物立面块来执行地理定位。Bansal等人[3]通过使用尺度选择性自相似性(S4)描述符在其相应尺度下对立面上的图案的自相似性进行编码来进一步处理极端视点差异结果表明,S4特征比尺度不变特征变换(SIFT)[20]具有更好的性能。Viswanathan等人[33]通过将地面图像转换为自顶向下视图,改进了局部特征描述符的匹配性能由于外观上的显著差异,通过手工制作的特征实现的交叉视图图像匹配性能相对较差。2.2. 基于深度学习的方法深度学习为跨视图图像地理定位提供了更准确的替代方案,并且最近已经主导了该领域[11,32,17,38,41,34]。Lin等[17]提出了第一种基于两个连体CNN(即Where-CNN和Where-CNN-DS)实现地对空地理定位的深度学习方法。他们的暹罗CNN使用对比损失的修改版本进行训练[7]。比较实验表明,其显着的性能改善相比,手工制作的描述符。Workman等人[38]介绍了一种深度学习方法来学习航空图像的语义表示。他们还提出了一种CNN模型来融合不同空间尺度的语义特征。他们的工作表明,从交叉视图图像对训练的特征显着优于现成的CNN特征。为了进一步提高CNN特征的鲁棒性,一些方法利用对感兴趣的对象和补丁的关注Altwaijry等人[1]将空间Transformer(ST)模块[12]集成到从AlexNet改编的Siamese网络中。相似性的计算使用推断的补丁,而不是整个图像的功能。Siamese CNN与ST模块产生的特征被证明优于原始模型。Tian等人[32]提出了一个两阶段框架,使用Faster R-CNN [26]检测建筑物。然后,图像表示的支配集构造的特征推断出的补丁的建筑物。优势集的成对相似性是从Siamese网络中学习的。他们的方法明显优于预先训练的CNN特征。这些方法[1,32]通过利用检测模型聚焦于特定的地标区域,对CNN特征在视觉变换方面施加鲁棒性。然而,它们的效率是有限的。相反,我们强调信息功能,通过设计一个轻量级的功能重加权模块的注意机制。最近,已经提出了几种方法来解决度量和判别性全局图像表示的学习Vo等人[34]提出了一种软边缘三重损失,以减少锚点和正样本之间的距离,同时增加锚点和负样本之间的距离此外,增加了一个辅助方向回归分支,以实现旋转不变性。结果表明,设计良好的学习度量可以ben-efit跨视图图像地理定位。Hu等人[11]提出的CVM-Net,其采用NetVLAD模块[2]来聚合CNN特征单元以生成区分性图像表示。他们还手动分配了软利润率三重损失的权重,以加快列车的速度8393212121双重注意......无重量分担暹罗CNN......双重注意辅助损耗(方程式第标签(角度)随机旋转主 损失( 方程 式第 七图2.我们的方法概述。ing.此外,他们通过直接使用前1个硬否定来应用简单的硬样本挖掘策略,这与[10]类似。虽然Huet al. [11]实现了最先进的结果,仅使用前1个负面的硬示例挖掘往往会遗漏一些信息丰富的示例。而不是使用前1个硬样本,一些作品介绍了自适应采样[8,39]和梯度重新缩放[18,36,24]方法来执行类级检索,人脸验证和对象检测。在本文中,我们设计了一个在线样本重新加权三元组损失分配不同的权重,以三元组根据其难度水平。因此,我们的损失可以在网络训练期间自适应地强调有意义的硬三元组,而不是手动指定前k个硬样本。实验结果表明,我们的方法显着优于现有的方法。3. 该方法在本节中,我们提供了我们的方法的概述,并描述了它的两个主要贡献,即,基于特征上下文的注意力模 块 ( FCAM ) ( 第 3.2 节 ) 和 硬 样 本 重 新 加 权(HER)三重损失(第3.3节)。3.1. 概述如图1所示,给定地面视图查询图像,使用其CNN特征之间的成对相似性来实现参考航空图像的检索。由于卷积运算混合了通道和空间信息以生成信息特征,因此我们提出了一个轻量级的双重注意模块(即FCAM),通过在通道和空间维度上应用注意机制来提高特征的区分度(第3.2节)。通过将我们的注意力模块集成到基本的CNN特征提取器中,分别为地面视图和航空图像构建了两个具有相同结构的ResNet [9].整个暹罗网络是建立在这些形成性的硬榜样。具体来说,我们引入了一个新的HER三重丢失,以实现基于三重重加权的在线硬样本挖掘(第3.3节)。我们分配大的权重,有用的,但硬的三胞胎,而分配小的权重,信息量较少,但容易的三胞胎。我们的方法概述如图2所示。3.2. 基于特征上下文的注意力模型注意力已经被证明是有效的,通过专注于有意义的特征,同时抑制无用的特征,提高CNN的表示能力。因此,沿着特征图的通道和空间轴两者应用注意力可以帮助CNN学习“哪些通道”和“哪些特征单元”应该被聚焦。我们的轻量级双注意力模块可以顺序地分解成一个通道注意力子模块和一个空间注意力子模块。我们的通道注意力来自卷积块注意力模块(CBAM)[37],但上下文感知特征重新加权策略被集成到我们的空间注意力子模块中。 给定以特征图U∈RW×H ×C为输入,注意力模块联合推导出一维通道注意力描述子ZC(U)∈R1×1×C和二维空间注意力掩模ZS(U′)∈RW×H ×1.整体注意力过程被定义为:U′=ZC(U)U,(1)U′′= ZS(U′)U′,(2)其中U′∈RW×H×C和U′′∈RW×H ×C分别是通道和空间注意力子模块的输出特征图,表示逐元素乘法。通道注意子模块。渠道关注是用于强调相对信息量大的频道。在本文中,我们采用通道注意力子模块来利用CNN特征的通道间依赖性通道注意子模块如图3所示。首先,通过将最大池化f_max和平均池化f_avg应用于输入特征图U来生成1D全局信道描述符v1和v2。然后,vl和v2两者都由多层感知器(MLP)激励以分析它们的通道间依赖性。因此,信道注意力描述符Z_C(U)通过将激发的描述符与S形激活求和来获得。通过在信道注意描述符和输入特征图U之间执行逐元素乘法来生成输出信道注意图U’。信道注意描述符被计算为:ZC(U)=δ(fext(fmax(U))+fext(favg(U)))两个CNN特征提取器,没有权重共享。它进一步与辅助方向回归=δ。Weσ.Wev1ΣΣ +δ。Weσ.Wev2ΣΣ、(3)(OR)学习分支其中fext表示MLP运算。 We∈RT×C为改善网络培训,我们建议充分利用-We∈RC×T表示第一8394C要素贴图使用FMaxHf平均值Wv110000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000v2fext,1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000ZC(U)~1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000+8395avgMaxavgHⅹWC要素地图使用图3.通道注意子模块的示意图。fCMax多尺度上下文过滤器权重学习H~HWC要素地图使用fCavg SⅹWC功能地图1 1Conv7月7日Conv5 - 5 Conv3 - 3Conv图4.空间注意力子模块图。和第二全连接层。δ和σ分别表示sigmoid和ReLU激活。这里,T=C/r,并且r是MLP的第一学习层中的缩减水平。空间注意子模块。 空间注意用于突出有意义的特征单元。在CBAM [37]中,Wooet al.利用一个7×7卷积学习空间注意掩码后,连接最大池和平均池化空间描述符。受上下文重加权网络(CRN)[14]的启发,我们将特征上下文感知学习集成到CBAM的基本空间注意力子模块中。也就是说,而不是只使用7×7卷积,我们使用具有不同重的卷积用于生成中间特征掩模的接收域然后,我们将这些中间掩码连接起来,并使用1×1卷积来学习权重。空间注意力图可以被认为是特征掩模的加权和。我们的空间注意力子模块的图示如图所示其中fn×n表示n×n卷积。因此,通过通道注意力图U’与最终空间注意力掩模ZS(U’)之间的逐元素乘法来获得空间注意力图U”。我们的整体注意力模块是由一个连续的在一些实施例中,该方法可以是信道注意力子模块和空间注意力子模块的组合(如图5所示)。我们将我们的注意力模块集成到基本ResNet [9]的每个构建块中,以形成用于跨视图匹配的CNN特征提取器3.3. 硬示例重加权三重态损失为了提高网络训练与实例明智的例子,我们提出了一个在线的硬样本挖掘策略的基础上三元组重新加权。然后,我们将此策略整合到软利润三重损失[34]中,从而导致硬样本重新加权三重损失。给定锚点Ai的三元组,其对应的正样本Pi,以及负样本P i。图4. s∈RW×H ×2是通过连接恩普尔Ni,k(即,Ai的第k个负样本)压缩特征掩模(U′)和fc(U′)。在这里,对于小批量,原始三重态损失[28]定义为:Cmax 和fc表示最大池和平均池分别沿着通道轴利用骗局-为了获得特征单元的文本信息,使用三种不同尺度的上下文过滤器(3 × 3、5 × 5和7 × 7)。 特征掩码p ∈ RW× H ×3是通过连接由3 × 3、5 × 5和7 ×7上下文过滤器生成的这些通道掩码而产生的。然后,我们使用1 × 1卷积来学习和累积权重。空间注意力掩模可以计算为:Ltri(Ai,Pi,Ni,k)= max(0,m+dp(i)-dn(i,k)),(5)其中m是最大余量,dp(i)表示Ai和Pi之间的平方欧几里德距离,dn(i,k)表示Ai和Ni,k之间的平方欧几里德距离。这种损失在实例识别任务中取得了显着的成功[2,14,5,19,35]。然而,由于该损失依赖于最大余量来截断惩罚,因此间隙ZS(U′)=δ.f1×1. f3×3(s);f5×5(s);f7×7(s)ΣΣ、(四)负对的距离和正对的距离活性对是有限的。F8396我我我我先前块3 3转换ReLUBNH下一块ⅹⅹWH+的WHC特征图XReLUBNC要素贴图使用要素地图使用身份映射WC功能地图C特征图空间注意频道关注3 3转换图5.修改的构建块的示意图。通过将所提出的FCAM集成到基本残差块中来产生该构建块。为了解决用最大余量生成惩罚的限制,Vo等人。[34]提出了一种软余量三重丢失,以根据网络的当前性能来实施惩罚这种损失已经证明了比原始三重态损失更好的性能,即:L soft(A i,P i,N i,k)= log(1+exp(dp(i)-dn(i,k)。( 六)利用软利润三重损失,我们提出了一个新的损失,以集成硬样本挖掘在一个端到端的当Ni,k是参考负N,r时,分配给当前三元组的权重是1(即,不强调或抑制)。然后,我们将gap(i,k)视为随机变量,并将权重定义为:w(Ai,Pi,Ni,k)=−log2(pmatch(Ai,Pi,Ni,k)),(9)其中pmatch(Ai,Pi,Ni,k)表示三元组的正确匹配概率:方式我们的在线硬样本挖掘策略基于1p(A,P,N)=、(10)在三元组重新加权时,并且分配给每个三元组的权重根据其难度级别来计算假设匹配i i i,k1 + exp(−gap(i,k)+β)通过我们的硬样本挖掘方法为三元组计算的权重是whard(Ai,Pi,Ni,k),则我们的损失被定义为:Lhard(Ai,Pi,Ni,k)=whard(Ai,Pi,Ni,k)log(1+exp(dp(i)− dn(i,k)。(七)将在以下部分中描述权重whard(Ai,Pi,Ni,k)距离校正logistic回归。我们提出了一个距离校正逻辑回归估计的差异-其中β=m/2是距离校正因子。 的是,当参考负Nr发生时,正确地将Ai匹配到Pi等于错误地将Ai匹配到Nr的概率(即,p匹配=0。5),并且当前三元组的权重是w(A1,P1,Nr)= 1。因此,当锚点到其负示例的距离dn(i,k)小于对应的参考距离D ref(A i)时,将通过分配大于1的权重来强调它。 注意,对于未归一化的特征,裕度m可以计算为:对当前三胞胎的崇拜给定锚点Ai的最困难的负例被定义为当前批次中的负例,该负例具有到锚点Ai的最小距离γ-γ-BM= 2Bi=1|2|2+的|f(Pi)|2、(11)主播已经证明,极难的样本通过在早期阶段将其引导到局部最小值来降低训练质量[28]。 令gap(i,k)= dn(i,k)− dp(i),则极难样本满足以下条件:C h:gap(i,k)≤0。同时,信息量较少的简单三元组满足条件:Cs:gap(i,k)彡m。考虑到条件Ch和Cs,我们定义了一个参考负距离其中f(·)表示网络推理,γ是范围从0到1的比率,并且B是当前小批量中的锚的数量。我们进一步提出了一个权重上限和下限,以减少极端困难的例子的影响,同时消除简单的例子的负面中和效应。根据Ch,极硬样本的临界条件由gap(i,k)=0定义,并且权重截断的上限可以通过下式计算:每个锚点的D参考,基于其到正的距离。Σ示例:1D参考(Ai)=dp(i)+m。(八)2w高=−lo.Σ8397我g21+exp(β).(十二)到锚点A i的距离等于D ref(A i)的负样本Nr被认为是参考负样本。对于给定的三元组Ai,Pi和Ni,k,我们假设然后,如果三元组的权重大于上界w_high,则将其阈值化为w_high。而不是直接丢弃非常困难的样本,我们的方法8398B通过添加约束来充分使用这些样本,以防止它们分配过大的权重。类似地,当三元组满足临界条件gap(i,k)=m时,用于权重截断的阈值被计算为:w低=−log2.Σ11 + exp(−m+β).(十三)具有低于阈值w_low的权重的三元组被表示为具有小权重ε。这里,ε是小值。具体而言,我们分配小的权重来抑制无意义的简单三元组,而不是直接丢弃它们,因为根据我们的标准,当前的小批量可能根本没有任何硬三元组。因此,分配给三元组的权重定义为:CVUSAwhard(Ai,Pi,Ni,k):=εBW高,w(Ai,Pi,Ni,k),gap(i,k)≥ mgap(i,k)≤0。否则(十四)Vo和Hays(VH)图6.CVUSA的地对空样本图像定向回归。在现有的交叉视图地理定位基准数据集[38,34]中,锚点及其对应的正样本的取向在训练集中是因此,由随机旋转产生的角度可以用作训练的标签。为了解决未知方向的问题,向主模型添加额外的方向回归分支被证明对于将地面图像与航拍图像匹配是有效的[34]。在本文中,重新加权的方向回归损失被定义为:数据集[38]和VH数据集[34]。Vo和Hays8个子集用作训练集,其余3个子集从Denver捕获,底特律和西雅图用于评估。所有街景查询图像都被裁剪为230 ×230的固定大小。训练集中的交叉视图图像对的方位角是固定的,而测试子集的方位角是未知的这两个数据集中的示例图像如图6所示。L(A,P,N)=w(A、P、N)*(d1(i)+d2(i))。或iii,k硬iii,kRR(十五)4.2.实现细节该辅助分支用于回归随机生成的角度θi的正弦和余弦值(即,Pi和Ai之间的方向差,在训练期间故意给出),其中dl(i)和d2(i)表示表示我 们 集 成 了 我 们 的 轻 量 级 注 意 力 模 块 ( 即 ,FCAM)到基本ResNet [9]中以获得FCANet特征提取器。具体来说,两个版本的ResNet采用R R18和34个学习层,其中每个网络正弦和余弦值的回归误差。whard(Ai,Pi,Ni,k)是由等式(1)定义的权重十四岁给定权重λ1和λ2,总HER损失定义为作为主损耗和辅助损耗的组合:LHER(Ai,Pi,Ni,k)=λ1*Lhard(Ai,Pi,Ni,k)+λ2* L OR(A i,P i,N i,k).(十六)4. 实验与讨论4.1. 评估数据集我们的方法在两个基准交叉视图数据集上进行了评估[38,34]。CVUSA数据集[38]包含35532个用于训练的地面-空中图像对和8884个用于测试的图像所有地面图像都是全景图,街景和鸟瞰图像的分辨率都很高的、8399在全局平均池化层之前,仅使用ResNet的一部分来形成工作。因此,我们的暹罗网络分别命名为Siam-FCANet 18和Siam-FCANet 34。为了充分利用CNN特征图中的全局信息,CRN模块[14]和适当大小的FC层直接连接到FCANet以生成特征向量,而无需全局平均池化。此外,我们还使用NetVLAD功能聚合模 块 [2] 测 试 了 FCANets 的 性 能 , 并 将 其 与 原 始FCANets进行了比较。NetVLAD层的参数设置与[11]相同。我们的Siam-FCANets是使用FCANets的两个分支构建的,没有权重共享,它从地面视图图像和航拍图像中生成CNN特征。SGD用于训练我们的模型,动量为0.9,权重衰减为0.0005。学习-速率从0开始。5×10−5,多项式衰减。8400我们的损失中的参数γ被设置为0.15,并且使用穷举小批量策略[34]来在有限的计算资源下最大化三元组的数量。4.3. 比较结果为了证明我们的方法的有效性,我们在两个基准数据集[38,34]上将我们的方法与现有方法[38,34,11,17,41比较中的现有方法的结果从其原始出版物[38,11,41]或开源的简单方法中获得。注释[34]。评估指标。在[38,34,11,17]之后,我们在实验中使用前1%的召回率作为性能评估指标也就是说,对于一个给定的地面查询图像,我们检索的前1%最近的卫星图像从参考数据库,根据他们的特征距离。如果当前地面视图查询图像的正确匹配的卫星图像被排名在检索结果的前1%内,则定位被认为是成功的。与 现 有 方 法 的 比 较 。 在 我 们 的 方 法 中 , Siam-FCANet 18和Siam-FCANet 34的特征向量使用我们提出 的 HER 三 联 体 丢 失 进 行 训 练 。 在 [34] 中 评 估 的Siamese和triplet AlexNets [15]用作基线方法。他们接受了对比损失[7]和三重损失[28]。[34]中提出的Siam DBL-Net和TriDBL-Net分别用其软边缘对比度和三重损失进行训练。Vo方法[34]有一个额外的OR分支。它用详尽的软边缘三重损失和辅助OR平方损失进行训练。[38]的CNN模型仅使用正对进行欧氏损失训练。CVM-Net-I和CVM-Net-II [11]都使用其缩放的软边缘排名损失进行训练。比较结果示于表1中。可以看出,我们用HER三重态损失训练的Siam-FCANet 18和Siam-FCANet 34网络在基准数据集上显著优于现有方法,包括Vo方法[34]和CVM-Nets [11]。注意,VH [27]的测试集由三个子集组成:丹佛,底特律,西雅图。这主要是因为我们的方法可以比最先进的方法产生更多的区分特征[34,11]。还观察到,所有基于学习的方法在CVUSA [38]上的性能都高于VH数据集[34]。例如,Siam-FCANet 18在Denver子集上实现了77.2%的召回率,但在CVUSA数据集上实现了98.3%的更高召回率。这是因为具有宽视场和高分辨率的全景图为网络提供了更有意义的信息,以学习更好的跨视图图像识别表示。相比之下,深度学习模型从具有剧烈取向变化的粗略裁剪的图像(例如,VH数据集)。前1%的CVUSA丹佛底特律西雅图泰国[34]-百分之二十一点六百分之二十一点九17.7%三网[34]-百分之四十三点二百分之三十九点五35.5%泰国[34]-48.4%45.0%41.8%[34]第三十四话-49.3%47.1%40.0%Workman等人[38个]百分之三十四点三15.4%--Zhai等[41个]百分之四十三点二---沃[34]百分之八十三点九62.4%55.8%百分之四十八点一CVM-Net-I [1]百分之九十一点四67.9%--CVM-Net-II [11]百分之八十七点二百分之六十六点六--我们的方法Siam-FCANet18百分之九十八点三百分之七十七点二71.5%68.1%Siam-FCANet34百分之九十八点三百分之七十八点三71.9%71.1%表1.两个数据集的比较结果。这里10.90.80.70.60.50.40.30.20.100 0.0010.0020.0030.0040.0050.0060.0070.0080.009 0.01最高k%图7.我们的方法和现有方法的召回率@top k%曲线。我 们 的 Siam-FCANet 18 模 型 的 性 能 接 近 Siam-FCANet 34。这意味着在我们的模型中直接堆叠更多的学习层不能显著提高跨视图识别的特征区分度。在图7中,我们进一步显示了在顶部k%处的召回率(即,从前1名到前1%)通过我们的FCANets和现有方法在CVUSA数据集上实现[38]。很明显,我们用HER工人[38]翟[41]沃[34]CVM-Net-I [1]CVM-Net-II [11]Siam-FCANet18Siam-FCANet34最高k%8401三联体损失训练的Siam-FCANet 18和Siam-FCANet34模型实现了相当的性能,并且大幅优于所有现有方法。4.4. 消融研究在本节中,我们进行消融研究,以测试我们设计的有效性。FCAM。为了评估我们的双注意力模块的有效性,我们从FCANet 18和FCANet 34提取器的每个构建块中删除了FCAM,得到了两个普通的连体网络(即Siam-PNet 188402前1%的CVUSA丹佛底特律西雅图无FCAMSiam-PNet18百分之九十七点七76.7%70.6%百分之六十八点六Siam-PNet34百分之九十八77.0%百分之七十一点八百分之六十九点五关于FCAMSiam-FCANet18百分之九十八点三百分之七十七点二71.5%68.1%Siam-FCANet34百分之九十八点三百分之七十八点三71.9%71.1%表2.FCAM模块的消融研究和Siam-PNet 34)。Siam-FCANets和Siam-PNets都用我们的硬样本重新加权三重态损失进行训练。CVUSA[38]和VH数据集[34]的比较结果见表2。可以看出,与FCAM集成的模型在大多数测试集上表现优于普通模型。比较Siam-FCANet 34与Siam-PNet34,在CVUSA [38]和Denver [34]测试集上的召回率分别提高了0.3%和1.3%具有方向回归的FC层与NetVLAD层。我们使用了两种不同的方法来聚合CNN特征。在原始Siam-FCANets中,我们在每个臂中使用FC层,并且进一步添加辅助取向回归分支以施加取向不变性。或者,我们使用NetVLAD 层 [2] 来 形 成 两 个 新 模 型 , 即 , Siam-VFCANet 18和Siam-VFCANet 34。结果示于表3中。前1%的CVUSA丹佛底特律西雅图NetVLADSiam-VFCANet18百分之九十三点九百分之七十点四63.6%60.3%Siam-VFCANet34百分之九十二点六67.0%59.1%60.4%具有方向回归的FC层Siam-FCANet18百分之九十八点三百分之七十七点二71.5%68.1%Siam-FCANet34百分之九十八点三百分之七十八点三71.9%71.1%表3.两种不同CNN特征聚合方法的比较。比较结果表明,具有FC层和附加方向回归的模型在所有数据集上显著这意味着,直接使用FC层与额外的辅助表4.通过我们的损失和排气软边三重损失实现的比较结果它恢复到用穷举软边缘三重丢失训练的原始方法。从表4中可以看出,我们的损失在所有数据集上显著优于穷举软边缘三重损失。这些结果表明,我们的硬示例重新加权损失可以改善网络训练,并学习更多的判别特征,用于跨视图图像地理定位。多个旋转样本。在VH数据集[34]中,训练子集中的所有匹配的交叉视图图像对在方位角上很好地对准。然而,测试子集中的图像完全被随机旋转的全度打乱。我们进一步测试了我们的方法,使用不同旋转的多个样本的平均特征表5示出了通过我们的方法利用多个旋转样本实现的召回率。可以看出,使用多个旋转样本改善了未知取向下的性能。前1%的丹佛底特律西雅图原始样本Siam-FCANet18百分之七十七点二71.5%68.1%Siam-FCANet34百分之七十八点三71.9%71.1%16个旋转样本Siam-FCANet1879.0%73.0%百分之六十九点二Siam-FCANet34百分之八十点一百分之七十二点七百分之七十三点三表5.通过使用原始样本和16个旋转样本训练的不同网络实现的比较结果。5. 结论OR学习分支可以学习方向不变性,并生成比基于聚类的特征聚合模块更好的表示,用于跨视图图像匹配。我们的HER三联体丢失与穷举软边缘三重态损失 为了进一步证明我们的HER三联体丢失,我们将其与详尽的软-两个数据集[38,34]上的边缘三重丢失[34]。为了公平比较,两种损失都补充有辅助取向回归损失,并且用于分前1%的CVUSA丹佛底特律西雅图穷尽性软边缘三联体丢失[34][34]第三十四话百分之八十三点九62.4%55.8%百分之四十八点一Siam-FCANet18百分之九十五点一百分之七十五点三百分之六十九点五百分之六十六点二Siam-FCANet3496.5%百分之七十六点九70.6%69.7%8403别训练Siam-FCANets的两个版本此外,我们还用我们的损失训练了Vo网络[34],并比较了在本文中,我们提出了一个跨视图的地理定位方法,通过匹配的地面视图图像的航空图像。我们提出了一个新的三元组损失实现在线端到端的硬样本挖掘的基础上样本重新加权。我们的损失可以自适应地集中在有用的硬三元组,同时抑制无用的简单三元组。此外,我们引入了一个轻量级的双重注意力模块,以进一步提高CNN特征的表示能力我们在两个现有的基准数据集上测试了我们的方法。实验结果表明,我们的方法显着优于国家的最先进的方法。8404引用[1] Hani Altwaijry、Eduard Trulls、James Hays、Pascal Fua和Serge J.贝隆吉学习将航拍图像与深层关注的建筑相匹配。在IEEE计算机视觉和模式识别会议上,第3539-3547页,2016年。2[2] ReljaArandjelovic´ , PetrGronat , AkihikoTorii ,TomasPa-jdla,and Josef Sivic.NetVLAD:用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议上,第5297- 5307页,2016年。一二四六八[3] Mayank Bansal、Kostas Daniildom和Harpreet S.索妮用于地 理 定 位 的 超 宽 基 线 立 面 匹 配 。 IEEEInternationalConference on Computer Vision , 第 175-186 页 , 2012年。2[4] Mayank Bansal,Harpreet S Sawhney,Hui Cheng,andKostas Daniilidis.利用航空影像资料库进行街景地理定位 。 ACMInternational Conference on Multimedia , 第1125-1128页。ACM,2011年。2[5] Yue Cao , Mingsheng Long , Jianmin Wang , andShichen Liu.用于高效图像检索的深度视觉语义量化。在IEEE计算机视觉和模式识别会议上,第916-925页,2017年。4[6] 陈 泽 涛 , AdamJacobson , Nik oSünderhauf , BenUp-croft,Lingqiao Liu,Chunhua Shen,Ian D.里德和迈克尔·米尔福德大规模深度学习功能用于视觉位置识别。在IEEE机器人与自动化国际会议上,第3223-3230页,2017年。1[7] Sumit Chopra Raia Hadsell和Yann LeCun。 学习相似性度量有区别地,与应用到人脸验证。在IEEE计算机视觉和模式识别会议上,第539-546页,2005年。二、七[8] Ben Harwood , Vijay Kumar B. 放 大 图 片 创 作 者 :Gustavo Baghiro,Ian D.里德和汤姆·德拉蒙德深度度量学习的智能挖掘。在IEEE计算机视觉国际会议上,第2840-2848页,2017年。3[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition,第770-778页三、四、六[10] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。3[11] 胡思星,冯梦丹,让M. H. Nguyen和Gim Hee Lee。CVM-Net:用于基于图像的地对空地理定位的跨视图匹配网 络。 在IEEE计算 机视 觉和模 式识 别会议 上,2018。一二三六七[12] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在神经信息处理系统的进展中,第2017-2025页,2015年。2[13] Hyo Jin Kim,Enrique Dunn,and Jan Michael Frahm.使用每束VLAD预测图像地理定位的良好特征。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功