没有合适的资源?快使用搜索试试~ 我知道了~
7294语义对齐与目标标志检测Sangryul Jeon1,Dongbo Min2,Seungryong Kim3,Kwanghoon Sohn1,*1Yonsei Uni versity,2Ewha Womans Uni versity,3洛桑联邦理工学院(EPFL){cheonjsr,khsohn}yonsei.ac.krdbmin@ewha.ac.kr@seungryong.kim epfl.ch摘要图像对目标地标检测基于卷积神经网络(CNN)的语义对齐和对象界标检测方法显着提高了其性能目前针对这两个任务的努力集中在通过弱监督或无监督学习框架来解决缺乏大量训练数据的问题。在本文中,我们提出了一个联合学习的方法,以获得密集的对应关系和发现对象的地标,从语义相似的图像。基于这两个任务可以相互提供监督的关键见解,我们的网络通过联合损失函数来实现这一点,该联合损失函数在两个任务之间交替施加一致性约束,从而提高性能并以原则性的方式解决训练数据的缺乏。 据我们所知,这是第一次尝试通过联合学习来解决这两个任务缺乏训练数据的问题。为了进一步提高我们的框架的鲁棒性,我们引入了一个概率学习公式,只允许在联合学习过程中使用可靠的匹 配 。 与 所 提 出 的 方 法 , 国 家 的 最 先 进 的 perfor-mance是达到几个标准的基准,包括一个新引入的数据集,JLAD,其中包含更多的挑战性的图像对比现有的数据集的语义匹配和地标1. 介绍在语义相似的图像上建立密集的对应关系并发现这两项任务的目的都是理解对象的底层结构,这些结构在不同的对象之间在几何上是一致的,但在语义上是重新定义的。本研究得到了科学和信息通信技术部资助的韩国国家研究基金会(NRF)的高级集成智能识别(AIID)研发计划(NRF-2018 M3E3 A1057289)的支持。*通讯作者图1.拟议的联合学习框架说明:仅给定语义相似的图像对,通过交替地利用它们之间的相互指导信息,我们解决了当前用于对象界标检测和语义对准任务的弱或无监督模型的关键缺陷。过时的实例。最近,用于语义对齐[24,25,26,9,27,15]和对象地标检测的许多方法被用于识别和识别目标。已经提出了[30,29,33,8]以端到端的方式用深度卷积神经网络(CNN)来解决每个然而,用于这样的任务的监督训练通常涉及构建密集语义对应图或对象地标的大规模且多样的注释。在大的类内外观和形状变化下收集这样的注释需要大量的人工工作,并且由于其主观性而易于出错。因此,目前的努力集中在使用额外的约束或假设,帮助他们的网络在弱监督或无监督的环境中自动学习每个任务。为了克服语义对应的训练数据不足的限制,已经提出了几项工作[24,27],以利用源图像和目标图像之间的一组稀疏对应 其关键思想是调节密集估计的变换场,使其与给定的稀疏对应点一致。一种可能的方法是从图像本身合成地生成对应点,即,通过从源图像中均匀地采样网格语义对齐结构信息对准信息7295随机变换[10]。然而,这些合成超透视图根本不考虑光度变化,并且难以捕获现实几何变形。可替代地,几种方法[25,9]通过在训练期间从真实图像对收集试验性对应样本来缓解这个问题,但是这是以简单的方式完成的,例如,通过阈值[25]或检查与匹配分数的一致性[9]。最近,代替使用稀疏收集的样本,一些方法[15,26]已经采用了一组完整的密集像素匹配来估计局部变化的变换场,优于基于全局变换模型的先前方法[24,25,27]。然而,由于它们的弱隐式平滑约束,例如在局部窗口[15]内约束变换候选项和分析局部邻域模式[26],它们在处理相对较大的几何变化时通常表现出有限的性能。同时,为了自动发现对象地标而不需要地面实况标签,遵循Thewlis等人的初步工作。[30],不同实例上的密集对应信息已被用于施加等方差约束,使得界标相对于给定的空间变形应该是一致可检测的[30,29,33,28]。然而,虽然需要语义上有意义且高度准确的对应关系来满足完全等方差,但现有技术大多依赖于合成监督,其方式是用随机变换的图像生成密集的对应关系图。类似于利用合成监督[24,27]的现有语义对齐方法,如[25,9]所示,它们通常不能很好地推广到真实图像对,并且通常无法检测对象的语义上有意义的位置处的地标。在本文中,我们提出了一种联合学习对象地标检测和语义对齐的方法,以解决每个任务的当前弱或未监督学习模型如图1所示,我们的主要观察结果是,这两项任务是相互补充的,因为可以从它们的对应部分提供更现实和更有启发性的监督。具体而言,检测到的界标可以为语义对齐网络提供对象的结构信息,其中,鼓励估计的对应字段与提供的对象结构一致。同时,密集估计的对应性在语义上相似的图像对促进地标一致地定位,即使在大的类内变化。我们的网络通过引入一种新的联合目标函数来实现这一点,该函数在两个任务之间交替施加一致性约束,从而提高性能并以原则性的方式解决训练数据的缺乏问题。我们通过只允许使用可靠的匹配来进一步提高我们框架在联合学习过程中通过语义对齐网络的概率各种基准测试的实验结果表明,所提出的模型的最新方法的对象地标检测和语义对齐的有效性。2. 相关工作语义对齐用于语义对齐的最新技术通常通过端到端CNN模型直接回归变换参数[24,25,9,15,27],优于基于CNN模型的传统方法。手工制作的描述符或优化[14,21,4]。Rocco等人[24,25]提出了一种CNN架构,其模拟传统的匹配流水线来估计图像级变换参数,使得特征提取、匹配和参数回归。Seo等人[27]利用偏移感知相关核扩展了该思想,以集中于可靠的相关性,滤除干扰。虽然在一定程度上提供了对语义变化的鲁棒性,但由于全局变换模型的假设,它们难以产生细粒度的本地化为了解决这个问题,Jeon等人。[9]提出了一个金字塔图模型,估计局部变化的几何场与粗到细的计划。Kim等人[15]提出了递归变换网络,该网络迭代地对齐源和目标的特征,并最终获得精确细化的局部平移场。Rocco等人[26]提出了通过施加局部约束来分析邻域一致性模式,以在对应候选者之间找到可靠的匹配。然而,它们依赖于弱隐式平滑约束,例如粗到细推断[9]、受约束的局部搜索空间[15]和局部邻域一致性[26]。相比之下,我们显式地正则化估计的变换域,以通过联合学习过程与检测到的对象地标一致。用于无监督地标检测的方法通常依赖于等方差特性,使得应该相对于给定的图像变形一致地检测对象地标。作为一项开创性工作,Thewliset al.[30]提出随机合成图像变换,用于学习发现相对于那些变换等变的对象界标他们进一步扩展了这个想法,以学习密集的以对象为中心的坐标框架[29]。它们两者都依赖于合成生成的监督信号,因此当给出大量类内变化时,提供固有的有限性能。之后,一些作品[33,8]提出了一种自动编码公式,以生成基于它们的新图像的方式来发现地标作为显式结构表示。Zhang等人[33]反对7296(a)(b)(c)第(1)款图2.方法总结:(a)语义对齐[24,25,27,9],(b)对象地标检测[30,29,33],以及(c)所提出的联合学习框架。我们的关键观察是,每个任务都可以为另一个任务提供必要的监督信号有了这个动机,我们无缝地编织这两种技术,以克服缺乏训练数据。特征点作为中间可学习潜在变量用于再现输入图像。Jakab等人[8]提出了通过最小化感知距离来生成结合源图像的外观和目标图像的几何形状的图像。然而,[33,8]中报告的消融研究表明,它们仍然依赖于图像本身的监督,例如合成图像对或视频中的相邻帧,而不是考虑丰富的应用。采用训练图像对之间的密集对应。主要思想在于等方差约束,使得检测到的地标相对于给定的几何变形应该是等变的。形式上,将源图像和目标图像之间的密集对应图表示为T,他们的目标是通过最小化Σ不同对象实例之间可能存在差异,因此性能有限。LD(φ)=||二、(二)||2,(2)M3. 方法3.1. 问题陈述和概述我们将语义相似的源图像和目标图像表示为xs和xt∈RH×W×3,其中H和W表示图像的高度和宽度。我们感兴趣的是学习两个映射函数,φ:x →RK×2,它从图像x中提取K个关键点的空间坐标,τ:(xs,xt)→RH×W×2,它推导出从源图像到目标图像的稠密对应场,该对应场为每个xs中的像素。我们通过联合预测模型专门学习这两个函数为了解决语义对应的训练数据不足的问题,几种方法[24,25,27,9]利用源图像和目标图像上的一组稀疏对应点(称为锚点对)作为监督其网络的额外提示。关键的直觉是,网络自动学习通过最小化给定稀疏对应之间的差异来估计一组变换候选者具体地,将源图像和目标图像上的锚点对表示为Φs和Φt,它们将语义对齐损失定义为其中m是检测到的地标的数量这是illus-图中第2段(b)分段。然而,目前的弱监督或无监督学习模型,这两个任务仍然遭受缺乏良好的质量,这可能不会完全满足其一致性约束的监督。为了克服这一点,我们建议利用每个任务的指导信息来监督另一个网络,如图所示。第2段(c)分段。所提出的方法提供了一种原则性的解决方案,其通过以端到端和提升的方式联合学习对象地标检测和语义对准来克服大量训练数据的缺乏。为此,我们引入了一种新的联合损失函数,交替施加的一致性约束的两个任务之间。为了进一步增强联合学习过程,我们提出了一个概率公式,预测和惩罚语义对齐网络中的不可靠匹配。3.2. 网络架构所提出的网络由三个子网络组成,包括具有参数WF的特征提取网络,用于从输入图像中提取特征图,具有参数WD的地标检测网络,用于检测地标的概率图,以及具有参数W D的语义对齐网络。ΣL(τ)=||第二条第一款||2,(1)参数WA和WC来推断几何变换。阿nn n其中,n是锚点对的数量,并且n是扭曲操作。 这示于图 第2段(a)分段。 同时,为了解决地标检测因此,最先进的技术[29,30,33]通常是图3示出了不确定性场和不确定性图之间的关系特征提取和相似性评分计算为了提取源图像和目标图像的卷积特征图,输入图像通过一个完全的7297我我我i ijIl图3.我们的框架的网络配置,包括特征提取网络,地标检测网络,语义对齐网络。我们也可以利用每个地标检测和语义对齐网络的输出作为指导信息,用于监督另一个。具有共享参数WF 的卷积 特征提取网 络,使得F=F(x;WF)∈RH×W×C。我们共享两个特征提取的参数WF在提取特征之后,我们沿着C通道使用L2范数对它们进行然后,两个提取的特征之间的相似度被计算为具有L2归一化的余弦相似度: .预测在某个图像位置处建立对应关系的精确度。在联合学习过程中,防止利用预测的不可靠匹配,以提高我们的模型对可能的遮挡或模糊匹配的鲁棒性。与现有方法[23,22,19,12]不同,其中不确定性图是从输入图像推断的,我们的不确定性模块利用匹配分数体积Cst来提供更多的不确定性。CAB=/Σ2,⑶L信息线索,如立体匹配中的置信度估计方法[17]。具体地说,一系列的卷积层与参数WC应用于预测其中,j,l∈Ni属于以像素岛 [24]第24话:考虑所有可能的情况在图像内的多个像素中,我们将搜索候选者约束在局部窗口内,以减少匹配的模糊性和运行时间。相似性得分最终在搜索候选项上进行归一化,以通过降低具有多个高分的特征的影响来可靠地修剪不正确的匹配[25]。注意,A和B表示源图像或目标图像。例如,Css和Ctt分别指示从源图像和目标图像计算的自相似性。Cst是源图像和目标图像之间的交叉语义对齐网络我们的语义对齐网络由两个模块组成:估计几何变换场的对准模块,以及识别图像中的哪些区域可能不匹配的不确定性模块。将源图像和目标图像之间的交叉相似性得分作为输入,基于具有参数WA的编码器-解码器架构的对准模块估计局部变化的变换场以处理来自匹配相似性得分Cst的不确定性图σ使得σ= F(Cst; WC)∈ RH×W×1.地标检测网络为了使我们的地标检测网络能够集中于对象的更具区别性的区域,我们通过利用在局部窗口内计算的自相似性分数Css和Ctt来显式地提供图像的局部结构,如图11所示。5. 这与现有方法[33,8]不同,现有方法仅采用图像的卷积特征,因此通常无法在具有挑战性的条件下检测语义上有意义的地标。形式上,我们将提取的特征Fs和Ft分别与自相似性得分Css和Ctt连接,然后将它们通过具有参数WD的解码器风格网络来估计K+1检测得分对于K个地标和一个背景Sd,映射sS,使得φ=F(FC;WD)∈RH×W×(K+1),其中表示con-连接运算符softmax图层应用在最后通过在K+1个通道上进行归一化,将原始得分图转换为概率图,ΣK非刚性几何变形更有效,例如φk= exp(φk)/exp(φm),(4)τ=F(Cst;Wa)∈ RH×W×2。不同于近期i im=0i语义对齐方法[15,26]估计本地通过几何变换,我们的对准模块采用检测到的地标作为附加的引导信息,以更多地关注对象的显著部分。其中Φk是第k个界标的得分图。然后,第k个地标的空间坐标被计算为通过其概率ψk加权的空间坐标i上的期望值,类似于[13]中的软argmax运算符:此外,本发明还 启发 通过 的 概率学习模型[12,11],我们制定了一个不确定性模块,ψk=Σ Σi·ψk/我我好吧(五)7298我J我我我J(a)(b)(c)(d)图4.自相似性的有效性的可视化:(a)图像,(b)任意两个坐标i和j,(c)Css,以及(d)Css。Css在更有鉴别力的区域具有高方差,为地标检测网络提供局部结构信息这一层是可微的,使我们能够制定关于地标坐标的损失函数,这将在下一节中描述。(a)(b)(c)(d)图5。概率学习公式的有效性的可视化:使用学习的对应关系的扭曲结果(a)(1)在合成监督下,(b)在没有概率的情况下bilistic公式,(c)来自(6),以及(d)不确定性图,其中较暗的像素表示高度不确定性。第一个约束用于定义浓度损失Lcon(n),其最小化空间coor上的方差。相对于界标坐标φ[33]指定i3.3. 目标函数语义对齐网络的损失Lcon(ψ)=Σ(Σ(i−ψk)2·ψk/Σψ k)。(八)对齐网络是使用弱图像级su学习的以匹配图像对的形式进行透视。具体地说,我们从[16,15]中提出的最近的弱监督学习技术开始。在假设正确的情况下-基伊对于第二个约束,我们定义了一个铰链嵌入损失,鼓励地标远离边缘c[28],使得源图像和目标图像的响应特征相同,他们将语义对齐转换为分类任务ΣΣLsep(ψ)=max(0,c−||ψk −ψk′||2)的情况。(九)这样网络就可以学习几何场,den变量在一组变换候选者上。然而,这个严格的假设经常被违反,例如.在遮挡、无纹理区域和背景杂波周围,因此需要附加的对象位置先验来惩罚假设无效的区域。为了解决这个问题,我们建议通过交叉熵损失的概率公式来识别不可靠的匹配,kk′K界标检测网络的最终损失被定义为集中损失和分离损失的加权和,使得LD(Φ)=λωηLωη(Φ)+λsepLsep(Φ)。请注意,在地标检测文献[30,33],但我们的方法不同之处在于,从语义对齐网络提供用于训练地标检测网络的更真实的监督信号。ΣΣLA(τ,σ)=(−s*jlog(si,j(τi))+l〇 g〇i),(6)联合训练损失在这里,我们将两个独立的-σii j∈Mi其中,σ是具有参数的预测不确定性图WC和si,j(τ)是softmax概率,定义为通过为联合训练制定额外的约束,我们将两个任务的输出应用于联合距离函数,作为Σ Σ1k sK t2exp(F s,[τοF t]j>)LJ(ψ,τ,σ)=||.||. (十)si,j(τ)=Σiexp().(7)ki σil∈Mi对于j ∈ Mi,如果j = i,则类标签s* 设置为1,否则设置为0,使得中心点i成为正样本,而M i内的其他点是负样本。通过将交叉熵损失与预测的不确定性映射σ,我们可以惩罚不可靠的匹配,并避免它们破坏损失函数。logσ用作正则化项以防止σ它们变得太大。地标检测网络的损耗在[30,33,28]之后,我们的地标检测网络被设计为满足地标的两个共同特征,使得每个概率图ψ应该集中在一个有区别的局部区域,同时分布在对象的不同部分。7299通过在地标检测和语义对齐之间施加一致性约束,联合损失函数允许我们相互利用来自两个任务的指导信息,以原则性的方式提高性能并解决训练数据的缺乏。此外,我们通过使用预测的不确定性映射σ i来折扣不可靠匹配的贡献,从而减轻了联合学习过程中不可靠匹配的不利影响。注意,代替(10)中的地标坐标,概率图Φ被用于两个任务之间的更强的空间一致性。最终目标可以被定义为所呈现的三个损失的加权总和:L JDA(ψ,τ,σ)=λD L D(ψ)+λA L A(τ,σ)+λJ L J(ψ,τ,σ)。(十一)7300方法对准精度检测acc.PCK@ α =0。1IOD分开学习63.27.97迭代167.07.36迭代270.27.16迭代372.17.05我们72.76.92(a)(b)(c)(d)图6。拟议联合学习框架的有效性:(a)、(b)当分别学习时,以及(c)、(d)当联合学习时。3.4. 培训为了以相互增强的方式优化地标检测和语义对齐网络,我们以交替的方式学习地标检测网络和语义对齐网络。为了更好地初始化,我们首先用合成生成的图像对独立地预训练两个网络,类似于[25]。通过对Pascal VOC 2012分割数据集[1]的原始图像应用全局仿射或TPS变换来生成随机扰动图像,并利用这些图像对学习具有损失函数(2)和(1)的每个网络。接下来,我们以端到端的方式对两个预训练网络进行微调,以获得来自下一节中描述的JLAD数据集的语义相似的图像对。 具体-通常,通过将{λD,λA,λJ}设置为通过将{λD,λA,λJ}设置为{10,1,100},来进行地标检测。我们重复这个过程,直到最终目标收敛。为了使用所提出的一致性约束(11)来学习我们的网络,需要大规模语义相似的图像对,但现有的公共数据集在数量上是有限的。为了克服这一点,我们引入了一个新的数据集,其中包含大量具有挑战性的图像对 , 称 为 JLAD 数 据 集 。 图 像 和 关 键 点 注 释 是 从PASCAL 3D基准[31]和MAFL数据集[34]的原始图像和关键点注释中采样和细化的。对于PASCAL 3D数据集[31]中的每个对象类别,它提供了12个类别的大约36,000个图像,我们首先对它们的图像进行预处理,使其仅包含单个对象。具体地,根据所提供的对象边界框注释来裁剪图像,包括背景杂波的边距。然后使用地面实况视点注释,例如方位角和仰角,我们为每个类别采样了大约1,000个图像对对于人类面部,我们从MAFL数据集[34]中随机采样图像对,排除测试集而不考虑几何约束,因为它们的图像已经被裁剪和对齐。我们使用了分割,表1.申报关节JLAD数据集上的学习框架。SE-MANIC对齐和对象地标检测的准确性报告与PCK和IOD指标,分别。图像对分成大约70%用于训练,20%用于验证,10%用于测试。4. 实验结果4.1. 实验设置对 于 特 征 提 取 , 我 们 使 用 了 ImageNet 预 训 练 的ResNet [7],其中激活在池化层之后进行采样,例如ResNet-101的“conv4-23”[7]。对于分别检测10、15、30个界标,裕度c被设置为0.05、0.03、0.02针对Ni的搜索空间的半径被设置为5,相当于原始分辨率下的40×40窗口解决方案 在[12]之后,我们的不确定性网络用于-模拟以预测不确定性的对数方差,即logσ,以避免(6)可能被零除在交替优化过程中,我们将最大交替次数设置为4,以避免过拟合。 我们使用ADAM优化器[18],其中β1=0。9和β2=0。999我们将训练批次大小设置为16。学习率最初设置为10−3,随后降至10−4和10−5在下文中,我们全面评估了框架与用于地标检测的最先进方法相比,包括FPE[30],DEIL [29],Stru-cRep [33],CIG [8],以及用于语义对齐的方法,包括CNNgeo [24],CNNinlier [25],A2 Net [27] 和 NC-Net [26] 。 在 JLAD 数 据 集 和 PF-PASCAL [5]上测量了12个对象类别的性能,并在MAFL数据集[34]和AFLW数据集[20]上测量了人脸的性能。有关我们系统的实施和更多定性结果的更多详细信息,请参见补充材料。4.2. 消融研究我们首先分析我们的方法中的组件的有效性。地标检测和语义对齐的性能检查不同的替代迭代次数。对JLAD数据集的测试图像对进行定性和定量评估。如表1和图2所示。6.与依赖于合成变换的独立估计模型相比,我们的联合学习模型的结果显示出显著的改进。我们还进行7301方法航空比西船bott.总线车椅子d.table 电机沙发火车电视所有CNNgeo [24]71.374.444.460.979.683.863.936.672.143.842.548.060.1[25]第二十五话79.682.954.468.789.588.570.739.279.448.249.451.166.8A2Net [27]80.981.453.669.588.689.571.341.278.151.852.051.767.5RTNs [15]81.585.456.370.887.492.772.343.684.359.855.253.570.2NCNet [26]82.485.257.971.288.893.175.846.987.857.757.156.571.7我们84.789.162.574.590.393.373.346.789.460.762.156.373.6表2.与JLAD数据集上各种对象类别的最新语义对齐技术相比的匹配精度。PCKα的距离阈值设置为0.01。方法KMAFL ALFW KJLADFPE [30]506.6710.532013.32[29]第二十九话-5.838.80-10.76StrucRep [33]303.166.58207.33CIG [8]303.086.982012.87我们的wo/SS303.587.72208.16我们10303.332.987.176.5110207.546.92表3.与PF-PASCAL基准测试[5]上最先进的对应技术相比的匹配精度。通过去除语义对齐网络(Ours wo/UM)内的不确定性预测模型和计算局部自相似性的地标检测网络(Ourswo/SS )内 的相 关层 表1 和表2 中的 “Ours wo/SS”和“Ours wo/UM”的降级性能4.3. 结果语义对齐我们在JLAD数据集和PF-PASCAL基准测试[5]上对12个对象类别的语义对齐网络进行了评估。对于评估度量,我们使用了正确关键点百分比(PCK)度量[32],其对具有低于给定阈值α的传输误差的关键点的数量进行计数,遵循[6]中采用的过程。表2和表3总结了PCK值,以及图3。7显示了定性结果。图1B中的每个图像对的检测到的界标的结果7在图中可视化8. 如Ta所示表4.与MAFL [34]、ALFW [20]和JLAD数据集上的最新标志检测技术进行比较K表示线性回归器所使用的标志的数量。didates [15],或当地邻里共识[26]。对象地标检测我们在MAFL和AFLW基准测试[34,20]上评估了我们的人脸地标检测网络,包括JLAD数据集上的各种对象。对于MAFL基准测试[34]的评估,我们使用CelebA训练集中的面部图像对训练我们的模型,不包括出现在MAFL测试集中的那些。对于AFLWbenckmark [20],我们进一步微调AFLW训练图像集上的预训练网络,类似于[33,30]。为了评估我们发现的地标质量,我们使用没有偏差项的线性模型从发现的地标回归到人类注释的地标[33,30,29,8]。提供测试图像对的地面实况界标注释来训练该线性回归器。我们遵循[34]中的标准MSE度量,并报告眼间距离(IOD)的性能。图8显示了JLAD数据集的定性结果,图8显示了JLAD数据集的定性结果。9对于MAFL基准[34]。表4显示,与使用合成图像变形训练其网络的现有模型[33,30]相比,我们的方法实现了最先进的性能。相对温和表2,表3,图7我们的结果显示高度不一致。与依赖于合成或启发式收集的对应样本的方法[24,25,9,27]相比,定性和定量地证明了性能。这揭示了所提出的联合学习技术的效果,其中相对于检测到的对象界标自然地施加结构平滑度。这与采用弱隐式平滑度约束的方法形成对比,例如图像级全局变换模型[24,25,27],局部约束变换可以与其他对象类别相比,人脸上的增益可能来自MAFL和AFLW基准上的有限外观和几何变化,其中面被裁剪和对齐,包括很少的背景杂点。图1的视觉比较。图8和表4的定量结果证明了与语义对齐网络的联合学习的益处。与不考虑真实图像对的丰富变化的现有方法[33,30,29,8]不同,我们的方法始终在各种对象类别上发现具有语义意义的地标。方法PCKα =0。05α =0。1α =0。15CNNgeo [24]36.962.371.4[25]第二十五话44.168.274.8A2Net [27]43.168.474.1RTNs [15]49.269.376.2NCNet [26]50.770.978.1Ours wo/UM49.468.276.9我们52.872.779.27302(a)(b)(c)(d)(e)(f)(g)(h)图7.JLAD数据集语义比对的定性结果:(a)源图像,(b)目标图像,(c)CNNgeo [24],(d)CNNinlier [25],(e)A2Net[27],(f)RTNs [15],(g)NCNet [26]和(h)Ours。使用对应关系将源图像扭曲到目标图像。(a)(b)(c)(d)(e)(f)(g)(h)图8.JLAD数据集上的对象地标检测的定性结果:(a),(b)地面实况地标,图7的图像对用于发现地标(c),(d)CIG [8],(e),(f)StrucRep [33]和(g),(h)Ours。(a)(b)(c)(d)(e)图9。对象界标检测的定性结果在MAFL基准上[34]:(a)地面实况地标,(b)FPE [30],(c)StrucRep [33],(d)CIG [8],(e)我们的。即使在大的外观和形状变化下也是如此5. 结论我们提出了一个联合学习框架的地标检测和语义对应,利用这两个任务之间的互补互动,以克服缺乏训练数据,交替施加(a)(b)(c)(d)(e)图10。我们的语义对齐网络在MAFL基准上的定性结果:(a)源图像,(b)目标图像,(c),(d) 在源图像和目标图像上检测到的界标,(e)使用对应性的变形图像。一致的约束。在各种基准测试上的实验结果,包括新引入的JLAD数据集,证明了我们的方法的有效性,使得图像对可以精确地与检测到的地标的内在结构对齐,并且同时可以一致地发现地标与估计的语义对应字段。7303引用[1] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[2] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence,32(9):1627[3] Yoav HaCohen、Eli Shechtman、Dan B Goldman和DaniLischinski。非刚性稠密对应与图像增强的应用。ACM图形交易,30(4):70,2011。[4] Bumsub Ham 、 Minsu Cho 、 Cordelia Schmid 和 JeanPonce。提案流程。In:CVPR,2016.[5] Bumsub Ham 、 Minsu Cho 、 Cordelia Schmid 和 JeanPonce。提案流程:来自对象建议的语义对应。IEEETrans. PAMI,2017.[6] Kai Han,Rafael S Rezende,Bumsub Ham,Kwan-YeeK Wong,Minsu Cho,Cordelia Schmid,and Jean Ponce.学习语义对应。In:ICCV,2017.[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and Sun.俭.用于图像识别的深度残差学习。In:CVPR,2016.[8] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。用于学习视觉对象结构的条件图像生成2018年第32届神经信息处理系统会议论文集[9] Sangryul Jeon , Seungryong Kim , Dongbo Min , andKwanghoon Sohn.用于密集语义对应的金字塔仿射回归网络在ECCV,2018。[10] Angjoo Kanazawa、David W Jacobs和Manmohan Chan-draker。Warpnet:用于单视图重建的弱监督匹配。在IEEE计算机视觉和模式识别会议论文集,第3253- 3261页[11] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性?神经信息处理系统进展(NIPS),2017年。[12] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议(CVPR),2018年。[13] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在2017年国际计算机视觉会议(ICCV)的会议记录中[14] Jaechul Kim,Ce Liu,Fei Sha,and Kristen Grauman.可变形的空间金字塔匹配快速密集对应。见:CVPR,2013年。[15] Seungryong Kim,Stephen Lin,Sangryul Jeon,DongboMin , and Kwanghoon Sohn. 用 于 语 义 对 应 的 递 归Transformer网络。在神经信息处理系统的进展,2018年。[16] Seungryong Kim,Dongbo Min,Bumsub Ham,StephenLin,and Kwanghoon Sohn.Fcss:用于密集语义对应的完 全 卷 积 自 相 似 性 。 IEEE Trans- actions on PatternAnalysis and Machine Intelligence,2018。[17] Sunok Kim , Dongbo Min , Seungryong Kim , andKwanghoon Sohn.鲁棒立体匹配的统一置信度估计网络。IEEE Transactions on Image Processing,28(3):1299[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。载于:ICLR,2015年。[19] Maria Klodt和Andrea Vedaldi以旧督新:从sfm中学习sfm欧洲计算机视觉会议,第713-728页Springer,2018.[20] Martin Koestinger,Paul Wohlhart,Peter M Roth,andHorst Bischof.野生动物的面部标志:用于面部标志定位的大规模真实世界数据库。2011年IEEE计算机视觉研讨会国际会议(ICCV研讨会),第2144IEEE,2011年。[21] Ce Liu,Jenny Yuen,and Antonio Torralba.筛流:场景间 的 密 集 对 应 及 其 应 用 。 IEEE Trans. PAMI , 33(5):815[22] David Novotny , Samuel Albanie , Diane Larlus , andAndrea Vedaldi.通过概率内省的几何稳定特征的自监督学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[23] David Novotny Diane Larlus和Andrea Vedaldi通过观察周围的物体来学习3d物体的类别。2017年IEEE国际计算机视觉会议(ICCV),第5228-5237页IEEE,2017年。[24] Ignac i oRocco,ReljaArandjel o vi c´,andJosefSi vic. 用于几何匹配的卷积神经网络结构In:CVPR,2017.[25] Ignac i oRocco,ReljaArandjel o vi c´,andJosefSi vic. 端到端弱监督语义对齐。在IEEE计算机视觉和模式识别会议论文集,第6917-6925页,2018年[26] Ignaci oRocco , MirceaCimpoi , ReljaArandjelo vic´ ,Akihik oTorii,Tomas Pajdla,and Josef Sivic.社区协商网络。神经信息处理系统进展,第1658-1669页,2018年[27] Paul Hongsuck Seo , Jongmin Lee , Deunsol Jung ,Bohyung Han,and Minsu Cho.使用偏移感知相关内核的注意语义对齐。在ECCV,2018。[28] Supasorn Suwajanakorn 、 Noah Snavely 、 Jonathan JTomp- son和Mohammad Norouzi。通过端到端几何推理发现潜在的3d关键点。神经信息处理系统进展,第2063-2074页,2018年。[29] James Thewlis Hakan Bilen Andrea Vedaldi用稠密等变图像标记法对目标框架进行非监督学习.神经信息处理系统的进展,第844-855页,2017年[30] James Thewlis Hakan Bilen Andrea Vedaldi通过分解空间嵌入的对象地标的非监督学习。在IEEE计算机视觉国际会议集,第5916-5925页7304[31] Yu Xiang,Roozbeh Mottaghi,and Silvio Savarese.超越Pascal : 野 外 三 维 物 体 检 测 基 准 。 在 IEEE WinterConference on Applications of Computer Vision,第75-82页中。IEEE,2014。[32] Yi Yang和Deva Ramanan具有柔性部件混合的铰接姿态估计。CVPR 2011,第1385IEEE,2011年。[33] Yuting Zhang , Yijie Guo , Yixin Jin , Yijun Luo ,Zhiyuan He,and Honglak Lee.作为结构表示的对象地标的无监督发现。在IEEE计算机视觉和模式识别会议集,第2694-2703页[34] Zhanpeng Zhang , Ping Luo , Chen Change Loy , andXiaoou Ta
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功