语义属性匹配网络：用于建立语义相似图像之间对应关系和传递属性的智能网络

45 浏览量更新于2023-10-18 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

112339语义属性匹配网络Seungryong Kim1，2，Dongbo Min3，Somi Jeong1，Sunok Kim1，2，Sangryul Jeon1，KwanghoonSohn1，YonseiUni versity，2洛桑联邦理工学院（EPFL），3EwhaWomansUniversitywww.example.comseungryong.kim @ epfl.ch{somijeong，kso428，cheonjsr，khsohn}@ yonsei.ac.krdbmin@ewha.ac.kr，www.example.com摘要我们提出了语义属性匹配网络（SAM- Net），用于在语义相似的图像之间联合建立对应关系和传递环属性，它智能地编织了这两个任务的优点，同时克服了它们的局限性。SAM-Net通过一个迭代过程来实现这一点，该过程通过减少图像之间的属性差异来建立可靠的对应关系，并使用学习到的对应关系来合成属性转移图像为了利用图像对形式的弱监督来学习网络，我们提出了一种基于属性转移源特征和变形目标特征之间的匹配相似度的语义属性匹配损失。SAM-Net在语义匹配和属性传递的几个基准测试中获得了最先进的性能。1. 介绍在语义相似的图像之间建立对应关系和传输在这些任务中，图像在内容上彼此相似，但在视觉属性上不同，例如颜色、纹理和风格，例如，具有不同面孔的图像，如图2所示。1.许多技术已经被提出用于语义对应[15，24，42，19，43，23]和属性转换。fer [11，6，28，21，38，16，20，16，34，12]，但这两个任务已被独立研究，虽然它们可以相互补充。为了建立可靠的语义对应，最先进的方法已经利用了深度卷积神经网络，…源图像程式化源…目标图像匹配领域语义匹配网络属性传递网络SAM‐Net图1.SAM网络的说明：对于具有光度和几何变化的语义相似的图像，SAM网络重新估计语义对应关系，并以联合和增强的方式合成属性传输的图像。与传统的手工制作方法[35，22，5，54，48]相比，它们实现了高度可靠的性能。为了克服有限的地面实况监督的问题，一些方法[42，19，43，23]试图仅使用图像对形式的弱监督来学习深度网络，这是基于这样的直觉：在正确的变换下，一组变换上的源和目标特征之间的匹配成本应该最小化。这些方法假定源图像和目标图像之间的属性变化在深特征空间中是可以忽略的然而，在实践中，深层功能往往表现出有限的性能，在处理不同的属性，存在于源和目标图像，往往降低匹配精度显着。为了在源图像和目标图像之间转移属性，遵循Gatys等人的开创性工作。[10]，已经提出了许多方法来使用深度CNN分离和重新组合内容和属性[11，神经网络（CNN）提取描述符[7，53，24]以及正则化对应域[15，42，19，43，23]。本研究得到了科学和信息通信技术部资助的韩国国家研究基金会（NRF）的高级集成智能识别（AIID）研发计划（NRF-2018 M3E3 A1057289）的支持。*通讯作者6、28、21、38、16、20、16、34、12]。与参数化方法[11，21，38，16]匹配全局统计非参数方法[6，28，34，12]直接在目标图像中找到与源块相似的神经块，并将它们合成以重建风格化图像。这些非参数方法通常估计最近的112340使用弱隐式正则化方法[6，28，34，12]在源图像和目标图像之间的相邻块，该方法使用简单的局部聚合，然后是赢家通吃（WTA）。然而，真实感属性转移需要高度正则化和语义上有意义的对应，因此当图像具有背景杂波和不同属性时一种称为深度图像类比[34]的方法试图估计用于照片级真实感属性转移的更有语义意义的密集对应，但它仍然具有有限的PatchMatch[3]定位能力。本文提出了语义属性匹配网（SAM-Net），以克服现有语义匹配和属性转换技术的上述局限性。其核心思想是以提升的方式编织语义匹配和属性转移网络的优势。我们的网络通过一个迭代过程来实现这一点，该过程通过减少语义相似图像之间的属性差异并合成具有学习到的语义对应的属性转移图像来建立更可靠的语义对应。此外，我们的网络是使用所提出的语义属性匹配损失从图像对形式的弱监督中学习的。实验结果表明，SAM-Net在几个基准测试中优于最新的语义匹配和属性传输方法，包括TSS数据集[48]，PF-PASCAL数据集[14]和CUB-200-2011数据集[51]。2. 相关工作语义对应。大多数使用手工特征和正则化方法[35，22，5，54，48]的传统语义对应方法由于区分能力低而提供了有限的性能最近的方法使用深度CNN来提取它们的特征[7，53，24，39]并正则化对应关系场[15，41，42]。Rocco等人[41，42]提出了用于估计几何匹配模型的深度架构，但这些方法仅估计全局变化的几何场。为了处理局部变化的几何变形，基于STNs [18]提出了一些方法，如UCN [7]和CAT-FCSS[25]。最近，提出了PARN [19]、NC-Net [43]和RTNs[23]，以使用粗到细方案[19]、邻域一致性[43]和迭代技术[23]来估计局部变化的变换场。这些方法[19，43，23]假定源图像和目标图像之间的属性变化在深层特征空间中可以忽略不计。然而，在实践中，深度特征在处理不同属性时往往表现出有限的性能。Aberman等人[1]提出了一种使用实例归一化的变体来处理图像之间的属性变化的方法[16]。怎么-然而，该方法不具有显式的可学习模块来减少属性差异，从而产生有限的性能。属性转移。已经有很多关于视觉属性的转移的工作，例如，颜色，纹理和风格，从一个图像到另一个，大多数方法都是针对其特定目标[40，47，8，2，52，9]。由于我们的方法表示并合成了深层特征以在语义相似的图像之间传递属性，因此神经风格传递[11，6，21，20]与我们的方法高度相关。一般来说，这些方法可以分为参数和非参数方法。在参数化方法中，Gatys等人的开创性工作的启发。[10]，已经提出了许多方法，例如Johnson等人的工作。[21]，[22]，[23]，[24]，[25]，[26]，[27]，[29]。由于这些方法是全局公式化的，因此它们在光真实风格化任务中表现出有限的性能为了减轻这些限制，Luan et al.提出了一种计算和使用语义标签的深度照片风格转移[38]。Li等人提出了Photo-WCT [32]，以使用额外的平滑步骤消除伪影。然而，这些方法仍然是在没有考虑语义上有意义的对应字段的情况下制定的。在非参数方法，开创性的工作李等人。[28]首先在目标风格图像中搜索与内容图像相似的局部神经元块，Chen等人[6]使用前馈网络对合成特征进行解码，加快了这一过程受此启发，已经提出了各种方法来有效地合成局部混合特征[29，49，37，30，50]。然而，上述方法是针对艺术风格转移而定制的，因此它们集中于找到补丁以重建更合理的图像，而不是找到语义上有意义的他们通常使用弱隐式正则化方法（如WTA）来估计最近邻补丁最近，Gu等。[12]介绍了一种深度功能重排技术连接参数和非参数方法，但它们使用期望最大化（EM）来搜索最近的邻居，这也产生有限的定位精度。与我们的工作更相关的是一种称为深度图像类比的方法[34]，该方法使用深度PatchMatch [3]以粗到细的方式搜索语义对应。然而，PatchMatch固有地具有有限的正则化能力，如[27，36，33]所此外，该方法还需要对特征反卷积进行贪婪优化，导致计算瓶颈，并且只考虑平移场，在处理更复杂的变形时存在局限性112341我FI+Fi+fii iF特征提取Fs我SFsCIMMFt（T）特征提取FtTlIt匹配语义特征提取Fs我SFs t一 Ft特征提取Ft我很抱歉It转移属性特征提取Fs我S弗斯特湖我什是Ft，L特征提取FtItTl匹配语义转移属性（一）（b）第（1）款（c）第（1）款图2.SAM-Net的直觉：（a）语义匹配方法[41，42，23，19]，（b）属性转移方法[11，21，28]，以及（c）SAM-Net，它反复编织现有语义匹配和属性转移技术的优点。3. 问题陈述让我们把语义相似的源图像和目标图像分别表示为Is和It该方法的目标是在两幅图像之间联合建立对应域fi=[ui，vi]T，并合成属性转移图像Is<$t包括内容损失定义为ΣLC=<$Fs<$t−Fs<$2，（2）我非参数属性转移损失定义为Σ ΣL=<$Fs<$t−Ft <$2，（3）通过将目标图像It的属性转移到内容一i j∈Nij+fi F的源图像。用于语义对应的基于CNN的方法[41，25，42，19，43，23]涉及首先从lo内的Is和It提取由Fs和Ft表示的深度特征其中i+fi是I t中与I s中以i为中心的面片最相似的面片的中心点。通常，fi是使用所有局部块上聚集在N上的归一化互相关[6，28]的匹配分数来确定的我我计算感受野，然后估计对应性，使用深度正则化模的源图像的场fi然后进行标记优化，Σ[41，42，23]，如图所示第2段（a）分段。学习网络fi= argmax（Fs·Ft）/FsFt，（4）仅使用图像对，一些方法[42，23]制定mj∈Nijj+mj j+m损失函数基于源特征Fs和目标特征之间的其中运算符·表示内积。然而，手工设计的离散标记技术ti+fi应该最小化一组转换如WTA [6，28]、PatchMatch [34]和EM [12]，例如，他们将匹配损失定义为Σoptimize（4）依赖于弱隐式平滑约束，通常产生差的匹配结果。此外他们LM=<$Fs−Ft < $2，（1）iii+fi F仅考虑平移场，即， fi，从而限制处理由水垢引起的更复杂的变形其中·2表示Frobenius范数。处理更可能存在于对象实例之间的旋转和倾斜。复杂变形如仿射变换[27，23]，而不是Ft我，Ft（Ti）或Ft（A）可以与4. 方法一个2×3矩阵Ti=[Ai，fi].虽然语义相似，较大图像可以共享类似的内容，但是具有不同的at-这些方法[41，42，19，43，23]简单地假设源图像和目标图像之间的属性变化在深特征空间中是可忽略的。因此，它不能保证测量一个完全准确的匹配成本没有明确的模块，以减少属性差距。为了最小化源图像和目标图像之间的属性差异，属性或风格转移方法[11，6，21，20]分离和重组内容和属性。与参数方法[11，38]不同，非参数方法[6，28，34，12]直接在目标图像中找到与源补丁相似的神经补丁，并将它们合成以重建风格化特征Fs<$t和图像Is<$t，FJ112342如图所第2段（b）分段。形式上，他们制定了两个损失函数-4.1. 概述我们提出了网络来递归地估计语义对应关系，并以提升的方式合成风格化的图像，如图所示。第2段（c）分段。在网络中，通过匹配风格化的源图像和目标图像来鲁棒地建立对应关系，与直接匹配具有属性差异的源图像和目标图像的现有方法[42，23]相反。同时，使用对应关系的混合神经块以语义感知和几何对齐的方式被用于重建属性转移图像。我们的网络分为三个部分，如图所示3：特征提取网络，提取源特征F s和目标特征F t，建立语义匹配网络s112343我我IPIP我我我图3.SAM-Net的网络结构，由特征提取网络、语义匹配网络和递归结构的属性传递网络组成。初始时，Fs←t，0=Fs且Ft，0=[I2×2，02×1]。它们在每次第l次迭代时输出T1和Is←t，l(a)（b）（c）（d）（e）（f）（g）（h）图4. SAM网络的融合：（a）源图像，（b）目标图像，在迭代1、2和3之后，属性转移图像（c）、（e）和（g）以及使用密集相关性的变形图像（d）、（f）和（h）的迭代演化。在SAM-Net的递归公式中，通过迭代估计，预测的变换场和属性转移图像变得越来越准确对应域T和属性转移网络来合成属性转移图像Is←t。由于我们的网络是以循环的方式来表达的，因此它们在每一次第l次迭代时输出T1和Is←t，l4.第一章4.2. 网络架构特征提取网络。我们的模型实现了稠密仿射变换域Ti.与现有方法[41，42，23]不同，我们的方法不仅计算源和目标特征之间的匹配相似性，还计算合成的源和目标特征之间的匹配相似性，以最大限度地减少源和目标特征之间的属性差异导致的错误，使得：Cl（p）=（1−λl）（Fs·Ft，l）/<$Fs<$$>Ft，l<$基于deepfea-i的语义匹配和属性转换I P I P（五）tures [45，25]. 为了提取源Fs和目标Ft的特征，源图像和目标图像（Is和It）首先分别通过具有参数WF的共享特征提取网络，使得Fi=F（Ii;WF）。在递归公式中，属性转移特征Fs←t，l以及变形的目标特征F t，l，即，在每第1次迭代中重构使用变换场T1扭曲的Ft.语义匹配网络。我们的语义匹配网络由匹配成本计算和推理模块组成，这些模块由传统的RANSAC类方法驱动[17]。我们首先计算仅关于平移运动的相关体积[41，42，43，23]，然后将其传递到后续卷积层以确定+λl（Fs<$t，l·Ft，l）/<$Fs<$t，l<$$>Ft，l<$，其中，对于以i为中心的局部搜索窗口Pi，p∈Pi。λl控制计算相似度时内容和属性之间的权衡，类似于[34]。注意，当λl= 0时，我们只考虑源特征Fs，而不考虑风格化特征Fs←t。这些相似性经过L2归一化以减少误差[42]。基于此，具有参数WG的匹配推理网络迭代地估计先前和当前变换场之间的残差[23]为Tl− T l−1= F（Cl; WG）.（跳车……卷积最大池上采样IsF（Is;W）FFst，lBt，lF（Bt，l;W）D特征提取网络属性传递网络我知道，我Ft，lClskipskip…F（Cl;W）ItF（It;W）GFTl1语义匹配网络TlTl 1F（Cl;W）G滴线相关性共混112344六）然后，在一个重新估计的电流变换场112345我我HH我我我我我我我α Fl/JJ我Fs我 J约瑟夫LJ我的意思是我的朋友LJFt（一）（b）第（1）款（c）第（1）款（a）（b）（c）（d）图5. 神经块混合的可视化：对于（a）中的源特征Fs，与现有方法[34，28，12]不同，现有方法仅使用（b）中的仿射场fi混合源Fs和目标Ft的特征，我们的方法将特征与（c）中的学习仿射变换场Tl=[Al，fl]混合。图6.对神经贴片混合置信度的影响：（a）Is和It的混合结果，（b）解码器所遵循的Fs和Ft的混合结果，（c）置信度，以及（d）解码器所遵循的具有置信度的Fs和Ft的混合结果。和高级属性特征[31，32，12]。怎么-目前的方式[23]如下：ΣTl=[I2×2，02×1]+n∈φ（l）F（Cn;WG），（7）然而，通过简单的连接[44]使用跳过连接使得解码器网络仅使用低级特征来重构图像。为了缓解这一点，受dropout层[46]的启发，我们提出了一个droplink层，使得其中φ（1）={1，.，l−1}。与[41，42]估计全局仿射或薄板样条变换场不同，我们的跳过的特征和上采样的特征被随机链接，以避免过拟合到某些级别的特征：网络被公式化为如[44]中的编码器-解码器网络，以估计局部变化的变换场。Fs←t，l=（1−b ）F（Bs←t，l;WD，h）+bhFs，（10）属性转移网络。转移的属性其中Fs←t，l和Fs是中间和跳过的fea。H H在第l次迭代时，我们的属性转移网络首先将源特征然后重建程式化源对于h∈ {1，...，H}。WD，h是到第h级的参数。bh是二进制随机变量。注意如果bh=0，则这成为无跳过连接层。图像Is←t，l我使用带参数4.3. 损失函数WD使得Is<$t，l=F（Bs<$t，l;WD）.具体来说，我们的神经补丁混合Fs和Ft与电流变换场T1=[A1，f1]的关系式如图所示。5使得Σ Σ语义属性匹配丢失。我们的网络是使用图像对形式的弱监督来学习的。具体地说，我们提出了一种语义属性匹配损失的方式，变换场T和风格化图像Is←t可以同时学习和推断，Bs←t，l=（1−λl）Fs+λliij∈NiL不Ji + gjj∈Ni αl，（八）最小化单个损失函数。在第L次迭代收敛后，其中gl=（Al−I2×2）（i−j）+fl。αl是Fs←t，L的置信度，并且使用变形的目标特征Ft，L来定义j j j i每个像素i具有类似于[26]计算的T1，使得损失函数。这种直觉可以通过最小化来实现Σαl= exp（Cl（i））/exp（Cl（p））.（九）实现以下目标：ΣΣi ip∈PiiD（Fs←t，L，Ft，L）=Fs←t，L−Ft，L<$2. （十一）我们的神经补丁混合模块与现有方法[34，28，12]的不同之处在于使用了学习的变换场并考虑了更复杂的变形，如仿射变换。此外，与验证风格转移方法[28，12]不同，我们的网络采用置信度来转移仅针对我们的目标定制的可匹配点的属性六、此外，我们的解码器网络被公式化为特征提取网络的对称结构。由于如[16]中的单级解码器网络不能捕获高级特征处的复杂结构和低级特征处的低级信息，因此如[31，32]中提出了多级解码器网络，但它们不是很经济[12]。相反，我们用跳跃骗局-H112346j jFi j∈Ni与现有的匹配损失LM和属性传递损失LA相比，该目标使我们能够解决跨语义的光度和几何变化相似的图片同时虽然只使用这个目标提供了令人满意的性能，我们扩展了这个目标，以考虑阳性和阴性样本，以提高网络训练和精确定位能力的基础上的直觉，匹配分数应最小化在正确的transform-mation，同时保持其他邻居transform-mation候选人的分数高。最后，我们将语义属性匹配损失公式化为交叉熵损失，Σ从源功能Fs的连接，以捕捉低-LAM=max（−log（Ki），τ），（12）我112347平均流量精度0.80.750.70.650.60.550.5123456迭代次数图7. TSS基准测试中不同迭代次数和搜索窗口大小的SAM网络收敛性分析[48]。(a)输入图像（b）iter 1（c）iter 2（d）iter 3图8.SAM-Net的消融研究没有（顶部）和（底部）属性转移网络作为进化迭代。其中，Ki是softmax概率，定义为exp（−D（Fs←t，L，Ft，L））表1.与TSS基准上最先进的对应技术相比的匹配精度[48]。方法PCK表2.匹配精度与最先进的核心技术相比，Ki=K一.（十三）在PF-PASCAL基准上的响应技术[14]。exp（−D（Fs←t，L，Ft，L））q∈Qiiq它使相邻点Q i内的中心点i成为正样本，而其他点成为负样本。此外，在参数τ的训练过程中，使用截断最大算子max（·，τ）来聚焦目标等有用部分.其他损失。我们利用两个额外的损失，即如（2）中的内容损失LC以保持源图像的结构，以及L2正则化损失[21，28]以鼓励风格化图像中的空间平滑度。5. 实验5.1. 培训和实施详情为了学习我们的SAM网络，需要大规模的语义相似的图像对，但是这样的公共数据集在数量上是有限的。为了克服这一点，我们采用了类似于[42]的两步在第一步中，我们使用[41]中提供的合成训练数据集这使得属性转移网络能够以自动编码器的方式学习[31，16，32]，但匹配网络仍然具有处理属性变化的能力有限为了克服这一点，在第二步中，我们在公共数据集上对这个预训练的网络进行微调，以获得来自PF-PASCAL [14]训练集的语义相似的图像对，然后进行[14]中使用的分割。对于特征提取，我们使用了ImageNet预训练的VGG-19 网络 [45] ，其中激活是从 “relu 4 -1” 层提取的H=4）。我们逐渐增加λl直到1使得λl=1−exp（−l）。在训练期间我们将迭代的最大次数L设置为5，以避免梯度消失和爆炸问题。在测试期间，迭代计数增加到10。在[23]之后，Ni，Pi和Qi的窗口大小被设置为3×3，9×9，9×9，分别。 bh的概率定义为0.9并且在测试中，将BH设置为0.5。5.2. 实验设置在下文中，我们通过与最先进的语义匹配方法（包括Taniai等人）进行比较，全面评估了SAM- Net。[13][14][15][16][17][18][19][1 [41]、GMat.含Inl. [42]，NC-Net [43]，RTNs [23]，以及属性转移，包括Gatys等人。[10]，CNN-MRF [28]，Photo-WCT[32]，Gu et al.[12][14][15][16][17] 性能方法FG3DJODSPASC。Avg.Taniai等人[48个]0.8300.5950.4830.636[13]0.7860.6530.5310.657DCTM [27]0.8910.7210.6100.740SCNet [15]0.7760.6080.4740.619GMat。[41个]0.8350.6560.5270.673GMat。含Inl. [第四十二届]0.8920.7580.5620.737DIA [34]0.7620.6850.5130.653RTN [23]0.9010.7820.6330.772SAM-Net w/（11）0.8910.7890.6380.773SAM-网络wo/属性0.9120.7900.6410.781α= 0。05α =0。1α= 0。15[13]0.3140.6250.795DCTM [27]0.3420.6960.802SCNet [15]0.3620.7220.820GMat。[41个]0.4100.6950.804GMat。含Inl. [第四十二届]0.4900.7480.840DIA [34]0.4710.7240.811RTN [23]0.5520.7590.852NC-Net [43]-0.789-112348(a)（b）（c）（d）（e）（f）（g）（h）图9.TSS基准[48]上的定性结果：（a）源图像和（b）目标图像，使用（c）PF [13]，（d）DCTM [27]，（e）GMat [41]，（f）DIA [34]，（g）GMat的对应关系扭曲的源图像含Inl. [42]和（h）SAM-Net。(a)（b）（c）（d）（e）（f）（g）（h）图10. PF-PASCAL基准的定性结果[13]：（a）源图像和（b）目标图像，使用（c）DCTM [27]，（d）SCNet [15]，（e）DIA [34]（f）GMat的对应性的扭曲源图像。含Inl. [42]、（g）区域技术网络[23]和（h）SAM网络。在TSS数据集[48]、PF-PASCAL数据集[14]和CUB-200-2011数据集[51]上测量。节中5.3中，我们首先分析了SAM-Net中组件的影响，然后使用第二节中的各种基准和定量措施评估匹配5.4. 最后，我们评估了真实感属性转移结果与各种应用在第二节。五点五5.3. 消融研究为了验证SAM-Net中的组件，我们评估了不同迭代次数、不同大小的Pi以及有和没有属性传输模块的匹配精度。对于定量评估，我们检查了TSS基准的准确性[48]。如图所示图7，Fig.8和表1中，SAM网络在2 - 3次迭代中收敛此外，“SAM-Net wo/Att.”的结果也就是说，SAM-Net无属性迁移，显示了属性迁移模块在递归公式中的有效性。'SAM网络wo/（11）.'的结果，也就是说，SAM-Net与损失（11），显示了考虑负面的重要性训练时的样本通过增大Pi的大小，匹配精度提高到9×9，但较大的窗口大小会导致匹配模糊度增大，从而降低匹配精度。注意，Qi=Pi，遵循[23]。5.4. 语义匹配结果TSS基准。我们在TSS基准上评估了SAM-Net [48]，由400个图像对组成。如[24，27]所述，流量准确度在表1中测量。图9示出了定性结果。与现有方法不同[7，48，13，15，[24] 41、42、23.不考虑属性变量，通过在语义相似的图像之间进行比较，我们的SAM网络在定性和定量上都表现出了很大的改进。与其他深度方法[42，23]相比，DIA [34]显示出有限的匹配精度，这是由于其有限的正则化能力。与此不同的是，我们的SAM网络的结果表明，我们的方法是更成功地转移源和目标图像之间的属性，以提高语义匹配的准确性。PF-PASCAL基准。我们还在PF-PASCAL基准上评估了SAM-Net [14]，其中包含超过20个对象类别的1，351个图像对，并带有PASCAL关键点注释[4]。对于评估指标，我们使用了流扭曲关键点和地面真实值之间的PCK，如[15]的实验中所做的那样。表2总结了PCK值，10显示了定性结果。与TSS基准测试[48]上的实验类似，基于CNN的方法[15，41，42，42，23]包括我们的SAM-Net产生更好的性能，SAM-Net提供最高的匹配精度。5.5. 应用真实感属性转移。我们在TSS [48]和PF-PASCAL基准[14]上评估了SAM- Net的真实感属性转移为了评估，我们从这些数据集中抽取图像对，并将目标图像的属性转移到源图像，如图所示。11.请注意，SAM-Net旨在处理包含语义相似内容的图像，并且对于[10，21，16]中的通用艺术风格传输应用程序无效正如预期的那样，现有的方法适合于112349(a)（b）（c）（d）（e）（f）（g）（h）图11. TSS [48] PF-PASCAL [14]基准测试中真实感属性转移的定性结果：（a）源图像和（b）目标图像，（c）Gatys et al. [10]，（d）CNN-MRF [28]，（e）Photo-WCT [32]，（f）Gu et al.[12]，（g）DIA [34]，（h）SAM-Net。(a)（b）（c）（d）（e）图12. CUB- 200-2011基准[51]上的面罩转移定性结果：源（a）图像和（b）掩模以及目标（c）图像和（d）掩模，以及（e）使用来自SAM网络的对应性将源掩模变形到目标图像。艺术风格化，例如Gatys等人的方法。[10]和CNN-MRF[28]产生有限质量的图像。此外，最近的真实感风格化方法，如Photo-WCT [32]和Gu et al.[12]对于具有背景杂波的图像，性能有限。DIA [34]由于其弱正则化技术而提供了退化的结果。与这些方法不同的是，我们的SAM-Net显示了高度准确和合理的结果，这要归功于他们学习的变换场来合成图像。请注意，一些方法（如Photo-WCT [32]和DIA [34]）使用额外的平滑模块来细化其结果，但SAM-Net不使用任何后处理。前景掩模转移。我们在CUB-200-2011数据集[51]上评估了SAM-Net的掩模传输，该数据集包含200种鸟类类别的图像，并带有注释的前景掩模。对于语义相似的图像，具有非常具有挑战性的光度和几何变化-（a）（b）（c）（d）（e）图13.在CUB-200-2011基准测试中物体变形的定性结果[51]：（a）源图像和（b）目标图像，（c）Gu et al.[12]，（d）DIA [34]，（e）SAM-Net。我们的SAM网络成功地传输了语义标签，如图所示。12个。物体变形。我们最后将我们的方法应用于对象变形，例如，将源鸟转化为目标品种。我们使用来自CUB-200- 2011数据集的对象类[51]。在这个应用程序中，我们的SAM网络已经显示出非常合理的结果，如图所示。十三岁6. 结论我们提出了SAM-Net，它递归地估计密集的对应关系，并以联合和提升的方式在语义相似的图像之间传输属性这种方法的核心思想是通过迭代过程来形成语义匹配和属性传递网络，以相互补充。对于弱监督训练的SAM网络，语义属性匹配损失，这使我们能够同时减轻跨图像的光度和几何变化。112350引用[1] K. Aberman，J.廖，M.Shi，D.利辛斯基湾Chen和D.科恩或。神经最佳伙伴：稀疏的跨域对应。 In ：SIGGRAPH，2018.[2] M. Ashikhmin 快速纹理转移。 IEEE 计算 Graph. 和Appl. ，（4）：38[3] C. Barnes，E. Shechtman，A. Finkelstein和D. B黄金人。补丁匹配：一种用于结构化图像编辑的随机对应算法。ACM Trans.ToG，28（3）：24，2009。[4] L. Bourdev和J.马利克Poselets：使用3D人体姿势注释训练的身体部位检测器。In：ICCV，2009.[5] H. Bristow，J. Valmadre，and S.露西密集的语义对应，每个像素都是一个分类器。In：ICCV，2015.[6] T. Q. Chen和M.施密特快速的基于补丁的任意风格转移。arXiv：1612.04337，2016年。[7] C. B. Choy，Y.Gwak和S.Savarese 通用通信网。In：NIPS，2016.[8] A. A. Efros和W. T.弗里曼。图像绗缝纹理合成和转移。见：SIGGRAPH，2001年。[9] O. Frigo，N. Sabater，J. Delon，and P.赫利尔拆分和匹配：用于非监督风格传递的基于示例的自适应补丁采样。In：CVPR，2016.[10] L. A Gatys，A. S Ecker和M.贝丝艺术风格的神经算法。arXiv：1508.06576，2015年。[11] L. A Gatys，A. S Ecker和M.贝丝使用卷积神经网络的图像风格In：CVPR，2016.[12] S. 古角，澳-地陈，J.Liao和L.元任意风格转移与深度功能洗牌。2018年。[13] B. Ham，M.乔角，澳-地Schmid和J.庞塞提案流程。In：CVPR，2016.[14] B. Ham，M.乔角，澳-地Schmid和J.庞塞提案流程：来自对象提议的语义对应。IEEE Trans. PAMI，2017.[15] K. 汉河，巴西-地S. 雷曾德湾Ham，K.Y. K. 黄，M。乔角，澳-地Schmid和J.庞塞Scnet：学习语义对应。In：ICCV，2017.[16] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输In：ICCV，2017.[17] 菲尔宾J.，O. Chum，M. Isard，J. Sivic，and A.齐塞-曼。具有大词汇量和快速空间匹配的对象检索见：CVPR，2007年。[18] M. Jaderberg ， K. Simonyan 、 A. Zisserman 和 K.Kavukcuoglu 空间Transformer网络。In：NIPS，2015.[19] S. 全，S。Kim，D.Min和K.孙Parn：用于密集语义对应估计的金字塔仿射回归网络In：ECCV，2018.[20] Y. Jing，Y.杨，Z.Feng，J.叶，Y。Yu和M.歌神经风格转移：审查. arXiv：1705.04058，2017年。[21] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。见：ECCV，2016年。[22] 金角，澳-地Liu，F. Sha和K.格劳曼可变形空间金字塔匹配快速密集对应。见：CVPR，2013年。[23] S. Kim，S. Lin，S.全角，澳-地Min和K.孙用于语义对应的递归Transformer网络。In：NIPS，2018.[24] S. Kim，D.敏湾，澳-地Ham，S.全，S。Lin和K.孙Fcss：用于密集语义对应的完全卷积自相似性。In：CVPR，2017.[25] S. Kim，D.敏湾，澳-地Ham，S. Lin和K.孙Fcss：用于密集语义对应的完全卷积自相似性。 IEEE Trans.PAMI，2018.[26] S. Kim，D.敏，S. Kim和K.孙用于鲁棒立体匹配的统一置信度估计网络IEEE Trans. IP，26（3）：1299[27] S. Kim，D.敏，S. Lin和K.孙Dctm：语义流的离散-连续变换匹配. In：ICCV，2017.[28] C. Li和M.魔杖组合马尔可夫随机场以及用于图像合成的卷积神经网络。In：CVPR，2016.[29] C. Li和M.魔杖利用马尔可夫生成对抗网络进行预计算实时纹理见：ECCV，2016年。[30] Y. Li，C. Fang，J. Yang，Z. Wang，X. Lu和M.杨基于前馈网络的多样化纹理合成。In：CVPR，2017.[31] Y. Li，C.Fang，J.杨，Z.Wang，X.Lu和M.杨通过特征变换实现统一风格的转换. In：NIPS，2017.[32] Y. Li，M. Liu，X. Li，M. Yang和J.考茨一个封闭形式的解决方案的照片真实感图像风格化。In：ECCV，2018.[33] Y. Li，D. Min，M. S.布朗，M. N.做，和J。卢。Spm-bp：加速连续mrfs的补丁匹配置信度传播。In：ICCV，2015.[34] J. Liao，Y.尧湖，澳-地Yuan，G. Hua和S. B.康通过深层意象类比实现视觉属性转移。In：SIG- GRAPH，2017.[35] C. 刘，J.Yuen和A Torralba。筛流：场景间的密集对应及其应用。 IEEE Trans. PAMI，33（5）：815 -830，2011.[36] J. Lu，H. Yang，杨氏D. Min和M. N.做补丁匹配过滤器：高效的边缘感知滤波满足快速对应字段估计的随机搜索。见：CVPR，2013年。[37] M. Lu，H. Zhao，中国粘蝇A. Yao，F. Xu，Y. Chen和L.张某基于轻量级重构特征的解码器网络，实现快速语义风格转换.In：ICCV，2017.[38] F. Luan，S. Paris，E. Shechtman和K.巴拉深度照片风格转移。CoRR，abs/1703.07511，2，2017。[39] D. Novotny，D.Larlus，和A.维达尔迪Anchornet：一种弱监督网络，用于学习语义匹配的几何敏感特征。In：CVPR，2017.[40] E. Reinhard，M.阿迪赫明湾Gooch和P.雪莉图像之间的颜色转换。IEEE计算Graph.和Appl. ，21（5）：34[41] I.罗科河Arandjelovic和J.西维克用于几何匹配的卷积神经网络结构。In：CVPR，2017.[42] I.罗科河Arandjelovic和J.西维克端到端弱监督语义对齐。In：CVPR，2018.112351[43] I.罗科山钦波伊河Arandjelovic，A. Torii，T. Pajdla和J.西维克邻里共识网络。In：NIPS，2018.[44] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络。在：MICCAI，2015.[45] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。载于：ICLR，2015年。[46] N. Srivastava、G.Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：一种防止神经网络过拟合的简单方法IEEE Trans. Multimedia，15：1929[47] Y. Tai，J.Jia，和C.唐通过期望最大化的概率分割进行局部颜色转移见：CVPR，2005年。[48] T. Taniai，S. N. Sinha和Y.佐藤两幅图像中稠密对应和联合分割的联合恢复。In：CVPR，2016.[49] D. 乌里扬诺夫河Lebedev，A.Vedaldi和V.Lempitsky 纺织网络：纹理和样式化图像的前馈合成。arXiv：1603.03417，2016年。[

下载后可阅读完整内容，剩余1页未读，立即下载