徒手草图的因式分解与深度逆向草绘模型

68 浏览量更新于2023-10-13 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

深度因式分解逆草绘庞凯跃1号，李达1号，宋继飞1号，宋一哲1号，陶翔1号，蒂莫西M.医院1，21SketchX，伦敦玛丽女王大学，英国{凯跃.庞，da.li，j.song，yizhe.song，t.xiang}@ qmul.ac.uk英国爱丁堡大学t. ed.ac.uk抽象。在诸如基于细粒度草图的图像检索（FG-SBIR）等实际应用的推动下，对人类徒手草图进行建模最近已成为热门话题草图显然与照片边缘图相关，但是照片的人类徒手草图不仅仅是该照片的边缘图的干净渲染相反，有一个基本的抽象和图标渲染过程，其中整体几何形状被扭曲，突出的细节被选择性地包括在内。在本文中，我们研究这一素描过程，并试图扭转它。我们通过将标志性的徒手草图转换为类似于对象边界的几何现实投影的轮廓来建模这种反转，并分别分解出突出的附加细节。这种因式分解的重新表示使得将徒手草图与对象的照片实例相匹配变得更容易具体来说，我们提出了一种新的无监督图像风格转移模型的基础上强制执行循环嵌入一致性约束。然后，制定一个深度FG-SBIR模型，以适应来自每个因子分解草图的互补判别细节，以便与相应的照片更好地匹配我们的方法进行了评估，定性和定量证明其优越性超过一个数字风格转换和FG-SBIR的最新替代方案1介绍手绘草图是人类视觉渲染的最简单形式尽管有不同程度的技能，但它在年轻时对人类来说是自然的，并且已经使用了数千年。今天，它提供了一个方便的工具，沟通，和一个有前途的输入方式的视觉检索。之前的草图研究集中在草图识别[4]或基于草图的图像检索（SBIR）。SBIR方法可以进一步分为类别级[5]和实例级细粒度SBIR（FG-SBIR）[43]。这种二分法对应于草图的创建方式-这些产生不同粒度的视觉线索（例如，原型与具体对象细节）。正如[43]所述，正是特定对象实例的细粒度草图为标准文本模态的图像检索带来了实际好处22Kaiyue Pang等==（一）FactorisationFactorisation=++=++照片草图详细轮廓照片草图详细轮廓（b）第（1）款照片草图1草图轮廓1照片草图1草图轮廓1像片等高线草图2草图轮廓2像片等高线草图2草图轮廓2风格迁移风格迁移图1.一、（a）徒手对象实例草图由两部分组成：图标轮廓和对象细节。（2）给定一幅草图，我们的风格转换模型将其重新设计为无失真的轮廓。相同对象实例的不同草图的合成轮廓彼此相似，以及相应的照片轮廓。对细粒度对象草图进行建模并将其与包含相同对象实例的相应照片图像进行匹配是非常具有挑战性的。这是因为照片是真实世界场景或物体的精确透视投影，而徒手草图是具有不同几何形状的标志性抽象，并选择包含的细节。此外，素描是由不同背景、绘画能力和风格的人画的，对细节的突出性有不同的主观观点。因此，两个人可以画出非常不同的素描相同的对象，如图所示1（a）照片→草图。对人类素描过程的仔细检查表明，它包括两个组成部分。如[21]所示，草绘者通常首先部署长笔划来绘制图标对象轮廓，然后是较短的笔划来描绘视觉细节（例如，鞋带或鞋带在图。1（a））。图标轮廓和对象细节对于识别对象实例并将草图与其对应的照片进行匹配都很重要轮廓是关于对象子类别的信息（例如，靴子或训练器），而细节区分子类别内的实例-因此建模两者都是必要的然而，它们具有非常不同的特征，需要不同的治疗。与照片的真实边缘轮廓相比，草图轮廓的整体几何形状经历了大的和用户特定的失真（比较图1中的草图轮廓）图1（a）中的照片对象轮廓（b）款。照片边缘轮廓是物体边界的精确透视投影;徒手草图通常最多是正交投影，并且通常比这更扭曲-如果仅仅是因为人类似乎无法在不失真的情况下绘制长而平滑的相比之下，对于对象细节部分中的较短笔划，失真不是问题但是细节的选择和数量因艺术家而异（例如，图中所示1（a））。深度因式分解逆草绘3在本文中，我们第一次提出通过反转草图绘制过程来建模人类草图也就是说，代替对正向草绘过程建模（即，从照片/回忆到草图），我们研究了将草图转换为与照片的透视几何形状非常相似的视觉表示的逆问题我们进一步认为，这个反演问题是最好的解决两个层面上分别分解出对象轮廓和突出的素描细节。这种分解对于草图建模和与照片匹配都很重要这是由于上面提到的差异：草图轮廓始终存在，但受到较大的扭曲，而细节扭曲较少，但在其存在和抽象级别上更不一致因此，这两个部分只有在被分解时才能有效地建模我们通过提出一种用于风格转移的新型深度图像合成模型来解决第一级的逆素描它以草图作为输入，将草图重新设计为自然轮廓，类似于从照片图像中提取的更逼真的几何轮廓，同时删除对象细节（见图10）。（b）款。这种风格化任务是极其困难的，因为（a）收集大量的草图-照片对是不可行的，因此模型需要以无监督的方式进行训练（b）在扭曲的草图轮廓和真实的照片轮廓之间没有像素到像素的对应关系，使得依赖于直接像素对应关系的模型（如[14]）不适用。为了克服这些问题，我们引入了一个新的循环嵌入的一致性，在建议的无监督图像合成模型。它迫使草图和未配对的照片轮廓在一个共同的低维语义嵌入空间中共享一些支持接下来，我们在设计用于将草图与照片匹配的判别模型中完成反演重要的是，它利用合成的轮廓来Facc-tor出对象的细节，以更好地协助草图照片匹配。具体来说，给定一组训练草图，它们的合成几何逼真轮廓和相应的照片图像，我们开发了一个新的FG-SBIR模型，该模型分别提取与轮廓和细节部分相对应的分解特征表示，然后将它们融合以与照片匹配该模型是一个具有四个分支的深度连体神经网络草图及其合成轮廓分别有自己的分支应用去相关损失以确保两个分支的表示是互补的和不重叠的因子分解）。然后将这两个特征融合，并与从正和负光分支提取的特征进行三重匹配损失，以使它们具有区分性。（1）首次定义了分解反素描问题，并将其作为素描建模和素描-照片匹配的关键问题（2）提出了一种新的无监督的草图风格转换模型，用于将人体草图转换为几何真实感轮廓。（3）我们进一步开发了一个新的FG-SBIR模型，该模型提取对象细节表示来补充合成轮廓，以便与照片进行有效匹配4Kaiyue Pang等2相关工作草图建模：有几条研究路线旨在处理抽象草图，以便可以执行草图识别或SBIR研究得最多的是不变表示工程或学习。这些目的是手工设计对抽象草图与具体照片域[5，13，3]不变的特征，或者在草图-照片类别[23，37，12]和草图-照片对[43，35]的监督下学习域不变表示最近的作品试图利用人类素描过程的见解[2，45]认识到笔划排序的重要性，并且[45]引入有序笔划变形作为数据增强策略，以生成更多用于草图识别任务的训练草图据我们所知，最明确的草图模型是[30]中考虑的笔划去除工作它通过提出笔划移除策略的强化学习（RL）来抽象草图，该笔划移除策略估计哪些笔划可以被安全地移除而不影响可识别性。它评估的FG-SBIR和使用建议的RL为基础的框架以生成用于数据扩充的训练草图的抽象变体与[45]和[30]相比，两者都执行域内抽象（即，草图到抽象草图），我们的方法提出了一个根本性的转变其对逆草绘过程进行建模（即，草图到照片轮廓），因此直接求解草图-照片域间隙，而不需要数据增加。最后，我们注意到，没有以前的工作已经采取了我们的步骤建模草图分解成轮廓和细节部分。神经图像合成：神经图像合成的最新进展已经导致了许多实际应用，包括图像风格化[7，15，26，22]，单图像超分辨率[19]，视频帧预测[28]，图像操纵[47，18]和条件图像生成[29，40，33，31，46]。与我们的风格转移模型最相关的模型是深度图像到图像转换模型[14，48，24，16，41]，特别是无监督模型[48，24，16，41]。我们的目标是通过深度编码器-解码器架构将图像从一个域转换到另一为了处理包含扭曲的草图轮廓和细节的草图与从照片边缘提取的无失真轮廓之间的大的域间隙，我们的模型具有新颖的组件，即，代替[48，24，16，41]中部署的循环视觉一致性，我们强制循环嵌入约束，这是一个更软的版本，用于更好的合成质量。定性和定量的结果表明，我们的模型优于现有的模型。细粒度SBIR：在图像检索的背景下，草图提供了一种方便的方式来提供细粒度的视觉查询描述-一个草图代表了FG-SBIR首先在[20]中提出，它采用了基于可变形零件的模型（DPM）表示和图形匹配。深度模型[43，35，39]进一步解决了这个问题，深度模型的目的是学习一个嵌入空间，在这个嵌入空间中可以直接比较草图和照片-最近，从图像合成角度[32]以及明确的照片到矢量草图合成角度[38]解决了FG-SBIR后一项研究使用了CNN-RNN生成草图，并使用由此产生的合成草图作为数据深度因式分解逆草绘5G$，+G$E+G$，SG$ES∼------（一）嵌入式结构（b）第（1）款嵌入规范化S&'*C，'塞普茨*。*循环嵌入一致性塞普茨。C属性预测*图二、具有循环嵌入一致性的草图风格传递模型的示意图。（a）嵌入式空间建设。（b）通过循环嵌入一致性和属性预测任务嵌入正则化增强我们的FG-SBIR模型也是一个连体联合嵌入模型。然而，它的不同之处在于，它使用我们合成的无失真轮廓作为缩小草图和照片之间域差距的桥梁，以及分解草图细节部分的方法我们表明，我们的模型是优于所有现有的模型上最大的FG-SBIR数据集。3具有循环嵌入一致性的素描风格化问题定义：假设我们有一组手绘草图S由业余爱好者基于他们对对象实例的心理回忆[43]和使用现成的边缘检测模型[49]从照片中稀疏提取的一组照片对象轮廓C，分别具有经验分布sp数据（S）和cp数据（C）它们是主题对齐的，但在其他方面是不成对和不重叠的，这意味着它们可以包含不同的对象实例集这使得训练数据的收集更加容易。我们的目标是学习一个无监督的深度风格转换模型，它将草图的风格转换为具有更逼真几何形状的干净渲染的对象轮廓，并删除用户特定的细节（见图1）。（b）款。3.1模型配方我们的模型旨在将源域（原始人类草图）中的图像转移到目标域（照片轮廓）。它由两个编码器-解码器{E_S，G_S}和E_C，G_C组成，它们将图像从源（目标）域映射到目标（源）域，并产生其风格与目标（源）域中的风格不可区分的图像一旦学会了，我们就可以用ES，GC把S的风格转换成C的风格，即，无失真和几何逼真的轮廓。注意，在无监督（未配对）设置下，这样的映射是高度欠约束的这个问题需要在循环中添加更多的结构约束，以确保s和c位于一些共享的嵌入空间上，以便在之间进行有效的样式传输和实例身份保留 the two.为此，解码器GS（GC）被分解成两个子网络：共享嵌入空间构造子网GH，和非共享嵌入解码器GH，S（GH，C），即GS≡GH◦GH，S，GC≡GH◦GH，C（见图11）第2（a）段）。G$，+G$E+G$ESG$，S联系我们…6Kaiyue Pang等∗∗ ∗嵌入空间构造：我们类似于[25，24]构造我们的嵌入空间：GH将编码器的输出投影到共享嵌入空间中。因此，我们有hs=GH（ES（s）），hc=GH（EC（c））。然后，嵌入空间中的投影被解码器用作输入以执行重建：s=G H，S（hs），c=G H，C（hc）。嵌入正则化：如图所示（i）循环嵌入一致性：这利用了学习的风格转移应该是“嵌入一致性”的属性，即，给定转换的图像，我们可以到达具有其原始输入的共享嵌入空间中的相同点。该正则化被公式化为hs= G H（E S（s））→G H，C（G H（E S（s）→G H（E C（G H，C（G H（E S（s）≈hs，和hc=GH（EC（c））→GH，S（GH（EC（c）→GH（ES（GH，S（GH（EC（c）hc分别用于两个域这与现有的无监督图像到图像翻译模型[25，24，48]使用的循环视觉一致性不同，通过该模型，输入图像通过翻译回翻译的输入图像来重建与循环视觉一致性相比，所提出的循环嵌入一致性“更柔和”，因为重建是在嵌入空间中而不是在图像空间中的每像素级别执行的因此，它是更能够应付域的差异所造成的大像素级的错位，由于轮廓失真和丢失的细节内的轮廓（ii）属性预测：当同一对象实例由不同的草图绘制者绘制时，应对草图外观的大变化（见图11）。1（a）），我们将属性预测任务添加到嵌入子网，使得嵌入空间需要保留预测一组语义属性所需的所有信息对抗训练：最后，与大多数现有的深度图像合成模型一样，我们引入了一个判别网络来执行对抗训练[8]：判别器被训练为无法区分来自草图输入的生成轮廓和从对象照片中提取的照片轮廓3.2模型架构编码器：大多数现有的无监督图像到图像翻译模型设计了一个特定的编码器架构，并从头开始训练编码器。我们发现，由于缺乏训练数据和前面提到的大的外观变化，这对草图效果很差因此，我们采用在ImageNet上预训练的固定VGG编码器如图3，编码器在预训练的VGG-16网络的五个最大池化操作中的每一个之前由五个卷积层组成，即conv1 2，conv 2 2，conv 3 3，conv 4 3和conv 5 3。注意，采用预训练的编码器意味着现在我们有E S= E C。解码器：解码器的两个子网：GH和GH，S（GH，C）使用残差设计。具体来说，对于在每个空间分辨率下提取的卷积特征图，我们从11conv开始，用双线性插值将其上采样为2倍，然后添加相应编码器层的输出它还跟随有用于变换学习的3 - 3残差和3 - 3卷积，并针对下一分辨率调整适当的通道数注意深度因式分解逆草绘70/23=_=0/234_40/23>_40/235_4@S“0/23+_=VGG-16编码器E&=E）共享G$S**“G$，G$，）图3.第三章。我们专门设计的编码器-解码器的示意图编码器和解码器对应层之间的快捷连接也以残差形式建立如示于图3，共享嵌入构造子网GH由一个这样的块组成，而非共享嵌入解码器GH ，S（GH ，C）具有三个。有关编码器/解码器和鉴别器架构的更多详细信息，请参见第第5.1条3.3学习目标嵌入一致性损失：给定s（c）及其跨域合成图像GC（ES（s））（GS（EC（c），它们应该返回到嵌入空间中的相同位置我们通过在嵌入空间中最小化它们之间的欧几里得距离来实现这一点L embed= E s S，c C [||G H（E S（s））−G H（E C（G C（E S（s）||2+ ||G H（E C（c））−G H（E S（GS（E C（c）||2]。（一）自重构损失：给定s（c）及其重构结果GS（ES（s））（GC（EC（c），它们在视觉上应该是接近的。因此我们有L recons= E s S，c C [||s−G S（E S（s））||1个以上||c−G C（E C（c））||1]中。（二）自重构损失：给定s（c）及其重构结果GS（ES（s））（GC（EC（c），它们在视觉上应该是接近的。因此我们有L recons= E s S，c C [||s−G S（E S（s））||1个以上||c−G C（E C（c））||1]中。（三）+*+ bl/01+ 0/234* 4 bl/014* 4 0/234* 456789：;l高档8Kaiyue Pang等22属性预测损失：给定一个草图s及其语义属性向量a，我们希望它的嵌入GH（ES（s））可以用来预测属性a. 为了实现这一点，我们在嵌入空间h的顶部引入一个辅助的一层子网Dcls，并最小化分类错误：L cls= E s，a S[−log D cls（a|（ES（s））]。（四）域对抗性损失：给定s（c）及其跨域合成图像GC（ES（s））（GS（ EC（ c），合成图像应该使用对抗性学习的鉴别器（记为 DC（DS））与目标域图像C（s）为了稳定训练和提高合成图像的质量，我们采用了最小二乘生成对抗网络（LSGAN）[27]和梯度惩罚[9]。域对抗损失定义为：Ladvg =E s S [||D C（G C（E S（s）−1 ||2]+E c C [||D S（G S（E C（c）））−1 ||2]L advds= E s S [||D S（s）−1 ||2]+ E c C [||D S（G S（E C（c）||2][001 pdf1st-31files]（||s~DS（s~）||2-1）]LADVDC= E c C [||DC（c）− 1 ||2]+ E s S [||D C（G C（ES））||2]-λgpEc~[（||c~DC（c~）||2-1）]（五）其中，在真实图像和生成图像的对应域对之间，每个域都是一条直线。我们设置加权因子λgp= 10。完整的学习目标：我们的完整模型与标准条件GAN框架一样交替训练，并进行以下联合优化：argminλadvLadvds +λadvLadvdcDS、DCargminES，EC，GS，GC，DclsλembedLembed+λreconsLrecons+λadvLadvg+λclsLcls（六）其中λadv、λembed、λrecons、λcls是控制每个损失的相对重要性的超参数在这项工作中，我们设置λadv= 10，λembed = 100，λrecons = 100和λcls=1，以保持损耗大致相同的值范围。4FG-SBIR的判别因子分解第二节中的草图样式转换模型3.1通过将草图转换为几何真实轮廓来解决第一级逆草图具体来说，对于给定的草图s，我们可以将其无失真草图轮廓sc合成为GC（ES（s））。然而，该模型没有经过训练来合成轮廓内的草图细节-这更难，因为草图细节表现出更多的主观抽象在本节中，我们表明，对于学习判别FG-SBIR模型，这样的部分因式分解是足够的：我们可以取s和sc，并从sc中提取互补的细节特征，以完成反演过程。深度因式分解逆草绘9合成支路草图分支去相关损失照相支路照相支路三重损失草图分支i=12||−||FF⊕⊕θ基于去相关学习的三元组连体网络s'（s）sS$p#'（p#）p#p%'（p%）p%&'（s）&'（新加坡元）&'（p#）&（p%）(a)（b）第（1）款图4.第一章（a）现有的三分支暹罗网络[43，35]与（b）我们的具有去相关损失的四分支网络问题定义：对于给定的查询草图s和一组N个候选photos{pi}N∈P，FG-SBIR用于找到一个特定的函数实例作为查询草图。这可以通过使用CNNfθ学习联合草图-照片嵌入来解决[43，35]。在这个空间中，草图s和照片p之间的视觉相似性可以简单地测量为D（s，p）=fθ（s）fθ（p）2。通过去相关损失强制因子分解：在我们的方法中，通过我们之前定义的风格转移网络，已经在s c中提供了干净和准确的轮廓特征。现在，我们的目标是从S. 为此，我们引入fθ（s）和fθ（sc）之间的去相关损失L decorr= ||f θ（s）Tf θ（s c）||第二条第七款其中，fθ（s）和fθ（sc）通过用零-分别为均值和单位方差，以及||.|| 2是Frobenius范数的平方。这确保fθ（s）编码细节相关特征，以便满足互补轮廓编码fθ（sc）的去相关约束模型设计：现有的深度FG-SBIR模型[43，32]采用三分支连体网络架构，如图所示第4（a）段。给定锚点草图s和包含相同对象实例的正照片p+以及负照片p-，三个分支的输出受到三元组排名损失，以在由fθ学习的判别联合嵌入空间中对齐草图和照片。为了利用我们的轮廓和细节表示，我们使用四分支连体网络，分别输入s，sc，p+，p-（图11）。第四条（b）款）。从s和sc提取的特征然后在与从p+和p-提取的特征进行比较之前被融合。融合表示为fθ（s）fθ（sc），其中是逐元素加法3。然后将三重排序损失公式化为：Ltri= max（0，∆+D（fθ（s）fθ（sc），fθ（p+））−D（fθ（s）fθ（sc），fθ（p−））（八）其中，查询是表示查询到正距离和查询到负距离之间的裕度的超参数我们区分训练SBIR的最终目标是：mint∈TLtri+λdecorrLdecorr（9）3其他融合策略也曾尝试过，但发现效果较差。照相支路照相支路三重损失10Kaiyue Pang等××∗ ∗∗ ×我们设置∆= 0。1，在我们的实验中λdecorr= 1，因此两个损失具有相等的权重。5实验5.1实验设置数据集和预处理：我们使用公共QMUL-Shoe-V2 [44]数据集，这是迄今为止最大的单类别配对草图-照片数据集，用于训练和评估我们的草图风格转移模型和FG-SBIR模型。它包含6648张草图和2000张照片。我们遵循其标准的火车/测试分裂5982和1800草图照片对分别。每个鞋的照片都用37个基于部件的语义属性进行注释我们删除四个装饰相关的由于我们的风格转移模型是无监督的，并且不需要配对的训练样本，因此我们使用大型鞋子照片数据集UT-Zap 50 K数据集[42]作为目标照片域。这包括与QMUL-Shoe-V2数据集不相交的50，025张鞋照片对于训练的风格转移模型，我们的规模和中心的草图和照片轮廓到64 - 64的大小，而对于FG-SBIR模型，所有四个分支的输入的大小调整为256 - 256。照片轮廓提取：我们从照片p中获得轮廓c，如下所示：（i）使用[49]提取边缘概率图e，然后进行非最大抑制;（ii）通过保持边缘概率小于x的边缘像素来对e进行二值化，其中x是动态确定的，因此当e包含许多非零边缘像素检测时，x应该很小以消除噪声，e。G. ，texture.这是一个由mul在gx=esort（lsort×min（αe−β×r，0. 9）），其中，所述存储器是在所述存储器中检测到的存储器单元，所述存储器是存储器单元，并且所述存储器是所述检测到的存储器单元和所述存储器单元。Weet α= 0。08，β= 0。12在我们的实验中照片及其提取的轮廓的示例可以在图1的最后两列中看到五、执行详情：我们使用单个NVIDIA 1080Ti GPU在Tensor流中实现了这两种模型对于样式转换任务：如图3，我们把kkconv记为kk卷积-批规范-ReLU层步长为1和kk个残差作为包含两个k个残差的残差块K使用反射填充的conv块来减少伪影。使用双线性上采样执行放大操作我们不使用BatchNorm，并将最后一个输出层的ReLU激活替换为Tanh我们的鉴别器具有与[14]相同的架构，但由于引入了梯度惩罚，因此将BatchNorm替换为LayerNorm [1]每次发生器更新的鉴别器迭代次数设置为1。我们训练了50k次迭代，批量大小为64。对于FG-SBIR任务：我们微调ImageNet预训练的ResNet-50 [10]以获得fθ，并删除最终分类层与[43]相同，我们对fθ进行l2归一化以实现稳定的三重学习。我们训练了60k次迭代，三元组批量大小为16。对于这两个任务，使用Adam [17]优化器，其中我们设置β1= 0。5和β2= 0。9，初始学习率为0。0001分别。竞争对手：对于风格转移，比较了四个竞争者Pix2pix[14]是一个有监督的图像到图像转换模型。它假设视觉深度因式分解逆草绘11可以在具有L1平移损失和对抗训练的草图和轮廓对之间直接建立连接注意，我们只能使用QMUL-Shoe-V2训练分割来训练Pix 2 pix，而不是UT-Zap 50 K ，因为需要草图 - 照片对 UNIT [24] 是流行的无监督CycleGAN [48，16，41]的最新变体与我们的模型类似，它也有一个共享的嵌入构造子网。与我们的模型不同，没有属性预测正则化，并且执行视觉一致性而不是嵌入一致性UNIT-vgg：为了公平比较，我们将UNIT中的从头学习编码器替换为我们的固定VGG编码器，并在解码器中引入相同的自残差架构Ours-attr：这是我们模型的一个变体，没有用于嵌入正则化的属性预测任务对于FG-SBIR，竞争对手包括：Sketchy [35]是一个三分支异构三元组网络。为了公平比较，使用相同的ResNet50作为基础网络。Vanilla-triplet [43]与Sketchy的不同之处在于采用了连体建筑它是香草的，因为模型是在没有任何合成增强的情况下训练的。DA-triplet [38]是最先进的模型，它使用来自照片的合成草图作为数据增强的手段来预训练Vanilla-triplet网络，并使用真实的人类草图对其进行微调我们的decorr是我们模型的一个变体，通过丢弃去相关损失获得5.2风格转换的结果定性结果：5示出了使用各种模型的示例合成草图它清楚地表明，我们的方法能够通过有效地分解出对象轮廓内的任何细节并使用平滑笔划和更逼真的透视几何形状重新设计剩余轮廓部分来反转草图绘制过程相比之下，监督模型Pix2pix由于稀疏的训练数据和跨两个域的像素到像素对齐的假设而完全无监督UNIT模型能够去除细节，但难以模仿具有平滑和连续笔划的对象照片轮廓的风格使用固定的VGG-16作为编码器（UNIT-vgg）解决了这个问题，但引入了保留细节部分的新问题这些结果表明，在单位使用的视觉周期一致性约束是太强的嵌入子网的约束，使它几乎没有自由来执行细节去除和轮廓重塑任务。作为消融，我们比较ours-attr与ours-full，并观察到属性预测任务确实为嵌入子网提供了有用的正则化，以使合成轮廓更平滑，更不分散。我们的模式远非完美。图6显示了一些失败案例。大多数失败的案例是由于草图绘制者未能成功地用过于复杂的草图描绘出具有丰富纹理的物体这表明我们的模型主要集中在草图中包含的形状线索上，并被突然出现的大量纹理线索所迷惑定量结果：图像合成模型的定量评价仍然是一个悬而未决的问题。因此，大多数研究要么进行人类感知研究，要么探索试图预测人类感知的计算指标。12Kaiyue Pang等草图Pix2pix单元UNIT-vggOurs-attrOurs-full像片等高线照片图五、不同的竞争对手在轮廓水平上翻译草图抽象。这里所示的插图在训练期间从未被其对应的模型看到过草图我们的-满照片图六、当草图样式过于抽象或复杂时，我们模型的典型失败感知相似性判断[34，11]。我们进行两种定量评价。计算评估：在该评估中，我们寻求基于以下洞察力的度量：如果合成的草图是真实的并且没有失真，则它们对于检索包含相同对象的照片应该是有用的，尽管轮廓内的细节可能已经被移除。因此，我们在QMUL-Shoe-V2训练分割上重新训练[43]的FG-SBIR模型，并使用使用不同风格转移模型合成的草图来重新测试QMUL-Shoe-V2测试分割中的照片表1中的结果表明，我们的完整模型优于所有竞争对手。概率上的表现差距表明，尽管缺乏细节，我们的合成草图仍然捕捉到了实例区分的视觉线索。优于竞争对手的结果表明循环嵌入一致性和属性预测正则化的有用性人类感知研究：我们通过人类主观研究进一步评估我们的模型我们招募了N（N= 10）名工人，并要求他们中的每一个基于从QMUL-Shoe-V2测试分割中随机选择的50个草图执行相同的成对A/B测试具体地，每个工人进行两次试验，其中一次给出三个图像，即，草图和使用两个比较模型的草图的两个重新设计的版本然后要求工作者基于两个标准选择一个合成草图：（i）对应性（测量为r。）：哪个图像保持了原始草图的更多关键视觉特征，即，更深度因式分解逆草绘13i=1机会[43]第43话单位[24]UNIT-vgg我们的属性我们的-满acc@10.50%3.60%4.50%4.95%6.46%8.26%acc@52.50%百分之十点五一15.02%百分之十七点八七22.22%23.27%acc@105.00%百分之十七点八七26.28%29.88%31.38%35.14%表1. 比较检索结果使用合成草图获得使用不同的模型。（wc，wn）单位与我们的-满 UNIT-vgg与我们的-满我们的属性与我们的-满(0.90.1）88.0%72.0%62.0%(0.8，0.2）88.0%百分之七十64.0%(0.70.3）88.0%百分之七十64.0%(0.6，0.4）86.0%68.0%62.0%(0.50.5）84.0%百分之七十64.0%表2. 人类知觉研究的成对比较结果每个单元格列出了我们的完整模型优于其他方法的百分比机会是50%。简体中文[CN]香草三重[43]DA-三联体[38]我们的装饰我们的-满21.62%33.48%33.78%33.93%35.89%表3. QMUL-Shoe-V2的比较结果检索准确度为1级（acc@1）。实例级可识别;（ii）自然度（测量为rn）：哪个图像看起来更像从鞋子照片中提取的轮廓左右顺序和图像顺序是随机的，以确保无偏比较。我们将用于存储在存储单元中的2N个字符串中的每一个字符串表示为ci并且将c或r表示为urc=Nci和di=1自然度测度rn=Nni.然后我们将它们平均得到一个分数N基于加权：ravr=1（wcrc+wnrn）。直观地说，wc应该更大因为最终我们更关心合成的草图帮助FG-SBIR。在表2中，我们在每个单元格中列出了我们的完整模型优于其他竞争对手的试验百分比在不同的权重组合下，我们的设计的优越性是一致的（>50%），得出与我们的计算评估相同的结论特别是，与现有的最先进的UNIT相比，我们的完整模型在近90%的时间内都是人类的首选5.3关于FG-SBIR的结果定量：在表3中，我们将所提出的FG-SBIR模型（我们的-全）与三种最先进的替代方案（Sketchy、Vanilla-三重和DA-三重）和我们的模型的变体（我们的-decorr）进行了比较。结果表明：（1）与现有的三个模型相比，我们的全模型分别提高了14.27%，2.41%和2.11%acc@1。考虑到三个竞争对手在每个网络分支中具有完全相同的基础网络，并且与我们的模型具有相同的模型复杂性，这证明了14Kaiyue Pang等我们的FG-SBIR模型香草三重模型图7.第一次会议。我们突出了两个比较模型的前2个最具鉴别力的特征维度的支持区域。照片上的绿色和红色边框分别表示正确和不正确的检索。我们从轮廓细节分解的互补细节表示（ii）在没有去相关损失的情况下，Ours-decorr产生与两个基线类似的准确度，并且明显劣于Ours-full。这并不令人惊讶细节），则融合特征将由S分支支配，因为S包含更丰富的信息。因此，四分支模型退化为三分支模型。可视化：我们进行模型可视化，以证明fθ（s）和fθ（sc）确实捕捉了对FG-SBIR有用的不同和互补的特征，并给出了关于为什么这样的因子分解有帮助的一些见解为此，我们使用Grad-Cam [36]来突出显示使用我们的模型提取的图像中的区分特征具体地说，选择对检索贡献最大相似性的fθ（s）fθ（sc）的两个非零维度，并将其梯度沿着s和sc分支以及照片分支传播回来，以定位支持区域。图的上半部分图7清楚地示出了（i）顶部区别特征通常是轮廓和细节的混合，如照片图像上的突出显示区域所暗示的;以及(ii)相应的区域被精确地定位在S和SC中;重要的是，轮廓特征主要在SC中激活，而细节特征在S中激活。这证实了因子分解确实发生。相比之下，图1的下半部分图7示出了使用没有因式分解的香草三重模型，该模型似乎过于关注细节，忽略了轮廓部分也包含用于匹配对象实例的有用信息的事实这导致了失败的情况（红色框），并解释了vanilla-triplet的较差性能检索草图检索综合素描深度因式分解逆草绘156结论我们首次提出了一个框架，用于反转人类徒手素描中的图标渲染过程，以及轮廓细节分解。给定一个草图，我们的深度风格转移模型学习分解出对象轮廓内部的细节，并反转剩余的轮廓，以匹配从照片中提取的更逼真的几何轮廓。随后，我们开发了一个草图-照片联合嵌入，通过提取FG-SBIR的不同互补细节特征来完成反演过程。我们根据经验证明，由于新的循环嵌入一致性约束，与现有模型相比，我们的风格转移模型更有效我们还实现了国家的最先进的FG-SBIR的结果，利用我们的草图反演和因式分解。引用1. BA J.L.Kiros，J.R.Hinton，G.E.：层归一化。arXiv预印本arXiv：1607.06450（2016）2. 伯杰岛Shamir，A.，Mahler，M.Carter，E.，Hodgins，J.：肖像素描的风格和抽象03 The Dog（2013）3. Bui，T.，Collomosse，J.：基于颜色梯度特征的可扩展草图图像检索在：ICCV研讨会（2015）4. Eitz，M.，Hays，J.，Alexa，M.：人类如何绘制物体？02 The Dog（2012）5. Eitz，M.，Hildebrand，K.Boubekeur，T.，Alexa，M.：基于草图的图像检索：基准和特征袋描述符。02 The Dog（2011）6. 闪电侠THogan，N.：手臂运动的协调：实验证实的数学模型。神经科学杂志（1985）7. 洛杉矶的加蒂斯Ecker，A.S.Bethge，M.：使用卷积神经网络的图像风格转换见：CVPR（2016）8. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。在：NIPS（2014）9. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.C.：改进的瓦瑟斯坦甘斯训练。In：NIPS（2017）10. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习见：CVPR（2016）11. Heusel，M.，Ramsauer，H.Unterthiner，T.，内斯勒湾Hochreiter，S.：两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。In：NIPS（2017）12. 胡C.Li，D.，Song，Y.Z.，Xiang，T.，Hospedales，T.：Sketch-a-classier：基于草图的照片分类器生成。来源：CVPR（2018）13. 胡河Collomosse，J.：基于草图的图像检索的梯度场hog描述符的性能评估03 The Dog（2013）14. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译在：CVPR（2017）15. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失In：ECCV（2016）16. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现跨域关系与生成对抗网络。在：ICML（2017）17. Kingma ， D.Ba ， J. ： Adam ：随机最佳化的方法 arXiv 预印本 arXiv ：1412.6980（2014）16Kaiyue Pang等18. 科尔舒诺娃岛施伟，Dambre，J.，泰斯，L.：使用卷积神经网络的快速换脸In：ICCV（2017）19. Ledig，C.，这是L H usz'ar，F.， Caballero，J.， Cunningham，A.， ACO STA Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率在：CVPR（2017）20. 李，Y.，医院特姆Song，Y.Z.，龚，S.：通过匹配可变形零件模型的基于细粒度草图的图像检索电影BMVC（2014）21. 李，Y.，Song，Y.Z.，医院特姆龚，S.：基于可变形笔划模型的手绘草图合成IJCV（2017）22. Liao ，J.，Yao ，Y. ，（1996 - 1997），美国，Yuan ，L.Hua ，G.，Kang，S.B.：通过深层意象类比实现视觉属性转移电影SIGGRAPH（2017）23. 刘，L.，沈，F.，沈，Y.，Liu，X.，中国科学院院士，Shao，L.：深度草图散列：快速基于手绘草图的图像检索。在：CVPR（2017）24. Liu，M.Y.Breuel，T.，Kautz，J.：无监督图像到图像翻译网络。In：NIPS（2017）25. Liu，M.Y.Tuzel，O.：耦合生成对抗网络。在：NIPS（2016）2

下载后可阅读完整内容，剩余1页未读，立即下载