草图到图像转换中的小波域高频损耗

95 浏览量更新于2023-10-16 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

744WHFL：用于草图到图像转换的小波域高频损耗Min Woo Kim，Nam Ik Cho韩国首尔国立大学，INMC，ECE系{mwk0614，nicho} @ snu.ac.kr摘要即使是粗略的草图也可以有效地传达对象的描述，因为人类可以从草图中想象原始形状。草图到照片的转换是一项计算机视觉任务，它使机器能够进行这种成像，获取二进制草图图像并生成与草图对应的合理RGB图像因此，用于此任务的深度神经网络应该学会生成宽范围的频率，因为输入（二元草图图像）的大部分由DC信号组成在本文中，我们提出了一个新的损失函数命名为小波域高频损失（WHFL），以克服以往的方法，往往有一个偏向于低频率的限制。该方法通过设计一个新的权矩阵，在高频上赋予较大的权值，突出了与现有的手工方法，控制频率权重使用二进制掩码，我们使用的矩阵与精细控制的元素根据频率尺度。WHFL是以多尺度形式设计的，这使得损失函数根据分解级别更多除了在空间域中定义的常规损失之外，我们使用WHFL作为补充损失。实验表明，在空间域和频率域上，我们都能提高定性和定量的结果.此外，我们试图验证WHFL的高频生成能力，通过定义一个新的1. 介绍速写是直观描述对象的简洁而有力的手段尽管很简单，但它们包含了基本的信息，如姿势和组件的排列，一张画得好的草图比一种语言更能描述物体的形状。因此，当人们想要直观地解释他们的想法或想法时，他们经常使用草图。此外，随着智能手机和触摸板的广泛使用，绘制和分享草图变得更加容易。因此，与草图相关的各种计算机视觉任务已经已被研究，如草图识别[22，45，46，51]，基于草图的图像检索[2- 4，35，36，40，50]和草图到照片的翻译[7，9，23，25-27，41，43，47]。草图到照片转换是一项计算机视觉任务，它将二进制草图图像作为输入并生成RGB图像。计算机视觉任务中的草图图像根据草图与相应照片之间的边缘是否对齐，可以大致分为边缘图和由于彩色图像需要从没有颜色和纹理的二进制输入中生成，研究人员通常采用生成对抗网络（GAN）[11]框架来完成这项任务，其中卷积神经网络（CNN）通常被用作生成器[18，24，31，32]。然而，CNN倾向于以偏置的方式学习低频，这被称为频谱偏置[17，33，34]（参见补充文件的第D节以获得频谱偏置的示例）。这种偏差不仅是由网络结构引起的，而且也是由空间域中定义的损失函数引起的由于低频部分的数量级比一般图像中的高频部分大，因此损失函数倾向于关注并学习更多的低频部分[38]。由于草图在草图线周围以外的大多数区域中没有频率信息，因此生成低频和高频对于制作逼真的照片是必要的。然而，频谱偏差使得GAN很难产生宽范围的频率。因此，在生成的照片和实际的照片之间出现频率差，称为频率间隙，例如，空间域中的伪影可能在频域中表现为重复模式[1]。为了缓解频率差距，已经提出了关于网络架构和损失函数的各种方法。为了更好地在网络中传输高频信号，Magid等提出了一种新的传输方法.[28]提出了动态高通滤波层（HPF）模块和矩阵多光谱通道注意（MMCA）。通过动态HPF层，网络可以为输入特征预测自适应高通内核。通过MMCA，在特征被重新缩放之后，使用最大频率响应来重新缩放通道。745转换到频域。Xie等人[44]建议的频率感知动态网络（FADN）将输入图像分为低、中和高频率，然后将更大的模型容量分配给高频以提高性能和速度。然而，由于这些方法仍然使用在空间域中定义的损失函数，因此仍然存在频谱偏差问题。一些方法定义了频率域中的损耗，以使用离散傅里叶变换（DFT）来解决频率间隙[5，17]具体而言，Jianget al.[17]建议在各种任务中使用聚焦频率损失（FFL），包括草图到照片的翻译。该方法将每个谱点的频率值映射到欧氏空间，利用频率距离和权值矩阵计算最终损失。Cai等人[5]使用二进制掩码和每个频带处的测量损耗来解耦低频带和高频带，其中低频带和高频带之间的边界然而，这些方法也有一些局限性。如果在不像[17]那样细化频带的情况下计算损耗，则低频对损耗的影响可能比高频更大此外，[5]中采用的二进制掩码有一些改进的空间，因为掩码的边界是手工制作的此外，如果训练数据集的大小增加，则设置边界变得更具挑战性，因为需要分析所有样本。在本文中，我们设计了一个新的损失函数，以减轻频率差距的草图到照片的翻译。我们的方法是基于现有方法的观察，即低频带在空间域中很好地学习，但高频带需要显式的频域操作。对于频域处理，我们采用DFT和[17]中定义的频率距离。该距离乘以在高频上具有较大权重的新权重矩阵，其中权重矩阵是根据高频分量的幅度比低频带的幅度小一个数量级的事实来设计的。利用小波变换将损耗设计成多尺度形式，从而能够更精确地准确地说，输入图像被分解成多尺度的图像小波变换，并与我们的新的权重的FFL应用于每个尺度。本文的贡献可以概括如下。• 为了从给定的草图生成逼真的照片，我们提出了一个损失函数命名为WHFL在频域。该函数侧重于高频，其权重矩阵对高频带施加大权重，其中权重基于频率尺度自适应• 提出的损失适用于多尺度图像去噪，由小波变换组成，从而实现更精细和尺度相关的加权。• 我们得到的结果在空间和频率域的定量和定性的改进。此外，我们通过定义一个新的度量，无符号欧氏距离场误差（UEDFE）在第5.1节中建议，验证WHFL的性能。2. 相关作品2.1. 草图到照片翻译在使用深度学习之前，将草图直接转换为逼真的照片几乎是不可能的，但是有一些研究可以从大型数据库中检索给定草图查询的照片例如，Chenet al.[6]提出了一个框架，在该框架中，照片在互联网上搜索，给出相应的草图和文本标签。在[8]中，类似于[6]的框架使用特征袋（BoF）进行检索，而不是文本标签。虽然生成的（实际上检索到的）图像是真实的照片，但它们通常具有不同的形状和纹理。Chen等人的方法[7]，这是第一个采用GAN用于此任务，提出了一种由掩蔽残差单元（MRU）组成的编码器-解码器架构。ContextualGAN[27]将草图到照片的转换视为图像完成问题。在[10]中，用户可以使用额外的草图笔划交互地修改输出图像。也有人尝试用户可以通过从目标域给出参考图像来控制生成图像的风格，如[21，53]。然而，这些方法在空间域中操纵图像和损失，并且没有明确地考虑对象的高频细节。2.2. 条件图像生成GAN[11]是广泛使用的图像生成框架之一。GAN主要由两部分组成，一个发生器和一个整流器。它们通过对抗性损失来学习，以使生成的图像的分布更接近真实图像的分布提出了各种方法[12，19，29]来更好地训练GAN框架，并且已经提出了许多应用。除了将随机潜在向量作为输入之外，还可以将文本[14，42，52]，语义映射[31]和草图等条件信息馈送到网络以限制输出图像的范围。此外，Isolaet al. [16]提出了一种用数据集训练的网络，其中输入及其地面真值配对，用于将数据从一个域显式映射到另一个域。此外，CycleGAN[54]由两个成对学习的GAN架构组成。一个从源域转换到目标，另一个在相反的方向上操作。Huang等人. [15]提出了一种能够在多模态下工作的图像到图像翻译网络7462Σ Σ你好，你好，L，1100万美元中国，1你好，空间域频域...小波变换(a)（b）第（1）款图1.WHFL的概述：（a）表示通过小波的多尺度分解（第3.3），其中每个框（1，2）中的第二子项表示分解级别（图像尺度）。（b）示出了用于生成频率距离矩阵（FDM）和高频权重矩阵（HFWM）的过程3.2）计算我们的损失WHFL所需的，对于每个规模k（第3.2节）。第3.4段）。下标r和f分别表示真实图像和伪图像缩写LL对应于从小波变换获得的近似分量（图4）。在[20]中，注意力模块还用于引导网络关注源域的重要部分。然而，这些建议也没有明确考虑高频操纵。3. 方法空间域中的目标函数（例如，L1，L2损失）使网络学习低频分量优于高频分量[16，33]。因此，我们在频域中设计了一个损失函数，它是自适应的输入图像的频率幅度。3.1. 聚焦频率损失的Jiang等[17]提出了FFL，通过生成模型减少真实图像和生成图像之间为了计算损失，将真实图像（下标r）和伪图像（下标f）变换到频域，其表示为Fr（u，v）=ar（u，v）+jbr（u，v），（1）Ff（u，v）=af（u，v）+jbf（u，v），（2）其中（u，v）表示谱位置，Fr（u，v）是真实图像的DFT，并且a r和b r分别是Fr（u，v）的实部和虚部，其中当混淆不可能时省略位置（u，v）。此外，对于伪图像，类似地定义Ff（u，v）、af和bf来自上述等式的每个频率值为：（，）（（，）图2. 在欧几里得空间上表示的频率距离[17]。如果我们想惩罚距离，则需要在损失函数中考虑幅度和相位（θr，θf）。然后，欧几里得空间上的映射点之间的频率距离被定义为：d（→−pr，−p→f）=||→−pr−−p→f||2=|Fr（u，v）−Ff（u，v）|第二条、第四条其是频谱位置（u，v）处的频率距离矩阵（FDM）的元素。此外，还提出了一个权重矩阵，对网络难以学习的频谱位置的更多权重。在硬谱位置具有较大频率距离的假设下，矩阵的元素被定义为：αw（u，v）=|Fr（u，v）−Ff（u，v）|、（五）其中α控制权重的变化程度。因此，损失最终可以写成：H−1W−1映射到具有实值和虚值作为坐标的欧几里得空间上的点→−pi=（ai，bi），i=r，f.（三）FFL=1HWu=0w（u，v）|F r（u，v）− F fv=0（u，v）|二、（六）你好你好你好，你好，你好， L ，2L，12016年12月22日中国，2100万美元中国，1你好，L，1100万美元中国，1你好， L ，2L，12016年12月22日中国，2100万美元中国，1747其中H、W分别表示图像的高度、宽度3.2. 权重矩阵聚焦高频为了测量生成图像和实际图像的频率值之间的差异，我们采用等式4中的频率距离，其考虑幅度和相位两者。然而，可以看出，当定义等式5的矩阵时，该差异被天真地反映出来，而众所周知，频率值的动态范围非常大。具体而言，高频幅度通常比DC和低频幅度小一个数量级或更多。因此，如果在损失函数中同等对待每个频带中的差异，则较高频带中的差异不能很好地反映在总体损失中。因此，该差异应该按数量级加权，使得较高频带中的差异可以影响总损耗，这在如等式5中的常规FFL中没有考虑。在此基础上，我们提出了一种新的权重矩阵，并将其命名为高频权重矩阵（HFWM）。不同于以往的方法，设计一个手工制作的二进制掩模的基础上的频谱能量，我们提出的权重矩阵是根据频率的规模进行准确地说，我们将对数函数应用于频域差分。根据log函数的输出，我们将具有负值的域称为低尺度部分（即，高频带）和具有正值的另一部分作为高比例部分（即，低频带）。为了给较低尺度中的距离赋予较大的权重，对数的绝对值用于定义权重：w0（u，v）= |100- 100 - 100 - 100（|F r（u，v）− F f（u，v）|）|α，（7）其中权重控制因子α调整每个部分中的变化程度，类似于等式5。然后，将矩阵值除以最大值以进行归一化：wn（u，v）= w0（u，v）/max（w0（u，v））.（八）随后，我们可以使矩阵在高频带具有高值，如图3（b）所示，而传统方法对高频给出非常小的权重，如图3（a）所示。然而，该图也表明，上述定义仍然存在问题。尽管高频的权重矩阵元素被放大，但低频由于其固有的大尺度而仍然被赋予大权重，如图3（b）的第三个曲线图所示。为了防止这种情况，我们（一）(a)(b)图3. （a）示出了由[17]的等式5计算的权重矩阵。（b）显示了从我们的公式8中的方法导出的矩阵，以及（c）展示了应用公式9之后的最终矩阵。对于每一行，中间的图显示了权重矩阵的第二象限（左上角为（0，0），右下角为（π，π）），左侧的图显示了低频部分的放大视图。此外，右边的曲线图根据沿对角线方向的频率绘制了权重的幅度（0.5对应于π）。为了可视化，我们使用了一个射流色图，其中红色表示更高的值，蓝色表示相反的值。如（b）和（c）的红框所示，在低频处，（c）的权重变得小于（b）的权重。请注意，上述权重矩阵是在ShoeV2 [49]的训练数据集的多个样本上计算的。通过平均矩阵，我们可以investi-门的趋势，权重矩阵的重点。单个样品的重量矩阵见补充材料的G节。权重几乎保持以前的值（图3（c））。例如，我们提出的权重矩阵最终被定义为上述等式的一个步骤：将高比例部分的权重强制为零。结果，部件的权重变为零，但其他权重变为零。高比例尺截面为0w n（u，v）在别处。（九）.w（u，v）=748××××Σ小波变换LL LHHLHH如果级别为零，则符号与不应用小波变换另外，d指定最大级别.我们可以应用WHFL作为空间域中定义的损耗的补充损耗（例如，L1或L2损失）为：其中，λ指示调整平衡的超参数图4.演示小波变换，它将图像分解为近似（LL）和细节（LH，HL，HH）。3.3. 小波多尺度分解图像的频率聚焦损失为了在多尺度上细化频域损失，我们采用小波变换将输入分解为多尺度子带。具体地，代替等式6中的常规FFL，我们分割频率区域，并且针对不同频带中的每一个使用不同的FDM（等式4）和权重矩阵（等式9）为了将图像变换到小波域，执行2D离散小波变换（DWT），其将图像分割成四个子图像，如图1所示。一种包含水平和垂直方向的低频分量，称为近似（LL）。其他的，称为细节，具有高频率的水平（LH），垂直（HL）和对角分量（HH）（图4）。当小波分解重复进行时，k次，则最低频带被表示为LLk、LHk、HLk和HHk。如果图像的维数是H W3，则子信号在级别k处具有H/2kW/2k3维数。然后，对于每个 k 级近似 LLk ，我们获得如图 1 所示的 FDMk 和HFWMk，这将用于我们的损失。3.4. WHFL的最终公式基于以上小节中的解释和符号，k级频带的频率损耗被定义为：Hk−1Wk −1两个亏损之间的差距。4. 实验4.1. 设置实验分为两类，这取决于地面真实是否作为对应于输入草图的照片给出。如果输入和地面真值是配对的，我们将其称为配对情况，如果不是，则称为未配对情况。对于配对的情况，我们采用Pix2Pix[16]作为基线。我们选择CycleGAN[54]和MUNIT[15]作为未配对的情况。为了训练Pix2Pix，我们选择edges2shoes[48]，它提供了一组照片和草图，其边界与相关照片对齐。对于未配对的情况，我们使用ShoeV 2 [49]用于细粒度草图到图像检索（FG-SBIR）[2，39，50]。该数据集由照片和手绘草图组成，这些草图以多种方式描绘相应的我们将Haar小波设置为小波基，小波分解水平为1或2，并且在等式7中α=1（关于α的烧蚀研究，参见补充文件的C节）。4.2. 结果图5显示了空间域中的定性结果。如Pix2Pix的结果所示，在没有WHFL的情况下，鞋前部的纹理中存在伪影我们期望WHFL降低在边界中生成大伪影的风险。此外，使用WHFL，可以观察到在使用CycleGAN的情况下，最外面的边界（如鞋底）变得更加明显。在类似的情况下，我们可以在MUNIT中发现，草图的细节，如鞋带，通过我们的方法显得更清晰。L=1ΣHFWM（u，v），此外，我们用FrechetkHkWku=0Kv=0K（十）[13][14][15][16][17][18][19][1FID越低越好，因为这意味着其中Hk、Wk表示在每个小波分解水平k处的近似的高度和宽度。最后，我们的损失是所有分解级别的损失之和：DL WHFL=L k.（十一）k=0生成图像的统计数据更接近真实图像的统计数据。此外，由于图像的质量和多样性，较高的IS表示较好的结果我们检查WHFL是否改进了每个基线的指标表1列出了比较，这表明我们的方法在大多数情况下提供了更好的结果。更多的定量结果，包括损失比较和消融研究，749Pix2Pix循环GAN MUNIT草图房不含WHFLw/WHFL图5. 配对（Pix2Pix）和未配对（CycleGAN，MUNIT）情况的定性结果。第一行显示输入的草图，第二行显示相应的真实照片（地面实况）。第三行表示不使用WHFL时生成的照片，第四行显示额外使用损失时的结果。最后一行显示了第一列中用相应颜色标记的区域的放大图像。补充材料G节提供了更多的例子。表1.通过FID和IS计算的定量结果补充材料的B节提供了更多的信息。5. 分析在本节中，我们提出了一种新的评价度量，该度量适用于测量高频带中生成图像的差异。此外，我们通过使用数据集ShoeV2进行消融研究，研究了第3.2节和第3.3节中建议的每个组件的影响。5.1. 无符号欧氏距离场误差如前所述，Chenet al.的方法[7]是第一个采用GAN进行草图到照片生成的方法。他们建议使用无符号欧几里德距离场（UEDF）来计算输入的密集表示。自从SIM-(a)（b）第（1）款图6. （a）示出了其非零像素表示边缘的边缘图。(b)展示了从边缘图计算的UEDF。在UEDF中，距离边缘较远的像素具有较高的强度。本文将二维图像进行场聚类，并定义了一个无符号欧氏距离场误差（UEDFE）的评价指标。为了计算误差，我们将边缘图（图6（a））转换为UEDF（图6（b））。在该字段中，每个像素值指示到边缘图中的非零像素的最短距离。因此，UEDF的所有像素都包含关于边缘的信息。UEDF的像素其中I表示边缘图，IUEDF表示I，pi表示像素坐标，de是像素之间然后，我们将强度网络损失FID↓IS↑Pix2Pix不含WHFL63.5802.505±0.175带WHFL61.7442.622±0.202CycleGAN不含WHFL60.1382.787±0.354带WHFL56.3542.756±0.300MUNIT不含WHFL110.2522.797±0.278750Canny边缘检测器FFL中使用的HFWM权重二进制掩码拉普拉斯算子HFWMFFL中使用的权重二进制掩码拉普拉斯算子（一）图7. 通过将Canny边缘检测器、HFWM、FFL[17]中使用的权重矩阵、二进制掩码和Laplacian运算符应用于第一列中的样本得到更多的可视化可以在补充文件的G节中找到。表2. 针对（a）HFWM、（b）二进制掩模计算的UEDFE，以及(c)拉普拉斯算子通过设置Canny边缘检测器的结果作为参考.我们根据低阈值和高阈值进行了四种客观性设置的实验;（1）50，200（2）50，250（3）100，200（4）100，250。×10−4（一）（二）（三）（四）平均（一）4041394140.25（b）第（1）款101103103108103.75（c）第（1）款2931333732.50至[0，1]。最后，UEDFE可以表示为：UEDFE=1<$（I<$（p）−I<$（p））2，（14）（b）第（1）款图8.（a）可视化HFWM的第二象限，FFL[17]中使用的权重掩码，二进制掩码和拉普拉斯算子（左上角为（0，0），右下角为（π，π））。(b)沿对角线方向绘制元素的平均幅度。请注意，（b）中的所有图都归一化为[0，1]。为了定量地比较HFWM、二进制掩模和拉普拉斯算子用于边缘提取的性能，我们基于参考（即，在场中距离方面与Canny边缘检测器的差异）。表2显示|P| p∈PUEDFUEDFHFWM与参考之间的平均误差小于二进制掩模的平均误差。错误来自其中IUEDF和IUEDF分别表示从边缘图和参考转换的UEDF s。除此之外，P指定组成UEDF的一组像素。UEDFE越低越好，因为这意味着两个边缘贴图相似。5.2. 高频权重矩阵在本节中，我们使用边缘映射研究在3.2节中定义的HFWM的性质作为确定HFWM是否集中在高频的参考，我们选择Canny边缘检测器，这是用于提取频率的最基本方法（即，边缘）。此外，我们将我们的矩阵与FFL[17]中的权重矩阵，二进制掩码和拉普拉斯算子进行了比较。本实验中的二进制掩码通过阈值处理获得，具体地说，当其频谱位置与DC信号之间的欧几里得距离小于20时，频率被掩蔽，如图8（a）的第三幅图像中的蓝色区域所示。通过在这些方法中应用掩码或权重，我们获得了图7所示的结果。在FFL [17]的权重的情况下，我们可以看到包含低频的对象的轮廓，而不是边缘。另一方面，HFWM的结果中留下了边缘，类似于拉普拉斯算子。二值掩模也能提取边缘信息，但提取精度不如HFWM。751Laplacian算子具有最小值，并且比二进制掩码更接近HFWM算子。此外，这与图7中的观察结果一致。我们通过可视化矩阵（HFWM、FFL中的权重矩阵[17]、二进制掩码和拉普拉斯算子）（图8（a）），特别是通过沿对角线方向绘制元素的平均幅度（图8（b））来推断上述现象的原因。 FFL [17]中的矩阵从图像中留下轮廓，因为其权重非常偏向低频。由于不能根据每个频率分配不同的权重，二进制掩码不能像其他两个矩阵那样精确地提取边缘信息。此外，我们还从Canny边缘检测器和Laplacian算子的设计相似性（它们的核都是基于导数的）方面分析了Laplacian算子的UEDFE优越然而，HFWM具有动态和自适应特性，与操作员相反，可以动态地对频率施加权重。因此，HFWM对培训过程和绩效有积极的影响有关HFWM的性质和效果的更多详细信息，请参见补充文件的A节。综上所述，从以上实验中我们可以确认HFWM集中在高频部分，同时与二进制掩码和拉普拉斯算子相比具有动态和自适应特性的优势752·CycleGAN FFL房单尺度多尺度(a)(b)（c）第（1）款图10. 我们通过GOPRO数据集的图像去模糊任务[30]检查WHFL的适用性。(a)地面实况，（b）由HFWM掩蔽的地面实况，以及（c）由二进制掩码掩蔽的地面实况。（一）(b)图9. （a）示出了使用灰度级中的log（）的DFT的对数幅度。一些人工制品用红色椭圆标记。(b)绘制了沿对角线方向从（0，0）到（π，π）的DFT的平均对数幅度，右图是左图中黄色框的放大视图。此外，曲线图中的急剧弯曲的峰由对应于每种情况着色的箭头指示5.3. 多尺度分解方案的效果为了分析多尺度框架在构造损失函数中的影响，我们研究了生成图像的DFT的对数幅度。不使用小波变换的非多尺度方法称为单尺度方法。如图9（a）所示，重复伪影出现在CycleGAN基线结果中，其中重复的斑点与自然度的感知退化有关[1]。虽然当使用FFL[17]或单尺度方法时，斑点仍然存在，但在多尺度情况下，它们几乎消失。这种改进可以在沿着对角线方向用DFT的平均对数幅度绘制的图中观察到。如图9（b）所示，在实际情况下不会出现的急剧弯曲的峰在CycleGAN基线、FFL[17]和单尺度方法的情况下以高频率出现，但在多尺度方法中得到最大程度的缓解。6. 限制未来工作实验表明，WHFL能有效地减少边界线中大面积伪影的出现，并保持图像细节生成的照片中的草图输入，如第4.2节所述。然而，也有一些样本在纹理生成方面没有显著的改进。我们推测WHFL在平坦区域不会产生显著的纹理，因为人类视觉系统对低频区域的伪影很敏感。这些限制在补充文件的G节中显示。我们已经探索了WHFL也可以用于图像恢复任务的可能性我们试图找出WHFL是否专注于这些任务中的高频，我们选择去模糊问题[30]作为示例。我们使用网络输出和地面实况来估计HFWM。然后，我们将矩阵应用于地面实况以进行可视化，如图10所示。HFWM掩盖的结果与二元掩模的结果相当，特别是对于场景中的人区域。因此，我们可以确认，高频可以充分提取自然图像通过WHFL，我们将应用该功能的恢复任务作为未来的工作。7. 结论我们提出了一个新的损失函数命名WHFL，以提高从草图到图像的翻译网络的结果的质量该函数通过小波变换以多尺度的方式来表示，从而可以更精细地控制高频带的权重。通过将该函数应用于基于GAN的图像生成模型，我们可以克服网络学习偏向低频的趋势。此外，与使用基于频谱能量的手工制作的二进制掩码以不同方式对频带进行加权的先前方法不同，WHFL使用自适应和基于尺度的权重矩阵。因此，该函数可以动态地集中在高频，我们通过几个图像质量指标和一个新的指标UEDFE证实了它的性能。鸣谢。这项工作得到了部分支持技术创新计划（ATC+计划，20014131，用于半导体后端工艺的25nm X 射线检测系统）由贸易部、工业能源部（MOTIE，韩国）资助，部分由首尔国立大学未来ICT先驱教育和研究计划的BK21 FOUR计划资助。753引用[1] 白勇，郭元芳，魏金杰，陆林，王瑞，王运红。通过频率分析检测伪造的绘画。2020年IEEE图像处理国际会议（ICIP），第1256-1260页。IEEE，2020年。[2] Ayan Kumar Bhunia，Pinaki Nath Chowdhury，AneeshanSain，Yongxin Yang，Tao Xiang，and Yi-Zhe Song.更多照片是你所需要的：基于半监督学习的细粒度草图图像检索。在IEEE/CVF计算机视觉和模式识别会议论文集，第4247-4256页[3] Ayan Kumar Bhunia，Subhadeep Koley，Abdullah FaizUr Rahman Khilji ， Aneeshan Sain ， Pinaki NathChowdhury，Tao Xiang，and Yi-Zhe Song.画一幅没有烦恼的画：基于噪声容忍草图的图像检索。在IEEE/CVF计算机视觉和模式识别会议论文集，第999-1008页[4] Ayan Kumar Bhunia ， Aneeshan Sain ， Parth Shah ，Animesh Gupta，Pinaki Nath Chowdhury，Tao Xiang，and Yi-Zhe Song.基于草图的自适应细粒度图像检索。arXiv电子印刷品，第arXiv-2207页[5] 蔡牧，张红，黄慧娟，耿启川，李义轩，高煌.频域图像转换：更逼真，更好地保持身份。IEEE/CVF计算机视觉国际会议论文集，第13930-13940页，2021年[6] Tao Chen ， Ming-Ming Cheng ， Ping Tan ， ArielShamir，and Shi-Min Hu. Sketch2photo：互联网图像蒙太奇。ACM图形交易（TOG），28（5）：1[7] 陈文玲和詹姆斯·海斯。素描：从多样化的写实素描到图像合成. 在IEEE计算机视觉和模式识别会议论文集，第9416-9425页，2018年[8] Mathias Eitz ， Ronald Richter ， Kristian Hildebrand ，Tamy Boubekeur，and Marc Alexa.摄影素描师：交互式基于草图的图像合成。IEEE Computer Graphics andApplications，31（6）：56[9] Chengying Gao ， Qi Liu ， Qi Xu ， Limin Wang ，Jianzhuang Liu，and Changing Zou. Sketchycoco：从手绘场景草图生成图像。在IEEE/CVF计算机视觉和模式识别会议论文集，第5174-5183页[10] Arnab Ghosh 、 Richard Zhang 、 Puneet K Dokania 、Oliver Wang 、 Alexei A Efros 、 Philip HS Torr 和 EliShechtman。交互式草图填充：多类草图到图像转换。在IEEE/CVF计算机视觉国际会议集，第1171-1180页[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[12] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，30，2017。[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。Gans由a训练两个时间尺度更新规则收敛到局部Nash平衡。神经信息处理系统的进展，30，2017。[14] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。在IEEE计算机视觉和模式识别会议论文集，第7986- 7994页[15] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页[17] Liming Jiang，Bo Dai，Wayne Wu和Chen Change Loy。用于图像重建和合成的聚焦频率损失IEEE/CVF计算机视觉国际会议论文集，第13919-13929页，2021年[18] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[20] Junho Kim，Minjae Kim，Hyeonwoo Kang和KwangheeLee。U-gat-it：具有自适应层实例归一化的无监督生成注意力网络，用于图像到图像的翻译。arXiv预印本arXiv：1907.10830，2019。[21] Junsoo Lee ， Eungyeup Kim ， Yunsung Lee ， DongjunKim，Jaehyuk Chang，and Jaegul Choo.基于增强自参考和密集语义对应的草图图像着色。在IEEE/CVF计算机视觉和模式识别会议论文集，第5801-5810页[22] Hanhui Li ， Xudong Jiang ， Boliang Guan ， RuomeiWang，and Nadia Magnenat Thalmann.用于鲁棒草图识别的多级时空IEEE Transactions on Image Processing，31：2683[23] Luying Li，Junshu Tang，Zhiwen Shao，Xin Tan，andLizhuang Ma.基于语义一致性保持和相似连通成分细化的草图到照片人脸生成。视觉计算机，第1-18页[24] 刘秉辰，朱一哲，宋鲲鹏，艾哈迈德·埃尔-加马勒. 迈向更快和更稳定的高逼真度少拍图像合成训练在国际会议上学习代表，2020年。[25] 刘秉辰，朱一哲，宋鲲鹏，艾哈迈德·埃尔-加马勒.自我监督的草图到图像合成。在AAAI人工智能会议的Proceedings，第35卷，第2073-2081页[26] 刘润涛，于倩，于思婷。无监督素描到照片合成。欧洲计算机视觉会议，第36-52页。Springer，2020年。754[27] 卢永义，吴尚哲，戴玉荣，唐志强。基于草图约束的图像生成.在欧洲计算机视觉会议（ECCV）的会议记录中，第205-220页[28] Salma Abdel Magid，Yulun Zhang，Donglai Wei，Won-Dong Jang，Zudi Lin，Yun Fu，and Hanspeter Pfister.动态高通滤波和多光谱关注图像超分辨率。在IEEE/CVF国际计算机视觉会议集，第4288[29] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在IEEE国际计算机视觉会议论文集，第2794-2802页[30] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议论文集，第3883-3891页[31] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第2337-2346页[32] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。[33] Nasim Rahaman、Aristide Baratin、Devansh Arpit、FelixDraxler、Min Lin、Fred Hamprecht、Yoshua Bengio和Aaron Courville。关于神经网络的谱偏差。国际机器学习会议，第5301-5310页。PMLR，2019年。[34] 我是安东尼奥·H·里贝罗和托马斯·B·施霍恩。传统神经网络如何处理混叠。在ICASSP 2021- 2021 IEEE声学，语音和信号处理国际会议（ICASSP），第2755-2759页。IEEE，2021。[35] AneeshanSain ， AyanKumarBhunia ， VaishnavPotlapalli，Pinaki Nath Chowdhury，Tao Xiang，and Yi-Zhe Song. Sketch3t ：零杆 sbir 的测试时间训练。在IEEE/CVF计算机视觉和模式识别会议论文集，第7462-7471页，2022年[36] Aneeshan Sain，Ayan Kumar Bhunia，Yongxin Yang，Tao Xiang，and Yi-Zhe Song. Stylemeup：Towards style-agnostic sketch based image retrieval.在IEEE/CVF计算机视觉和模式识别会议论文集，第8504-8513页[37] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展，29，2016。[38] Katja Schwarz，Yiyi Liao，and Andreas Geiger.论生成模型的频率偏差神经信息处理系统的进展，34，2021。[39] Jifei Song ， Yi-Zhe Song ， Tao Xiang ， Timothy MHospedales，and Xiang Ruan.深度多任务属性驱动排名用于基于草图的细粒度图像检索。在BMVC，第1卷，第3页，2016中。[40] 田嘉琳，徐星，沈富民，杨阳，沈衡涛。TVT：通过多模态超球体学习的三向视觉Transformer，用于基于零拍摄草图的图像检

下载后可阅读完整内容，剩余1页未读，立即下载