改进无监督图像到图像翻译中的形状变化问题

72 浏览量更新于2023-10-13 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

改进无监督图像到图像翻译中的形状变形Aaron Gokaslan1、Vivek Ramanujan1、DanielRitchie1、Kwang In Kim2和James Tompkin11美国布朗大学2英国巴斯大学抽象。无监督的图像到图像转换技术能够在两个域之间映射局部纹理，但是当域需要较大的形状变化时，它们通常是不成功的。受语义分割的启发，我们引入了一个具有扩张卷积的鉴别器，该鉴别器能够使用来自整个图像的信息来训练更具上下文感知的生成器。这与多尺度感知损失相结合，该多尺度感知损失能够更好地表示对象的底层形状中的错误我们证明，这种设计更能够在具有挑战性的玩具数据集中表示形状变形，再加上在人类，玩偶和动漫脸之间以及猫和狗之间具有显着数据集变化的复杂映射。关键词：生成对抗网络·图像翻译1介绍无监督图像到图像翻译是在没有标签或配对的情况下学习图像域之间这可以通过使用生成对抗网络（GAN）的深度学习来实现，通过使用鉴别器网络来提供特定于实例的生成器训练，以及使用循环损失来克服缺乏监督配对。先前的作品，如DiscoGAN [19]和CycleGAN [43]，能够在图像域之间传输复杂的局部纹理外观，例如在绘画和照片之间转换。然而，这些方法通常难以处理具有相关外观和形状变化的对象;例如，当在猫和狗之间转换时。处理图像平移任务中的形状变形需要能够使用图像中的空间信息例如，我们不能期望通过简单地改变简单的局部性来实现形式转换。从我们的实验中，具有全连接鉴别器的网络，如DiscoGAN，能够在足够的网络容量下表示更大的形状变化，但训练速度要慢得多[17]，并且难以解决较小的细节。如CycleGAN中所使用的基于块的鉴别器在解析高频形式和在每个块上的真实性时工作良好[17]，但是对于每个块具有仅允许网络考虑空间本地内容的有限的“冗余块”2Gokaslan等人图1.一、我们的方法在猫和狗域之间转换纹理外观和复杂的头部和身体形状变化（左：输入;右：翻译）。这些网络减少了发电机接收的信息量。此外，用于在两个网络中保持循环损耗先验的函数在循环重构中保留高频信息，这通常对形状改变任务是我们提出了一个图像到图像的翻译系统，指定GANimorph，以解决现有技术中存在的缺点为了允许基于块的鉴别器使用更多的图像上下文，我们在我们的卷积架构中使用了扩张卷积[39]。这使我们能够将区分视为语义分割问题：鉴别器输出每个像素的real-vs.虚假的决定，每一个都是基于全球背景的。该每像素鉴别器输出促进从鉴别器到生成器的更细粒度的信息流。我们还使用多尺度结构相似性感知重建损失来帮助表示图像区域而不仅仅是像素上的错误。我们证明，我们的方法是一个具有挑战性的形状变形玩具数据集比以前的方法更成功。我们还演示了涉及外观和形状变化的示例翻译，将人脸映射到玩偶和动漫角色，并将猫映射到狗（图1）。我们的 GANimorph 系统的源代码和所有数据集都在线：https://github.com/brownvc/ganimorph/。2相关工作图像到图像转换。图像类比提供了图像到图像翻译的最早例子之一[14]。该方法依赖于非参数纹理合成，并且可以处理诸如季节性场景转换[20]、颜色和纹理变换以及绘画风格转换之类的变换。尽管有能力学习纹理传递的模型，该模型不会影响物体的形状。最近的研究已经扩展了该模型，以使用神经网络执行视觉属性转移[23，13]。然而，尽管有这些改进，深度图像类比无法实现形状变形。神经风格转移。这些技术显示了比图像类比更复杂的艺术风格的转移[10]。该算法通过匹配早期层特征的Gram矩阵统计量，将一幅图像的风格与另一幅图像改进无监督图像到图像翻译中的形状变形3输入基于贴片致密扩张表1. 把人翻译扩张卷积的判别器，tor优于补丁为基础的和密集的卷积和灰的图像翻译，需要更大的形状变化和小细节的保护方法。来自在一般监督图像识别上训练的神经网络的映射。除此之外，Dumilnetal。 [8]extedG a tysetal. ’[15]允许实时传输。尽管有这样的承诺，这些技术很难适应形状变形，经验结果表明，这些网络只捕获低层次的纹理信息[2]。参考图像可以影响画笔笔划、调色板和局部几何体，但较大的更改（如动画样式的组合外观和形状变换）不会传播。生成对抗网络。生成对抗网络（GANs）在图像编辑[22]，图像翻译[17]和图像合成[11]方面取得了可喜的成果。这些网络学习对抗性损失函数来区分真实样本和生成样本。Isola等人[17]用Pix2Pix证明了GAN能够学习复杂域之间的纹理映射。然而，这种技术需要大量的显式配对样本。一些这样的数据集是自然可用的，例如，注册地图和卫星照片，或图像着色任务。我们在补充材料中表明，我们的方法也能够解决这些有限的形状变化问题。无监督图像翻译GAN。Pix 2 Pix-like架构已经扩展到使用无监督对[19，43]。给定图像域X和Y，这些方法通过学习从X→Y→X和Y→X→Y的循环映射来工作。这创建了双射映射，其防止在无监督情况下的模式崩溃。我们建立在DiscoGAN [19]和CycleGAN [43]架构的基础上，这些架构本身扩展了耦合GAN以进行风格转移[25]。我们试图通过更有效的学习和扩展鉴别器上下文，通过扩张卷积，并通过使用考虑多尺度频率信息的循环损失函数，克服它们的形状变化限制（表1）。其他作品处理补充问题。Yi等人[38]专注于在图像翻译任务中改进CycleGAN的高频特征，例如纹理转移和分割。Shuang等[27]研究如何使CycleGAN适应更广泛的领域-所谓的实例级翻译。Liu等人[24]使用两个自动编码器通过共享潜在空间创建循环损失，其中4Gokaslan等人额外的限制。在两个生成器之间共享若干层，并且身份丢失确保两个域解析为相同的潜在向量。这会在面中产生一些形状变换;然而，该网络并没有改进VoIP体系结构以提供更强的上下文感知。一种性质上不同的方法是将对象级分割映射引入到该文本集。 Liangetal. ’然而，这种额外的输入往往是无法使用且申报耗时。3我们的方法形状变形下的平移成功的关键是能够保持全局形状以及局部纹理的一致性。我们的算法采用循环图像平移框架[19，43]，并通过结合新的扩张鉴别器，具有残差块和跳过连接的生成器以及多尺度感知循环损失来实现所需的3.1扩张鉴别器初始方法使用具有全连接层的全局鉴别器[19]。这种鉴别器将图像折叠成单个标量值以用于确定图像准确性。后来的方法[43，22]使用基于块的DCGAN [32]判别器，最初是为风格转移和纹理合成[21]开发的。在这种类型的鉴别器中，评估每个图像块以确定假或真分数。基于补丁的方法允许快速发电机收敛，通过独立地操作每个局部补丁这种方法已被证明是有效的纹理转移，分割，和类似的任务。然而，这种基于补丁的视图限制了全局对象的形式，这限制了通用对象的能力来操作具有变化的全局对象的形式。将歧视重新定义为语义分割。为了解决这个问题，我们将辨别问题从确定真实/虚假图像或子图像重新构建为找到图像的真实或虚假区域的更一般的问题，即，语义分割任务。由于鉴别器输出更高分辨率的分割图，因此发生器和鉴别器之间的信息流增加。这允许比使用完全连接的鉴别器（诸如在DiscoGAN中）更快的收敛。用于分割的当前最先进的网络使用扩张卷积，并且已经被证明需要比传统卷积网络少得多的参数来实现类似的准确度水平[39]。扩张卷积提供优于全局和基于补丁的鉴别器架构两者的优点对于相同的参数预算，它们允许预测包含来自更大周围区域的数据。这增加了生成器和鉴别器之间的信息流：通过知道图像的哪些区域有助于改进无监督图像到图像翻译中的形状变形54x4N4x42N4x4第1103章三乘三（三）4x48N8N4N第1103章三乘三（三）4x44x4第1103章三乘三（三）第1103章三乘三（三）4x4N N第1103章三乘三（三）4N4x43跳过连接残差块卷积转置卷积扩张卷积N滤器数量（N=64）DiscoGAN发电机CycleGAN发电机我们的发电机我们的发电机图二、（左）来自不同无监督图像翻译模型的生成器跳过连接和残差块经由级联而不是加法来组合。（右）我们的鉴别器网络架构是一个完全卷积的分割网络。每个彩色块代表一个卷积层;块标签指示过滤器大小。除了来自扩展的全局上下文之外，跳过连接绕过了已分配的上下文，从而提供了工作流的上下文视图。使得图像不真实，生成器可以聚焦在图像的该区域考虑扩张卷积的另一种方法是，它们允许鉴别器隐式地学习上下文。虽然多尺度鉴别器已被证明可以改善高分辨率图像合成任务的结果和稳定性[35]，但我们将证明，将图像中较远的信息例如，这种增加的空间背景有助于相对于狗的身体定位狗的脸，这很难从小块或孤立于邻居的块中学习图2（右）展示了我们的鉴别器架构。3.2发生器我们的生成器架构建立在DiscoGAN和CycleGAN的基础Disco-GAN使用标准编码器-解码器架构（图2，左上）。然而，其狭窄的瓶颈层可能导致输出图像不能保留输入图像的所有重要视觉细节。而且因为由于网络容量低，该方法仍然限于大小为 64×64的低分辨率图像。CycleGAN架构试图通过使用残差块来学习图像平移函数[12]来增加DiscoGAN的容量残差块已被证明在极深的网络中工作，并且它们能够表示低频信息[40，2]。然而，在单个尺度下使用残差块限制了可以通过瓶颈的信息我们的生成器包括在解码器和解码器的多个层的残差块。4x44x44x42N4N8N1x113x38N3x3 d=88N3x3 d=48N8N8N3x33x3 d=24x4N4x44x43 N4x43四轮驱动四轮驱动四轮驱动2N N四轮驱动四轮驱动4N4x4 4x42N 4N8N4N3x3（9）4x44N 2N6Gokaslan等人编码器，允许网络学习适用于更高和更低空间分辨率特征的多尺度变换（图2，左下）。3.3目标函数感知循环损失。根据之前的无监督图像到图像翻译工作[19，22，24，43，38]，我们使用循环损失来学习两个图像域之间的双射映射。然而，并非所有的图像平移函数都可以是完全双射的，例如，当一个域具有较小的外观变化时，如人脸照片与动画当输入图像中的所有信息不能在翻译中保留时，循环损失项应该旨在保留最重要的由于网络应该关注对人类观看者重要的图像属性，因此我们应该选择强调生成图像和目标图像之间的形状和外观相似性的感知损失定义明确的形状损失是困难的，因为任何明确的术语都需要域之间的已知图像对应关系。对于我们的示例和无监督设置，这些不存在。此外，将更复杂的感知神经网络包括到损失计算中会带来显著的计算和存储器开销。虽然使用预训练的图像分类网络作为感知损失可以加速风格转移[18]，但这些对形状变化不起作用，因为预训练的网络往往只捕捉低级纹理信息[2]。相反，我们使用多尺度结构相似性损失（MS-SSIM）[36]。这种损失更好地保留了人类可见的特征，而不是嘈杂的高频信息。MS-SSIM还可以更好地处理形状变化，因为它可以通过面积统计来识别几何差异然而，单独的MS-SSIM最近的工作表明，将MS-SSIM与L1或L2损失混合对于超分辨率和分割任务是有效的[41]。因此，我们还添加了一个轻加权的L1损失项，这有助于提高生成图像的清晰度。特征匹配损失。为了提高模型的稳定性，我们的目标函数使用了特征匹配损失[33]：LFM（G，D）=1nΣ−1Exfi（x）−Ezpfi（G（z））2。（一）n−1 i=1数据z2其中fi∈D（x）表示鉴别器D的第i层的原始激活电位，并且n是鉴别器层的数目这个术语鼓励假样本和真实样本在鉴别器中产生类似的激活，因此鼓励生成器创建看起来更类似于目标域的图像。我们已经发现这个损失项可以防止发生器模式崩溃，GAN通常容易受到影响[19，33，35]。计划损失标准化（SLN）。在多部分损失函数中，通常使用线性权重来相对于彼此归一化项，其中先前的权重是最小的。改进无监督图像到图像翻译中的形状变形7t=1通常优化单个权重集。然而，在没有真实数据的情况下，找到适当平衡的权重是很困难的.此外，通常单个权重集合是不合适的，因为损失项的大小在训练过程中会相反，我们创建一个程序来定期重新规范每个损失项，从而控制它们的相对值。这使得用户可以直观地提供总和为1的权重，以平衡模型中的损失项，而不知道它们的幅度将如何随着训练而变化。设L是损失函数，Xn={xt}bn是n个批次的序列的训练输入，每个b图像大，使得L（xt）是训练损失，迭代测试我们计算损失的指数加权移动平均值ΣLmoavg（L，Xn）=（1−β）xt∈Xnβbn−tL（xt）2（2）其中β是衰减率。我们可以通过将损失函数除以这个移动平均线来重新归一化然而，如果我们在每次训练迭代中都这样做，损失将停留在其归一化平均值，并且没有训练进展。相反，我们计划损失标准化：.SLN（L，Xn，s）=L（Xn）/（Lmoavg（L，Xn）+）如果n（mods）= 1L（Xn），否则这里，s是调度参数，使得我们每s次训练迭代应用归一化对于所有实验，我们使用β = 0。99， = 10−10，s= 200。CycleGAN/DiscoGAN和我们的方法之间的另一个归一化差异是分别使用实例归一化[15]和批量归一化[16]。我们发现批量归一化会导致对训练数据，所以我们使用实例归一化。最终目标。我们的最终目标包括三个损失归一化项：标准GAN损失，特征匹配损失和两个循环重建损失。给定图像域X和Y，设G：X→Y从X映射到Y，F：Y→X从Y映射到X。DX和DY分别表示G和F对于GAN损失，我们结合了Goodfellow等人的正常GAN损失项[十一]：LGAN=LGANX（F，DX，Y，X）+LGANY（G，DY，X，Y）（3）对于特征匹配损失，我们对每个域使用等式1LFM=LFMX（G，DX）+LFMY（F，DY）⑷对于两个循环重建损失，我们考虑结构相似性[36]和 L1损失。设X’=F（G（X））和Y’=G（F（Y））是循环重构的输入图像。然后又道：LSS=（1− MS-SSIM（X′，X））+（1− MS-SSIM（Y′，Y））（5）LL1=<$X′−X<$1+<$Y′−Y<$1（6）8Gokaslan等人其中，我们在没有不相关的情况下计算MS-SSIM我们的总目标函数与预定损失标准化（SLN）是：Ltotal=λGAN SLN（LGAN）+λFMSLN（LFM）+λCYCSLN（λSSLSS+λL1LL1）（7）其中λGAN+λFM+λCYC=1，λSS+λL1=1，并且所有系数≥0。我们设置λGAN= 0。49，λFM= 0。21，且λCYC= 0。3，且λSS= 0。7且λL1= 0。3.从经验上讲，这些有助于减少模式崩溃，并在所有数据集上工作有关所有培训的详细信息，请参阅我们的补充材料。4实验4.1玩具问题：学习2D点和多边形变形我们创建了一个具有挑战性的玩具问题来评估我们的网络设计学习形状和纹理一致变形的能力。我们定义两个域：正多边形域X和它的变形等价物Y（图3）。每个示例Xs，h，d∈ X包含中心正多边形，其中s ∈{3}。. . 7}边，加上覆盖的点的变形矩阵。点矩阵的计算方法是取一个单位点网格，并通过h（高斯随机法向2×2矩阵）和位移向量d（R2中的高斯法向向量）对其进行变换。Y中的对应域等价物是Ys，h，d，而多边形由h变换并且点阵保持规则。这个构造形成了从X到Y的双射，因此平移问题是适定的。学习从X到Y的映射需要网络使用点阵中存在的大规模线索来成功地使多边形变形，因为具有固定图像位置的局部块不能克服添加的位移d。表2显示，DiscoGAN无法学习在两个域之间进行映射CycleGAN只能学习局部变形，当从规则空间映射到变形空间时，它会产生朝向多边形蓝色的色调偏移，并且在大多数情况下，当从变形空间映射到规则空间时，它会产生未变形的点阵。相比之下，我们的方法在学习变形方面明显更成功，因为膨胀的图像能够包含来自整个图像的信息。图三. 玩具数据集（128× 128）。左：X实例;一个正多边形与变形的点阵覆盖。右：Y实例;变形的多边形和点阵.点阵提供从图像到真实变形的信息。改进无监督图像到图像翻译中的形状变形9表2.玩具数据集。当估计复杂变形时，DiscoGAN会塌陷到平均数据集值（接近白色）。CycleGAN近似多边形的变形我们的方法学习两者。InputCycleGANDiscoGAN Ours InputCycleGANDiscoGAN Ours定量比较。由于我们的输出是高度变形的图像，我们通过采样来估计学习的变换参数。我们计算地面实况多边形上的500个点样本与平移后生成的多边形的图像之间的Hausdorff距离：对于点X和Y的有限集合，d（X，Y）=max y∈Ymin x∈Xx−y。我们手动注释220我们的网络的生成的多边形边界，沿着边界随机均匀地采样。样本存在于单位正方形中，左下角为（0，0）。首先，DiscoGAN根本无法生成多边形，尽管能够重新生成原始图像。因此，对于给定的形式，循环G不能产生多边形，而我们的方法产生0的平均Hausdorff距离。20±0。01. 第二，为了形成规则，循环G产生距离为0的多边形。21± 0。04，而我们的方法的距离为0。10± 0。03.在真实的数据集中，注意规则多边形是居中的，但CycleGAN只在原始扭曲多边形的位置构造多边形。我们的网络根据需要在图像的中心构造一个正多边形。4.2真实世界的数据集我们在几个图像数据集上评估 GANimorph 。对于人脸，我们使用CelebFaces Attribute数据集的对齐版本[26]，其中包含202，599张图像。动漫脸以前的作品已经指出，动画图像是具有挑战性的风格转移方法，因为转换之间的真实感和动画的脸涉及形状和外观的变化。我们从Danbooru众包创建了一个大型的966，777图像动漫数据集[1]。Danbooru数据集拥有从超变形的赤壁式的脸，到现实比例的脸，再到粗糙的素描，各种各样的风格。由于传统的人脸检测器在绘制的数据集上的结果很差，我们在两个数据集上运行了Animeface过滤器[29]变形为常规常规到变形10Gokaslan等人表3.GANimorph能够转换形状和样式更改，同时保留头发颜色，姿势，眼镜，头饰和背景等输入属性。输入CycleGANDiscoGAN我们的输入CycleGANDiscoGAN我们的输入CycleGANDiscoGAN我们的输入CycleGANDiscoGAN我们的当将人类转换为动漫时，我们看到我们的头部姿势和配件（如眼镜）的方法有所改进（表3，第3行，右），加上更大程度的形状变形，如降低面部垂直高度。每组的最后一行代表了一个特别具有挑战性的例子。娃娃脸将人脸转换为玩偶提供了一个信息丰富的测试案例：这两个域具有相似的照片级真实感外观，因此转换任务更多地关注形状而不是纹理。类似于Morsita et al.[28]，我们从Flickr100m数据集中提取了13，336张图像[30]，使用特定的娃娃制造商作为关键字。然后，我们使用OpenCV [4]提取局部二进制模式[31]，并使用Animeface过滤器进行面部对齐[29]。下表3显示，我们的架构比CycleGAN和DiscoGAN更好地处理局部变形和全局形状变化，同时保持局部纹理相似性。或者形状是畸形的（DiscoGAN），或者形状动漫到摄影娃娃脸对人真人变娃娃脸Photoreal动画改进无监督图像到图像翻译中的形状变形11表4. 野生宠物：在狗和猫之间，我们的方法能够生成跨姿势和外观变化的形状变换。Input CycleGAN DiscoGAN Ours Input CycleGAN DiscoGAN Ours显示来自原始图像的伪影或不自然的皮肤纹理（CycleGAN）。我们的方法匹配CelebA数据集的肤色，同时捕获娃娃的整体面部结构和头发颜色。对于右下角更困难的玩偶到人类的例子，虽然我们的转换不现实，但我们的方法仍然比现有的网络产生更多的形状变化。宠物在野外为了在未对齐的数据上展示我们的网络，我们在Kaggle猫和狗数据集上进行了评估[9]。它包含了每个物种的12，500张图像，涵盖了许多动物品种，具有不同的尺度、光照条件、姿势、背景和遮挡因素。当在猫和狗之间转换时（表4），网络能够改变局部特征，例如添加和删除毛发和胡须，以及欺骗鉴别器所需的更大形状变形，例如长出鼻子。这个领域中的大多数错误来自于生成器未能从背景中识别出动物，例如忘记了动物的后部或尾巴。有时，发生器可能根本无法识别动物我们还翻译人类和猫之间的语言。表5展示了我们的架构如何处理这两个变量数据分布的大规模转换。我们的失败案例与猫到狗的翻译大致相同，并取得了一些令人鼓舞的结果。总的来说，我们翻译了一个令人惊讶的程度的形状变形，即使我们可能不期望这是可能的。狗→猫猫→狗12Gokaslan等人表5. 人类和宠物的面孔（数据集详情见补充资料）：作为一个挑战，我们将人类映射到猫，猫映射到人类。Pose被可靠地翻译;有时会翻译头发颜色等语义外观;一些输入仍然失败（左下角）。输入输出输入输出输入输出4.3定量研究为了确保GANiMorph的转换能力，我们将其设置为用于检测类改变的基于索引的度量，例如，一只猫是否被成功地翻译成了一只狗。由于对于任何真实世界的数据集，在此任务中没有每像素的基础事实使用Inception Score [33]是没有信息的，因为简单地输出原始图像会得到很高的分数。此外，与对抗性示例类似，CycleGAN能够说服许多分类网络，即使对人类来说图像似乎未翻译，图像也被翻译了：来自补充表3的所有CycleGAN结果都说服了ResNet50 [12]和Zheng等人的传统分割网络。[42]即使图像翻译不成功。然而，使用扩张卷积的语义分割网络可以将C语言的广告从诸如DeepLabV3 [ 5 ]之类的自定义规则分割网络中区分出来因此，我们通过DeepLabV3网络运行每个测试图像以生成分割掩码。然后，我们计算每个类别的非背景标记像素的百分比，并在测试集上取平均值（表6）。我们的方法能够在分类网络的眼睛中更充分地翻译图像，图像也看起来像是翻译给人类（表7）。4.4消融研究我们将这些定量设置用于消融研究（表6）。首先，我们移除MS-SSIM以仅留下L1（L1，SS，等式（1））。7），这导致我们的网络改进无监督图像到图像翻译中的形状变形13输入DiscoGAN表6. 通过CycleGAN，DiscoGAN和我们的算法（具有设计选择）在翻译图像中分类的像素百分比。目标类为蓝色。类别（%）猫→狗狗→猫网络猫狗人其他猫狗人其他初始域100.000.000.000.000.0098.491.510.00CycleGAN99.990.010.000.002.6797.270.060.00DiscoGAN24.37 75.380.250.0096.950.002.710.34我们的w/L1100.000.000.000.000.000.000.00 100.00我们的w/o功能匹配丢失5.03 93.640.810.5385.6214.150.000.23我们的W/完全连接。辨别6.11 93.600.290.0091.418.450.030.10Ours w/patch discrim.46.02 42.900.05 11.0391.778.220.000.01我们的（扩张的区分）1.0098.570.410.02100.00 0.000.00零点CycleGAN我们表7. 来自DeepLabV3的用于表6的Cat→Dog的示例分割掩码。红色表示猫类，蓝色表示预期的狗类。模式崩溃接下来，我们删除了特征匹配丢失，但这降低了我们的分割一致性和网络的稳定性。然后，我们用一个补丁替换了我们的扩张型乳房。然而，补丁鉴别器不能使用全局上下文，因此网络混淆了面部布局。最后，我们用一个完全连接的鉴别器替换我们的扩张鉴别器。我们看到我们的生成器架构和损失函数使我们的网络即使在相同类型的网络（完全连接）下也能胜过DiscoGAN。定性消融研究结果如表8所示。基于补丁的纹理转换很好，但无法创建全局一致的图像。通过使用完全连接的搜索引擎或删除特征匹配来减少信息流，可以获得更好的结果。最大化信息流最终会带来最佳结果（最后一列）。使用L1而不是感知循环损耗项导致模式崩溃。5讨论在循环损失的相对权重中存在权衡。较高的循环损失项权重λcyc将防止显著的形状变化并且削弱发电机适应于该特定的形状变化的能力。将其设置为低将导致网络的崩溃并防止域之间存在任何有意义的映射。例如，如果重建损失太低，则网络可以容易地使另一域中的对象产生幻觉。同样，将其设置得太高将阻止网络正确地变形形状因此，一个14Gokaslan等人表8. 在定性比较中，GANimorph优于所有消融版本。例如，我们的方法更好地解决了精细细节（例如，第二行，猫眼）同时还更好地平移整体形状（例如，最后一排，猫鼻子和耳朵）。输入无FM损耗L1损耗贴片Discr.FC Discr.我们允许在测试时修改该项的权重的架构将证明对于允许用户控制允许多少变形是有价值的。我们发现的一个反直觉的结果是，在变化很少的领域中，映射可能会失去语义意义（参见补充材料）。一个失败的映射的例子是从celebA到bitmoji的面孔[34，37]。许多属性丢失，包括姿势，并且映射回落到面部的伪隐写图形编码[7]。例如，背景信息将被编码在发型的颜色梯度中，并且类似地使用眼睛宽度的微小变化。因此，循环损耗限制了网络提取相关细节的能力。方法，如依赖于映射每个数据集内的方差，类似于Benaim等人。[3]，可以证明是确保保持任一域中的方差的有效手段。我们发现，该术语过度约束了目标域中的形状变化量;然而，这可能值得进一步调查。最后，尝试同时学习每个域也可以证明是提高图像翻译准确性的有效方法这样做允许（一个或多个）判别器和生成器学习如何更好地确定和变换任一网络的感兴趣区域更好的结果可以通过使用参数高效网络（例如，StarGAN [6]）。存储库：GANimorph系统的源代码和所有数据集均可在线获取：https://github.com/brownvc/ganimorph/。鸣谢：Kwang In Kim感谢RCUK EP/M023281/1。改进无监督图像到图像翻译中的形状变形15引用1. 匿名者，Branwen，G.，Gokaslan，A.：2017年丹博会：一个大规模的众包和标记的动漫插图数据集（2017年4月），https：//www. 格温网/Danbooru 20172. 鲍德Zhou，B.，（1991年），中国地质大学，Khosla，A.Oliva，A.，Torralba，A.：网络解剖：深层视觉表征的量化解释性。计算机视觉与模式识别（2017）3. Benaim，S.，沃尔夫湖：单侧无监督域映射。在：神经信息处理系统的进展（2017）4. B radski，G. ：操作CVLibrry。博士02 The Dog（2000）-8.3分5. Chen，L.C.，帕潘德里欧，G.，Schroff，F.，Adam，H.：再思考无卷积在语义图像分割中的应用。arXiv预印本arXiv：1706.05587（2017）6. 崔，Y.，Choi，M.，Kim，M.，J.W. Kim，S.，Choo，J.：StarGAN：用于多域图像到图像翻译的统一生成对抗网络。计算机视觉与模式识别（2018）7. Chu，C.，Zhmoginov，A.，Sandler，M.：CycleGAN：隐写术大师arXiv预印本arXiv：1712.02950（2017）8. Dumoulin，V.，Shlens，J.，Kudlur，M.：对艺术风格的博学的表现。学习表征国际会议（2017）9. Elson，J.，Douceur，J.，Howell，J.，Saul，J.：Asirra：一个验证码，利用兴趣对齐的手动图像分类 . In ： Proceedings of the 14th ACM ConferenceonComputerandCommunicAtinsSecur ity. 02TheDog10. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。计算机视觉与模式识别（2016）11. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。神经信息处理系统进展（2014）12. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习计算机视觉与模式识别（2016）13. 他，M.，Liao，J.，Yuan，L. Sander，P.V.：图像之间的神经颜色传递。arXiv预印本arXiv：1710.00756（2017）14. Hertzmann，A.，Jacobs，C.E.Oliver，N.Curless，B.，销售部，D.H.：形象类比。第28届计算机图形与交互技术年会论文集。ACM（2001）15. 黄，X.，Belongie，S.J.：实时任意样式传输，具有自适应实例规范化。国际计算机视觉会议（2017）16. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。机器学习国际会议（2015）17. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。计算机视觉与模式识别（2017）18. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。在：欧洲计算机视觉会议（2016）19. 金，T.，Cha，M.，Kim，H.Lee，J.K.，Kim，J.：学习发现跨域关系与生成对抗网络。国际机器学习会议（2017）20. P.Y.拉丰Ren，Z.，陶X钱，C.，Hays，J.：瞬态属性，用于户外场景的高级理解和编辑ACM Trans.Graph. （TOG）（2014）16Gokaslan等人21. Li，C.，Wand，M.：基于马尔可夫生成对抗网络的预计算实时纹理合成在：欧洲计算机视觉会议（2016）22. 梁湘，张洪，Xing，E.P.：生成语义操作与对比干。arXiv预印本arXiv：1708.00315（2017）23. Liao，J.，Yao，Y.，（1996 - 1997），美国，Yuan，L. Hua，G.，Kang，S.B.：通过深层意象类比实现视觉属性转移。ACM事务处理图表（2017年）24. Liu，M.Y. Breuel，T.，Kautz，J.：无监督图像到图像翻译网络。在：神经信息处理系统的进展（2017）25. Liu，M.Y. Tuzel，O.：耦合生成对抗网络。在：神经信息处理系统的进展（2016）26. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性计算机视觉国际会议（2015）27. 妈妈，S.，Fu，J.，Chen，C.W.，Mei，T.：DA-GAN：深度注意力生成对抗网络的实例级图像翻译。在：计算机视觉和模式识别会议（2018）28. Morishita，M.，Ueno，M.，Isahara，H.：基于人类专家和计算方法的玩偶图像数据集的分类：比较分析。在：先进信息学国际会议：概念，理论与应用（ICAICTA）（2016）29. Nagadomi：lbpcascade animeface.https：//github.com/nagadomi/lbpcascade animeface（2017）30. Ni，K.，皮尔斯河Boakye，K.，范埃森湾Borth，D.，陈伯，Wang，E.：YFCC100M数据集上的大规模深度学习。arXiv预印本arXiv：1502.03409（2015）31. Ojala，T.，Pietikainen，M.，哈伍德，D.：基于kullback分布判别分类的纹理测度性能评价国际模式识别会议（International Conference on PatternRecognition，1994）32. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。ArXiv电子版（2015年11月）33. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V. Radford，A. Chen，X.：用于训练GANs的改进技术在：神经信息处理系统的进展（2016）34. Taigman，Y.，Polyak，A.，沃尔夫湖：无监督跨域图像生成。arXiv预印本arXiv：1611.02200（2016）35. Wang T.C.Liu，M.Y.Zhu，J.Y.，Tao，A.，Kautz，J.，Catanzaro，B.：使用条件GAN进行高分辨率图像合成和语义操作。计算机视觉与模式识别（2018）36. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评价：从误差可见性到结构相似性。图像处理学报（2004）37. 沃尔夫湖Taigman，Y.，Polyak，A.：参数化化身的无监督创建国际计算机视觉会议（2017）38. Yi，Z.，Zhang，H.R.，Tan，P.，龚，M.：DualGAN：无监督双重学习用于图像到图像的转换。国际计算机视觉会议（2017）39. 余，F.，Koltun，V.：通过扩张卷积的多尺度上下文聚合。2015年国际学习表征会议（International Conference on Learning Representations40. Zeiler，医学博士，Fergus，R.：可视化和理解卷积网络。欧洲计算机视觉会议（2014）41. 赵，H.，加洛岛弗罗西奥岛Kautz，J.：神经网络图像恢复的损失函数IEEE Transactions on Computational Imaging（2017）改进无监督图像到图像翻译中的形状变形1742. Zheng，S.，中国科学院，Jayasumana，S.，Romera-Paredes，B. Vineet，V.，苏、Z. Du，D.，黄，C.，Torr，P.H.：作为递归神经网络的条件随机场。在：国际计算机视觉会议（2015）43. Zhu，J.Y.，Park，T.Isola，P.，Efros，A.A.：使用循环一致对抗网络的不成对图像到图像翻译国际计算机视觉会议（2017）

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

改进无监督图像到图像翻译中的形状变化问题

实验项目 基于改进K-MEANS聚类算法的作物病害图像分割

深度学习无监督图像分割综述

无监督图像分类的深度学习算法

深度无监督图像聚类实现具体原理步骤

对比，深度嵌入图像聚类算法，深度无监督图像聚类算法，深度子空间图像聚类算法的效率，复杂度，图像聚类程度，准确率

无监督学习 图像分割

半监督支持向量机图像变化检测

遥感图像变化检测中，怎样区分变化与不变化

matlab 图像 无监督学习

指利用阴影图像和无阴影图像进行阴影去除，是否算无监督方法

自监督学习 图像分类

扩散模型可以用于无监督的图像分割吗

matlab图像形状检测代码

对比深度嵌入图像聚类算法，深度无监督图像聚类算法，子空间图像聚类算法的准确率，图像聚类程度以及效率

matlab遥感图像变化检测算法

无监督深度图像先验(DIP)全程

分析一下无监督自训练模型在遥感图像分割领域发展

基于卷积神经网络的深度无监督图像聚类算法具体实现步骤

利用阴影图像、无阴影图像和阴影mask掩码图像进行阴影去除算是强监督方法吗

最新资源

实验项目基于改进K-MEANS聚类算法的作物病害图像分割

无监督学习图像分割

matlab 图像无监督学习

自监督学习图像分类