双向单次无监督域映射方法及其应用

15 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1双向单次无监督域映射特拉维夫大学tomer104@gmail.com利奥尔·沃尔夫Facebook AI Research和特拉维夫大学wolf@cs.tau.ac.il摘要我们研究了域A（其中有单个训练样本）与域之间的映射问题B，我们有更丰富的训练集。我们提出的方法是能够在两个方向上执行此映射。例如，我们可以将所有MNIST图像转移到由单个SVHN图像捕获的视觉域，并将SVHN图像变换到MNIST图像的域。我们的方法是基于采用一个编码器和一个解码器为每个域，而不利用权重共享。训练单个样本域的自动编码器以匹配该样本和域B的潜在空间两者。我们的研究结果证明了域之间令人信服的映射，其中源域或目标域由单个样本定义，远远超过了以往的解决方案。我们的代码可在https://github.com/tomercohen11/BiOST 上公开获取。1. 介绍在许多当前的学习技术和生态认知的要求在现实世界中自由行动的能力。其中包括：（i）要求生态学习系统主要依赖于非常弱的监督或无监督的训练数据;（ii）训练期间可用的数据量很小;（iii）生态系统应该能够不断学习，并随着时间的推移而改善。在这项工作中，我们解决了一次性场景中的无监督学习，以一种将单样本x到第二个更大的训练集S。训练集S可以表示例如现有的累积知识体。我们研究的无监督任务是两个视觉域A和B之间的跨域映射，即，将一个视觉域中的图像转换到另一个视觉域的能力。我们提出了一个解决方案，可以在两个方向上执行此映射：我们可以将单个图像x∈A映射到由S定义的域B，也可以将域B中的任何图像平移到域A。在这个场景中，我们对域A的了解是有限的以X为例。这有一些含义，特别是在映射到这个域时。在原则层面上，我们受到这个样本的严重影响，我们对领域A的看法是短视的。在技术层面，我们面临的挑战是无法为域A训练GAN。我们的方法为每个域训练一个自动编码器。域B的自动编码器首先被预训练，然后与域A的自动编码器联合训练。尽管低激发域中的样本数量有限，但不使用权重共享。相反，我们依赖于特征周期损失，以确保域之间的对齐，同时允许自动编码器有更多的自由度。此外，我们不使用GAN，甚至不用于域B。在文献中，只有从A到B的映射成功地证明了一次性翻译（见第二节）。2）的情况。我们在从B到A的映射中的成功为无监督跨域翻译提供了新的见解。该方法不需要估计目标视觉域中的变化性，并且由于风格转换通常基于单个图像进行，因此它加强了跨域视觉翻译和风格转换但是，请注意，样式转换解决方案：（i）通常采用预先训练的网络来获得感知相似性分数;（ii）不受益于具有来自内容图像的域的多于一个图像;以及（iii）使用大样式图像，而我们的方法可以与低分辨率视觉域一起工作，以及与高分辨率的。我们的方法的成功也证明了风格和内容之间的分离，因为内容是翻译的，而风格是从图像中提取的x. 然而，与文献中的现有方法不同，使用单一编码途径，即，我们没有与内容编码器分离的样式编码器。新方法大大优于现有的算法在一次拍摄的情况下，在两个方向。与域转移方法和风格转移方法相比，我们的方法能够更好地维护内容。此外，当映射到单次域时，风格是完全从这一个样本中提取的，同时比以前的工作产生更少的失真。17841785(a)(b)（c）第（1）款图1. 在我们的方法中使用的三个循环损失项的说明。(a) L bab-循环（b）L aba-循环（c）L f-循环。2. 相关工作无监督学习领域已经将其重点从聚类和密度估计的经典无监督任务转移到涉及生成新样本的任务这主要是通过GANs的出现[7]，这也导致了替代方法的发展[3]以及对自动编码器的新兴趣[23]。我们研究的具体任务是跨域翻译，这是在目标域中生成图像的任务，该图像以来自源域的图像为条件虽然监督的情况下，其中训练集由输入/输出图像的匹配样本组成，具有相当大的实际意义[10，25]，但在许多情况下，收集这些样本非常具有挑战性。无监督域转换方法接收不匹配样本的训练集，每个域一组样本，并学习在一个域中的样本和另一个域中的类似样本之间进行映射[30，12，27，1，17，16，4，5，28，29，13，9，20]。第一种无监督方法学习了两个方向上的映射（从A到B和返回），以便应用圆形度约束：将样本从A映射到B，然后从B映射回A，应产生恒等函数。然而，这个约束是不必要的，并且一些贡献[1，8]学习以不对称的方式在单个方向上映射。与这项工作高度相关的是最近提出的一次性翻译方法（OST）[2]。在这项工作中，单个样本x∈A被映射到视觉域B。然而，他们无法在另一个方向上成功地进行映射，他们写道另一个方向是，对抗性训练不能直接在目标域上使用，因为只能看到目标域的一个正如我们所展示的，我们能够成功地执行这种翻译，并且在他们报告结果的方向上大大优于OST我们的方法和OST每个域都使用一个自动编码器，并假设两个域中的潜在编码是相似的。这个基本的方法论，这是第一个由CoGAN引入的[17]也被UNIT [16]和MUNIT [9]等方法所采用。这些方法[2，16，9，17]都假设特定类型的权重共享，其中靠近图像域的层（编码器的底部和解码器的顶部）是不共享的，而靠近潜在空间的层是共享的。换句话说，编码器的顶层在两个域的编码器之间共享以这种方式，每个样本的潜在表示以类似的方式获得和处理，而不管样本的域。在我们的工作中，我们不依赖于权重共享，我们发现这对一次性场景是有害的。相反，我们使用特征周期一致性项来确保单次域正确对齐多次域，而非共享权重的特权允许编码器和解码器学习更好的变换，参见第二节。三点三如前所述，我们的方法进一步模糊了跨域翻译方法和风格转换方法之间的界限风格转移方法[6，24，11]通过最小化关于输入样本的内容损失以及关于一个或多个风格图像样本的风格损失来合成新图像内容损失通常是感知损失，即，它通过为图像分类任务预先训练的网络对输入和输出图像进行编码。风格损失比较输出图像和风格图像之间的该神经网络的各个层中的激活的统计这个双重目标最初是通过采用缓慢的优化过程获得的[6]。该过程后来被前馈方法所取代，该方法被训练以产生最小化损失的图像[24，11]。请注意，我们的方法遵循无监督协议，不使用预训练的分类网络。当将图像从域B转换到由x定义的域时，使用我们的方法，我们希望图像在风格上类似于x，同时保留输入图像的内容然而，风格转换方法的目标是创建具有特定纹理的视觉上令人愉悦的图像，并且跨域转换的1786在我们学习的任务中。通过复制一个图像的内容，在输出图像，年龄是视觉上类似于另一个，我们的方法执行一个隐式的内容和风格的解开。在这个意义上，它涉及到最近的引导翻译方法，其中的风格属性在目标图像是从一个单一的图像。其中包括MUNIT [9]，EG-UNIT架构[19]和DRIT [15]。这些方法都采用风格编码途径以及内容嵌入途径，并且需要目标域中的大训练集我们的方法不采用多个途径，也不需要这样的训练集。3. 方法我们的方法为两个域中的每一个域使用了一个自动编码器，它们在两个阶段中进行联合训练，以学习域之间的映射。对于域A和B，我们相应地用EA和EB表示编码器，并且类似地用DA和DB表示解码器。如在先前的工作[16，2]中所做的，基于这些编码器和解码器来定义跨域转换之间的变换定义域A和B由F=EA◦DB给出。类似地，样本s∈B到第一域的变换由函数G给出为G（s）=DA（EB（s））。我们的方法涉及三个主要技术成功-完全映射之间的一次拍摄域A和多，重要的是，将域A与域B对齐的特征循环损失。该方法享有与权重共享相同的益处，即为两个域获得相似的潜在空间，而没有降低编码器和解码器的灵活性的缺点。由于数据的有限性质，采用数据增强机制是有益的。为了提供直接比较，我们使用与[2]相同的增强，其由图像的小随机旋转和水平平移组成用P（S）表示通过随机扰动相同的样本而获得的增强训练集训练集SB。以相同的方式，我们将P（x）表示为从单个训练样本x.3.1. 第一阶段培训在第一个训练阶段，我们为do- mainB训练一个自动编码器.自动编码器的最基本要求是重建，即对所有的s∈B，s<$DB（EB（s））.此外，我们还要求B的潜在空间近似为-利用变分损失法，使其服从高斯分布。这一要求将在以后帮助域A与域B很好地对齐。因此，第一阶段培训的总损失为：LB=LRECB+λ1LVAEB，其中λ1是权重参数，并且Σ激发域B：1. 培训制度包括两个阶段。在第一阶段中，仅针对域B训练自动编码器。在第二阶段，域B的自动编码器是LRECB=LV AEB=s∈P（S）Σs∈P（S）DB（EB（s））−sKL（{EB（s）|s∈P（S）}||N(0,I))(2)与用于域A的单独的自动编码器一起被进一步训练，域A被初始化为B的预训练的自动编码器的克隆。这种设置（i）通过利用域B的学习表示作为先验来帮助域A的训练;以及（ii）引导域A的自动编码器获取与域B捕获的表示对齐的潜在表示。2. 我们使用选择性反向传播来确保域A的编码器和解码器适应域B的潜在空间，而不是相反。这防止了潜在空间在A中的一个样本上过拟合，而是由B中的样本确定，而EA和DA相应地适应。不同-其中第一个损失是重构损失，第二个损失是变分损失。3.2. 第二阶段培训在第二阶段，我们将域A的自动编码器与域B的预训练自动编码器联合训练。我们分别从EB和DB初始化EA和DA该初始化引导A的自动编码器获得与B的潜在空间良好对齐的P（x）的表示。此外，假设两个域共享相似的整体结构，域B的学习先验有助于训练用于单次域的鲁棒自动编码器。在这个阶段，我们最大限度地减少以下损失：[2]，我们的选择性反向传播版本LAB=LREC+λ2LRECA +λ3LV AEB +λ4LV AEA不涉及冻结共享权重。而是简单地用A需要根据B进行适配的准则来更新编码器/解码器的子集。3. 与[2，16，9]不同，我们不将编码器或解码器划分为共享部分和非共享部分。相反地，+λ5Lbab循环+λ6Laba循环+λ7Lf循环（3）其中λi是权衡参数，附加损耗项定义为：Σ我们将它们视为四个独立的网络，使用一组完整的周期损耗来对齐。最LRECA=t∈P（x）DA（EA（t））−tB1787方法循环周期恒等变分特征特征GANGANGAN重量表1.所提出的方法和我们的基线之间的损耗和网络架构的比较。功能周期A（分别B）是从域A编码的图像的特征周期损失。GAN Z是[20]用于潜在空间中的域混淆的损失。GAN A（相应B）是需要来自域B的转换图像匹配域A的分布的GAN损失。 ”Disentangled” refers to the feature cycle presented in [我们的特征周期包含一个统一的潜在空间。A=Lbab循环=Laba-循环=ΣKL（{EA（t）|t∈P（x）}||N(0,I))(5)t∈P（x）ΣDB（EA（DA（EB（s）−ss∈P（S）ΣDA（EB（DB（EA（t）−tt∈P（x）与[9]不同的是，（i）特征循环损失在风格和内容之间没有被解开;以及（ii）我们不对来自x∈A的特征应用该损失，因为我们希望域A的编码器和解码器适应域B而不是相反而且，在训练过程中，我们为了实现良好的双向映射，我们希望x∈LF循环Σ=s∈P（S）EA（DA（英、英、（s））−EB（s）101（八）A映射到每个s∈B的同一流形上。否则，从域A编码的图像将以无意义的方式被解码到域B的在上述术语中，该条用于指示该网络在该丢失的反向传播（“分离”）期间不被更新以这种方式，例如，在B的自动编码器中防止了对一个样本x的过拟合。损失（4）和（5）是与用于预训练B的自动编码器的损失类似的损失。损失（6）和（7）是循环一致性损失：从域B到域A再返回，从A到B再返回。损失（8）是短期的从样本s∈B的编码版本到A中的样本并返回到潜在空间的（特征）循环图1描绘了在我们的方法中使用三个循环损失来获得两个不对称域之间的3.3. 关于损失术语选项卡. 1总结了所提出的方法和基线之间的损耗和网络架构的差异，以及最近的域适应工作（不同但相关的任务），称为I2I工作[20]。随着时间的推移，文献显示出增加更多损失的趋势。然而，其中许多是不相关的，或者是有害的一次拍摄的情况下，我们的方法是相当简单的。域A的对抗性损失不适用，因为我们不能近似一次域的分布。我们还发现，在这种情况下，多激发域的GAN损失对变换没有好处。特征循环损失确保了B特征在经过A的解码器和编码器回到潜在空间之后的保存这改善了域之间的对齐并且补偿了未共享的权重。注意训练阶段I中的变分损失迫使域B的潜在空间近似高斯分布，并且在阶段II中，来自域A的样本也适应于该高斯流形。3.4. 网络架构和实施我们认为x∈A，B中的样本是R3×256×256中的图像。我们采用了John- son等人成功的体系结构. [11]对于编码器和解码器。编码器在卷积层之后，由两个2步卷积和一个用于数字实验的残差块或四个用于其他实验的块组成解码器类似地由两个解卷积层之前的一个或四个残差块组成。在层之间使用批量归一化和ReLU激活。不同于我们的基线[2，30，9]，我们不使用对抗训练，也不雇用任何识别器。对于与损失项相关联的权衡参数，我们使用λ2=λ5=λ6= 1和λ3=λ4=λ7= 0.001。4. 实验我们将我们的方法与文献中的多个基线方法进行比较，包括OST [2]，MUNIT [9]，Cycle-GAN [30]和[6]的风格转换方法。我们提供定性和定量的结果。对于后者，我们使用输出图像分类的准确性作为可靠的度量和目标，这在以前的工作中经常使用。此外，根据文献，我们定义风格一B循环A循环B一BZ共享CycleGAN [30]CCCCCMUNIT [9]CCCC解缠结解缠结CCCOST [2]CCCCCI2I [20]CCCCCC我们的CCCC统一1788一次性所有样品我们的地图 OST 周期 MUNIT循环MUNIT形成了所有基线方法的大幅度。此外，它还匹配基线方法的性能，这些使用A中的所有训练样本。注意这两MNISTAB66.5023.5012.0060.50 21.4670.81MNISTBA30.7320.8212.3425.22 19.3223.58SVHNA 和B30.0023.5010.5022.00 16.5423.25SVHNB 公司A69.4826.5810.8048.06 23.6069.11表2.从MNIST到SVHN和其他方向的翻译准确性。A是具有一个样本的域。CycleGAN =CycleGAN金发→黑色黑色→金发方法余弦辛分离精度余弦分离模拟器精度OST0.390.650.41 0.67我们0.530.920.54 0.97表3.CelebA映射结果使用VGG面部描述符。和内容损失。风格和内容形成了一种权衡，只需从目标域复制图像，就可以获得完美的风格。然而，结果清楚地表明，我们的方法是唯一一个提供的结果，既有一个小的内容距离从源图像和风格距离从目标图像。最后，我们提供了消融分析，研究我们的方法的各个组成部分的相对重要性由于域A中只有一个样本x，因此实验需要多次重复。我们在数字实验上运行每个实验200次（每次采样一个新的x），在其他数据集上运行50次，并报告获得的平均数MNIST到SVHN的转换由于我们的方法可以在两个方向上映射，因此有四个方向进行实验。例如，我们可以将数字的一次性MNIST [14]图像转换为街景门牌号（SVHN）[21]图像。使用相同的训练模型，我们可以将所有SVHN图像转换到由MNIST的样本x定义的此外，我们可以在另一个方向重复这些实验：将SVHN作为单次域，将MNIST作为域B。当将图像从MNIST转换为SVHN时，我们使用SVHN的预训练分类器来预测翻译图像的标签，并将其与MNIST中的源图像的标签进行比较。注意，MNIST分类器比SVHN分类器更有限，因为它观察到一个均匀的训练集。因此，当转换为SVHN（其中SVHN分类器提供准确度）时，准确度通常比以其他方式更高。选项卡. 图2呈现了对于单触发域的任一选择，从单触发域平移和平移到单触发域的结果。可以看出，所获得的一次性平移超过了MUNIT和CycleGAN在所有样本情况下都获得了良好的视觉质量然而，MUNIT更准确地保留内容，因为它将样式和内容分开。CelebA实验CelebA数据集[26，18]被注释为多个属性，包括经常用于测试域转换方法的三个属性：人的性别、发色和图像中眼镜的存在。在这三种情况中，男性对女性在一次性场景中没有意义，因为分布重叠，并且在看到一个戴眼镜的人的样本后，没有方法能够添加或移除眼镜。这是因为这些被网络解释为眼睛周围皮肤的一部分黑眼圈）。图2呈现了通过我们的方法和OST在金发和黑发之间进行转换所获得的典型结果很明显，基线方法不能像我们的方法那样提供令人为了量化所执行的面部平移的质量，我们在A中的图像上使用VGG面部[22]的表示层，并在B中使用其输出如果面部的VGG表示保持不变，则内容将被很好地转换与通常所做的一样，我们采用余弦相似度来比较两个人脸表示向量。结果见表。3 .第三章。可以看出，我们的方法获得了比基线方法更高的相似性。面部描述符度量捕获要传输的内容我们创建忠实于目标域的图像的能力是通过采用一个分类器进行评估的，该分类器经过训练可以区分金发女郎选项卡. 3报告分类器将翻译图像分配给目标类别的情况的比率。可以看出，分类器将我们的输出图像分配给目标类的频率比基线方法要高得多。照片翻译任务我们接下来考虑从真实图像到莫奈画作的双向翻译任务[30]以及夏季和冬季图像之间的双向翻译任务，如下[30]。为了评估这些翻译的质量，我们测量了源图像和翻译版本之间的感知距离[11]。在文献中，低值被认为是大部分内容被保留的指示。为了比较翻译后的图像和目标域图像之间的风格差异，我们采用了风格转移方法[6]所使用的Gram度量。选项卡. 4报告从A（单次域）映射到B时获得的分数。表5报告了在另一个方向标测时获得的分数可以看出，我们的方法在所有基线上都呈现出更好的分数，除了CycleGAN获得了较低的风格损失之外1789方法夏季2冬季2莫奈2照片2冬季夏季照片莫奈10.25 6.84 8.62 2.09MUNIT 9.20 9.10 7.27 8.06CycleGAN 3.07 3.74 2.56 2.35我们的1.33 1.21 2.06 1.912019年12月20日星期一MUNIT 4.10 2.83 3.44 2.65CycleGAN 3.20 2.51 1.96 2.52我们的1.78 3.21 2.93 1.74表4.从单次区域A到区域B的映射。显示了多种方法的内容和样式差异。虽然CycleGAN在某些情况下实现了较低的风格差异，但这是针对大多数不相关的内容获得的，参见图。3（e）和图3（j）。方法夏季2冬季2莫奈2照片2冬季夏季照片莫奈OST 7.32 6.02 5.71 6.48MUNIT 8.69 9.07 8.34 7.44CycleGAN 7.53 7.90 5.83 6.73我们的1.91 1.86 3.68 3.9110.00 10.00 10.00 10.00MUNIT 99.10 16.58 4.62 26.24CycleGAN 6.72 13.22 8.70 10.99我们的4.20 9.12 4.55 7.13表5.从域B到单次域的映射结果A. 我们的方法是唯一一个同时实现低内容差异和低风格差异的方法在这个更具挑战性的方向上，在所有情况下，我们的方法都优于基线方法。A是MNIST A是SVHNLf-babLf-abaLf-cycleABABAA是MNIST A是SVHNLf-babLf-abaLf-cycleABABA00039.0025.4025.5030.6111043.5026.2018.0048.2510055.5029.8525.0065.7510163.0030.0228.5068.1201036.5024.6522.0026.5001163.5026.1530.0017.8000161.5025.4029.5017.1511166.5030.7330.0069.48表6.一次性MNIST到SVHN平移（所有四种可能性）的消融研究，其中我们打开和关闭圆度项。在Monet2Photo。然而，CycleGAN完全无法复制图像的内容。每种方法获得的样品结果如图所示。3夏季到冬季（参见其他领域的补充资料）。该图还与[ 6 ]进行了视觉比较。可以看出，我们的结果呈现了比基线方法更忠实于源图像的内容并且失真更小的翻译最后，在图4.我们在更极端的数据集外风格图像（作为单次域）上测试了我们的风格转移任务，并与[6]进行了比较请注意，基线方法不会受益于来自源域的训练集。然而，它采用了一个在imagenet上训练可以看出，通过我们的方法执行的翻译保留了图像内容，同时能够转移风格。基线方法扭曲了内容，参照，内容图像中的直线。4.1. 消融分析循环损失的相对重要性由于我们引入了LF循环，而OST的基线方法仅使用一个循环，因此我们将烧蚀分析的重点放在理解三个循环中每个循环损失的相对重要性。删除部分循环的结果见表1。六、可以看出，我们引入的特征循环对从B到A的映射做出了很大的贡献，删除它是有害的。特征周期的进一步分析特征周期可以被解释为来自特征空间中的域A的虚拟样本的重构损失正如在第二节中所解释的。3中，在阶段II中，我们冻结EB（s），并且因此，该编码充当来自域B的样本的然后，我们获得DA（EB（s）），其可以被视为伪A样本，其通过映射图2.每组图像示出了来自域A的一个图像x、来自域B的样本图像s、x到域B的平移以及s到域A的平移。(top)OST;（底部）我们的方法。风格内容我们我们OST风格OST内容1790(a)（b）（c）（d）（e）(f)（g）（h）（i）（j）（k）图3.将夏季（域A）映射到冬季（域B）。（a）样本x∈A。（b）映射到B的结果。（c）OST的结果(d)MUNIT的结果（e）CycleGAN的结果（f）两个样本s∈B.（g）我们的结果映射在另一个方向，使用相同的学习模型。（h-j）基线方法的映射顺序与上述相同（k）[6]的结果，仅在此显示方向，因为他们不能从B中的多个图像中受益。(a)（b）（c）（d）（e）（f）(g)（h）（i）（j）（k）（l）图4.街景图像的风格转换结果（a，b）内容图像。（c，d）两种风格的图像。（e-h）我们通过组合内容和风格图像获得的结果(i-l)结果与[6]相同。B样品进入结构域A。最后，我们将这个样本带回到潜在空间，并要求EA（DA（EB（s）））≈EB（s），这相当于要求重建生成的A样本，但在特征空间中这个较短的周期比再次通过DA对于在像素空间的重建，因为我们已经具有“地面实况”特征E B（s），这这一分析有三个含义：（1）多个（|S|）用于单次域A和a的新样本1791（一）（b）第（1）款图5.每组图像示出了来自域A的一个图像x、来自域B的样本图像s以及s到域B的平移。A. （a）我们的权重共享方法;（b）我们的每个域独立权重的方法使用每个域的独立权重允许更好的灵活性，并导致更准确和更少模糊的映射。这些样本的重构损失;（ii）这些重构的A的潜在空间与来自B的样本的潜在空间是相同的;以及（iii）当通过域A的编码器/解码器时，域B特征的保留。为了验证我们的说法，我们测试了来自B的潜在代码的随机置换循环。图 6 呈现了用于将来自域 B（MNIST）的样本映射到(a)(b)（c）第（1）款(d)（e）图6.从域B映射到域A。（a）来自SVHN（域A）的单次拍摄（b）来自MNIST的样本图像（领域结构域A（SVHN）与Lf循环，无Lf循环，并与B）。 (c)将B映射到A而没有特征循环损失。 (d)映射具有随机特征周期损失。（e）特征循环映射EB（s）的随机排列的特征循环。如可以可以看出，当以夸张的方式将B映射到A时，随机特征循环正常特征循环平衡了特征保存与获得对目标域风格保持真实的映射之间的权衡从数值上讲，采用随机向量（而不是对来自B的图像进行f循环编码）的结果是使用和不使用f循环的中间结果（表1中报告的四个精度）。6分别为65.00，23.53，23.00，63.45）虽然特征周期丢失对于单次场景是非常成功的，但是它不一定适合于多次场景情况，其中存在来自A的许多样本并且我们不需要生成域A的伪样本。因此，它在文献方法中的缺失并不奇怪请注意，[9]中的功能周期具有不同的含义，因为它采用了风格和内容之间的分离因此，它还扮演着创建合成示例（混合样式和内容）的角色，对于这些示例，不存在真正的替代品。权重共享多个域映射方法[9，20]发现权重共享是有益的。然而，我们发现这对一次性场景是有害的。使用单独的权重，域A的编码器和解码器更适合域B，同时保持域A的正确表示。图5示出了针对金发（域A）和黑人（域B）面部之间的映射的情况可以看出，权重共享限制了解码器在域之间很好地适应，并导致模糊图像。损失特征循环损失确保了在变换到域A时域B的特征的保存。随机特征周期也确保了这一点，但程度较低。5. 结论跨域翻译问题得到了广泛的研究，翻译结果的质量也在不断提高。此外，该领域正在逐步增加新的功能，这些功能起初似乎令人惊讶。以无监督的方式执行视觉翻译任务的能力是机器学习文献或认知科学文献所无法预见的。也不清楚这种平移是否可以单方面进行，因为所有的第一个结果都依赖于循环。从A到B的一次性情况是出乎意料的，因为应用的训练损失很容易适合来自A的一个样本。最后，正如文献中所指出的，由于无法正确地对域A进行建模，因此相反的翻译更具挑战性。我们不仅证明了这种映射是可能的，而且证明了为此开发的算法比文献方法更有效，即使是在相反的方向上。使用一次性方法将新的视觉体验与现有的视觉知识混合的能力提供了一种随着时间积累信息并将现有知识投射到新样本上的方式。确认该项目已获得欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划下的资助1792引用[1] Sagie Benaim和Lior Wolf。单侧无监督域映射。在神经信息处理系统的进展30，2017。2[2] Sagie Benaim和Lior Wolf。一次性无监督跨域翻译。NeurIPS，2018。二、三、四[3] Piotr Bojanowski ，Armand Joulin ，David Lopez-Paz，and Arthur Szlam.优化生成网络的潜在空间。在ICML，2018。2[4] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议，2018年6月。2[5] Alexis Conneau 、 Guillaume Lample 、 Marc'AurelioRanzato、Lud o vic Den o ye r和Herve' J e 'gou。不需要并行数据的命令翻译 2017 年国际学习表征会议（International Conference on Learning Representations，ICLR）2[6] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。二四五六七[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展27，第2672-2680页，2014年2[8] Yedid Hoshen和Lior Wolf。Nam：非对抗性非监督域映射。在ECCV，2018。2[9] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在ECCV，2018。二、三、四、八[10] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR），2017年。2[11] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。二、四、五[12] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、JungkwonLee和Jiwon Kim。学习发现跨域关系与生成对抗网络。国际机器学习会议（ICML），2017年。2[13] Guillaume Lample、Alexis Conneau、Ludovic Denoyer和Marc'Aurelio Ranzato。仅使用单语语料库的在2018年国际学习代表会议上2[14] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。2010. 5[15] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩通过解缠表示实现不同的图像到图像的在欧洲计算机视觉会议（ECCV），2018年9月3[16] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在神经信息处理系统的进展30。2017. 二、三[17] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。神经信息处理系统进展29，第469-477页。2016. 2[18] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。在2015年国际计算机视觉会议（ICCV）上5[19] Liqian Ma ， Xu Jia ， Stamatios Georgoulis ， TinneTuytelaars，and Luc Van Gool.示例引导的无监督图像到图像翻译。arXiv预印本arXiv：1805.11145，2018。3[20] Zak Murez、Soheil Kolouri、David Kriegman、Ravi Ra-mamoorthi和Kyungnam Kim。图像到图像的翻译领域的适应。2018 IEEE/CVF计算机视觉和模式识别会议，2018。二四八[21] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBissacco，Bo Wu，and Andrew Y.Ng. 使用无监督特征学习读取自然图像中的数字2011年，NIPS深度学习和无监督特征学习5[22] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。2015年英国机器视觉会议。5[23] David E.杰弗里·鲁梅尔哈特Hinton和Ronald J.威廉姆斯通过反向传播误差学习表示。Nature，323：533-536，1986中。2[24] D. 乌里扬诺夫河Lebedev，A.Vedaldi和V.Lempitsky 纹理网络：纹理和风格化图像的前馈合成InICML，2016. 2[25] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。在CVPR，2018年。2[26] 杨朔，罗平，陈昌来，唐晓鸥。从面部部位反应到面部检测：一种深度学习方法。在ICCV，第3676-3684页，2015中。5[27] 自立一、张浩、谭平、龚明伦。Dualgan：图像到图像翻译的无监督双重学习。2017年IEEE计算机视觉国际会议（ICCV），第2868-2876页，2017年。2[28] 张梦，杨柳，栾焕波，孙茂松。面向无监督双语词典生成的对抗训练。在计算语言学协会第55届年会论文集（第1卷：长文），卷1，页1959-1970，2017。2[29] 张梦，杨柳，栾焕波，孙茂松。无监督双语词典归纳的推土机距离最小化。在 Proceedings of the 2017Conference on Empirical Methods in Natural LanguageProcessing，第1934 - 1945页，2017年。2[30] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用周期一致对抗网络的不成对图像到图像翻译。IEEEInternational Conference on Computer Vision，2017。二、四、五

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

双向单次无监督域映射方法及其应用

advent无监督域自适应

S域是怎么映射到z域的

如何进行无监督多模态图像去模糊

unsupervised domain adaptation

对比学习包括无监督学习与自监督学习

Mybatis配置方法SMybatis映射方法。

上述步骤中纹理映射的具体方法是什么

映射的设计与应用解题思路

监督学习vs无监督学习

机器学习中监督学习 无监督学习 半监督学习

什么是监督学习，什么是无监督学习，分析两种学习方法的适用场景

简述监督学习和无监督学习的区别

监督学习及无监督学习概念。

监督学习和无监督学习的区别？

常用的无监督学习方法有哪些

工业领域的监督学习、无监督学习和强化学习

常用的无监督降维方法有哪些？请简单阐述。

pytorch无监督学习

无监督学习源码csdn

最新资源

机器学习中监督学习无监督学习半监督学习