多模态MUNIT：无监督图像到图像翻译的创新框架

113 浏览量更新于2024-06-20 收藏 3.93MB PDF 举报

本文主要探讨了多模态无监督图像到图像翻译领域的一项研究，由黄迅、刘明宇以及康奈尔大学和NVIDIA的研究者合作完成。论文标题为"多模态无监督图像到图像翻译框架MUNIT的研究与实验"，其关注点在于解决计算机视觉中一个具有挑战性的问题——在缺乏配对图像样本的情况下，如何学习和生成目标域中对应图像的多模态条件分布。当前，图像到图像的翻译任务通常在监督情况下通过条件生成模型或简单回归模型处理。然而，当数据集不存在配对样本时，即无监督情况下，这种任务变得更加困难。现有的技术往往过于简化，假设映射关系是确定性的或单峰的，这导致它们无法准确捕捉潜在的多模态输出。比如，风格转移模型可能会忽略噪声输入，从而限制了生成的多样性。为了克服这些局限，作者提出了一个多模态无监督图像到图像翻译(MUNIT)框架。MUNIT的核心思想是将图像表示分解为域不变的内容代码和反映域特定属性的样式代码。内容代码保持图像的基本特征，而样式代码则负责变化的细节。通过这种方式，模型可以在不依赖于配对样本的情况下，从给定的源域图像生成多样化的输出。论文还分析了MUNIT框架的工作原理，建立了相关的理论基础，并通过大量实验展示了其在无监督图像翻译任务中的优势，尤其是在与当前最先进的方法进行比较时。此外，MUNIT框架具有灵活性，允许用户通过提供示例样式图像来控制输出的样式，同时也支持预训练模型的使用。 MUNIT框架的贡献在于提供了一种更有效的方法来处理无监督图像到图像翻译的多模态问题，这对于诸如图像修复、风格转换等实际应用具有重要意义。该工作成果已在GitHub上的nvlabs/MUNIT项目中开源，可供学术界和业界研究者进一步探索和应用。关键词涉及生成对抗网络(GANs)、图像到图像翻译、风格转换等领域。

黄勋，刘明宇，Serge Belongie，Jan Kautz

设

∈

和

∈

是来自两个不同图像域的图像。在无监督的图像到图

像转换设置中，我们从两个边缘分布

（

）和

（

）中提取样

本，而不访问联合分布

（

，

）。我们的目标是估计

（

2）上

的两个条件

）

和d

（

）

，其中

，具有有限的

图像

到

有限的图像传

输模型为

（

→

）

a nd

（

→

）

，

其中

是通过在

到

（

对于

1类似

）处的扫描来实现的

。

一般来说

，

（

）

和d

（

）

是复杂

的

和多

峰分布，在这种情况下，确定性转换模型不能很好

地工作。

为了解决这个问题，我们做了一个

部分共享的潜在空间的假设

。

具体地，

我们假设每个图像

∈

是从由两个域共享的内容潜码

∈ C

和特定

于各个域的风格潜码

∈

生成

的。换句话说，来自联合分布的一对

对应图像（

，

）由

x2生成。

（

，

）和

（

，

），其中

，

来自一些先验分布

1 2

而

，

是

底层生成元。我们进一步假设

和

是

1 2 1 2

det

and ha

（

）

−

and

1 1 2

（

）

-1

。

我们

的

目标

是

用

神经网络来学习复杂的遗传算法和编码函

数。注意，虽然编码器和解码器是确定性的，但是

（

）

是

由于

的独立性而被无约束地分配的

。

我们的假设与UNIT [15]中提出的共享潜在空间假设密切相关。虽然

UNIT假设了一个完全共享的潜在空间，但我们假设只有一部分潜在空间

（内容）可以跨域共享，而另一部分（样式）是特定于域的，当跨域映

射是

多对多时，

这是一个更合理的假设。

模型图2显示了我们的模型及其学习过程的概述。与Liu

et al. [

15]，我

们的翻译模型由每个域

（

= 1

，

2）的编码器E i和解码器G i组成。

如图在图2（a）中，每个自动编码器的潜在代码被分解为内容代码

和样式代码

，其中（

，

）=

（

）

，

（

）

）=

（

）.图像到图像的转换是通过交换

我我

编码器-解码器对，如图所示第2段（b）分段。例如，要将图像

∈

X1转换

为

，我们首先提取其内容潜码

（

）

，并从

（

）

（

，

）上的原始码中随机抽取内容潜码c2

。

然后我们使用

来产

生最终输出图像

→

（

，

）。我们注意到，虽然先验分布是

单峰的，但由于解码器的非线性，输出图像

我们的损失函数包括一个

双向重建损失

，确保编码器和解码器是逆

的，以及一个

对抗性损失

，将翻译图像的分布与目标域中的图像分布

相匹配。

双向重建损失。为了学习彼此相反的编码器和解码器对，我们使

用目标函数来鼓励在image→ latent→ image和latent→ image→ latent

方向上的反射

剩余17页未读，继续阅读

cpongm

粉丝: 6

多模态MUNIT：无监督图像到图像翻译的创新框架

MUNIT：多模式无监督图像到图像翻译

Python-MUNIT多模式无监督图像到图像转换

多模式无监督图像到图像翻译-Python开发

多模态无监督图像翻译论文代码发布

风格迁移2-06：MUNIT(多模态无监督)-源码无死角解析（3）-模型框架（前向传播）

用于多模态医学图像融合的拉普拉斯重构_重构_多模态_医学图像_

多模态医学图像配准与融合算法的研究

MUNIT：多模式无监督图像到图像翻译技术详解

图像增强的无监督多模态翻译：基于编码器-解码器的框架

无监督图像字幕生成：利用共享多模态嵌入

最新资源