无监督图像翻译：自注意力与相对鉴别提升

版权申诉

112 浏览量更新于2024-06-27 收藏 746KB DOCX 举报

图像翻译是一种计算机视觉任务，旨在将输入图像从一个领域转换为另一个领域的输出图像，例如风格转换、图片域适应和数据预处理。它主要依赖于生成对抗网络（GANs），如Pix2Pix和CycleGAN。Pix2Pix由Isola等人在2017年提出，采用条件GAN（CGAN）框架，利用U-Net作为生成器和PatchGAN作为判别器，进行有监督的图像转换，依赖于配对训练数据。然而，有监督方法的局限性在于它需要大量的配对图像数据，这对于艺术风格转换等场景并不易得。因此，无监督图像翻译应运而生，如CycleGAN和UNIT。CycleGAN通过双生成器和判别器的对偶学习，以及循环重构一致性约束，实现无配对图像间的转换，仅改变目标图像域的特性，但可能会牺牲图像内容的完整性。 UNIT进一步改进了无监督学习，通过共享中间层网络权重，提取低维潜在向量，然后分别构建这些向量与每个图像域的映射，以增强对图像域之间关系的理解。这种方法能更好地保留图像内容结构，尽管无监督训练可能导致生成图像的质量和翻译效果有所欠缺。问题主要体现在两个方面：一是生成器的卷积神经网络结构受限于卷积核大小，往往过度依赖局部信息，造成图像域转换不彻底，图像的协调性和真实性受到影响；二是由于缺乏目标图像域的精确指示，生成器可能在翻译过程中引入无关的图像特征，影响翻译效果。此外，GAN的博弈对抗中，生成器仅间接地依赖判别器的反馈，而未充分利用判别器区分真假图像的先验知识，这限制了模型性能的提升。为了改善这些问题，研究人员正在探索更先进的网络架构、注意力机制的整合以及更有效的训练策略，以提高无监督图像翻译的精度和一致性，使之在实际应用中发挥更大的潜力。

图 2 生成器网络

Fig. 2 Generator

下载: 全尺寸图片幻灯片

生成器网络结构参数设置如表 1 所示, 除第 12 层输出层使用 Tanh 激活函数外, 包括

残差网络在内的卷积神经网络均使用实例归一化(Instance normalization, IN)

[13]

和 ReLU 激活

函数.

表 1 生成器网络结构参数设置

Table 1 The parameter setting of generator

序号

区域划分

层类型

卷积核

步长

深度

归一化

激活函数

下采样

Convolution

$ 7 \times 7 $

ReLU

下采样

Convolution

$ 3 \times 3 $

128

ReLU

下采样

Convolution

$ 3 \times 3 $

256

ReLU

中间区

Residual Block

$ 3 \times 3 $

256

ReLU

中间区

Residual Block

$ 3 \times 3 $

256

ReLU

中间区

Residual Block

$ 3 \times 3 $

256

ReLU

中间区

Residual Block

$ 3 \times 3 $

256

ReLU

中间区

Residual Block

$ 3 \times 3 $

256

ReLU

剩余19页未读，继续阅读

罗伯特之技术屋

粉丝: 4501
资源: 1万+

无监督图像翻译：自注意力与相对鉴别提升

融入视觉常识和注意力的图像描述.docx

利用Matlab实现基于小波变换的遥感图像融合.docx

融合自注意力机制的长文本生成对抗网络模型.docx

基于多模态注意力机制的图像理解描述新方法.docx

融合双流三维卷积和注意力机制的动态手势识别.docx

ChatGPT的生成对话与无监督学习方法.docx

如何用Python和深度神经网络识别图像？.docx

matlab读入图像方法.docx

Matlab中图像函数.docx

基于全局特征和尺度不变特征转换特征融合的医学图像检索.docx

最新资源