FusedGAN：深度网络驱动的条件图像生成与可控采样

94 浏览量更新于2024-06-20 收藏 1.3MB PDF 举报

FusedGAN是一种创新的深度学习网络架构，专为条件图像生成设计，旨在解决现有模型在逼真度、多样性和可控性方面的局限性。该模型由Navaneeth Bodla、Gang Hua和Rama Chellappa三位专家共同提出，他们分别来自美国马里兰大学和微软研究院。在传统的方法中，如堆栈式GAN（Stacked GAN），多个阶段的生成器逐层训练，每个阶段都需要标记的中间图像进行监督，这种结构限制了生成过程的灵活性。相比之下，FusedGAN采用了单阶段的管道设计，其中包含一个内嵌的GAN堆栈。这个结构的独特之处在于，它通过融合一个无条件图像生成器和一个有条件图像生成器，共同使用一个共享的潜在空间，实现了生成过程的分解和控制。这种方法消除了对条件图像配对数据的依赖，允许模型利用大量未标记的图像资源，生成更多样且高保真的样本。 FusedGAN尤其在细粒度图像生成任务上表现出色，如文本到图像转换和属性到面部生成。这些应用场景需要模型能够精确地控制生成图像的细节，如人物的特征、姿势、背景等，这对于诸如司法鉴定和生物教育研究等领域具有重要意义。良好的图像生成模型应该具备高保真度，即生成的图像接近真实；多样性，即生成的不同样本之间有显著的差异；以及可控性，即用户可以根据预设条件精确地指导生成过程。 FusedGAN作为一种创新的深度学习技术，通过其单一阶段、共享潜在空间的设计，提高了图像生成的效率和质量，使得图像生成模型更加符合实际应用的需求，特别是在那些对生成结果控制要求较高的领域。这项研究不仅提升了图像生成模型的技术水平，也为未来的图像合成应用开辟了新的可能性。

用于条件图像生成的

图二.通过融合GAN和CGAN进行32

32图像合成的FusedGAN插图。

我们提出了一种方法来解开的结构（捕捉姿势和形状）和风格

（捕捉前景和背景的细粒度外观），以执行图像合成与高保真度，多

样性和可控性的采样。而不是试图学习一个独立的条件生成器，我们

建议从一个无条件的生成器。我们通过一个简单的思想实验来说明我

们的方法。考虑在一个示例中，任务是绘制给定文本描述的鸟，例

如

“a yellow bird with black wings and a re d tal l”

。

制作

的方法是首先制作

出

一只鸟的轮廓，该鸟具有特定的姿势和翅膀、冠部、喙和尾巴的形

状。然后，根据描述，随后将翅膀涂成黑色，身体涂成黄色，尾巴涂

成红色。注意鸟的初始草图与条件无关，

即

，定义样式的文本说明

只有在画鸟的后期才需要它。

受这种直观的绘图过程以及先前堆叠的深度生成模型的成功[16，

18，20]的启发，我们建议解开图像生成过程，以便我们学习两个级

联的生成器。第一个非条件生成器生成一个结构先验（类似于鸟的初

始草图），它独立于条件，第二个条件生成器进一步为其添加样式并

创建一个与条件匹配的图像（详见第3换句话说，我们通过级联两个

发生器

通过解开生成过程，我们的方法的一个额外的优点是，我们可以

只使用没有相应条件的图像来训练无条件生成器。这使我们能够在训

练期间利用半监督数据。它有助于学习更好的结构先验（图2中所示

的融合块），这反过来有助于生成更好和多样化的条件图像。

我们提出的模型称为FusedGAN，在这个意义上是独一无二的，它

在单个阶段中具有堆叠的优势，可以使用半监督数据进行有效训练。

与现有方法相比，我们的模型的优点是：1）它有助于以受控的多样

性对图像进行采样。2)我们可以在训练过程中使用半监督数据。这意

味着，除了用于条件图像生成（例如文本到图像）的通常配对数据

外，我们还可以利用没有配对条件的图像3）与FashionGAN不同 [20]

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

FusedGAN：深度网络驱动的条件图像生成与可控采样

泰迪杯 ： 基于 python 实现 运输车辆安全驾驶行为的分析

基于springboot的校园社交平台源码数据库文档.zip

scipy-1.7.1-cp37-cp37m-linux_armv7l.whl

java源码资源EJB 模拟银行ATM流程及操作源代码

pillow-11.0.0-cp39-cp39-linux_armv7l.whl

java面试视频资源微服务架构之Spring Cloud Eureka 场景分析与实战

基于springboot+vue的音乐播放系统源码数据库文档.zip

matplotlib-3.5.0-cp37-cp37m-linux_armv7l.whl

onnxruntime-1.16.2-cp311-cp311-win_amd64.whl

基于springboot复兴村医疗管理系统源码数据库文档.zip

最新资源

泰迪杯：基于 python 实现运输车辆安全驾驶行为的分析