无配对照片转几何线条图：自动编码与多模态生成

PDF格式 | 19.8MB | 更新于2025-01-16 | 115 浏览量 | 举报

本文探讨了一种新颖的无配对数据生成几何语义线条图的方法，旨在解决传统线条图生成技术面临的局限性。当前的方法往往依赖于高质量的配对数据集，这些数据集可能存在主题领域狭窄、数量有限等问题，限制了线条图的多样性和适用性。随着无监督图像转换领域的进步，虽然已有了一些成果，但生成令人印象深刻的线条图仍是一个挑战。作者Caroline Chan、Fredo Durand和Phillip Isola提出了一种突破性的方法，它不依赖于成对的数据，而是通过对照片中的场景信息进行深入理解和编码，来生成线条图。他们观察到线条图不仅包含了3D形状信息，还传达了语义含义，因此将这些作为生成目标。他们的方法包括以下几个关键组件： 1. **无配对训练**：该方法通过无监督学习的方式，利用大量的非配对照片作为训练数据，避免了创建人工配对线条图数据集的需求。 2. **几何损失**：引入了一个几何损失函数，通过分析线条图的图像特征来预测深度信息，这有助于恢复原始照片中的三维结构。 3. **语义损失**：通过比较线条图的CLIP特征（基于预训练的自然语言理解模型）与照片的语义信息，确保线条图能准确表达照片的主题和含义。 4. **图像转换问题的视图**：将线条图生成视为一个图像转换问题，通过设计多样的损失函数来评估线条图中传递的信息质量，如深度、语义和外观的再现。 5. **深度学习解码**：借助深度学习技术，该方法从线条图中提取出深度、语义和视觉细节，以生成既符合几何规则又具有丰富语义的线条图。这种方法革新了线条图生成领域，使得从任意照片中生成高质量的线条图成为可能，且无需人工干预或特定领域的数据集，为无监督图像转换和线条图生成带来了新的可能性。通过这种方法，研究人员和艺术家能够更有效地探索和利用线条图的几何和语义表达能力，从而推动非真实感渲染和计算机艺术创作的发展。

(1)

7917

外观

CLIP

几何

风格损失

GA(a)a

语义

图2.给定照片a，我们的模型训练网络GA通过四个主要损失合成线

描GA(a)。通过鉴别器DB的对抗风格损失鼓励生成的线描与训练集

的风格匹配。CLIP、外观和几何损失分别强制线描传达有效的语义

、外观和几何。

通过评估线描传达的几何和语义信息来实现目标。该设置如

图2所示。我们在第4节中展示了这些新损失对于创建有意义

的线描是至关重要的。我们使用生成器网络GA、GB和鉴别

器DA、DB进行对抗训练，分别用于领域A和B。几何目标通

过预训练的深度网络实现，该网络从线描中预测深度图，并

对深度输出施加监督损失。该损失鼓励我们的模型在几何上

绘制线条（例如遮挡轮廓）。其次，我们引入了CLIP[66]损

失，将语义含义添加到生成的线描中。由于任意照片通常显

示复杂场景，我们使用捕捉语义细节很好的视觉CLIP嵌入。

然后，我们要求线描的CLIP嵌入与原始照片的CLIP嵌入相似

。我们还使用弱权重的循环一致性损失来保留外观信息。

3.1.损失

对抗损失鼓励生成的图像属于各自的领域[25]。使用LSGAN

设置[59]的每个领域的损失如下所示。

L_GAN=E_aA[D_A(a)2]+E_bB[1−

D_A(G_B(b))2]

几何目标在训练过程中最大化生成线描中的深度信息。我们

观察到

线描通常是传达3D形状的有效手段，并在训练过程中应用此

属性。给定大量的线描数据集，模型可以在没有任何明确监

督的情况下学习到这一特性。然而，当前的方法在没有这种

几何约束的情况下无法将线条放置在有意义的位置上（见第

4节）。照片数据集和线描之间的领域差距也是障碍。相反

，我们提出了一种几何约束，用于监督线描的深度预测。为

了监督线描的深度预测，需要获取照片输入的深度图。不幸

的是，大多数数据集通常没有真实的深度信息。然而，最近

的方法在为照片生成高分辨率深度图方面非常成功。这一进

展使我们能够使用从最先进的深度预测网络F获得的伪地面

真实深度图。在实践中，我们使用基于MiDaS的[60]网络。

我们注意到，照片的伪地面真实图仅在训练时需要，而在测

试时不需要。一种简单的监督几何预测的方法是引入网络G

Geom，在训练过程中从线描中预测深度图。然而，这种方

法存在一些问题。训练G

Geom从合成线描中学习深度可能会鼓励线描生成器GA将深

度信息注入到不需要的形式中，例如一个不可察觉的信号[1

4]。我们希望避免在线描中嵌入不可见的信息。使用预训练

的深度网络F在线描上不是一个选择，因为存在领域差距。

相反，我们提出了从常见的照片和线描之间共享的图像特征

中学习推断深度的方法。具体而言，我们预训练一个网络G

Geom，根据ImageNet[19]特征预测深度。这些特征，尤

其是在早期层次上，对于迁移学习[47]非常有用。这种情况

希望通过首先将线描编码为与照片共享的表示形式，然后应

用一个已经从照片特征中学习到深度的网络来避免不可见信

号问题。为了获取图像特征，我们将照片输入预训练的Ince

ptionv3[73]网络，并从Mixed

6b节点提取特征（见补充材料）。我们将该层的提取特征表

示为输入a的I(a)。在预训练之后，网络G

Geom为线描预测深度图。在实践中，我们在训练线描生成

时微调G

Geom。几何损失的公式如下。给定照片a，我们首先将a输

入最先进的深度网络F，并获得伪地面真实深度图F(a)。然后

我们生成线描GA(a)并提取其ImageNet特征I(GA(a))。然后

将这些特征传递给预训练的深度网络G

Geom，以生成深度图预测G

Geom(I(GA(a)))。然后，这个深度预测被计算为

剩余10页未读，继续阅读

cpongm

粉丝: 6

无配对照片转几何线条图：自动编码与多模态生成

生成对抗网络的语义不变跨域图像生成

配对序列生成算法实现与分析

跨模态配对图像生成-用于RGB红外行人重识别算法的跨模态配对图像生成-附项目源码+流程教程-优质项目实战.zip

Platonic:研究人员的语义配对

无监督姿势引导图像生成：语义解析与外观生成新方法

DRIT++：实现无配对数据多样化图像转换

深度学习去雨新方法：双对比无配对数据驱动

2DPASS：利用2D先验提升点云语义分割的无配对学习方法

TripleGAN: 数据配对增强的图像生成与应用

无监督单目深度估计：语义感知与对象几何结构建模的新方法

最新资源