ReStyle: 迭代细化提升StyleGAN编码器性能

171 浏览量更新于2025-01-16 收藏 26.57MB PDF 举报

“ReStyle：一种基于残差的StyleGAN编码器通过迭代细化，旨在提升GAN的图像反转效果，特别是在无条件图像合成中的应用。该方法通过引入迭代细化机制，改进了现有基于编码器的反转策略，使编码器预测残差而非直接预测潜在代码，从而提高了准确性和鲁棒性。ReStyle编码器在保持低推理时间的同时，对比最先进的编码器方法有显著改进。” 在深度学习领域，生成对抗网络（GANs）已经成为图像生成和编辑的强有力工具。StyleGAN是GAN的一个变种，它能生成高质量且具有丰富语义信息的图像。对StyleGAN的潜在空间进行操作，可以实现对图像的精细编辑。然而，将现实世界的图像转换为StyleGAN的潜在表示（即“图像反转”）是一项挑战，因为这需要找到一个潜在向量，当输入到StyleGAN生成器时，能够尽可能地还原原始图像。现有的反转方法主要包括基于学习的和基于优化的两种。基于学习的方法，如编码器，速度快但可能在重建准确性上不如基于优化的方法。基于优化的方法虽然能获得更精确的反转结果，但计算成本高，不适合实时应用。 ReStyle是一种创新的基于残差的StyleGAN编码器，它通过迭代细化过程来提高基于学习的反转方法的性能。不同于传统的编码器直接预测潜在代码，ReStyle预测的是每次迭代中残差的更新，这种自我校正的方式允许编码器逐步接近真实的潜在代码，从而提高了反转的准确性。这种方法不仅在准确度上有提升，而且几乎不增加推理时间，保持了实时编辑的可能性。通过对ReStyle的行为进行分析，研究者们揭示了其迭代性质的有价值见解，并对其性能进行了全面评估。他们比较了ReStyle与其他基于优化的反转方法和最先进的编码器在鲁棒性方面的表现，证明了ReStyle在处理图像反转任务时的优越性。这一工作为GAN的图像操作和编辑提供了更高效、准确的工具，推动了无条件图像合成领域的进步。对于那些希望利用StyleGAN进行真实图像编辑的研究人员和开发者来说，ReStyle提供了一个强大的新工具。代码已经在作者的项目页面上公开，方便社区进行进一步的研究和应用。

6711

ReStyle：一种基于残差的StyleGAN编码器通过迭代细化

YuvalAlalufOrPatashnikDanielCohen-Or

特拉维夫大学计算机科学学院

摘要

最近，通过使用生成对抗网络（GAN），无条件图像合成的能力已

经显著提高。将图像反转为训练过的GAN的相应潜在代码是非常重

要的任务，因为它允许利用网络学到的丰富语义进行真实图像的操

作。鉴于当前反转方法的局限性，在这项工作中，我们提出了一种

新颖的反转方案，通过引入迭代细化机制来扩展当前基于编码器的

反转方法。与直接使用单次传递预测给定真实图像的潜在代码不同

，编码器被要求以自我校正的方式预测相对于当前估计的反转潜在

代码的残差。我们的基于残差的编码器ReStyle在准确性方面相比于

当前最先进的基于编码器的方法具有改进，而推理时间几乎没有增

加。我们分析了ReStyle的行为，以获得有关其迭代性质的有价值的

见解。然后，我们评估了我们的残差编码器的性能，并分析了与基

于优化的反转和最先进的编码器相比的鲁棒性。代码可通过我们的

项目页面获得：https：/

/yuval-alaluf.github.io/restyle-encoder/

1.引言

最近，由于生成对抗网络（GAN）能够合成高质量和多样性的图像，它们在

人们中的流行度不断增长。除了在许多领域上的惊人逼真度和保真度之外，

最近的研究表明，GAN（例如StyleGAN）能够有效地在其潜在空间中编码语

义信息。值得注意的是，已经证明StyleGAN学习到的潜在空间W具有解缠绕

特性，使得可以通过利用训练良好的StyleGAN生成器进行广泛的图像操作。

然而，这种操作通常被应用于GAN自身生成的合成图像。要在真实图像上应

用这样的编辑，必须首先将给定图像反转为StyleGAN的潜在空间。也就是说

，找到潜在代码w，使得将w传递给预训练的StyleGAN生成器返回原始图像

。为此，已经普遍使用基于学习的反转方法，并训练编码器将给定的真实图

像映射到其相应的潜在代码。与每个图像的潜在向量优化相比，编码器速度

更快，因为它们使用单次前向传递进行反转，并收敛到更适合编辑的潜在空

间区域。然而，就重建准确性而言，学习为基础的反转方法与基于优化的反

转方法之间仍存在显著差距。因此，尽管在学习为基础的反转方面取得了重

大进展，但设计适当的编码器和训练方案仍然是一个具有挑战性的问题，许

多研究仍然采用每个图像的优化方法。

输入迭代输出−→

图1。与传统的基于编码器的反转技术不同，我们的基于残差的ReS

tyle方案采用迭代的方式逐步收敛到真实图像的准确反转。对于每

个领域，我们首先显示左侧的输入图像，然后显示中间的反转输出

。

首先将给定图像反转为StyleGAN的潜在空间。也就是说，

找到潜在代码w，使得将w传递给预训练的StyleGAN生成器

返回原始图像。为此，已经普遍使用基于学习的反转方法，

并训练编码器将给定的真实图像映射到其相应的潜在代码。

与每个图像的潜在向量优化相比，编码器速度更快，因为它

们使用单次前向传递进行反转，并收敛到更适合编辑的潜在

空间区域。然而，就重建准确性而言，学习为基础的反转方

法与基于优化的反转方法之间仍存在显著差距。因此，尽管

在学习为基础的反转方面取得了重大进展，但设计适当的编

码器和训练方案仍然是一个具有挑战性的问题，许多研究仍

然采用每个图像的优化方法。

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

ReStyle: 迭代细化提升StyleGAN编码器性能

基于残差神经网络的木马通信流量分析研究.pdf

基于残差神经网络编码的手势识别算法研究.zip

基于前景感知视觉注意的半监督视频目标分割.docx

分布式视频编码中的边信息优化算法.pdf

二维泊松方程的V周期多重网格方法研究

【硬件加速方法】：MQ算术编码器的硬件实现与性能提升

【迭代方法精确处理】：信号处理中逐步逼近的策略与技巧

FreeFEM迭代求解器：原理与应用的全面剖析

【定制化图像生成】：掌握条件GAN的技巧与特征控制

Transformer模型的优化与加速方法

最新资源