TensorFlow中的变分自编码器详解

需积分: 23 169 浏览量更新于2024-09-09 收藏 721KB PDF 举报

"本文主要介绍了变分自编码(Variational Auto-Encoder, VAE)的概念、原理以及在TensorFlow中的应用。" 在机器学习领域，变分自编码器是一种无监督学习方法，它结合了自编码器的重构能力与概率模型的生成能力。不同于传统的自编码器，VAE不仅学习输入数据的表示，还尝试捕捉数据的潜在分布，从而能够生成新的类似样本。在TensorFlow中实现变分自编码器时，通常包括编码器和解码器两个部分。编码器网络将输入数据转化为隐藏变量Z，而解码器网络则负责从Z恢复原始数据。在VAE中，Z被假设为遵循特定的概率分布，如高斯分布。在训练过程中，模型的目标是使得编码后的Z尽可能接近这个预设的分布，同时保持解码后的数据与原始输入的相似性。分布变换是VAE的核心思想。理想情况下，我们希望找到一个转换函数g，使得从标准正态分布采样的Z经过g后能生成与训练数据集相似的分布。由于直接比较两个分布的相似性（如使用KL散度）在实践中难以实现，VAE引入了一个巧妙的解决方案，即使用变分推断。在训练过程中，VAE采用一个近似后验概率分布q(z|x)来逼近真实后验概率p(z|x)，并通过最小化Kullback-Leibler (KL)散度来优化模型。在经典的VAE教程中，模型的损失函数通常由两部分组成：重构损失（通常是交叉熵损失）用于衡量解码后的数据与原始输入的相似性，以及KL散度损失，用于使编码后的Z更接近高斯分布。在TensorFlow中，可以通过定义这两个损失并结合优化器（如Adam）来实现模型的训练。在训练过程中，VAE会学习到输入数据的潜在空间表示，这使得我们能够在该空间中进行操作，例如插值两个样本的特征向量，生成介于两者之间的新样本。此外，由于VAE的学习目标是捕获数据的分布，因此它在生成新样本和处理连续数据时表现优秀，广泛应用于图像生成、文本生成等领域。总结来说，TensorFlow中的变分自编码器通过学习数据的潜在分布，实现了对数据的高效编码和解码，并具备生成新样本的能力。其核心在于分布变换和变分推断的使用，克服了无法直接比较分布的难题，成为一种强大的无监督学习工具。在实际应用中，VAE可以为各种任务提供有价值的数据表示和生成能力。

如果直接最小化D(X^k,Xk)

这里D代表某种距离函数）是很不科学的，而事实上你看代码也会发现根本不是这样实现的。也就是说，很

多教程说了一大通头头是道的话，然后写代码时却不是按照所写的文字来写，可是他们也不觉得这样会有矛盾。

2.VAE初现初现

其实，在整个其实，在整个VAE模型中，我们并没有去使用模型中，我们并没有去使用 p(Z)（先验分布）是正态分布的假设，我们用的是假设（先验分布）是正态分布的假设，我们用的是假设p(Z|X)（后验分布）是正态（后验分布）是正态

分布！！分布！！

具体来说，给定一个真实样本Xk，我们假设存在一个专属于Xk的分布p(Z|Xk)（学名叫后验分布），并进一步假设这个分布是（独立

的、多元的）正态分布。为什么要强调“专属”呢？因为我们后面要训练一个生成器X=g(Z)，希望能够把从分布p(Z|Xk)采样出来的一个Zk

还原为Xk。如果假设p(Z)是正态分布，然后从p(Z)中采样一个Z，那么我们怎么知道这个Z对应于哪个真实的X呢？现在p(Z|Xk)专属于

Xk，我们有理由说从这个分布采样出来的Z应该要还原到Xk中去。

事实上，在论文《Auto-Encoding Variational Bayes》的应用部分，也特别强调了这一点：

In this case, we can let the

variational approximate posterior be a multivariate Gaussian with a diagonal covariance structure:

（注：这里是直接摘录原论文，本文所用的符号跟原论文不尽一致，望读者不会混淆。）

论文中的式(9)是实现整个模型的关键，不知道为什么很多教程在介绍VAE时都没有把它凸显出来。尽管论文也提到p(Z)是标准正态分

布，然而那其实并不是本质重要的。

回到本文，这时候每一个Xk都配上了一个专属的正态分布，才方便后面的生成器做还原。但这样有多少个X就有多少个正态分布了。我

们知道正态分布有两组参数：均值μ和方差σ

（多元的话，它们都是向量），那我怎么找出专属于Xk的正态分布p(Z|Xk)的均值和方差

呢？好像并没有什么直接的思路。那好吧，那我就用神经网络来拟合出来吧！

于是我们构建两个神经网络μk=f1(Xk),logσ

=f2(Xk)来算它们了。我们选择拟合logσ

而不是直接拟合σ

，是因为σ

总是非负的，需要加激

活函数处理，而拟合logσ

不需要加激活函数，因为它可正可负。到这里，我能知道专属于Xk的均值和方差了，也就知道它的正态分布

长什么样了，然后从这个专属分布中采样一个Zk出来，然后经过一个生成器得到X^k=g(Zk)，现在我们可以放心地最小化D(X^k,Xk)

，

因为Zk是从专属Xk的分布中采样出来的，这个生成器应该要把开始的Xk还原回来。于是可以画出VAE的示意：

事实上，事实上，VAE是为每个样本构造专属的正态分布，然后采样来重构。是为每个样本构造专属的正态分布，然后采样来重构。

3.分布标准化分布标准化

让我们来思考一下，根据上图的训练过程，最终会得到什么结果。

首先，我们希望重构X，也就是最小化D(X^k,Xk)

，但是这个重构过程受到噪声的影响，因为Zk是通过重新采样过的，不是直接由

encoder算出来的。显然噪声会增加重构的难度，不过好在这个噪声强度（也就是方差）通过一个神经网络算出来的，所以最终模型为了

重构得更好，肯定会想尽办法让方差为0。而方差为0的话，也就没有随机性了，所以不管怎么采样其实都只是得到确定的结果（也就是

均值），只拟合一个当然比拟合多个要容易，而均值是通过另外一个神经网络算出来的。

说白了，模型会慢慢退化成普通的AutoEncoder，噪声不再起作用。

剩余11页未读，继续阅读

朦胧的老狐狸

粉丝: 2
资源: 4

TensorFlow中的变分自编码器详解

TensorFlow实现AutoEncoder自编码器

TensorFlow-VAE-GAN-DRAW：使用TensorFlow（深度卷积生成对抗网络（DCGAN），变分自编码器（VAE）和DRAW：用于图像生成的递归神经网络）实施的生成方法的集合

TensorFlow实现自编码器.py

变分自编码器.zip_imagetaj_变分自编码_变分自编码器

变分自动编码器：以张量流和pytorch（包括逆自回归流）实现的变分自动编码器

tensorflow-mnist-VAE, MNIST变分自动编码器的Tensorflow实现.zip

tensorflow_deep_learning_models:几种深度学习模型的TensorFlow实现（例如，变分自动编码器，RNN等）

Tensorflow实现的最小变分自动编码器入门指南

MNIST图像去噪与可视化：TensorFlow和Keras实现的变分自动编码器研究

tensorflow2.0变分编码

最新资源