VAE(AEVB)原文笔记
在存在具有难解的后验分布的连续潜在变量和大型数据集的情况下,我们如何在有向图模型中进行有效的推理
和学习?我们介绍了一种随机变分推断和学习算法,该算法可扩展到大型数据集,并且在某些温和的微分条件下,
甚至可以在难解的情况下工作。
我们的贡献是双重的:
(1)首先,我们证明了变分下界的再参数化产生了一个下界估计量,该估计量可以使用标准随机梯度方法直接
优化。
(2)其次,我们表明,对于每个数据点具有连续潜在变量的(iid)数据集,通过使用提出的下界估计器将近
似推理模型(也称为识别模型)拟合到难解的真实后验,可以实现特别有效的实现后验推断。理论上的优势可以体
现在实验结果上。
我们如何使用连续的潜在变量和/或参数具有难以处理的后验分布的定向概率模型进行有效的近似推理和学习?
变分贝叶斯(VB)方法涉及对难解性后验的近似优化。不幸的是,普通的均值场方法需要对期望值进行近似后验的
解析解,这在一般情况下也是很难解决的。我们展示了变分下界的重新参数化如何产生下界的一个简单的可微分的
无偏估计量。该 SGVB(随机梯度变分贝叶斯)估计器可用于几乎任何具有连续潜在变量和/或参数的模型中的有效
近似后验推断,并且可以使用标准随机梯度上升技术直接进行优化。
对于 iid 数据集和每个数据点连续的潜在变量的情况,我们提出了自动编码变分贝叶斯(AEVB)算法。在 AEVB
算法中,我们通过使用 SGVB 估计器优化识别模型来使推理和学习特别有效,该模型使我们能够使用简单的祖先采样
执行非常有效的近似后验推理,从而使我们能够高效地学习模型参数,而无需每个数据点需要昂贵的迭代推理方案
(例如 MCMC)。所学习的近似后验推理模型也可以用于许多任务,例如识别,去噪,表示和可视化目的。当将神经
网络用于识别模型时,我们得出了变分自动编码器。
假设的情形:
(1)先生成 z 再生成 x。
(2)难解性:EM 算法核心在于 p(z|x)是可解的,这样 p(x)必须是可解的,p(x|z;selta)一般可解。甚
至平均场变分贝叶斯都是很难算的。(平均场变分贝叶斯是 lda 的变分推断的核心)
(3)大量数据:我们有大量数据,以至于批处理优化的成本太高;我们希望使用小型批次甚至单个数据点进行参
数更新。另一方面,基于采样的解决方案(例如蒙特卡洛 EM)太慢,因为它涉及每个数据点通常昂贵的采样循环。
三个问题:
1.对参数 θ 的有效近似 ML 或 MAP 估计。参数本身可能很有趣,例如,如果我们正在分析某个自然过程。它们还使我