没有合适的资源?快使用搜索试试~ 我知道了~
首页变分推断(Variational Inference)最新进展简述.docx
变分推断(Variational Inference)最新进展简述.docx
需积分: 50 919 浏览量
更新于2023-05-27
评论
收藏 1.41MB DOCX 举报
变分推断(Variational Inference, VI)是贝叶斯近似推断方法中的一大类方法,将后验推断问题巧妙地转化为优化问题进行求解,相比另一大类方法马尔可夫链蒙特卡洛方法(Markov Chain Monte Carlo, MCMC),VI 具有更好的收敛性和可扩展性。。。
资源详情
资源评论
资源推荐

变分推断(Variational Inference)最新进展简述
动机
变分推断()是贝叶斯近似推断方法中的一大类方法,
将后验推断问题巧妙地转化为优化问题进行求解,相比另一大类方法马尔可夫
链蒙特卡洛方法(),具有更好的收敛性
和可扩展性(),更适合求解大规模近似推断问题。
当 前 机 器 学 习 两 大 热 门 研 究 方 向 : 深 度 隐 变 量 模 型 (
)和深度神经网络模型的预测不确定性()
的计算求解都依赖于 ,尤其是 。
其 中 , 的 一 个 典 型 代 表 是 变 分 自 编 码 器 (
),是一种主流的深度生成模型,广泛应用于图像、语音甚至是文本的生
成任务上; 而预测不确定性的 典型代表是贝叶斯神经网络( !"
"#!"")。
当前 ""的一大缺陷是预测“过于自信”,“不知道自己不知道什么”,对于安全
性要求很高的任务来说,难以胜任,而 !""不仅给出预测值,而且给出预测的
不确定性,从而使得模型“知道自己不知道什么”, !""广泛应用于探索与利用
( $ % $ ) 问 题 ( 比 如 : 主 动 学 习 、 贝 叶 斯 优 化 、
!问题)和分布外样本检测问题(比如:异常检测、对抗样本检测)等。
本文以最经典的 VI 方法 Mean Field VI (MFVI) 为基础,从以下几个角度依次
简述 VI 方法的最新进展:
如何更好地度量变分后验分布和真实后验分布之间的差异?
如何使用更复杂的先验分布来描述参数信息?
如何使用更复杂的后验分布簇来降低 方法的 ?
如何通过随机梯度估计方法来提升 方法的 ?
问题定义
考虑一个一般性的问题, $是 维的观测变量,&是 '维的隐变量,贝叶斯模
型中需要计算后验分布,如下:

其中,(&)是先验分布,($*&)是似然函数, ($)+,(&)($*&),称为 ,
通常 ($)是一个不可积的多重积分,导致后验分布 (&*$)无法获得解析解,同
时因为 ($)只与确定的观测变量有关,在计算时可认为是一个常数。
假设后验分布用一个变分分布 -(&./)来近似,通过构造如下优化问题:
来求解使得两个分布距离最小的变分分布参数 /,从而得到近似后验分布。
因为真实后验分布是未知的,直接优化公式(0)是一件比较有挑战的事情,
巧妙地将其转化为优化 !1的问题。推导过程如下:
等号两边移动一下可得:
由 23的定义可知, 2(-(&./)**(&*$.4))56,同时 3($.4)是个常
数,所以求优化问题(0)等价于求如下优化问题:
这里的目标函数 !1称为 #!1( !1),继续推导如下:

!1的形式推导可由 7不等式直接推导出,如下:
公式(8)和公式(9)是一致的,所以求变分后验分布与真实后验分布 2
3的最小化等价于求 !1的最大化,而 !1的具体形式如(8)
(9)所示,进一步整理可得:
其中第一项可以理解为基于变分后验分布的重建似然函数,第二项是变分后验
分布与先验分布的 2:3。
!1的形式推导是 的基础,也是后续各种 方法的前提,大多数 方法
都旨在解决高效求解 !1优化的问题。从 !1的形式可以看出,待优化的
目标函数是一个函数的期望,如何高效估计出目标的梯度是解决问题的关键。
本文将从最经典的 ;讲起,然后依次从几个改进角度来综述 的研究进展。
Mean Field VI (MFVI)
;最早应用于统计物理,假设变分后验分布是一种完全可分解的分布,如下
式:

将公式(<)代入公式(9),同时只考虑第 =个分布,可得:
其中, 是指除掉第 =项的所有项, 是指与第 =项无关的常数项。
公式(>6)可以看作是一个负 23项,为使得 !1(=)最大,所以
负 23为 6, 可得到:
进一步整理得到:
可以利用坐标上升法()来迭代求解该优化问题,具体
算法参见下图:
改进 MFVI 的几个角度
如何更好地度量变分后验分布和真实后验分布之间的差异?

从公式(0)的目标函数可以看出,将近似推断问题转化为了优化问题,使用
的是最基础的分布距离度量方法 23,因为 23是一个非
对称的度量方法,即 2(-**)?2(**-), 因此这里存在几个值得深入研究的点。
是否可以用 2(**-):来度量变分后验分布和真实后验分布的距离?
是否可以用其他度量方法来度量两者之间的距离?
本 小 节 中 的 $3 旨 在 回 答 第 一 个 问 题 , @3 和
旨在回答第二个问题。
Expectation Propagation
从广义上讲,凡是基于一个分布簇进行优化参数来逼近真实后验分布的,都可
以归为 方法;从狭义上讲,本文开始定义的问题和思路是最经典的 方法。
将公式(0)的目标函数更改如下:
:也是一个非常活跃的研究领域,由于本文旨在介绍狭义的 :方法,因此对
:不作详细介绍,感兴趣的同学可以去看这个页面的内容 ABB'C3CB
BB'C'
:
。
α-Divergence
23是一种特殊的 D@3,一种常见的 E定义如下:
同时要求,DF6D->*D*GHI。
J:图:ED@3 的几种特殊形式
而 D:3:是一种特殊的 f:3,形式如下:
剩余22页未读,继续阅读

















Aray1234
- 粉丝: 42
- 资源: 13
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
最新资源
- ARM Cortex-A(armV7)编程手册V4.0.pdf
- ABB机器人保养总结解析.ppt
- 【超详细图解】菜鸡如何理解双向链表的python代码实现
- 常用网络命令的使用 ipconfig ping ARP FTP Netstat Route Tftp Tracert Telnet nslookup
- 基于单片机控制的DC-DC变换电路
- RS-232接口电路的ESD保护.pdf
- linux下用time(NULL)函数和localtime()获取当前时间的方法
- Openstack用户使用手册.docx
- KUKA KR 30 hA,KR 60 hA机器人产品手册.pdf
- Java programming with JNI
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0