没有合适的资源?快使用搜索试试~ 我知道了~
首页贝叶斯机器学习前沿进展综述_朱军
贝叶斯机器学习前沿进展综述_朱军
需积分: 0 825 浏览量
更新于2023-05-22
评论
收藏 528KB PDF 举报
随着大数据的快速发展,以概率统计为基础的机器学习在近年来受到工业界和学术界的极大关 注,并在视觉、语音、自然语言、生物等领域获得很多重要的成功应用,其中贝叶斯方法在过去20多年也 得到了快速发展,成为非常重要的一类机器学习方法.总结了贝叶斯方法在机器学习中的最新进展,具 体内容包括贝叶斯机器学习的基础理论与方法、非参数贝叶斯方法及常用的推理方法、正则化贝叶斯方 法等.最后,还针对大规模贝叶斯学习问题进行了简要的介绍和展望,对其发展趋势作了总结和展望
资源详情
资源评论
资源推荐

书书书
计算机研究与发展
DOI
:
1
0.7544
?
issn1000
-
1239 .2015
.20140107
Journal
of
Com
p
uter
Research
and
Develo
p
ment
52
(
1
)
:
16
-
2
6
,
20
15
收稿日
期
:
201
4
-
10
-
13
;
修回日
期
:
201
4
-
11
-
22
基金项
目
:
国家
“
九七三
”
重点基础研究发展计划基金项目
(
201
3CB329403
,
2012CB316301
);
国家自然科学基金项目
(
61322308
,
61332007
)
贝叶斯机器学习前沿进展综述
朱
军
胡文波
(
智能技术与系统国家重点实验室
(
清
华大
学
)
北京
100084
)
(
清华信息科学与技术国家实验室
(
筹
)
北
京
100084
)
(
清华大学计算机科学技术系
北京
100084
)
(
dcsz
j
@
mail.tsin
g
hua.edu.cn
)
Rec
ent
Advances
in
Ba
y
esian
Machine
Learnin
g
Zhu
J
un
and
Hu
Wenbo
(
Sat
e
Ke
y
Lab
orator
y
o
f
Int
elli
g
ent
Tec
hnolo
gy
and
S
y
ste
ms
(
Tsi
n
g
hua
Uni
versit
y
),
Bei
j
i
n
g
100
084
)
(
T
si
n
g
hua
N
at
ional
L
ab
orator
y
f
or
I
n
f
or
mation
S
ci
ence
a
nd
T
ec
hnolo
gy
,
B
ei
j
i
n
g
1
00
084
)
(
De
p
ar
tment
o
f
Com
p
u
ter
Sci
ence
and
Tec
hnolo
gy
,
Tsi
n
g
hua
Uni
versit
y
,
Bei
j
i
n
g
100
084
)
Abs
tract
With
the
fast
g
rowth
of
bi
g
data
,
statistical
machine
learnin
g
has
attracted
tremendous
attention
from
both
industr
y
and
academia
,
with
man
y
successful
a
pp
lications
in
vision
,
s
p
eech
,
natural
lan
g
ua
g
e
,
and
biolo
gy
.In
p
articular
,
the
last
decades
have
seen
the
fast
develo
p
ment
of
Ba
y
esian
machine
learnin
g
,
which
is
now
re
p
resentin
g
a
ver
y
im
p
ortant
class
of
techni
q
ues.In
this
article
,
we
p
rovide
an
overview
of
the
recent
advances
in
Ba
y
esian
machine
learnin
g
,
includin
g
the
basics
of
Ba
y
esian
machine
learnin
g
theor
y
and
methods
,
non
p
arametric
Ba
y
esian
methods
and
inference
al
g
orithms
,
and
re
g
ularized
Ba
y
esian
inference.Finall
y
,
we
also
hi
g
hli
g
ht
the
challen
g
es
and
recent
p
ro
g
ress
on
lar
g
e
-
sca
le
Ba
y
esian
learnin
g
for
bi
g
data
,
and
discuss
on
some
future
directions.
Ke
y
words
Ba
y
esian
machine
learnin
g
;
non
p
arametric
methods
;
re
g
ularized
methods
;
learnin
g
with
bi
g
data
;
bi
g
Ba
y
esian
learnin
g
摘
要
随着大
数据的快速发展
,
以概率统计为基础的机器学习在近年来受到工业界和学术界的极大关
注
,
并在视觉
、
语音
、
自然语言
、
生物等领域获得很多重要的成功应用
,
其中贝叶斯方法在过去
20
多年也
得到了快速发展
,
成为非常重要的一类机器学习方法
.
总结了贝叶斯方法在机器学习中的最新进展
,
具
体内容包括贝叶斯机器学习的基础理论与方法
、
非参数贝叶斯方法及常用的推理方法
、
正则化贝叶斯方
法等
.
最后
,
还针对大规模贝叶斯学习问题进行了简要的介绍和展望
,
对其发展趋势作了总结和展望
.
关键词
贝叶斯
机器学习
;
非参数方法
;
正则化方法
;
大数据学习
;
大数据贝叶斯学习
中
图法
分类号
TP181
机器学习是人工智能及
模式识别领域的共同研
究热点
,
其理论和方法已被广泛应用于解决工程应
用和科学领域的复杂问题
.20
10
年的图
灵奖获得者
为哈佛大学的
Les
lie
Valliant
教授
,
其获
奖工作之
一是建 立 了 概 率 近 似 正 确
(
p
rob
abl
y
a
pp
roximate
correct
,
PAC
)
学习理
论
;
201
1
年的图灵奖获得者
为加州大学洛杉矶分校的
Judea
Pearl
教授
,
其主
要
贡献为建立了以概率统计为理论基础的人工智能方
法
,
其研究成果促进了机器学习的发展和繁荣
.
机器学习的一个重要分支是贝叶斯机器学习
.

贝叶斯
方法最早起源于英国数学家托马斯
·
贝叶斯
在
176
3
年所证
明的一个关于贝叶斯定理的一 个特
例
[
1
]
.
经过多位统计
学家的共同努力
,
贝叶斯统计在
20
世纪
50
年代之后逐步建立起来
,
成为统计学中
一个重要的组成部分
[
2
-
3
]
.
贝叶斯定理因为其对
于概
率的主观置信程度
[
4
]
的独特
理解而闻名
.
此后由于
贝叶斯统计在后验推理
、
参数估计
、
模型检测
、
隐变
量概率模型等诸多统计机器学习领域方面有广泛而
深远的应用
[
5
-
6
]
.
从
176
3
年到现
在已有
250
多
年的
历
史
,
这期间贝叶斯统计方法有了长足的进步
[
7
]
.
在
21
世纪的
今天
,
各种知识融会贯通
,
贝叶斯机器学
习领域将有更广阔的应用场景
,
将发挥更大的作用
.
1
贝叶斯学习基础
本节将
对贝叶斯统计方法进行简要的介绍
[
5
]
:
主要包
括贝叶斯定理
、
贝叶斯模型的推理方法
、
贝叶
斯统计学的一些经典概念
.
1.1
贝
叶斯
定理
用
Θ
表示概
率模型的参数
,
D
表示给
定的数据
集
.
在给定模型的先验分布
p
0
(
Θ
)
和似然
函数
p
(
D
|
Θ
)
的情况
下
,
模 型 的 后 验分布 可 以 由 贝 叶 斯 定理
(
也称贝叶斯公式
)
获得
[
2
]
:
p
(
Θ
|
D
)
=
p
0
(
Θ
)
p
(
D
|
Θ
)
p
(
D
)
, (
1
)
其中
p
(
D
)
是模型
的边缘似然函数
.
贝叶斯定理已经广为人知
,
这里介绍一种与贝
叶斯公式等价但很少被人知道的表现形式
,
即基于
优化的变分推理
:
min
q
(
Θ
)
∈
P
KL
(
q
(
Θ
)
‖
p
0
(
Θ
))
-
E
q
[
lo
g
p
(
D
|
Θ
)],
(
2
)
其
中
P
为归一
化的概率分布空间
.
可以证明
,
式
(
2
)
中的变分优化的最优解等价于式
(
1
)
中的后验推理
的结果
[
8
]
.
这种变
分形式的贝叶斯定理具有两方面
的重要意义
:
1
)
它为变分贝叶斯方法
[
9
]
(
var
iational
Ba
y
es
)
提供了
理论基础
;
2
)
提供了一个很好的框架
以便于引用后验约束
,
丰富贝叶斯模型的灵活
性
[
10
]
.
这两点
在后面的章节中将具体阐述
.
1.2
贝
叶斯
机器学习
贝叶斯方法在机器学习领域有诸多应用
,
从单
变量的分类与回归到多变量的结构化输出预测
、
从
有监督学习到无监督及半监督学习等
,
贝叶斯方法
几乎用于任何一种学习任务
.
下面简要介绍较为基
础的共性任务
.
1
)
预测
.
给定训练数据
D
,
通过贝
叶斯方法得
到对未来数据
x
的预测
[
5
]
:
p
(
x
|
D
)
=
∫
Θ
p
(
x
,
Θ
|
D
)
=
p
(
x
|
Θ
,
D
)
p
(
Θ
|
D
)
.
(
3
)
需要指
出的是
,
当模型给定时
,
数据是来自于
独立同分布 的 抽 样
,
所 以
p
(
x
|
Θ
,
D
)
通 常 简
化 为
p
(
x
|
Θ
)
.
2
)
模型选
择
.
另一种很重要的贝叶斯方法的应
用是模型选择
[
1
1
]
,
它是统
计和机器学习领域一个较
为基础的问题
.
用
M
表示一
族模型
(
如线性模型
),
其中每个元素
Θ
是一个具体的模型
.
贝叶斯
模型选
择通过比较不同族模型的似然函数来选取最优的
:
p
(
D
|
M
)
=
∫
Θ
p
(
D
|
Θ
)
p
(
Θ
|
M
)
.
(
4
)
当没有明显先验分布
的情况下
,
p
(
Θ
|
M
)
被认
为是
均匀分布
.
通过式
(
4
)
的积分运算
,
贝叶斯模型
选择可以避免过拟合
.
关于贝叶斯统计和贝叶斯学习更为详细的内
容
,
有些论文和教材有更进一步的说明
[
2
,
5
,
10
,
12
]
.
2
非参数贝叶斯方法
在经典的参数化模型中模型
的参数个数是固定
的
,
不会随着数据的变化而变化
.
以无监督的聚类
模型为例
,
如果能通过数据本身自动学习得到聚类
中心的个数
,
比参数化模型
(
如
K
均值
、
高斯
混合模
型等
)
根据经验设定一个参数要好得多
;
这也是非参
数模型一个较为重要的优势
.
相比较参数化贝叶斯
方法
,
非 参 数 贝 叶 斯 方 法
(
non
p
a
rametric
Ba
y
esian
methods
)
因为其
先验分布的非参数特性
,
具有描述
数据能力强的 优 点
[
13
]
,
非参数贝叶斯方法因此在
2
00
0
年以后
受到较多关注
[
14
]
.
例如具有未知维度
的
隐式混合模型
[
15
]
和隐式特征模型
[
16
]
、
描述连
续函数
的高斯过程
[
1
7
]
等
.
需要强
调的是非参数化贝叶斯方
法并不是指模型没有参数
,
而是指模型可以具有无
穷多个参数
,
并且参数的个数可以随着数据的变化
而自适应变化
,
这种特性对于解决大数据环境下的
复杂应用问题尤其重要
,
因为大数据的特点之一是
动态多变
.
下面将主要针对其中的一些较为重要的
模型和推理方法进行简要介绍
.
2.1
狄
利克
雷过程
狄利克雷过程
(
Dir
ichlet
p
rocess
,
DP
)
是统计
学
家
Fer
g
u
son
于
1973
年提出的一个定义在概率测度
Ω
上的随
机过程
[
18
]
,
其参数
有集 中参数
α
>
0
和基底
71
朱
军等
:
贝叶斯机器学习前沿进展综述

概率分
布
G
0
,
通常记
为
G
~
DP
(
α
,
G
0
)
.
狄利克
雷过
程得到的概率分布是离散型的
,
因此非常适合构建
混合模型
,
例如
,
Ant
oniak
于
1974
年通过给每个数
据点增
加一个生成概率
,
构造了一个狄利克雷过程
混合模型
(
Dir
ichlet
p
rocess
mixture
,
DPM
)
[
1
5
]
,
即
x
i
~
p
(
x
|
θ
i
), (
5
)
其中
,
θ
i
~
G
,
i
∈
[
N
]
是生成
每个数据点概率分布的
参数
,
比如高斯分布的均值和协方差等
,
N
为数据
点
的个数
.
与狄利克雷过程等价的一个随机过程是中国餐
馆过程
(
Chi
nese
restaurant
p
rocess
,
CRP
)
[
19
]
.
中国
餐馆过程是定义
在实数域上的具有聚类特性的一类
随机过程
,
也因为其特有的较好展示特性而被经常
使用
.
如图
1
所示
,
在中国餐馆过程中
,
假设有无限
张餐桌和若干客人
;
其中第
1
名顾客选择第
1
张餐
桌
,
之后的顾客按照多项式分布选择餐桌
,
其中选择
每张餐桌的概率正比于该餐桌现在所坐的人数
,
同
时以一定概率
(
正 比 于 参 数
α
)
选择一个没人的餐
桌
.
可以看
到
,
当所有的客人选择完毕餐桌
,
我们可
以按照餐桌来对客人进行一个划分
.
这里
,
每张餐桌
代表一个聚类
,
每个客人代表一个数据点
.
Fi
g
.1
I
llustration
of
the
formation
of
Chinese
restaurant
p
rocess
[
16
]
.
图
1
中国餐馆过程的生成过程
[
16
]
可以证
明所有的聚类点参数
θ
可以通
过式
(
6
)
得到
:
p
(
θ
1
,…,
θ
N
|
α
,
G
0
)
=
∫
∑
N
i
=
1
p
(
θ
i
|
G
( )
)
d
P
(
G
|
α
,
G
0
), (
6
)
将
狄利克雷混合模型
中的
G
积分即
可得到中国餐馆
过程
,
这也说明了两个随机过程的关系
.
这种简洁的
表述也很有利于马尔可夫蒙特卡洛方法的采样
[
20
]
.
另一种构造性的狄利克
雷过程的表述是截棍过
程
(
sti
ck
breakin
g
construction
)
[
21
]
.
具 体 地
说
,
将
一根单位长度的棍
,
第
k
次切割都按照剩下的长度
按照贝
塔分布的随机变量
,
按比例切割
:
β
k
~
Bet
a
(
1
,
α
),
π
k
=
β
k
∑
k
-
1
j
=
1
(
1
-
β
j
), (
7
)
即
如图
2
所
示
,
对于一根长度为单位
1
的棍
,
第
1
次
切割
β
1
长度
,
以后
每次切割都切割剩下部分的
β
k
比例长
度
.
狄利克雷过程的截棍表述是变分推理的
基础
[
22
]
.
Fi
g
.2
I
llustration
of
stick
breakin
g
construction
[
2
3
]
.
图
2
截棍过程示意图
[
2
3
]
2.2
印度自助餐过程
与混合模型中每一个数据点
只属于一个聚类不
同
,
在特征模型中每一个数据点可以拥有多个特征
,
这些特征构成了数据生成的过程
.
这也符合实际情
况中样本数据点有多个属性的实际需求
.
经典的特
征模型主要有因子分析
(
fac
tor
anal
y
sis
)、
主成分
分
析
(
p
rin
ci
p
al
com
p
onent
anal
y
sis
)
[
2
4
-
2
5
]
等
.
在传统
的
特征模型中
,
特征的数目是确定的
,
这给模型的性能
带来 一 定 限 制
.
印 度 自 助 餐 过 程
(
ind
ian
buffet
p
rocess
,
IBP
)
是
2005
年提出
的
[
26
]
,
因其非
参数特
性能从数据中学习得到模型中的特征个数
,
使得模
型能够更好地解释数据
,
已经在因子分析
、
社交网络
链接预测等重要问题中应用
[
27
-
29
]
.
以二值
(
“
0
”
或
“
1
”)
特
征为
例
,
假设有
N
个数据
点
,
所
有数据点的特征向量组成一个特征矩阵
,
IBP
的
产生
式过程可以形象地类比为
N
个顾客
到一个
无穷多个餐品的自助餐馆进行选餐的过程
,
用
“
1
”
表
示选择
,“
0
”
表示不选择
,
具体描述如图
3
所示的方法
进行
:
1
)
第
1
名 顾 客 选 择
K
1
个 餐 品
,
其
中
K
1
~
Pos
sion
(
α
);
2
)
第
2
名及以后的顾客有两种
情况
:
①
对于已经被选过的餐品
,
按照选择该餐品的
人数成正比的概率选择该餐品
;
②
选 择
K
i
个未被选过的餐品
,
其 中
K
i
~
Pos
sion
α
( )
n
.
与中国
餐馆过程类似
,
印度自助餐过程也有其
对应的截棍过程
[
3
0
]
.
这里不
再赘述
,
仅列出 其构造
性表述如下
:
ν
j
~
Bet
a
(
α
,
1
),
π
k
=
∑
k
j
=
1
ν
j
.
(
8
)
但是
,
与中
国餐馆过程的截棍过程不同的是棍
的长度之和并不为
1.
印度自助餐过程也有其对应
的采样方法和变分优化求解方法
[
16
,
30
-
31
]
.
81
计算机研究与发展
20
15
,
52
(
1
)
剩余10页未读,继续阅读



















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0