没有合适的资源?快使用搜索试试~ 我知道了~
首页贝叶斯推理在机器学习中的应用与重要性
贝叶斯推理在机器学习中的应用与重要性
5星 · 超过95%的资源 需积分: 32 69 下载量 200 浏览量
更新于2024-07-19
收藏 13.68MB PDF 举报
"贝叶斯推理与机器学习"
贝叶斯推理是概率统计的一个重要分支,由18世纪的英国数学家和牧师托马斯·贝叶斯提出,其核心思想是通过先验知识(即之前的经验和信息)与新观测数据相结合,来更新对事件可能性的理解。在机器学习领域,贝叶斯推理被广泛应用于模型训练、参数估计、分类和推断等任务。
在传统的统计学中,我们通常通过最大似然估计或最小二乘法来确定模型参数,这些方法不考虑先验知识。然而,贝叶斯推理引入了先验概率,它允许我们以概率形式表达对未知参数的先验信念,并通过贝叶斯公式将这些信念与观测数据结合起来,得到后验概率。贝叶斯公式如下:
\[ P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)} \]
其中,\( \theta \) 是模型参数,\( D \) 是观测数据,\( P(\theta | D) \) 是后验概率,\( P(D | \theta) \) 是似然函数,\( P(\theta) \) 是先验概率,而 \( P(D) \) 是证据因子,也称为归一化常数。
在机器学习中,贝叶斯方法的一个典型应用是朴素贝叶斯分类器。它假设特征之间相互独立,这使得计算变得更加简单。例如,在文本分类中,我们可以计算出每个单词出现在某一类文本中的先验概率和条件概率,然后根据这些概率来预测新文档的类别。
贝叶斯网络是另一种基于贝叶斯推理的模型,它通过图形结构表示变量之间的条件独立性。网络中的节点代表随机变量,边表示变量之间的依赖关系。节点的父节点提供了该节点的先验信息,而子节点则受到父节点的影响。例如,疾病和症状之间的关系可以建模为一个贝叶斯网络,用于诊断或预测。
在概率图模型中,常见的符号包括:
- \( V \):表示一组随机变量。
- \( dom(x) \):变量 \( x \) 的域。
- \( p(x) \):变量 \( x \) 的概率。
- \( p(x|y) \):在条件 \( y \) 下,变量 \( x \) 的条件概率。
- \( X⊥\!\!\!\!\bot Y|Z \):在条件 \( Z \) 下,变量 \( X \) 与 \( Y \) 独立。
- \( pa(x) \):节点 \( x \) 的父节点集合。
- \( ch(x) \):节点 \( x \) 的子节点集合。
- \( ne(x) \):节点 \( x \) 的邻居集合。
- \( dim(x) \):离散变量 \( x \) 可取状态的数量。
- \( \langle f(x) \rangle_p \):函数 \( f(x) \) 在概率分布 \( p \) 下的期望值。
贝叶斯推理的其他应用还包括贝叶斯优化、贝叶斯参数估计、贝叶斯滤波(如卡尔曼滤波)、贝叶斯决策理论等。这些方法在处理不确定性、进行数据驱动的决策时具有强大的能力,是现代机器学习和人工智能领域不可或缺的工具。
CONTENTS CONTENTS
12 Bayesian Model Selection 265
12.1 Comparing Models the Bayesian Way . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
12.2 Illustrations : coin tossing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
12.2.1 A discrete parameter space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
12.2.2 A continuous parameter space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
12.3 Occam’s Razor and Bayesian Complexity Penalisation . . . . . . . . . . . . . . . . . . . . . . 268
12.4 A continuous example : curve fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
12.5 Approximating the Model Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
12.5.1 Laplace’s method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
12.5.2 Bayes information criterion (BIC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
12.6 Bayesian Hypothesis Testing for Outcome Analysis . . . . . . . . . . . . . . . . . . . . . . . . 274
12.6.1 Outcome analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
12.6.2 H
indep
: model likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
12.6.3 H
same
: model likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
12.6.4 Dependent outcome analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
12.6.5 Is classifier A better than B? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
12.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
12.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
12.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
III Machine Learning 285
13 Machine Learning Concepts 289
13.1 Styles of Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
13.1.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
13.1.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
13.1.3 Anomaly detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
13.1.4 Online (sequential) learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
13.1.5 Interacting with the environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
13.1.6 Semi-supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
13.2 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
13.2.1 Utility and Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
13.2.2 Using the empirical distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
13.2.3 Bayesian decision approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
13.3 Bayes versus Empirical Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
13.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
13.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
14 Nearest Neighbour Classification 303
14.1 Do As Your Neighbour Does . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
14.2 K-Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
14.3 A Probabilistic Interpretation of Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . 306
14.3.1 When your nearest neighbour is far away . . . . . . . . . . . . . . . . . . . . . . . . . 307
14.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
14.5 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
14.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
15 Unsupervised Linear Dimension Reduction 309
15.1 High-Dimensional Spaces – Low Dimensional Manifolds . . . . . . . . . . . . . . . . . . . . . 309
15.2 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
15.2.1 Deriving the optimal linear reconstruction . . . . . . . . . . . . . . . . . . . . . . . . . 310
15.2.2 Maximum variance criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
15.2.3 PCA algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
15.2.4 PCA and nearest neighbours classification . . . . . . . . . . . . . . . . . . . . . . . . . 314
15.2.5 Comments on PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
XVI DRAFT January 9, 2013
CONTENTS CONTENTS
15.3 High Dimensional Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
15.3.1 Eigen-decomposition for N < D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
15.3.2 PCA via Singular value decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
15.4 Latent Semantic Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
15.4.1 Information retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
15.5 PCA With Missing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
15.5.1 Finding the principal directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
15.5.2 Collaborative filtering using PCA with missing data . . . . . . . . . . . . . . . . . . . 322
15.6 Matrix Decomposition Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
15.6.1 Probabilistic latent semantic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
15.6.2 Extensions and variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
15.6.3 Applications of PLSA/NMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
15.7 Kernel PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
15.8 Canonical Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
15.8.1 SVD formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
15.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
15.10Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
15.11Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
16 Supervised Linear Dimension Reduction 335
16.1 Supervised Linear Projections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
16.2 Fisher’s Linear Discriminant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
16.3 Canonical Variates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
16.3.1 Dealing with the nullspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
16.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
16.5 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
16.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
17 Linear Models 343
17.1 Introduction: Fitting A Straight Line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
17.2 Linear Parameter Models for Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
17.2.1 Vector outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
17.2.2 Regularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
17.2.3 Radial basis functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
17.3 The Dual Representation and Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
17.3.1 Regression in the dual-space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
17.4 Linear Parameter Models for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
17.4.1 Logistic regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
17.4.2 Beyond first order gradient ascent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
17.4.3 Avoiding overconfident classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
17.4.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
17.4.5 The Kernel Trick for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
17.5 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
17.5.1 Maximum margin linear classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
17.5.2 Using kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
17.5.3 Performing the optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
17.5.4 Probabilistic interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
17.6 Soft Zero-One Loss for Outlier Robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
17.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
17.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
17.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
DRAFT January 9, 2013 XVII
CONTENTS CONTENTS
18 Bayesian Linear Models 365
18.1 Regression With Additive Gaussian Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
18.1.1 Bayesian linear parameter models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
18.1.2 Determining hyperparameters: ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
18.1.3 Learning the hyperparameters using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 368
18.1.4 Hyperparameter optimisation : using the gradient . . . . . . . . . . . . . . . . . . . . 369
18.1.5 Validation likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
18.1.6 Prediction and model averaging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
18.1.7 Sparse linear models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
18.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
18.2.1 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
18.2.2 Laplace approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
18.2.3 Variational Gaussian approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
18.2.4 Local variational approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
18.2.5 Relevance vector machine for classification . . . . . . . . . . . . . . . . . . . . . . . . . 379
18.2.6 Multi-class case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
18.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
18.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
18.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
19 Gaussian Processes 383
19.1 Non-Parametric Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
19.1.1 From parametric to non-parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
19.1.2 From Bayesian linear models to Gaussian processes . . . . . . . . . . . . . . . . . . . . 384
19.1.3 A prior on functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
19.2 Gaussian Process Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
19.2.1 Regression with noisy training outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
19.3 Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
19.3.1 Making new covariance functions from old . . . . . . . . . . . . . . . . . . . . . . . . . 389
19.3.2 Stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
19.3.3 Non-stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
19.4 Analysis of Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
19.4.1 Smoothness of the functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
19.4.2 Mercer kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
19.4.3 Fourier analysis for stationary kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
19.5 Gaussian Processes for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
19.5.1 Binary classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
19.5.2 Laplace’s approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
19.5.3 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
19.5.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
20 Mixture Models 401
20.1 Density Estimation Using Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
20.2 Expectation Maximisation for Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . 402
20.2.1 Unconstrained discrete tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
20.2.2 Mixture of product of Bernoulli distributions . . . . . . . . . . . . . . . . . . . . . . . 405
20.3 The Gaussian Mixture Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
20.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
20.3.2 Practical issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
20.3.3 Classification using Gaussian mixture models . . . . . . . . . . . . . . . . . . . . . . . 411
20.3.4 The Parzen estimator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
20.3.5 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
20.3.6 Bayesian mixture models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
XVIII DRAFT January 9, 2013
CONTENTS CONTENTS
20.3.7 Semi-supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
20.4 Mixture of Experts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
20.5 Indicator Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
20.5.1 Joint indicator approach: factorised prior . . . . . . . . . . . . . . . . . . . . . . . . . 415
20.5.2 Polya prior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
20.6 Mixed Membership Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
20.6.1 Latent Dirichlet allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
20.6.2 Graph based representations of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
20.6.3 Dyadic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
20.6.4 Monadic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
20.6.5 Cliques and adjacency matrices for monadic binary data . . . . . . . . . . . . . . . . . 421
20.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
20.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
20.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
21 Latent Linear Models 427
21.1 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
21.1.1 Finding the optimal bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
21.2 Factor Analysis : Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
21.2.1 Eigen-approach likelihood optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
21.2.2 Expectation maximisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
21.3 Interlude: Modelling Faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
21.4 Probabilistic Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
21.5 Canonical Correlation Analysis and Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . 437
21.6 Independent Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
21.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
21.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
21.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
22 Latent Ability Models 443
22.1 The Rasch Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
22.1.1 Maximum likelihood training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
22.1.2 Bayesian Rasch models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
22.2 Competition Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
22.2.1 Bradley-Terry-Luce model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
22.2.2 Elo ranking model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
22.2.3 Glicko and TrueSkill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
22.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
22.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
22.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
IV Dynamical Models 449
23 Discrete-State Markov Models 453
23.1 Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
23.1.1 Equilibrium and stationary distribution of a Markov chain . . . . . . . . . . . . . . . . 454
23.1.2 Fitting Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
23.1.3 Mixture of Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
23.2 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
23.2.1 The classical inference problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
23.2.2 Filtering p(h
t
|v
1:t
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
23.2.3 Parallel smoothing p(h
t
|v
1:T
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
23.2.4 Correction smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
23.2.5 Sampling from p(h
1:T
|v
1:T
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
23.2.6 Most likely joint state . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
DRAFT January 9, 2013 XIX
CONTENTS CONTENTS
23.2.7 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
23.2.8 Self localisation and kidnapped robots . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
23.2.9 Natural language models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
23.3 Learning HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
23.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
23.3.2 Mixture emission . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
23.3.3 The HMM-GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
23.3.4 Discriminative training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
23.4 Related Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
23.4.1 Explicit duration model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
23.4.2 Input-Output HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
23.4.3 Linear chain CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
23.4.4 Dynamic Bayesian networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
23.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
23.5.1 Object tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
23.5.2 Automatic speech recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
23.5.3 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
23.5.4 Part-of-speech tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
23.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
23.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
23.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
24 Continuous-state Markov Models 481
24.1 Observed Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
24.1.1 Stationary distribution with noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
24.2 Auto-Regressive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483
24.2.1 Training an AR model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
24.2.2 AR model as an OLDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
24.2.3 Time-varying AR model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
24.2.4 Time-varying variance AR models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
24.3 Latent Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
24.4 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
24.4.1 Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
24.4.2 Smoothing : Rauch-Tung-Striebel correction method . . . . . . . . . . . . . . . . . . . 492
24.4.3 The likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493
24.4.4 Most likely state . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
24.4.5 Time independence and Riccati equations . . . . . . . . . . . . . . . . . . . . . . . . . 494
24.5 Learning Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
24.5.1 Identifiability issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
24.5.2 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
24.5.3 Subspace Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
24.5.4 Structured LDSs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
24.5.5 Bayesian LDSs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
24.6 Switching Auto-Regressive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
24.6.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
24.6.2 Maximum likelihood learning using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 499
24.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
24.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
24.8.1 Autoregressive models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
24.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
XX DRAFT January 9, 2013
剩余669页未读,继续阅读
2018-09-15 上传
2018-03-15 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
无数的BUG
- 粉丝: 1
- 资源: 41
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功