没有合适的资源?快使用搜索试试~ 我知道了~
首页图形模型与贝叶斯推理机器学习导论
"《贝叶斯推理与机器学习》是一本专为计算机科学学生设计的教材,适合具有有限线性代数和微积分背景的本科生和硕士生阅读。该书旨在通过图形模型框架,从基本推理到高级技术,全面且连贯地介绍机器学习中的贝叶斯方法。书中包含大量实例和练习,包括基于计算机的练习和理论问题,以增强学生的分析和解决问题的能力。此外,还提供在线资源,如MATLAB工具箱,以辅助教学和学习。"
本书由David Barber撰写,涵盖了从2007年至2016年的知识更新。书中的符号列表为读者提供了理解概率论和统计学的基本工具,如随机变量集合(V)、变量的域(dom(x))以及事件或变量的概率表示(如p(x=tr))。书中深入浅出地解释了条件概率(p(x|y))和联合概率(p(x,y)),并探讨了变量间的独立性和依赖性(如X⊥⊥Y|Z和X⊤⊤Y|Z)。
对于连续和离散变量,书中介绍了如何计算概率密度函数的积分(Rxf(x)dx)和求和。此外,还涉及了指示函数(I[S]),用于根据语句S的真假赋值。节点在图模型中的父节点、子节点和邻居节点分别用pa(x)、ch(x)和ne(x)表示,这对于理解贝叶斯网络至关重要。对于离散变量,dim(x)表示变量可能的状态数量,而⟨f(x)⟩p(x)是函数f(x)相对于概率分布p(x)的期望值。
通过本书的学习,学生不仅能够掌握一系列机器学习技术,还能培养解决实际问题的能力,从而在日益增长的机器学习应用领域找到有回报的工作。在线资源的提供,如MATLAB工具箱,进一步增强了学生对理论知识的实践应用,使他们能够将所学应用于实际的计算任务中。
CONTENTS CONTENTS
12 Bayesian Model Selection 279
12.1 Comparing Models the Bayesian Way . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
12.2 Illustrations : coin tossing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
12.2.1 A discrete parameter space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
12.2.2 A continuous parameter space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
12.3 Occam’s Razor and Bayesian Complexity Penalisation . . . . . . . . . . . . . . . . . . . . . . 282
12.4 A continuous example : curve fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
12.5 Approximating the Model Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
12.5.1 Laplace’s method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
12.5.2 Bayes information criterion (BIC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
12.6 Bayesian Hypothesis Testing for Outcome Analysis . . . . . . . . . . . . . . . . . . . . . . . . 288
12.6.1 Outcome analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
12.6.2 H
indep
: model likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
12.6.3 H
same
: model likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
12.6.4 Dependent outcome analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
12.6.5 Is classifier A better than B? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
12.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
12.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
12.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
III Machine Learning 299
13 Machine Learning Concepts 303
13.1 Styles of Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.1.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.1.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
13.1.3 Anomaly detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.1.4 Online (sequential) learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.1.5 Interacting with the environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.1.6 Semi-supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
13.2 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
13.2.1 Utility and Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
13.2.2 Using the empirical distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
13.2.3 Bayesian decision approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
13.3 Bayes versus Empirical Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
13.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
13.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
14 Nearest Neighbour Classification 317
14.1 Do As Your Neighbour Does . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
14.2 K-Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.3 A Probabilistic Interpretation of Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . 320
14.3.1 When your nearest neighbour is far away . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.5 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
15 Unsupervised Linear Dimension Reduction 323
15.1 High-Dimensional Spaces – Low Dimensional Manifolds . . . . . . . . . . . . . . . . . . . . . 323
15.2 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
15.2.1 Deriving the optimal linear reconstruction . . . . . . . . . . . . . . . . . . . . . . . . . 324
15.2.2 Maximum variance criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
15.2.3 PCA algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
15.2.4 PCA and nearest neighbours classification . . . . . . . . . . . . . . . . . . . . . . . . . 328
15.2.5 Comments on PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
XVI DRAFT November 9, 2017
CONTENTS CONTENTS
15.3 High Dimensional Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
15.3.1 Eigen-decomposition for N < D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
15.3.2 PCA via Singular value decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
15.4 Latent Semantic Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
15.4.1 Information retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332
15.5 PCA With Missing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
15.5.1 Finding the principal directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
15.5.2 Collaborative filtering using PCA with missing data . . . . . . . . . . . . . . . . . . . 335
15.6 Matrix Decomposition Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
15.6.1 Probabilistic latent semantic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
15.6.2 Extensions and variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
15.6.3 Applications of PLSA/NMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
15.7 Kernel PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
15.8 Canonical Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
15.8.1 SVD formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
15.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
15.10Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
15.11Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
16 Supervised Linear Dimension Reduction 351
16.1 Supervised Linear Projections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
16.2 Fisher’s Linear Discriminant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
16.3 Canonical Variates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
16.3.1 Dealing with the nullspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
16.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
16.5 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
16.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
17 Linear Models 359
17.1 Introduction: Fitting A Straight Line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
17.2 Linear Parameter Models for Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
17.2.1 Vector outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
17.2.2 Regularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
17.2.3 Radial basis functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
17.3 The Dual Representation and Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
17.3.1 Regression in the dual-space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
17.4 Linear Parameter Models for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
17.4.1 Logistic regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
17.4.2 Beyond first order gradient ascent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
17.4.3 Avoiding overconfident classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
17.4.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
17.4.5 The Kernel Trick for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
17.5 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
17.5.1 Maximum margin linear classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
17.5.2 Using kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
17.5.3 Performing the optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
17.5.4 Probabilistic interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
17.6 Soft Zero-One Loss for Outlier Robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
17.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
17.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
17.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
DRAFT November 9, 2017 XVII
CONTENTS CONTENTS
18 Bayesian Linear Models 381
18.1 Regression With Additive Gaussian Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
18.1.1 Bayesian linear parameter models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
18.1.2 Determining hyperparameters: ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
18.1.3 Learning the hyperparameters using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 384
18.1.4 Hyperparameter optimisation : using the gradient . . . . . . . . . . . . . . . . . . . . 385
18.1.5 Validation likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
18.1.6 Prediction and model averaging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
18.1.7 Sparse linear models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
18.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
18.2.1 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
18.2.2 Laplace approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
18.2.3 Variational Gaussian approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
18.2.4 Local variational approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
18.2.5 Relevance vector machine for classification . . . . . . . . . . . . . . . . . . . . . . . . . 395
18.2.6 Multi-class case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
18.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
18.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
18.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
19 Gaussian Processes 399
19.1 Non-Parametric Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
19.1.1 From parametric to non-parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
19.1.2 From Bayesian linear models to Gaussian processes . . . . . . . . . . . . . . . . . . . . 400
19.1.3 A prior on functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
19.2 Gaussian Process Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
19.2.1 Regression with noisy training outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
19.3 Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
19.3.1 Making new covariance functions from old . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.3.2 Stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.3.3 Non-stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
19.4 Analysis of Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
19.4.1 Smoothness of the functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
19.4.2 Mercer kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
19.4.3 Fourier analysis for stationary kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
19.5 Gaussian Processes for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
19.5.1 Binary classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
19.5.2 Laplace’s approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
19.5.3 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
19.5.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
19.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
19.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
19.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
20 Mixture Models 417
20.1 Density Estimation Using Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
20.2 Expectation Maximisation for Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . 418
20.2.1 Unconstrained discrete tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
20.2.2 Mixture of product of Bernoulli distributions . . . . . . . . . . . . . . . . . . . . . . . 420
20.3 The Gaussian Mixture Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
20.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
20.3.2 Practical issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
20.3.3 Classification using Gaussian mixture models . . . . . . . . . . . . . . . . . . . . . . . 427
20.3.4 The Parzen estimator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
20.3.5 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
20.3.6 Bayesian mixture models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
XVIII DRAFT November 9, 2017
CONTENTS CONTENTS
20.3.7 Semi-supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
20.4 Mixture of Experts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
20.5 Indicator Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
20.5.1 Joint indicator approach: factorised prior . . . . . . . . . . . . . . . . . . . . . . . . . 431
20.5.2 Polya prior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
20.6 Mixed Membership Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
20.6.1 Latent Dirichlet allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
20.6.2 Graph based representations of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
20.6.3 Dyadic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
20.6.4 Monadic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
20.6.5 Cliques and adjacency matrices for monadic binary data . . . . . . . . . . . . . . . . . 437
20.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
20.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
20.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
21 Latent Linear Models 443
21.1 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
21.1.1 Finding the optimal bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
21.2 Factor Analysis : Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
21.2.1 Eigen-approach likelihood optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
21.2.2 Expectation maximisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
21.3 Interlude: Modelling Faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
21.4 Probabilistic Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
21.5 Canonical Correlation Analysis and Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . 453
21.6 Independent Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454
21.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
21.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
21.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
22 Latent Ability Models 459
22.1 The Rasch Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
22.1.1 Maximum likelihood training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
22.1.2 Bayesian Rasch models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
22.2 Competition Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
22.2.1 Bradley-Terry-Luce model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
22.2.2 Elo ranking model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
22.2.3 Glicko and TrueSkill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
22.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
22.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
22.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
IV Dynamical Models 465
23 Discrete-State Markov Models 469
23.1 Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
23.1.1 Equilibrium and stationary distribution of a Markov chain . . . . . . . . . . . . . . . . 470
23.1.2 Fitting Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
23.1.3 Mixture of Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
23.2 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
23.2.1 The classical inference problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
23.2.2 Filtering p(h
t
|v
1:t
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
23.2.3 Parallel smoothing p(h
t
|v
1:T
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
23.2.4 Correction smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
23.2.5 Sampling from p(h
1:T
|v
1:T
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
23.2.6 Most likely joint state . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
DRAFT November 9, 2017 XIX
CONTENTS CONTENTS
23.2.7 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
23.2.8 Self localisation and kidnapped robots . . . . . . . . . . . . . . . . . . . . . . . . . . . 480
23.2.9 Natural language models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
23.3 Learning HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
23.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
23.3.2 Mixture emission . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
23.3.3 The HMM-GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484
23.3.4 Discriminative training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
23.4 Related Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
23.4.1 Explicit duration model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
23.4.2 Input-Output HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
23.4.3 Linear chain CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
23.4.4 Dynamic Bayesian networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
23.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
23.5.1 Object tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
23.5.2 Automatic speech recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
23.5.3 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
23.5.4 Part-of-speech tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
23.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
23.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
23.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
24 Continuous-state Markov Models 497
24.1 Observed Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497
24.1.1 Stationary distribution with noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498
24.2 Auto-Regressive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
24.2.1 Training an AR model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
24.2.2 AR model as an OLDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
24.2.3 Time-varying AR model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
24.2.4 Time-varying variance AR models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
24.3 Latent Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
24.4 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
24.4.1 Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
24.4.2 Smoothing : Rauch-Tung-Striebel correction method . . . . . . . . . . . . . . . . . . . 508
24.4.3 The likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
24.4.4 Most likely state . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510
24.4.5 Time independence and Riccati equations . . . . . . . . . . . . . . . . . . . . . . . . . 510
24.5 Learning Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
24.5.1 Identifiability issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
24.5.2 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
24.5.3 Subspace Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513
24.5.4 Structured LDSs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
24.5.5 Bayesian LDSs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
24.6 Switching Auto-Regressive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514
24.6.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
24.6.2 Maximum likelihood learning using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 515
24.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516
24.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
24.8.1 Autoregressive models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
24.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
XX DRAFT November 9, 2017
剩余689页未读,继续阅读
点击了解资源详情
点击了解资源详情
点击了解资源详情
2013-05-10 上传
2012-09-06 上传
2013-12-24 上传
2012-03-13 上传
2023-01-12 上传
2012-12-17 上传
骑洋车子不逮把
- 粉丝: 3
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Angular实现MarcHayek简历展示应用教程
- Crossbow Spot最新更新 - 获取Chrome扩展新闻
- 量子管道网络优化与Python实现
- Debian系统中APT缓存维护工具的使用方法与实践
- Python模块AccessControl的Windows64位安装文件介绍
- 掌握最新*** Fisher资讯,使用Google Chrome扩展
- Ember应用程序开发流程与环境配置指南
- EZPCOpenSDK_v5.1.2_build***版本更新详情
- Postcode-Finder:利用JavaScript和Google Geocode API实现
- AWS商业交易监控器:航线行为分析与营销策略制定
- AccessControl-4.0b6压缩包详细使用教程
- Python编程实践与技巧汇总
- 使用Sikuli和Python打造颜色求解器项目
- .Net基础视频教程:掌握GDI绘图技术
- 深入理解数据结构与JavaScript实践项目
- 双子座在线裁判系统:提高编程竞赛效率
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功