图形模型视角下的贝叶斯推理与机器学习

需积分: 10 185 浏览量更新于2024-07-20 收藏 15.27MB PDF 举报

"《Bayesian Reasoning and Machine Learning》是由David Barber编著的一本关于机器学习和贝叶斯推理的教材。这本书适用于具有有限线性代数和微积分背景的计算机科学专业最后一年本科生和硕士研究生。书中通过图形模型的框架，从基础推理到高级技术全面、连贯地介绍了相关知识，并提供了丰富的实例和练习，帮助学生发展分析和解决问题的能力。此外，还附有在线资源，包括MATLAB工具箱，以支持教学和学习。" 在《Bayesian Reasoning and Machine Learning》中，贝叶斯方法是核心主题，这是一种统计推理的方法，它基于贝叶斯定理，允许我们根据现有证据更新对事件概率的理解。在机器学习中，贝叶斯方法常用于概率模型的构建，例如朴素贝叶斯分类器，以及贝叶斯网络等。这些模型能够处理不确定性，并在数据不足的情况下进行有效的推断。书中的符号列表揭示了概率论和统计学的关键概念，如变量的域（dom(x)）、变量状态的概率（如p(x=tr)表示变量x处于状态“真”的概率）、联合概率（p(x,y)）、条件概率（p(x|y)）以及独立性（如X⊥⊥Y|Z表示在给定Z的情况下，X与Y独立）。对于连续变量，累积分布函数（如Rxf(x)）和离散变量的求和表示也被提及。书中还讨论了节点的父节点（pa(x)）、子节点（ch(x)）和邻居节点（ne(x)），这些都是图形模型，如贝叶斯网络或马尔科夫随机场中常用的概念。它们用来表示变量之间的依赖关系。变量的维度（dim(x)）表示变量可能取的态的数量，而函数的期望值（⟨f(x)⟩p(x)）则是在给定概率分布p(x)下计算的函数f(x)的平均值。通过这本书，学生不仅会学习到贝叶斯方法的基础知识，还会掌握如何应用这些知识解决实际问题。这包括使用计算机算法来处理大量数据，进行预测和决策，以及理解复杂系统的行为。同时，通过书中包含的大量实例和练习，他们将获得实践经验，进一步提高其在现实世界中应用这些方法的能力。

CONTENTS CONTENTS

12 Bayesian Model Selection 275

12.1 Comparing Models the Bayesian Way . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275

12.2 Illustrations : coin tossing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

12.2.1 A discrete parameter space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

12.2.2 A continuous parameter space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

12.3 Occam’s Razor and Bayesian Complexity Penalisation . . . . . . . . . . . . . . . . . . . . . . 278

12.4 A continuous example : curve ﬁtting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

12.5 Approximating the Model Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282

12.5.1 Laplace’s method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

12.5.2 Bayes information criterion (BIC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

12.6 Bayesian Hypothesis Testing for Outcome Analysis . . . . . . . . . . . . . . . . . . . . . . . . 284

12.6.1 Outcome analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

12.6.2 H

indep

: model likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

12.6.3 H

same

: model likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286

12.6.4 Dependent outcome analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

12.6.5 Is classiﬁer A better than B? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

12.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

12.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

12.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

III Machine Learning 295

13 Machine Learning Concepts 299

13.1 Styles of Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

13.1.1 Supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

13.1.2 Unsupervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300

13.1.3 Anomaly detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

13.1.4 Online (sequential) learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

13.1.5 Interacting with the environment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

13.1.6 Semi-supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

13.2 Supervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

13.2.1 Utility and Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

13.2.2 Using the empirical distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

13.2.3 Bayesian decision approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306

13.3 Bayes versus Empirical Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

13.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

13.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

14 Nearest Neighbour Classiﬁcation 313

14.1 Do As Your Neighbour Does . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

14.2 K-Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314

14.3 A Probabilistic Interpretation of Nearest Neighbours . . . . . . . . . . . . . . . . . . . . . . . 316

14.3.1 When your nearest neighbour is far away . . . . . . . . . . . . . . . . . . . . . . . . . 317

14.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

14.5 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

14.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

15 Unsupervised Linear Dimension Reduction 319

15.1 High-Dimensional Spaces – Low Dimensional Manifolds . . . . . . . . . . . . . . . . . . . . . 319

15.2 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319

15.2.1 Deriving the optimal linear reconstruction . . . . . . . . . . . . . . . . . . . . . . . . . 320

15.2.2 Maximum variance criterion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

15.2.3 PCA algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

15.2.4 PCA and nearest neighbours classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . 324

15.2.5 Comments on PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324

XVI DRAFT December 17, 2016

CONTENTS CONTENTS

15.3 High Dimensional Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

15.3.1 Eigen-decomposition for N < D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

15.3.2 PCA via Singular value decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

15.4 Latent Semantic Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327

15.4.1 Information retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

15.5 PCA With Missing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329

15.5.1 Finding the principal directions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331

15.5.2 Collaborative ﬁltering using PCA with missing data . . . . . . . . . . . . . . . . . . . 331

15.6 Matrix Decomposition Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332

15.6.1 Probabilistic latent semantic analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332

15.6.2 Extensions and variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

15.6.3 Applications of PLSA/NMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

15.7 Kernel PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339

15.8 Canonical Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341

15.8.1 SVD formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342

15.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342

15.10Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343

15.11Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343

16 Supervised Linear Dimension Reduction 347

16.1 Supervised Linear Projections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

16.2 Fisher’s Linear Discriminant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

16.3 Canonical Variates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

16.3.1 Dealing with the nullspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351

16.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

16.5 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

16.6 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

17 Linear Models 355

17.1 Introduction: Fitting A Straight Line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355

17.2 Linear Parameter Models for Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356

17.2.1 Vector outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358

17.2.2 Regularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358

17.2.3 Radial basis functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360

17.3 The Dual Representation and Kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361

17.3.1 Regression in the dual-space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362

17.4 Linear Parameter Models for Classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362

17.4.1 Logistic regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363

17.4.2 Beyond ﬁrst order gradient ascent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367

17.4.3 Avoiding overconﬁdent classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367

17.4.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368

17.4.5 The Kernel Trick for Classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368

17.5 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369

17.5.1 Maximum margin linear classiﬁer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369

17.5.2 Using kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371

17.5.3 Performing the optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372

17.5.4 Probabilistic interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372

17.6 Soft Zero-One Loss for Outlier Robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372

17.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373

17.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374

17.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374

DRAFT December 17, 2016 XVII

CONTENTS CONTENTS

18 Bayesian Linear Models 377

18.1 Regression With Additive Gaussian Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377

18.1.1 Bayesian linear parameter models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

18.1.2 Determining hyperparameters: ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . . 379

18.1.3 Learning the hyperparameters using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 380

18.1.4 Hyperparameter optimisation : using the gradient . . . . . . . . . . . . . . . . . . . . 381

18.1.5 Validation likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

18.1.6 Prediction and model averaging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383

18.1.7 Sparse linear models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384

18.2 Classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385

18.2.1 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386

18.2.2 Laplace approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386

18.2.3 Variational Gaussian approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389

18.2.4 Local variational approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390

18.2.5 Relevance vector machine for classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . 391

18.2.6 Multi-class case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

18.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392

18.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392

18.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393

19 Gaussian Processes 395

19.1 Non-Parametric Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395

19.1.1 From parametric to non-parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395

19.1.2 From Bayesian linear models to Gaussian processes . . . . . . . . . . . . . . . . . . . . 396

19.1.3 A prior on functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397

19.2 Gaussian Process Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398

19.2.1 Regression with noisy training outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . 398

19.3 Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400

19.3.1 Making new covariance functions from old . . . . . . . . . . . . . . . . . . . . . . . . . 401

19.3.2 Stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401

19.3.3 Non-stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403

19.4 Analysis of Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403

19.4.1 Smoothness of the functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403

19.4.2 Mercer kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404

19.4.3 Fourier analysis for stationary kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . 405

19.5 Gaussian Processes for Classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

19.5.1 Binary classiﬁcation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

19.5.2 Laplace’s approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407

19.5.3 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409

19.5.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

19.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

19.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

19.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

20 Mixture Models 413

20.1 Density Estimation Using Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413

20.2 Expectation Maximisation for Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . 414

20.2.1 Unconstrained discrete tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415

20.2.2 Mixture of product of Bernoulli distributions . . . . . . . . . . . . . . . . . . . . . . . 416

20.3 The Gaussian Mixture Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418

20.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419

20.3.2 Practical issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421

20.3.3 Classiﬁcation using Gaussian mixture models . . . . . . . . . . . . . . . . . . . . . . . 423

20.3.4 The Parzen estimator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424

20.3.5 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

20.3.6 Bayesian mixture models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

XVIII DRAFT December 17, 2016

CONTENTS CONTENTS

20.3.7 Semi-supervised learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

20.4 Mixture of Experts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426

20.5 Indicator Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427

20.5.1 Joint indicator approach: factorised prior . . . . . . . . . . . . . . . . . . . . . . . . . 427

20.5.2 Polya prior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428

20.6 Mixed Membership Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429

20.6.1 Latent Dirichlet allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429

20.6.2 Graph based representations of data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430

20.6.3 Dyadic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431

20.6.4 Monadic data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432

20.6.5 Cliques and adjacency matrices for monadic binary data . . . . . . . . . . . . . . . . . 433

20.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436

20.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436

20.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437

21 Latent Linear Models 439

21.1 Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439

21.1.1 Finding the optimal bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441

21.2 Factor Analysis : Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441

21.2.1 Eigen-approach likelihood optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

21.2.2 Expectation maximisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444

21.3 Interlude: Modelling Faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446

21.4 Probabilistic Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 448

21.5 Canonical Correlation Analysis and Factor Analysis . . . . . . . . . . . . . . . . . . . . . . . 449

21.6 Independent Components Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450

21.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452

21.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452

21.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452

22 Latent Ability Models 455

22.1 The Rasch Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455

22.1.1 Maximum likelihood training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455

22.1.2 Bayesian Rasch models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456

22.2 Competition Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457

22.2.1 Bradley-Terry-Luce model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457

22.2.2 Elo ranking model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

22.2.3 Glicko and TrueSkill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458

22.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459

22.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459

22.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459

IV Dynamical Models 461

23 Discrete-State Markov Models 465

23.1 Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465

23.1.1 Equilibrium and stationary distribution of a Markov chain . . . . . . . . . . . . . . . . 466

23.1.2 Fitting Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467

23.1.3 Mixture of Markov models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468

23.2 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470

23.2.1 The classical inference problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470

23.2.2 Filtering p(h

1:t

) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471

23.2.3 Parallel smoothing p(h

1:T

) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472

23.2.4 Correction smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472

23.2.5 Sampling from p(h

1:T

) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474

23.2.6 Most likely joint state . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474

DRAFT December 17, 2016 XIX

CONTENTS CONTENTS

23.2.7 Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475

23.2.8 Self localisation and kidnapped robots . . . . . . . . . . . . . . . . . . . . . . . . . . . 476

23.2.9 Natural language models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478

23.3 Learning HMMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478

23.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478

23.3.2 Mixture emission . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480

23.3.3 The HMM-GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480

23.3.4 Discriminative training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481

23.4 Related Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481

23.4.1 Explicit duration model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481

23.4.2 Input-Output HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482

23.4.3 Linear chain CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483

23.4.4 Dynamic Bayesian networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484

23.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484

23.5.1 Object tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484

23.5.2 Automatic speech recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484

23.5.3 Bioinformatics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485

23.5.4 Part-of-speech tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485

23.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 485

23.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486

23.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486

24 Continuous-state Markov Models 493

24.1 Observed Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493

24.1.1 Stationary distribution with noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494

24.2 Auto-Regressive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495

24.2.1 Training an AR model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496

24.2.2 AR model as an OLDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496

24.2.3 Time-varying AR model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497

24.2.4 Time-varying variance AR models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498

24.3 Latent Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499

24.4 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500

24.4.1 Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502

24.4.2 Smoothing : Rauch-Tung-Striebel correction method . . . . . . . . . . . . . . . . . . . 504

24.4.3 The likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505

24.4.4 Most likely state . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506

24.4.5 Time independence and Riccati equations . . . . . . . . . . . . . . . . . . . . . . . . . 506

24.5 Learning Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507

24.5.1 Identiﬁability issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507

24.5.2 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 508

24.5.3 Subspace Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509

24.5.4 Structured LDSs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510

24.5.5 Bayesian LDSs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510

24.6 Switching Auto-Regressive Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 510

24.6.1 Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511

24.6.2 Maximum likelihood learning using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 511

24.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512

24.8 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513

24.8.1 Autoregressive models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513

24.9 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514

XX DRAFT December 17, 2016

剩余669页未读，继续阅读

竹石君

粉丝: 6
资源: 10

图形模型视角下的贝叶斯推理与机器学习

Bayesian-Reasoning-and-Machine-Learning

Bayesian Reasoning and Machine Learning--配书源代码

Bayesian reasoning and machine learning电子书

Bayesian Reasoning and Machine Learning.

Bayesian Reasoning and Machine Learning 290313

Bayesian Reasoning and Machine Learning.pdf

book-Bayesian Reasoning and Machine Learning

《Bayesian Reasoning and Machine Learning》

Bayesian Reasoning and Machine Learning (David Barber)

Bayesian Reasoning and Machine Learning第二章代码

最新资源