CONTENTS CONTENTS
18 Bayesian Linear Models 377
18.1 Regression With Additive Gaussian Noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
18.1.1 Bayesian linear parameter models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
18.1.2 Determining hyperparameters: ML-II . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
18.1.3 Learning the hyperparameters using EM . . . . . . . . . . . . . . . . . . . . . . . . . . 380
18.1.4 Hyperparameter optimisation : using the gradient . . . . . . . . . . . . . . . . . . . . 381
18.1.5 Validation likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
18.1.6 Prediction and model averaging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
18.1.7 Sparse linear models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
18.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
18.2.1 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.2.2 Laplace approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
18.2.3 Variational Gaussian approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
18.2.4 Local variational approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
18.2.5 Relevance vector machine for classification . . . . . . . . . . . . . . . . . . . . . . . . . 391
18.2.6 Multi-class case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
18.3 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
18.4 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
18.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
19 Gaussian Processes 395
19.1 Non-Parametric Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
19.1.1 From parametric to non-parametric . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
19.1.2 From Bayesian linear models to Gaussian processes . . . . . . . . . . . . . . . . . . . . 396
19.1.3 A prior on functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
19.2 Gaussian Process Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.2.1 Regression with noisy training outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
19.3 Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
19.3.1 Making new covariance functions from old . . . . . . . . . . . . . . . . . . . . . . . . . 401
19.3.2 Stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
19.3.3 Non-stationary covariance functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
19.4 Analysis of Covariance Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
19.4.1 Smoothness of the functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
19.4.2 Mercer kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
19.4.3 Fourier analysis for stationary kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
19.5 Gaussian Processes for Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
19.5.1 Binary classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
19.5.2 Laplace’s approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
19.5.3 Hyperparameter optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
19.5.4 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
19.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
19.7 Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
19.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
20 Mixture Models 413
20.1 Density Estimation Using Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
20.2 Expectation Maximisation for Mixture Models . . . . . . . . . . . . . . . . . . . . . . . . . . 414
20.2.1 Unconstrained discrete tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
20.2.2 Mixture of product of Bernoulli distributions . . . . . . . . . . . . . . . . . . . . . . . 416
20.3 The Gaussian Mixture Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
20.3.1 EM algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
20.3.2 Practical issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
20.3.3 Classification using Gaussian mixture models . . . . . . . . . . . . . . . . . . . . . . . 423
20.3.4 The Parzen estimator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
20.3.5 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
20.3.6 Bayesian mixture models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
XVIII DRAFT December 17, 2016