二类正态分布分类与EM算法参数估计

需积分: 16 75 浏览量更新于2024-09-13 收藏 198KB DOCX 举报

"分类估计EM算法是一种在处理大量数据，如一千万个样本的二分类问题时常用的方法。在这个特定情况下，样本数据被假设为来自两个正态分布，一个是均值较小的分布，另一个是均值较大的分布。通过直方图分析，我们可以初步观察到样本分布呈现正态特性，这有助于我们构建二元高斯混合模型。 EM算法的核心在于迭代地估计和优化模型参数。在本例中，目标是估计每个高斯分布的期望（均值）和标准差。经过计算，较小均值分布的参数为均值10.6944，标准差2.29498，权重0.9488987；较大均值分布的参数为均值18.2496，标准差1.74251，权重0.0511013。这种加权求和反映了两类样本在总体中的相对比例。为了验证这些分布是否符合正态分布，我们使用了Kolmogorov-Smirnov检验（KS检验），在显著性水平为0.4的情况下，两个分布都通过了检验，进一步确认了我们的假设。KS检验是比较实际数据分布与理论分布差异的一种统计测试，它对正态性假设的检验非常有效。在了解了每个分布的参数之后，我们利用贝叶斯公式来确定一个阈值t=19.8344，这个阈值用于分类新观测值。如果一个样本值大于这个阈值，那么其来自较大均值分布的后验概率大于0.99，从而实现了分类决策。整个过程包括了数据可视化（直方图）、参数估计（EM算法）、假设检验（KS检验）和后验概率计算。EM算法在这里扮演了关键角色，通过迭代优化，使得模型能够在没有完全观察数据条件下，估计未标记样本的归属概率，这对于大规模数据分类问题尤其有用。"

分布估计问题

摘要

根据题目要求知道有二类样本需要进行分类，因为该样本是一维数据，可以通过画出

直方图来表现该二类样本的分布情况，推测两个分布均为正态分布，从而可以构成二个高

斯分布的加权求和。可以采用 EM 算法（或是 K-均值算法）对它们进行参数估计，得到均

值较小分布的权值为 0.9488987，均值为 10.6944，标准差为 2.29498，而均值较大分布的权

值为 0.0511013，均值为 18.2496，标准差为 1.74251；然后通过 Kolmogorov-Smirnov 检验对

以上所估计的正态分布进行检验，在显著性水平为 0.4 的情况下都能够通过检验，认为两

个分布均服从正态分布；最后，在已知两个分布参数的情况下，可以通过贝叶斯公式来确

定阈值 t=19.8344，当观察值大于 t 时来自均值较大的分布的后验概率大于 0.99。

一、问题简介

给定一百万个实数样本，其中一部分来自均值较小的某种分布，另一部分则来自均值

较大的某种分布。通过观察直方图猜测其分布即为高斯分布，从而求取这两个分布的期望

和标准差，并通过假设检验来验证该分布确实是属于高斯分布。最后需要确定一个阈值 t

使得大于 t 的样本来自均值较大的分布的后验概率大于 0.99。

二、问题分析

首先通过画取直方图来进行分析这二类样本是属于什么类型的分布，可以提取这一百

万个数据，并从 0 到 27 每 0.027 分为一个小段，计算每一小段中样本的个数，即 0 到 0.027

一个小段，0.027 到 0.054，0.027*i 到 0.027*(i+1)(0<=i<1000)。这样可以一共可以分为 1000

个小段，同时计算这每一个小段的样本个数，通过 matlab 画出如下直方图：

图 1：样本频数分布直方图（步长为 0.027）

可以看出二类都是正态分布，并且可以估算二类样本的均值大约为 10.5 和 18.0。接

下来需要进行最大似然法来进行参数估计（本数据需要估计二类分布的期望和标准差），

本例使用 EM 算法求得。

下载后可阅读完整内容，剩余7页未读，立即下载

yhlovesrain

粉丝: 0
资源: 1

二类正态分布分类与EM算法参数估计

em算法源码（matlab）

EM算法总结

EM算法，能够比较准确的实现对二维数据的分类，已测试通过，完全可以运行

EM.tar.gz_EM_EM 程序 matlab_EM算法_em分类_em算法 分类

matlab-基于Expectation-Maximization算法(EM算法)的数据分类仿真,对比真实分类和EM算法分类-源

经常用于分类的EM算法

GaussModelEM.m.zip_EM GMM _EM 算法 分类_gmm em_混合高斯模型EM算法_高斯混合聚类

EM算法EM算法的推导应用介绍

tf.rar_EM knn_EM聚类算法_TF_em算法 分类

matlab编写的EM聚类算法.zip_EM 聚类_EM算法_matlab_改进EM算法_聚类算法 MATLAB

最新资源

EM.tar.gz_EM_EM 程序 matlab_EM算法_em分类_em算法分类

GaussModelEM.m.zip_EM GMM _EM 算法分类_gmm em_混合高斯模型EM算法_高斯混合聚类

tf.rar_EM knn_EM聚类算法_TF_em算法分类