http://www.paper.edu.cn
- 1 -
多项分布参数估计的 EM/MCEM 算法及模拟
李柏椿,钟波
**
(重庆大学数学与统计学院,重庆 401331)
5
作者简介:李柏椿(1992-),男,研究生,主要研究方向:统计预测与决策
通信联系人:钟波(1964-),女,教授、硕导,主要研究方向:应用统计,运筹与控制. E-mail:
cdzhongbo@sina.com
摘要:EM 算法和 MCEM 算法均是迭代算法,是机器学习中极为重要的算法,主要应用于
数据缺失情形下的统计推断问题中。本文旨在研究一般性多项分布参数估计问题,借助于
EM 算法和 MCEM 算法理论,文章给出了一般性多项分布参数估计的推到过程和迭代步骤。
最后,文章以 R 软件为计算工具进行统计模拟,模拟结果显示参数估计值与真值非常相近,
模拟结果精确也论证了 EM 算法和 MCEM 算法在一般性多项分布参数估计中的有效性。 10
关键词:多项分布;参数估计;EM 算法;MCEM 算法;数据缺失;统计模拟
中图分类号:O212.8
EM/MCEM Algorithm and Simulation of Parameters
Estimation for Multinomial Distribution 15
LI Baichun, ZHONG Bo
(College of mathematics and statistics, Chongqing University, Chongqing 401331)
Abstract:EM algorithm and MCEM algorithm are iterative algorithms. They are very important in
machine learning and mainly used in statistical inference problem on the condition of data loss. This
paper aims to study the the problem of estimating the parameters of a general multinomial distribution. 20
By means of EM algorithm and MCEM algorithm theories, the paper gives the procedure and the
iterative steps of general multinomial distribution parameter estimation. Finally, based on the
calculation of R software tools for statistical simulation, simulation results show that the parameter
estimator and the true value is very close and demonstrates EM algorithm and MCEM algorithm
validity in general multinomial distribution parameter estimation. 25
Keywords: multinomial distribution; parameter estimation; EM algorithm; MCEM algorithm; data
missing; statistical simulation
0 引言 30
在统计分析中,常出现数据缺失的情形。通常所说的“数据缺失”有两种解释:一是统
计数据本身存在缺失,通常是由于理想观测条件难以达到等造成的;二是统计问题本身不存
在缺失变量,但是基于观测数据的似然函数较为复杂,难以进一步进行统计分析,而通过引
入潜在变量(即缺失变量)能得到较为简单的似然函数,比较容易进一步统计分析。EM 算
法是一种迭代算法,是机器学习和数据挖掘中一种极为重要的算法。首次考虑到这一算法的35
是 M’kendrick
[1]
,他将其应用于医药研究中;1977 年 Dempster 等人
[2]
提出了完整的 EM 算
法,时至今日,EM 算法已经应用在诸多模型的参数求解中,如吕王勇等
[3]
将 EM 算法运用
于对数正态分布在数据缺失情形下的参数估计中,张香云等
[4]
对隐马尔可夫模型的参数估计
问题引入了 EM 算法,李鲲鹏等
[5]
将 EM 算法运用在交互效应面板模型参数求解中。针对
EM 算法中可能出现期望难以计算情形,Walker
[6]
基于 Monte Carlo 模拟理论提出了 MCEM40
算法,极大拓宽了 EM 算法的应用范围。总之,EM/MCEM 算法主要用来对上述两种情形
的数据缺失情形中出现的未知参数进行求解。
评论0