第 34卷 第 6期 控 制 与 决 策 Vol.34 No.6
2019年 6月 Control and Decision Jun. 2019
文章编号: 1001-0920(2019)06-1319-06 DOI: 10.13195/j.kzyjc.2017.1589
基于D-vine Copula理论的贝叶斯分类器设计
王 蓓
1†
, 孙玉东
1
, 金 晶
1
, 张 涛
2
, 王行愚
1
(1. 华东理工大学 化工过程先进控制和优化技术教育部重点
实验室,上海 200237;2. 清华大学 自动化系,北京 100084)
摘 要: 高斯判别分析、朴素贝叶斯等传统贝叶斯分类方法在构建变量的联合概率分布时, 往往会对变量间的相
关性进行简化处理, 从而使得贝叶斯决策理论中类条件概率密度的估计与实际数据之间存在一定的偏差. 对此,
结合 Copula 函数研究特征变量之间的相关性优化问题, 设计基于 D-vine Copula 理论的贝叶斯分类器, 主要目的是
为了提高类条件概率密度估计的准确性. 将变量的联合概率分布分解为一系列二元 Copula 函数与边缘概率密度
函数的乘积, 采用核函数方法对边缘概率密度进行估计, 通过极大似然估计对二元 Copula 函数的参数分别进行优
化,进而得到类条件概率密度函数的形式. 将基于D-vine Copula 理论的贝叶斯分类器应用到生物电信号的分类问
题上,并对分类效果进行分析和验证. 结果表明,所提出的方法在各项分类指标上均具备良好的性能.
关键词: 贝叶斯决策;相关性分析;类条件概率密度估计;D-vine Copula;模式识别;生物电信号
中图分类号: TP273 文献标志码: A
Bayesian classifier based on D-vine Copula theory
WANG Bei
1†
, SUN Yu-dong
1
, JIN Jing
1
, ZHANG Tao
2
, WANG Xing-yu
1
(1. Key Laboratory of Advanced Control and Optimization for Chemical Processes,Ministry of Education,East China
University of Science and Technology,Shanghai 200237,China;2. Department of Automation,Tsinghua University,
Beijing 100084,China)
Abstract: In the traditional Bayesian classifiers such as the Gaussian discriminant analysis method and the Naive Bayesian
method, the correlation between variables are commonly simplified when constructing the joint probability distribution
of variables. Accordingly, the estimation of the class conditional probability density would have differences with the
actual data. In this study, a Bayesian classifier based on the D-vine Copula theory is developed by investigating on
the correlation between variables. The main objective is to improve the accuracy of the class conditional probability
density estimation. The joint probability distribution of variables is decomposed into a series of pair Copula functions
and marginal probability density functions. The kernel function method is adopted to estimate the marginal probability
density. The parameters of pair Copula functions are optimized by the maximum likelihood estimation. The developed
method is analyzed and validated on the classification of neurophysiological signals. The obtained results show that it has
better performance on several classification indexes.
Keywords: Bayesian decision;correlation analysis;class conditional probability density estimation;D-vine Copula;
pattern recognition;neurophysiological signal
0 引 言
模式识别方法在文本处理、图像处理、统计学习、
数据挖掘等方面发挥着重要作用
[1-3]
. 在诸多流行的
模式识别分类器中, 贝叶斯分类器是其中之一, 其基
本思想可以认为是从先验信息中推断后验信息的过
程. 对于贝叶斯分类器而言, 常用的方法有高斯判别
分析、朴素贝叶斯分类器
[4]
等. 高斯判别分析中, 假
设待分类的每一类对象都服从多元高斯分布, 这种假
设较为普遍,主要是因为该假设可以近似地模拟实际
应用中多种数据的分布,从而简化复杂分布问题的分
析
[5]
. 然而, 这种假设与数据的真实分布还是有一定
差距的. 首先, 多元高斯分布的协方差矩阵仅能描述
特征之间的线性相关性
[6]
; 其次, 多元高斯分布的边
缘分布为一元高斯分布, 而实际应用中, 特征是否服
从高斯分布还有待商榷. 朴素贝叶斯分类器对待分
类对象的特征作了条件独立性假设, 该假设略去了特
收稿日期: 2017-11-23;修回日期: 2018-07-05.
基金项目: 国家自然科学基金项目(61773164);上海市自然科学基金项目(16ZR1407500).
责任编委: 陈虹.
†
通讯作者. E-mail: beiwang@ecust.edu.cn.