有限混合模型无监督学习优化算法

186 浏览量更新于2023-12-10 收藏 870KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Egyptian Informatics Journal（2011）12，19开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章有限混合模型的无监督学习和优化算法艾哈迈德河AbasZagazig大学计算机和信息学院计算机科学系，埃及收稿日期：2010年5月4日;接受日期：2010年2011年3月22日在线提供摘要本文提出了一种将无监督学习与有限混合模型（FMM）优化相结合的算法。该算法在学习FMM参数的同时，最大限度地减少了FMM拟合输入数据的可能性，从而最大限度地减少了FMM各分量之间的互信息。所提出的算法的性能与其他算法的性能在文献中进行了比较。结果表明，该算法优于其他算法，特别是与数据集是稀疏分布或重叠的集群生成。©2011计算机和信息学院，开罗大学。由爱思唯尔公司制作和主持All rights reserved.1. 介绍无监督学习或聚类分析是模式识别中的一项重要任务。它感兴趣的是将输入数据集中的相似特征向量分组为多个组或聚类。属于同一类的特征向量之间的相似性要大于其他特征向量之间的相似性电子邮件地址：arabas@zu.edu.eg1110-8665© 2011计算机和信息学院，开罗大学。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。doi：10.1016/j.eij.2011.02.005属于其他集群。文献中提出了几种聚类算法，如K-means算法和FMM[1，2]。FMM对于聚类分析是优选的，因为它产生每个特征向量对输入数据集中的每个聚类的成员关系的确定性估计。FMM中的每个分量通常是高斯分布。FMM参数的无监督学习通常通过期望最大化（EM）算法实现EM算法确定FMM参数，使FMM拟合输入数据集的可能性最大化。然而，EM算法具有一些局限性。首先，它产生次优的结果，因为它收敛到最接近的局部最大值的似然函数的开始点。其次，当聚类分离不好时，它会产生混合参数的有偏估计，即，重叠，或者当混合物组分的混合重量具有极限值时，即，数据分布稀疏[4]。FMM的优化定义为FMM中拟合输入数据所需的分量制作和主办：Elsevier关键词有限混合模型;优化20 A.R. Abas集最优化是聚类分析中最困难的问题之一[5]。在文献中提出了几个标准，用于估计的FMM组件的数量，因此集群的数量假设每个集群是由一个组件在FMM。这些标准中的一组是惩罚似然标准，其中包括贝叶斯信息标准（BIC）[6]，Bezdek其他例子是信息理论复杂性度量（ICOMP）[9，10]、最小描述长度（MDL）标准[11]、赤池此外，还提出了一种新的MML标准[15]，并与并行EM（CEM）算法[16]一起使用，以估计FMM组件的数量。所得到的算法克服了常见EM算法的问题，例如获得次优结果;以及当至少一个分量变得太小时接近参数空间的边界。然而，由于依赖于EM算法，使用这些标准选择的模型不一定是聚类小数据集的最佳模型。换句话说，所选模型不一定代表与模型组件明确相关的良好分离的集群[17]。已经表明，BIC/MDL准则与EBB和MML准则都是一致的，并且它优于文献[14]中的许多其他准则。BIC/ MDL标准已被证明可以很好地近似贝叶斯因子[18] 。然而，尽管BIC/MDL标准在数据聚类分离且数据大小较大时是首选[19]，但当聚类形状不是高斯时，它往往会高估组件的数量[4]。另一方面，当聚类重叠或给定数据集中的特征向量数量较小时，它往往会低估分量的数量[20]。惩罚似然准则在FMM对输入数据集的拟合优度与FMM的复杂性之间进行了妥协。由于混合复杂度是输入数据集中特征（维度）数量的二次函数，因此这些标准对输入数据集中特征数量的增加敏感。在本文的其余部分中，使用BIC和MML标准来确定FMM分量数量的算法分别被称为BIC算法和MML算法。用于估计FMM分量的数目的另一组准则是基于互信息。该组包括用于评估具有不同数量分量的不同混合模型的数据熵[21]。然而，该标准可能会高估存在离群值的组件的数量，因为它偏向于产生分离的组件。基于Bayesian-Kullback Ying-Yang学习理论[22]提出了该组中的另一个标准[23]。该准则用于确定FMM分量的数量[5]。然而，由于对用于学习混合模型参数的EM算法的依赖性，该准则具有与惩罚似然准则相同的缺点。因此，该标准在小数据集时产生不准确的结果[5]。此外，提出了一种基于互信息理论的算法[20]。然而，与使用刑罚的算法相反-该算法基于模糊似然准则，去除了FMM中与许多其他小分量重叠的最大分量。这导致由所得到的FMM获得的聚类结构的质量差，因为FMM中的大分量比小分量更受数据支持。此外，删除FMM中的大分量会导致似然函数大大降低。该算法还低估了混合成分的数量时，一些集群在数据空间中分离不良。最后，作者在定义FMM中两个分量之间的互信息时仅使用混合分量的中心而不是所有数据点。这可能只适用于密集且集中在其聚类中心周围的数据集，如作者所示的示例。在本文的其余部分，该算法被称为互信息（MI）算法。提出了一种基于互信息理论的多目标算法[24].然而，该算法具有初始化问题，由于开始与混合模型中的少量组件。此外，只有当数据集的规模较大时，该算法才能确定与输入数据集的聚类数相等的混合成分数。对于小数据集，特别是那些稀疏分布和由重叠聚类生成的数据集，由于使用直方图方法进行密度估计，该算法低估了混合成分的数量。最近，提出了用于参数估计和模型选择的高斯混合学习的贝叶斯然而，该算法具有初始化问题，这是由于在混合模型中的少量组分开始，并且使用BYY调和函数作为停止准则，该停止准则依赖于通过EM算法估计的混合参数值。此外，对于小数据集，特别是那些稀疏分布并由重叠聚类生成的数据集，该算法低估了混合成分的数量，因为BYY和谐函数偏向于产生几乎相等大小的良好分离的聚类。用于估计FMM分量数量的不同标准包括自适应混合算法，其是EM算法的递归形式[26]。虽然该算法不需要组件数量的范围，但当给定数据集包含稀疏分布的数据时，它可能会高估组件的数量[20]。此外，当数据空间中的某些聚类分离不佳时，它可能会低估组件的数量。这是由于EM算法的迭代形式，其可能会为数据集中的少数离群值生成不必要的分量，并且还可能允许许多分量重叠。此外，由于算法的递归性质，所得到的模型取决于将输入数据模式呈现给算法的顺序。最后，该算法没有一种折衷FMM复杂性增加与该模型对给定数据拟合良好性的度量。提出了一种交叉验证的似然准则，用于使用大型数据集估计FMM中的组件数量[27]。然而，这个标准不仅需要一个大的数据集，以便分为训练和测试数据，而且还需要足够的组件数量范围。此外，所选模型不一定是最优模型XA algorithm for unsupervised learning and optimization of finite mixture models有限混合模型的无监督学习和优化算法一个用于根据聚类分离和模型复杂性进行聚类。因此，当给定的数据集稀疏分布时，它可能会高估组件的数量。提出了使用统计测试的算法来估计FMM中的组件数量[28]。然而，这些算法的输出取决于用户定义的阈值，该阈值控制分割非高斯形状分量的决策。此外，这些算法中使用的统计检验对给定数据集中的离群值敏感[28]。最后，这些算法不会在将混合模型拟合到给定数据集的过程中牺牲模型的复杂性。最后，提出了一种使用马尔可夫链蒙特卡罗（MCMC）采样来探索不同模型大小的空间的算法，以根据基于熵的测量来估计FMM中的最佳组件数量[29]。然而，该算法可能会在熵函数的局部最小值处停止，导致模型不是最佳模型，因为该模型与具有较小数据熵的下一个模型之间存在较大的势垒[30]。此外，由于使用了MCMC采样，该算法需要与贝叶斯算法一样大量的计算（例如，参见[31]）。因此，这些算法对于许多模式识别应用是不实际的[30，15]。在本文中，提出了一种算法来确定FMM中的组件的数量和它的参数，用于拟合可能是稀疏分布的或从重叠聚类生成的输入数据集。当它学习FMM参数时，所提出的算法最小化FMM的组件之间的互信息，同时保持FMM的可能性的减少以适应输入数据最小。本文的其余部分组织如下：第2节提出了一种算法，该算法被提出来集成无监督学习和FMM的优化，使用的数据集可能是稀疏分布的或包含重叠的聚类。第3节提出了一个比较研究所提出的算法和其他算法，如MI，MML，BIC算法的基础上，他们的结果在聚类的输入数据，并确定FMM组件的数量。第四节提出结论，未来的工作。2. 该算法所提出的算法，命名为TUned互信息理论（TUMI）算法在本文件的其余部分的步骤，如图1所示。TUMI算法使用随机参数初始化和CEM算法[15]，以减少在学习FMM参数时获得次优结果或接近参数空间边界的影响。在CEM算法收敛之后，如第2.1节中所解释的，计算每个分量与其余FMM分量之间的互信息。在FMM中具有最小混合权重并且与其余FMM分量具有正互信息的分量被认为是不必要的。因此，可以从FMM中删除该分量，只要由于该删除而导致的似然函数的下降率小于第2.2节中定义的某个阈值。阈值可以用于调整TUMI算法以允许FMM分量之间的一些重叠。在CEM算法的每次迭代中，FMM分量的参数根据其混合权重以升序进行估计。这使得小的组件能够存活，并降低了大组件吸收相邻小组件的可能性。2.1. 计算互信息为了引入符号，设D是给定的数据集，其由在d-特征空间中独立且同分布的n个特征向量组成。然后，使用包含k个分量的混合模型Mk，该数据集的密度函数定义为：K联系我们p xjhiP hi11/1其中x e D，hi是定义Mk中第i个分量的中心和协方差矩阵的参数集。该密度函数被重新定义为：XK联系我们fi1/1图1 TUMI算法的步骤。不不不K不不不不3不我 J2fxfyPP使用的数据集具有不同类型的聚类分离22 A.R. Abas其中，fi（x）= p（x|hi）p（hi）.该方程表明，混合模型可以看作是k个子密度函数的和。本文在互信息的一般定义[2]的基础上，Mk中的函数fi和fj定义为：第3.2节。第3.3节描述了用于量化通过聚类算法获得的聚类结果有多好的度量。实验结果及其讨论见第3.4节。If;fXr x;y logrx;yx2bfD y2 Dð3Þ3.1. 数据集其中r（x，y）是找到x和y特征向量的联合分布。互信息度量两个分布与统计独立性的差异。由于x和y是条件独立的，r（x，y）的值可以确定为：rx;yl从Eqs。（3）和（4）很容易注意到，当两个子密度函数表示两个统计独立的分布时，它们之间的互信息为零，否则它大于零。某个子密度函数fi和混合模型Mk的其余部分之间的互信息则定义为：和不同数量的特征。这些数据集描述如下：3.1.1. Iris数据集该数据集通常用于统计实验，因为它在[32]中使用。它由150个特征向量组成，每个特征向量这些特征向量表示三个大小相等的聚类。两个聚类在数据空间中重叠。使用该数据集的目的是测试当数据聚类分离不良和特征数量较少时比较的算法。3.1.2. 第二数据集I= f; M= f=X2.1.5.这个数据集是人工生成的，它包含150个fea。i ki我Jfi2Mk-fi每个向量都是四特征空间中的向量每个特征向量都是从三个独立的高斯形状聚类中以相等的概率生成的。这些星团2.2.调整TUMI算法所提出的算法可以被调整以允许混合组分在一定程度上重叠。提出了一种启发式调整所提出的算法。为了定义这种启发式方法，让由于从混合模型Mk中删除一个分量而导致的似然函数的变化百分比为dec（k），其定义为：lognpDjMk- lognpDjMk-1为111/4/2 222]; 12/4/2226 2]和13/4/2222 6]。协方差这些集群的矩阵是相同的，等于=0.5I4，其中I4是四阶单位矩阵使用该数据集的目的是测试当数据聚类分离时以及当特征数量小时所比较的算法。3.1.3. 第三数据集这个数据集是人工生成的，它包含200个特征向量，每个向量都是10特征空间中的向量12月24日loggpDjM6这些特征向量是从概率为0.5，0.25，经过一个短暂的烧入阶段，其中四个组分分别为0.25和0.25。这些星团的中心是从混合模型中，将获得似然变化的四个百分比值。然后，直到最后一个分量被删除，与混合模型Mr的其余部分具有正互信息的下一个最小分量只有在dec（r）avg（dec（k：r+1））+3std（dec（k：r+1））的情况下才可以被删除，其中avg和std表示平均值和标准偏差。由于TUMI算法是独立的混合参数的数量，它是不太敏感的输入数据集的特征的数量比使用惩罚似然标准的算法。因此，它可以更准确地处理稀疏数据集比这些算法。此外，调整互信息理论允许TUMI算法拟合由重叠l1 1/2/20;0;0;0;0;0; 0;0;0];l2 1/2/2-2;-2;-2;-2;-2; -2;-2;-2;-2]，和13/1/2;2;2;2;2;2;2;2;2;2;]，而它们的协方差矩阵是相同的，等于10. 的使用该数据集的目的是当数据簇分离不好以及当特征的数量很大时（即，数据集是稀疏分布的）。3.1.4. 的四数据set这个数据集是人工生成的，它包含200个特征向量，每个向量都是10特征空间中的向量。这些特征向量是从五个具有相等概率的分离的高斯形状聚类中这些俱乐部的中心聚类比其他算法更准确，1; 2; 3;4;5;6; 7; 8; 9; 10;11; 12; 13;14; 15; 16; 17; 18; 19; 19; 19; 19; 19; 19; 19; 19; 19; 1不1/2;2;2;2;6;6;2;2;6;不在信息论上没有调整。6]T;1/2/2 ;6;6;6;2;2;6;6;2;2];14 四分之四;四][15];[15];[15];[16];[16];[16];[16];[16];[16];[16];[16];[16]，通过实验比较了TUMI、MI、MML和BIC算法对FMM分量的聚类和确定的性能。所有算法的实现和实验进行了使用MATLAB软件包。使用的数据集描述见第3.1节。给出了EM算法的初始化方法和收敛条件使用该数据集的目的是测试当数据聚类被分离时以及当特征数量较大时所比较的算法。3.2. EM算法在所有的实验中，EM算法初始化的混合模型，由30个高斯分量。这些3.实验结果与讨论矩阵是相同的，等于= 0.5I10. 目的表2 TUMI、MI、MML和BIC算法的比较，使用不同方差的学生数据（密歇根州图米）(TUMI、毛里求斯）(TUMI、BIC）P T P T虹膜0.0012.430.71-0.370.00十四点六十五分数据20.0018.25 8.14PP----10d）微量元素（集和T）]Id，其中d是数据T是数据特征的协方差矩阵的NMIX;YpHXHY1/1j1IJA algorithm for unsupervised learning and optimization of finite mixture models有限混合模型的无监督学习和优化算法分量被相等地加权，并且它们具有非限制协方差矩阵。这些组件的中心位置是从数据集中随机选择的。s P e分量的协方差矩阵的初始化类似于=[（1/范围从0到1.0，以便于解释和比较[36]。该归一化版本被称为归一化互信息（NMI），并且被计算为：IX;Y条件的收敛是 |对数LH（t）LOGLH（t 10）|<0.001，其中LOGLH（t）和LOGLH（t 10）分别是迭代（t）和（t 10）时似然函数的自然对数。贝叶斯正则化方法[33，34]用于防止算法接近参数空间的边界。当FMM的至少一个分量塌缩到一个数据点上时，会发生这种情况，从而导致该分量的奇异协方差矩阵。正则化项kId（其中k是正则化常数，Id是d阶单位矩阵）被添加到M步中的协方差矩阵的更新方程中。的CEM算法。在本文的实验中，k被设置为0.0001。3.3. 评价标准互信息是量化两个分布之间共享的统计信息的对称度量[35]。基于这一事实，该指标用于量化聚类算法对特定数据集获得的聚类结果的好坏，方法是将其与该数据集的真实分类进行比较[36]。设x和y是两个随机变量，表示真正的类标签[1. . m]，并且聚类标签[1.. . 由聚类算法得到的对于相同的数据集。相互信息是-其中H（X）和H（Y）表示X和Y的熵。当在所获得的聚类和真实类之间存在一对一映射时，NMI具有1.0的值（即， k = m）。由于该度量不偏向于大k，因此最好比较不同的数据分区[36，37]。3.4. 结果讨论表1显示了与所使用的每一个数据集相比的算法的性能。每种算法的性能通过100次实验的NMI准则值和由算法确定的FMM分量数的平均值和标准差来评估。每个实验具有EM算法的不同随机初始值。实验的这种重复消除了EM算法的初始值对算法结果的影响。该表中的阴影单元格表示所有算法中平均NMI的最大值以及每个数据集四舍五入至最接近的整数后混合物组分（簇）的正确数量。表2显示了TUMI算法与其他算法的比较，使用Student使用的设置。P值是显著性，T值是吐温X 和y 是已定义作为Ix; y PmPk P测井其中Pij是集群j的成员属于类i的概率，Pi是类i的概率，Pj是集群j的概率。由于该度量对于所有数据集不受相同常数的限制，因此可以使用使用从100个实验获得的NMI标准值的一对算法的性能差异，每个实验具有EM算法的不同随机初始化。本表中的阴影单元格表示根据5%的显著性水平，某对算法的性能差异具有统计学显著性的情况。图图2- 5 示出了与所使用的四个数据集中的每一个相比较的从算法获得的 F e s t i v a l 的代表性示例。在每个图中，椭圆是FMM中每个分量的等密度曲线表1 显示TUMI 和MML 算法大致相似，并且在Iris 和Second数据集非稀疏分布的情况下，它们优于MI和BIC算法。示例示于图1A和1B中。2和3ð7Þ2表1比较TUMI、MI、MML和BIC算法在确定FMM中的分量（簇）数目方面的性能。每个数据集名称的括号之间的数字是该数据集的类数数据TumiMIMMLBICNMIKNMIKNMIKNMIKAvgSTDAvgSTDAvgSTDAvgSTDAvgSTDAvgSTDAvgSTDAvgSTD第1133章鸢尾花（三）0.860.073.160.750.380.381.520.520.870.053.390.790.760.002.000.00数据2（3）0.910.063.200.770.270.341.500.640.910.053.290.760.790.132.440.50数据3（3）0.800.372.640.770.000.001.010.100.000.001.000.000.000.001.000.00t-统计量。该检验检查了Data30.0021.220.78-0.290.0021.230.0021.23有了这些数据集，TUMI和MML算法重新-Data40.0054.870.0055.730.0099.01得出最大NMI准则值和正确的数值混合物成分。结果还表明，TUMI24A.R. Abas图2从（a）TUMI;（b）MI;（c）MML和（d）Iris数据集的BIC算法获得的FRST示例。结果显示在由数据集的第三和第四特征组成的子空间图3第二个数据集的FRST示例：（a）TUMI;（b）MI;（c）MML;（d）BIC算法。结果显示在由数据集的第三和第四特征组成的子空间对于稀疏分布的第三和第四类数据集，该算法是最好的。示例示于图1A和1B中。4和5.利用这些数据集，TUMI算法得到最大NMI准则值和正确的混合物组分数。表2显示TUMI算法的性能优于（T值为正），并且在所有数据集中与MI和BIC算法结果还表明TUMI算法的性能优于MML算法，并且在最后两个数据集中与MML算法的性能在统计上不同。这些结果表明，在稀疏分布数据集上，TUMI算法的性能优于BIC算法和MML算法。这是因为它不像两种算法那样对维数灾难敏感。它还表明，TUMI的性能A algorithm for unsupervised learning and optimization of finite mixture models有限混合模型的无监督学习和优化算法图4从第三数据集的（a）TUMI;（b）MI;（c）MML;和（d）BIC算法获得的FRST示例。结果显示在由数据集的第一和第二特征组成的子空间图5从第四个数据集的（a）TUMI;（b）MI;（c）MML;和（d）BIC算法获得的结果FRST的示例。结果显示在由数据集的第一和第二特征组成的子空间算法的性能优于MI算法的所有数据集。这是因为许多原因;首先，从混合模型中删除与其余混合组分具有正互信息的最小组分会导致模型拟合给定数据集的最小减少。另一方面，MI算法删除与其余混合组分具有最大正互信息的组分。这分量总是FMM中的一个大分量，它与许多小分量重叠，因此删除它会导致拟合给定数据集的模型严重减少。其次，使用所有数据点计算互信息值允许TUMI算法以高精度估计具有小数据集的这些值。另一方面，MI算法使用估计的混合来计算互信息值26 A.R. Abas由于特征向量在数据空间中的稀疏分布而更可能被偏置的参数。虽然MI算法在数学上比TUMI算法更有效，但结果表明它可能非常不准确，因此这种效率增益可能毫无价值。第三，使用似然函数来调整TUMI算法，使得当给定的数据集是从部分重叠的聚类中生成时，它能够以高精度估计混合成分的数量。另一方面，在MI算法中没有发现这种调整，因此当给定的数据集从部分重叠的聚类生成4.结论和今后的工作在本文中，通常使用的标准，确定FMM组件的数量所需的输入数据集进行审查。提出了一种基于互信息理论的新算法--调谐互信息算法。该算法克服了使用惩罚似然或互信息准则的算法的问题。该算法产生用于模型估计和选择的单个框架。实验分析表明，该算法的性能优于BIC和MI算法。此外，该算法优于MML算法时，给定的数据集是稀疏分布。然而，TUMI算法包含当输入数据集太稀疏时需要经验调整的参数，即，数据特征的数量与特征向量的数量相比太大了。这些参数是最小混合权重和正则化常数。在未来，降维可以用于降低输入数据集的稀疏性，这允许TUMI算法准确地处理过于稀疏的数据集，而不需要凭经验调整其参数。此外，TUMI算法可用于在可能稀疏分布或从重叠聚类生成的更复杂和真实的数据集中找出聚类结构，每个输入特征向量的聚类和聚类成员资格的最佳数量。例如，当TUMI算法应用于健康不平等数据集时，可用于确定世界各国的健康不平等结构[38]。与特征向量的数量相比，这些数据集包含大量的特征，稀疏数据引用[1] 韦伯A.统计模式识别。第2版，英国：John Wiley Sons; 2002年。[2] 杜达RO，哈特PE，鹳DG。模式分类。第2版。美国：JohnWiley Sons; 2001年。[3] Dempster AP，Laird NM，Rubin DB.通过EM算法从不完整数据中获得最大似然（带讨论）。J R Stat Soc 1977;B39：1[4] 作者：J.使用分类似然来选择聚类的数量。J Comput Sci Stat1997;29（2）：451-7.[5] 郭平，陈春平，吕先生。使用贝叶斯阴阳模型进行小样本集的聚类数选择。IEEE Trans Neural Netw 2002;13（3）：757[6] 施瓦茨湾估计模型的维数。J Ann Stat 1978;6：461-4.[7] Bezdek J.模式识别与模糊目标函数算法。北京：人民出版社，1981.[8] Wallace C ， Freeman P. Estimation and inference via compactcoding. J R Stat Soc 1987;B49（3）：241-52.[9] 博兹多安湾ICOMP：一种新的模型选择标准。在：博克HH，编辑。数据分析的分类和相关方法阿姆斯特丹：北荷兰出版公司.p. 599-608[10] 博兹多安湾基于信息的协方差复杂性测度及其在多元线性模型演化中的应用。 J Commun Stat Theory Methods 1990;19（1）：221-78.[11] Rissanen J. Stochastic Complexity in Statistical Inquiry.新加坡：世界科学，1989年。[12] 温德汉姆M，卡特勒A。用于验证混合物分析的信息比率。美国统计学会杂志1992;87：1188[13] Ban field J ， Raftery A. 基于模型的高斯和非高斯聚类。JBiometrics 1993;49：803[14] Roberts SJ，Husmeier D，Rezek I，Penny W.高斯混合建模的贝叶斯方法。J IEEE TransPattern Anal Mach Intell 1998;20：1133[15] Figueiredo M ， Jain A. 有限混合模型的无监督学习 J IEEETransPattern Anal Mach Intell 2002;24（3）：381-96.[16] [10] 李国伟，李国伟，李国伟. 混合物的组分EM算法。JComput Graph Stat 2001;10（4）：697-712.[17] Celeux G，Soromenho G.混合模型中聚类数的熵判据J Classif1996;13：195[18] 沃瑟曼·卡斯·雷嵌套假设的参考贝叶斯检验及其与施瓦茨准则的关系。美国统计学会杂志1995;90（431）：928[19] 卡特勒A，温德姆议员。混合分析的信息基有效性泛函。In：Bozdogan H，editor.第一届美国/日本统计建模前沿会议论文集：信息方法。荷兰：Kluwer Academic Pub- lishers; 1994年。p. 149比70[20] 作者：Yang ZR，Zwolinski M.自适应混合模型的互信息理论J IEEE TransPattern Anal Mach Intell 2001;23（4）：396-403.[21] Roberts S，Everson R，Rezek I.最大确定性数据划分。JPattern Recognit 1999;33：833[22] 徐湖有多少个集群？：基于阴阳机的理论，解决了模式识别中的一个经典开放问题。 Proc IEEE Int Conf Neural Netw1996;3：1546[23] 徐湖贝叶斯阴阳机，聚类和聚类数。J Pattern Recognit Lett1997;18：1167[24] Still S，Bialek W.有多少簇？信息理论视角。J Neural Comput2004;16（12）：2483[25] Li L ， Ma J. A BYY scale-incremental EM algorithm forGaussian mixture learning. J Appl Math Comput 2008;205：832[26] Priebe CE自适应混合密度估计美国统计学会杂志1994;89：796-806.[27] Smyth P.使用交叉验证似然的概率聚类模型选择。统计计算杂志2000;10（1）：63-72.[28] VlN，LikasA，KrseB.一种基于多变量峰度的高斯混合建模方法，技术报告IAS-UVA-00-04，荷兰：阿姆斯特丹大学计算机科学研究所，2000年。http://citeseer.ist.psu.edu/vlassis00multivariate.html。[29] Roberts S，Holmes C，Denison D.使用可逆跳马尔可夫链蒙特卡罗的最小熵数据划分。J IEEE TransPattern Anal MachIntell 2001;23：909[30] Figueiredo MAT，Leitao JMN，Jain AK.混合模型的拟合。In：Hancock E，Pellilo M，editors.计算机视觉与模式识别中的能量最小化方法。Berlin：Springer-Verlag. p. 54比69[31] Richardson S，Green P.关于未知组分数混合物的贝叶斯分析。J R Stat Soc 1997;B59：731-92.A algorithm for unsupervised learning and optimization of finite mixture models有限混合模型的无监督学习和优化算法[32] 费希尔岭分类学问题中多重测量的应用。J Ann Eugenics1936;7：179-188. UCI机器学习数据库库，Irvine，CA：加州大学信息与计算机科学系， 2010 年 8 月。http://archive.ics.uci.edu/ml/网站。[33] Ormoneit D，Tresp V.使用贝叶斯惩罚项和网络平均的改进高斯混合密度估计。In：Touretzky DS，Mozer MC，HasselmoME，editors.神经信息处理系统进展，第8卷。麻省理工学院出版社，1996年。p. 542-8[34] Ueda N，Nakano R，Ghahramani Z，Hinton GE.混合模型的SMEM算法J Neural Comput 2000;12（9）：2109-28.[35] 封面TM，托马斯JA.信息论的基本原理。Wiley; 1991.[36] Strehl A ， Ghosh J. Cluster ensembles - A knowledge reuseframework for combining multiple partitions.马赫学习研究杂志2002;3：583-617.[37] Fern XZ，Brodley CE.高维数据聚类的随机投影：一种聚类集成方法。第20届国际机器学习会议（ICML 2003）186比93[38] 世界卫生组织（世卫组织），数据和统计，2010年8月。http://www.who.int/research/en/网站。

下载后可阅读完整内容，剩余1页未读，立即下载