2011年埃及信息学杂志：新算法确定有限混合模型参数从不完全数据中

78 浏览量更新于2023-12-10 收藏 593KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

EgyptianInformatics Journal（2011）12，185开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章增量广义回归神经网络在不完全数据混合模型学习中的艾哈迈德河Abas沙特阿拉伯王国Lieth市Makka Al-Mukarrama Umm Al-Qura大学Lieth男大学计算机科学系接收日期：2011年4月13日;修订日期：2011年7月8日;接受日期：2011年7月25日2011年8月25日在线提供摘要有限混合模型（FMM）是一种著名的模式识别方法，其参数通常是从完全数据中使用期望最大化（EM）算法确定的。本文提出了一种从不完全数据中确定FMM参数的新算法。与之前提出的改进EM算法相比，当包含缺失值的维度与某些完整维度至少适度相关时，该算法具有更好的©2011计算机和信息学院，开罗大学。由爱思唯尔公司制作和主持All rights reserved.1. 介绍FMM是一种分区概率算法，常用于聚类分析[1FMM的参数通常通过EM算法[18]从完整的数据中确定。它表明，当描述的机制，电子邮件地址：armohamed@uqu.edu.sa1110-8665© 2011计算机和信息学院，开罗大学。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。doi：10.1016/j.eij.2011.07.001如果数据中缺失值的出现是随机缺失（MAR），则可以从完整数据中对代表数据的FMM参数进行最大似然推断[19]。换句话说，可能性只是完整数据的密度，它是FMM参数的函数[20]。如果数据的某个维度中缺失值的概率取决于其他完整维度的值，但不取决于缺失值的真实值，则缺失数据被视为MAR[21]。然而，仅使用完整数据确定FMM参数要求数据大小较大，以便获得数据分布的良好拟合[22]。由于因子分解相似性的实际问题，通常通过EM算法迭代地最大化完整数据。结果表明，EM算法可用于从不完全数据中确定多元正态分布的参数[21]。使用多元回归估计数据中的缺失值。然后，使用具有估计值的残差协方差的完整数据来估计多元正态分布的均值和协方差矩阵。回归制作和主办：Elsevier关键词聚类分析;期望最大化;有限混合模型;不完全数据;增量广义回归神经网络;局部相关186A.R. AbasP我c1pc 1; 0 6 pc6 1，对于c = 1，2，. . 、K.P系数和剩余协方差是根据当前模型参数估计的，以使可能性最大化。EM算法被修改，使得它可以从不完整的数据中确定多元正态分布的混合参数[23]。缺失值和其他一些统计量在E步骤中从每个模型组件中估计，因为它们来自该组件。这些值与观测值一起用于M步以确定该模型的参数然而，由于在缺失值的估计中使用的估计器（核）的数量较少，估计值的准确性这些估计量的数量等于FMM中分量的数量。这反过来又会影响FMM参数的精度，从而影响其聚类结果。如果首先以高精度估计数据中的缺失值，然后通过EM算法学习FMM参数，则可以克服这个问题。修正EM算法[23]在EM迭代期间通过结合两种类型的辅助二进制指示符矩阵来减少，观察到的和未观察到的成分，数据[24]。将所得EM算法与2. 修改后的EM算法[23]提出了改进的EM算法[23]，用于从不完整数据中确定多元正态分布的混合参数，前提是缺失值为随机缺失（MAR）[21]。在本文的其余部分，我们将此算法称为EMH算法。EMH算法描述如下。假设X ={x 1，x 2，... . ，xn}是由n个图案和d个维度组成的数据集，使得每个图案被表示为xi=[xi1，xi2，.. . ，xid]T.假设该数据集是从具有未知混合系数p（c）的K个多元分布的混合随机生成的，其中c = 1，2，.。. 、K.设x的概率密度分量为从第k个多变量分布是p（xik）。该com-通常使用的分布是高斯分布N（l，R），其中l，R分别是均值和协方差矩阵[23]。该分布优于EM算法的其他分布，因为它具有少量需要计算它的导数也很简单。 x 的密度可以写为 p 。Kp<$c<$p<$xijc <$，其中一种新提出的数据增强（DA）计算算法，用于在数据随机缺失时学习正态混合模型[24]。实验结果表明，DA填补有相当有前途的精度在预测的缺失值相比，EM填补，特别是当缺失率增加。然而，这两种算法都使用混合模型参数来插补缺失值，因此它们的插补对关于混合组分的密度函数和完全观察到的数据的大小的先验信息敏感。提出了一种称为鲁棒混合判别分析（RMDA）的监督分类方法来处理标签噪声数据[25]。RMDA算法只使用完全观察到的数据来学习混合模型参数，然后使用得到的混合模型来估计标签和检测噪声。然而，由RMDA算法进行的插补对关于混合组分的密度函数的先验信息、完全观察到的数据的大小以及诸如所有不确定标签都在一个特征中的假设是敏感的。本文提出了一种从不完全数据中确定FMM参数的新算法。所提出的算法是增量广义回归神经网络（IGRNN）[26]和EM算法[18]的组合。它使用IGRNN估计数据中的缺失值，然后使用EM算法来确定FMM参数。针对使用改进的EM算法[23]从不完整数据中学习FMM，研究了所提出算法的性能。本文的动机是测试两种算法的缺失数据估计值的准确性对所得混合模型的聚类精度的影响。本文件的结构如下。第2节描述了改进的EM算法[23]。第3节描述了所提出的算法。第4节描述了为比较两种描述的算法而进行的实验。第5节讨论了从实验中获得的结果。第6节总结了本文并总结了其发现。当X包含MAR缺失值时，模式xi可以可以表示为 xi=（xi ， obs，xi ， mis），其中xi ，obs代表观测值，xi，mis代表模式xi的缺失值。在拟合FMM时，必须考虑两种类型的缺失值;一种是每个模式z i=[z i1，z i2，.]的聚类成员维度的值。. .，ziK] T，其中i=1，2，.. . ，n，另一个是数据矩阵X中的缺失值。聚类权向量zij中的每个值表示数据矩阵X中的某个模式xi从FMM中的第j个分量。在EM算法中，当x i被馈送到模型时，z i由后验概率近似。在E步骤中，除了M步骤所需的一些统计矩之外，还使用每个模式的观测值来确定所有μzi。而在M步中，FMM参数的新的估计是使用观测数据和在E步中确定的统计矩来确定的。E步和M步交替进行，直到收敛。有关此算法的更多详细信息和描述，请参见[23]。3. 提出了一种从不完全数据增量广义回归神经网络（IGRNN）[26]被提出用于估计数字数据集中的缺失值。研究表明，IGRNN在数据集的维度之间具有强相关性的情况下对缺失值产生高度准确的估计[26]。在本节中，建议将该算法与EM算法[18]相结合，以便从不完整的数据中确定FMM参数。首先，该算法使用IGRNN估计数据集中的缺失值。其次，它估计参数的FMM，可用于聚类的数据使用得到的完整数据和EM算法。该算法被称为IGRNNEM算法在本文的其余部分。IGRNNEM算法描述如下：Kc1增量广义回归神经网络在不完全数据混合模型学习中的应用187a0.140.120.10.080.060.040.02B0.350.30.250.20.150.10.050c0.450.40.350.30.250.20.150.10.0500% 10% 20% 30% 40% 50%60%噪声0% 10% 20% 30% 40% 50%60%噪声0d0.600.500.400.300.200.100.000% 10% 20% 30% 40% 50% 60%噪声0% 10% 20% 30% 40% 50% 60%噪声e0.700.600.500.400.300.200.100% 10% 20% 30% 40% 50% 60%噪声图1比较IGRNNEM（实线）和EMH（虚线）在使用第一个数据集聚类包含不同数量噪声模式的不完整数据时的性能。使用不同数量的MCAR缺失值：（a）10%、（b）20%、（c）30%、（d）40%和（e）50%。垂直条表示来自三个不同实验的误差的标准偏差3.1. IGRNNEM算法步骤1. IGRNN算法[26]被提出来估计数据维度之间的相关性较大时的缺失值。假设一个大小为n的数据集包含一组完全观察到的维度X和一个包含缺失值的维度Y。在该算法中，估计Y中的缺失值需要具有缺失的所有数据模式该维度上的值将根据它们与由X个维度组成的子空间中的完整数据模式的接近程度进行排序。包含缺失值的模式根据其与完整模式的接近程度以降序排序。步骤2. 第一个模式中缺失值的估计值为^y=x，计算为沿Y维的所有观测值y i的加权平均值MCEMCEMCEMCEMCE188A.R. Abas我我i¼1经验 -我D2¼ x-xT x-x22R2我我我一个0.20.180.160.140.120.10.080.060.040.020c0.450.40.350.30.250.20.150.10.0500% 10% 20% 30% 40% 50%60%噪声b0.550.50.450.40.350.30.250.2d0.450.40.350.30.250.20.150.10.0500% 10% 20% 30% 40% 50% 60%噪声0% 10% 20% 30% 40% 50% 60% 0% 10% 20% 30% 40% 50% 60%噪声e0.60噪声0.550.500.450.400.350.300% 10% 20% 30% 40% 50% 60%噪声图2比较IGRNNEM（实线）和EMH（虚线）在使用第二个数据集聚类包含不同数量噪声模式的不完整数据时的性能。使用不同数量的MCAR缺失值：（a）10%、（b）20%、（c）30%、（d）40%和（e）50%。垂直条表示来自三个不同实验的误差的标准偏差观察值根据其沿X维度与y（一）.Pn yexp.-D2其中，D2：i是模式i，yi，xi和模式（yi，xi）之间的欧几里德距离，并且其如等式（1）所示计算。其中，r是平滑参数，并且它是经验确定的。如图所示[26]。i1i2r2n.D21MCEMCEMCEMCEMCE增量广义回归神经网络在不完全数据混合模型学习中的应用189BPK BðÞc1我我 KP的0.30.25b0.30.250.20.20.150.150.10.10.050.05000% 10% 20% 30% 40% 50% 60%0%噪声10% 20% 30% 40% 50% 60%噪声c0.50.450.40.350.30.250.20.150.10.050d0. 600. 500. 400. 300. 200. 100. 000% 10% 20% 30% 40% 50% 60% 0% 10% 20% 30% 40% 50% 60%噪声e0.700.60噪声0.500.400.300.200.100.000%的百分比10% 20% 30% 40% 50% 60%噪声图3比较IGRNNEM（实线）和EMH（虚线）在使用第一个数据集聚类包含不同数量噪声模式的使用不同数量的MAR缺失值：（a）10%，（b）20%，(c)30%，（d）40%，（e）50%。垂直条表示来自三个不同实验的误差的标准偏差步骤3. 在估计其缺失值之后，该模式被添加到完整模式中，然后用于估计下一个不完整模式中的缺失值，数据集中所有特征向量的后验概率向量分类的组。步骤4. 重复步骤2和3，直到估计数据集（Y，X）中的所有缺失值。步骤5. 所得到的完整数据集被馈送到EM算法，z^ic Pbj1ð3ÞRithm[18]估计FMM的参数如下。在E步骤中，为FMM中的每个模型分量c计算以下哪里KP1，和 06P（c）61，其中lk和Rk是FMM中第k个分量的均值和协方差矩阵。总密度MCEMCEMCE的错误分类错误MCE●Pjpy^;xjhjJJ190A.R. AbasX__TFMM可用于数据集的聚类分析。NPcj1a0.350.30.250.20.150.10.0500.450.40.350.30.250.20.150.10.0500% 10% 20% 30% 40% 50% 60%0% 10% 20% 30% 40% 50%60%c0.45噪声0.5噪声0.40.450.350.40.30.250.20% 10% 20% 30% 40% 50%60%噪声e0.540.520.350.30.250.20% 10% 20% 30% 40% 50% 60%噪声0.500.480.460.440.420.400% 10% 20% 30% 40% 50% 60%噪声图4比较IGRNNEM（实线）和EMH（虚线）在使用第二个数据集聚类包含不同数量噪声模式的不完整数据时的性能。使用不同数量的缺失值（MAR）：（a）10%、（b）20%、（c）30%、（d）40%和（e）50%。垂直条表示来自三个不同实验的误差的标准偏差然后，从FMM中计算出的c1我C我- -一种1XNPK Pcpy^;xjh。lc_zjcy^j;xj5步骤6. 在M步中，计算每个组分的参数，在FMM中输入c-1N<$zy^;xy^;x-Tð6ÞR c_jcJJJJNPcj1信用证信用证b1XN步骤7. 收敛后，保存生成的FMM。这MCEMCEMCEMCEMCEBD产品中心j1z^jc4增量广义回归神经网络在不完全数据混合模型学习中的应用191的0.40.350.30.250.20.150.10.050B0.40.350.30.250.20.150.10.0500% 10% 20% 30% 40% 50% 60% 0% 10% 20% 30% 40% 50% 60%c0.450.40.350.30.250.20.150.10.050噪声d0.500.450.400.350.300.250.200.150.100.050.00噪声0% 10% 20% 30% 40% 50% 60%0% 10% 20% 30% 40% 50% 60%噪声e0.70噪声0.600.500.400.300.200.100% 10% 20% 30% 40% 50% 60%噪声图5比较IGRNNEM（实线）和EMH（虚线）在使用Iris数据集聚类包含不同数量噪声模式的不完整数据时的性能。使用不同数量的MCAR缺失值：（a）10%、（b）20%、（c）30%、（d）40%和（e）50%。垂直条表示来自三个不同实验的误差的标准偏差4. 实验结果与讨论比较了IGRNNEM算法和EMH算法在不完全数据聚类中对FMM参数估计的性能。在比较中使用了不同的缺失值机制，例如完全随机缺失（MCAR）和随机缺失（MAR）[21]。还有，使用多维中缺失值的不同百分比和数据集中噪声模式的不同百分比进行比较。增加的噪声来自多元正态分布，其参数为N（0，0.1* R），其中均值位于空间原点，协方差矩阵为数据协方差矩阵的10%。噪声被随机地添加到图案。在比较中使用了四个数据集第一个和第二个数据集MCEMCEMCEMCEMCE192A.R. Abasa0.650.60.550.50.450.40.350.30.250.20.60.550.50.450.40.350.30.250.20% 10% 20% 30% 40% 50% 60%0% 10% 20% 30% 40% 50% 60%c0.650.60.550.50.450.40.350.30.25噪声D0.70.650.60.550.50.450.40.350.30.250.2噪声0% 10% 20% 30% 40% 50% 60% 0% 10% 20% 30% 40% 50% 60%噪声e0.650.60噪声0.550.500.450.400.350.300.250% 10% 20% 30% 40% 50% 60%噪声图6比较IGRNNEM（实线）和EMH（虚线）在使用Wine数据集聚类包含不同数量噪声模式的不完整数据时的性能。使用不同数量的MCAR缺失值：（a）10%、（b）20%、（c）30%、（d）40%和（e）50%。垂直条表示来自三个不同实验的误差的标准偏差第三个和第四个数据集是真实数据集。4.1. 第一个和第二个数据集这两个数据集与[26]中使用的第一个和第二个数据集相似。这两个数据集都有150个模式和四个维度。每个数据集都是从三个明显的分离产生的高斯形状的簇，使得从每个簇生成50个图案表示第一个数据集的聚类中心通过的以下载体：l1=[2 22]T，l2=[4444]T和l3=[6666]T，而第二数据集由以下向量表示l1=[2 2 2] T，l2=[2 2 6 2] T，以及l3=[2 2 6] T。科瓦里-所有簇的阶数矩阵是相似的（Ri=0.5I4，i=1：3），其中I4是四阶单位矩阵。缺失值MCEMCEMCEMCEBMCE增量广义回归神经网络在不完全数据混合模型学习中的应用193的0.30.250.20.150.10.050B0.450.40.350.30.250.20.150.10.0500% 10% 20% 30% 40% 50% 60%0% 10% 20% 30% 40% 50% 60%c0.50.450.40.350.30.250.20.150.10.050噪声d0.450.400.350.300.250.200.150.100.050.00噪声0% 10% 20% 30% 40% 50% 60%0% 10% 20% 30% 40% 50% 60%噪声e0.700.60噪声0.500.400.300.200.100.000% 10% 20% 30% 40% 50% 60%噪声图7比较IGRNNEM（实线）和EMH（虚线）在使用Iris数据集聚类包含不同数量噪声模式的使用不同数量的MAR缺失值：（a）10%，（b）20%，(c)30%，（d）40%，（e）50%。垂直条表示来自三个不同实验的误差的标准偏差被放入每个数据集的第三和第四维中。这些数据集比较了两种算法在数据维度之间相关性的极端情况下FMM的聚类性能4.2. 第三数据集该数据集是自[27]中使用以来常用于统计实验的Iris数据集。数据包含150个模式。每个图案都是一个四维向量。这些模式代表三个聚类，每个聚类包含50种模式。缺失的值被放在第三和第四维度中。4.3. 第四数据集该数据集是Wine数据集，它是用于统计分析的众所周知的数据集。该数据集和Iris数据集都可以从UCI机器学习库获得。1数据包含178个模式。每个图案都是一个矢量1http://www.ics.uci.edu/。MCEMCEMCEMCEMCE194A.R. Abasð-Þ的0.50.450.40.350.30.250.2c0.650.60.550.50.450.40.350.30.250% 10% 20% 30% 40% 50%60%噪声b0.60.550.50.450.40.350.30.250.20.15d0.650.60.550.50.450.40.350.30.250.20% 10% 20% 30% 40% 50%60%噪声0% 10% 20% 30% 40% 50%60%噪声0% 10% 20% 30% 40% 50% 60%噪声e0.650.600.550.500.450.400.350.300.250% 10% 20% 30% 40% 50% 60%噪声图8比较IGRNNEM（实线）和EMH（虚线）在使用Wine数据集聚类包含不同数量噪声模式的不完整数据时的性能。使用不同数量的缺失值（MAR）：（a）10%、（b）20%、（c）30%、（d）40%和（e）50%。垂直条表示来自三个不同实验的误差的标准偏差在一个13维的空间里。这些模式代表三个聚类，分别包含59、71和48个模式。缺失值被放在第六和第七维度中。当缺失值为MCAR时，它们随机分散在每个数据集的指定维度中。同时，当缺失值为MAR时，它们随机分散在每个数据集的指定维度中，这些数据集受到每个模式的第二维值的限制。任何有缺失值的模式的第二维度的值在第一个数据集中应该大于3，在第二个数据集中应该大于1.5，在Iris数据集中应该大于2.99，在Wine数据集中应该大于1.85由于EM算法收敛到一个局部最大值的似然函数，在这两个算法比较的算法是使用20个不同的随机初始化初始化。在收敛之后，产生最大似然的运行结果被选择作为表示数据的混合模型的参数。当迭代之间的似然性的百分比差小于或等于0.01时，实现收敛。该条件克服了EM在似然函数的局部最大值附近收敛缓慢的问题。在这两种情况下，MCEMCEMCEMCEMCE增量广义回归神经网络在不完全数据混合模型学习中的应用195通过计算Mis-聚类误差（MCE）来评估比较的算法。每个模式被分配到具有给定该模式的最大后验概率的聚类，并且计算不正确聚类的模式的数量（Nr然后计算MCE，使得MCE=Nr/N，其中N是模式的总数。图图1 -8（见附录）显示了实验结果。每个图显示了从三个不同实验中获得的结果的平均值，其中选择了不同的模式组以具有缺失值。误差条表示结果的标准偏差乘以±0.1。图图1和图3表明，当数据集的所有维度之间的相关性较大时，IGRNNEM算法产生较小的MCE，因此比EMH算法产生更准确的结果。与此同时，无花果。图2和图4表明，两种算法都产生大的MCE，因此结果不准确，但当数据集的所有维度之间的相关性太小时，IGRNNEM是最差的。图图5和图7表明，在Iris数据集的情况下，IGRNNEM算法通常产生更小的MCE，因此比EMH算法产生更准确的结果。该数据集在其维度之间具有中等相关性。最后，FIGs 。图 6 和图 8 示出了在 Wine 数据集的情况下，IGRNNEM算法产生更小的MCE，因此比EMH算法产生更准确的结果，尽管误差略高。在这个数据集中，维度之间的大多数相关性都很小，但包含缺失值的维度6和7与其他一些维度具有中等相关性。上述结果表明，IGRNNEM算法产生更小的MCE，因此比EMH算法更准确地估计缺失值，当所有维度之间或至少在包含缺失值的维度和数据的其他维度中的一些维度之间的干扰至少是适度的时。这是因为IGRNNEM算法比EMH算法使用更多的估计器（内核）。因此，IGRN-NEM算法产生的混合模型比EMH算法产生的混合模型更适合数据，因为更准确的数据有助于在拟合模型。另一方面，这两种算法在估计缺失值时都会产生很大的误差，因此当数据维度之间的相关性很小时，混合模型的拟合很差。在这种情况下，EMH算法比IGRNNEM算法产生更好的结果，尽管其误差水平较高。这是因为EMH算法在估计数据中的缺失值以及因此在估计表示该聚类的模型分量的参数时依赖于给定每个聚类的数据维度之间的局部相关性。如果每个聚类的形状不是圆形、球形或超球形，则局部相关性可以优于数据维度之间的整体相关性这些形状导致给定每个聚类的维度之间的相关性太小。这一结果与最近发表的基于一般回归神经网络局部调整的工作的结论一致[28]。5. 结论有限混合模型法是聚类分析中的一种常用方法。有限混合物的参数通常是使用期望最大化算法估计。由于该算法需要完整的数据，因此早期提出了一个修改版本[23]来处理不完整的数据。本文提出了一种从不完全数据中估计有限混合模型参数的新算法。在不完全数据的聚类中，给出了所提出的算法和[23]中结果表明，所提出的算法产生更准确的结果比其他算法时，所有维度之间的相关性，或至少在包含缺失值和其他维度的数据中的一些至少是温和的。另一方面，当数据维度之间的相关性很小时，这两种算法都会产生不好的结果。该算法是最坏的，如果集群形状不是圆形，球形，或超球体。附录A.实验结果本附录包含图1和图2。图1-8 示出了本文进行的实验的结果。引用[1] Ban field J ，Raftery A. 基于模型的高斯和非高斯聚类。 JBiometrics 1993;49：803[2] 毕晓普角模式识别的神经网络。牛津大学出版社; 1995.[3] Meila M，Heckerman D.几种聚类和初始化方法的实验比较。技术报告MSR-TR- 98-06。Redmond，WA，USA：MicrosoftResearch，Microsoft; 1998.[4] Fraley C，Raftery A.有多少簇？哪种聚类方法？基于模型的聚类分析。计算机杂志1998;41：578-88.[5] Fraley C，Raftery A. MCLUST：基于模型的聚类和判别分析软件。第342章意外的发现美国华盛顿州西雅图：华盛顿大学统计系; 1998年b。[6] 弗拉利角基于模型的高斯层次聚类算法。Soc Ind Appl Math（SIAM）J Sci Comput 1998;20：270-81.[7] Cadez I，Smyth P.使用分层模型的概率聚类。技术报告99-16.欧文，美国：信息和计算机科学系，加利福尼亚大学; 1999。[8] 波塞角大型数据集的基于层次模型的聚类。J Comput GraphStat 2001;10（3）：464[9] Roberts S，Everson R，Rezek I.最大确定性数据划分。JPattern Recognit 1999;33：833[10] 韦伯A. 统计模式识别。Arnold; 1999.[11] Figueiredo M ， Jain A. 有限混合模型的无监督学习 IEEETransPattern Anal Machine Intell 2002;24（3）：381-96.[12] Fraley C，Raftery A.基于模型的聚类、判别分析和密度估计。第 380 号技术报告 Seattle ， WA ， USA ： Department ofStatistics，University of Washington; 2000.[13] 威廉斯角分层混合模型的 MCMC 方法 . Proc Adv NIPS2000;12：680[14] Roberts S，Holmes C，Denison D.使用可逆跳马尔可夫链蒙特卡罗的最小熵数据划分。 IEEE 跨模式肛门机器 Intell2001;23：909[15] 杨K，Fraley C，Murua A，Raftery A，Ruzz W.基因表达数据的基于模型的聚类和数据转换。技术报告UW-CSE-2001-04-02。西雅图，美国华盛顿州196A.R. Abas华盛顿大学计算机科学与工程系; 2001年a。[16] 放大图片作者：J.数据挖掘的层次聚类。第五届基于知识的智能信息工程系统和相关技术国际会议论文集 KES-2001;2001。[17] 放大图片作者：J.有标签和无标签数据的概率层次聚类。基于知识的智能工程系统2002;6（1）：56[18] Dempster AP，Laird NM，Rubin DB.通过EM算法从不完整数据中获得最大似然（带讨论）。 J Royal Stat Soc 1977;B（39）：1[19] Rubin DB.推理和缺失数据。J Biometrica 1976;63：581-93.[20] 放大图片作者：Jorgensen M.含缺失信息混合数据的混合模型聚类。计算机统计数据分析杂志2003;41：429-40.[21] 小RJA，鲁宾DB。缺失数据的统计分析。New York：JohnWiley and Sons，1987.[22] Cang S，Partial D. TRAUMA缺失数据分析。2002年中国自动化与计算机学会英国p. 445-51[23] 亨特洛杉矶。使用有限混合模型进行聚类。博士论文新西兰：怀卡托大学统计系，1996年。[24] 林迪，李俊成，何惠君。具有缺失信息的正态混合模型的快速监督学习。J Pattern Recognit 2006;39：1177-87.[25] Bouveyron C，Girard S.混合模型的鲁棒监督分类：从不确定标签的数据中学习。J Pattern Recognit 2009;42：2649[26] 阿巴斯河一种用于缺失值估计的增量式广义回归神经网络。Egypt Comput J 2010;37（2）：1[27] 费希尔岭分类学问题中多重测量的应用。J Ann Eugenics1936;7：179[28] 阿巴斯河使用带有局部调整的一般回归从不完整数据集学习混合模型。Egypt Inform J 2010;11（2）：49-57.

下载后可阅读完整内容，剩余1页未读，立即下载