局部调整的一般回归在不完全数据集上学习

59 浏览量更新于2023-12-10 收藏 1.41MB PDF 举报

混合模型

EM算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Egyptian Informatics Journal（2010）11，49开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章基于局部调整的一般回归在不完全数据集上学习混合模型艾哈迈德河AbasZagazig大学计算机和信息学院计算机科学系，埃及收稿日期：2010年5月4日;接受日期：2010年2010年11月2日在线提供摘要有限混合模型是一种用于拟合复杂数据分布的模式识别技术。该混合模型的参数通常通过期望最大化（EM）算法来确定。前面提出了EM算法的修改版本，用于处理具有缺失值的数据集。该算法受到数据中离群值的出现、数据空间中类之间的重叠以及从其类生成数据时的偏差的影响。此外，它只在缺失值率较低时才能很好地工作。本文提出了一种新的算法来克服这些问题。比较研究表明，新算法优于改进的EM算法和文献中常用的其他算法©2010计算机和信息学院，开罗大学。由爱思唯尔公司制作和主持All rights reserved.1. 介绍有限混合模型（FMM）是一种用于密度估计和模式识别的半参数方法[1]。它具有参数化方法分析简单的优点和对复杂数据分布建模的灵活性的优点。非参数方法[2]。FMM的参数通常由期望最大化（EM）算法估计[3]。结果表明，EM算法可以从具有缺失值的数据集中估计多元正态分布的参数[4]。EM算法被修改为估计多元正态分布的混合参数，使用不完整的数据集[5]。修改后的EM算法电子邮件地址：arabas@zu.edu.eg1110-8665© 2010 开罗大学计算机和信息学院。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。doi：10.1016/j.eij.2010.10.001制作和主办：ElsevierRithm用于聚类包含缺失值和许多分类特征的数据集[6，7]。此外，它还用于学习径向基函数网络的参数，用于对包含缺失值的数据集进行分类[8]。当有足够多的观测值时，根据所得FMM的分类性能，该算法优于EM算法结合缺失值的无条件平均值插补[9，10]或条件平均值插补[11]此外，根据所得FMM的分类性能，该算法优于EM算法结合删除包含缺失值的特征向量[11]关键词有限混合模型;期望最大化;缺失值;不完整数据集;局部调整一般回归50A.R. Abas1/4fg2我I1I2id-1我Jh¼1ihJH[1/2]然而，修改后的EM算法的结果受到几个建模假设的影响，例如组件数量和每个组件的概率分布函数[11，12]。例如，当用具有太少分量的FMM初始化时，修改的EM算法产生输入数据集中的FMM参数和缺失值的不准确估计，每个分量具有不适合输入数据集的任何聚类的概率分布函数。此外，当数据集的大小较小时，该算法的性能较差[11]。结果表明，通过使用输入特征向量的分布而不是使用FMM[11]中使用的先验概率分布函数来估算缺失值可以获得更好的结果。改进的EM算法[5]略有变化，以减少EM迭代过程中的计算负担，方法是结合两种类型的辅助二进制指示矩阵，对应于每个数据的观测和未观测分量[13]。最后将EM算法与一种新的数据增强算法进行了比较(DA)学习正态混合的因此，不能保证估计任何新点的回归值的误差将很小。与GRNN类似的算法用于训练神经网络，其中隐藏的神经元使用高斯密度函数，使用包含缺失值的数据集[16，17]。这些算法用于回归和分类，它们表现出比仅使用输入数据集的完整部分或使用无条件均值插补方法估计其缺失值后的总数据集训练的神经网络更好的性能。假设R x 1; x 2;. ;x N是一个数据集，得到N个特征向量，每个特征向量是d-特征空间中的向量，使得x;x;. . ;x;y T，其中第一个（d- 1）特征是完整的，第d个特征包含缺失值。GRNN算法通过计算第d个特征上所有观测值的加权平均值来估算xi中的缺失值，使得每个观测值根据其在完全观测子空间中与xiPno yexp.D2- 1J数据随机缺失时的模型[13]。实验-谈话结果表明，DA插补具有相当大预测缺失值的准确性，与EM插补相比，尤其是缺失率yxj1j-2r21^in.D2双头增大然而，两种算法都估算了缺失值其中，no是完全观察值，D2¼Pd-1x-x是欧几里得距离是敏感的混合物组分的密度函数和充分观察到的数据的大小的先验信息。提出了一种称为鲁棒混合判别分析（RMDA）的监督分类方法来处理标签噪声数据[14]。该算法仅使用完全观测数据来学习混合模型参数，然后使用该混合模型来估计标签和检测噪声。然而，该算法所做的估算对有关混合组分的密度函数、完全观察到的数据的大小以及诸如所有不确定标签都在一个特征中的假设的先验信息是敏感的。在本文中，提出了一种新的算法，以克服改进的EM算法[5，13，14]的问题。在估计缺失值时，所提出的算法对建模假设的敏感性低于改进的EM算法。此外，在诸如异常值的出现的情况下，它比EM算法受学习问题的影响更小。数据集和数据类之间的重叠2. 广义回归神经网络一般回归神经网络（本文其余部分称为GRNN）实现了密度估计和一般（非线性）回归的非参数算法[15]。该算法具有比传统的非线性回归技术更好的回归性能，特别是具有少量特征向量和大量特征的稀疏数据集。这是因为从GRNN得到的回归曲面在数据空间中的每个地方都有定义[15]。例如，当输入数据集稀疏分布时，GRNN中使用的平滑参数（窗口大小）可以很大，以便以与其他点相似的精度估计任何新点处的回归值。另一方面，传统的非线性回归技术往往会过度拟合该数据集，并且-在xi和xj之间，并且r是第d个特征的平滑参数。为了确定r的最佳值，GRNN使用留一交叉验证方法。然后，最佳r用于将所有缺失值插补到第d个特征上。然而，作为一种非线性回归技术，当数据集具有大量强相关的特征时，GRNN算法会产生良好的结果[18此外，它要求缺失值的数量很小，以加速算法并产生无偏插补[18，4，15，20]。因此，该算法不适用于特征向量少、特征个数少的小数据集，特别是当多个特征包含缺失值且这些特征与数据集中其他特征之间的相关性较弱时。在本文中，GRNN算法被用来填充在一定的数据集的缺失值被EM算法用于学习FMM的参数。由此产生的算法被称为GREM算法在本文的其余部分，它是在下面的比较研究中使用investi-门的性能，提出的算法对其他算法。3. 改进的EM算法EM算法被修改为从具有缺失值的数据集中估计FMM参数[5]。该算法在本文中被称为MEM算法。在该算法中，输入数据集中的缺失值和一些其他统计量在E-步骤中从每个模型组件的参数估计这些值与数据集中的观测值一起用于M步以估计FMM参数。这意味着，在E步骤中，从FMM中的不同分量获得输入数据集中每个缺失值的多重插补，然后在M步骤中使用这些插补，2R2Oj1 exp -j使用混合模型参数及其估算基于局部调整的一般回归在不完全数据集上学习混合模型51[1/2]BX不BCð ÞQ¼产品中心c¼1Pc1，06Pc6 1。假设特征向量xi的概率密度，其是完全观察到的，给定第k个com-NPbc我c1我 C我I1I2IK我我Z^ic¼PK我我我CC我我我CCCCCOj1-J2R2O我nhz^icExijjx;hcxij2xexp -j>我O在FMM中的分量h，并且它们在两个上都被完全观察到。>：我CIJ我xi的观测子空间在这个特征向量和.！.Xð联系我们j¼JJj1OOM我估计FMM参数。以下段落给出了B假设数据集R ^f x; x;. . ; xg由N1XN12NJ特征向量，每个特征向量是d特征空间中的向量，每个特征向量xixi1;xi2;.. . ;xidT. 该数据集假设是从K多变量的FMM生成的，具有未知混合系数Pc的不良分布，其中l^c¼1NPc1NEj1.XNj1zjcxjj xo;hc！JJCð9ÞPKR^c¼EzjcxjxTjxo;hc-l^cl^Tð10ÞFMM中的分量是p=xijhk=Nxi;lk;Rk=，其中lk和Rk是该分量的均值和协方差矩阵。然后，来自FMM的xi的总密度pxKP c p xh.在拟合FMM时，必须考虑两种类型的缺失值;第一种类型是每个特征向量的聚类成员向量的值。 .第二类是R的不同特征中的缺失值。为了表示第二种类型，让R中的每个特征向量重写为xi1/2 xo; xm1，其中重复E步骤和M步骤，直到算法Rithm收敛到似然函数的局部最大值。4. MEM算法与GREM算法在FMM参数无监督学习中的比较在第3节中介绍的相同符号用于此科.为了简化比较，假设数据o和m上标表示观察到的值和缺失的值。在这个特征向量中分别使用。在MEM算法的E步骤中，使用每个特征向量xi的观测值和FMM中每个分量的参数，通过后验概率近似所有zi，如下所示。Pbcpxojhc集合R是从混合模型生成的，该混合模型的分量是紧凑的并且在数据空间中被很好地分离。因此，数据集中的每个特征向量只属于FMM中的一个此外，假设需要从数据集R学习的FMM中的每个分量具有球形高斯分布。最后，假设有足够的数据集R中的大量观察值来学习j1Pjp xijhj假设FMM中每个分量的均值和协方差矩阵以与特征向量xi相同的方式进行划分，其中上标o和m表示与该特征FMM参数准确。在MEM算法中，给定FMM中的分量c的参数，对特征向量xi中的缺失值进行插补（4）、由于FMM中的所有组件都具有球形形状，因此Rmo中的所有值均为vector..洛洛Lm. Roo RomRmoRmm零. 因此，方程（4）可以改写如下。E.xmjxo;hlmð11Þ然后是特征向量给定分量c的参数，计算为由于R中每个特征向量的后验概率为1对于FMM中的恰好一个分量，则Eq. （9）可以改写如下。如下Exmjxo;hlmRmoRoo-1x-lo4lm1ECNNcxmj xo;hcð12Þ我我c cc cccj¼1此外，如下计算该特征向量的估计值的残差协方差。其中Nc是属于分量c的特征向量的数目。CovenixmxmTjxo;h/ v Rmm- Rmo Roo-1RmoTð5Þ另一方面，GREM算法将每个O此外，M步中每个模型组件所需的一些统计矩计算如下。缺失值x iqxi在特征向量xi中，根据当量（一）. 这个等式可以改写如下：PK PnhxICICIJIJOIQh¼1exp.D2- 1QD2Ezxjxo;hz^xx2xi我ð6Þx^xo PP。 Σh¼1Oð13Þ8>z^icxijxij0xij;xij02xoOM其中，nh是属于所述特征向量的特征向量的数目。>z^icxijExij0jxi;hcxi j02xiICIJCoo特征向量x的完全观察子空间和Ezicxijxij0jxi;hcz^icExijjxi;hcxij0xij2xi>z^½Exjx;hEx0jx;hqth特征。D2是欧氏距离的平方，Covð7Þ其中i; j; j01; 2;. ; d.在MEM算法的M步中，FMM参数的新估计值计算如下。属于分量h的特征向量xj。假设R的不同特征对之间的相关性很强，使得属于一个聚类的特征向量在数据空间的所有子空间中彼此接近。由于R是从数据空间中的紧凑和良好分离的集群的混合生成的，因此在R的所有子空间中，J对MEM算法的更详细的解释z^jc8ð2Þl¼;R¼ð3Þ_.JQIJ我CMK我2R2j1OM！52A.R. AbasncP2R21/4fgz^ic¼Kj1K我Pbjpxojhj_ck¼1KQ2R2当输入数据我与属于不同聚类的特征向量之间的距离相比，属于相同聚类的特征向量之间的距离较小。因此，方程中的指数权重。（13）某个特征向量xj如果 x j和x i属于同一簇，则近似为1，否则为0。那么方程（13）可以改写如下。1Xo我n一般回归与期望最大化（LGREM）算法。5.1. LGREM算法在本节中，使用了第3节中介绍的相同符号。步骤1：线性缩放输入x^iqxoj1 xjq¼l^cq14数据集，使他们躺在区间[0，1]。这个过程消除了不同单位尺度对不同FEA的影响当量（14）则概括如下。x^mxol^mð15Þ因此，它对于找到该数据集的真实聚类结构和每个特征的贡献至关重要我I c等式（11）和（15）表明，当R的不同特征对之间存在强相关性时，GREM算法和MEM算法在缺失值的估计方面是相似的。设R的不同特征对之间的相关性弱，使得属于不同聚类的特征向量在R的所有子空间中可以彼此接近。然后，在GREM算法中的缺失值的估计，这是由Eq. 近似为第q个特征上所有观测值的平均值。这影响FMM参数的学习，使得所得到的分量将在整个空间中重叠。因此，使用这种混合模型进行聚类不能产生紧凑或分离良好的聚类。另一方面，在 MEM 算法中缺失值的估计，这是由 Eq. 公式（11），导致FMM中不同组分参数的每个缺失值的不同插补。当用于估计FMM中每个分量的参数时，这些不同的插补保留了从R中的完全观察值中学习到的这些分量的特征。因此，使用所得到的FMM进行聚类会产生紧凑且分离良好的聚类。一般来说，当R的不同特征对之间的相关性较弱时，MEM算法优于-形成GREM算法相对于聚类每-生成的在这个结构的创建过程对比一下Seven-在应用聚类算法之前，聚类分析的数据标准化的常规方法已经显示出线性缩放方法在产生的聚类分离和误差条件方面优于许多其它标准化方法[22，23]。此外，使用留一交叉验证方法确定数据集中每个不完整特征的最优平滑参数r。用于确定某个特征的r的完全观察特征组由完整特征和具有比该特征更小的缺失率的特征两者组成。在留一交叉验证方法中使用的特征向量应该在整个完全观察的特征组中观察。第2步：随着EM算法向最接近起始点的似然函数的局部最大值收敛[24]，随机初始化EM算法数次（在我们的实验中为20次），并选择收敛后最大对数似然函数对应的FMM作为输入数据集的最佳模型。步骤3：在E步骤中，为FMM中的每个模型分量c数据集R中所有特征向量的后验概率向量zi。Pbcpxojhc5. 所提出的学习FMM参数在前一节中，有人认为MEM算法对不同fea对之间的相关性不太敏感。比GREM算法的数据集但R中缺失值的估计值，从具有最小缺失率的特征中的那些值开始。.Pn0 Xexp.D2类0Q0k¼1rkc 实验DQ性能的的 MEM算法在估计FMME xiqjxi;R¼Pn.2Σð17Þ这是一个很小的[11]。例如，当输入数据集具有小尺寸并且它包含许多离群特征向量，其中Rr kc是每个FEA的成员矩阵，在FMM中的每个分量c的真实向量xk，使得rkc- -其聚类之间的重叠，或其聚类大小的较大差异，则由MEM算法产生的FMM参数的估计值在很大程度上是有偏差的且不准确的。在本节中，提出了一种新的算法来克服GREM算法和MEM算法在处理可能包含离群值、重叠聚类或其聚类大小差异较大的小的不完整数据集时的问题。这些问题是对输入数据集特征之间的全局相关性的敏感性，以及对从该数据集学习的FMM参数的依赖性。所提出的算法被称为局部调谐是一个，如果zkc zkt对于所有的t-c特征向量xi和第q个特征的观测子空间，D2是特征向量xi的观测子空间上的特征向量xk和xi之间的平方欧几里得距离。在估计其缺失值之后，将第q个特征添加到完全观察到的特征的组中，并且然后将这个新的组用于估计具有最小缺失率的下一个特征中的缺失值。●M步所需的统计数据●ð16ÞKCCO基于局部调整的一般回归在不完全数据集上学习混合模型53O我>我>.X¼J不不不不ðjÞ ð jÞ ð jÞ不¼IQOC我我M产品中心12324234（二）CO><不12E=zic xiqjxiz^icxiqxiqxoz^Exjx;RX2xð18Þ它有助于算法更少地依赖FMM参数，从而克服MEM的局限性ICIQ我智商指数算法（参见Eq. （4）小数据集，其中可能包含离群值，重叠聚类，或大的差异，它们的集群大小。z^icxiqxiq0xiq;xiq02xoz^icxiqExc0jxo;Rxiq02xmz^icExiqjxi;Rxiq0xiq2xi>：z^icExcjxo;RExc0jxo;Rxiq;xiq02xm6. 实验和结果文中对LGREM算法进行了评价，并与文献中的一些常用算法进行了比较。IQ我IQ我我ð19Þ使用缺失值数据集的FMM参数的监督学习。这些算法是MEM算法，其中i;q;q01/4 1; 2;. . ;d，E是期望算子。步骤4：在M步骤中，计算FMM中每个分量cb1XNj1GREM算法和普通EM算法在使用无条件均值插补方法（MENEM）和最近邻插补方法（NNEM）估计输入数据集中的缺失值之后。在ME-NEM算法中，每个特征中的缺失值被替换为该特征中的观测值的平均值。在NNEM算法中，每个缺失值在某一fea中，在同一fea中，真实向量被替换为观测值。_lc¼_1_NPc1NEJ1.XNzjcxjjxo;R！！不Oð21Þ根据由完全观察到的特征组成的子空间中的欧几里得距离，在最接近的特征向量中的真。在此比较中使用了六个数据集在研究中。缺失值随机放置，Rc¼-ENPcj1zjcxj xjjxj;R-信用证信用证22美元每个数据集的两个特征的缺失率不同。这些特征被选择成使得在这些特征之间的视觉分离是可接受的。步骤5：收敛后，保存生成的FMM和总数据对数似然。由于EM算法是一种严格的梯度算法，因此它缓慢地收敛到与起点最近的似然函数的局部最大值[25]。因此，我们实验中所用EM算法的收敛准则与Hunt和Jorgensen[7]所用的一致，即当迭代（t）和（t-10）之间的对数似然函数差小于或等于10- 10时停止迭代。该准则的使用不会对算法的速度产生太大影响，因为该算法的主要兴趣是处理小数据集。步骤6：重复步骤2-5多次，然后选择与最大数据对数相似度对应的最佳FMM。这种重复对于降低EM算法的初始化的灵敏度是必要的。在我们的实验中，重复次数任意选择为20。步骤7：根据贝叶斯决策规则，使用最佳FMM对输入数据集中的特征向量进行聚类，使得如果对于所有j-i，Pix > Pj x，则将每个完全观察到的特征向量x分配给某个分量i，其中Pi x是x从分量i生成的概率。第8步：按照第3说明估计数据集中的缺失值。LGREM算法使用通用回归（参见等式（17））进行多重估算数据类是最大的。所有数据集中缺失值的发生机制是完全随机缺失（MCAR）[4]。这些数据集描述如下。6.1. 第一个和第二个数据集这些数据集是人工数据集，每个数据集包含150个特征向量（行），这些特征向量以相等的概率从三个4D高斯分布中生成。这些差异的平均向量贡献是11½2222];l2¼½ 4444];和[13½666] 对于第一个数据集，和111/2/222];l2½2262];和131/222[6] 对于第二个数据集。这些高斯分布中的每一个都有一个协方差矩阵R I4，其中I4是四阶的单位矩阵。两个数据集之间的差异在于数据特征之间的相关性在第一个数据集中，所有特征都是强相关的，而在第二个数据集中，所有特征都是弱相关的。6.2. 第三和第四组这些数据集分别类似于第一和第二数据集，除了向它们中的第三个数据集中的离群值特征向量为hmaxd;mind;maxd;maxdiT，而离群值特征vec-第四数据集中的tor是hmaxd;maxd;maxd;maxd;maxdiT，属于FMM组件之一的完全观察到的特征向量。这些群体是使用贝叶斯决策规则获得的。这有助于该算法对输入数据集的特征之间的全局相关性不敏感，并且因此克服GREM算法的限制（参见等式10）。（13）数据相关性弱此外，本发明还提供了一种方法，其中，di，i1：4是每个数据集的特征6.3. Fifth数据集这个数据集是Iris数据集[26]，它包含150个特征向量，每个向量都是四特征空间中的向量这些MOEzicxiqxiq0jxi;z^jc20-_T为数据集中的每个缺失值每一次的填补都是在...通过非线性多元回归得到，22854A.R. Abas我我类我NiK1/1我¼1表2 使用Student配对t检验统计量对第二个数据集比较不同的算法对表3 使用Student配对t检验统计量比较不同算法对第三个表1 使用Student配对t检验统计量比较不同的算法对第一个特征向量表示三个类，每个类具有属于它的50个特征向量。这些类中的两个在数据空间中重叠。该数据集的不同特征对之间的相关性是中等的。当使用这五个数据集中的每一个时，缺失值被放入第三和第四个数据特征中。此外，在这项研究中比较的所有算法所学习的每个Festival由三个具有非约束协方差矩阵的高斯分量组成。6.4. 第六个数据集该数据集是皮马印第安人糖尿病数据集。1它包含768个特征向量，每个特征向量是八特征空间中的向量。这些特征向量表示两类;第一类具有属于它的500个特征向量;第二类具有属于它的268个特征向量。重叠。不同对fea之间的相关性研究由两个具有非约束协方差矩阵的高斯分量组成。本研究中用于比较不同算法的评价标准是误分类误差（MCE）。它是通过比较聚类结果计算的，使用贝叶斯决策规则获得的学习FMM与数据特征向量的真实分类，假设每个类由FMM中的一个组件表示。FMM的分量被分配到不同的数据类，使得数据集中错误分类的特征向量的总数最小。设属于类i的特征向量的数量为Ni，其中Nm个特征向量不被聚类到FMM中表示该类的分量中然后类i的MCE被计算为MCENm。假设数据集由K个类生成，总MCE为平均值的所有的类MCE和它是计算为MCE T¼. PKMCE级。这组数据的真实性太弱了。缺失值被放在数据集的第二个和第五个特征中。本文中比较的所有算法所学习到的每一个Festival1可在以下网址查阅：表1-5显示了不同算法对的比较，使用Student配对t检验统计量对前五个数据集中的每一个进行计算P值是显著性，T值是t统计量。该检验检验了两组患者的表现差异的统计学显著性，基于局部调整的一般回归在不完全数据集上学习混合模型55表5使用Student配对t检验统计量和Iris数据集比较不同的算法对表7使用学生配对t检验统计量和Pima数据集比较不同的算法对表8 使用Student配对t检验统计量和Pima数据集比较每种算法的两个类MCE表4使用Student配对t检验统计量比较不同的算法对第四个算法使用从十个不同的实验中获得的总MCE。在每个实验中，随机选择一组不同的特征向量来包含缺失值。该检验的结果显示为第一个五个数据集的第三和第四个特征中每对缺失值的百分比。每个表格中的阴影单元格表示根据5%的显著性水平，某些算法对的性能差异具有统计学显著性的情况。表6显示了当使用Pima数据集且无缺失值时的类别和总MCE。表7示出了不同对的组合物的比较。表6使用无缺失值的Pima数据集，通过EM算法学习的FMM的误分类误差。数据MCE一级0.426二级0.511共计0.469美元56A.R. Abas表10使用Student配对t检验统计量比较每种算法的两个类MCE表9使用Student配对t检验统计量比较不同算法当第二和第五特征中出现不同的缺失值百分比对时，使用学生配对t检验统计量与Pima数据集的算法算法进行了比较，使用他们的总MCE从十个不同的实验。表8显示了使用Student配对t检验统计量和Pima数据集对每种算法的两个类别MCE进行该检验检查了每种算法在估计缺失值时偏倚的统计学显著性，缺失值是由于使用从10个不同实验中获得的相同算法的类MCE对的类大小差异造成的。阴影单元格表示根据5%显著性水平，某一算法的偏倚具有统计学由于Pima数据集的两个类在很大程度上重叠（见表6），并且它们的大小非常不同，因此缺失值的有偏估计可能影响FMM参数的学习，从而可以获得低MCE。因此，决定去除类之间的重叠对FMM参数的学习的影响。这是通过使用聚类结果来实现的，聚类结果是从使用无缺失值的Pima数据集的EM算法训练的FMM中获得的，而不是在计算MCE时对该数据集进行真正的分类。这将清楚地显示缺失值的估计对FMM参数学习的影响。比较算法的新结果如表9和表 10所示。7. 结果讨论表1-5数据特征、数据集中的少数离群值或数据空间中的数据类之间的重叠。在这些情况下，在LGREM算法中使用的一般回归的局部调整比在GREM算法中使用的一般回归更少地依赖于总体相关性。因此，当数据的特征相关性太弱时，LGREM算法优于GREM算法（参见表2和表4中的第二和第四数据集的结果）。此外，从属于LGREM算法中使用的每个聚类的观察到的特征向量估计缺失值因此，当数据集中有少量离群值或数据空间中的数据类之间重叠时，LGREM算法优于MEM算法（参见表4和表5中第四和Iris数据集的结果）。这要求数据空间中的每个混合成分或聚类包含至少一个完全观察到的特征向量。表6显示Pima数据集有两个大部分重叠的类别。由于这种重叠和两个类别之间的大小差异很大，产生缺失值的有偏估计的算法产生的总MCE比产生无偏估计的算法少。这在表7和表8中示出。尽管表8显示LGREM算法在所有缺失值百分比对中均无偏，但表7显示其产生的总MCE高于其他算法。使用FMM的聚类结果，从没有缺失值的Pima数据集学习，而不是在计算MCE中的真实分类，消除了类重叠的影响，并且仅显示了缺失值的估计对FMM参数学习的影响。因此，表9表明LGREM和NNEM算法在统计学上相似，并且在所有算法基于局部调整的一般回归在不完全数据集上学习混合模型57在所有缺失值的百分比对中。表10显示LGREM算法优于NNEM算法，因为由于类大小的巨大差异，它在缺失值一般来说，一般回归的局部调整导致LGREM算法在不同数据特征对之间的全局相关性太弱的情况下优于GREM算法。这意味着LGREM算法对输入数据集的特征之间的全局相关性不敏感。此外，该特征使得LGREM算法在诸如出现一些离群特征向量或数据空间中的数据类之间的重叠的情况下优于MEM算法。这一结论与[27]中所示的结果一致，即优先使用数据特征之间的成对关系的注入技术，而不是那些不使用数据特征之间的成对关系的技术。最后，当数据类的大小相差很大时（即，不平衡的数据），与其它算法相比，LGREM算法更优越，因为它产生缺失值和FMM参数的最准确和无偏估计，FMM用于聚类输入数据集。这是因为在LGREM算法中缺失值的插补是局部的并且独立于FMM参数。8. 结论本文分析了GREM和MEM算法，说明了它们的优缺点。这种分析导致的LGREM算法的建议，以克服这两种算法的问题。比较研究表明，LGREM算法优于文献中常用的几种算法，包括MEM算法和GREM算法，在使用缺失值数据集的FMM参数无监督学习中具有优势。LGREM算法产生缺失值的最准确和无偏估计以及FMM参数的最佳估计。当数据集中出现很少的异常值时，数据类在数据空间中重叠，或者当数据类的大小差异很大时，这一点就清楚地显示出来了。引用[1] 放大图片作者：McLachlan G.有限混合模型New York：Wiley;2000.[2] 你好。通过概率密度函数的半参数估计进行统计模式分类的神经网络方法。J IEEE Trans Neural Netw 1991;2（3）：366[3] 放大图片作者：A.通过EM算法从不完整数据中获得最大似然（带讨论）。J R Stat Soc 1977;B（39）：1[4] Little R，Rubin D.缺失数据的统计分析。New York：JohnWiley Sons.[5] 约旦·加赫拉马尼·Z通过EM方法从不完整数据中进行监督学习In：Cowan J，Tesauro G，Alspector J，editors. 神经信息处理系统进展 San Francisco ， CA ， USA ： MorganKaufmann Publishers; 1994.第120- 127页。[6] 亨特湖使用有限混合模型进行聚类。博士论文新西兰：怀卡托大学统计系，1996年。[7] 放大图片作者：Jorgensen M.含缺失信息混合数据的混合模型聚类。计算机统计数据分析杂志2003;41：429-40.[8] 迪博夫斯基河用径向基函数网络对不完全特征向量进行分类。J Pattern Recognit Lett 1998;19：1257-64.[9] 莫里斯·A，库克·M.数据分类中缺失特征问题的一些解决方案，以及对噪声鲁棒ASR的应用。1998年，美国西雅图，语音与信号处理p. 737-40[10] Domma F，Ingrassia S.不完全值最大似然估计的混合模型。In：Borra S，Rocci R，Vichi M，Schader M，editors.研究分类，数据分析和知识组织。Berlin：Springer-Verlag. p. 201-8[11] Yoon S，Lee S.前向神经网络的不完全数据训练算法。JNeural Process Lett 1999;10：171[12] [10]杨文，杨文，杨文. DNA微阵列缺失值估计方法生物信息学杂志2001;17（6）：520[13] 林迪，李俊成，何惠君。具有缺失信息的正态混合模型的快速监督学习。J Pattern Recognit 2006;39：1177-87.[14] Bouveyron C，Girard S.混合模型的鲁棒监督分类：从不确定标签的数据中学习。J Pattern Recognit 2009;42：2649[15] 斯佩希特湾一个通用的回归神经网络。J IEEE Trans NeuralNetw 1991;2（6）：568[16] 放大图片作者：Tresp V，Ahmad S.用缺乏数据训练神经网络。In：Cowan J，Tesauro G，Alspector J，editors.神经信息处理系统进展，第6卷。San Mateo，CA：Morgan Kaufman;1994.p. 一百二十八比三十五[17] 放大图片作者：Tresp V，Neuneier R，Ahmad S.在监督学习中处理缺失数据的有效方法。In：Tesauro G，Tour- etzky D，Leen T ， editors. 神经信息处理系统进展，第 7 卷。Cambridge，MA：MIT Press.第689- 696页。[18] 雷蒙德·M评价研究中缺少数据。J Eval Health Prof 1986;9：395[19] 放大图片Raymond M，Roberts D.选择研究中不完全数据处理方法的比较。J Educ Psychol Meas 1987;47：13-26.[20] 周X，王X，唐鄂.使用贝叶斯基因选择的线性和非线性回归进行缺失值估计。生物信息学杂志2003;19（17）：2302[21] 郭鹏，陈春，吕明.使用贝叶斯Ying-Yang模型对小样本集进行聚类数选择。J IEEE Trans Neural Netw 2002;13（3）：757[22] 米利根GW，库珀MC。聚类分析中变量标准化的研究。JClassif 1988;5：181[23] Schaffer CM，Green PE。聚类分析中变量标准化方法的实证比较。多元行为研究杂志1996;31（2）：149[24] 利卡斯·弗尔恩一种用于高斯混合学习的贪婪EM算法。神经过程学报2002;15：77[25] Yin H，Allinson NM.贝叶斯SOM与EM算法对高斯混合的比较。在：自组织地图研讨会（WSOM'97）的程序; 1997年。p.118比23[26] 费希尔河分类学问题中多重测量的应用。Annu Eugenics1936;7：179[27] 豪斯曼湾缺失项目回答的插补：一些简单的技术。J QualQuant 2000;34：331

下载后可阅读完整内容，剩余1页未读，立即下载