基于簇聚类技术和新相似性度量的集成聚类方法：MCEMS算法研究

93 浏览量更新于2024-01-27 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于簇聚类技术和新相似性度量放大图片作者：李文，李文，李文.Tag El Dinca重庆电子工程学院人工智能与大数据学院，重庆401331b伊朗布什尔波斯湾大学计算机工程系c埃及未来大学工程与技术学院电气工程系，埃及新开罗11845阿提奇莱因福奥文章历史记录：接收日期：2022年2022年4月2日修订2022年4月14日接受2022年4月22日在线提供保留字：层次聚类元聚类包围聚类模型选择相似性度量A B S T R A C T物联网（IoT）等架构的出现导致了数据的急剧增长和大数据的产生。管理这些通常未标记的数据对现实世界来说是一个巨大的挑战。层次聚类是一种有效的无监督无标记数据分析方法。在数据挖掘中，HC是一种通过创建树状图来对不同尺度的数据进行分组的机制。最常见的HC方法之一是聚集层次聚类（AHC），其中自底向上创建聚类。此外，由于单个聚类方法的弱点，集成聚类方法今天被用于复杂的问题。因此，我们提出了一个聚类框架，使用AHC方法集成方法的基础上，其中包括集群聚类技术和一种新的相似性度量。该算法是一种基于模型选择的元聚类包围方案（MCEMS）。MCEMS使用双加权策略来解决模型选择相关的问题，以改善集成聚类。具体而言，多个AHC个体方法将来自不同方面的数据聚类以形成主聚类。根据不同方法的计算结果，采用一种新的相似性度量方法计算实例之间的相似性。MCEMS方案涉及通过主集群的重新集群来创建元集群在聚类后，通过合并相似类并考虑阈值来确定最佳聚类数。最后，计算实例与元聚类的相似度，并将每个实例分配到具有最高相似度的元聚类，以形成最终的聚类。模拟已经从UCI存储库的一些数据集进行评估MCEMS计划相比，国家的最先进的算法。大量的实验表明，基于Wilcoxon检验和共表相关系数的MCEMS算法优于HMM、DSPA和WHAC算法©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍聚类是无监督学习的最常见方法之一，其中基于实例的相似性对数据进行分段（Hamidi等人，2019年）的报告。聚类涉及到将一组实例分配给称为集群的子组，这样每个集群的成员彼此非常相似，又有很大的不同*通讯作者。电子邮件地址：liteng@cqcet.edu.cn（T. Li），rezaeipanah@pgu.ac.ir（A. Rezaei-panah），elsayed. fue.edu.eg（ElSayed M. Tag El Din）。沙特国王大学负责同行审查其他集群的成员聚类具有许多用于解决现实世界问题的应用，例如社区识别、异常检测、模式识别和可以在各种情况下使用的图像处理（Aslanpour等人，2018; Berahmand等人， 2021年）。此外，聚类在数据分析中非常重要，因为它在未标记的数据中执行分割（Shakarami等人， 2021年）。一般来说，不同算法的聚类过程具有相同的基础，但在测量相似性（或距离）以及确定实例聚类的方法上存在差异（Berahmand等人，2022 年）。这些差异导致了聚类算法的不同方案和框架的发展（Beauchemin，2015; Shakarami等人，2021年）。一般来说，有四种主要的聚类算法，包括分区聚类（PC），层次聚类，https://doi.org/10.1016/j.jksuci.2022.04.0101319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comT. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3829集团OptiGridSTINGWaveCluster质心联动平均连锁完全连锁单连杆聚类（HC），基于模型的聚类（MC），基于网格的聚类（GC）和基于密度的聚类（DC），如图所示。1.一、在PC中，也称为扁平集群，集群的数量是已知的，并且每个实例仅属于一个集群（Xu和Wunsch，2005; Rezaeipanah等人，2021年）。K-means算法是最著名和最流行的PC算法之一。PC算法通常基于目标函数的优化来应用（Berkhin，2006; Boongoen和Iam-On，2018）。例如，应用K均值来最小化实例与聚类的质心之间的平方距离HC通过层次结构的树状图或聚类树显示了在任何距离水平上聚类的结果（Yang和Jiang，2018）。这些算法首先将每个实例视为一个聚类，然后合并两个相似度最高（或距离最短）的聚类以创建一个新的聚类。重复此步骤，直到只有一个集群包含所有实例。HC使用连锁方法来测量两个聚类之间的距离（Rai和Singh，2010）。HC最流行的算法之一是DIANA（DIANA分析）（Struyf等人，1997年）。在DC中，实例以高密度标识并放置在集群中这些算法也能够检测凸形式的聚类，然而，它们不能聚类凹数据（Xu和Wunsch，2005; Shahidinejad等人， 2021年）。这一类别中最流行的算法之一是DBSCAN（具有噪声的应用的基于密度的空间聚类）（Ester等人，1996年）。在GC中，多分辨率网格数据结构用于聚类过程（Nagpal和Mann，2011）。GC将数据划分为多个区域（称为单元格），并在其中执行聚类，这样可以加快处理时间，而与数据的大小无关。在MC中，首先从数据中检索聚类的主模型，然后由模型定义实例到集群的分配（Boongoen和Iam-On，2018）。这些算法的目的是估计的统计分布参数以及隐藏的变量，这是作为集群标签中的模型。用于估计模型参数的常见度量是最大似然。基本上，每种算法都有不同的局限性，用于数据聚类的实例（Mojarad等人，2021年）。大多数基于PC的方法都存在对相位初始化、离群值和噪声、实例重叠和差的聚类的高敏感性的问题。术语描述符。大多数基于HC的方法的缺点包括在合并/拆分后无法更改以及无法解释聚类描述符。另一方面，大多数基于DC的方法对输入参数的值敏感。虽然基于GC的方法具有最快处理时间的优点，但是它们遭受确定密度阈值或网格大小的问题。基于MC的方法提供了鲁棒的聚类方法，但对噪声和离群值没有抵抗力。基于这些问题，可以得出结论，选择一个聚类方法，为特定的数据是非常困难的。因此，引入了集成聚类方法，其是几种单独聚类方法的组合（Sasirekha和Baby，2013;Mojarad等人，2021年）。这些方法结合了几种基本的聚类方法，目的是实现更高的精度和质量。然而，选择集成组件是非常重要的，因为它可以导致形成更高质量的集群，具有更低的时间复杂度（Khedairia和Khadir，2022）。此外，集成聚类方案通常基于PC方法，而基于HC的集成聚类研究较少（Rai和Singh，2010）。出于这个原因，我们解决了集成聚类的问题，重点是模型选择。Zhou et al.（2002）表明，组合学习中的模型选择可以比组合所有模型获得更好的结果。集成聚类中的模型选择问题涉及到选择可用的个体模型的子集，该子集可以提供比使用所有集合进行聚类数据更好的结果。虽然文献中有很多集成聚类的方法，但基于AHC的集成聚类算法仍然存在模型选择问题，例如相似性矩阵计算，初始化敏感性，一致性函数和检测自动聚类数（Sasirekha and Baby，2013）。提出了一种基于模型选择的元聚类包围方案。MCEMS方案基于双加权策略选择了多个AHC个体方法，以提高集成聚类的质量和多样性。MCEMS根据AHC选定的模型形成主要集群。我们使用一种新的相似性度量来计算实例之间的相似性矩阵，其中相似性通过观察所有主簇来测量。MCEMS中的集成聚类方法是通过簇聚类技术完成的，K-modesc均值K-meansPCDHCC戴安娜凝聚分裂蛛网索姆最大似然高斯混合物GCDCFig. 1.聚类算法的类型。聚类算法光学器件DENCLUEDBCLASDDBSCANMCHCT. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3830.Σð ÞJ5：设a;b为argmin1/4 f···g- 是的Dci;cj：1≤ij≤k112K4：.Σ.Σ作为共识函数的元集群的创建每个Meta集群由一个或多个集群组成，并通过重新集群主集群创建.最后的集群是由每个集群，并逐渐加入最近的集群（戴维森和拉维，2005年）。因此，本文提出了一种基于层次分析法的聚类方法。将每个实例分配给具有最高相似性的元集群ity，其中元聚类包含几种AHC方法的聚类知识。具体而言，MCEMS通过合并相似聚类并考虑阈值来自动确定聚类数。本文的主要贡献可突出如下。通过提出的双加权策略解决模型选择问题，提高集成聚类的质量和多样性● 开发一个元聚类集成方案，聚类技术算法1.凝聚层次聚类（AHC）的伪代码输入：具有n个实例的数据集S为S¼ fx1;x2;···;xng和聚类距离函数D ci;cj：输出：黑分区树状图k，对于每个1 ≤ k ≤ n。1：ci<$fxig;8i<$1;2;···;n2：对于k/n下降到1 do图3：树状图k^fc1;c2;···;ckgdi;j<$D ci;cj;8i;j<$1;2;···;k提出了一种新的相似性度量方法，重点研究了基于链接的AHC聚类方法本文的其余部分组织如下。第2节描述凝聚层次聚类。第36：ca¼加入ca;cb7：Remove cb8：结束通过文献综述介绍了几种集成聚类方法。第4节重点介绍了改进集成聚类的拟议方案。在第五中，进行了实验和讨论结果以评估MCEMS方案。最后，在第六中对本文的研究进行了总结，并对未来的研究方向进行了展望.2. 凝聚层次聚类在统计和数据挖掘中，HC分析是一种聚类分析策略，旨在创建聚类层次结构（Murtagh和Contreras，2012）。一般来说，HC涉及两种方法：聚合（自下而上）和分裂（自上而下）（Jiang等人，2021年）。在凝聚层次聚类（AHC）方法中，每个实例都被视为一个聚类，然后聚类被合并以创建更大的聚类（Fernández和Gómez，2008）。这将继续，直到所有集群被合并到一个包含所有实例的大集群中。在划分层次聚类（DHC）方法中，所有实例首先属于一个聚类，然后将大聚类分层并递归地划分为较小的聚类，直到每个聚类具有单个实例（Guénoche等人，1991年）。基本上，DHC比AHC更复杂，因为在DHC中，需要一个平面方法作为“子程序”来划分每个簇只要每个实例都有自己的单例集群（Nagpal和Mann，2011）。虽然DHC也用树状图表示，但这种方法不太常用（Nagpal和Mann，2011）。这是因为将一个集群划分为其他子集群存在限制。此外，常见的AHC方法很容易实现，因为它们从每个集群中的一个实例开始，然后逐渐加入最近的集群（Davidson和Ravi，2005）。因此，本文提出了一种基于层次分析法的聚类方法。在统计学和数据挖掘中，HC分析是一种聚类策略一种旨在创建集群层次结构的分析（Murtagh和Contreras，2012）。基本上，有两种类型的人力资源分析策略，包括凝聚和分裂。DHC比AHC更复杂，因为在DHC中，只要每个实例都有自己的单例集群，就需要一个平面方法作为虽然DHC也用树状图表示，但这种方法不太常用。这是因为将一个集群划分为其他子集群存在限制。此外，常见的AHC方法易于实现，因为它们仅从AHC被认为是一种自下而上的方法，不需要确定集群的数量（Nagpal和Mann，2011）。自底向上方法首先将每个实例视为单个集群，然后依次组合集群对，直到所有集群合并为包含所有实例的单个集群。这意味着较高级别的集群较少（Sasirekha和Baby，2013年）。标准AHC的伪码在算法1中示出。在这方面，集成聚类包括几种单聚类方法，可以通过组合结果来创建更准确的最终聚类。设S<$fx1;x2;···;xng是一个有n个实例的数据集，其中xi是数据集S的一个实例。根据ensem-ble clustering，p q¼ c q;c q;···;c q 是第q次个体聚类方法的结果，簇，其中cq指的是分配给第q方法的第j簇的实例。可以通过m种不同的方法来完成包围聚类，例如Cp1;p2; ;pm，其中用于创建最终聚类的不同方法的结果的一致性可以基于F相似来完成度量衡本文提出了一种基于AHC规范的集成聚类方法，其中引入F作为一致性相似性度量来计算实例之间的相似性。鉴于AHC被用作所提出的算法中的基本聚类方法，我们将在下面概述这些AHC相关的方法。到目前为止，已经介绍了许多基于AHC的方法，它们之间的区别在于如何定义距离。在这里，检查了四种已知的方法，包括单连锁、平均连锁、质心连锁和完全连锁（Nagpal和Mann，2011）。- 单链接：该方法基于每对双链节距两个聚类的最小距离来定义两个聚类之间的距离。根据该定义，每一步中的两个聚类以最小的链接距离组合。- 平均链接：此方法根据两个聚类中所有成员之间的平均距离定义这些聚类之间的距离。根据该定义，每一步中的两个聚类以最小的平均链接距离组合- 质心连接：该方法基于这些聚类的平均向量距离来定义两个聚类之间的距离。根据这个定义，每一步中的两个聚类以最小的中心距离组合。●●T. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3831.Σk × l1/1第1页ðÞ- 完全链接：此方法根据两个聚类中所有聚类之间的最大距离根据该定义，每一步中的两个事实证明，这些方法之间的区别在于距离如何是定义了假设ca1; hx1;x2;···;xri和cb1; hy1;y2;···;yri分别是分配给集群1和集群2的实例的细节同样，设dxi;yj是实例xi和yj之间的距离。因此，表1显示了基于ca和cb的不同链接方法的距离函数的数学形式。为了更清楚，下面是一个不同的链接方法的例子.在这些方法中，聚类从计算每个实例对之间的距离开始。这个过程创建了一个对角线为零的距离对称矩阵。图2给出了不同的连接方法的一个例子，如单连接、平均连接、质心连接和完全连接。在这里，除了距离矩阵之外，还给出了每种方法的最终树状图。基本上，没有一种单独的聚类方法对所有数据集都是最好的（Rai和Singh，2010）。通过结合几种单独的聚类方法并利用每种方法的优势，包围聚类方法可以产生更好的结果（Berikov和Pestrant，2017）。总体上，集成集群架构包括两个主要阶段，包括创建主要集群和结合的结果与共识功能，其中保持多样性和提高质量是一个重要的挑战。图3示出了集合聚类方法的架构。包围聚类经常被用于基于PC的方法，并且HC方法的使用受到较少的关注（Jiang等人，2021; Shi等人， 2021年）。3. 文献综述近年来，集成聚类方法和AHC被广泛应用于各种研究中，以提高质量聚类结果（Yu等人，2018; Jiang等人，2021; Shi等人，2021年）。在下文中，我们将简要回顾其中的一些研究。Fred和Jain（2005）介绍了一种用于合并不同基础聚类的算法，称为证据累积聚类（EAC）。该算法使用一种新的相似性技术来合并多个聚类。EAC通过HC方法（例如，单连锁、平均连锁和完全连锁）将获得的结果与相关矩阵相结合。Li等人（2007）提出了基于归一化边缘的HC集成方法，其目的是提高协关联矩阵的聚类质量。作者使用归一化边缘来计算表1不同连接方法的距离的数学形式聚类之间的相似性因此，在HC过程中，两个聚类器与归一化边缘的最大值相结合。根据分析，该方法的最坏复杂度为On2logn.Mirzaei等人（2008）提出了一种新的HC组合方法。作者将初级树状图转换成矩阵，然后将它们聚合成最终矩阵以获得最终聚类。在该方法中，矩阵求和算子用于聚合主矩阵。Wang等人（2009）提出了AHC的概率累积（PA）算法。PA算法使用原始聚类来确定最佳聚类大小。这里，针对每个簇计算PA矩阵，然后基于所有PA矩阵的平均值测量相关矩阵最后，通过将最小生成树应用于相关矩阵来确定最终聚类Yi et al.（2012）提出了一种基于矩阵补全策略的集成聚类算法。首先根据观测数据建立相似性矩阵，然后应用矩阵补全策略对相似性矩阵进行补全。最后，通过相似性矩阵的谱聚类方法创建聚类Beauchemin（2015）提出了一种基于密度的相似性矩阵构造的聚类方法，该方法基于K-means实现。为了提高密度估计的精度，采用了基于子装袋法的K均值算法。该方法在EAC的实验中显示出相同的效率。Berikov和Pesterkov（2017）介绍了一种集成聚类基于加权协关联矩阵的方法。该方法使用适应度函数来度量实例之间的权重，并生成协同关联矩阵。此外，作者使用AHC基于所述共关联矩阵创建最终聚类。Huang et al.（2017）提出了局部加权元聚类（LWMC）算法，这是一种基于聚类的算法。LWMC使用Jaccard系数来衡量集群之间链接的权重。此外，LWMC使用归一化切割算法来生成元聚类，其中每个元聚类包含一组聚类。在该方法中，聚类通过基于轮廓标准的加权投票来实现。Huang et al.（2018）提出了一种称为局部加权图划分（LWGP）的方法，用于在不同尺度上对数据进行聚类。LWGP基于二分图划分，其中实例和聚类之间的链接权重根据轮廓标准来测量。Hamidi等人（2019）介绍了一种具有图相似性分区的集成聚类方法，其中聚类的数量通过图切割自动确定。该方法的目的是对相似图进行剪枝，自动剔除离群聚类.在该方法中，首先划分主图，然后合并子图以创建元聚类。为了计算两个聚类之间的权重，作者使用基于Jaccard系数的两个聚类之间的链接的平均值，最后生成基于权重多数投票的聚类Khedairia和联动方法单个距离函数描述Dca;cbmindxi;yj此方法结合了两个Khadir（2022年）介绍的迭代组合聚类方法（ICCM）。ICCM首先生成基本聚类，然后通过实例之间的投票形成子聚类在每个联动平均联动i;jDc a;c b1 Pr Pl最短的聚类成员之间的距离d xi; yj此方法将所有成员的平均距离最小的两个聚类组合在一起。在迭代中，具有最高投票的实例被分配给相应的子集群，而其他实例在下一次迭代中被聚类。最后，AHC方法对子聚类进行聚类形成最后的集群 Jafarzadegan等人（2019）使用本金质心D=c;c=d。Px2cax;Py2cby该方法结合了两个成分分析（PCA），以开发集成聚类。他们连杆装置aB最小的r l 簇聚类中心的平均向量之间的距离。结合AHC的基于链接的方法的结果（即，单链接，平均链接，和质心链接）使用PCA作为一个完成Dca;cbmaxdxi;yj此方法结合了两个聚合算子来创建集合聚类方法。联动i;j具有最长距离成员的集群。在这里，考虑所有元素之间的有意义的关系T. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3832距离矩阵123456100000021100000378000045460005629100067921130单连杆平均连锁质心联动完全连锁图二. AHC中不同连接方法的示例图三. 集成聚类方法的体系结构。描述符矩阵，其中描述符矩阵是从基本聚类方法创建的。在该方法中，基于从描述符矩阵提取树状图来创建最终聚类。Niu et al.（2020）介绍了一种基于K-medoids的集成聚类方法，该方法提供了局部可靠的聚类。在该方法中，首先通过K-中心点创建一组不同的聚类，然后基于所创建的聚类制作加权图。该图可以显示不同集群之间的关系。该图中的每个节点充当一个聚类，并且基于它们之间的链接的权重来考虑聚类之间的Mojarad等人（2021）提出了一种整体聚类方法来模拟遗传性疾病的行为。在该方法中，首先几个扁平聚类算法被应用到创建主簇，然后每个实例对之间的相似性计算的一个创新的相似性标准。然后，基于主聚类之间的最大相似性和聚类的合并来形成最终聚类，最大的相似性。此外，作者使用不确定性改进算法来提高最终聚类的质量。Pasupathi等人（2021）使用AHC方法对时间序列大数据进行趋势分析。将基于层次分析法的聚类和关联规则提取技术应用于道路交通事故中。在这里，诊断的范式时间序列（PTS）数据在每个集群中使用动态时间扭曲- ING。临时秘书处可以审查不同地理区域的详细情况，并提供一组数据报告。Yang和Jiang（2018）提出了一种考虑双加权的元聚类集成方法，该方法使用隐马尔可夫模型（HMM）对时间数据进行聚类。隐马尔可夫模型的目的是解决与主聚类和模型选择有关的问题。双加权方法可以通过自适应划分来改善一致性函数的融合此外，HMM具有基于树状图的最优一致性划分修改过程，可以自适应地自动确定聚类的数量。Yang和Jiang（2018）介绍了T. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3833KKKKMnð ÞKKKKKMK我KKK2Ka;b.Σ基于树状图的时态数据聚类相似性划分算法。DSPA是一种基于HMM的双加权集成聚类算法DSPA通过HMM解决了主聚类和模型选择问题此外，DSPA通过在共识过程中应用HMM自动确定簇的固有数量。Banerjee等人（2021）提出了加权层次聚集聚类Entrance（WHAC）。WHAC是一种新的聚类相似性度量方法，它可以确定单个聚类方法的优劣除了一致的概念，WHAC还考虑了集群之间不一致的概念。WHAC使用的优点标准的基础上，一个多项式启发式耦合集成选择。基于多样性的方法以及基于质量的每个方法中创建的每个聚类。这里，双加权方案中的加权平均值用于确保单个AHC方法及其聚类在集成形成中的有效性最后，将P集合方法的q%作为Pω子集来创建集成聚类。根据模拟和评估结果，最合适的q值为0.35.设w1为pk2P的权值，其中pk是指个体AHC方法的第k个。这里，香农熵（Maruyama等人， 2005）用于计算W1。此外，设Apk是p k的香农结果总的来说，两个俱乐部的结果差异更大排序方法可以导致模型选择的更高多样性因此，w1多样性表示p k 建模方法4. 建议计划选择策略和集成聚类。W1的计算方法如下：本文提出了一种改进集成聚类的MCEMS方案。 MCEMS解决了模型集合聚类中的选择和一致性函数主要MCEMS在模型选择中的思想是使用双加权策略，该策略选择各个AHC方法的子集，同时考虑多样性和质量。MCEMS通过簇聚类技术和元簇的生成，建立了集成聚类的一致性函数。此外，MCEMS使用一种新的相似性度量来计算相似度，实例之间的相似性，同时假设了解几种聚类算法。MCEMS创建最终在Eq。（一）.w1¼1XkAp-Apk11/1其中，kωk被定义为事实上，A pk表示不确定性、随机性和无序性，如等式2中所定义。（二）、A A-100-XP.r i= log P.r i21/1通过将每个实例分配给具有最高相似性的元聚类来聚类，其中最佳聚类的数量通过合并相似聚类并考虑阈值来自动确定。所提出的集成聚类流程图如图所示。四、其中，ri是指通过pk方法为第i个实例预测的标签，并且n是数据集中的实例的总数。P ri是熵的概率分布。双加权方案中的第二权重取决于每个方法中的聚类集合，定义为w2。w2指的是根据所提出的方案，模型选择过程k基于可用的mAHC方法执行，这导致选择m0AHC方法来创建系综。根据选定的方法对数据进行聚类。然后，基于所创建的所有主聚类应用所提出的相似性度量来计算每个实例对之间的相似性。建议的相似性度量强调的大小，集群和集群中相同实例的存在聚类的相异性（作为聚类间距离）以及聚类内的实例的相异性（作为聚类内距离）。一般来说，目的是形成在相同的环境中具有更多相似性的实例的集群。集群和不同集群之间的差异。因此，w2表示单个AHC方法的质量更好在这方面，w2可以用等式计算。（三）、创建主群集后，元群集将使用w2¼Pci;cj2pkdci;cjð3Þ集群聚类技术。这项技术开发了con-通过考虑来自kPc pPx xcdxa;xb从实例级到集群级。MCEMS自动确定通过基于以下条件合并聚类来确定最佳聚类的数量：一个门槛最后，元聚类作为一个共识函数，每个实例被分配到一个元聚类，以获得最终的集群。在这里，实例被分配到元聚类与最高的相似性的基础上提出的新的相似性度量。4.1. 模型选择一般来说，个体聚类方法结果的多样性创建具有高度多样性的主要集群意味着从不同方面分析数据。虽然多样性可以提高集成聚类结果的质量，但重要的考虑因素是选择单个主聚类方法来创建集成。本文给出了个体AHC方法的m值集P，目的是用m值集P的m0方法选择子集Pω.因此，利用Pω集可以以较低的复杂度生成集合聚类.我们通过双加权方案研究模型选择问题。该方案为m个输入分配适当的权重其中，Ci和Xa分别指第i个簇和第a个实例。4.2. 初级团簇MCEMS方案使用几个单独的AHC方法的结果的组合来改进聚类结果。该过程通过m0单独方法执行以获得结果Pω1/2p1;p2;·· ·;pj;·· ·pm0]。这里，pj指的是第j次聚类方法的结果，其中它可以是诸如单一连锁、平均连锁、质心连锁和完全连锁的方法。本文利用Pω集合中的所有方法计算每对实例之间的相似度。提出的新的相似性度量强调存在更多的相似实例的集群以及集群的大小。每个pj分层地呈现结果，其中每个级别可以是聚类的一种形式。在这里，我们将pj的每个级别视为一个独立的簇。为了更好地理解，我们报告了来自表2中的图2中的示例。作为F的新颖的相似性度量是用于组合m个单独的AHC方法的结果的共识技术，其根据Eq. （四）、T. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3834见图4。 MCEMS方案流程图。表2在图1所示的示例中，每个方法所考虑的聚类。二、每个集群中可用的链接方法第1第2第3第4第5单个3,62,52,3,5,62,3,4,5,61,2,3,4,5,6平均3,62,53,4,62,3,4,5,61,2,3,4,5,6质心3,62,53,4,61,3,4,61,2,3,4,5,6完成3,62,53,4,61,2,51,2,3,4,5,6T. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3835Q. ..Σ1..zJ J.ΣK米0KQz我 Jz;8x;x2S4WMCA;MCJMCAJv1/41/1j1iJ ;jcv j： jcw j其中， W.MCA;MCB显示平均相似我 J我 Jz如果r∈c;c∈Ph. 因此合并正确;8a;b2PC6白蛋白1JMCAJzK Cxi;xj¼1jckj.Σ. .P P（bjcqj如果.x;x2cq0否则这可以帮助改善最终集群的形成Let/ Be TheJ用于创建元集群的方法。聚类技术可以用AHC方法来完成，如单连锁，平均其中，f<$xi;xj<$2F提供实例xi2S和xj2S的相似性。cz是第q种方法的第z个聚类中的实例数，kq是第q种方法得到的聚类数。此外，b是范围[0，1]中的衰减系数，其将较小的相似性分配给较大的聚类，因为较小聚类中的实例之间的相似性可能更重要。为了改进所提出的新的相似性度量，在创建最终聚类时，我们将F在[0，1]范围设PC为mAHC的方法. 考虑所有个体聚类方法的所有聚类联动、质心联动和完全联动。在本文中，平均连锁方法被用作/，因为它提供了比其他连锁方法更好的结果（Yang和Jiang，2018）。然而，我们比较了不同的AHC方法来评估其有效性.数据集的两个实例的相似性可通过f xi;xj.然而，在元集群中，从实例级到集群级的相似性的概念是广义的。此外，必须计算聚类中所有实例对的相似性以测量聚类的相似性，如等式（1）所示（五）、.普雷普山口B“PjcvjPjcwjCx;x#ð5Þ从PC 集用于创建主群集相似性度量过程如算法2所示8xi2cv;xj2cw算法2.创建主聚类和相似性度量输入：数据库tS，b和m0个单独的AHC方法：输出：主聚类和相似性矩阵F。一曰：第二章：为q = 1 tom0 do在数据集S上按第qAHC方法的差异。第三章：端第四章：第五章：为q= 1 tom0 do对于z= 1到kq，6：如果x i;x j 2cq那么7：f. x; x= f. x; x bjcqj.8：其他元簇MCA和MCB。Mcaj和Mcb分别是分配给元簇Mca和Mcb的另外，jcvj和cw分别表示集群cv和cw中的实例数。4.4. 最终聚类最终的集群可以通过元集群形成。这是通过将每个实例分配到具有最大相似性的元集群来完成的。然而，基于AHC的方法将结果呈现为树状图，其中最佳聚类的数量是未知的。聚类的最佳数量可以通过不同层次的树状图来实现，其中每个层次都可以提供一种形式的数据聚类这里，确定最佳聚类的数量9：f x i;x j的值不变。10：结束11：结束12：结束13：在范围[0，1]中的相似性度量F14：所有级别的所有主群集都被放置在PC集中。15：从PC集中删除相同的群集。通过合并主集群并考虑阈值值设K为最优聚类数。通过确定K的值，选择聚类数最接近K的树状图的级别作为最终聚类。因此，MCEMS可以自动找到最佳的集群数量。这里，通过合并主聚类（即，PC集的所有簇），直到达到阈值h，如等式（1）所示（六）、重复聚类合并，直到任何一对聚类的相似性达到大于h。在该算法中，第1 ~ 3行用m0个独立的AHC方法生成主聚类.重复第4行，以检查每种AHC方法的相似性第5行涉及检查单个AHC方法中的所有聚类。第6至10行用于计算两个实例之间的相似性。第13行提供了归一化的相似性矩阵。最后，第14行创建包含所有主集群的PC集，并根据第15行删除相同的集群4.3. 簇聚类技术使用集成聚类可以扩展聚类过程一bnot merged False其中，ca和cb是PC的两个集群。此外，rca;cb表示ca和cb之间的平均相似性。在确定K之后，从密度图中选择期望的水平，并且识别元簇在这方面，基于实例到具有最高相似性的元聚类的分配来生成最终聚类。因此，元聚类的数量指的是最终聚类的数量我们计算每个实例的相似性（例如，xi）到元簇（例如，mca）根据xi与mca中的总实例的平均相似度，如等式（1）所示。（七）、PPjcajJ一个j一初始化导致元簇的形成，其中每个元簇包含一个或多个独立簇。元聚类具有几种不同聚类方法的聚类知识fx;x¼我 Jq¼1z1/2我但是，PC集中的某些群集可能完全相同。为了降低复杂性，我们移除具有相同内容的聚类jmca j：jmcbjJMCAJw1从实例级到集群级。PC集包括所有主要：;8x2cað7Þ所有单个AHC方法的聚类。考虑到每一组PC作为一个实例，它可以重新集群。集群集群技术我一MCk¼1JKT. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3836其中，w=xi;mca=xi和mca之间的平均相似度。jmcajmca中的簇的数量。而且，ca是属于mca的第k个集群的实例数.T. Li，长穗条锈菌A.Rezaeipanah和E.M.泰格埃尔丁沙特国王大学学报3837ðÞ-×为了更清楚，我们给出了算法3中与最终聚类过程相关的伪代码。算法3. 创建最终群集输入：PC集中的主群集和元群集。输出：最终聚类，其中ck是指第k个聚类。1：基于PC集合和等式计算K。（六）、2.根据K值选择合适的聚类层次。3：创建K个空簇。4：对于i= 1到n，5：对于a= 1到K，6：wxi;mca基于等式（7）计算。7：结束8：实例xi被分配给集群ck，如果w是mca的最大值。9：结束5.2. 评估指标在本文中，各种评价标准被用来比较基于AHC的聚类方法。这些标准包括Wil- coxon假设检验（Banerjee等人，2021）和共表型相关（CPC）系数（Bagherinia等人，2019年，将在下面讨论。Wilcoxon检验是一种非参数统计检验，用于评价依赖于秩和量表的配对组的匹配。在这个测试中，变量可以有不同的距离，因为Wilcoxon测试考虑了排名之间的差异大小。在Wilcoxon检验中，第一个假设0和1是定义，然后确定a的显著水平。根据a的值，测量统计值，最后拒绝或接受假设。一般来说，统计检验有两个假设，即0和1。一个假设是需要被证明的东西，零假设是相反的。基本上，零假设是正确的，概率-实例的双向匹配值通过此假说.这被称为意义显著性（或p值）。如果p值小于一个假设的概率（即，a），零假设被拒绝。基于此，一个假设可以在显著性水平a下被接受。除了Wilcoxon检验外，CPC系数还可以分析5. 实验结果在本节中，我们在20个不同维度的数据集上进行了大量的实验，从不同的角度评估了所提出的MCEMS方案的有效性。用于比较的所有数据集都是从UCI机器学习库中收集的，在那里它们得到了Bagherinia等人的批准。（2019），Yang和Jiang（2018）以及Banerjee等人（2021）进行聚类工作。与基于链接的方法（即，单连杆、平均连杆、质心连杆和完全连杆）和几种状态的由AHC方法创建的树状图兼容性。该过程基于来自输入数据的计算距离矩阵和聚类的比较来执行。这里，输入数据的距离是基于实例对的欧几里得度量测量的，并且被称为邻接矩阵。AHC方法中的距离矩阵是通过描述符矩阵来度量的设Y是邻接矩阵，W是描述符矩阵。相应地，Y和W的CPC系数基于等式（1）计算。（十一）、Pij。是的。Wij-W-ART聚类集成算法。在这里，最先进的算法-用于比较工作的算法是HMM（Yang和Jiang，2018）、DSPA（Yang和Jiang，2018）和WHAC（Banerjee等人，公司简介<我是说，我的朋友。ﬃﬃ ﬃYﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃ ﬃY—ﬃﬃ ﬃΣﬃﬃ ﬃ2ﬃﬃrPﬃﬃﬃﬃﬃﬃﬃﬃﬃ ﬃ.ﬃﬃﬃWﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃWﬃ-ﬃﬃﬃﬃΣﬃﬃﬃ2ﬃﬃð11Þ2021年）。同时，由于不同运行中结果可能略有变化，并提供结果保证，我们报告了基于25次不同运行的所有实验结果。所有的模拟都是在联想笔记本电脑IdeaPad 320上使用MATLAB R2019 a进行的，该笔记本电脑采用Intel Core i7- 7500 U处理器，频率为3.5GHz，内存为8 GB。本节包括第五小节。第5.1小节专门介绍实验设置。第5.2小节审查了评价标准。数据集的描述见第5.3小节。在第5.4节中，分析了MCEMS的参数，第5.5小节提供了比较和讨论。5.1. 实验装置基于几个数据集的MCEMS方案的性能进行评估。然而，本研究未考虑噪声的存在。因此，不需要担心噪声的存在及其对确定聚类数的影响。MCEMS方案有四个输入参数，适当的调整可以提高聚类结果的效率。这些参数包括q（用于模型选择）、b（用于计算等式（1）中的相似性）、b（用于计算等式（2）中的相似性）和c（用于计算等式（1）中的相似性）。（4）），h（以合并等式（4）中的主簇），（6））和/（以创建最终聚类）。在本文中，不同的情况下，这些参数进行了分析，并根据最佳值的结果该分析在以下小节中进行：5.4并且基于Q1/40： 35，B1/40： 05，00： 25和/或一个版本链接。其中，Yij和Wij分别是Y和W中的实例i和j之间的距离，并且分别为Y和W的平均值。CPC系数输出在[1，1]的范围内，因此接近1的值指示合适的聚类方法。AHC方法中的每个聚类称为树状图，其中树状图按层次显示实例的结构该分层结构是具有维度n n的描述符矩阵（Jafarzadegan等人， 2019年

下载后可阅读完整内容，剩余1页未读，立即下载