基于粗糙集的高维数据子空间聚类方法-维度灾难问题与解决对策

41 浏览量更新于2024-01-14 收藏 536KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种基于粗糙集的高维数据子空间聚类方法B. Jaya Lakshmia，M.Shashib，K.B.马杜里aa印度GVP工程学院信息技术系（A）b印度安得拉大学计算机科学与系统工程系阿提奇莱因福奥文章历史记录：2017年3月6日收到2017年8月23日修订2017年9月11日接受2017年9月12日在线提供保留字：子空间聚类基于密度的子空间聚类属性依赖测度Apriori性质A B S T R A C T子空间聚类的目的是确定用于聚类形成的子空间，以便从不同的角度对数据进行分类。传统的子空间聚类算法在所有可能的子空间中探索密集簇。这些算法受到维数灾难的影响也就是说，随着维度数量的增加，待探索的子空间的可能数量以及子空间簇的数量呈指数级增加。这使得聚类结果的分析困难，由于高概率的冗余聚类信息中的各个子空间。针对这一问题，提出了一种新的基于属性的兴趣粗糙集理论中的依赖性度量c，用于识别感兴趣的子空间。反单调性在识别感兴趣子空间的过程中，利用Apriori性质对子空间进行有效的修剪。一个基于密度的聚类方法，以便挖掘任意形状的密集区域的兴趣子空间中的集群。所提出的算法识别非冗余和有趣的子空间聚类的质量更好与现有的算法SUBCLU和SCHISM相比，在不同的数据集上，聚类结果的大小以及描述聚类解决方案所需的平均维数都有所减少©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍数据挖掘是从大量数据中提取有趣模式的研究。大量数据的可用性要求有效的算法来分析数据以进行模式提取。这是一项具有挑战性的任务（Zhaohong et al.，2016 b; Lifei等人，2016;Wang等人，2015年）。聚类是根据数据点的相似性划分数据点的过程（Rajaraman和Ullman，2011）。大多数实时应用程序处理高维数据（Sahil和Tanveer，2015）。随着维数的增加，诸如聚类分析的数据挖掘功能变得更加复杂（Feiping等人，2010年、2011年）。这是指维度的诅咒（Kelvin等人，2013年）。数据点之间的距离可能无法在高维空间中正确区分。*通讯作者。电子邮件地址： meet_jaya200@gvpce.ac.in（B.J. Lakshmi）。沙特国王大学负责同行审查空间，因为某些维度与数据分析无关为了某些目的。例如，人口普查数据包含个人的社会、经济、教育和人口统计细节。在为不同的目的（如社会福利计划的实施、为设立公用事业中心寻找合适的地点或为确定用于营利商业活动的商品）确定人群时，仅应考虑这些细节的适当子集。传统的聚类算法在子空间中产生不适当的簇，掩盖了真实的簇。子空间聚类解决了这个问题，因为它在所有可能的子空间中挖掘聚类子空间聚类过程随着维度的数量呈指数级缩放。最常见的处理维数灾难的方法是降维，特征选择和特征创建。降维方法如主成分分析（PCA）（Feiping et al.，2014 b）、奇异值分解（SVD）（Tan等人，2005）利用线性代数技术，将原高维特征空间变换为低维特征空间。这些方法可能不太适合子空间聚类过程，因为原始数据可能无法在变换后的特征空间中正确解释。http://dx.doi.org/10.1016/j.jksuci.2017.09.0031319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com330B.J. Lakshmi等人/沙特国王大学学报-≥特征选择涉及去除冗余属性，从而导致降维，最小损失的信息。这些方法主要通过基于属性依赖的特征加权，在保留相关特征的同时消除冗余特征特征创建技术用于创建一组新的特征，这些特征非常适合于从现有特征中表示数据集的重要信息这两种方法主要应用于数据集作为预处理步骤。这种特征约简的预处理方法可能会完全忽略聚类过程中的某些特征，从而导致信息丢失。在本文中，作者提出了应用粗糙集的属性依赖度量的子空间选择作为一个包装器的方法，而不是作为一个预处理方法。感兴趣子空间是指由依赖性度量小于某个阈值的属性所构成的子空间，因此感兴趣子空间中的属性之间具有最小的相互依赖性。论文的其余部分组织如下。第二节介绍了子空间聚类的最新发展在第3节中描述了所提出的子空间聚类技术。实验结果见第4节。第5节总结了本文，并讨论了可能的扩展作为未来的范围。2. 相关工作子空间聚类由于其在各个领域的广泛应用而得到了广泛的应用。子空间聚类可以被广泛地分类为软子空间聚类和硬子空间聚类（Deng等人，2010; Zhaohong等人，2016年a）。在Soft子空间聚类中，为每个维度分配权重，以衡量每个维度在特定子空间聚类中的贡献。每个维度对每个聚类的贡献都不同。通过聚类后权值的大小来区分不同聚类的子空间。一些示例算法是属性加权算法AWA（Chan等人，2004）、模糊加权K-Means算法、FWKM（Jing等人，2005）和模糊子空间聚类，FSC（甘和吴，2008）。为了处理具有内部结构组合的数据集，Jun等人（2016）提出了两种软子空间聚类算法，CKS-EWFC-K复合核空间和特征空间中的熵加权模糊聚类，CKS-EWFC-F。这两种算法都将特征空间中的初始模型映射到复合核空间中，每个簇对应一个映射，这是一种不同于现有核聚类算法的新思想。在硬子空间聚类中，聚类在子空间中被识别，其中所有属性被赋予相等的重要性。聚类过程可以是自底向上或自顶向下。在自底向上方法中，低维子空间聚类形成用于生成高维子空间聚类的候选。一些自底向上聚类技术包括 SUBCLU （ Kailing 等人， 2004 ）、 CLIQUE（Agrawal等人，1998）、MAFIA（Goil等人，1999）、ENCLUS（Cheng等人， 1999年）。CLIQUE是遵循自底向上方法的基于网格的子空间聚类的示例（Agrawal等人， 1998年）。每个子空间被划分成相等大小的网格，并且具有大于用户指定的阈值的点数的网格网格的定位将主要影响聚类方法的有效性（Kelvin等人， 2013年）。MAFIA是CLIQUE的扩展，其中使用直方图形成可变大小的网格（Goil等人，1999年）。ENCLUS扩展CLIQUE使用熵的概念作为识别最佳子空间的标准，同时通过有效地修剪不感兴趣的子空间来探索高维子空间簇。算法-Rithm挖掘由于强聚类而感兴趣的非最小相关子空间（Cheng等人，1999年）。在高维数据中，数据在特征空间中变得稀疏，真正的聚类隐藏在子空间中。Sequeira和Zaki（2004）开发了一个称为SCHISM的模型，用于使用Adhoff-Hoeffding和支持度挖掘最大子空间。深度优先的方法是为了挖掘最大的兴趣，ING子空间，其中输入数据集被转换成一个垂直表示。单调性的原则是用来修剪搜索空间。SUBCLU 利用 DBSCAN ，其遵循基于密度的聚类方法的概念（Kailing等人，2004年）。该算法提取任意形状的簇，每个簇包含不同子空间中密度连接的数据点SUBCLU通过划分一维子空间簇并继续进一步将每个簇划分到更高维度的过程直到不能形成密集簇来发现因此，该技术遵循子空间中的分层聚类（分裂）。一旦一个数据点被识别为低维子空间中的离群值，它就不能被包括在其任何高维子空间聚类中。与DBSCAN一样，它需要两个用户自定义参数e、半径和最小值点在自顶向下方法中，聚类的探索从全维空间开始，子空间聚类过程继续向低维子空间进行。一些自顶向下聚类技术是FINDIT（使用维度投票的快速智能子空间聚类算法）（Woo等人，2004）、PROCLUS（投影聚类）（Aggarwal等人，1999）和ORCLUS（任意定向的投影CLUSter生成）（Aggarwal和Yu，2000）。Feiping等人最近在投影聚类方面做了一些工作。（2014 a，2016）。3. 拟议工作子空间聚类是将不同子空间中的相似数据点进行分组的过程。3.1. 初步概念假设DB是数据点的集合。设A为属性的集合。子空间是由属性的子集形成的特征空间;例如，S∈ A是属性的子集，因此是子空间。对于一组属性A，可能的子空间数为2|一|1.一、超级空间是在定义子空间的属性集合的任何超集的项设e是0到1之间的实数，S∈A，o2 DB.在S中的o的e-邻域，由Ne（o）表示，并且在等式中定义（一）.Neoxs DBjdistpS o;pSx6e 1其中，（dist（pS（o），pS（x））是投影子空间“S”中o和x之间的距离。所有属于'o'的e（Ester等人， 1996年）。设minpts是一个小的正整数和一个2DB。如果数据点“a”具有至少minpts数量的e -邻居，则该数据点（Ester等人， 1996年）。设数据点 a ， b 为 2DB. ‘a’ is said to be directly density-reachable from ‘b’ with respect to|N e（b）|minpts（核心点条件）。直接密度可达是对称的核心点对根据粗糙集理论（Pawlak，1982）的概念，一组数据点被认为是不可分辨的，因而形成基本集合。等价关系R将数据点划分为由初等模型B.J. Lakshmi等人/沙特国王大学学报331一组数据点。一个组合集是有限个基本集合的并集，它表示簇的集合。当它是不可能的表示数据点作为一个组合集，它是表示为一个粗糙集与上下近似。[x]p和[x]Q分别表示在子空间P和Q中形成的基本集合，它们是所形成的数据点的密集簇在相应的子空间。Qi是子空间Q的第i个簇。PQi是Qi在由P形成的基本集合方面的下近似。它包含在子空间Q中形成的第i个簇的那些元素，这些元素由子空间P形成的基本集合表示（Pawlak，1982）。下近似的公式在Eq.（二）PQi½fQij½x]p Qig2定义1（属性依赖性度量，c）。cP（Q）是属性集Q对属性集P的依赖性的度量（Pawlak，1982），如等式2所示（三）、cP（Q）在0到1之间变化XN jP Q jð Þ ¼在这个2-D子空间中形成的聚类被进一步划分以形成3-D子空间聚类，只要它是感兴趣的子空间。假设在子空间AB和C中形成的簇是CAB1 ={o1，o2，o 4}，CAB2 ={o 5，o 6，o 7，o 8}和CC1 ={o 1，o2，o3，o4}，CC2 = {o5，o6，o7，o8}。cAB（C）= 7/8 = 0.875，其不小于或等于属性依赖性阈值，因此子空间ABC不被选择为感兴趣的3-D子空间，并且基于先验性质结束在该方向上的进一步分割。3.3.拟议方法在本文中，感兴趣的子空间识别，其中的数据点进行聚类生成感兴趣的子空间簇。作为预处理步骤，使用最小-最大归一化对数据集进行归一化，以在探索高维子空间时，利用Apriori性质来确定感兴趣的子空间.如果一组属性之间存在相互依赖关系，那么它的每个超集都保持这些相互依赖关系因此可以在兴趣子空间的过程中消除cP Qi1iDBjð3Þ聚类（ISC）。因此，在该算法中，每当子空间是发现是无趣的，没有一个超集被探索。哪里|DB|是数据集DB中数据点的总数。P和Q是属性的集合，并且Q 1，. . QN是在子空间Q中形成的N个簇如果cP（Q）= 0，则属性集Q独立于P。若cP（Q）= 1，则属性集Q完全依赖于P，且cP（Q）的值越小，属性集PQ之间的独立性越高.定义2（有趣子空间（IS））。通过合并由其属性依赖性度量c小于用户指定的属性依赖性阈值C的两个属性集表示的一对原始子空间而形成的子空间被认为是中间子空间（IS），因为定义原始子空间子空间并不完全相互依赖。一对子空间（P，Q）的属性依赖性度量c几乎为1，这意味着在一个子空间中形成的大多数簇可以根据在另一个子空间中形成的簇（基本集）来组成因此，通过合并这两个子空间来形成新的子空间导致冗余，因为它不提供任何额外的模式或新的聚类。在探索子空间时，如果第k维的属性依赖不满足指定的属性依赖阈值C，则第（k + 1）维的属性依赖也不满足。也就是说，无论何时发现一个子空间是不感兴趣的，它的超空间都不需要探索。这就是所谓的先天属性。3.2. 例如考虑8个对象的数据集，并假设属性依赖性阈值C为0.5。设在一维子空间A和B中形成的簇为CA1= {o 1，o2，o 4，o 5，o 6}，CA2 ={o3，o 7，o 8}和CB1 = {o 1，o3，o 5，o 6，o 7，o 8}，CB2 ={o2，o 4}分别根据子空间“A”中形成的簇，CB1的因此，子空间AB被选择为感兴趣的2-D子空间，并且变得有资格在2-D子空间中聚类。算法如下进行：A) 形成1D子空间簇。B) 估计每对属性的属性依赖性C) 查找符合条件的2D子空间。D) 对于每个合格的2D子空间，划分最佳1D子空间的聚类以生成2D子空间聚类; k = 2。E) 重复该过程，以通过扩展合格的k维子空间并划分在最佳k维子空间中形成的簇来形成（k +1）维子空间，直到不能形成更高维度的合格子空间。详细算法如下：算法ISC：输入：DB、e、minpts、C。输出：感兴趣的子空间中的非冗余簇步骤1：首先，使用DBSCAN在由每个属性定义的一维（1-D）子空间中形成任意形状的密度连接簇步骤2a：估计Q对P，c的属性依赖性度量其中P和Q是定义1-D子空间的属性步骤2b：如果属性依赖性小于或等于属性依赖性阈值C，则对应的2-D子空间（PQ）变得有资格用于聚类。对每个合格的2-D子空间重复步骤3和4步骤3：将聚类结果覆盖的元素数最少的一维子空间确定为最佳一维子空间。第四步：最佳1-D子空间的每个聚类通过应用DBSCAN使用在定义2-D子空间的特定属性中投影的数据点之间的距离来划分。步骤5a：估计Q对P，c的属性依赖性度量其中P是定义合格2-D子空间的属性Q是另一个属性。步骤5 b：如果属性依赖性小于或等于属性依赖性阈值C，则对应的3-D子空间（PQ）变得有资格用于聚类。对每个合格的3-D子空间重复步骤6第六步：最佳2-D子空间的每个聚类通过应用DBSCAN使用在定义3-D子空间的特定属性中投影的数据点之间的距离来划分。332B.J. Lakshmi等人/沙特国王大学学报#子空间聚类的比较，60000增加的minpts500004000030000200001000003 4 5 6 7最低点数子俱乐部ISC步骤7：继续在更高维度中形成聚类的过程，直到由于它们的高属性依赖性而不能形成更多的子空间，或者直到在合格的子空间中没有识别出更密集的聚类。4. 结果分析该算法用于在数值型数据集上生成兴趣子空间聚类这些算法在UCI 机器学习库的 9 个基准数据集上进行了测试（ Lichman ，2007）。所有实验均在具有2.40GHz处理器和8GB RAM的个人计算机上运行。子空间聚类的质量根据纯度和轮廓系数（SC）来测量，如在（Jaya Lakshmi等人， 2017年）。对属性依赖阈值C、最小点集minpts和最小点集半径e这三个输入参数的不同取值进行了实验。表1显示了在乳腺癌数据集上进行实验，其中 #objects ， #dimensions ，#classes> as 9699，9，2>取自UCI机器学习库。从子空间聚类数、纯度和轮廓等方面对算法SUBCLU和ISC进行了当e和C固定在分别为0.2和0.4。随着minpts值的增大，得到的子空间聚类数、纯度和轮廓系数逐渐减小然而，与SUBCLU相比，ISC产生较少数量的子空间簇，具有改进的纯度和轮廓系数图图1-3示出了相应的图，以绘制子空间聚类的数量、纯度、轮廓图二. 乳腺癌数据集纯度与minptsFig. 1.乳腺癌数据集的子空间聚类数量与minpts图三.乳腺癌数据集的轮廓系数（SC）与minpts乳腺癌数据的minpts增加值的系数。通过对不同参数设置的测试进行了类似的分析，发现在e= 0.5，C= 0.7和minpts= 3时，在不同的数据集上一致地产生更好的结果，表2中列出的值对应于该参数设置。将ISC算法与现有算法SUBCLU和SCHISM在聚类质量度量、纯度和轮廓系数方面进行了比较，其值显示在表1在乳腺癌数据集的#子空间聚类、纯度和SC方面比较SUBCLU和ISC。minptsSUBCLUISC#子空间簇纯度SC#子空间簇纯度SC3502220.9650.652271840.9660.6574429450.960.646236570.9610.6545376340.9570.634203600.9590.6426341650.9540.631168730.9550.6427313940.9520.618157030.9530.627不同纯度值的纯度比较minpts0.970.9650.960.9550.950.94534567最低点数子俱乐部ISC不同minpts0.660.650.640.630.620.610.60.593 4 5 6 7最低点数SUBCLUISC#获得的纯度轮廓系数，SCB.J. Lakshmi等人/沙特国王大学学报333XX表2ISC与SUBCLU和SCHISM在纯度和轮廓系数（SC）方面的比较。数据集ISCSUBCLU分裂<#objects，#dimensions，#classes>纯度SC纯度SC纯度SC输血数据748，4，2>0.8920.7680.7950.6590.8510.698纸币认证1372，4，2>0.8700.6980.7900.5590.7260.422种子数据210，7，3>0.7610.6210.7290.6110.7360.591图像分割数据2310、19、7>0.5920.5280.1520.1660.5440.142葡萄酒质量4398，12，4>0.5690.4510.417-0.020.5020.192玻璃数据214，10，7>0.7970.6230.7960.6220.7530.536乳腺组织数据106、9、6>0.7420.6760.7370.6760.6690.652酵母数据1484，8，9>0.6090.6240.6030.6210.5480.531用户标识数据403、5、7>0.6980.3030.6970.3020.5620.294表3ISC与SUBCLU和SCHISM在#子空间聚类和子空间聚类的平均维度方面的比较。数据集ISCSUBCLU分裂<#objects，#dimensions，#classes>#子空间平均维数#子空间平均维数#子空间平均维数子空间聚类集群子空间簇集群子空间簇输血数据748，4，2>839 2.1312032.7954723.182纸币认证1372，4，2>小行星239647542.8319923.52种子数据210，7，3>小行星587666864.29429346.829图像分割数据2310、19、7>73992 6.85993587699.3644518414.833葡萄酒质量4398，12，4>652132915093666.72848193710.692玻璃数据214，10，7>13523 3.837171355.941165928.632乳腺组织数据106、9、6>9807 3.241100494.838105427.902酵母数据1484，8，9>69563 3.107728244.6418635.3用户标识数据403、5、7>小行星173920222.90819794.295表2不同数据集。最佳值以粗体显示可以观察到，ISC在所有数据集中一致地产生更好质量表3示出了所获得的子空间聚类的数目以及ISC、SUBCLU和SCHISM的子空间聚类的平均维数。平均维数表示为一个给定的对象确定最相容的子空间簇所需的信息量，因此，产生具有低平均维数的聚类解的算法是优选的。研究发现，尽管在大多数数据集中，SCHISM产生的子空间簇的数量较少，但ISC得到的子空间簇的平均子空间簇的平均维数使用等式（Eq.（4）对于含有d维的数据集，对于给定的子空间聚类解边缘以更简洁的方式，在纯度和轮廓系数方面具有改进的聚类质量。该方法适用于具有数值属性的数据集这可以扩展到所有类型的数据。这一工作可以推广到处理密度发散问题。确认这项工作是由大学资助委员会，新德里根据赠款编号。F-MRP-4554/14（SERO-UGC）。引用Aggarwal，C.C.，Wolf，J.L.，余，附，Cecilia，Procopiuc，Jong Soo，Park，1999.投影聚类的快速算法。在：美国纽约ACM SIGMOD数据管理国际会议上pp. 61比72Aggarwal，C.C.，Yu. 另外，两千寻找广义投影集群在高平均维数¼D1/1ðniωiÞð4Þ维度空间在：Proc.第一届国际会议数据管理，纽约，美国，pp. 70-81.D ni¼1i其中ni是在i维子空间中形成的子空间聚类的数量。5. 结论和今后的范围子空间聚类会在不同的子空间中产生大量的聚类，这对分析来说是一个挑战。提出的兴趣子空间聚类（ISC）算法elim-选择大多数冗余群集。利用粗糙集理论中的属性依赖度量 cP利用DBSCAN算法在每一个有趣的子空间。该算法不仅可以识别非冗余子空间簇，而且可以用更少的维数来描述每个簇，这一点从平均维数的低值中可以看出。因此，我们能够提取知识，阿格拉瓦尔河Gehrke，J.，Gunopulos，D.，Raghavan，P.，1998年，数据挖掘应用中高维数据的自动子空间聚类。载于：美国纽约第一届数据管理国际会议论文集，pp. 94-105.C h a n ，E.Y.，程伟光，Ng，M.K.，Huang，Joshua Z.，2004年一种基于加权相异性测度的聚类优化算法。模式识别37（5），943Cheng，C.H.，Fu，A.W.，张玉，1999.基于熵的子空间聚类在数值型数据挖掘中的应用。在：Proc.5th ACM SIGKDD International conference on Knowledge discoveryand data mining，New York，美国，pp. 84比93邓志，崔，K.，Chung，F.，王，S.，2010.融合类内和类间信息的增强软子空间聚类。模式n。1 4 3 （3），767-781。Ester，M.，Kriegel，H.，Sander，J.，徐，X.，1996.一种基于密度的含噪声大型空间数据库聚类发现算法。第二届知识发现和数据挖掘国际会议，波特兰，pp。169-194。飞平，聂，董，徐，Tsang，Ivor W.阿雄，张长水，2010.灵活流形嵌入：半监督和无监督降维框架。IEEE传输图像处理。19（7），1921-1932年。Feiping，Nie，Zeng，Zinan，Tsang，Ivor W.，Dong，Xu，Zhang，Changshui，2011. 谱嵌入聚类：样本内和样本外谱聚类的框架。 IEEE Trans. NeuralNetworks 22（11），1796-1808.Feiping，Nie，Xiaoqian，Wang，Heng，Huang，2014 a使用自适应邻居的聚类和投影聚类。在：KDD334B.J. Lakshmi等人/沙特国王大学学报ACM SIGKDD知识发现和数据挖掘国际会议，第977Feiping，Nie，Xiaoqian，Wang，Michael I.，Jordan，Heng，Huang，2016.基于图的聚类的约束拉普拉斯秩算法。在：AAAI'16程序的十三AAAI人工智能会议，pp。1969-1976.Feiping，Nie，Jianjun，Yuan，Heng，Huang，2014 b.最优均值稳健主成分分析。在：第31届机器学习国际会议论文集，pp。1062-1070年。Gan，G.，吴，J.，2008.模糊子空间聚类算法的一个收敛定理。模式n。41（6），1939-1947年。S. ， Nagesh ， H. ， Choudhary ， A. ， 1999. Mafia ： Efficient and scalable subspaceclustering for very large datasets，Technical Report，Northwestern University，Evanston，1999.JayaLakshmi，B.，Madhuri，K.B.，Shashi，M.，2017年。一种动态参数设置的基于密度的子空间聚类算法。国际信息技术杂志Comput. Sci. 9（6），27-33.京湖，越-地，Ng，M.K.，徐，J，Joshua Zhexue，Huang，2005. 基于特征加权k-means算法的文本子空间聚类。第九届亚太知识发现和数据挖掘进展会议，施普林格，柏林海德堡，pp。802-812Jun，Wang，Deng，Zhaohong，Choi，Kup-Sze，Jiang，Yizhang，Luo，Xiaoqing，Chung，Fu-Lai，Shitong，Wang，2016.复合核空间中软子空间聚类的距离度量学习。 Pattern Recognition 52（C），113-134.Kailing，K.，Kriegel，H.，Kroger，P.，2004.高维数据的密度连通子空间聚类。第四届SIAM国际数据挖掘会议，佛罗里达州布埃纳维斯塔湖，第10页。246-257Kelvin，Sim，Gopalkrishnan，Vivekanand，Zimek，Arthur，Cong，Gao，2013. 增强子空间聚类研究综述。Data Mining Knowl. Discovery 26（2），332-397.李飞，陈，王胜瑞，王凯军，朱建平，2016。基于概率距离的分类数据软子空间聚类。模式n。51，322-332。拉贾拉曼，阿南德，乌尔曼，杰弗里大卫，2011年。采矿海量数据集% s。剑桥大学出版社，纽约。Tan，Pa-Ning，Steinbach，Michael，Kumar，Vipin，2005.数据挖掘导论Addison-WesleyLongman出版公司Inc，Boston，MA.Pawlak，Z.，一九八二年粗糙集Int. J. Comput. 告知。Sci. 11（5），341-356。Sahil，Raj，Tanveer，Kajla，2015.对Swachh Bharat Abhiyan的情感分析。Int. J. 商业肛门内特尔3（1），32-38。Sequeira，K.，Zaki，M.，2004. SCHISM：一种新的兴趣子空间挖掘方法。在：第四届IEEE数据挖掘会议论文集，pp。186-193.王丽娟，志峰，郝瑞初，蔡文，文，2015。通过混合相异度增强软子空间聚类。 J. Intell。《模糊系统》，29（4），1395-1405。Woo，Kyou-Gu，Lee，Jeo-Hoon，Kim，Myou-Ho，Lee，Yo-Joon，2004. FINDIT：一种快速智能的子空间聚类算法。信息软件Technol.46（4），255-271.Zhaohong，Deng，Choi，K. Sze，Jiang，Yizhang，Wang，Jun，Wang，Shitong，2016 a. 软子空间聚类研究综述。INF. Sci. 348，84-106.Zhaohong，Deng， Jiang，Yizhang ，Chung， Fu-Lai ，Ishibuchi ，Hisao ，Choi ，Kup-Sze，Wang，Shitong，2016 b.基于迁移原型的模糊聚类。IEEE Trans. 模糊系统24（5）.Lichman ，2007 年。 UCI Machine Learning Repository ，网址： http://archive.ics 。uci.edu/ml网站。

下载后可阅读完整内容，剩余1页未读，立即下载