没有合适的资源?快使用搜索试试~ 我知道了~
可在www.sciencedirect.com上在线ScienceDirect电气系统与信息技术杂志5(2018)542基于相关性的高维数据聚类Smita Chormungea,Zhao, Sudarson Jenaba印度海得拉巴GITAM大学计算机科学与工程系b印度海得拉巴GITAM大学信息技术系接收日期:2017年1月11日;接受日期:2017年2018年1月31日在线提供摘要特征选择是数据挖掘中降维问题的关键技术传统的特征选择算法不能在大空间上进行扩展。本文提出了一种新的解决维数问题的方法,该方法将聚类与相关性度量相结合,以产生良好的特征子集。该算法首先利用k均值聚类方法剔除不相关的特征,然后利用相关性度量从每个类中选择非冗余特征在微阵列和文本数据集上对该方法进行了评估,并将结果与其他著名的使用朴素贝叶斯分类器的特征选择方法进行了比较为了验证所提出的方法与不同数量的相关功能的准确性,逐行实验结果表明了该方法的有效性和准确性。© 2018 电 子 研 究 所 ( ERI ) 。 Elsevier B. V. 制 作 和 托 管 这 是 CC BY-NC-ND 许 可 证 下 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:聚类;特征选择;相关性;模糊性约简1. 介绍基因数据、文本分类、图像检索、信息检索等应用中包含大量的多变量数据。如此庞大的数据量远远超过了人类对机器学习从应用程序中找到相关的和非冗余的数据是具有挑战性的,这些数据包含数百到数千个属性,这些更高,更多方面的数据以前所未有的速度积累在执行操作和表示数据时,由于不熟悉而收集大量特征*通讯作者。电子邮件地址:smita2728@rediffmail.com(新加坡)Chormunge)。电子研究所(ERI)负责同行评审https://doi.org/10.1016/j.jesit.2017.06.0042314-7172/© 2018电子研究所(ERI)。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。S. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)542543相关特征。不相关的特征不会改变通过机器学习学习的目标概念,冗余特征不包括目标概念的任何新内容(John et al. 1994),但是这些不相关和冗余的特征显著地增加了学习过程的计算成本。当数据的维度如此之高时,它在计算上是昂贵的或实际上是禁止的,并且降低了机器学习算法的准确性。由于维数问题,传统的学习算法大多无法在大规模的高特征数据上进行扩展此外,噪声特征的存在降低了学习算法的性能。特征选择是通过选择相关和非冗余特征来解决机器学习中的维数问题的基本技术(Dash和Liu,1997; Liu和Yu,2005)。机器学习算法通过选择有用的属性和方便的特征选择,使其具有更高的可扩展性、可靠性和准确性。特征选择也有助于数据分析过程中的预测,通过选择封闭的和相关的特征。在特征选择中,采用不同的评价方法和搜索技术来产生一个好的特征子集评估措施分为三类,如不确定性措施,距离措施和相关措施。数据内在类别包括距离、熵和相关性度量。根据近年来对特征选择的研究,将评价函数分为距离、信息量、依赖性、一致性和分类器错误率五类。大多数特征选择算法(Frohlich等人,2003; Lin等人,2012年; Yu和Liu,2004年; Bhattacharyya和Kalita,2013年)已被提出用于分类技术。大多数特征选择算法使用统计度量,如互信息、相关性和信息增益度量。 基于评估措施,有三种一般的方法来选择特征,即过滤器,包装器和嵌入式方法(Guyon和Elisseeff,2003)。与其他方法相比,滤波器方法的计算复杂度较低,但不能保证学习算法该方法不依赖于学习算法,具有很好的通用性,在数据特征量较大的情况下是很好的决策方法。包装器方法的准确性很好,因为它选择了最好的特征,但计算复杂度很大(Souza,2004)。嵌入式方法比其他方法更有效,因为它将特征选择作为训练过程的一部分,并且通常特定于给定的学习算法(Guyon和Elisseeff,2003)。 传统的机器学习算法,如决策树或人工神经网络是嵌入式方法的例子。混合方法是过滤器和包装器方法的组合,以提高学习算法的性能(Das,2001; Xing等人, 2001年)。然而,近年来数据维数的增加对许多现有的特征选择方法提出了严峻的挑战。根据最近的研究,特征聚类也是另一种特征选择。聚类算法基于对象之间的相似性对对象集合进行分组。聚类算法根据数据相似性将对象划分为聚类,并且如果聚类之间的相似性最小化并且聚类内的相似性最大化,则实现更好的聚类(Kasim等人,2013年)。K-means和层次算法是聚类方法中比较流行的算法。本文提出了一种新的特征选择方法,该方法将相关性过滤测度与聚类相结合,寻找相关的、非冗余的特征子集。K-means聚类算法用于通过对训练数据集进行聚类来发现相关特征,相关性度量用于从聚类中发现冗余特征对于实验结果,使用文本和微阵列数据集数据集的功能范围从60到12,000。所提出的方法进行了比较,救济,IG(信息增益评估器)相对于朴素贝叶斯分类器。最高优先级的功能选择的基础上百分比明智的标准,测试所提出的方法使用不同数量的相关功能的分类器的准确性。本文第二部分介绍了背景研究。在第3节中,提出了相关性和聚类为基础的特征选择方法进行了讨论。第四节讨论了实证研究、结果和分析。最后,本文第五部分提出了结论性意见。2. 背景研究最近的研究使用特征聚类来提高学习算法的性能,并且表明聚类分析的应用比传统的特征选择算法更有效。Krier等人(2007)提出了一种将谱变量的分层约束聚类和通过互信息选择聚类相结合的方法VanDijck和VanHulle(2006)提出了与Krier相同的方法,除了前者强制每个聚类只包含连续的特征 Song等人(2013)提出了一种基于MST方法的快速聚类特征选择算法(FAST)。FAST基于集群的策略具有很高的544S. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)54222XY产生有用且独立的特征的子集的概率。特征选择可以简化计算,并有助于在数据聚类中获得准确的数据模型(Xuet al., 2016年)。Mitra等人(2002)提出了一种基于聚类和k-近邻算法的无监督特征选择方法。该方法选择具有最小距离的特征,然后消除k个邻居,直到所有特征被选择。Sotoca和Pla(2010)提出了一种监督方法,即基于特征聚类的特征选择3. 提出了一种基于相关和聚类的特征选择方法DNA分析和文本分类等应用包含大量的特征和示例。如何在这些数据中发现特征的本质并选择相关的、非冗余的特征是一个很特征选择方法采用不同的评价指标来得到最佳的特征子集,而不是寻找特征结构。聚类是一种更好的方法,它可以理解特征的结构,并去除噪声或不相关的数据。结合特征聚类和过滤方法解决了维数问题,并给出了更好的性能比单独的过滤评估措施。我们提出了一种方法,其中聚类方法发现的性质的功能,并消除不相关的功能和过滤措施,选择相关的和非冗余的功能,并根据其优先级的功能排名。为了测试所提出的方法的准确性,不同数量的相关功能,我们使用cracagewise标准。利用相关性评价指标剔除冗余特征,并对特征进行降序排序。K-means聚类方法(Onoda和Sakai,2011;Dhillon和Modha,2001)用于发现数据的结构并形成聚类。最初从原始数据集D中随机选择“k”个特征作为初始聚类中心。基于特征之间的距离和聚类平均值,最相似的对象被分配到聚类。计算每个聚类的新平均值重复该步骤,直到任何簇中的要素都没有重新分布对于k-means聚类方法,用户必须预先指定聚类的数量在这里,我们为所有数据集形成了两个集群两个特征之间的相似性使用Euclidean距离函数来计算,如等式(1)所示。(一). 两个向量x =[x1,x2]和y =[y1,y2]之间的平方距离是等式中所示的它们的坐标的平方差之和(二)、'd'表示向量x和y之间的距离(Greenacre和Primicerio,2013)。2 =(x1−y1) +(x2−y2)(1)dx,y=.(x1−y1)2+(x2−y2)2(2)DS. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)542545e(X, C)=−一旦形成聚类,不符合任何聚类的特征下一个任务是从每个簇中删除冗余特征为此,使用相关滤波器测量特征之间的相关性基于Eq.(三)、 对于具有值x的特征X和具有值c的类C,其中X、C被视为随机变量,皮尔逊线性相关系数被定义为:E(XC)E(X)E(C)σ2(X)σ2(C)(三)表1数据集摘要数据集实例特征域声纳20861文本心律失常452280微阵列REO15042887文本Oh59183013文本哦10033183文本DB世界644703文本TR232045833文本TR114146430文本CNS607130微阵列白血病727130微阵列WAP15608461文本MLL7212584微阵列546S. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)542∼e±∼如果它们不相关,则(X,C)为0,如果X和C线性相关,则为1。使用误差函数估计两个变量相关的概率。C= C++(|e(X,C)|(见附件二)。功能列表按降序排列P(X)值C)可以作为特征排名(Biesiada和Duch,2008)。为了测试所提出的方法选择不同数量的相关特征的准确性性能,使用逐行标准。如果选择了所有相关特征,则视为100%。考虑P是相关特征的总数,如果选择P/2特征,则认为是50%,如果选择(P* 0.4)特征,则认为是40%。在一些方法中,为了解决冗余问题,仅从每个聚类中选择单个特征甚至一些方法,特征不是从一些聚类中选择的(Sotoca和Pla,2010)。所提出的方法排名的基础上,他们的优先权的功能。可能从某个聚类中选择了多个特征,而从其他聚类中选择了较少的特征所提出的方法具有线性复杂度O(N)在假设所有相关特征的数据集中的实例和特征的数量。4. 实证研究4.1. 数据集描述在12个标准文本和微阵列数据集上进行的实验工作数据集总结见表1。Arrhythmia、Reo、Oh5、Oh0、Dbworld、TR23、TR11、CNS、Leukemia、Wap和MLL数据集,其特征范围为60至12,000。该方法的效率和有效性进行了评估与朴素贝叶斯分类器和结果进行了比较,如ReliefF和IG的代表性方法采用十重每个数据集被分成十个分区,其中九个用于训练集,一个用于测试集。为了测试所有分区,在交换每个分区的角色后重复九次数据集描述如下,心律失常区分心律失常的存在和不存在,并将其分类为16组之一它包含452个样本和278个属性。Re0,Oh5,Oh0和Wap是多类文本数据集。DB World电子邮件数据集它收集了来自DB World时事通讯的64封电子邮件DBWorld主体包含4703个特征。文本数据集tr 11和tr 23是多类(1-of-n)属性,tr23包含5833个特征和204个样本,tr 11包含6430个特征和414个样本。CNS代表了一组异质性肿瘤,其生物学上知之它包含7129个基因和42个样本。白血病数据集包含72个样本上的7129个白血病的两个样本变体是(AML,25个样本,或ALL,47个样本)。MLL(Mixed-lineage leukemia)数据集是一个包含12,584个属性 的 微 阵 列 数 据 集 。 ( Datasetshttps://archive.ics.uci.edu/ml/datasets et al. , ) 。 数 据 挖 掘 工 具 Weka(Bouckaert等人,2013年)用于分析结果。4.2. 结果和分析所提出的方法的性能进行了评估,并与ReliefF和IG方法进行了比较Relief(KiraandRendell,1992)提出了一种基于实例的属性排序方案的特征选择方法,称为RELIEF算法。它处理不完整的、有噪声的和多类的数据集。相关权重被分配给每个特征,它从数据中随机抽取实例样本,然后从相同和相反的类中定位其最近的邻居。Kononenko(1994)通过估计具有与其他属性闭合的属性的特征的质量来扩展浮雕算法。IG方法使用信息增益度量(Hall和Holmes,2003),这是一种最简单的属性排序方法,它通过知道属性的值来获得信息量。它通过分裂之前的分布的熵和分裂之后的分布的熵之间的差来计算。S. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)542547表2比较所提出的方法与其他方法在计算时间的特征选择数据集该方法ReliefFIG声纳0.050.160.02心律失常0.053.580.11REO2.3916.255.87Oh51.525.943.01哦1.696.873.67DB世界0.130.880.22TR230.942.461.92TR112.027.434.05CNS0.251.780.38白血病0.382.730.53WAP10.2445.9422.79MLL0.775.490.94表3比较所提出的方法与其他方法在特征选择的分类精度。数据集该方法ReliefFIG声纳95.7067.2367.20心律失常68.0262.3062.30REO78.7060.0060.00Oh588.0077.9077.90哦98.0479.5079.50DB世界97.1073.8073.80TR2395.0354.3053.50TR1198.0053.9054.00CNS90.0560.2062.00白血病94.0497.0297.00WAP99.0272.5072.62MLL93.7095.1095.20表4不同数目相关特征选择的分类精度数据集百分百百分之五十百分之四十声纳95.7096.0096.00心律失常68.0268.0270.00REO78.7080.2081.00Oh588.0087.0087.00哦98.0498.0098.00DB世界97.1097.1097.10TR2395.0395.0395.03TR1198.0098.0098.00CNS90.0587.7088.00白血病94.0495.0097.30WAP99.0299.0299.02MLL93.7093.7093.70所提出的方法和其他方法的计算时间比较如表2所示。 执行时间以秒计算。除声纳数据集外,其余数据集的计算时间都比其他两种方法少实验结果表明,该方法具有较好的效率.结果表明,ReliefF方法需要更多的时间来执行用于实证研究的数据集。所提出的方法的准确性与其他两种方法进行了比较,如表3所示。该方法的性能是最好的大多数数据集。每个数据集的更好性能以粗体显示548S. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)542Fig. 1.所提出的方法与其他方法的计算时间比较。图二.与其他方法相比,该方法的分类精度较高.图三.所提出的方法与不同数量的相关特征的分类精度。实验结果表明,该方法在大多数数据集上都是最快的。在不同数量的相关特征选择上测试所提出的方法准确度,结果如表4所示。有些数据集对40%的特征有很好的性能,而有些数据集对所有相关特征都有很好的性能。结果可能因数据集而异通过选择一些最佳的高优先级值特征来提供良好的准确性并不是这种情况所提出的方法相对于其他方法的时间和准确度的图形表示如图1和2所示。1和2分别。图3表示所提出的方法在不同数量的相关特征上的准确度。5. 结论本文提出了一种新的特征子集选择方法来解决维数问题。利用k-均值聚类算法发现并剔除不相关的特征,利用相关性去除冗余特征S. Chormunge,S.耶拿/电气系统和信息技术杂志5(2018)542549从每一个集群中测量。所有剩余的功能将根据优先级进行排序。所提出的方法的准确性进行评估的标准,不同数量的相关功能被选中。将该方法应用于文本和微阵列数据集上,并与典型特征选择方法的结果进行了比较实验结果表明,该方法是合理的效率和显着的快速。此外,我们计划探索的方法,通过使用过滤措施的相似性度量选择只有代表性的功能,以提高学习算法的性能。引用Bhattacharyya,D.K.,Kalita,J.K.,2013年。 网络异常检测:一个机器学习的视角。 Press.Biesiada,J.,杜赫,W.,2008. 基于皮尔逊冗余滤波器的高维数据特征选择。Adv. 软计算45,242-249. Bouckaert,Remco R.,Frank,Eibe,Hall,Mark,Kirkby,Richard,Pittemann,Pete,Seewald,Alex,Scuse,David,2013.WEKA版本手册3710达斯,S.,2001年过滤器,包装器和一个基于增强的混合功能选择。 Proc. 第18届国际会议 机器学习,74-81。Dash,M.,刘洪,1997. 用于分类的特征选择。内特尔数据分析1(3),131-156。迪隆岛Modha,D.,2001年基于聚类的大规模稀疏文本概念分解。 马赫学习. 42,143-175。Frohlich,H.,沙佩尔岛Scholkopf,B.,2003年。基于遗传算法的支持向量机特征选择。人工智能的工具。诉讼第15届IEEE国际会议,IEEE,142-148。Greenacre,Michael,Primicerio,Raul,2013. 样本之间的距离测量:欧几里德。FundacionBBVAPublication,ISBN978-84-92937-50-9,pp. 四十七比五十九居永岛Elisseeff,A.,2003年。 变量和特征选择的介绍。 J. 马赫学习. Res. 3,1157-1182.霍尔,文学硕士,霍姆斯,G.,2003. 离散类数据挖掘中的基准属性选择技术。IEEETrans. 克诺湾数据工程15(3)。约翰,G.H.,科哈维河,Pfleger,K.,一九九四年 不相关特征与子集选择问题。 Proc. 欧洲安全与合作问题国际会议机器学习,121-129。Kasim,S.,Deris,S.,奥斯曼,R.M.,2013. 基因表达数据聚类算法中提高置信水平和确定优势簇的多级滤波。Comput. Biol.Med.43,1120-1133。Kira,K.,洛杉矶伦德尔一九九二年 特征选择问题:传统方法与一种新算法。 Proc. 第十届全国会议 人工智能,129-134。科诺年科,1994年。 估计属性:RELIEF的分析和扩展。 Proc. 欧洲会议中 机器学习,171-182。Krier,D.,罗西,F.,Verleysen,M.,2007. 光谱数据中变量选择的特征聚类和互信息。Proc.EuropeanSymp.ArtificialNeuralNetworksAdvancesinComputationalIntelligenceandLearning,157-162.林,S.-W.,Ying,K.-C.的方法,李角,澳-地是的,李,Z。J.,2012年。 一种基于特征选择和决策规则的异常入侵检测智能算法。应用软件计算12(10),3285-3290。刘洪,Yu,L.,(1991 - 1995),美国,2005. 用于分类和聚类的集成特征选择算法。IEEETrans. 克诺湾数据工程17(4),491-502。Mitra,P.,Murthy,C.,帕尔,S.K.,2002. 使用特征相似性的无监督特征选择。IEEETrans. P样式肛门。马赫内特尔24(3),301-312。Onoda,T.,酒井,M.,2011年。基于独立成分分析的k-means聚类种子算法IEEE/WIC/ACM Web智能和智能代理技术国际会议,http://dx.doi.org/10.1109/WI-IAT.2011.29。Song,Qinbao,Ni,Jingjie,Wang,Guangtao,2013.基于快速聚类的高维数据特征子集选择算法。 IEEE Trans.克诺湾数据工程25(1),1-14。Sotoca,J.M.,Pla,F.,2010. 使用基于距离的条件互信息聚类的监督特征选择。P模式识别43(6),325-343。Souza,J.,2004年 特征选择与一般混合算法,博士论文。 Univ. 的OttaWA。Van Dijck,G.,Van Hulle,M. M.,2006年。利用互信息相关性和冗余度分析加速回归中的包装特征子集选择。人工神经网络国际会议论文集.Xing,E.,Jordan,M.,卡普河,2001. 高维基因组微阵列数据的特征选择。第18届国际机器学习会议论文集,601-608。Xu,Yu-Meng,Wang,Chang-Dong,Jian-Huang,L.2016年。带特征选择的加权多视图聚类。 P模式识别53,25-35。Yu,L.,(1991 - 1995),美国,刘洪,2004年基于冗余度的微阵列数据特征选择。第十届知识发现与数据挖掘国际会议论文集,ACM,737-742。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功