基于模糊粗糙集的肺癌基因表达数据的特征选择方法的评估

99 浏览量更新于2023-12-09 收藏 848KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectFutureComputing and Informatics Journal 3（2018）131e142http://www.journals.elsevier.com/future-computing-and-informatics-journal/基于模糊粗糙集的肺癌基因表达数据C. Arunkumara，*，S.拉马克里希南ba部。印度哥印拜陀Amrita Vishwa Vidyapeetham Amrita工程学院计算机科学与工程b部Mahalingam博士工程技术学院信息技术系，印度Pollachi接收日期2017年6月30日;修订日期2017年11月21日;接受日期2018年2月8日2018年2月20日在线提供摘要微阵列基因表达数据在有助于诊断和治疗各种疾病的特征选择中发挥着重要作用微阵列基因表达数据中含有冗余的高维特征基因，训练和测试样本较少。提出了一种基于模糊粗糙快速约简算法的属性选择相似性度量方法。第一阶段采用基于熵的信息增益降维，第二阶段采用模糊粗糙快速约简方法，定义了一个自定义的相似性度量，用于选择最少的信息基因，并去除冗余基因。该方法使用白血病，肺癌和卵巢癌基因表达数据集上的随机森林分类器进行评估。该方法在白血病、肺癌和卵巢癌基因表达数据集上的分类准确率分别为97.22%、99.45%和99.6%。本研究使用R开源软件包进行。所提出的方法表现出实质性的改善性能方面的各种统计参数，如分类精度，精度，召回率，f-测量和区域的特征相比，现有的方法在文献中。Copyright© 2018埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：特征选择;信息增益;模糊粗糙快速约简;随机森林1. 介绍癌症被认为是全球范围内的致命疾病。传统的诊断方法是耗时和容易出错的，因为它们完全依赖于人类的判断。因此，机器学习方法和算法有助于疾病的早期诊断和治疗，从而提高生物医学和生物信息学领域的存活率[8，24]。近年来，特征选择变得越来越重要。近年来，微阵列数据库的行和列都在增长[22]。存在于* 通讯作者。电子邮件地址：c_arunkumar@cb.amrita.edu（C.Arunkumar），ram_f77@yahoo.com（S. Ramakrishnan）。同行审查，由埃及未来大学计算机和信息技术系负责。高维数据集占用大量的存储器空间，这会降低学习算法的性能[46]。微阵列数据集的更高维度促使研究人员使用各种方法进行特征选择。微阵列基因表达数据发现其在不同类型癌症的诊断和治疗中的应用。面临的一些挑战是大量的特征基因，较少的样本数量和缺乏适当的验证，因为基因表达数据容易出现离群值和噪声[5]。微阵列技术被广泛用于测量和监测基因表达激活水平，其应用于多种疾病的诊断和治疗。一种叫做微阵列的技术可以产生大量有用的数据来解决许多生物学问题。微阵列是一种同时测量数千个基因活性如果基因过度表达，那么就会有太多的蛋白质，https://doi.org/10.1016/j.fcij.2018.02.0022314-7288/Copyright© 2018埃及未来大学计算机与信息技术学院。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。132C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142-得出的结论是，特定的基因是异常的。与核型相比，微阵列甚至可以检测到更小的变化。近年来微阵列的应用领域是疾病分类。基因表达数据是数据丰富和信息贫乏的。公共微阵列数据库包括 Kentridge 生物医学库、 NCBI 、Genbank 、 Array Express 、 Gene Expression Omnibus 和Stanford Microarray。在我们的研究中使用的微阵列数据集的格式如表1所示，其中FG1，FG2，FG3，在这种情况下，样本表中的所有值都在1和1之间，这意味着数据是正常的。粗糙集理论是处理数据不确定性、不准确性和模糊性的有效工具。它通过确定数据的依赖性来减少特征的数量，而不需要任何额外的信息[18，27，49]。一个最小属性子集是从一个超集导出的，称为约简。这个约简需要表现出与超集相同的可扩展性，保留语义，以最小化特征选择过程中的信息损失。这种方法的亮点是它从超集中选择最重要的基因/特征，而无需转换数据[25，37]。已经提出了几种方法来确定约简。模糊粗糙集包含了模糊性和不确定性这两个既不同又相关的概念。知识的不确定性被认为是造成这种情况的原因之一。模糊粗糙属性约简是通过计算依赖关系来实现的.一些在Refs的作品。[4，13，18，44];主要关注通过不同方法计算属性约简。在紧致计算域上，算法的计算效率得到了提高[13]。文献[33]中提出了信息熵的概念来计算模糊粗糙约简。文献[18]提出了一种改进的模糊可拓矩阵。文献[44]为属性约简奠定了理论基础。[19]第10段。通过可行性矩阵的方法进行了研究[31]。传统的模糊粗糙快速约简算法采用三种不同的相似性度量来计算约简。[42，20，34]。尽管它们产生的约简在大小上比建议的相似性度量小，但它们有两个关键缺点。相似性度量在本质上是复杂的。约简的计算基于这两个原因，提出了一种基于香农熵的信息增益滤波器的自定义相似性度量，表1基因表达数据的格式。2 0.659-0.672-0.023-0.861肿瘤3-0.800 0.089 0.134 1.000肿瘤N-0.973-0.786 1.000-0.913正常使用定制的模糊粗糙快速约简（FRQR）算法进行降维和特征选择。本文的主要目的是开发一个最小的约简白血病，肺癌和卵巢癌微阵列基因表达数据集使用自定义的相似性度量模糊粗糙快速约简方法，计算所有的约简。并与文献[1]中提出的模糊相似性测度进行了比较。[2019 - 04 -22][2019 - 04 - 05][2019 - 05]我们的算法被证明是有效的各种统计参数，如分类准确率，精度，召回率，F-测量和区域的特征（ROC）分析后。本文的组织结构如下。第二节介绍了粗糙集和模糊粗糙集领域的相关工作和背景研究。第三节给出了属性选择的模糊粗糙快速算法中的自定义相似性度量.第4节概述了实验结果和讨论，结论见第5节。2. 相关工作和研究工作基于启发式的技术被用来实现粗糙集理论中的几种特征选择方法。参考文献[40]中讨论了一个可以通过使用可区分性概念被任何两个对象区分的特征子集。参考文献[10]中讨论了利用正区域的属性约简。参考文献[14]中讨论了目标决策不变的同类方法。参考文献[41]中讨论了在粗糙集模型中使用信息熵搜索“约简”的概念。上述概念被扩展到近似约简，可以用于参考文献[50]中讨论的许多特征约简方法。使用模糊粗糙集的特征选择的概念已经由几个作者讨论，可以在下面的表2中总结2.1. 研究工作2.1.1. 粗糙集方法在许多研究领域中出现的不完全性和不确定性的概念可以使用Pawlak于1982年发明的称为粗糙集（RS）理论的新数学工具粗糙集不需要初步或额外的信息，这在实施阶段是一个关键的优势。粗糙集理论通过比较属性约简中的等价性或相似性度量，将其应用于最小约简的计算。最小约简集的计算取决于依赖度度量，并且应该注意，约简子集产生与未约简集相同的依赖度[11]。2.1.2. 粗糙集理论给定一个决策系统DS<$A;Ca<$Da;V;fa，其中Ca和Da表示条件属性和决策属性的集合，V是属性do mains的并集，V<$A2AVa例如FG1FG2FG3FGN类1-0.286-0.0950.213-0.802正常C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142133×j <$fg j <$fgð×Þ ðÞð×Þ ð ×Þ22表2基于模糊粗糙集的特征选择方法综述参考方法分类器数据集言论[33个]利用SAT计算粗糙集和模糊粗糙集JRip肺，心脏比Rough Set约简属性约简[49个]基于鱼群算法决策规则肺快速覆盖，强搜索算法能力，找到最小约简高效，具有竞争力性能[3]第一章定制模糊粗糙快速约简方法朴素贝叶斯，模糊白血病，肺癌，基因亚群数量的减少，的特征选择粗糙神经网络，卵巢癌改进的准确度Adaboost、J48、随机森林，随机树[35]第三十五届邻域逼近和分组JRip，IBK白血病，结肠，淋巴瘤减少执行时间，改进执行情况，子集大小[四十三]遗传算法SVM乳腺癌最佳关联自闭症基因表达数据与疾病，良好的性能[29日]使用最大相关性的K-NN、SVM、C.4.5乳腺癌白血病选择有区别的基因和显著性标准结肠癌、肺癌从高维数据集[30个]基因芯片的粗糙集特征基因选择K-NN，SVM乳腺癌白血病基因选择的改进，基于最大相关性的数据，肺癌和白血病可行性和有效性显著性标准该方法[32个]模糊下逼近专用分类器葡萄酒数据集增强的鲁棒性，有效的k-均值和k-中位数[6]美国异构数据的属性约简SVMUCI数据集不一致性与属性约简[21日]基于模糊增益比的属性选择支持向量机，C4.5SRBCT，结肠，肝细胞有效属性选择方法癌[第十一届]基于粗糙集和粒子群算法的混合特征朴素贝叶斯，贝叶斯网络，乳腺癌提高预测准确性选择K星[47个]基于信息熵的特征选择LSVM，KSVM，CART乳腺癌更好的功能一种新的模糊粗糙集在混合数据中的应用选择和预测精度[48个]基于粗糙集的模糊学习技术ID3UCI数据集降低学习模糊样本算法[26]不一致决策中的属性约简C4.5、RBF-SVM乳腺癌，心脏提高了稳健性、效率和表可行性[第十五条]医学图像的特征选择与分类RBF乳腺癌提高分类准确性阈值模糊熵其中Va称为属性a的值集，称为a的域 f：A/V是一个决定性的函数。BCa;Bx1;：x n 并且，ay1;：：y m，条件条件为B的Da的熵在等式中定义（1）作为在美国。称R为模糊关系，如果R2F为模糊关系，其中R x;y度量nx2θ与y2θ之间的关系强度. 设R是一个关于λ×λ的模糊关系. R是自反的，如果对任意x2∈R，R∈x∈1，nm对称的，如果R≠x;y≠R≠y;x≠，对于任意x;y2≠，且R是T-H_D_a_j_B_ v _x_x_y_y_x_y_y_XiYj. ，jj ×log g. X iYj. ，Xi11/1j1传递的如果对三角模R≥TT和任何x; y; z2π。在热分析中，R称为T-相似性的相互信息的 B 和 Da 是定义为IB;DaHDa-HDajB[21]。2.1.3. 容差粗糙集边界区域中存在的不确定信息通过使用容差粗糙集中的距离度量来确定[11]。这些公差粗糙集是使用特征值的上下近似的相似性度量定义的[39]。传递性约束的放松进一步引入了等价物之间的不相容性，如果R是自反的，对称的和T-传递的。特别是，如果T/ min; R称为模糊等价关系[47]。2.1.4. 相似性度量容差粗糙集方法为每个属性定义了一个相似性度量，其标准度量使用三个关系表示为等式：（2）e（4）如参考文献中所述。[42，20，34]。mRax;y1-ax-ay=amax-amin2lence类。在传统粗糙集中，如果属性值相等，则可以对对象进行等价类分组。在连续数据的情况下，由于以下原因，ax;y噪声，因此这一要求对于连续数据似乎过于严格[20][34];[23]。设F是一个非空论域，F是模糊幂集mRax;yl最大最小值ay-axsa=sa;ax-aysa=sa134C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142ðÞð Þ ¼ ð Þ¼.吉吉ð Þ1/4英尺ð Þ¼ ðÞXð Þ ð ÞBð ÞX½x]其中“a”是所考虑的属性，a max和a min表示所取特征的最大值和最小值，s表示属性的标准偏差，m R a x ;y表示特征“a”的对象“x”和“y”之间存在的相似度。上述三个方程（2）e（4）满足模糊集的两个性质，即方程（2）中的反射性。（5）和等式中的对称性（6）表示为Rx;x15R x; yR y;x62.1.5. 约简与模糊粗糙快速约简属性约简的两个主要目标是从原始数据集中去除冗余特征基因和保持约简特征子集的质量。在大多数应用程序中，信息系统需要以简洁的形式进行维护。原始原始数据集应该使用由初始特征集C的最小子集R表示的约简的概念来最小化地表示，使得对于给定特征集D，gRDgC D 其中g表示依赖度。根据文献，R是极小子集，如果对所有a2R，gR-fagDsgRD.从子集R中移除特征将不可能不影响所述子集R。依赖度一个给定的数据集可能有许多约简集，所有约简集的集合在等式（7）中表示为：Rall<$fjC;gXD< $<$gCD;gX-fagDsgXDg7通过取Rall中所有集合的交集来获得核心约简，并且消除特征变得困难而不引入更多的矛盾的数据集。一个理想的解决方案是确定一个单一的元素的约简，这表示一个约简的最小基数，如方程。（8）作为RminRall：Rmin<$f j2Rall;cY2Rall; j j≤jYjg8模糊粗糙快速约简算法从几个可用的子集中计算最小约简集。模糊粗糙快速约简算法计算模糊不可约性（识别原始数据集中的相似属性），从而消除多余的属性。让DSA是一个决策系统。一个决策系统DS表示为 DS：T;Ad，其中属性。不可约性的概念是粗糙集理论的核心。对于任何BA，有一个相关的不相容性关系INDB，表示在方程中。（9）作为INDB;yjca2 B; fa;xfa; y]9粗糙隶属函数m表示为mB，其中P x2X u和然后，考虑到p1的值和m代表隶属函数，使用公式计算模糊下近似和上近似。当量（12）表示模糊下近似，而Eq.（13）表示模糊上近似。RX¼fY2U= R：YXg12RX<$fY2U=R：Y<$Xsfg<$13<$$>有序对<$RX;RX<$被称为X关于等价关系IND B的粗糙集。等式（12）和（13）也可以被重写，如下面等式（12）和（13）中所表示的。（14）和（15）作为R X ¼.x 2英寸。½x]BX14RX ¼.x2½x]BXsf15集合X关于IND B的下近似和上近似是关于IND B分别肯定属于X和可能属于X的所有对象的集合。在Eqs. （2）计算e（4）和每个属性的正区域。使用lukasiewicz三角范数计算属性集的依赖度，该范数是使用模糊粗糙快速约简（FRQR）算法计算最小约简集的基础。3. 模糊粗糙快速约简算法这项研究工作的主要目标是通过消除冗余基因来识别导致癌症的突出和信息基因，并确定用于识别不同类型癌症的最佳基因/特征子集该算法采用信息增益滤波器对基因进行排序，并采用自定义的相似性度量去除冗余基因，从而实现模糊粗糙快速约简算法。然后，使用随机森林分类器分析减少的特征子集的准确性高维数据存在“维数灾难”问题。因此，降维是大多数高维数据分析的先决条件之一，必须事先进行，以使机器学习过程更有效。应用使用信息增益滤波器的降维技术的一些优点是，它从原始数据集中选择信息特征基因的子集，而不改变在等式（10）和（11）中表示X的性质，减少了模糊粗糙快速约简算法的执行时间，并能有效区分mB：U/½0;1]10mB<$j½x]BXj11..不同的决策类。在模糊粗糙快速约简算法中提出的定制相似性度量的建议框架如图所示。1.一、在我们的早期工作[3]中，我们使用了现有的基于相关的过滤器和改进的模糊粗糙快速约简算法C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142135¼-¼×格奥尔格足球俱乐部¼图1.一、提出了模糊粗糙快速约简算法中自定义相似性度量的框架使用粒子群优化算法（PSO）计算最小约简集。虽然我们以前的工作提供了合理的分类精度，它需要更多的基因。此外，PSO用于降维消耗额外的计算时间。因此，存在减少特征基因的数量和提高分类准确性与减少的计算时间的范围。为了实现上述目标，提出了基于Shannon熵的信息增益滤波器降维算法和模糊粗糙快速约简中的自定义相似性度量算法来计算最小约简集。为了分析所提出的工作的性能，在多个数据集上进行实验，在严格的设置中使用10倍交叉验证，并对所提出的方法进行深入的性能分析。从表9中可以发现，所提出的方法产生更好的分类精度，特征基因的数量较少。由于所提出的方法以下部分介绍了所提出的定制模糊粗糙快速约简算法的最相关方面。3.1. 基于信息增益熵的使用香农熵执行特征排序的过程。信息增益过滤器通过采用下面给出的算法应用于原始数据集。信息增益给定一个决策系统DS_a;C_a_D_a;V;f_a，其中R_a表示通常称为论域的有限属性的非空集合，C_a和D_a分别表示条件属性和决策属性的集合，V是属性域s的并集，V其中，V a称为属性a，称ed为a的域f：A/V是一个决定功能B=Ca;cx2Ca B，属性“x”的增益采用信息增益滤波器进行降维，并提出了自定义的模糊粗糙集增益x;B;DaI Bfxg;Da-IB;Da增益Ax; B;DaAH AH AHB -HADAB BBF xGð16Þ约简算法用于计算最小约简集，与使用基于PSO的技术的早期工作相比，它的计算量较小，而基于PSO的技术的计算量较大。表3所用基因表达数据集的总结如果B<$f;Gainx;B;Da<$H<$Da<$-H<$Dax<$<$I<$fx;Da<$，则每当Gain（x，B，D a）的值较高时，决策属性D a的属性集合B中的属性基于互信息增益的属性选择算法可以描述如下。信息增益的计算步骤如下：输入：让RD表示在数据集基因数量类引用正常化的过程。研发受制于维度减少使用信息增益过滤器。设Ca和D是一组白血病基因表达数据7129 ALL/AML[17，26，28，12，45，5，36]条件属性和决策属性。步骤1. 设B为 f，其中B表示从原始数据集中选择的属性肺癌12533ADCA/间皮瘤[17，28，5]卵巢癌15154肿瘤/正常[17，28，5]136C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142最好ð Þ ¼最好ð Þ ¼1prev表4原始数据集与简化数据集的准确性和基因数量的比较数据集数量获得的基因数量原始数据集上的FRQR降维数据集原始数据集中通过基于香农熵的信息增益（简化数据集）获得的基因数量分类器准确度（%）获得的基因数量分类器准确度（%）白血病基因712910251590.28797.22表达数据肺癌1253349811495.58699.45卵巢癌1515462371297.23999.60步骤2. 条件属性“x”的重要性，Gain（x，而g11prevB，Da）是针对每个属性计算的，x2Ca-BT）C1步骤3. 使增益值Gain（x，B，1prev最好的1/4gDa记为“x”。步骤4. 如果增益（x，B，Da）>0，则B）Bfxg转到步骤2，对于每个x2Ca-C如果g1B>g1BFG否则转到步骤5;CxTT）C=fxg步骤5. 集合B是具有熵最好1/4gTB值>0[21]。输出：基于特征排序的缩减特征子集。熵值为零的所有特征都将被删除。3.2. 利用模糊容差和三角模对信息增益滤波后得到的约简特征子集进行定制的模糊粗糙快速约简。这种方法去除了冗余基因，并产生了一个包含导致不同类型癌症的最突出基因的简化。令B表示信息增益，RD表示原始数据集，g1表示依赖函数。这个函数用来决定属性添加或忽略到当前的reduce集中。该算法的终止条件是，即使在将任何剩余属性添加到当前约简集之后，仍获得依赖的常数值。设Ca和Da表示由RD产生的条件属性和决策属性的集合。注意到了这个算法所产生的子集，或者称之为约简集.这种方法的算法如下所示。B)研发C）fg;g1/40;g/40C)不返回C使用模糊粗糙快速约简算法[16]的自定义相似性度量计算约简集所涉及的不同步骤如下：i) 从CSV文件ii) 列出所有实例iii) 计算决策属性iv) 计算每个属性v) 计算不可分集合vi) 为每个属性创建关系矩阵列表vii) 计算每个属性viii) 计算依赖度3.2.1. 计算模糊不变性模糊不可约性是FRQR算法求最小约简集的关键概念。特征之间的相似度可以通过不相容关系的概念来确定。例如，相似度介于0和1之间。如果R xa;xb0，则两个特征是不相似的，如果R xa;xb1，则两个特征是相似的，并且中间值表现出某种程度的相似性。模糊不相容性的计算是使用各种方法，即模糊容差，等价和T-等价关系。本文提出了表5白血病、肺癌和卵巢癌基因表达数据集的统计参数数据集相似性度量选择的属性数分类器准确度（%）精度召回F-measureTPFNFPTN白血病参考文献[42]中提出的相似性度量894.440.9490.9440.943210447建议的相似性度量797.220.9720.9720.972231246肺癌参考文献[42]中提出的相似性度量797.240.9720.9720.9721491427建议的相似性度量699.450.9950.9940.9951490131卵巢癌参考文献[42]中提出的相似性度量997.230.9730.9720.9721611685建议的相似性度量999.600.9960.9960.9961610191SGGG1C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142137¼ ðÞ1/4英尺表6白血病基因表达数据、肺癌和卵巢癌基因表达数据集的FPR、TPR值数据集相似性度量在Ref.[42]自定义相似性度量（建议方法）TPRFPRAUCTPRFPRAUC白血病基因表达数据0.9440.0670.9190.9720.0410.985肺癌0.9720.1080.9880.9940.0010.999卵巢癌0.9720.1060.9900.9960.0021.000表7与其他研究人员进行的类似工作进行比较材料和方法混合数据中的特征选择：一种使用基于模糊粗糙集的信息熵的方法[47]基于阈值模糊熵的医学数据库分类特征选择[15]我们建议的工作使用的数据集，括号中为特征/基因数量SPECT（22），脑电成像（18），启动子基因序列（57），动物园（16），葡萄酒（13），天秤座运动（90），威斯康星州预后乳腺癌（33），威斯康星州诊断乳腺癌（30），马绞痛（22），Statlog（13），信贷批准（15），德国creditdata（20）医学数据集-威斯康星州乳腺癌（9），皮马印第安人糖尿病（8），心脏- Statlog（13），肝炎（19）和克利夫兰心脏病（13）微阵列基因表达数据集e白血病基因表达数据（7129），肺癌（12534），卵巢癌（12534）癌症（15154）本文的主要研究重点基于模糊粗糙集的信息熵模糊熵FRQR与定制的相似性度量与基于香农熵的信息增益降维最终约简集中特征基因的平均数量（括号中）SPECT（1），脑电成像（5），启动子基因序列（1），动物园（4），葡萄酒（6），天秤座运动（15），威斯康星州预后乳腺癌（1），威斯康星州诊断乳腺癌（3），马绞痛（4），Statlog（7），信贷批准（2），德国creditdata（7）医学数据集-威斯康星州乳腺癌（6），皮马印第安人糖尿病（4），心脏- Statlog（7），肝炎（12）和克利夫兰心脏病（8）微阵列基因表达数据集e白血病基因表达数据（7），肺癌（6），卵巢癌（9）使用的分类器和报告的分类器准确度LSVM（80.16），KSVM（83.67）、CART（79.83）RBF网络（86%）随机森林（98.76）通过使用如（22）中列出的定制的相似性度量来计算不相容性关系。3.2.2. 使用建议的相似性度量设一个信息系统的表格表示为：宇宙，被称为话语的宇宙，表示有限数量的对象，这些对象是一个宇宙的一部分非空集，C a表示属于非空集的属性的有限集，使得Ca：对于每个x2C a，集合Vx是属性' x '可以采用的值的集合一个信息系统将自己转变为一个决策系统，如果它包含每个对象的决策属性。它表示为CaA; Ca，其中Da;Ca表示决策属性。获得条件属性表8与UCI数据集的比较数据集名称数量的特征[16个]该方法在原始数据集中选择的要素数量分类器精度选择的要素数量分类器精度酒13695.88597.3SPECTF44875.97276.56声纳601274.47576.38PIMA印度糖尿病8775.46478.26138C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142ð≤ ≤ Þð Þð Þ ðÞP一.ΣX2=Q表9特征选择方法e基因数量和分类器准确度e比较（括号中表示特征子集大小特征选择方法白血病基因表达数据肺癌卵巢癌CFS-LFS[1]95.83（52）98.81（163）99.47（36）CFS[2]93.10（113）96.94（274）97.62（641）PLSDR[26]97.1（20）ee[第28话]94.1（35）91.2（34）98.8（26）[第12话]91.5（3）eeIWSS[45]94.4（8）eeBDE-SVMrankf[17]82.40（6）98.00（3）95.00（3）[45]第四十五话97.1（7）eeDRF 0[5]91.18（13）98.66（17）一百（十六）IRLDA[36]九十七（七十二）eeCFS-PSO-FRQR[3]92.59（10）98.07（7）98.88（9）BDE-SVMrank[17]82.4（7）98（3）一百（三）相似性度量94.44（8）97.24（7）97.23（9）在Ref中提出。[第四十二届]定制相似度97.22（7）99.45（6）99.60（9）测量（建议方法）粗体表示我们提出的方法产生更高的分类精度相比，文献中可用的方法作为C的一部分。特征P的子集诱导表示为RP的模糊相似关系在Eq. （十七）：mRx;yRx2PmRx;yRx17P调整了模糊相似度量和三角模的等价类。当考虑一个以上的特征时，必须将所定义的相似性组合起来，以便可以测量不同基因之间表现出的总体相似性。对于特征子集P，可以使用（18）和（19）[20，34]以两种不同的方式实现;即：当YSIMax; y≥t18时，的a2p当XSIMax; y=j Pj≥t<$19时，的a2p其中T被称为全局相似性阈值，其确定包含在容差类内所需的相似性水平。由对象x的给定相似性关系生成的公差类在（20）中定义为：在Eq. （22）满足模糊集的两个性质，即自反性（等式22）。（5）对称性（Eq. （6））。3.2.3. 基于模糊下近似的特征选择利用三角范数（t-范数）和蕴涵算子推广了下近似。lukasiewicz模糊蕴涵器由等式表示。等式（23）和等式（24）的Lukasiewicz t-范数为最小值1-x1x2;1磅23磅最大值xy-1;0 24模糊集A的模糊B-下近似在Eq中给出。（25）作为RBYARBYA表示必然属于特定集合的元素的集合，并且被称为具有强成员关系。3.2.4. 正域设P和Q是环上的等价关系，则正区域由（26）定义为：mPOSRPQmRPXx26模糊相似关系用RP表示，RP是由P表示的特征子集导出的。P中的特征信息用于判断属性是否落入正区域，前提是它们具有足够的信息来显示不可区分性。3.2.5. 依赖度确定特征间的依赖关系是使用FRQR计算最小约简集的关键任务。如果P完全依赖于Q，则称两个属性P和Q对于P;Q<$C，Q依赖于P的度为k0k 1，记为P0kQ;如果klpQXmPOSRPQx，jj27存在于条件和SIM P;txP;t2019年12月20日决策属性用lpQ表示，称为逼近质量。k的值mRP x;y 对象的 x;y 表示相似在x和y之间使用RP的属性值。经典定性属性的不相容关系定义在（21）作为如果R xR x，则mx;y f为1，如果RxR y g，则mx;y fdependency值，它位于0和1之间。的值0表示无依赖性，1表示完全依赖性。0到1之间的任何值都表示部分依赖性。3.2.6. 最小约简集的计算RPP PP Pð21Þ分类x2mmC. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142139一依赖性值的变化决定了信号的大小。我们所有数据集的模糊相似性度量使用（22）表示为mR =x;y= 1/2。1-ab s。.a. x2个单位a。y2-2×ax×ay22属性的重要性。每当属性被添加到约简集中时，依赖值的变化都会被计算出来。如果改变更多，则特征的重要性更高，否则它将从缩减子集中被丢弃。让减少140C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142将所提出的自定义相似性度量应用于属性选择之后将获得的特征子集由C表示。使用C语言，对随机森林分类器进行了应用和分析，预测了分类准确率、精确率、召回率、F-测度和特征区域。在微阵列数据中，一个通常且适当的度量是分类器的准确性。这可能会受到影响，因为事实上，微阵列数据包含非常少的训练和测试样本。这个问题可以通过使用10倍交叉验证策略来解决，该策略分类准确度通过对从10个不同子集中的每一个获得的估计进行平均来计算[38];[7]。4. 实验结果与讨论使用R开源软件包进行特征选择，使用随机森林分类器进行分类对该方法的分类准确率、查准率、查全率、F测度和特征区域等统计参数进行了分析和评价。4.1. 数据集描述使用从Kentridge生物医学知识库下载的白血病、肺癌和卵巢癌基因表达数据集分析和评估了所提出方法的各种统计参数，如分类准确率、精确度、召回率和特征区域。表3显示了用于本研究的基因表达数据集急性淋巴细胞白血病（ALL）是一种起源于未成熟淋巴细胞的癌症。急性髓性白血病（AML）在骨髓而不是淋巴细胞中开始发展，并迅速进入血液。有58例ALL和14例AML。二进制数据集由72个样本中的7129个基因组成。肺癌是一种由肺组织中不受控制的细胞生长引起的恶性肿瘤。收集两类肺癌，即ADCA和间皮瘤样品，编号为245。间皮瘤样品含有超过50%的肿瘤细胞，并且ADCA由转移性和原发性恶性肿瘤组成，取自结肠和乳腺。在合适的试剂的帮助下，使用肿瘤块来获得总RNA。使用探针阵列进行cRNA的杂交。由于很少有样品（64个）显示伪影，因此将其丢弃，并将181个样品用于进一步分析[9]。肺癌基因表达数据集由取自181个患者样本（150个腺癌样本和31个恶性胸膜间皮瘤样本）的12 533个特征基因组成。卵巢癌的早期症状是什么？这些异常细胞有更高的机会扩散到身体的其他部位。卵巢癌基因表达数据集由来自253个样本的15154个特征基因组成。有162例癌性样本和91例正常样本。所有三个二进制数据集都由原始数据组成。4.2. 性能分析最初，原始数据集在[-11]的尺度上进行归一化。通过对癌症微阵列基因表达数据进行的实验获得的原始数据集由各种范围的基因表达水平组成。对属性数据进行归一化处理，使其符合一个特定的范围，例如[-1，1]，并对归一化后的数据集进行降维和特征选择。模糊粗糙快速约简（FRQR）算法应用于原始数据集和降维数据集。结果列于表4中。可以推断，与应用于降维数据集的特征选择方法相比，所选择的特征基因的数量和分类器准确度较小。冗余度约简服务于两个目的，即去除冗余基因和提高分类精度。因此，使用信息增益方法对原始数据集进行降维。下面的表4示出了在使用基于香农熵的信息增益滤波器的降维处理之后获得的特征基因的数量。已经在三个二元癌症微阵列基因表达数据集上进行了合适的实验，即白血病、肺癌和卵巢癌基因表达数据集。用随机森林分类器对白血病、肺癌和卵巢癌基因表达数据的分类准确率分别为86.11%、81.94%和92.89%。类似地，分类精度计算的降维数据集。对白血病、肺癌和卵巢癌基因表达数据集的预测准确率分别为88.89%、95.03%和94.86%。利用文献[1]中提出的相似性测度进行了实验。[42，20，34];和我们提出的定制相似性度量。建议的特征选择方法，使用自定义的相似性度量分类使用10倍交叉验证策略的随机森林分类器。白血病、肺癌和卵巢癌基因表达数据集获得的结果列于表5中。对各种统计参数进行了分析和列表。它们包括精确度，召回率，F-测量，真阳性（TP），真阴性（TN），假阳性（FP）和假阴性（FN）。相关性度量可以用三个基本参数即查准率、查全率和F-度量来很好地理解。它们被广泛用于搜索策略的评估。精确度是检索到的相关实例的分数，召回率或敏感度是检索到的相关实例的分数[3]。F测度在统计学中被广泛用于获得测试准确度的准确度量。精确率、召回率和F-度量分别使用（28）、（29）和（30）中给出的公式计算。精密度¼TP= 10TP/10FP/28 mm重新调用¼TP=TPFN 29C. Arunkumar，S.Ramakrishnan/Future Computing and Informatics Journal 3（2018）131e 142141F-measure<$2×precision×recall<$1 =precision <$recall<$1ð30Þ4.3. 基于ROC曲线的比较此外，还绘制了所有三个研究数据集的特征区域（ROC）。可以使用ROC图可视化分类器准确度度量的附加概念信息。计算FPR和TPR的公式在下面的（31）和（32）中给出：FPRz FP=TN FP31TPRzTP=TPFN32FPR和TPR值列于表6中，如下所示，用于白血病、肺癌和卵巢癌基因表达数据集，其中FPR表示假阳性率，TPR表示真阳性率。曲线下面积（AUC）是基于概率分布的概念，从ROC曲线产生单个值它表示随机选择的阳性样本被分类器排名高于随机选择的阴性样本的概率[17]。下图中的x轴表示FPR，y轴表示TPR。在图1A和1B中绘制了白血病基因表达数据和肺癌数据集的ROC曲线。2e 5。卵巢癌数据集也得到了类似的结果。4.4. 与最先进的特征选择方法的比较当我们提出的工作与“混合数据中的特征选择：一种使用新的基于模糊粗糙集的信息熵的方法“和“基于阈值模糊熵的特征选择用于医学数据库分类“进行比较时，注意到以下关键区别，比较需要注意的关键推论如下：所引用的论文集中在低维的医学/其他数据集，而我们的研究工作集中在高维的癌症微阵列基因表达数据。图二.白血病基因表达数据集的[42].图三.针对白血病基因表达数据集的ROC曲线，提出了自定义的相似性度量。由于我们的数据集本质上是高维的，在计算最终约简集之前，使用基于香农熵的信息增益滤波器对归一化数据集进行降维，以减少计算时间。我们提出的自定义相似性度量方法减少了

下载后可阅读完整内容，剩余1页未读，立即下载