没有合适的资源?快使用搜索试试~ 我知道了~
i本文的最新情况见最后医学信息学解锁18(2020)100288基于特征E_X牵引模型的神经模糊医学疾病分析HimansuDas a,*,Bighnaraj Naik b,H.S. 贝赫拉aa Veer Surendra Sai University of Technology,Burla,Sambalpur,768018,Odisha,IndiabVeer Surendra Sai University of Technology,Burla,Sambalpur,768018,Odisha,IndiaA R T I C L E I N F O保留字:疾病分类机器学习神经模糊特征提取A B S T R A C T由于数据的性质,使用机器学习算法进行医学疾病分类是一项具有挑战性的任务,这些数据可能包含不完整,不确定和不精确的信息。数据集中此类信息的可用性影响分类模型的性能。在本文中,一个语言的神经模糊与特征EX牵引(LNF-FE)模型用于分析的医疗数据的疾病分类。最初,该模型使用语言模糊化过程来生成处理不确定性问题的隶属度值。这些成员值可能对模型没有显著贡献,但它会增加维度,因此需要更多的时间来训练模型。为了解决这个问题,特征EX牵引(FE)算法在神经模糊(NF)模型中混合,以仅提取那些对网络有显著贡献的特征(减少的特征集)。这些减少的功能再次传递到人工神经网络(ANN)模型进行分类。该模型通过8个基准数据集进行了测试和验证,并与其他模型的性能进行了比较。所得到的结果进行了测试,使用统计技术,如弗里德曼和霍尔姆-邦弗罗尼的正确性证明。这个实验分析表明,我们提出的模型优于其他模型解决现实世界的问题。1. 介绍医疗数据分析是一个敏感的问题,需要正确的预测,检测和分析的疾病。因此,必须开发和使用适当的机器学习[1]分类算法,以准确有效的方式正确检测和诊断疾病。近年来,由于机器学习越来越多地使用计算密集型方法,准确有效地分析此类医疗数据已经在机器学习领域中产生了革命。尽管如此,仍然存在许多临床问题,例如仍然需要解决准确、可靠和大多数医学数据集包含噪声,不相关,冗余和不完整的信息,这可能会降低分类模型的性能分类器的性能(疾病预测)取决于医疗数据的质量和分类过程中使用的模型因此,利用分类器对敏感的医学数据进行正确、准确的分析,对疾病的预测和诊断分类[2-它构建了一个模型从数据中准确地预测目标类别到不同的类别级别。有许多这样的独立分类算法,例如人工神经网络(ANN)[7],由于收敛速度慢,局部最小值,本质上的黑盒以及复杂问题的低灵活性,这些算法在准确性方面可能并人工神经网络是一种高度并行的计算模型,具有自适应和自学习能力,但由于其庞大的并行结构,需要更多的时间来预测结果。人工神经网络不适合处理某些问题,如模糊和不精确的数据,不确定性问题可能会出现在任何阶段的分类过程。为了解决这个问题,模糊逻辑(FL)[8]用于将数字输入特征转换为相应的语言术语(低,中,高)。在这个模糊化过程中,每个输入特征都被转换成基于语言属性(如低、中、高)的相应隶属度值。类似地,从输入特征中提取所有语言特征(输入特征数量的三倍)。FL也适合于处理不确定性问题,通过确定不同的语言术语的隶属度值有各种混合模型,包括自适应神经模糊推理系统(ANFIS)[9],继承了ANN和FL的特性ANN学习网络* 通讯作者。电子邮件地址:gmail.com(H. Das),mailtobnaik@gmail.com(B. Naik)、hsbehera_india@yahoo.com(H.S. Behera)。https://doi.org/10.1016/j.imu.2019.100288接收日期:2019年9月22日;接收日期:2019年12月22日;接受日期:2019年12月28日在线预订2019年2352-9148/©2020的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuH. Das等人医学信息学解锁18(2020)1002882�- 是 的 -是的-是 的-是 的-是的Σ¼它从数据中获取知识,并相应地采用网络,但它不能解释数据中的知识。相反,外语不能从数据中学习,但它可以很容易地解释语言术语而不是数值。语言变量是通常与隶属度相关的词。ANFIS模型使用高斯隶属函数将清晰值转换为模糊值。该隶属度值被发送到连接到推理模型的基于规则的ANN模型。输出(语言值)通过使用解模糊化过程转换为清晰值。然而,由于基于规则的系统,训练这个模型需要更多的时间。生成正确的规则集来预测输出也很重要。为了解决这个问题,杂交模型的另一种变体称为神经模糊模型(NF)[10,11],它混合了ANN和FL的优点,以解决不确定性和不精确的输入信息问题。Jenkins等人[12]开发了一个模型,其中每个特征都是基于语言属性的模糊值。除此之外,NF [13,14]模型的一些其他变体也用于疾病分析。NF模型[15-参考文献[20]中概述了NF模型对两个现实问题的比较研究。几种其他技术的混合也应用于各种应用中,例如生物医学信号处理[21],云优化[22,23],预测[24]和医疗保健[25在模糊化过程中,NF模型将输入的特征信息转化为语言变量的隶属度值。模糊化矩阵的隶属度值被传递到ANN以预测疾病。该模型的主要缺陷是模糊化过程将特征空间增加了三倍,这使得模型更加复杂。所有模糊化的隶属度值也可能对模型没有显著贡献。可能存在一些模糊化特征,这些特征包含在模型中处理之前需要丢弃的不相关或冗余信息。这些消除的丢弃模糊化特征可以增加模型的疾病预测准确性。它还可以同时减少问题的计算成本。这促使我们通过提取对疾病预测模型没有贡献的不重要特征来消除现有NF模型的缺点在这方面,特征提取(FE)算法[31有几种特征提取技术在预处理阶段成功地应用于原始特征,以获得减少或变换的特征。这些减少的特征被传递到任何分类模型进行预测。该过程的主要缺点是由于丢弃了一些完整的变换特征而丢失了一些信息。在预处理阶段丢弃的特征可能包含一些重要信息。这种变换特征的丢失可能导致信息的丢失。为了解决这个问题,我们在NF模型中使用了特征提取技术,而不是丢弃完整的特征。它允许所有特征参与模糊化过程。该模糊化过程将确定重要或不重要的模糊化特征。所有变换后的特征可能具有一些重要的以及不重要的模糊化特征。重要的模糊化特征可以仅包含不相关的或冗余的模糊化特征。因此,必须允许所有重要的模糊-zified特征参与分类过程。在Fuzzi-在NF模型的模糊化过程中,它只考虑那些可能对决策有重要贡献的处理不确定性问题的隶属度值。这种语言模糊化过程增加了维度。然而,所有的成员值可能并不总是对模型有显著的贡献。因此,必须应用FE算法,该算法将在疾病预测之前丢弃一些不重要的模糊化特征。在本文中,FE算法,如集成成分分析(ICA)和主成分分析(PCA)被用来选择只有那些功能,显着贡献的模型。这些显着的模糊化减少功能从FE算法产生的再次传递到疾病分类的ANN模型仅存在它提高了疾病预测的准确性,并降低了模型的计算成本,因为从模型中删除了不重要本文的其余部分组织如下:初步概念(语言模糊化过程和PCA)在第2节中描述。第3节描述了拟议的LNF-FE模型的工作原理与Pima印度糖尿病数据的疾病分类。实验结果分析见第4节。第5节描述了所有模型的统计分析。最后,第6节总结了本文的研究工作的未来范围。2. 材料和方法本节详细介绍了语言模糊化过程和主成分分析等组成部分的工作原理2.1. 语言模糊化过程在这个模糊化过程中,输入模式的每个特征被转换成其相应的隶属度值,相对于三个语言隶属度函数,如低,中,高。在这里,使用了一种新的隶属度函数来计算输入模式的每个特征的隶属度值。由于这种语言模糊扩展,与原始输入特征相比,特征的数量被扩展为相应的语言隶属度值(三倍)详细的模糊化过程描述如下。令数据集D,数据集D的所有特征的第i个模式为在Eq. (一).Pi½Fi;1;Fi;2;:;Fi;n;�( 1)第i个图案的第j个特征的隶属度值表示为Fi;j可以通过使用等式(1)表示。(二)、在这里,使用了一种新的隶属函数来从原始的输入特征中获得语言属性. 该模糊隶属函数根据低、中、高等语言属性,将原始输入特征转化为相应的模糊化值。类似地,第i个模式的所有特征都包含3n个模糊化特征,其中n是数据集中可用的输入特征的数量,如等式2中所述(三)、这里,项μlow_fi;j_i、μmedium_fi;j_i和μhigh_fi;j_i分别表示第j个特征的第i个模式相对于诸如low、medium和high的语言属性的成员值。Fi;j 1/2μ低。fi;ji; μmedium. fi;ji; μhigh. fi;ji;j过程对模型贡献不大的模糊化特征应该被丢弃,以减少模型的计算时间,而不是使用完整的输入特征集。Piμ低 f1;i ;μmedium f1;i ;μ高 f1;i ;μlow f2;i ;μmedium f2;i ;μ高。f2;i= 0;:; μ low.fn;in; μ medium.fn;in; μ high.fn;i(三)本研究工作的目的是提出一种新的混合模型称为语言神经模糊与特征EX牵引(LNF-FE)模型的混合NF模型与FE算法的医疗疾病分类。该模型简单地丢弃了不重要的模糊化特征,使模型更加简单和鲁棒。在该模型中,使用语言模糊化过程来计算模糊化的最后,所有的输入模式的特征被转换成相应的模糊隶属度值的基础上的三个语言模糊变量,如低,中,高。五种情况下乳腺摄影肿块数据集的这些扩展模糊隶属度值是根据相应的语言学类型隶属函数计算的,并在表1中列出。同样,任何数据集都可以H. Das等人医学信息学解锁18(2020)1002883�被建模以从关于语言属性的任何输入模式计算模糊化隶属度值。2.2. 主成分分析在语言模糊化过程之后,输入特征的维度被扩展到原始特征数量的三倍由于输入特征的语言模糊扩展,模型的复杂性增加。为了解决这个问题,PCA用于提取对模型有显著贡献的特征。它只是丢弃不相关或冗余的模糊化特征,只传递那些对模型有重要贡献的特征。在这里,我们已经解释了PCA的工作原理,从原始输入特征中提取重要的模糊化特征。设一个扩展的模糊化特征矩阵X称为计算数据集的每个特征的平均值然后从每个特征中减去该均值。此后,计算协方差或相关矩阵X。接下来我们从协方差矩阵X中计算特征向量和相应的特征值.PCA通过使用如等式(1)中所示的本征分解来测量(4)Eq. (五)、E¼.FT�F�mm(4)�(5)这里,E是特征向量,其中E的每一列表示由特征值(λ)排序的主成分。主成分基于特征向量按特征值的降序排序,并形成特征向量。由于空间限制,计算了乳腺摄影肿块数据集的模糊化矩阵的主成分,并在表2现在,我们必须从E矩阵x中选择包含第一个'r'列的Er矩阵X它包含矩阵x E的第一个“r”的值解释的成分决定了对模型有贡献的每个主成分(PC)的显著性。在本例中(乳腺摄影质量数据集),表2中显示了15个PC。各分量的解释方差分别为45.245、12.454、9.917、7.658、6.837,5.808、4.995、4.126、1.867、1.037、0.034、0.013、0.009、0和0。这解释方差决定了模型中每个PC的显著性在此,基于解释的方差得分,诸如PC11、PC12、PC13、PC14和PC15的PC不太因此,有必要消除这些PC,以使模型更鲁棒并减少表1乳腺摄影肿块数据集的模糊化矩阵(5个实例)。计算成本最后,包含重要特征的变换矩阵X(Tr)由等式(1)计算。(6).��该变换后的矩阵包含对网络有高度显著贡献的简化特征,并被输入到用于疾病预测的ANN模型。在该示例中,考虑通过ANN模型对PC1至PC10进行分析,因为这些PC贡献了99.944%的信息。它只是在疾病分类的ANN模型中处理之前将PC11降至PC15。3. 提出了一种基于语言模糊神经网络的特征提取模型在本节中,提出了一种称为LNF-FE的新混合模型来预测医疗数据的疾病该模型将语言神经模糊模型与特征提取技术相结合。该LNF-FE模型分为三个阶段:(1)模糊化过程,(2)特征提取过程和(3)ANN过程,如图所示。1.一、最初,该模型将输入特征扩展为其相应的语言值。所有这些语言价值在决策过程中并不总是有用的。其次,通过特征提取算法从扩展特征中提取重要特征(约简特征)。最后,减少的功能传递到疾病预测的ANN模型。上述步骤的详细流程图如图所示。 二、在本文中,通过使用几个基准生物医学数据集,考虑了几种疾病[38对于癌症疾病分析,每个患者都属于一种疾病状态,例如良性和恶性。良性肿瘤是一种非癌性的乳腺情况,其中通常注意到乳腺组织的异常生长或变化这种疾病主要发生在女性中,但也可能发生在男性中,症状通常与乳腺癌引起的症状相似。类似地,恶性肿瘤是从乳房中的细胞开始并可能逐渐生长到人体周围组织除此之外,乳房X光检查也是筛查乳腺癌疾病的最有效方法人体有时包含可疑的肿块,可能是癌性的,也可能通常,活检的高阳性值导致恶性结果和手术建议接受乳腺癌手术的患者的存活率人体的另一个关键部位是肺。一般来说,肺癌是一种恶性肺部肿瘤,可能由于大量吸烟而发生,但不吸烟的人也会受到这种疾病的影响肺癌特征隶属度值实例-1实例-2实例-3实例-4实例-5BI-RADS低00.108900.10890介质0.22220.77780.22220.77780.2222高0.99780.89110.99780.89110.9978年龄低0.17390.90940.45980.9820.0458介质0.86850.74230.99870.13150.62高0.82610.09060.540200.9542形状低0.10890.8200.820.82介质0.77780000高0.891100.8200保证金低00.8200.820介质00000高0.8200.8200.82密度低0.10890.10890.10890.10890.1089介质0.77780.77780.77780.77780.7778高0.89110.89110.89110.89110.8911H. Das等人医学信息学解锁18(2020)1002884�¼FGΣΣ¼�肺气肿是一种导致肺组织异常生长的疾病,人的呼吸能力会因此而降低。这种疾病最常见的症状是咳嗽、咳血、体重减轻、胸痛和呼吸急促。类似地,心血管疾病可能由于血管中的有限流动或阻塞而发生,这可能导致中风、心脏病和其他心脏疾病在这种情况下,心脏可能无法泵送足够的血液通过身体,使大脑,心脏,肾脏和其他器官可能会失败。当血液流向心脏由于血凝块而被阻塞时,可能发生心肌梗死。甲状腺疾病也是常见的由于激素紊乱。甲状腺产生的激素可以加速新陈代谢。甲状腺疾病的主要问题是甲状腺功能亢进和甲状腺功能减退。在甲状腺功能亢进状态下,身体向血液中释放过多的甲状腺激素,而在甲状腺功能减退状态下,甲状腺激素不那么活跃,并向血液中释放少量的甲状腺激素人体的另一个关键器官是肝脏,其主要功能是消化血液,储存维生素和产生激素。然而,这种肝脏与一些疾病有关,如肝脏疾病和肝炎。肝脏疾病用于分析可能由于过度饮酒而发生的肝脏疾病。同样,肝炎是由感染引起的肝脏炎症肝炎干扰了这一过程,并造成了许多困难。另一种常见疾病是糖尿病,它也是一种以高血糖为特征的慢性疾病在这项研究中,皮马印度糖尿病(PID)数据集被用来分析了LNF-FE模型。同样,所有数据集也被建模用于分析。PID数据集包含768个实例,具有8个特征,例如妊娠(P)、血糖(G)、血压(BP)、皮肤厚度(ST)、胰岛素(I)、BMI、糖尿病谱系功能(DPF)和年龄(A)。为了从其症状预测糖尿病,LNF-FE使用语言模糊化过程将原始特征转换为相应的语言隶属度值。语言隶属度值的这种扩展增加了模型的计算成本。为了克服这个问题,PCA被用来降低维数的语言模糊化矩阵,通过消除不重要的功能。随后,将该减少的矩阵再次传递到ANN模型以预测糖尿病。所提出的PID数据集的LNF-FE模型的详细工作过程描述如下。令PID数据集表示为X1/2Pi;Gi;BPi;STi;Ii;BMIi;DPFi;A i,其中P i是第P个特征的第i个实例的值。这里我1; 2;:; 768表示PID数据集的实例数关于特征Pi的低、中和高隶属函数的语言隶属度值通过使用等式(1)来计算。(7)。类似地,PID数据集的所有特征都是通过使用当量(7),并通过使用Eq. (八)、EFi¼½μLPi;μLGi;μLBPi;μLSTi;μLIi;μLBMIi;μLDPFi;μLAi( 8)扩展要素的第i个实例(EFi)包含的隶属度值是原始输入要素数的三倍。这种扩展的特征集增加了模型的复杂性,并且需要更多的计算时间来训练模型。为了解决这个问题,FE算法用于通过仅提取相关特征来使分类过程更快。在这里,FE算法,如ICA和PCA被用来将扩展的输入特征转换成相应的约简特征。在该步骤中,将该模糊化的扩展模糊矩阵XEF用作FE算法的输入以降低特征的维数。假设模糊化扩展隶属度矩阵x EF i的上述第i个实例具有q个扩展特征EF i=F i;1;F i;2;:;F i;qi,其中q3n,并且n是中可用的特征的数量。原始数据集模糊化扩展隶属度矩阵X的协方差矩阵X通过使用等式2计算。(九)、表-2乳腺摄影肿块数据集的主成分(仅适用于五个实例)。PC10.7333PC30.2034PC20.2825PC5PC4PC60.4185PC7PC9PC8PC100.0019PC11PC120.0075PC13PC14000000PC15000000-0.4707实 例 -1 实例-2实例-3 实 例 -4实例-5EX解释方差(%)-0.4589-0.0364 -0.0699-0.1863-0.032-0.0002-1.0377-0.19720.0854-0.42460.1454-0.02630.09240.1563-0.05870.0384-0.00260.002-0.00230.00520.7454-0.4306-0.1204-0.2232-0.22060.13710.06-0.2436-0.0630.0111-0.02990.006-0.0034-1.1165-0.4781-0.36260.1110.23916.8370.1425-0.41860.21760.0616-0.01780.0011-0.00270.00880.00490.0090.191445.245-0.51220.696312.454-0.1786-0.6951-0.3669-0.0493-0.0767-0.0066-0.0350.00610.0137.6589.9175.8084.9951.867 4.1261.0370.034H. Das等人医学信息学解锁18(2020)1002885��¼ΣΣEF1/4米1/1 Fi; j-μF i; jFi; j-μF i; j. !1 Xm ..快! ..快!不Fig. 1. LNF-FE模型实验中需要保留的成分to model模型and dataset数据集to dataset数据集.该决定将由程序员在进行实验时手动做出。这里,μFi;j是特征Fi;j的样本均值,m表示要考虑的样本协方差矩阵X(cmi;j)的分量表示特征Fi和Fj设r为主轴的个数,如A1;A2; A1;A2这里,r的值位于范围1r q中,其中方差在投影空间中最大。每个特征的平均值的模糊化的神经网络-将bership矩阵X计算为μFi;ji,其中i1; 2;jm和j1; 2; j m;Q.这里,i和j分别表示数据集的实例数和特征数。从每个数据维度中减去每个特征的平均值,以产生平均值为零的数据集协方差矩阵X是一个对称矩阵,它的特征值(αj)和特征向量(Aj)很容易计算.本征向量Aj和相应的本征值αj通过使用Eq. (十)、�P于我��( 10)这里,j1; 2; r;r是可以通过使用等式(1)导出(11)并且可以由相应特征向量的特征值的降序来表示在这里,我们使用PCA计算了不同的主成分及其贡献百分比,通过查看主成分手动确定。贡献大幅减少的主要成分已被剔除。校长人数Xj<$AT�Pj;1;xj;2; n;xj;r<$AT�Pj(11)类似地,通过模糊化过程和特征缩减过程对其他数据集进行建模和处理,以生成缩减的模糊化矩阵,该缩减的模糊化矩阵被传递到用于疾病分类的ANN模型。该步骤的输出是简化矩阵X(X),其包含来自分类决策过程所需的输入特征的相关信息。在第三步中,将该简化矩阵作为输入传递给ANN该减少的模糊隶属矩阵被传递到ANN模型以预测疾病。具有反向传播学习的人工神经网络(ANN-BPN)模型的详细工作过程用于如下所述的分类过程。该网络使用简化的模糊化矩阵作为输入到该ANN分类器进行疾病分类。在这个网络中,输入层的所有权重都完全连接到隐藏层。隐藏层的权重也完全连接到其他隐藏层以及输出层。最初,所有这些权重都被分配了0和1范围内的随机权重。输入层中可用的节点数等于约简模糊化矩阵X中可用的特征数。输出层中的节点数等于数据集中可用的类标签数。隐藏层中可用的节点的数量通过使用Eq. 其中,input_nodes、hidden_nodes和output_nodes分别表示输入节点、隐藏节点和输出节点的数量。CM¼覆盖率�(九H. Das等人医学信息学解锁18(2020)1002886X¼ðnn;¼;;在前馈步骤中,基于约简的图二. 提出的模型的详细流程图。hiddennodes; hiddennodes;hiddenn模糊化矩阵X输入信息,通过根据分配的权重求和并通过添加偏差来计算净输入。在数学上,第n个神经元的净输入的性能可以表示为等式1。(十三)、这里,n是隐藏层中神经元的最大数量。RU n¼B n��第1页这里,Bn是第n个神经元的偏置,Xi1/2xi1;xi2;Xi 1/2x ir1是简化模糊化矩阵X的输入模式,Wi 1/2wi;1;wi;2; Wi 1/2wi;r1是第n个神经元的连接权重,Un是第n个神经元的净输入。网络类似地,计算每一层的净输入,并将S形激活函数应用于不同连接层之间的输出计算。输出层的输出是通过使用方程中描述的S形激活函数来计算的。(十四)、这里,φ是sigmoid激活函数,On是神经元的输出。Oφ U一( 十四)1e-Un在反向传播步骤中,通过用目标输出减去实际输出来计算误差,并且误差在等式(1)(十五)、ErroriTargetoutputi-Actualoutputi(15)其 中 ,i1; 2; n;m 表 示 数 据 集 的 实 例 数 。 因 此 , 均 方 根 误 差(RMSE)可以通过使用等式(1)来计算H. Das等人医学信息学解锁18(2020)10028878我-�(十六)、RMSE<$rffiEffiffirffirffiffioffiffirffiffiiffiiffi2ffi(十六)表36个型号的分类精度数据集准确度(%)类似地,在学习过程中通过计算网络中权重的变化来调整不同层之间的连接路径的权重,其中α是范围为[0,1]的学习率。ANN ANN-ANN-LNF LNFLNF-ΔWeight¼ -α�(十七)输出量网络的新权重和偏置可以通过使用等式(1)来计算。(18)Eq. (十九)、新重量/旧重量/Δ重量( 18)新偏差/旧偏差/Δ偏差( 19)这个过程重复多次,以最小化网络的均方根误差,或者直到达到停止标准。类似地,任何数据集都可以被建模用于疾病预测。4. 结果本节通过使用以下方法显示六种分类模型的性能,例如ANN、ANN-ICA、ANN-PCA、LNF、LNF-ICA和LNF-PCA。8篇医学论文这些医疗数据集是从Kaggle和UCI机器学习库中收集的[46]。这些医疗数据经过预处理(数据清理和数据转换),以使原始数据有用。医疗数据可能包含不相关和缺失的信息。为了处理这些问题,使用数据清理(缺失值插补)技术来填充缺失的信息。在这个实验中,我们通过在数据清理过程中放置属性的平均值来填充缺失值。类似地,医疗数据可能包含难以在模型中处理的若干范围中的属性。在本实验中,我们使用MinMax归一化技术将这些医疗数据归一化并转换到特定范围(0.0-1.0)。Z分数技术用于检测;如果Z分数大于3或小于3,则删除离群值。在实验中,数据集的实例被分为两部分,即训练集和测试集,分别占75%和25%的实例。这些分类算法的实现使用Python 3.6.5执行。实验在具有以下规格的计算机系统上进行:Intel Core i53360MCPU,时钟频率为2.80 GHz,RAM为8 GB。在这个实验中,一些超参数被考虑用于分析结果如下。输入神经元的数量取决于数据集中可用的功能输出神经元的数量取决于数据集中类别标签的数量学习率为0.68对于所有型号。模型的停止标准是误差没有变化或迭代一定次数(5000次)。分类准确度见表3。其他性能指标的实验结果,如精确度,召回率和F-测量如表5所示。在这个实验中,PCA用于减少不重要的特征。通过查看主成分来手动考虑特征减少的百分比。在该实验中,在数据集中分别进行了2.32% 、0.056% 、2.71%、3.12%、3.7%、4.65%、2.54%和4.85%的减少- Pima IndianDiabetes 、Mammographic Mass 、Breast Cancer 、Heart Statlog 、Liver、Blood Transfusion以及Haberman和Nepal Breast Cancer。从性能指标可以明显看出,LNF-PCA模型的整体性能优于这八个医疗数据集的其余模型图3中示出了具有六个模型的八个医学数据集的误差图。PID数据集的LNF-PCA模型的混淆矩阵X的值对于真阳性、假阴性、假阳性和真阴性分别为120、21、20和31的本文所提供的结果基于实验和观察。这些六个模型在每个数据集上执行十次,并给出平均结果。所有上述模型的停止准则是误差不变或最大迭代次数。在本实验中,我们将最大迭代次数设置为5000次。过拟合是机器学习中的一个常见问题,它可能在现实世界的问题中随时发生。反向传播算法用于最小化实际值和预测值之间的误差但是在一定程度的误差优化之后,误差的减少不再影响性能,因此它导致训练模型过度拟合。在这种情况下,两种过拟合避免方法,即,使用特征缩减和正则化。特征约简技术用于去除不相关的模糊化输入特征。在ANN模型中处理之前,这些不相关的模糊化特征在正则化过程中被丢弃,以避免过拟合问题。在本实验中,在模型的设计过程中考虑了一些超参数。表4中给出了八个数据集的模糊扩展、输入神经元的数量和输出神经元的数量。所使用的隐藏层的数量是一个,并且隐藏层中的神经元的数量通过使用等式2来计算。(12)所有的模型。所有模型的学习率为0.72。在FR过程中,基于原始数据的35%至5%的范围之间的数据集,主成分的维度的减少是不同的。然而,原始数据的降维在所有数据集之间的变化范围为5%。该模型的复杂性描述了所提出的LNF-PCA模型与其他现有模型相比在计算时间方面的效率。该模型由模糊化、特征约简和神经网络分类三部分组成.在模糊化步骤中,初始化初始参数需要恒定的时间,这需要O(1)时间,并且对于每个特征,模糊化过程将基于语言变量将特征空间扩展到其对应的模糊化特征空间将花费O(n)时间,其中n是数据集中可用的特征数量。所有数据集实例进行模糊化所需的总时间需要O(nm)时间,其中m是数据集中的实例数。在特征约简步骤中,特征值和特征向量的计算需要O(1)次,协方差矩阵X需要O(q q)次,其中q是模糊化特征集。因此,特征约简步骤需要O(q2)时间。最后,ANN由前馈和反向传播步骤组成,分别需要O( n4 ) 和 O ( n4 ) 因 此 , 该 模 型 的 总 复 杂 度 为 O(nm<$ q2<$ n4)。5. 统计分析统计分析验证了所提出的算法与现有算法的性能。这也决定了皮马印第安人72.96ICA77.39PCA78.0278.47ICA77.96PCA78.65糖尿病乳房摄影79.2180.0276.3974.61583.2580.66质量乳腺癌91.0790.0293.692.3491.2494.93心脏状态日志66.581.2782.0377.1881.8282.89肝67.2667.8268.6568.3268.8769.45输血75.8680.1279.4579.3680.0780.2服务哈伯曼69.9870.6671.8272.675.1379.93尼泊尔乳房82.3485.4589.6888.8290.2190.78癌H. Das等人医学信息学解锁18(2020)1002888我图三. 6个数据集的误差图(a)乳腺X线摄影肿块(ANN、ANN-PCA、LNF、LNF-PCA)(b)乳房X线检查肿块(ANN、ANN-ICA、LNF、LNF-ICA)(c)乳腺癌(ANN、ANN-PCA、LNF、LNF-PCA)(d)乳腺癌(ANN,ANN-ICA,LNF,LNF-ICA)(e)皮马印第安人糖尿病(ANN、ANN-PCA、LNF、LNF-PCA)(ANN、ANN-ICA、LNF、LNF-ICA)(g)心脏状态日志(ANN、ANN-PCA、LNF、LNF-PCA)(h)心脏状态日志(ANN、ANN-ICA、LNF、LNF-ICA)(i)输血服务(人工神经网络、人工神经网络-主成分分析、LNF、LNF-PCA)(j)输血服务(ANN,ANN-ICA,LNF,LNF-ICA)(k)Haberman(ANN,ANN-PCA,LNF,LNF-PCA)(l)Haberman(ANN,ANN-ICA,LNF,LNF-ICA)。数据的性质及其对不同模型的意义。Damsar [47]提出了用于比较几个数据集上的各种分类器的统计检验。所提出的LNF-PCA模型的性能进行了比较,几个分类模型,如人工神经网络,ANN-ICA,ANN-PCA,LNF,LNF-ICA。它还通过许多统计测试进行了验证,如Friedman测试[48,49]和Holm程序[50 - 52]。在弗里德曼测试中,分类器是根据表6所示的性能分配一定的等级。所有分类器(例如ANN、ANN-ICA、ANN-PCA、LNF、LNF-ICA和LNF-PCA)的平均秩通过使用等式(1)来计算。(20).其中,rj是第j个分类器在第i个数据集上的排名,P是数据集的数量。H. Das等人医学信息学解锁18(2020)1002889¼ ¼ ¼ ¼¼¼ð - -¼�¼FF表-4图三. (续)。用于比较。弗里德曼检验的结果表明,模型的参数服务分类器之间的差异,但不指定哪些分类器与其他分类器不同为了识别哪些分类器与其他分类器不同,可以进行事后分析事后检验分析实验数据的结果,并确定哪些分类器与其他分类器有显着不同。密度图如图所示。 四、事后检验[51,52]通过使用Holm过程来执行,以基于z值和p值计算每个单独分类器相对于其余分类器的性能。z值通过使用Eq.并且通过使用正态分布表从z值计算p值。Rj¼1PXrj(二十)z¼。Ri-Rji。pffiqffiffiffiqffiffiffiffi1ffiffifi=ffffiffi6ffiffiPffiffiffi(二十三)我计算所有六个模型(ANN、ANN-ICA、LNF、ANN-PCA、LNF-ICA和LNF-PCA)的平均秩,并分别表示为{R65.625,R5 4.375,R44,R33.25,R22.625,R11.125}。基于所分配的秩,很明显,由于所有分类器的秩不相同,所以零假设被这意味着备择假设被接受。根据分类器的秩式(21)的结果是38.4,其中P是数据集的数量,q是分类器的数量。这里,第i个和第j个分类器的平均秩分别由Ri和Rj表示。基于z值、p值和α=q-i的six模型的比较见表7,其中值得注意的是,在大多数情况下,p值小于α=q i值。结果表明,零假设几乎在所有情况下都是不成立的.因此,它表明,建议的LNF-PCA模型是统计上显着的,并优于其他分类模型,除了ANN-PCA和LNF-ICA。这表明LNF-PCA的性能也优于ANN-PCA和LNF-ICA,但X212P“XR2qq 12#(21)这些分类器之间的差异在统计学上不显著。的F¼=qq-1JJ-4本文中使用的所有缩写的详细说明都是-列在表8中,见第10节。计算弗里德曼统计量(FF),并通过使用XF2发现其为168,其中自由度为5°(22).临界值[50] 3.59是从弗里德曼统计FF168计算出来的,其中5和通过设置α0.01,自由度为5 7?。在此,由于所获得的临界值3.59小于所观察到的F-F统计量值,所以拒绝零假设(H0FF¼.P-1型X2型。Pq-1-X2(22)我数据集模糊EX扩展输入神经元数量输出神经元数量皮马印度382乳腺X线检查352乳腺癌392心脏状态日志3132肝脏362输血352哈伯曼342尼泊尔乳腺癌392H. Das等人医学信息学解锁18(2020)10028810扩展需要更多的时间来训练模型。这些扩大6. 结论本文提出了一种用于医学疾病分类的LNF-FE模型,其中使用语言隶属函数对输入特征进行模糊化,以处理不精确和不确定的数据。由于模型本身的模糊性,这种模糊化过程使模型变得更加复杂弗里德曼测试可能只适用于五个或更多分类器模糊化的值被传递到FE模型,以仅提取相关的H. Das等人医学信息学解锁18(2020)10028810表6Friedman Rank ofSIX models.数据集/模型准确度(%)安ANN-神经网络-线性神经网络LNF-LNF-ICAPCAICAPCA乳房摄影79.2180.0274.61583.2580.66质量(四)(三)(5)(六)(一)(二)乳腺癌91.0790.0293.6 92.3491.2494.93(五)(六)(二)(三)(四)(一)皮马印第安人72.9677.3978.0278.4777.9678.69糖尿病(六)(五)(三)(二)(四)(一)心脏状态日志66.581.2782.0377.1881.8282.89(六)(四)(二)(五)(三)(一)肝67.2667.8268.6568.3268.8769.45(六)(五)(三)(四)(二)(一)输血75.8680.1279.4579.3680.0780.2服务中心(六)(二)(四)(五)(三)(一)哈伯曼69.9870.6671.8272.6(3)75.1379.93(六)(五)(四)(二)(一)尼泊尔乳腺癌82.3485.4589.6888.8290.2190.78(六)(五)(三)(四)(二)(一)弗里德曼5.6254.3753.25第四章2.6251.125(六)(五)(三)(二)(一)见图4。 密度图。表7Holm统计检验的结果。模型分类器z值p值α=q-i1LNF-PCA:人工神经网络5.3453.000010.0022LNF-PCA:ANN-ICA4.2762.000010.00253LNF-PCA:LNF3.2071.000670.0033表5六个模型的旋进、F-测量和召回的比较进动召回F-measureANN-ICA0.750.8890.9760.8540.7120.6720.6360.962LNF人工神经网络主成分分析0.7920.8280.950.87LNF-ICA0.7920.8830.9590.8050.6970.6820.6940.977LNF-主成分分析0.8510.8270.9710.8240.7230.648安ANN-ICA0.680.7610.8340.7430.6880.6610.6220.8
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功