没有合适的资源?快使用搜索试试~ 我知道了~
生物医学数据分析:基于后特征约简的神经模糊模型
沙特国王大学学报基于后特征约简的神经模糊模型的生物医学数据分析Himansu Dasa, Bighnaraj Naikb,H.S.Beheraa,Shalini Jaiswalc,Priyanka Mahatoc,Minakhi Routca Veer Surendra Sai University of Technology,Burla,Sambalpur 768018,Odisha,Indiab印度奥里萨邦Sambalpur 768018 Burla Veer Surendra Sai University of Technology计算机应用系c计算机工程学院,Kalinga工业技术学院(KIIT),被视为大学,Bhubaneswar 751024,Odisha,印度阿提奇莱因福奥文章历史记录:收到2019年2019年12月29日修订2020年1月16日接受2020年1月23日在线提供关键词:生物医学研究分类机器学习特征约简神经模糊A B S T R A C T如今,由于医学科学的快速技术进步,大量的生物医学数据不断地从各种生物医学设备和实验中产生。对这些生物医学数据进行有效的分析,如提取生物学和诊断学上的重要特征,确实是一项具有挑战性的任务。本文提出了一种后特征约简的神经模糊模型来分析这些复杂的生物医学数据。所提出的神经模糊方法使用输入模式的类相似性模糊化来处理不确定性问题。然而,由于输入模式的这种模糊扩展另一方面,所有扩展的模糊化模式可能并不总是对模型识别有意义为了解决这个问题,后特征约简已被用于模糊化模式,以过滤掉不相关的,冗余的和嘈杂的功能。与预特征约简不同,这允许所有特征参与模糊化过程,然后从模糊化模式中识别不相关的特征此外,这种方法允许从强和弱特征集中探索该模型的有效性已被测试和验证与各种基准生物医学数据收集从各个领域。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍生物医学研究(Hajian-Tilaki,2014; Kannampallil等人,2011年)是一个新兴的研究领域,其中几种生物过程和疾病引起的疾病需要进行分析,以获得有效的医疗保健治疗。它也是一个多学科的研究领域,来自医学科学,计算机科学,生物学和数学等多个学科的研究人员可以共同合作,以发展遗传学,医学和医疗保健。由于其在医学研究和临床问题中的重要性,它吸引了研究人员。通常,这些生物医学数据本质上是异质的,并且从定量源(基因数据、实验室数据、医学图像*通讯作者。电子邮件地址:gmail.com(H. Das)。沙特国王大学负责同行审查制作和主办:Elsevier和传感器数据)或定性来源(人口统计和文本)。由于医疗器械的技术发展,不断产生大量临床数据用于处理和监测将这些生物医学数据转换为相应的有意义的信息确实是一项具有挑战性的任务。生物医学研究的主要目的是通过持续监测临床活动,提供有效治疗和准确疾病诊断的优质医疗服务。在过去的几十年中,生物医学数据的数量和种类(Del CarmenLegaz-García等人,2016年; Wei等人,2018年;Cohen等人,2017年)由于技术的进步和医疗系统的自动化而迅速增加。这些生物医学数据包含大量复杂的电子健康记录,最适合于生物医学和临床研究。这些生物医学数据来自不同的来源,信息种类繁多,难以检索和分析。在分析这些医学数据时,了解每个属性的详细信息及其意义也很重要关键属性的选取在医学疾病分析系统的决策过程中起着至关重要的作用本文采用了两种技术,即预特征约简和后特征约简,来分析冗余特征的重要性https://doi.org/10.1016/j.jksuci.2020.01.0071319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comH. Das等人/沙特国王大学学报2541或无关的信息。在预特征约简过程中,对原始特征进行特征约简,得到变换后的特征。减少的变换特征被传递到分类(Das等人,2020; Sahoo等人,2020年,用于预测疾病。这个过程的主要缺点是由于丢失了一些完整的变换特征而丢失了一些信息。在预处理阶段被丢弃的特征可能包含一些重要信息。在模型中处理之前直接丢弃这些变换的特征,这可能导致信息丢失。然而,在这方面,在后特征约简过程中,不是丢弃完全变换的特征,而是允许所有变换的特征参与模糊化过程(Mrs.和Mitra,1992)。该模糊化过程将为每个输入特征产生重要或不重要的模糊化变换特征。有效的模糊变换特征在医学决策过程中起着关键作用。然而,不重要的模糊化变换特征仅包含不相关或冗余的模糊化变换特征。因此,有必要丢弃这些不重要的模糊化变换特征,而不是完整的变换特征,并且在决策过程中允许所有重要的模糊化变换特征。在神经模糊(NF)模型的类相似性模糊化过程中(Ghosh等人,2009),它在决策过程(用于分类)中考虑重要和不重要的模糊化变换特征。对模型贡献不大的模糊化变换特征应该被丢弃,以减少模型的计算时间。本研究的动机是,大多数传统模型在任何分类模型的预处理阶段使用特征缩减技术,这有助于减少冗余或不相关的特征。在这些传统的模型中,首先使用特征约简来过滤掉重要特征,然后将这些重要特征传递到模型进行分类。这种传统的模型的主要缺陷是丢失了完整的特征,这可能会丢失一些信息,从而影响分类模型的性能。为了克服这个问题,应该设计一个模型来丢弃一些模糊化的变换特征,而不是完全丢弃特征。这项研究的目的是,一个弱的功能可能有一些显着的,以及不显着的模糊化转换功能。将模糊化的不重要的变换特征丢弃,而不是完整的特征。为了解决上述问题,在NF模型的模糊化过程(后特征约简)之后,将特征约简算法进行在该模型中,在NF模型的模糊化过程之后应用特征约简算法以减少模糊化变换特征的数量。该模型允许所有输入特征参与模糊化过程。该模糊化过程基于类别标签将每个输入特征扩展为其它增加了模型的复杂性,需要更多的时间来训练模型。为了克服这一缺点,特征约简算法被用来只选择相关的模糊化变换的fea-tures是显着贡献的模型。它还消除了那些模糊化的转换功能,是不相关的和冗余的性质,以产生减少模糊化的功能。这种减少的模糊化特征再次被传递到基于神经网络(NN)的疾病分类模型主要的观察结果是,运行所提出的NF-FR模型所需的总时间减少,并且通过使用特征约简算法大大提高了分类本文的其余部分组织如下:第2介绍了相关的工作,第3节介绍了基本概念,如类相似性模糊化过程、特征约简过程采用LDA、ANN-BP分类过程、问题陈述和本文提出的模型,第4节介绍了所研究和提出的模型的实验设置和结果分析,第5节描述了所有分类模型的统计分析,最后第6节总结了本文的工作和未来的范围。2. 相关工作机器学习(Alpaydin,2009年)是一种基于智能的技术,能够自动从经验中学习某些类别的问题,并在没有明确编程的情况下提高性能。它有能力从数据中自动学习,以检测模式,并在最小的人为干预下做出决策。近年来,各种机器学习技术的发展,例如预测(Makhoul,1975)、聚类(Jain等人,1999)和分类(Duda等人,2012年)对决策过程有很大影响。分类(Das等人,2015,2018; Sahani等人,2018)是一种监督学习方法,从现实世界的问题中提取知识。它构建了一个模型,准确地预测目标类从数据到不同的类水平。许多这样的单独的技术,如模糊逻辑(FL)(Zadeh,1965),神经网络(Haykin,1994),由于其结构的复杂性和庞大性,在性能上并没有表现得更好。NN模型的主要挑战是存在不精确和模糊的输入信息,因此在分类过程的任何阶段都可能出现一些不确定性(Zadeh,1996,1997)。在这方面,FL是最适合处理不同方面的不完整性或不确定性的现实世界的问题。 在FL中,每个特征都与成员值相关联,该成员值包含对该类的归属度。它可以很容易地处理不确定和不精确的信息,其中的数学模型是太复杂。FL的显著特点是,与其他数学模型相比,它可以有效地工作,即使是不完整或不精确的数据集。因此,必须将两种单独的技术(FL和NN)集成以形成称为NF模型的混合系统(Ghosh等人, 2014年)。NF模型使用类相似性模糊化过程(Kazakhstan和Mitra,1999年; Kazakhstan和Ghosh,1996年)来处理不确定性问题。它具有适应人类感知问题的方式以及学习能力的能力,并且还成功地应用于若干应用中(Kar等人,2014年)。NF模型从2000年到2017年的详细发展见(Shihabudheen和Pillaib,2018)。这种NF模型提供了更好的性能比个别技术,但它增加了计算时间,由于大量的冗余功能。这些冗余特征可能是由于输入模式的模糊扩展而产生的。还应注意的是,所有模糊扩展特征可能并不总是对NF模型有显著贡献(Meher,2017; Meher等人,2017)由于不相关和冗余的功能(Azar和Hassanien,2015)影响模型的性能。因此,有必要通过使用特征约简技术来消除这些冗余特征,以提高性能并减少模型的计算时间。为了解决这个问题,一组特征约简算法,例如PCA(Smith,2002;Wold等人,1987; Abdi和Williams,2010)和LDA(Mika等人,1999; Tharwat等人,2017)已被用于任何分类模型的预处理阶段。Chattopadhyay(2017)提出了一种基于某些症状诊断人类抑郁症的NF模型。该模型在预处理阶段使用主成分分析进行特征约简,只保留与疾病识别决策过程相关且有意义的特征。Wang和Paliwal(2003)提出了基于维数的特征提取方法2542H. Das等人/沙特国王大学学报Tj;i.ΣX你好!CM¼CovT V V V Vm-1ΣΣ1/1 Tj;i-lTiðÞ¼64........75ðÞ;;BCV¼Xni. 我...我... l-l2;CNJ.ΣC在元音识别的预处理阶段采用LDA和PCA等算法。它将输入参数转换为相应的特征向量,并降低其维数,使分类过程更有效。类似地,针对疾病分类已经完成了一组工作(Ibrahimetal.,2015;Polat和Güne,s,2007;Nilashi等人,2018; Ubeyli,2009)使用NF模型。几种其他技术的杂交应用于各种应用中,例如生物医学信号处理(Pradhan等人,2018),云优化(Nayak等人,2018; Mishra等人, 2018年),预测(Rout等人, 2020)和医疗保健(Dey等人, 2019 a,b;Sahoo和类内方差(WCV)计算通过使用Eqs。(2)和(3)。不我我1WCV¼XX. xij-l xij-lT3第1页1/1这里,n表示第i类的样本的数量,l表示例如, 2019年)的报告。由于输入要素ii的维数增加在NF模型中,计算成本增加。为了解决这个问题,在预处理阶段采用各种特征约简技术。但是,在我们目前的研究中,通过对输入特征的类相似性模糊化,LDA用于特征约简,ANN用于训练和测试算法,通过12个生物医学数据集的实验发送第i个类的平均值,l表示所有类的总平均值。从LDA生成的变换矩阵(T)可以通过使用等式(1)来(四)、T1/T2WCV-1×BCV-4变换矩阵的本征值和本征向量通过使用等式(1)从T的协方差矩阵(CM)计算。(5)、3. 系统建模方法学在那里,L。-是特征Ti的样本均值,m表示要考虑的样本数量。本节描述类可扩展性的基本概念模糊化过程,LDA特征约简过程,ANN-BP1X条纹鲈—- 是的—电子邮件分类过程、问题公式化和建议模型的详细解释分别在第3.1节、第3.2、第3.3、第3.4和第3.5描述。3.1. 类相似性模糊化在这个模糊化过程中,输入模式的每个特征都被转换成其相应的隶属度值的基础上的类标签。P型隶属函数用于计算输入模式的每个特征的隶属度值。模糊化的特征矩阵示于方程。通过将输入特征的数量乘以类标签来计算(1)2lC/F1; 1LlCCF1; 2... lC=F1;n=3特征向量的元素基于特征值以非递增顺序排序将根据第3.3所述ANN模型的疾病分类和预测特征值选择具有显著贡献的特征子集(称为简化矩阵)。3.3. ANN-BP分类法将人工神经网络与反向传播(ANN-BP)模型用于疾病的分类和检测。在这个模型中,输入层的所有权重都完全连接到隐藏层和隐藏层也完全连接到lC=F2; 1lC=F2; 2···lC=F2;nlX6 7.另一个隐藏层或分配给输出层的1lCFm;1lCFm;2···lCFm;n这里,Xi ^Fi1;Fi2;:;Fin是具有数据集X的n个特征的第i个输入模式,并且lCF j;i确定类别标签C的第i个特征的第j个实例的隶属度值。该模糊化矩阵被传递到使用LDA的特征约简过程,如第3.2节所述,以生成约简矩阵。3.2. 线性判别分析在类相似度模糊化过程之后,基于原始输入特征的类标签倍来扩展输入特征的维度由于输入特征的这种模糊扩展,模型的复杂性增加。为了解决这个问题,一种称为LDA的特征约简技术被用来提取对模型有显著贡献的特征。它只是丢弃不相关或冗余的模糊化特征,只传递那些对模型有显著贡献的特征。在这里,我们解释了LDA的工作原理,即通过从原始模糊化特征中消除不重要的模糊化特征,将高维空间转换为LDA的工作原理如下:(1)类间方差(2) 类内方差(3)通过最大化类间方差和最小化类内方差来生成低维空间。类间方差(BCV)数据中可用的特征。输出层中输出神经元的数量取决于可用的类标签的数量在数据中。在前馈阶段,根据输入信息对网络进行训练,根据分配的权值加上偏置,将它们相加,计算出网络的净输入。在数学上,第n个神经元的净输入的性能可以通过使用等式来表示。其中n是输入神经元的数量。nU n¼B nWi;j×Ii;j<$6第1页这里,Bn是第n个神经元的偏置,Ii Ii1;Ii2;;Iin是输入矩阵的输入模式,Wi1;Wi;1;Wi;2; ··· ;Wi;n是第n个神经元的连接权重,Un是网络的净输入。类似地,计算每层的净输入,并将S形激活函数应用于在不同连接层之间确定的输出的输出输出层是通过使用方程中描述的S形激活函数来计算的。(七)、这里,u是S形激活函数,ON是神经元的输出。ONuUN7在反向传播步骤中,计算均方根误差,并在学习过程中更新权值和偏差不同层之间的这些连接路径的权重为× Tj;i-lTið5Þ在[0-1]范围内的随机权重。在输入层中创建的输入神经元的数量取决于H. Das等人/沙特国王大学学报2543.Σ- 是的- 是的-是的ΣΣ关于C类,其中C ¼C;C ;:;C 是12kk k.好吧- 是的- 是的····8>;1/4fg;;->1-2.CTi-r2;q6CT6r->2. - --p6CT6q->1 -2. - --t 6CT6u>2. - --u6CT6v;j通过计算网络中权重的变化进行调整,以通过调整学习率来降低网络的总体误差(a) 在[0,1]的范围这个过程一直重复到最后,保持迭代以最小化网络的均方根误差或直到达到停止准则。3.4. 问题公式化令X i1;X i2;:;X inn n是第i个 生物医学数据模式,其中,Xi表示第j个要素的第i个实例的值而n是特征的总数输入模式Xi的类相似度隶属度值被进一步计算为:采用P型隶属函数。该模糊化过程扩展每个输入值Xi:j成其对应会员值作为l XlX;1X;;1X基于输出类水平,在哪里,lCk. Xi;j表示Xi:j的成员值,其中阶级水平。模糊化过程的输出包含输入模式的扩展模糊化特征这些扩展的模糊化特征处理数据集中的不确定性问题另一方面,它可能包含一些冗余的,不相关的和噪声的功能。在大数据集的情况下,由于模糊化过程可能需要更多时间来训练模型,因此模型的复杂性从复杂性的角度来看,它不适合处理冗余、无关和噪声的特征。目的是从lX i;j中找出对模型有显著贡献的模糊化特征集的有利集。在本研究中,提出了NF-FR,并在第3.5节中进行了描述,以解决上述问题。3.5. 该模型在本节中,开发了一种名为NF-LDA的新混合模型用于生物医学数据分类。最初,乳腺癌wisket数据集被用作分析这一亲,提出的NF-LDA模型,同样,该模型也验证了其他生物医学数据集,如Pima IndianFig. 1. 提出的NF-LDA模型。i1; 2;:; 699表示乳腺癌wisdom数据集中可用的实例数。通过使用P型隶属度函数(Eq. (8))。图2表示七个边界点(p = 2,q = 3,r= 4,s = 5,t = 6,u = 7,v = 8),以定义等式(1)的约束。其中Y轴表示相应的隶属度值。这是...CT的第i个实例相对于类别标签C的隶属度值被表示为这里,C的值为1/4;2; 3;:;k,其中k表示类的数量。在这里,lCCTi表示乳腺癌的CT特征相对于类别标签(即良性和恶性)的隶属关系。0的整数;CTi6pCTi p2r pi>我糖尿病数据集,威斯康星州乳腺癌(诊断),乳腺癌-lCTi;p;r;t;vR-p1个单位;r6CTi6tð8Þ图形质量,甲状腺,输血服务中心,心脏- statlog,肺癌,SPECTF心脏,哈伯曼,肝脏和肝炎。乳腺癌wisplant数据集包含699个实例,具有9个属性(不包括类别标签),即团块厚度(CT)、细胞大小均匀性(UCS)、细胞形状均匀性(CS)、边缘粘附(MA)、单个上皮细胞大小(ECS)、裸核(BN)、无色染色质(BC)、正常核仁(NN)和 有 丝 分 裂 ( Mi ) , 其 包 含 范 围 内的 值 ( Hajian-Tilaki , 2014;Alpaydin,2009)。该数据集的每个实例属于任何一个类标签,例如良性和恶性。为了建立一个从症状中识别疾病的模型,提出了NF-LDA模型。最初,生物医学数据通过模糊化过程进行处理。该算法利用类相似性模糊化过程生成模糊化矩阵。随着特征的扩展,导致问题的复杂性增加。为了解决这个问题,LDA是用来减少这些模糊化的功能的尺寸。它只保留对模型有重要贡献的相关特征。随后,这些减少模糊化矩阵传递到神经网络模型的疾病分类。新型混合NF-LDA模型的详细示意图如图1所示,详细的工作步骤将在下面讨论令乳腺癌wisdom数据集(X)表示为X1/2C Ti;UCSi;C Si;MAi;EC Si;BNi;B Ci;N Ni;Mi i],其中C Ti表示第i个CT 实例 功能. 在这里,CTi不2vtiCTi v2vti>:0;C TiPv图二. P型隶属函数。<>2544H. Das等人/沙特国王大学学报Pð ÞTj;iðÞ所形成的矩阵被计算为IT,其中i^l;2;·· ·;r。意思是NXCN可以表示为TCT j<$<$Tj;1;Tj;2;:::;Tj;r,r <$n× C的结构,X2¼ðÞ¼64........75ðÞ对应特征向量的特征值的降序.Σ.Σð Þ ð Þ8i2N8i2N在图3中,隶属度值在点p和v处最小。在这里,会员价值从积分逐渐增加p和r,并保持点r和t之间的最大值。然后,从t点到v点逐渐减小。根据训练数据集计算特征CT的中心c在第三步中,通过最大化类间方差和最小化类内方差来构造低维空间。变换矩阵(TCT )可以通过使用等式(1)来计算乳腺癌wispatient数据集的特征CT。(十七)、N如c1CTi其中N是训练实例的数量为TCT¼PWMCT-1×BM 公司简介17ÞNCT,q和u处的交叉点的计算表示在等式2中。(9)和(10)。该变换后的矩阵包含乳腺癌wisket数据集的CT特征的减少的隶属度值。让,上述变换矩阵TCT最大电流电流-最小电流具有r个模糊化的FEA,.Σq¼c-8i2N8i2N2ð9Þn是特征的数量,C是类标签的数量。的计算变换矩阵的特征值和特征向量.通过使用等式(1),从TCT的协方差矩阵(CM)中计算T CT。(十八)、最大电流电流-最小电流1X条纹鲈-不m-11/1-电子邮件在模糊化过程之后,训练数据集被计算并表示为Eq.(十一)、这里,N是实例的数量,并且ICT1(等式1)(12))表示CT特征的第一输入实例的权重值由方程式表示数据集的特征CT的第一输入实例相对于类级别k的隶属度值。类似地,对所有特征进行建模以计算用于分析的类相似性隶属度值。在这一步中,LDA被用来转换高维模糊化数据转换成相应的低维数据,而不会降低其重要性。这可以在以下步骤中实现:在第一步中,计算不同类的均值之间的距离(不同类之间的类可分性),称为类间方差。乳腺癌wisket数据集的特征CT的平均值通过使用Eq.(十三)、2升/吨1升 lUCS1. . .lMi13这里,l-是特征Ti的样本均值,m表示发送要考虑的样本数。协方差矩阵(cmj;i)的分量表示特征Ti和Tj的方差。设q是主轴数A1;A2; ··· ;Aq表示协方差矩阵的特征向量,其中16q6r,其中方差在投影空间。每个特征的平均值,-从每个数据维度中减去每个特征的值生成一个均值为零的数据集。协方差矩阵是一个对称矩阵,其特征值(ai)和特征向量(Ai特征向量Ai及其对应的特征值ai通过使用Eq.(十九)、CM×Ai¼ai×Ai19这里,i1; 2;···;q,q是主成分的数量FM lX1吨CT2吨 lUCS2··· lMi26 7.11可以通过使用Eq.(19)可以用lCTN 联系我们 ··· lMiNlCT1lC1CT1;lC2CT1;· ··;lCkCT112mCT¼1=NXlCTi13或包含简化隶属度值可以针对乳腺癌WISTOT数据集计算所有特征的。在低维空间(Ak)中考虑了前k个具有大特征值的特征向量.将乳腺癌wisdom数据集(X)转换为其相应的简化矩阵(R)使用Eq。(20).1/1属于每个单独类别的乳腺癌wisket数据集的CT特征的平均值通过使用等式(1)来计算。(十四)、在此,nC是属于CT特征的乳腺癌wisdom数据集的类别C的mCTC1=nclCTi148CTi 2C类间矩阵是针对数据集乳腺癌的特征CT的矩阵,其通过等式(1)计算。(十五)、这里nC是属于类C的实例的数量。BM CT¼Xn C。m CTC-mCTT×。mCTC-mCT直径15毫米1/1在第二步中,测量平均值和每个类的样本之间的距离,乳腺癌wiscon- sin数据集的特征CT的类内矩阵(十六)、R¼X×Ak20将约简后的矩阵送入ANN-BP模型进行疾病分类和检测。关于ANN-BP模型的详细描述在第3.3中给出。该ANN-BP模型使用通过使用Eq.(20).输入图层中的节点数取决于简化模糊化矩阵中可用的要素数,输出图层中的节点数取决于原始数据集中可用的类标签的数量。神经网络-BP模型的工作基于两个阶段,如前馈步骤和反向传播步骤。在前馈阶段,根据约简后的模糊化矩阵输入信息对网络进行训练,根据所分配的权值和偏差对它们求和,计算网络输入。在数学上,第r个神经元的净输入的性能可以通过使用等式来表示。其中,r是输入神经元的数量,并且r的值基于简化矩阵而变化。R公司简介Xi¼1l×lCTi-mCT16Ur¼BrWi;j×Ri;j 21第1页不u¼cð10ÞCM公司诉CT公司Tj;i-lTi× Tj;i-lTið18ÞH. Das等人/沙特国王大学学报2545ΣΣΣΣ这里,B r是第r个神经元的偏置,R i;1;R i;2; ·· · ;R i;r是输入图案的的减少模糊化矩阵和Wi;1;Wi;2; ··· ;Wi;r是第r个神经元的连接权重,Ur是网络的净输入。类似地,计算每层的净输入,并将S形激活函数应用于在不同连接层之间确定的输出输出层的输出通过使用sigmoid激活函数来计算在反向传播步骤中,计算所有的误差,在学习过程中更新权重和偏差通过计算网络中权值的变化来调整不同层之间连接路径的权值,这个过程重复多次,以使模型的误差最小化,或者直到达到停止标准。然后通过最大化操作对神经网络的输出进行去模糊化处理分类器的输出模式被分类到具有最大分类值的特定类别每个输出神经元的结果包含它在模式中所属的每个类的成员资格值。对于每个输出神经元,比较所有隶属度值并找到最大隶属度值。该最大隶属度值的相应类别将被考虑用于分配-类标签的部分所有上述步骤代表了针对所提出的NF-LDA模型的乳腺癌wisdom数据集的类似地,对所有十二个生物医学数据集进行建模以用于所提出的NF-LDA模型的分析4. 实验结果分析在本节中,给出了仿真环境、使用的数据集以及各种模型(如ANN、ANN-PCA、ANN-LDA、NF、NF-PCA和NF-LDA)的实验结果。所有模型(ANN、ANN-PCA、ANN-LDA、NF、NF-PCA和NF-LDA)使用Matlab(版本R2015a)与Window 7操作系统实现。在该实验中,使用了12个生物医学数据集(Bache和Lichman,2013;Alcala-Fdez等人,2011),其具有大量的特征和不同的类别标签。这些生物医学数据经过预处理(数据清理和数据转换),使原始数据变得有用。生物医学数据可能包含许多不相关和缺失的信息。为了解决这一问题,数据清理(缺失值插补)技术被用来填补缺失的信息。在这个实验中,我们通过在数据清理过程中放置属性同样,生物医学图3.第三章。六个数据集的误差图:(a)乳腺癌-威斯康星州,(b)皮马印第安人糖尿病,(c)乳腺癌-威斯康星州(诊断),(d)乳房X线检查肿块,(e)甲状腺,(f)输血服务中心。2546H. Das等人/沙特国王大学学报-我FJFXF¼12N=kk- 1Rj-数据可能已经包含了在几个范围内的属性,这在模型中是难以处理的。在本实验中,我们使用MinMax归一化技术对这些医疗数据进行归一化,将医疗数据转换到特定范围(0.0到1.0)。Z分数技术用于检测(如果Z分数大于3或小于3)和删除离群值。过拟合是机器学习中的一个常见问题,它可能在任何现实世界的问题中随时发生。反向传播算法用于最小化实际值和预测值之间的误差。但是在一定程度的误差优化之后,误差的减少不再影响性能,然后它会导致训练模型过度拟合。在这种情况下,使用了两种避免过拟合的方法,如特征约简和正则化。使用特征约简技术去除不相关的模糊化输入特征。这些不相关的模糊化特征在ANN模型中处理之前在正则化过程中被丢弃,以避免过拟合问题。在实验中,数据集的实例分为两部分,即训练集和测试集,分别占75%和25%的实例。对于每个数据集,所有六个模型每个运行十次,并给出每个模型的平均结果。对所有12个生物医学数据集进行了分类准确率、均方根误差(RMSE)、查准率、查全率和F-测度等性能指标的测试。六种模型(ANN、ANN-PCA、ANN-LDA、NF、NF-PCA、NF-LDA)的分类准确度(%)的比较在表1中针对十二个生物医学数据集示出。上述性能指标,如分类准确率、精确率、召回率和F-测量,计算并在表2和表3中列出所有六个模型所提出的模型给出了比所研究的模型更好的性能,对于所研究的模型,我们所提出的模型优于所有所研究的模型。这意味着在极少数情况下,我们提出的模型与其他研究模型相比可能表现不佳但在大多数情况下,我们提出的模型优于其余的研究模型。还通过第5中的Holm过程进行了统计学验证。5. 使用统计技术进行性能分析在本节中,统计技术被用来分析和验证所提出的算法与现有的算法在分类精度或错误方面的性能。它还用于分析数据的性质及其意义。Demšar(2006)介绍了用于比较各种数据集上多个分类器的各种统计检验分析。在本节中,所提出的NF-LDA模型在各种分类模型(诸如ANN、ANN-PCA、ANN-LDA、NF和NF-PCA)上的性能已经通过各种统计测试(诸如Friedman检验(Friedman,1937; Friedman,1940)和Holm proc检验(Iman和Davenport,1980; García等人,2010; Luengo例如, 2009年)。Friedman检验是一种非参数统计技术,用于通过基于性能测量为每个分类器分配特定等级来发现各种分类器之间的差异,如表4所示。所有六个分类器,如ANN,ANN-PCA,ANN-LDA,NF,NF-PCA和NF-LDA的平均秩是com-rank的。使用Eq.(二十二)、其中,N是数据集的数量,rj是第i个数据集上第j个 分类器的 排 名 。(ANN、ANN-PCA、ANN-LDA、NF、NF-PCA和NF-LDA),十二个生物医学数据集。对12个生物医学样本R1=NXrj我ð22Þ数据集显示在图1和图2中。3和4在表1中,所提出的混合方法的分类准确度低于其他研究模型。一般来说,这发生在任何机器学习模型中。这意味着单一的机器学习技术可能不适合所有的基准数据集或问题。这意味着在大多数情况下,我们提出的模型工作得更好。然而,在极少数情况下,与其他模型相比,它可能无法提供合适的结果。因此,为了制订一个概括性的表现指标,我们对所有下一节中的研究模型我们已经运行了所有的模型基于分配的等级,所有六个模型(ANN、NF、ANN-PCA、ANN-LDA、NF-PCA和NF-LDA)的平均等级已经被计算为{R6 = 5.75,R5= 4,R4 = 3.91,R3 = 3.58,R2 = 2.5,R1 = 1.25}。根据秩,很明显,零假设被拒绝,因为所有分类器的秩不相同。基于分类器的平均秩(Rj),Friedman统计量(X2)是从方程。(23),发现是55.1016。其中,k等于分类模型的数量,N是数据集的数量。在这种情况下,数据集的数量是12个,分类模型的数量是6个。10次,记录accu-2分类的平均值“X2Jkk 12#4在表2和表3的极少数情况下,由于数据的性质和模型行为,研究模型的结果大于拟议的NF-LDA模型。但在大多数情况下弗里德曼统计量(FF)的计算和发现是123.74,通过使用X2与5自由度表示,通过使用方程。(24页)。临界值3.37是由弗里德曼统计量计算出来的表1比较ANN、ANN-PCA、ANN-LDA、NF、NF-PCA和NF-LDA的分类精度数据集/分类器准确度(%)安ANN-PCA(已研究)ANN-LDA(已研究)NF(研究)NF-PCA(已研究)NF-LDA(拟定)乳腺癌-威斯康星州91.0795.3995.9593.9895.0497.04皮马印第安人糖尿病数据集72.9681.6675.9778.7882.5582.75乳腺癌(诊断)94.7896.4396.6797.7897.2697.88乳房X线检查肿块79.2184.569.7684.1985.3187.05甲状腺86.7692.5391.8292.0195.6096.53输血服务中心75.8680.1495.6776.7980.2281.81Heart-statlog66.569.7383.9179.2182.0885.83肺癌56.4261.9759.3356.2058.7463.22SPECTF心脏67.1980.3578.8786.3987.6586.16哈伯曼75.4280.2980.3778.0581.382.28肝69.2668.6571.3373.7273.9375.34肝炎74.8681.3384.9481.5185.6188.01我活泼。这意味着我们提出的模型可能不适合极少数情况,但适用于许多其他情况。ð23ÞH. Das等人/沙特国王大学学报2547ð - -FF表2比较ANN、ANN-PCA和ANN-LDA模型的各种性能参数(精度、召回率和F-测量)。数据集/分类器安人工神经网络主成分分析人工神经网络LDA精度召回F-measure精度召回F-measure精度召回F-measure乳腺癌-威斯康星州0.9710.3580.50.9420.3270.4850.8460.310.55皮马印第安人0.7930.7810.7460.7330.7630.7680.7430.7010.743乳腺癌(诊断)0.9570.610.7440.9650.6260.7590.9620.6450.772乳房摄影0.7330.5230.610.8080.490.610.8950.2770.417甲状腺0.9530.7510.8030.9330.8310.8630.9010.8330.835输血服务中心0.7510.7830.7570.8280.8010.8010.8950.8010.82Heart-statlog0.5480.6440.6170.8180.690.6780.8350.8140.852肺癌0.6150.6670.6730.6150.6990.5830.6670.6670.591SPECTF心脏0.9010.7460.8060.8710.7900.8280.8500.7950.820哈伯曼0.6230.6080.6410.7010.7740.7320.6340.7620.709肝0.7360.640.680.720.70.7120.750.6330.685肝炎0.8420.8850.8620.9180.90.9060.8990.8390.866表3比较NF、NF-PCA和NF-LDA模型的各种性能参数(精确度、召回率和F-Measure)。数据集/分类器NFNF-PCANF-LDA精度召回F-measure精度召回F-measure精度召回F-measure乳腺癌-威斯康星州0.9130.3430.4980.9250.3240.4790.8940.370.46皮马印第安人糖尿病0.9030.7500.8190.9360.7230.8150.8880.7130.79乳腺癌(诊断)0.9810.6290.7660.9460.6590.7760.980.6170.757乳房摄影0.8460.5446620.8520.5320.6530.7980.5120.625甲状腺0.9150.8680.8750.9320.9440.9330.9620.9380.935输血服务中心0.7280.9920.870.810.9740.8840.8250.9840.898Heart-statlog0.790.5920.6740.8140.5960.6880.8640.590.697肺癌0.6080.650.5790.5440.5881.1670.6500.6440.609SPECTF心脏0.7970.7520.7380.7620.7320.7540.8920.8660.863哈伯曼0.6350.0690.1240.5230.030.0570.7730.1370.175肝0.7340.7040.7180.7090.6780.6880.7650.6340.69肝炎0.8960.6780.7350.8260.8680.8170.8360.7980.865FF= 123.74,自由度为5和5× 11,设置a= 0.01。在此,由于所获得的临界值3.37小于所观察到的F-F统计量值,所以拒绝零假设(H0)密度图如图所示。 5与自由度(5,55)。最常用的事后检验是Holm程序,解释如下。事后检验是通过使用Holm过程来执行的,以基于z值和p值来计算每个单独的分类器相对于其余分类器的性能z值通过使用Eq.(25)并且p值从z计算FFN-1X2=Nk- 1-X2ð24Þ使用正态分布表。在表4中,对六个模型的平均分类准确度进行了排名和展示。表4中的结果非常少,z¼。Ri-Rj=qkk1=6Nð25Þ结果表明,所提出的混合方法的结果低于其他研究的技术。一般来说,这发生在任何机器学习模型中。单一的机器学习技术可能并不总是适合所有的基准数据集或问题
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功