没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁21(2020)100445基于神经网络的癌症预测Monalisa Nayaka,Soumya Dasb,*,Urmila Bhanja a,Manas Ranjan Senapati ca印度萨朗英迪拉·甘地技术学院电子和电信工程系b印度卡拉汉迪政府工程学院计算机科学工程系c印度布尔拉Veer Surendra Sai技术大学信息技术系A R T I C L EI N FO保留字:局部线性小波神经网络(LLWNN)大象放牧优化(EHO)人工神经网络(ANN)粒子群优化(PSO)方差分析A B S T R A C T癌症是一种不正常细胞在身体任何部位不受控制的生长。它可以是许多类型。癌症的早期预后是研究人员以更好的方式治疗癌症的唯一方法。将癌症分类为高风险或低风险组非常重要,可以通过应用不同的机器学习技术来完成。在这项研究中,开发了一种基于自然的机器学习技术,称为大象放牧优化算法(EHO),该算法使用肺癌,乳腺癌和宫颈癌等癌症数据集进行了验证。这里,使用ANOVA和Kruskal-Wallis检验等特征选择算法,选择相关数量的特征。EHO的性能进行评估,使用均方根误差(RMSE)和正确的分类率(CCR)与和没有特征选择。将EHO算法的RMSE值与局部线性小波神经网络(LLWNN)和粒子群优化(PSO)算法进行了比较。使用ANOVA检验,EHO在乳腺癌数据集中显示0.9837 CCR,在宫颈癌数据集中显示0.9671 CCR,在肺癌数据集中显示0.8821 CCR,即与其他优化算法相比的最佳结果。根据这些表,很明显,分类技术在没有特征选择技术的情况下需要更多的时间,但在有特征选择技术的情况下需要更少的时间。1. 介绍在全球范围内,第二大死亡原因是癌症, 在2018年造成了960万人死亡已经开发了许多工具来早期诊断癌症,因此存活率将上升。癌症是一种可以影响身体任何部位的疾病。宫颈癌、乳腺癌和肺癌是最常见的癌症。机器学习技术正在采用更好的预测方法来分类患者是处于高风险还是低风险类别。癌症的早期发现至关重要,因为它直接影响健康,社会和经济。因此,进行了许多不同的调查,但没有一个在检测肿瘤方面是100%特异性的[1]。依赖于硬件[2]。提出了一种分三个阶段对小鼠精子图像进行分类的方法在第一阶段,加速段测试(AGAST)是由自适应和通用的角点检测器,以了解有关精浆图像的兴趣点在阶段2中,描述这些感兴趣的点,并且通过快速视网膜关键点(FREAK)的描述符来计算它们的标准偏差(STD)。在阶段3中,根据STD量,使用K-最近邻(KNN)算法对等离子体图像进行分类。结果表明,高温等离子体比微波等离子体具有最大的STD含量。KNN的局限性在于它计算昂贵,对不相关的特征敏感,并且对于较大的数据集预测缓慢[3]。基因具有六个肿瘤标志物的ANN模型可以区分不同的肿瘤标志物EX压 编程 (GEP)是 相关到概率神经胃肠道癌症,因此它具有早期检测肺癌的能力。该模型的准确率为87.3%,敏感性98%,特异性98%。它也可以用于解决其他类型的癌症。ANN的主要缺点是网络的持续时间是未知的,即,它不能提供最佳结果,神 经 网 络 ( PNN ) 、 多 层 感 知 器 ( MLP ) 和 径 向 基 神 经 网 络(RBNN)在宫颈癌患者预测中GEP分类器的准确率为71.96%,MLP分类器的准确率为71.87%。这种方法的局限性在于它适用于较少数量的数据集,过程复杂且成本高[4]。的* 通讯作者。电子邮件地址:gmail.com(M. Nayak),gmail.com(S. Das),urmilabhanja@gmail.com(美国)。Bhanja),manassena@gmail.com(M.R.Senapati)。https://doi.org/10.1016/j.imu.2020.100445接收日期:2020年6月26日;接收日期:2020年9月11日;接受日期:2020年10月5日2020年10月8日网上发售2352-9148/©2020的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuM. Nayak等人医学信息学解锁21(2020)1004452使用深度卷积神经网络(DCNN)方法预测从H和E染色的组织片段建立的宫颈癌细胞学图像。结果表明,该方法提高了宫颈癌早期诊断的准确率,达到93.33%。具体的缺点是CNN不能对输入进行空间不变,并且它不对对象的方向和位置进行编码[5]。本文应用人工神经网络建立了肺部CT图像的计算机辅助预测技术。这里,使用两个训练函数,其中训练1提供93.3%的准确度,91.4%的灵敏度和100%的特异性,均方误差为0.998,训练2提供93.3%的准确度,最小均方误差为0.0942。这些方法的局限性包括容易过度拟合,并且对于较大的数据集需要更多的时间来收敛[6]。将人工亚塑性多层感知器(AMMLP)与反向传播(BP)方法进行了比较,AMMLP的准确性为99.26%,敏感性为100%,特异性为97.89%,而BP方法的准确性为92.8%。 AMMLP使用威斯康星州乳腺癌数据库(WBCD)进行比较。AMMLP的主要缺点是它会陷入局部最小值[7]。卷积神经网络(CNN)预测器被建立用于对苏木精和伊红染色的乳腺活检图像进行分类。提取特征训练支持向量机,预测器癌/非癌诊断的准确率为83.3%,四类诊断的准确率为77.8%,对癌相关病例的敏感性为95%。CNN 提出了一种融合知识、决策树、不平衡分类方法、基于随机森林的特征选择方法、粗糙集理论和规则过滤技术的混合模型来解决医学数据集的不平衡分类问题。经典粗糙集理论在实时处理中的一个主要缺点是核属性计算效率低,约简生成不允许任何不确定性[9]。结合超图和粗糙集理论的混合模型对高维医学数据集进行特征选择。因此,使用该方法,选择最佳的功能,做医疗诊断准确率,准确率,召回率,时间的复杂性,并减少规模。该方法是医学数据集上的软计算技术。 超图的局限性在于,使用单个删除选项不能删除所有连接[10]。一些软计算技术,如EX期望最大化(EM)、支持向量机(SVM)和主成分分析(PCA)用于分类和噪声去除目的。它们在减少计算时间和预测精度方面有所改进。该模型显示了97.95%的准确率Pima印度糖尿病数据集。支持向量机有一些局限性,当要素大小超过训练样本的大小。PCA在变量缩放和用于降维时是微妙的。EM具有较慢的收敛速度,这意味着它们仅限于局部最小值[11]。使用带有ANN的Velocity增强鲸鱼优化算法(VEWOA)来诊断癌症数据集。该方法在WBC,宫颈癌和肺癌数据集中提供了97.65%的分类准确率,优于其他不同的分类问题,如C4.5,LVQ,LDA和FDA [12]。开发了多次运行和替代数据分析来预测骨关节炎患者发生的股骨松质骨的抗压强度。分类准确率为98.3%。在这里,该方法是在医疗领域中针对小规模数据集的回归NN的应用[13]。一个框架的基础上开发的进化算法,用于诱导一组规则,以正确地分类临床数据集。得出的结论是,上限计算极端的规则大小的训练数据集。学习方法使用的运行时间和内存都有改进[14]。神经网络医疗是当今世界的巨大需求[15 ]第10段。神经网络可以吸引隐藏的模式,并在它们之间建立连接,这是软计算的一大成功[16,17]。 在这方面经常使用分类方法在在分类中,每个类别被分配有不相似的标签,并且其余未分类的形式根据相似量被分类。有许多用于医学科学的预测方法的例子。神经网络的一些优点是:(1)它可以检测非独立变量和独立变量之间的非线性复杂关系。(2)许多训练算法(3)的可访问性需要较少的公认统计训练。一些机器学习技术,如粒子群优化(PSO),是由Eberhart博士和Kennedy博士在1995年开发的,这是一种基于种群的优化技术,灵感来自鱼类集群的社会行为。它们与遗传算法等进化算法有相似之处。粒子群算法的局限性在于在高维空间和复杂问题中容易陷入局部最优,收敛速度较慢。另一种技术局部线性小波神经网络(LLWNN)是小波神经网络(WNN)的修改,其中局部隐藏层单元被激活。小波神经网络的主要局限性是需要大量的隐层单元来处理高维问题。LLWNN的局限性在于它需要一个优化算法,使得得到的误差被优化到全局最优。大象放牧优化(欧洲人道主义组织)[18个国家]算法是一自然启发的基于种群的优化算法,提高了算法的全局和局部搜索能力。由于它们不是导数,因此不会陷入局部最优。另一个优点是易于实施。在本文中,首先评估了在各种类型的肿瘤上创建的各种医学数据集,如肺癌,宫颈癌和乳腺癌数据集,然后使用不同的特征选择算法(如ANOVA和Kruskal-Wallis)选择相关特征,并将其馈送到EHO。特征选择使分类过程更容易和更快。该算法的性能评估的帮助下,各种参数,如正确分类率(CCR),均方根误差(RMSE),灵敏度和特异性。EHO-NN,然后与其他分类问题,如LLWNN和粒子群算法进行比较,没有特征选择。结果表明,与其他方法相比,使用Kruskal-Wallis特征选择算法的肺癌数据集的EHO最低,RMSE为0.2144。最后,建立了EHO-NN,LLWNN和PSO的混淆矩阵,以清楚地显示在三个不同的数据集中有和没有特征选择的分类精度。结果表明,EHO在白细胞数据集上的分类准确率为98.37%,与Kruskal-Wallis的特异性为97.13,在肺癌数据集上的敏感性为100%,与其他方法相比最好。根据这些表,很明显,分类技术在没有特征选择技术的情况下需要更多的时间,但在有特征选择技术的情况下需要更少的时间。第2节解释了EHO第3节中对各种分类问题进行了辩论。不同特征选择算法在第4节中指定。数据集的详细信息见第5节。结果见第6节,第7节定义了结论。2. 大象放牧优化EHO是一种基于群的搜索技术,用于解决不同的优化技术。该算法的动机是羊群行为的大象组。大象以氏族为单位进行分组,它们的首领是女族长。成年的公象离开了它们的家庭群体。因此,象群的这两种行为导致两个算子,即族更新算子和分离算子[18]。对于不同类型的全局优化问题,有一些规律需要遵循。这些规则说明如下:1. 每个氏族由一群大象组成,由女族长指挥。M. Nayak等人医学信息学解锁21(2020)1004453NN≤ ≤==(I1 1+.+的n)×n=(I1 1+.+的n)×|我|a我中心,k,d=θp2. 大象的种群由氏族组成,其中大象的数量是固定的。3. 在每一代中,成年公象都会离开象群。2.1. 氏族更新操作符:当大象一起移动时,在氏族pk中,每头大象因此,大象Z新,pk,t = Zpk,t + δ τ。Zbest,pk-Zpk,t)r(1)其中,Znew,pk,t=象t在族中的新位置PKZpk,t=大象t在氏族pk中的旧位置 Z最佳,pk=氏族pk中r∈ [0,1]=均匀分布δ∈ [0,1] =确定矩阵家长pk对Zpk,t的影响程度,因此被认为是缩放因子。氏族中最适合的大象可以描述为:Znew,pk,t=γ<$Zcenter,pk(2)Znew,pk,t是从存在于2.2. 分离算子在象群中,当公象进入青春期时,它们将离开家人独自生活。EHO方法的搜索能力可以通过假设在每一代分离算子通过具有最差适应度的大象个体的帮助来应用来改进,因此等式可以写为:Z最差,pk=Zmin+(Zmax-Zmin+1)随机数(4)式中,Z最差,pk=族中最差的象.PKrand∈ [0,1] =随机分布Zmax=每个大象的上限位置。Zmin=每个大象的下限位置。分离运算符的伪代码:在从族更新算子和分离算子获得的信息的帮助下,EHO技术得到了发展,并且可以概述如下:y∑wi=1w k∑wi=1w ka-1/2(k-bi)(5)族PKγ∈ [0,1] =确定Z新,pk,t受Z中心影响的程度,pkZ中心,pk=族pk的中心,可由给定的d维Zp1<$(∑pkZKt=1(三)这里Z pk,t,d 是Zpk,t的第d个大象θpk=部落pk中的大象数量氏族更新算子伪码:3. 分类问题3.1. 局部线性小波神经网络它是WNN的一种改进形式[19]。输出层将输出方程定义为:其中k [k1,k2kn]。在该方法中,代替直接权重,考虑线性模型,即,wiv i=w i0+w i1k1+.... + w in a n(6)i0+i0+×pk,t,dM. Nayak等人医学信息学解锁21(2020)10044542..)的。.))======-12其中ai=比例参数。bi=平移参数。Wavelet的激活函数小波神经网络引入局部线性模型的原因有:(1)局部线性模型在样本稀疏建模时,会突出高维空间; (2)在一些神经模糊系统中,局部线性模型表现出更好的性能[20LLWNN的伪代码[输入:初始化种群;输出:错误]:输入:最初创建一个人口与初始化缩放和平移参数. ai,b i然后计算误差。使用萤火虫算法优化误差。重复第2步和第3步,直到获得停止标准。端4. 特征选择算法4.1. ANOVAANOVA可视化样本的多个平均值之间的任何重要差异的存在,并且在比较数据集的“多个平均值”理想时很有用在该特征选择方法中,统计量被称为F统计量,所有计算如下所述:(i) 组间差异平方和(BSS)=w1(X′1-X2′)2+w2。X′-X′)2+(9)均方间(BMS)=BSS/df(10)(ii) 集团内的差异平方和内(WSS)=(w1- 1)k2+(w2- 1)k2+(11)3.2. 粒子群优化算法它是由Eberhart和Kennedy提出的一种自适应算法。在这种方法中,粒子(种群中的个体)通过反复随机地适应早期的阳性区域。它们有两个主要操作符,即速度和位置更新。在每一代中,每个粒子加速到粒子的前一个最佳位置和全局最佳位置。在每次迭代中,根据其当前速度、与全局最佳位置的距离以及与其先前最佳位置的距离,为每个粒子设计新的速度。在搜索空间中,根据新速度的值确定下一个位置。迭代该算法直到达到最小误差[23]。速度由给定方程确定wij=vw ij+d1×1Li-aij+d2×2gbest-aij(7)每个粒子的位置通过使用以下等式更新:aij=aij+wij(8)其中w=粒子通过参数空间的速度矢量。a= n个随机变量的向量。Li=局部最佳值。gbest=全局最佳值v=惯性权重。d1 d2=加速度常数&1PSO算法[24]:内均方(WMS)=WSS/dfw(12),其中df=自由度dfw(W-n)k标准差W总样本n总组数Wnn组样本总数(iii) F-测试静态的计算由下式给出:F= BMS/WMS(13)ANOVA算法4.2. Kruskal-Wallis检验Kruskal-Wallis是一个非参数过程,它检验了相同来源的样本之间的相似性,无论它们是否属于相同分布。该过程涉及各种样本量的每个样本。零假设通过这个过程进行测试,但是当存在不同的分布时,它通过具有相同值的中位数取消零假设[25]。数据向量被移动到秩的上升顺序(R),即R1到Rn.在序列相同的情况下,对它们的序列作平均秩图因此,该过程可以描述为:M. Nayak等人医学信息学解锁21(2020)1004455L∑n 为H12(∑kr2)3n 1(十四)=n(n+1)l=1ML- (+)其中,rl=第l组的秩和。kl=1Ml为样品尺寸Kruskal-Wallis算法5. 调查结果和分析5.1. 数据集的详细信息在本文中,使用三个数据集的分类器进行评估。第一个是WBC数据集,可在[26]访问。其中,属性大小为699,要素大小为9。第二个是从委内瑞拉加拉加斯的“医院;加拉加斯大学”收集的宫颈癌数据集。它可以在[27]访问,有858个属性和36个功能。最后一个是肺癌诊断,可以在[28]中找到。这里,实例的大小为32,特征的大小为57。5.2. 实现细节图1总结了该论文的总体贡献,也可以用以下方式描述步骤1:将数据集提供给进行分析的系统在这种情况下,三种类型的数据,即威斯康星州乳腺癌,肺癌和宫颈癌被用于分析目的。步骤2:识别模式和特征步骤3:执行数据预处理,其中缺失的数据由列值的平均值替换,并执行特征选择。步骤4:使用ANOVA和Kruskal-Walis等特征选择算法来识别相关特征。仅使用所选要素重建数据集Fig. 1. 完成的总体工作流程图第七步:利用最佳拟合象群对种群的适应度再次进行评估,并通过与目标适应度的比较计算分类精度。之后,将结果与其他分类技术如LLWNN和PSO进行了比较。步骤8:最后,构建混淆矩阵X。第九步:结束。分类器的性能通过使用三个训练由70%的数据组成,测试由30%的数据组成。首先忽略缺失值在使用分类器检查数据之前,对在数据被清理之后,使用最小-最大标准化对其进行标准化。最小值-最大值归一化的公式可以用公式表示如下:步骤5:修改后的数据集充当EHO的族。第6步:神经网络架构与EHO集成神经网络即多层前馈网络用于评估每个大象的适应度。在适应度计算完成后,实现了族更新算子和族分离算子。最合适的大象作为下一代的氏族。Xoriginal-XminimumXmaximum-Xminimum分类器的性能由。1. 正确分类率(CCR):(十五)X=标准化M. Nayak等人医学信息学解锁21(2020)1004456==No. 准确分类的模式总数没有。图案2. 均方根误差(RMSE):(十六)表2功能的详细信息数据集编号属性号所选特征数RMSE√̅∑N̅(̅Y̅n̅-Tn)̅2̅(十七)=n= 1N表3其中Yn=预期输出。Tn实际输出(目标)N总数据样本大小3. 灵敏度:真阳性真阳性+假阴性4. 专属性:真阴性+假阳性(十八)(十九)乳腺癌数据集的RMSE和CCR详情分类特征选择算法方法RMSECCR以秒为单位的时间EHO-NN无0.54360.9661.231ANOVA0.52130.9831.112克鲁斯卡尔-瓦利斯0.46210.98370.873LLWNN无0.64210.96280.8456ANOVA0.68430.96930.8123克鲁斯卡尔-瓦利斯0.90870.9760.9120PSO无0.91210.9660.8512ANOVA0.92120.97350.8124克鲁斯卡尔-瓦利斯1.01120.98430.9342MATLAB 14用于在具有1.9GHz时钟速度的Intel(R)Core(TM)I3-40300个人计算机的表4宫颈癌数据集的RMSE和CCR的详细信息当输入变量被标准化时,使其不受测量单位的限制。首先,通过EHO训练数据集,然后将结果与PSO和LLWNN等各种分类器分类器运行50次,每次运行100次迭代。输出为二进制格式(1表示恶性,0表示良性。6. 结果和讨论计算结果用图表表示,表1描述了不同数据集分类特征选择RMSE CCR输入时间如WBC、肺癌和宫颈癌数据集,采用各种分类技术,比较它们的分类精度。EHO-NN分类器在白细胞、肺癌和宫颈癌数据集上的识别率分别为98.37%、90.4%和96.71%。在其他方法中,AMMLP在WBC数据集中显示出99.26%的准确性,而DCNN在宫颈癌数据集中显示出93.33%的准确性,这是值得注意的。表2描述了WBC、宫颈癌和肺癌数据集的特征数量、属性数量的详细信息,这也在第6.1节中进行了解释。该表还描述了所选的几个特征,其中WBC数据集中有5个,宫颈癌数据集中有27个,肺癌数据集中有49个表3描述了乳腺癌数据集的详细信息。在此,所有的分类器,如EHO-NN,PSO,LLWNN进行比较,通过特征选择算法,如方差分析和Kruskal-Wallis测试,而没有基于CCR和RMSE参数的特征选择乳腺癌数据集。这里,LLWNN的RMSE值为0.6421,其中0.9628表1不同数据集的外部验证。CCR值和所需时间为0.8456 s,在没有特征选择的情况下显示出更好的结果,值得一提。EHO-NN显示最佳RMSE值为0.4621,在Kruskal-Walis情况下CCR值为0.9837,耗时0.873 s。表4描述了宫颈癌数据集的详细信息。在这方面,所有的分类器,如EHO-NN,PSO,LLWNN进行了比较,通过特征选择算法,如方差分析和Kruskal-Wallis测试,而没有基于CCR和RMSE参数的特征选择宫颈癌数据集。RMSE值为0.2311的PSO值得一提,在Kruskal-Walis的情况下,CCR值为0.9561,耗时0.8013 s。具有Kruskal-Walis检验的EHO-NN在0.8054秒内显示0.2120 RMSE值和0.9671 CCR值,这是结果中最好的表5描述了肺癌数据集的细节。在这方面,所有的分类器,如EHO,PSO,LLWNN进行了比较,通过特征选择算法,如方差分析和Kruskal-Wallis检验,而没有基于CCR和RMSE参数的特征选择肺癌数据集。在这里,具有Kruskal-Walis的PSO显示0.4963 RMSE和0.808 CCR,表5类型的数据集分类准确率百分比(%)源肺癌数据集的RMSE和CCR详情WBC“AMMLP”“CNNs”肺癌“ANN”EHO-NN无0.40120.8194 0.8351方差分析0.21440.8821 0.8265克鲁斯卡尔-瓦利斯LLWNN无0.5436 0.845 0.8124“Feed-Forward Back-93.33 [10]方差分析0.5328 0.808 0.84251.联合国系统宫颈“EHO-NN”96.71提出PSO没有0.67210.8450.8145癌“GEP”71.96[八]《中国日报》ANOVA0.49630.8080.8071DCNN93.3[9]克鲁斯卡尔-瓦利斯0.68970.9410.9123CCR=WBC乳腺癌69995宫颈癌858肺癌32例36572749算法方法秒EHO-NN没有0.23110.89960.8723ANOVA0.22860.95730.8624LLWNN克鲁斯卡尔-瓦利斯没有0.21200.41210.96710.92710.80540.8924PSOANOVA克鲁斯卡尔-瓦利斯无0.45210.67510.31210.94760.95810.93750.82340.92350.8481ANOVA0.23110.95610.8013克鲁斯卡尔-瓦利斯0.43140.9490.9341分类特征选择RMSECCR时间算法方法秒M. Nayak等人表6医学信息学解锁21(2020)1004457型号-1 9 0 0 100用粒子群算法训练的神经网络在白细胞分类中得到了混淆矩阵和分类精度特征选择算法类“良性”“恶性”分类百分比分类准确率(%)灵敏度特异性没有“良性”4481097.896.697.695.83“恶性”1123095.4ANOVA“良性”4471197.697.3598.4595.51“恶性”723497.1克劳斯卡尔·瓦利斯“良性”455399.3498.4398.6998.73“恶性”623597.51表7用粒子群算法训练神经网络,得到宫颈癌的混淆矩阵和分类精度特征选择算法类“良性”“恶性”分类百分比分类准确率(%)灵敏度特异性没有“良性”7901398.493.7599.2479.03“恶性”64989.1ANOVA“良性”7911298.595.6199.4980.95“恶性”45192.72克劳斯卡尔·瓦利斯“良性”794998.8894.999.3784.74“恶性”55090.9表8用粒子群优化算法训练神经网络,得到肺癌的混淆矩阵和分类精度。特征选择算法类别类型-1类型-2类型-3%分类分类准确度(%)灵敏度特异性无类型-1 8 0 1 88. 89 84. 5 88. 89 91. 32型坦克0 11 2 84.63型坦克2 0 8 80方差分析类型1 7 0 2 77.78 80.8 77.78 86.952型坦克2 11 0 84.61型号-3 1 1 8 80克鲁斯卡尔·瓦利斯94.1 100 95.652型坦克0 12 1 92.33型1 0 9 900.8071 s,这与Kruskal-Walis的LLWNN相比明显更小,显示出0.6574RMSE和0.904 CCR。EHO-NN显示0.2144 RMSE方差分析结果表明,该模型的CCR为0.8821,平均耗时为0.8265 s,与其他模型相比,该模型的CCR最优。表6-他们解释了PSO在有和没有像ANOVA和Kruskal-Wallis这样的特征选择算法的情况下的性能。粒子群优化训练的神经网络在白细胞数据集上的分类准确率为98.43%,特异性为98.73%,在肺癌数据集上的敏感性为100%。表9他们解释了LLWNN在有和没有像ANOVA和Kruskal-Wallis这样的特征选择算法的情况下的性能。LLWNN在WBC数据集中的分类准确率为97.6%,特异性为97.08%,在宫颈癌数据集中的敏感性为99.49%。表12从EHO训练的NN分别在WBC、cer和肺癌数据集中获得的灵敏度和特异性。他们解释了EHO-NN在使用和不使用ANOVA和Kruskal-Wallis等特征选择算法的情况下的性能。EHO-NN结合Kruskal-Walis算法对白细胞、宫颈癌和肺癌的分类准确率分别为98.37%、96.71%和90.4%,优于其他方法 。EHO-NN 在 WBC、宫 颈癌 和肺 癌数 据集 上的 敏感 性分 别为99.12%、99.62%和100%。EHO-NN的特异性为97.13%,Kruskal-Walis为85.24%,Kruskal-Walis为95.65%,方差分析在WBC、宫颈癌和肺癌数据集中分别显示最佳结果。根据这些表格,很明显,分类技术需要更多的时间不使用特征选择技术,但更少的时间使用特征选择技术。显示更好性能的RMSE值以粗体显示格式.EHO-NN在乳腺癌数据集中显示0.4621 RMSE,使用Kruskal-Wallis在宫颈癌数据集中显示0.2120 RMSE,使用ANOVA在肺癌数据集中显示0.2144 RMSE,与其他优化技术相比显示最佳结果。表9将LLWNN训练后的神经网络应用于白细胞分类,得到了混淆矩阵和分类精度特征选择算法类“良性”“恶性”分类百分比分类准确率(%)灵敏度特异性没有“良性”4431597.1696.2897.5793.87“恶性”1123095.4ANOVA“良性”4471197.696.9398.0295.47“恶性”923296.26克劳斯卡尔·瓦利斯“良性”451798.4897.698.2597.08“恶性”823396.7M. Nayak等人医学信息学解锁21(2020)1004458型号-1 8 1 0 88.89表10用LLWNN训练的神经网络在宫颈癌数据集上获得混淆矩阵和分类精度特征选择算法类“良性”“恶性”分类百分比分类准确率(%)灵敏度特异性没有“良性”7881598.1392.71599.1176.19“恶性”74887.3ANOVA“良性”7921198.6394.76599.3781.96“恶性”55090.9克劳斯卡尔·瓦利斯“良性”794998.8895.8199.4985“恶性”45192.73表11在肺癌数据集上,LLWNN训练的神经网络获得了混淆矩阵和分类精度特征选择算法类别类型-1类型-2类型-3%分类分类准确度(%)灵敏度特异性无类型-1 8 0 1 88. 89 84. 5 88. 89 91. 32型坦克1 11 1 84.63型1 1 8 80方差分析类型-1 7 1 1 77.78 80.8 77.78 86.952型坦克2 11 0 84.61型号-3 1 1 8 80克鲁斯卡尔瓦利斯90.4 88.89 95.652型坦克1 12 0 92.33式坦克0 1 9 90表12用EHO训练的神经网络对白细胞进行了混淆矩阵和分类准确率的测试特征选择算法类“良性”“恶性”分类百分比分类准确率(%)灵敏度特异性没有“良性”4421696.596.698.2293.5“恶性”823396.7ANOVA“良性”450898.2598.399.1196.73“恶性”423798.34克劳斯卡尔·瓦利斯“良性”451798.498.3799.1297.13“恶性”423798.34表13EHO训练神经网络在宫颈癌中的混淆矩阵和分类精度特征选择算法类“良性”“恶性”分类百分比分类准确率(%)灵敏度特异性没有“良性”7881598.01389.96598.781.81“恶性”104581.8ANOVA“良性”7931098.7595.7399.4983.60“恶性”45192.7克劳斯卡尔·瓦利斯“良性”794998.8896.7199.6285.24“恶性”35294.54图图2-4描绘了迭代次数和MSE值之间的曲线图。图2示出了在不使用任何特征选择方法的情况下WBC数据集的MSE收敛。图3示出了不使用任何特征选择方法的宫颈癌数据集的MSE收敛。图4示出了在不使用任何特征选择方法的情况下肺癌数据集的MSE收敛。因此,这些图描述了EHO-NN,LLWNN和PSO在WBC,肺癌和宫颈癌数据集中的MSE值,而不使用任何特征选择方法。从图中可以清楚地看出,EHO-NN显示出比其他方法更方法,而不使用任何特征选择算法。图 图5- 7描绘了各种数据集中的(EHO-NN)-ANOVA、(EHO-NN)-KruskalWalis、LLWNN-ANOVA、LLWNN-KruskalWalis、PS0-ANOVA、PS0-KruskalWalis的MSE的比较。图5显示WBC数据集中MSE的比较。图6显示了宫颈癌数据集中MSE的比较。图7显示了肺癌数据集中MSE的比较。从图中可以清楚地看出,(EHO-NN)-ANOVA显示出比其他方法更好的MSE。表14EHO训练的神经网络在肺癌中的混淆矩阵和分类精度特征选择算法类别类型-1类型-2类型-3%分类分类准确度(%)灵敏度特异性无类型-1 8 1 0 88. 89 81. 94 88. 89 86. 952型坦克2 10 1 76.923型1 1 8 80方差分析类型1 9 0 0 100 88.21100 95.652型坦克1 11 1 84.61型号-3 0 2 8 80Kruskalwalis型-1 8 0 1 88.8990.488.8995.652型坦克0 12 1 92.33型1 0 9 90M. Nayak等人医学信息学解锁21(2020)1004459图二. WBC的MSE收敛图三. 宫颈癌7. 结论软计算技术有效地建立了早期发现癌症。隐藏模式可以通过神经网络技术驱动。此外,为了最小化误差,优化方法帮助我们得到半最优解。癌症是人类生命中的一个悲剧。这种疾病能容易治愈的唯一方法是早期发现。这是通过使用许多类型的机器学习技术来实现的。在本文中,EHO技术通过各种类型的癌症数据集(如乳腺癌、肺癌和宫颈癌数据集)进行评估。这里,使用了ANOVA和Kruskal-Wallis等特征选择算法。当只选择相关特征时,分类器很容易给出最佳结果。EHO-NN与不同的分类器有关,例如见图4。 肺癌的MSE收敛。图五. WBC的MSE收敛。见图6。 宫颈癌的早期症状PSO和LLWNN,有和没有特征选择算法。EHO-NN的性能进行了验证,通过使用性能矩阵,如CCR和RMSE。 EHO-NN显示0.4621和0.2120RMSE,0.9837在WBC和宫颈癌数据集中分别使用Kruskal-Walis在0.873和0.8054 s内为0.9671 CCR,在肺癌数据集中使用ANOVA在0.8265 s内为0.2144 RMSE和0.8821 CCR。EHO-NN与其他优化算法相比,具有更好的效果。图表表明,EHO-NN可以取代其他方法。根据这些表,很明显,在没有特征选择技术的情况下,分类技术需要更多的时间,但是在有特征选择技术的情况下,分类技术需要较少的时间。因此,特征选择可以在时间重要时使用在见图7。 肺癌的MSE收敛。M. Nayak等人医学信息学解锁21(2020)10044510在未来,EHO-NN可以与许多复杂的网络和复杂的数据集,以获得更好的结果。竞合利益作者声明,他们没有已知的竞争性财务关系或个人关系,可能会影响本文报道的工作附录A. 补充数据本 文 的 补 充 数 据 可 在 https : //doi 网 站 上 找 到 。org/10.1016/j.imu.2020.100445。引用[1] 最新全球癌症数据:2018年癌症负担上升至1810万新发病例和960万癌症死亡。国际癌症研究机构,世卫组织,新闻稿; 2018年。[2] FengF,et al. 人工神经网络与肿瘤的结合效果 JMed Syst 2012;36(5):2973-80。[3] EkhlasFalih.使用FREAK描述符对小鼠精子中的血浆影响进行分类”。卡尔巴拉现代科学杂志2020;6(1)。https://doi.org/10.33640/2405-609X.1352.[4] 应用基因表达编程和神经网络预测宫颈癌患者根治性子宫切除术的不良事件MedBiol Eng Comput 2013;51 ( 12 ) : 1357https://doi.org/10.1007/s11517-013-1108-8网站。[5] Wu M等人,在:使用卷积神经网络从细胞学图像自动分类宫颈癌。38.北京:人民出版社,2018. https://doi.org/10.1042/BSR20181769。六、[6] Gunavathi K. Jinsakuruvilla神经网络在ct图像肺癌分类中的应用。计算方法进展生物医学2014;113(1):202-9. https://doi.org/10.1016/j.cmpb.2013.10.011。[7] Cedeno AM,et al. WBCD乳腺癌数据库分类应用人工亚塑性神经网络。ExpertSyst Appl 2011;38(8):9573网址://doi. org/10.1016/j.eswa.2011.01.167。[8] Araujo T等人,使用卷积神经网络对乳腺癌组织学图像进行分类。研究文章2017.https://doi.org/10.1371/jounal的网站。pone. 0177544.[9] 陈祥。从计算智能和软计算技术的高级方面对大规模类数据进行性能识别。IntJHigh Performance Comput Netw 2019;13(Issue 3)。https://doi.org/10.1504/IJHPCN.2019.098569。[10] Gauthama Raman MR,Nivethitha Somu,Kannan Krithivasan,Shankar SriramVS.使用粗糙集理论和超图进行高维医学数据集特征选择的混合方法。软计算2019;23:12655-72. 网址:http://doi.org/10.1007/s00500-019-03818-6[11] Mehrbakhsh Nilashi,Othman Bin Ibrahim,Mardani Abbas,Ali Ahani,Ahmad Jusoh.糖尿病疾病分类的软计算方法Health Inf J 2018;24(4):379-93. https://doi.org/10.1177/1460458216675500网站。[12] Soumya Das,Sarojananda Mishra,Manas Ranjan Senapati,https://doi.org/10.1007/s13369-01
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功