没有合适的资源?快使用搜索试试~ 我知道了~
深度神经学习方法预测癌症的研究
沙特国王大学学报基于深度神经学习的癌症预测新方法放大图片作者:Haitham Elwahsha,Medhat A.Tawfeekb,c,A.A.Abd El-Azizd,e,Mahmood A.马哈茂德d,e,Maazen Alsabaanf,Engy El-shafeiyga埃及Kafrelsheikh Kafrelsheikh大学计算机和信息学院计算机科学系b沙特阿拉伯,Jouf大学,计算机和信息科学学院,计算机科学系c埃及Menoufia大学计算机和信息学院计算机科学系d沙特阿拉伯Jouf大学计算机和信息科学学院信息系统系e埃及开罗大学统计研究研究生院信息系统和技术系f沙特国王大学计算机与信息科学学院计算机工程系,沙特阿拉伯利雅得g埃及萨达特城萨达特城大学计算机与人工智能学院计算机科学系阿提奇莱因福奥文章历史记录:接收日期:2023年2023年4月16日修订2023年4月19日接受2023年4月25日在线发布保留字:DNLC方法深度神经网络学习癌症预测癌症分类特征选择A B S T R A C T我们今天知道,许多因素作为癌症的原因起着重要作用。正因为如此,医生的意见不能单独用于分类癌症。因此,提供医疗援助的智能算法是必要的。此外,许多研究人员已经采用它们来估计患者生存的可能性癌症预后预测的准确性目前受到广泛关注。由于深度神经学习(DNL)方法可以从大量的临床和遗传数据中快速预测结果,因此它们对于预测各种疾病至关重要。深度神经学习是我们建议的方法的基础。我们的深度神经学习癌症预测模型(DNLC)有以下几个阶段。在第一阶段,深度网络(DN)用于从数据集中选择最佳特征集合。在第二阶段,我们使用深度神经网络(DNN)训练基因组或临床数据样本。在第三阶段,我们评估DNLC模型在癌症早期阶段预测癌症DNLC使用五种癌症数据集进行分类,分别用于结肠癌、肺腺癌、鳞状细胞癌、乳腺癌和白血病癌症。这五个癌症数据集用于实验,以预测建议的模型的性能。数据集分为两部分:训练集,占数据集的80%,测试集,占20%。实验结果表明,该模型在准确性方面优于早期的CNN和RNN模型。我们的研究结果表明,DNLC技术,平均准确率为93%,优于其他方法在所有情况下。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍*通讯作者。电子邮件地址:haitham. gmail.com(H. Elwahsh),maelaarg@ju.edu. (硕士)Tawfeek),aaeldamarany@ju.edu.sa,a. cu.edu.eg(A.A. Abd El-Aziz),mamahmood@ju.edu.sa(M.A.Mahmood),malsabaan@ksu.edu.sa(M.Alsabaan),engy. gmail.com(E. El-shafeiy)。沙特国王大学负责同行审查许多细胞类型可以发展成癌症,这是非常难以识别和诊断的。肿瘤是异常细胞,表现出不稳定和随机的形式。这些肿瘤细胞也可分为两个主要组:良性和恶性(Aly et al.,2021年)。起初,恶性肿瘤在附近的组织细胞中扩散,阻碍健康组织细胞的发育。 与第一种相反,第二种是非癌组织细胞,并且不影响其周围的组织。2021)承认在寻找恶性肿瘤时难以识别组织结构的异常。此外,这些群体的微妙变化需要特殊的医疗程序。这些可以用于不同的治疗,如手术,放射和口服药物https://doi.org/10.1016/j.jksuci.2023.1015651319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comH. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报2许 多 遗 传 和 表 观 遗 传 变 化 相 互 作 用 导 致 癌症的复 杂 疾 病(Khachatryan et al., 2016年)。这些变化会影响细胞的脆弱性 , 导 致 正 常 细 胞 转 化 为 癌 细 胞 ( Dimitrakopoulos 和Beerenwinkel,2017)。根据最近的研究,恶性肿瘤是高度突变的生物实体,其主要破坏参与细胞再生、增殖和凋亡的基因,这促进恶 性 肿 瘤 生 长 ( Ettayebi 等 人 , 2016 年 ) 。 随 着 下 一 代 测 序(NGS)的出现和基因组学的发展,对癌症生物学的理解已经发生了革命性的变化,改善了诊断和治疗,并让位于精确医学和癌症基因组学的时代(Lawrenceet al.,2013年)。精准医学是一种临床方法,旨在考虑不同的临床参数和生物标志物,为每位患者选择最合适的治疗方法近年来,对人类基因组进行了系统研究,以确定特定类型癌症中的复发性遗传改变,有助于在分子水平上了解癌症。 单核苷酸变异(SNV)、微小插入和缺失(Indel)、基因融合、拷贝数变异(CNV)和显著的染色体重排(也称为结构变异(SV))构成了这些遗传变化的大部分(Cheng et al.,2016年)。研究集中于鉴定驱动突变,与正常细胞相比,其赋予癌细胞选择性增殖优势 这样的突变将因果地参与肿瘤发生,肿瘤发生是开发新疗法的主要靶标(Helleday等人, 2014年)。此外,提出的挑战之一此外,无论肿瘤的组织学如何,这些和其他突变可能与癌症诊断和复发有关,从而赋予预测价值(Helleday等人,2014年)。通过这些基因组研究,已经可以确定癌症是复杂的和高度异质的,因为遗传机制在相同病理类型的患者之间可能不同(Yang等人, 2014年)。通过这种方式,可以根据每例患者的特征性分子特征识别易感遗传变异和肿瘤亚型(Riazalhosseini和Lathrop,2016)。 NGS技术已经允许研究人员通过不同的测序技术如全基因组鉴定具有高死亡率和发病率的人类癌症如肺癌和乳腺癌的基因组变异(Balloux等人,2018)、全外显子组(全外显子组测序,WES)和感兴趣的基因子集(靶向组测序)。这些进展促进了重要的改变遗传途径的识别,并提供了癌症的全基因组视图。癌症削弱免疫系统并产生其他细胞,更大变化,这就是为什么它是一个持续的关注来源。最常见的恶性肿瘤包括卵巢癌、肺癌、乳腺癌、结肠癌、宫颈癌和前列腺癌。各种先前的研究人员设计了用于确定癌症生长、复发、缓解的可能性和测量患者存活率的框架(Hayes等人,1996年)。对于患者,他们的照顾者和临床医生来说,癌症预后的准确性至关重要。临床医生预测的准确性是提供良好患者护理的一个因素(Glare等人,2003年)。对于识别新的转移性肿瘤形式或在治疗更困难的早期诊断疾病的机器,它们需要采用可以对肿瘤类型进行分类并识别癌症症状的疾病检测方法。在过去的三十年里,前列腺癌、肺癌和乳腺癌是最有可能在男性和女性中发展的性别特异性癌症。因此,建立一个可靠的早期癌症预测模型至关重要.支持向量机(Support Vector Machine,SVM)被广泛应用于包括医学在内的各个领域,并给出了较高的预测精度性能在两线性和非线性电路姿态 癌症预测模型仍处于其婴儿期,尽管SVM是一种显著的分类器(Statnikov等人, 2005年)。最近已经使用基于人工神经网络(ANN)的方法解决了乳腺癌分类、分割和检测(Cheng等人,2016年)(例如,外部神经网络(SNN)(Nhu等人,2020)和深度神经网络(DNN)(Murtaza等人, 2020),以及机器学习(ML)技术,如支持向量机、逻辑回归、朴素贝叶斯分类器和决策树。深度神经网络(DNN)通常在输入和输出之间包含两个或更多个隐藏层,与众多的浅神经网络(SNN)相反 只有少数出版物(Murtaza等人,2020; Deshmukh和Kashyap,2022; Houssein等人, 2021)描述了乳腺癌在医学成像模式中的分类。 其他研究(Dar等人,2022; Travis等人,2013)研究了应用手工设计的特征与 使 用 ML 技 术 分 析 乳 腺 癌 图 像 的 优 势 。 突 变 试 验 ( Pao 和Ladanyi,2007)已成为在临床试验中选择最有效的患者治疗方法的重要工具对于未鉴定的突变,直接测序是间接测序的一种基于筛选的替代方法。 表皮生长因子受体(EGFR)的突变试验已被确定为肺癌的基因突变试验(Cong et al., 2020年)。人工神经网络和支持向量机,两种类型的分类工具,与他们的非集成同行。深度学习是人工智能的一个子集,属于同一类别。深度学习是一种从数据中提取特征(如文本、图像或语音)的技术深度学习是AI最重要的特性之一传统的AI系统需要许多步骤来完成图像识别任务,包括预处理,特征提取,仔细的特征选择,学习和评估(xxxx)。这些系统的引入依赖于所选择的特征,这些特征可能是也可能不是用于区分类别的最佳属性。相比之下,深度学习使用自动学习功能来完成各种任务,而不是传统的人工智能方法。它可以在一个步骤中学习和处理数据集(Pohekar和Ramachandran,2004)。元启发式算法分为两类:单-解决办法和人口基础。在后一种类型中,优化算法使用代表种群的初始随机搜索代理相比之下,在前一种类型中,优化算法利用在迭代之间改变和更新的单个候选解来执行优化过程。优化问题的每个答案都成为下一个搜索代理的新候选。各智能体之间相互协作,交换搜索区域的知识,以防止局部最优陷入停滞,达到全局最优的目的。许多研究(Mela等人,2012; Xu和Zhang,2014)使用不同的优化策略来应对决策挑战。元启发式算法必须在开发和探索之间保持适当的控制和健康的平衡(Mafarja和Mirjalili,2017)。利用是指能够找出比公认理论更好的解决方案的能力探索包括使用Meta搜索来为新站点寻求更大的搜索空间。大多数Meta算法在优化过程的早期使用探索,以彻底评估可行区域并避免局部最优值的衰退一些元启发式技术已经与包装器方法相结合,以在合理的时间内提供令人满意的结果除了使用单一的优化技术来解决特征选择(FS)问题外,研究人员还开发了其他混合方法来处理二进制优化挑战。例如,在(xxxx)中研究了鲸鱼优化算法(WOA)和模拟退火混合策略,并且在(Shukla等人,2019年)。一种结合了FS的过滤器和包装器方法的H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报3已经进行了研究(Tubishat等人,2021年)。然而,不能保证FS问题会产生更好的性状选择此外,没有免费的午餐(NFL)定理禁止使用任何优化器来解决优化问题(Alzahrani和Venneri,2015),这解释了为什么一些优化器在处理特定的优化挑战时表现不佳。早期癌症组织检测的重要性怎么强调都不过分.因此,病理学家需要花费大量的时间和精力从癌症组织数据的视觉感知中识别肿瘤模式(Meuten等人, 2021年)。迫切需要建立一种自动化的计算机辅助方法来帮助病理学专家识别癌症。病理学家对组织病理学图像的分析将花费更少的时间和精力(Zováthi等人,2022;Madabhushi等人, 2011年)。为了识别恶性肿瘤,经常采用ML/DL然而,大多数研究人员只依赖于一种深度学习模型,如RNN,LSTM,CNN等。因此,确定这些模型的性能不足。混合DL模型始终能够增强分类性能(Kanna和Santhi,2022)。本研究提供了DNLC策略,以提高分类性能和识别癌组织的效率,解决上述重大问题。该研究的主要贡献如下。为了减少病理学家的不准确性,本研究提供了一种新的深度神经学习模型,该模型从组织病理学数据中提取较少的特征并对其进行分类。建议在临床研究中有效使用DNLC技术对癌症检测进行分类。我们比较了主要性能指标(Acc(%)、准确度(%)、灵敏度(%)和特异性(%)、F1评分和AUC),并将当前ML/DL模型应用于五个数据集,作为拟议DNLC方法评价过程的一部分。以确定混合模型在分类方面的表现如何。将所提出的混合模型与已有的混合DL模型进行比较,发现其分类效果良好。本文件的结构如下。与研究相关的文献和信息综述见第2节。第3节提供了深度神经网络的详细信息,第4节描述了所提出的DNLC方法。实验结果见第5节。结论的摘要和建议,为进一步的研究包括在内在第6的结论中。2. 相关作品考虑到来自NGS的基因组数据在体积和复杂性方面的复杂性,需要新的架构和计算工具来使得能够在临床实践中部署基因组分析大数据是最近被用来满足这一需求的概念这一理念涵盖了各种活动,如收集、处理和分析来自多个来源的大量数据,以表征数据,识别模式和它们之间的相关性,并预测可能具有潜在利益的特定治疗反应。有许多不同的技术用于执行这些步骤,包括数据挖掘。这些技术寻求基于数据中识别有用信息的隐藏模式将原始数据转换为具有巨大价值的资产(Loyola-González等人,2013年)。一种允许识别隐藏模式的方法是机器学习(ML),它涉及分类,聚类和线性回归的分析方法这些算法分为三类:无监督学习,半监督学习和监督学习。输出可以通过监督学习来预测,监督学习使用与已经分类或标记的信息相对应的训练数据例如,考虑分类方法,其基于对这些对象的测量向量(也称为预测变量)创建用于将项目分类到组中的规则。分类技术的示例包括逻辑回归(LR)、朴素贝叶斯(NB)、决策树(DT)、神经网络(NN)、贝叶斯网络和支持向量机(SVM)等(Gonzalez-Ericsson et al. 2020年)。无监督学习试图在没有关于对数据进行分组的输出的信息的情况下找到数据中的模式。这种技术的一个例子是集群。这种方法用于使用距离度量在数据中查找聚类。有不同的聚类技术,如k均值和基于主成分的聚类。这些方法已被广泛应用于系统发育研究,微阵列分析,以及最近的复杂疾病的研究。半监督学习的目标是平衡准确性和性能。最近的研究已经提高了应用这些ML技术来评估和分类肿瘤类型、预测不同疾病中的临床反应以及鉴定与临床表型相关的突变模式等的可能性(Wu et al. 2019年)。主要目的是确定与癌症的出现和进展最相关的因素,从而有助于选择最佳治疗策略。研究人员现在正在使用ML来挖掘数据中隐藏的见解,以解决分类或预测挑战。癌症研究的目的是找到最佳治疗方案。为此,研究人员已经开始在他们的研究中使用ML模型来分类或预测关键临床结果,包括总生存期(OS)和远处转移(DM)(Chong et al.,2021年)。这些模型提供了重要的见解,有助于选择治疗方法。为了预测总生存率,研究人员已经转向研究mRNA表达数据,体细胞突变特征,驱动基因突变和其他因素,以从这些信息中提取预测价值。然而,与直接影响临床和生存预后的生存研究相比,驱动远处转移临床进展的变量通常是未知的或未充分研究的。研究人员在(Polat和Günes,,2007)采用ML找到肺腺癌淋巴结转移(LUAD)的DNA甲基化特征。尽管最近取得了进展,但需要在该领域进行进一步的研究,以提高肺癌患者诊断和预后的准确性,并更好地理解转移生长的机制,因为转移是癌症患者发病率和死亡率的主要原因。识别有助于转移的最重要的临床和遗传特征对于癌症的早期检测至关重要。在这些信息的帮助下,医务人员可能能够更好地为LUAD患者选择最有效的治疗方法。然而,这一研究领域具有相当大的挑战性,因为包含癌症患者转移阶段信息的数据集数量有限,这将具有很大的医学相关性。此外,具有转移的个体和没有转移的个体之间的显著差异对于精确医学是有问题的。仅仅拥有这些差异的知识不足以帮助解决这些问题。Polat等人鉴定了肺癌(Selvanambi等人,2020)使用模糊加权预处理、主成分分析(PCA)和防伪确认系统。该框架分为三个阶段。通过一个标准的零件检查,数据集被约束为4个主高光和57个子高光。其次,在基本分类器之前,实现了基于蓬松加权预处理的加权计划作为预处理步骤。第三,使用防伪识别方法创建分类器。在肺部数据集上进行测试,以完全自动地分析肿瘤。事实上,该框架Fang等试图识别和H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报4验证与肺癌生长和相关途径相关的特征在(Laxminarayanamma etal.,2022年)。除了吸烟和肺癌早期研究结果所预期的品质外,研究人员还发现了许多新颖和令人惊讶的特征,这些特征具有吸烟或肺癌生长的潜在生理影响。因此,显示疾病特异性网络生物标志物、性状或蛋白质之间的相互作用或串扰途径更特异性地有助于促进精确的肺治疗。Krishnaiah等人(Naik和Edla,2021)将这一结论应用数据库中的知识发现(KDD)涉及应用数据挖掘技术来识别和利用各种特征的恶性肿瘤模式,以及使用数据集中包含的特定治疗实例来预测疾病的进程。在他们的研究中,Kuruvilla和同事(Sampedro等人,2014)使用计算机辅助诊断(CAD)技术用于计算机断层扫描(CT)图片中基于神经网络的肿瘤识别。这涉及从CT图像中提取整个肺并识别分散图像的特征计算各种统计测量,如平均值,SD,偏斜,峰度,第五和第六中心矩,然后将表征特征送入前馈/反向传播神经网络进行分类。Chauhan等人(Senthil和Ayshwarya,2018)研究了ANN(人工神经网络)方法,如图像处理、LDA(线性相关分析)和SOM(自组织映射),以检测肺部肿瘤。总之,他们建议使用支持向量机作为特征化工具。SVM是分析数据以发现模式的学习模型Dcruz等人(Shaffie等人,2018)最初设计了一种检测肺肿瘤的方法。该方法首先对图像进行信息预处理,改善图像。然后使用信息挖掘和神经网络生成和测试数据集,这对于区分潜在的治疗方法至关重要使用反向传播神经网络(BPNN)将信息图像分类为有害和非威胁类别,从而得出结论。在过程开始时,提取的特征照片确定了Taher等人已经提出了一种用于预测肺部疾病以及肺部肿瘤的早期诊断和治疗的计划(Qian等人,2019年)。从照片中提取不同的特征,用于肺部疾病分类的预处理。他们发现,设计基于免疫学的系统对于预测肺肿瘤至关重要。基于他们先前对图像处理过程的了解图像准备技术与基于计算理解的技术的结合有利于肺部肿瘤的预测和基本管理。Qian等人(Abdeldayem和Bourlai,2018)使用混合信息-图1示出了情感感知推荐系统的示例性实施例,该情感感知推荐系统将用户评级分析为显式信息,将用户社交网络数据分析为隐式信息,并且将来自用户评论的情感分析为情感信息。这种方法产生更精确的预测评级和建议。Zhang等人 (Huang等人, 2015)提出了一种混合方法,其包括基准和非基准特征以提取更具体的心电图(ECG)特征并提高认证稳定性。他们开发了一个并行ECG模式识别框架,以提高在各种ECG特征空间中识别的有效性。通过实验验证了所提出的认证方法的性能后支柱-Xiao等人(Huang例如,2017年,建立价格预测模型。然后,他们提出了一种基于期货市场规则的自我进化的商品期货交易方法。该方法使用上海期货交易所和大连期货交易所的数据进行了回测并将其方案与传统战术进行了比较实验表明,他们的策略比他们在评估中比较的其他方法表现得更好。在收益率和风险方面,他们的策略表现得比市场更好根据Zhang等人的研究(Ozturk和Unal,2020),当前车载网络中的软件定义网络(SDN)应用主要集中在车辆和其他设备之间的数据通信上。相比之下,车载控制器局域网仍然局限于少数特定的应用,只能为用户提供基本的服务,无法满足复杂驾驶环境的需求。他们提供了一种基于SDN的方法,用于创建面向安全的车辆控制器区域网络,该网络可以通过驾驶员疲劳检测和情绪识别来保证交通安全,并通过驾驶员的生理和心理状态进行监控小细胞肺癌(SCLC)是一种迫切需要新型药物的癌症,是一种没有明确治疗方法的恶性肿瘤,通常会早期扩散。化疗、放疗和手术仅能使6%的患者在确诊后存活5年。10%到15%的肺癌是SCLC。需要开发预测SCLC的模型或框架。检测肺癌CT成像中的假阳性是另一个未解决的问题。另一个具有挑战性的任务是找到数据集对帕金森病的治疗进行了有效的研究一个有效的分类方法已被提出用于帕金森病和正常个体的数据由于所提出的研究中使用的数据集由重复的样本组成,因此很难对重复的数据集使用基于独立性的分类器研究了数据集中特征的差异,由于组之间的差异中心非常接近,传统分类器的成功率非常低。基于质心之间距离越大,成功率越高的基本思想,使用了PCA、ICA、Relieff和RICA等维度技术。当没有达到预期的成功时,使用两阶段鲸鱼优化算法生成债券理论。在特征空间中,同一个体的三个样本的特征彼此接近,属于同一类的集合样本被画在特征空间的一侧,而另一类样本的特征空间被放在最远的位置。从中心点开始。因此(Öztürk等人,2018年),不同的样本属于分类的帕金森病语音记录。与其他方法进行了比较,结果表明,该方法在特征空间的表示能力比其他相关方法更强。该研究(Özkaya等人,2021)使用特征提取算法检查从图像中提取的特征的显著性比率。确定每个特征参数的显著性系数。根据为每个特征计算的重要性权重减少特征的数量。对每个病例的分类成功率进行了检查。为此使用了六种特征提取算法。所有这些特征提取算法的分类成功分别进行了检查。然后,将所有属性组合以形成单个属性矩阵。利用主成分分析和稀释法对得到的特征矩阵进行约简。H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报5不1/1该研究(Öztürk和Eschukur,2022)通过使用具有更高反映形状能力的几何形状,实现了多尺度应用的设计尺寸改进这旨在使用深度学习模型优化一些关键维度,以获得更短的性能优化。由于这些模型,设计在代表高级深度学习模型的LSTM-1 + Dropout layer-1+LSTM-2 + Dropout layer-2仿真软件人们发现,传统的方法是不足以改善这个问题。这个问题可以通过深度学习模型来解决特别是,这种深度学习模型的性能减少了所用模型的优化时间。黑色素瘤是一种潜在致命的、可治疗的皮肤癌,当在其早期阶段被诊断时,其大大增加了存活率(Sharma等人,2016年)。基于学习的方法对于从立体图像中检测黑色素瘤是非常有前途的。然而,由于黑色素瘤是一种罕见的疾病,现有的皮肤病变数据库通常包含非常不平衡的良性与恶性标本的数量。相比之下,这种不平衡引入了一个显着的偏见,由于大多数类的统计优势的分类模型。为了解决这一问题,他们引入了一种基于包含的深度合成方法,我们选择DL而不是其他传统方法,因为我们需要能够处理大型数据集。此外,做出癌症诊断所需的时间至关重要,因为患者的生命取决于此,特别是在严重的情况下。在这种情况下,深度学习是最合适的方法,因为使用高端基础设施,可以进行合理的培训时间了递归神经网络(RNN)是一种处理串行数据输入和输出的神经网络(NN)通过对神经网络前馈(FF)的反馈,RNN记录了输入/输出序列之间的时间关系。RNN在处理顺序数据时有助于语音识别。3.1. 递归神经网络令X = {xt}是RNN的输入,其中xteRN是每个时间步长t的输入向量。将输出考虑为Y = {yt},其中yteRM是表示每个时间步长t的输出的向量。我们的目标是建立P(Y)模型|X)分布。以下,由Sel- vanambi(Mohammed等人,2021),确定RNN y t的输出:为立体图像提供潜在空间。 聚类实现使用一个创新无边际三重损失(COM-P. y jfx igt拉瓜河Wyhtby1三元组)叠加在从卷积神经网络主干生长的图像上。该方法的目标不是最小化分类误差,而是最大化分离聚类中心,对类别不平衡不敏感。为了避免对标记数据的需要,基于高斯混合模型(GMM)生成的伪标签实现COM三元组。大量的实验表明,损失COM-三元组的深度聚类优于三元组损失的聚类,在监督和无监督的设置中竞争分类器。在这项研究中,我们提出了一种使用基于深度神经网络分类器模型的新方法来预测癌症样本数据集中转移的存在的方法。该方法中使用的预测因子包括突变负荷和相关临床参数。我们可以通过考虑以下因素为深度神经学习模型选择适当的处理、训练和验证程序其中:ht¼tanhWh ht-1Wxxt bh2Wy表示将隐藏层连接到输出层(y)的权重矩阵Wh表示将隐藏层连接到隐藏层(h)的权重矩阵。Wx表示将输入层连接到隐藏层(x)的权重矩阵。隐藏层偏置向量表示输出层sigmoidr、tanh和整流线性单位(ReLU)激活函数表示分类中的最终非线性。递归网络根据隐藏层在各种情况下传播的信息计算输出yt,直接或间接影响fxgt的值¼fx;···:;xg,如图所示研究数据该基准将使我们有可能更好地理解图1.一、ii¼11t癌症预后的遗传和临床标志物。3. 方法一些癌症诊断研究已经使用了各种方法进行癌症诊断预测,其中一些方法显示出较高的预测准确度。一些研究人员使用ML分类器来改善治疗和药物发现,以使用K-最近邻(KNN)、LR、DT、随机森林(RF)和SVM进行诊断。在(van Vliet等人,2008),使用了癌症数据集。此外,(Andersen et al.,2004)分别采用了四种不同的乳腺癌数据集。类似地,在(Kang等人,2022),使用两个单独的结肠癌数据集。在(Mohammedet al.,2021)来识别不同微阵列数据中的疾病类型。为了对微阵列数据进行分类,(Withnell等人,2021)提出了一个集成的ANN分类器。他们在研究中使用了四种不同的癌症数据集。将基因FS与用于基因表达的癌症分类和其他类型的组学数据相结合在(Zamry等人,2021年)。与此同时,Adiwijaya(MohdAmiruddin等人,2020)使用主成分分析来减少SVM和局部平均二进制模式(LMBP)的维数,并且PCA用于(Buchman等人,2022年),致力于ANN和GA。双向RNN(BRNN)提供了向网络传递更多输入信息的优势固定的输入数据和未来信息的缺乏困扰着多层感知器网络(MLP)和时延递归网络(TDNs)。然而,当没有固定的输入数据和未来的信息是不可访问的,BRNN解决了这些问题之一。3.2. 卷积神经网络CNN是最流行的DNN架构之一。CNN模拟人类和动物的大脑活动[66]。CNN参与各种计划,包括分类、模式、识别等。CNN包含一组连接的层;每层执行特定的任务。CNN通常包含三层:卷积层、非线性层和池化层。卷积层是模型的核心组成部分,也是三层中最关键的一层。在不改变输入数据量的情况下,卷积层接受数据并重新创建数据的映射。卷积层的主要目标是提取各种特征,分配前几层特征的权重,并以最少的参数产生良好的结果。非线性层或建模层是第二层的两个名称。在建模过程中采用的非线性层采用非线性激活函数。统计池层是第三种类型,用于减少H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报6BBFig. 1.多种RNN细胞类型。图二. 卷积神经网络的结构。尺寸和执行统计操作,如平均值和最大值(图。 2)的情况。4. 拟议的DNLC方法如Khodayar和Teshnehlab所述(Zamry等人,2021),自动编码器被认为是一种适用于严重非线性数据集的非线性方法。图3显示了称为DNLC方法的方法。它显示了PCA方法如何减少从X到X的特征数DNN然后通过从X特征中移除特征来创建X0特征之后,使用分类器(深度网络)对X0特征进行分类根据( MohdAmiruddin等人,2020年),需要预处理技术,因为一些数据集包括数据不平衡或数据偏移等问题。通过主成分分析找到数据中方差最大的k维子空间对于k = 1,给定每个列的平均值为0的数据矩阵X R n p,目标是获得最少数量的特征,这些特征仍然使用PCA捕获大部分例如,主要组成部分最好一个基因癌症数据集,只包括几个重要的基因,使人类分析变得简单。因此,有必要强制PCA分量以[0,1]作为稀疏性的调节参数对于等于0的值,恢复标准PCA;然而,对于等于1的值,具有最高方差的分量是稀疏非平凡解。配方工作是显而易见的(我们在下面使用这个符号:X = max(0,x))。无论数据集是平衡的还是不平衡的,都可以应用所提出的方法.因此,本研究不需要这些预处理步骤。因此,计算将变得不那么复杂。然而,选择合适的DNLC结构至关重要。我们使用相同的框架,所有数据集(图3)。图3显示了权重矩阵的维度(W),或者隐藏层中自适应的神经元的数量,这意味着隐藏神经元的数量是输入层大小加上输出层大小的2/3。此外,这些统计数据显示了从每个自动编码器层收集的特征的数量。由于并非所有数据集都是非线性的,因此不再需要增加第一编码器层中的特征数量。每次,我们首先考虑自动编码器的数量和检索到的特征的数量,同时考虑自动编码器层中的神经元数量。接下来,计算这些配置中的每一个的误差。然后我们选择自动编码器中产生最小误差的神经元数量。在最后一步中,我们使用各种分类器对特征进行分类。当在该方法中训练自动编码器时,必须考虑等式(5)方程(3)-(4)是正向的H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报7JpJ2j/1j2第1页ð Þ图三. DNLC方法中的结构。神经网络方程自动编码器和解码器层中的激活函数在等式(5)和(7)中作为线性和正切S形函数给出在这种情况下,我们应用梯度下降优化技术来更新将隐藏层中的神经元连接到输出层W2的权重矩阵。在梯度下降中,每个编码器的输出应该与其目标进行比较,如图所示。3.第三章。目标和编码器层的输入然后,我们使用等式(8)来计算误差,其中项j表示第j个误差。因此,成本函数被描述为误差平方和(9)。此外,提高培训阶段的有效性。使用等式(10)表示该学习过程的成本函数,其中系数k1和k2表示最近和历史的错误。这里,考虑1和0.5,以下等式用于确定自动编码器层的输出O1net1k5净2千美元/万美元如下面的等式所示,线性函数确定解码器层的输出:O2克净2克净7克净由(8)-ejkXdk-O2kXdk-。WkO1k8分别给变量k1和k2。之后,估计的误差将被发送回使用链式规则更新W2:(11)和(12)中所示。在更新W2之后,我们转置这个矩阵,1另外,考虑成本函数(9)和(10)。E1k1Xe2k 9J替换W -将输入层神经元与隐藏层神经元层神经元-对于W2.下面描述的方程是前馈算法的初始步骤.2j¼1E2k1Pp r2k1Pp.k1ejkk2e_jk2W2¼W;W1¼WT1.3mm¼1Pp.k1最后一个是1磅/小时,最后一个是1磅/小时,最后一个是1磅/小时,最后一个是2磅/小时,最后一个是4磅/小时,传统的反向传播在(11)中描述。2ð10Þ第1页H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报81≤¼ðÞ¼¼-1/4-1/4Dð Þ ¼—g¼—¼—gð ð ÞÞð- ÞðÞWk@E1k@E1k@ek@O2kek1O1k@Wk@ek @O2k@Wkgeð11Þ评估参数可以用于评估训练模型的性能。真阳性(TP)是指准确的阳性预测数量不准确悲观其中g是学习值,应该是0g1,以保持学习过程稳定。60岁61:164性别:男,女468:673第407章:一个女人吸烟史1100H. Elwahsh,文学硕士 Tawfeek,A.A. Abd El-Aziz等人沙特国王大学学报9尽管该领域取得了进展,但仍需要进行额外的研究,以更好地了解转移过程,并提高肺癌患者诊断和预后的准确性,因为转移是癌症患者发病率和死亡率的主要因素(Steeg,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功