集成机器学习预测新辅助化疗乳腺癌病理反应

199 浏览量更新于2023-12-20 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

i本文的最新情况见最后《中华人民共和国医疗器械法》第16号（2019年）100219集成机器学习Raghvi Bhardwaj*，Nishtha Hooda印度旁遮普邦莫哈利昌迪加尔大学计算机科学与工程系A R T I C L E I N F O保留字：机器学习预测新辅助化疗乳腺癌病理反应A B S T R A C T新辅助化疗是在乳腺癌治疗期间静脉内给药。在手术之前，医生建议化疗来缩小大的侵袭性肿瘤。这项研究工作提出了一个Deu X机器学习框架，实现了机器学习算法的双重集成，用于构建优化和有效的解决方案，以预测新辅助化疗后患者的完整病理反应。与专注于预测准确性的算法不同，DeuX机器学习框架的性能是使用称为加权简单加性加权（WSAW）的多标准决策技术来测量的。WSAW综合性能得分通过考虑十个评价指标来计算，即准确度、平均绝对误差、均方根误差、TP率、FP率、精确度、召回率、F测量、MCC和ROC。使用k折交叉验证技术验证结果，达到99.08%的准确度。当比较所提出的框架的性能时，利用最先进的分类器，如SVM和随机森林的性能，结果是非常令人满意的。随着人工智能在癌症研究中的应用日益增长，机器学习在预测和决策方面具有重要的未来。1. 介绍乳腺癌是一种常见的癌症，在世界各地的妇女中发现。在印度，23%的女性癌症是乳腺癌。乳腺癌表现为乳房中的肿块[1]。肿块是非常常见的，它们可以发生在年轻女性，因为他们经历青春期，他们可以发生在妇女，即使他们进入80多岁。这成为一个更严重的问题，由于肿块在绝经后的乳房。女性的荷尔蒙变化通常会导致良性肿块。在年轻女性中，大多数肿块是良性的，被称为纤维腺瘤，发生在十几岁到20岁出头的年轻女性中[2]。乳腺癌应该在它以侵入性方式扩散到周围乳腺组织之前及时诊断。因此，给予患者新辅助化疗大多数情况下，对于早期乳腺癌，如果手术后需要，患者会接受化疗。乳腺癌的分期是主要因素。晚期发现的乳腺癌复发风险更大，预后较差[3]。在这项研究工作中，各种机器学习算法在预处理数据后进行训练，以检查分类的性能。最突出的分类器的执行也与SVM，Random Forest和Adaboost等分类器进行了比较。而不是只专注于所提出的框架的准确性，十个评估指标计算和综合性能得分进行评估，使用多标准决策技术被称为WSAW。使用十个评估指标，即准确度、平均绝对误差、均方根误差、TP率、FP率、精确度、召回率、F-测量、MCC和ROC来计算WSAW分数。论文的其余部分组织如下：第2节介绍了相关工作的回顾。第3节简要说明拟议框架中使用的分类方法。第4节包含数据、实验装置和特征的讨论。第五部分是实验结果的总结和性能比较。最后，第6节，结束了本文。2. 相关工作研究人员比较了关于准确性、精确度、灵敏度和特异性的各种策略的生产率和有效性，以发现最重要的分类准确性[4]。本文中，乳腺多参数磁共振成像（mpMRI）的机器学习为新辅助化疗的病理学完全缓解（PCR）的初步猜想提供了*通讯作者。电子邮件地址：raghvibhardwaj@gmail.com（R. Bhardwaj）。https://doi.org/10.1016/j.imu.2019.100219接收日期：2019年5月16日;接收日期：2019年8月2日;接受日期：2019年8月5日2019年08月08日星期一2352-9148/©2019由ElsevierLtd.这是一个不可避免的问题，因为CCBY-NC-NDLicense（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学杂志主页：www.elsevier.com/locate/imu《中华人民共和国医疗器械法》第16号（2019年）100219R. Bhardwaj和N. 胡达2（NAC），因此可以提供有利的预测知识，以护送药物决策[5]。计算机功率值的降低、电子健康记录（EHR）的合理化以及人工智能算法的方法将在这一领域提供替代方案[6]。这项研究很重要，因为四种ML方法是等同的。结果，所获得的准确率不能被认为非常大。本研究探讨了这些数据与ML技术在乳腺癌识别中的效用[7]。研究人员利用向量机（Vector Machines，SVM）对5种DNA病毒（HSV-1、EBV、CMV、HPV和HHV-8）与乳腺癌的关系进行了研究。结果表明，SVM构建模型在使用其数据集检测乳腺癌方面具有更好的表现[8]。在这方面的研究主要集中在增强算法上。在分类和预测中，与任何单一算法相比，精心安排的集成算法通常具有更高的准确性[9]。重新审视了机器学习的思想，同时定义了它们在癌症预测/预后中的用途。大多数研究都集中在使用监督机器学习方法和分类算法预测真实疾病结果的预测模型的演变上[10]。研究者研究发现，新辅助化疗后达到病理完全缓解的患者，其特异生存期和综合生存期都有根本性的提高[11]。RESEARCH已经开发了用于分析基因表达数据的各种临床决策支持系统，这些系统可以改善患者生存和癌症患者预后的预测[12]。研究人员提出了一种SVM构建加权AUC集成机器学习方法用于乳腺癌的分析。确定了五种融合方案，将来自不同基础模型的意见结合起来，与一个计划的WAUCE模型进行区分，这表明所提出的WAUCE模型可以显著地扩展癌症诊断性能[13]。3. 方法本节总结了DeuX机器学习框架的细节。3.1. 拟议框架在这项研究中，设计了DeuX机器学习框架，并实现了机器学习算法的优化版本，用于预测乳腺癌新辅助化疗后的病理反应。这在图中详细描述。1.一、完整的框架分为三层：第1层：化疗是第1层;在这一层中，蒽环类和紫杉烷类药物用于癌症化疗，阻止癌细胞生长。第2层：机器学习是第二层，其中DeuX机器学习框架用于预测病理完全缓解（PCR）图二. DeuX机器学习框架的详细视图。第3层：完成术后治疗和随访Deu x框架的详细视图如图所示。二、完整的框架分为三个部分：i. 数据收集：ISPY-1-试验数据集由222例乳腺癌用药病例组成，其数据来自癌症成像文件和加利福尼亚大学旧金山分校（UCSF）的乳腺成像研究项目。对该数据进行汇总，并计算不同变量的信息，即PGPOS、ERPOS、年龄、MRI LD基线、MRI LD术前和偏侧性。通过这些变量，可以对最终结果进行分析。ii. 数据预处理：在本节中，对从ISPY-1-试验中收集的数据进行清理。数据清理是从数据库或数据集中识别和改进不适当记录的过程。在数据清理期间，数据集中的缺失值将被删除。1. 为了成功地监督数据，缺失值的概念化非常重要2. 删除缺失值会导致数据集的不平衡。3. 在缺失值移除步骤之后，使用合成少数过采样技术（SMOTE）来完成不平衡数据集的平衡，该技术通过构造合成实例来努力在数据集中因此，在此过程之后，选择各种重要特征并移除不相关的特征iii. 预测模型：我们使用了九种不同的分类模型：贝叶斯网络，朴素贝叶斯，逻辑，多层感知器神经网络，SMO，投票感知器神经网络，随机森林，Adaboost和Adabag。贝叶斯网络（BN）分类器与有向无环图（DAG）相关，DAG的节点代表贝叶斯网络感知中的变量。每个节点Fig. 1.病理完全缓解预测的抽象视图。《中华人民共和国医疗器械法》第16号（2019年）100219R. Bhardwaj和N. 胡达3对应于一个可能性函数，该函数将节点建立的变量的某个值集作为输入，并放弃节点[14]提供的变量的可能分组中殿表2混淆矩阵预测条件阳性反应阴性反应贝叶斯（NB）分类器是可扩展的，需要许多参数在给定的学习问题中[15]。逻辑回归（LR）通常是复杂操作的详细安排和执行。这是事物在起源点和利用点之间流动的主体[16]。多层感知器神经网络（MPNN）是一类前向人工神经网络。多层感知器至少包含三个一层是节点层：输入层、隐藏层和输出层[17] 。支持向量机（SVM/SMO）将示例描绘为空间中的点，绘制以创建不同的类别，并通过明显的间隙进行划分。然后在同一区域绘制新样本，然后根据它们落在空间的一侧预测它们属于某个类别[18]。投票感知器神经网络（VPNN/NN）是一个神经元网络或轨道，或者换句话说，一个人工神经网络，收集人工神经脉冲或交叉点[19]。随机森林（RF）通过在训练中建立无数决策树来运行[20]。Adaboost（AB）在训练的每个阶段都收集了统计数据，以专注于难以解决的示例的方式开发算法[21]。Adabag（AB）：这是一种强大的方法，可以升级简单模型的实现并减少更多复合模型的过度拟合[22]。利用这些模型进行训练和测试。训练各种机器学习分类模型以检查分类性能。通过使用k-折叠交叉验证技术进行测试，并证明了结果。通过优化，三个集成分类模型，即：随机森林，Adaboost和Adabag，用于计算性能指标，即，准确度、TP率、FP率、ROC。该等分类器取得令人满意的结果。因此，我们使用堆叠将三个分类器双重组合，并达到99. 08%的准确度。4. 实验研究本节描述了该框架的数据集和实验设置。4.1. 数据集222例接受乳腺癌治疗的患者的数据收集自UCSF的乳腺成像研究项目，包括ACRIN、CALGB、I-SPY TRIAL和TCIA。每个变量和目标类的描述见表1。4.2. 实验环境用R语言实现了不同的建模技术。主要目标是计算该分类器的预测精度。为了评估所提出的框架的性能，各种离散参数，其是：准确度、平均绝对误差、均方根误差、TP率、FP率、精度，表1Variable Description使用叠加对三个分类器进行了传感，准确率达到99. 08%。变量描述PGPOS孕酮受体状态，治疗前PGPOS雌激素受体状态，治疗前AEG患者年龄MRI LD基线通过MRI MRI LD术前评估的基线巨大肿瘤范围通过MRI偏侧性评估的术前度量公式精密度TP/预测值是F-score2（精确回忆/精确+回忆）TP率TP/FN+ TPFP/TP+ FP精度TP+TN/TN+TP+FN+FP使用召回、F度量、MCC、ROC区域和PRC区域5. 结果和讨论本节总结了所提出的框架的性能分析和使用k-Fold交叉验证技术验证的实验结果。5.1. 绩效评价用表2和表3中所示的混淆矩阵的参数测试所提出的框架，并且实验结果在表4中示出。十个评估指标，即：准确度，平均绝对误差，均方根误差，TP率，FP率，精度，召回，F-测量，MCC和ROC用于计算WSAW分数。在使用集成机器学习预测乳腺癌新辅助化疗后的生存率时，假阳性率和真阳性率比假阴性和真阴性等其他参数更昂贵因此，为真阳性率和假阴性率指标分配了双重权重除了真阳性率、假阴性率外，预测的准确性也被赋予双重权重。在机器学习中，在机器学习分类器的训练过程中，如果数据具有不平衡的类样本，则准确性被认为是误导性的。在这种情况下，ROC值下的面积告诉我们分类器的确切性能。因此，将双重权重分配给AUC性能参数。WSAW综合性能评分有助于找到考虑所有十个评估指标的最佳预测模型，为准确性，AUC，TP率，FP率提供双重权重。在图3中，DeuX框架使用不同的度量进行性能比较，即，准确性（图3a），真阳性率（3.b），假阳性率（3.c），以及DeuX机器学习框架的ROC曲线下的面积（3.d）与标准分类器，如贝叶斯网络，NaveBayes ， Logistic ，多层感知器， SMO ，神经网络，随机森林，Adaboost和Bagging。以图形方式呈现可以观察到，DeuX框架的准确性最高。神经网络的准确率最低，低于70%。ROC值下的面积对于随机森林、Adaboost、Bagging和Deu X Fra-10是最高的，因为所有四个预测模型都是基于不同分类器的混合。集成分类器的性能可以优于所有传统的机器学习算法。以类似的方式，集成分类器在真阳性和假阳性率方面比其他分类器表现更好。在图4中，使用准确度、TP率、FP率和ROC显示了k倍交叉验证测试技术的实验结果。此图描述了Deu x机器学习框架的各种指标的稳定性。不难看出，拟议框架在所有十次迭代（折叠）中相当稳定。此外，不仅阳性反应阴性反应真阳性X假阴性Q假阳性Z真阴性Y表3业绩指标。《中华人民共和国医疗器械法》第16号（2019年）100219R. Bhardwaj和N. 胡达4表4实验结果。分类器累积（%）MSERMSETPRFPR精度召回FMMCCROCBN95.210.060.150.970.050.970.970.970.930.96NB95.240.030.140.980.040.980.980.980.950.97LR90.560.080.260.930.110.930.930.930.810.89MPNN94.280.040.180.960.050.960.960.960.910.97SVM95.210.030.170.970.030.970.970.970.930.94VPNN71.020.270.520.730.730.530.730.510.500.51RF96.140.120.180.980.050.980.980.980.950.99AB97.070.010.080.990.030.990.990.990.980.99AB97.070.040.100.990.030.990.990.990.980.99集中于所提出的框架的准确性，使用称为加权SAW的多标准决策技术来完成综合性能评估。FP率和AUC值的权重病理反应的预测是一项关键决策，其基本原理是减少假阳性预测。此外，通过绘制真阳性率对假阳性率来计算AUC值。当数据不平衡时，AUC值有助于满足最佳预测算法。在5中，将所提出的框架的WSAW性能得分（使用机器学习的十个性能指标计算）与九个最佳机器学习分类器进行比较。该图显示6. 结论在这项研究工作中，提出了一种有效的双集成机器学习方法，称为Deu XEnseminar，用于预测新辅助化疗后的病理完全缓解。对于双集合构建，针对集合分类器的不同组合执行实验，并且在数千次迭代之后，由web应用构建最终集合以用于预测。与传统方法不同，本文采用多准则决策方法中的加权SAW综合得分对所提出的Deu x框架进行了检验。建议的框架优于其他标准全面性能得分DeuX框架是state-of-the-art 分类器在 WSAW 性能评分与最高的因此，它可用于实现用于预测病理完全缓解的Web应用程序（见图11）。（五）。准确率，TP率，FP率，ROC分别为99.08%，0.99，0.01，0.99，并使用Python Django Web框架实现为Web应用程序。拟议的系统作为一个临床支持系统(a)准确度（b）ROC(c)生育率（d）图三. DeuXML框架与标准分类器的性能比较，使用准确度，ROC，TP率， FP率。《中华人民共和国医疗器械法》第16号（2019年）100219R. Bhardwaj和N. 胡达5(a)精度(b)FP率(c)TP率（d）ROC图四、对测试数据集的准确度、FP率、TP率、ROC进行10倍交叉验证图五. SAW性能图。为医学专家和研究人员在手术前，预测病人在癌症早期的病理完全反应。未来，计划为DeuX框架开发一个Web服务，与Hadoop框架重叠，以处理更多患者数据。确认这项研究工作得到了印度昌迪加尔大学卓越中心的支持。引用[1] Asano Y等人，通过评估肿瘤浸润淋巴细胞和残留癌症负荷预测乳腺癌新辅助化疗后的生存率。BMC Canc2017;17（1）：888.[2] BorchertGH，et al. 纤维腺瘤和乳腺囊肿妇女血清中前列腺特异性抗原水平升高。 J Natl Cancer Inst 1997;89（8）：587-8.[3] KangX，et al. 荟萃分析证实，新辅助化疗后达到病理学完全缓解可预测乳腺癌患者的良好预后。EurJ Cancer 2011;47（14）：2084-90.[4] 使用机器学习算法进行乳腺癌风险预测和诊断。Procedia ComputSci 2016;83：1064-9.[5] Tahmassebi A等人，机器学习与乳腺多参数磁共振成像对乳腺癌患者新辅助化疗反应和生存结局的早期预测的影响。Investig Radiol2019;54（2）：110-7.[6] 放大图片作者：J.放射肿瘤学中的大数据和机器学习：技术现状和未来前景。Cancer Lett 2016;382（1）：110-7.[7] AslanMF，et al. 使用血液分析数据通过不同的机器学习方法进行乳腺癌诊断。 Int J Intell Syst Appl Eng 2018;6（4）：289-93.[8] HuangCL，et al. 支持向量机在乳腺癌诊断中的预测模型建立和特征选择。 ExpertSyst Appl 2008;34（1）：578-87.[9] Yang P，et al. A review of ensemble methods in bioinformation. CurrBioinform2010;5（4）：296-308。[10] KourouK，et al.机器学习在癌症预后和预测中的应用《中华人民共和国医疗器械法》第16号（2019年）100219R. Bhardwaj和N. 胡达6ComputStruct Biotechnol J 2015;13：817.[11] 多变量机器学习模型用于使用MRI特征预测乳腺癌新辅助治疗的病理反应：使用独立验证集的研究。乳腺癌研究治疗2019;173（2）：455-63。[12] BashiriA，et al. 通过使用机器学习技术改善癌症患者生存预测：基因表达数据的经验：叙述性回顾。伊朗公共卫生杂志2017;46（2）：165。[13] WangH，et al. 一种基于支持向量机的乳腺癌诊断集成算法。 Eur J Oper Res2018;267（2）：687-99。[14] 朱迪亚珍珠。因果关系：模型、推理与推论。剑桥大学出版社0 -521-77362-8;2000年。OCLC 42291253。[15] 放大图片作者：A.朴素贝叶斯文本分类的事件模型比较。AAAI-98文本分类学习研讨会，第752卷。 1998年7月。第41-8页。号1.一、[16] Syarif A，Yun Y，Gen M.基于生成树遗传算法的多级物流链网络研究。计算机工业工程2002;43（1）：299-314.[17] 放大图片作者：J.使用K均值聚类和多层感知器神经网络模型对EEG信号进行分类。EX pert Syst Appl2011;38（10）：13475-81。[18] Cortes C，Vapnik VN.支持向量网络。Mach Learn1995;20（3）：273297 https：//doiorg/10.1007/BF00994018.[19] 黄耀明，洪智明，焦浩辉。评估类不平衡问题的信用评估任务的神经网络和数据挖掘方法。非线性肛门真实世界应用2006;7（4）：720-47.[20] 何天锦。随机决策森林（英语：Random decision forests）第三届文献分析与识别国际会议论文集。 1995年：278282。1995年8月14日至16日。[21] Kgl Balzs AdaBoost.MH的回归：多类汉明树”。2013年12月20日。arXiv：1312.6086。[22] AlfaroE，Gmez M，Garcia N. Adabag：一个用于分类的R包，包含boosting和bagging。J Stat Softw 2013;54（2）：1-35.更新医学信息学2020年第21期第页DOI：https://doi.org/10.1016/j.imu.2020.100474医学信息学解锁21（2020）100474关于以前发表的文章中缺少竞争利益声明的勘误表竞争利益声明不包括在出版版本的文章，出现在以前的卷信息学医学解锁。因此，在发表后联系了以下文献的作者，要求发表利益声明：1. https://doi.org/10.101“Automated scraping of structured datarecords from health dis- cussion forums using semantic analysis2. https://doi.org/10.1016/j.imu.2018.04.003“Moleculardynamics simulation approach to explore atomistic molecularmechanism of pero3. “安高效和安全远程用户相互认证计划使用智能卡的电子医疗信息系统https://doi.org/10.1016/j.imu.2018.02.0034. “A numerical modeling of an amperometric-enzymatic basedurine acid biosensor for GOUT arthritis diseases“[Informaticsin Medicine Unlocked，2019; 12C：Pages：143-147] https：//doi. 2018.03.001/10.1016/j.imu.20185. “使用最佳正交小波滤波器进行自动心跳分类和心律失常检测“[InformaticsinMedicineUnlocked，2019，16C;文章编号：100221]https：//doi。org/10.1016/j.imu.2019.1002216. https://doi.org/10.1016/j.imu.2018.10.004“CHROMATOGRAPHIC ANALYSIS OF PHYTOCHEMICALS IN COSTUS IGNEUS ANDCOMPUTATIONAL STUDIES OF FLAVO- NOIDS7. “Sperm motility analysis system implemented on a hybrid ar-chitecture医学解锁， 2020; 19 C; 文章编号： 100324]https ：doi.org/10.1016/j.imu.2020.1003248. “Medical video compression using bandelet based on liftingscheme and SPIHT coding: in search of high visual[Informatics in Medicine Unlocked ， 2019; 17C ： Articlenumber 100244]https://doi.org/10.1016/j.imu.2019.1002449. https://doi.org/10.1016/j.imu.20“Ahistopathologicalimagedataset for grading breast invasive ductal carcinomas20.10034110. https://doi.org/10.1016/j.imu.2019.100231“Cancer diagnosisin histopathological image: CNN based approach”11. “开放的D1 NAMO数据集：用于非侵入性1型糖尿病管理研究的多模态数据集“[Informatics in Medicine Unlocked，2018; 13C：Pages：92-100] https：//doi. 2018.09.00312. https://doi.org/10.1016/j.imu.2018.07.00“Thepredictionofgood physicians for prospJective diagnosis using data mining13. https://doi.org/10.1016/j.imu.201“Prediction of PathologicalComplete Response after Neo- adjuvant Chemotherapy forBreast Cancer using Ensemble Ma- chine Learning9.10021914. “基于从FCGS的不同阶次提取的特征的基因组内helitrons的分类”[Informatics in Medicine Unlocked ，2019; 18C：文章编号：100271] https：//doi.org/10.1016/j.imu.2019.10027115. doi.org/10.1016/j.imu.2018.10.002“Visual16. “ 空间扩展子宫活动发生器的源成像技术的性能“[Informatics in Medicine Unlocked，2019; 16 C文章编号：100167] https：//doi.org/10.1016/j.imu.2019.10016717. https://doi.org/10.1016/j.imu.201“Automated classification ofbenign and malignant cells from lung cytological images usingdeep convolutional neural network”9.100205原文 DOI ： https://doi.org/10.1016/j.imu.2019.100205https://doi.org/10.1016/j.imu.2019.100221 ， https ： //doi.org/10.1016/j.imu.2019.100167 ，https://doi.org/10.1016/j.imu.2018.04.003，https://doi.org/10.1016/j.imu.2020.100341https://doi.org/10.1016/j.imu.2018.01.003，https：//doi.org/10.1016/j.imu.2018.03.001，https://doi.org/10.1016/j.imu.2018.10.002，https://doi.org/10.1016/j.imu.2020.100324网站，https://doi.org/10.1016/j.imu.2018.09的网站。003，https://doi.org/10.1016/j.imu.2019.100219https://doi.org/10.1016/j.imu.2018.02.003https://doi.org/10.1016/j.imu.2019.100244，https：//doi.org/10.1016/j.imu.2018.07.005，https://doi.org/10.1016/j.imu.2019.100271，https://doi.org/10.1016/j.imu.2018.10.004，https://doi.org/10.1016/j.imu.2019.100231。https://doi.org/10.1016/j.imu.2020.1004742020年11月4日网上发售2352-9148/© 2020由Elsevier Ltd.发布可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imu

下载后可阅读完整内容，剩余1页未读，立即下载