儿童急性淋巴细胞白血病的机器学习治疗结果分类研究

92 浏览量更新于2024-01-07 收藏 2.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

þ医学信息学解锁20（2020）100399使用机器学习对儿童急性淋巴细胞MAHAK医院Amirarash Kashefa，Toktam Khatibi a，*，Azim Mehrvarb，ca工业和系统工程学院，Tarbiat Modares大学（TMU），德黑兰，14117-13114，伊朗b伊朗德黑兰Mahak医院Mahak血液肿瘤研究中心（Mahak-HORC）c伊朗德黑兰AJA医科大学AJA癌症流行病学研究和治疗中心（AJA-CERTC）A R T I C L EI N FO保留字：急性淋巴细胞白血病（ALL）儿童血癌机器学习治疗相关并发症MAHAK医院SVMXGBoostA B S T R A C T简介：急性淋巴细胞白血病（ALL）是儿童中最常见的癌症。随着科学技术的进步，急性淋巴细胞白血病的死亡率大大降低.本研究的目的是使用机器学习对年龄小于18岁的ALL患者的临床和医学数据进行治疗结果分类。为此，分析了2012年至2018年在MAHAK多超专科医院接受治疗的所有18岁以下儿科患者。此外，MAHAK医院是伊朗治疗儿童恶性肿瘤数据：在本研究中，从241例患者的纸质记录中手动收集数据包括患者人口统计学特征、医疗信息和治疗相关并发症。方法：本研究设计了两个情境进行数据分析第一种情况考虑了所有儿童ALL患者，但第二种情况将死因不明的患者排除在研究之外。作为一个整体，常见的分类算法，并适当调整和比较，找到表现出优越的性能的模型。结果：我们的实验结果表明，XGBoost算法优于比较分类器的准确率为88.5%（95%CI：82.3-94.0）在第一个设计的场景。另一方面，在第二种情况下，更好的模型是SVM，准确度为94.90%（95%CI：88.49-98.32 ）。结论：尽管之前的几项工作已经分析了ALL患者的基因表达数据，但本研究的实验结果表明，临床和医学数据在这一研究领域也具有合理的重要性。结果表明，利用SVM算法的治疗结果预测的显着改善。此外，我们的研究结果表明，患者发热的频率是ALL治疗结果的最佳预测因素。1. 介绍血液是人体的重要组成部分，它执行许多重要功能，例如将矿物质、氧气和二氧化碳传递到全身以维持新陈代谢。血液有四种基本成分：红细胞（RBC），白细胞（WBC），血小板（PLT）和血红蛋白（HG）[1]。白血病是一种血液或骨髓癌症，其特征在于称为“原始细胞”的未成熟白细胞数量的不规则急剧增加。术语“白血病”涵盖了广泛的血液疾病[ 2 ]。白血病分为具有快速进展能力的急性白血病，和慢性白血病，进展缓慢，有几个不明并发症[1，3急性白血病会感染血液和骨髓。儿童和成人可以发展许多异常的白细胞在他们的身体里。尽管如此，最近的发展已经发现了急性白血病的准确预防方法[3]。已经确定了这种危险和危及生命的疾病的几个风险因素。例如，环境因素如苯暴露和电离辐射与儿童急性白血病的发生高度相关。母亲的流产史也可能导致这种致命疾病的风险增加[6]。急性类型白血病是分类成两类基于上* 通讯作者。联系电话： 982182883913。电子邮件地址：amirarash. modares.ac.ir（A. Kashef），toktam. modares.ac.ir（T. Khatibi），DRAZIMMEHRVAR@yahoo.com（A.Mehrvar）。https://doi.org/10.1016/j.imu.2020.100399接收日期：2020年4月16日;接收日期：2020年7月14日;接受日期：2020年7月15日2020年7月19日网上发售2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuA. Kashef等人医学信息学解锁20（2020）1003992French–American–British model, which is the most well-known classi-fication model of leukemia including Acute Myeloid leukemia (AML)and儿童ALL是一种癌症，如果没有正确诊断并根据强化化疗方案进行治疗，通常会很快复发[9]。为了给儿科患者提供最佳护理，肿瘤学家不仅必须熟悉儿童白血病的病理生理学和治疗，还必须了解治疗期间和治疗后可能发生的潜在并发症，这些并发症可能是致命的。癌症是儿童第二大致命疾病，白血病是儿童死亡的主要原因[11]。急性白血病是影响儿科人群的最常见的恶性肿瘤类型之一这种恶性肿瘤占15岁以下癌症的约30%，占15至19岁癌症的15%儿童急性白血病的发病率在4岁范围内，从2岁到5岁[12]。事实上，男孩被诊断为ALL的风险高于女孩[6，12，13]。因此，本文重点关注所有儿科患者。治疗结果是重要的，因为它是用于治疗患者并预测患者是否从疾病中存活的所有治疗方式的最终结果。事实上，对于肿瘤学家来说，找出最重要的变量和因素来预测治疗结果至关重要。因此，已经进行了许多旨在利用基因表达数据预测长期结果或治疗结果的研究，并且几乎所有这些研究都使用了数据挖掘（DM）分类器算法，这显示了使用机器学习方法用于此类目的的强度和重要性[14先前的研究表明，ALL在儿童中大部分都有记录。年龄组是影响存活率的一个因素;总体而言，85%的儿童和50%的成人存活[3]。在过去的70年里，儿童白血病的治疗得到了重要的促进，目前ALL的长期生存率约为90%，而20世纪50年代的生存率几乎为0%[17]。发展中国家的这些统计数字差别很大。例如，在伊朗，根据荟萃分析[18]，所有年龄段ALL患者的5年生存率为57%（95% CI：54.0-60.0），15岁及以下患者的5年生存率为61%（95% CI：58.0-64.0）。本研究选择的年龄组是[0，17]，涵盖了每个年龄段的儿童。我们想知道，即使在儿童和青少年的不同年龄段之间，是否也存在差异。据我们所知，大多数相关的作品都使用了基因用于ALL治疗结果预测和分类的表达数据。但是，它们的准确度很低。在这项研究中，收集并分析了一个独特的临床数据集，以预测所有儿科患者的治疗结果。此外，本研究中使用的数据包含有关治疗相关并发症的信息，本研究的新颖之处在于将并发症状态视为一个类别变量。响应变量不仅有两个标签，即死亡和存活，而是有四个标签，即由于特定并发症而死亡，存活但经历了不同的并发症，存活但没有经历任何并发症，以及由于未知原因而死亡，这被命名为未知类别。本研究的主要目的是在对临床和医学数据进行分类的基础上预测儿童ALL患者的治疗结果。在这项研究中，通过利用机器学习方法将诊断时年龄从3个月大到17岁的所有患者分为四个不同的类别。为此，开发了两个场景;第一个场景考虑具有四个类的响应变量，但第四个类（未知类）被排除在第二个场景中的响应变量之外。在这两种情况下，使用不同的机器学习算法分析数据，从最基本的分类算法决策树（DT）到一些复杂的分类算法，如SVM、线性判别分析（LDA）、多项线性回归（MLR）、梯度提升（Gradient Boosting）Machine（GBM）、Random Forest（RF）和XGBoost。本研究的主要创新之处在于多重折叠，包括：- 本研究中收集的数据集具有用于ALL治疗结果预测的新特征组合，我们的实验结果表明它在治疗结果分类中具有合理的准确性。- 治疗结果基本上分为两个标签（死亡或存活），但我们认为治疗相关并发症分为四个不同的类别。- 通过对几种分类算法的比较，找出解决该问题的最优模型，并取得最佳性能。论文的结构如下，第二部分讨论了相关的工作，第三部分是材料和方法，其中解释了研究的数据，并描述了预处理和分类算法。第四部分是本研究的实验结果，最后是文章的讨论和结论。2. 相关作品以前的相关研究大多使用分子或图像数据集。已分析了显微血液涂片图像，用于对不同类型的急性白血病（ALL和AML）进行分类。此外，图像数据集已被用于诊断所述疾病。另一方面，从DNA微阵列提取的基因表达数据已被广泛用于不同目的，即ALL检测[4，7]、免疫表型预测[14]、结果预测[15，16，19]、ALL亚型分类[16，20，21]和复发预测[14]。表1说明了相关先前工作的总结。先前的研究提出了一种混合方法，用于显微图像处理，使用强大的数据增强来检测B细胞淋巴细胞白血病[20]。此外，另一项研究回顾了先前提出的通过图像处理检测白血病的方法[24]。近年来，基于基因的分类或基因表达数据一直是另一个有趣的研究课题。不言自明的是，白血病亚型的检测主要需要基因标记，因为在先前的研究[21]中，已经利用2D聚类算法以及监督学习算法（如决策树（DT）、K-最近邻（K-NN）、支持向量机（SVM）和人工神经网络（ANN））以97%的理想准确度完成了检测。参考文献[3]中回顾的文章大多使用微阵列数据集和血液涂片图像。此外，先前的研究[25]已经报道了白血病分子数据分析的智能技术，其中最受审查的研究使用了微阵列数据、基因表达数据和/或图像。但是，以前的研究表明，没有特定的基因与慢性白血病密切相关[25]。先前研究的实验结果表明，SVM通常具有最好的性能。此外，一些方法已经被有效地使用，例如用于骨髓样品的基于图像的分析。已利用顺序最小优化（SMO）算法训练SVM分类器，用于基于ALL诊断相关性的特征选择和分类[22]。已使用多层感知器（MLP）、线性矢量量化（LVQ）、K-NN和SVM[23]完成了自动化血细胞分类计数（DBC）系统的血细胞特征提取和分类此外，已经做了一些研究，以预测免疫表型，结果和复发的基础上基因表达数据。例如，先前的一项研究[14]通过基因表达数据预测了治疗后的结果和复发，准确率分别为74%和87%。另一项先前的研究考虑了99名患有高危ALL的儿童，以寻找早期反应和长期结果的预测基因。为此目的，使用了具有LOOCV方法的线性回归，准确度为75%，A. Kashef等人医学信息学解锁20（2020）1003993表1相关前期工作总结。参考问题数据集预处理分析方法言论[1]第一章急性白血病的原始细胞分为ALL和AML血涂片图像–KNN（K ¼4）准确率达到80%以上[二]《中国日报》ALL和AML基因表达SMIG（选择最多增强型分类算法已经达到了信息基因）算法（ECA）准确率98%[4] ALL检测血涂片图像基于模糊聚类方法的SVM分类器最终性能已根据血液学家的意见进行了验证[8]原始细胞分类为ALL和AML外周血涂片染色分割，特征提取几种分类算法最好的性能已经获得了SVM（92%的准确度）[9]缺失值替换、噪声数据和不一致数据检测决策树[14]预测儿童ALL基因表达异常检测，PCAKNN、ML、NC、NSC、LDA、和SVM长期预后和复发预测的准确性较低[15]基于白血病四个不同的数据集，cDNA ， AffymetriX ，SNP和临床数据用常数值零替换缺失值RF，SVD，SVM得到的结果表明，分类器[16]儿童ALL[19]在初次诊断时识别存在治疗基因表达谱芯片中基因的CFS提取使用AffymetriX MAS 5.0软件进行基因提取。H-clustering，SVM，PCA，ANN，SOM，allwith LOOCV使用LOOCV的Logistic回归在亚型分类和复发预测方面获得了很好的准确性早期反应和长期结果的重要预测基因已被确定[20]B淋巴细胞白血病未血涂片显微图像标准化、可扩展性和数据扩充基于深度学习的方法，特别是卷积神经网络已提出稳健的方法，准确度为96.17%，但AUC尚未报道[21]确定ALL基因表达数据分离与特征提取PCA，KNN，SVM，ANN，它们的精度达到了约97%[22]将淋巴细胞分类为正常或原始细胞淋巴细胞的血液显微图像分割、特征提取和特征选择训练SVM分类器他们提取了一组16个特征，准确率达到92.3%[23]自动血细胞检测和计数血细胞图像的分割与特征提取KNN，LVQ，MLP，SVM他们已经获得了MLP的准确率为89.7%，80%的相对工作特征（ROC）曲线，用于长期结局预测[19]。据我们所知，并考虑到以前的研究，如综述文章[3，25]，我们发现以前的研究的主要重点是提出和使用DM方法自动检测和诊断白血病亚型，很少关注分类治疗结果。然而，在这方面，为特定患者规定和遵循的治疗方式以及在治疗过程中发生的并发症可能影响结果。因此，本研究使用数据挖掘和机器学习方法来预测ALL儿童的治疗结果。为此，本研究分析了临床和医学数据。图1.一、本研究方法学的主要步骤用于ALL治疗结局预测。A. Kashef等人医学信息学解锁20（2020）1003994��3. 材料和方法本研究中研究方法的主要步骤如图1所示，基于CRISP-DM方法[26]，将在以下小节中进行更详细的描述在这项研究中，我们的目标是在临床和医学数据集上找到最佳分类性能。此数据集由以下人员收集：我们自己从所有患者的医疗纸质记录中，表2描述在我们收集的数据集中考虑的变量的类型和值。变量类型值性别二进制（男孩和女孩）“1“¼男孩，“0“¼女孩诊断时的年龄数值最小值<$0.25，最大值<$17WBC（白细胞）数值最小值<$500，最大值<$284，000RBC（红细胞）数值最小值<$4在MAHAK儿童癌症治疗医院使用白血病治疗程序。PLT（血小板）数值细胞类型二进制（B细胞和最大¼5，640，000最小值为¼5000，最大值：¼955，000t细胞3.1. 数据描述和评价T细胞）HG（血红蛋白）数值最小值：2.4gr/dlitr，风险组顺序（轻度，最大¼16.2gr/dl本研究收集了回顾性临床和医学数据中度，高）从2012年至2018年 241名ALL患者的纸质记录中放射治疗二元“3“0“没有MAHAK异基因造血干细胞二进制“1”“0“没有（防止酷刑和其他残忍、不人道或有辱人格的待遇或处罚公约）。该数据集包括144名男性（60%）和97名女性（40%）。移植（Allo-SCT）“1”MAHAK由于转诊数量巨大，该中心编制的数据可作为国家卫生战略和政策相关问题的参考，以促进和优化儿科恶性肿瘤的医疗服务[27]。MAHAK医院收治的每名患者的一些信息，包括血液检查、临床试验和治疗，都记录在两个档案中，包括临床和住院档案，并予以保密。每次患者住院时，描述患者当前临床和医学特征的新记录将添加到相应的住院文件中。每241名患者的临床和住院档案得到彻底阅读L-天冬酰胺酶二元难处理二进制复发数值最小值<$0，最大值<$3血栓形成二进制肺部感染二进制肺衰竭二进制真菌感染数值最小值¼0，最大值¼2肾衰竭二元一过性高血糖二进制纵隔肿块二进制全血细胞减少数值最小值<$0，最大值<$5惊厥数值最小值<$0，最大值<$2疱疹数值最小值¼0，最大值¼2胰腺囊肿二进制胃肠炎二进制发热数值最小值<$0，最大值<$12和分析以这种方式，收集31个变量的值，包括第一组的四种主要血液成分（WBC、RBC、HG、PLT）。免疫低下病症数字最小值<$0，最大值<$50MAHAK医院的儿科医生和肿瘤学家小组诊断患者ALL的血液检查、风险组、细胞谱系（B细胞或T细胞）、治疗方式和治疗期间的17种不同并发症或治疗相关并发症（将在下一节中讨论）。表2说明了对数据中包含的所有属性的了解，这些属性涉及其类型和值。STD发病年龄3个月~ 17岁，平均6.56 ± 图 2显示了患者年龄分布，诊断的时间。如图所示。 2，ALL的发病率最高的年龄为2岁和3岁，有34例（14.1%），这也是以前的研究中提到的[6，12，27-29]。ALL在2-5岁的儿童中占很大比例此外，所有患者均接受了强化化疗，27例（11.2%）患者接受了放疗。14名患者（5.8%）经历了MAHAK医院的一组儿科医生和肿瘤学家一致决定异基因造血干细胞移植（Allo-HCST）的情况，肺炎数值最小值<$0中性点数值最小值<$0，最大值<$6GVHD二进制ALL的常见类型是B细胞，根据我们的数据，这一事实是显而易见的，因为分别有216例患者（89.6%）和25例患者（10.4%）患有B细胞和T细胞类型。该变量提取自免疫表型检测。图根据患者的临床档案，3显示了每个风险组分层的比例。患者分为三个风险组，包括轻度风险（MiR），中度风险（MoR）和高风险（HR）。142例患者（59%）属于MiR类，78例患者（32%）属于MoR类，21例患者（9%）属于需要重症监护的高风险。这个变量的值由一组肿瘤学家确定。我们的数据结果显示，治疗后死亡率为10%，219例（90%）患者在与疾病的斗争中幸存下来它被要求。但不幸的是，移植。硅X的那些有后死亡显示了MAHAK医院处方和遵循的强大而准确的治疗方法。此外，疾病复发是一个重要特征X1显示了诊断时按年龄缩放的初始WBC计数，其中12岁男孩的最大值为284，000，15岁男孩的最低值为500。图2显示了在诊断时的年龄上再次缩放的初始RBC计数，对于三岁男孩，达到5，640，000计数的最高值，对于两岁男孩，达到274，000的最低值。图10X 3显示了根据诊断时的年龄缩放的初始PLT计数，对于一个四岁的男孩，最高值为955，000，对于一个两岁的男孩，最低计数为5000;令人惊讶的是，对于同一个男孩，RBC计数最低RxdiX 4比较了初始HG计数在年龄上的比例，这将使患有ALL的患者的治疗过程复杂化。在我们的数据集中，三名患者记录的复发频率为三次，最终他们都死亡了最后，RstudiX 5显示了数据的成对散点图，这些散点图是通过RStudio软件根据响应变量的四个水平进行着色的，以便更好地理解和感知数字变量之间的关系。本研究分析的数据集的主要部分包括所有儿科患者面临的重要和常见并发症期间癌疗法因此，我们认为，这些特征将被详细解释和一些统计数字如下最大计数为16.2gr的诊断时间对一个15岁的孩子来说分段。女孩和最小计数是2.4克德利特一个两岁的小女孩。A. Kashef等人医学信息学解锁20（2020）1003995图二、诊断时患者的年龄分布。图三. 根据数据，每个风险组的比例。3.1.1. ALL患者的治疗相关并发症医生和儿科医生应该意识到在治疗过程中由于疾病及其治疗可能出现的并发症。由于患有ALL的患者由于疾病及其治疗而免疫受损，因此他们处于感染的高风险中。照顾这些儿童的儿科医生必须了解常见的感染性并发症及其管理[10]。然而，在大多数患者中，化疗本身是发生中性粒细胞减少的主要原因。许多接受抗白血病治疗的患者将多次发生化疗诱导的中性粒细胞减少症[10]。贫血儿童感染的标志是发烧，单一温度为38 ℃或更高。由于感染可能会迅速进展，因此需要立即关注神经营养不良儿童的发热;延迟治疗直至获得培养结果可能是致命的[10]。大多数流行病学研究揭示了入组ALL患者的症状特征，如骨痛，发热、器官肿大、恶心和厌食[27]。虽然，在诊断疾病时儿童有重要的特征和症状，但在这项研究中，我们的重点主要是癌症治疗期间发生的并发症，如果治疗不好，这些并发症可能是致命的肺炎是一种肺部感染，在白血病患儿中非常常见。先前的研究表明，肺炎占这些患者中致死性和非致死性感染的28%至43%[30]。静脉血栓形成（VT）是儿童急性白血病治疗中相对常见的并发症。一项荟萃分析表明，5.2%的研究人群发生了症状性血栓形成[17，31]。前纵隔肿块是T细胞ALL的特征，预计在53-64%的儿科患者中发生因此，在我们的病例中，25例T细胞谱系患者中有3例（12%）患有纵隔肿块，由于MAHAK医院的高质量医疗服务，所有患者均存活。A. Kashef等人医学信息学解锁20（2020）1003996¼¼¼¼接受抗凝治疗的急性白血病儿科患者的出血并发症风险显著较低，为2%，因此，预防进一步血栓形成的获益通常可能超过出血的潜在风险[31]。2 - 18%的门冬酰胺酶治疗患者发生急性胰腺炎。胰腺炎是一个相当大的发病率的原因。门冬酰胺酶作为治疗ALL的基本化疗剂，有三种剂型（天然E。大肠杆菌L-天冬酰胺酶、PEG-天冬酰胺酶和欧文氏菌L-天冬酰胺酶）。它通过将天冬酰胺代谢成天冬氨酸和氨来降低血浆中天冬酰胺的浓度。这种天冬酰胺的缺乏导致白血病原始细胞中这种氨基酸的缺失，从而导致细胞死亡。因此，医生增加L-天冬酰胺酶的剂量，以杀死尽可能多的白血病细胞。但是，在某些情况下，患者对药物表现出过敏。因此，医生将L-天冬酰胺酶改为PEG-天冬酰胺酶.我们收集的数据集包括该隐藏变量，表明12名患者（4.97%）对L-天冬酰胺酶发生过敏反应[17，33]。移植物抗白血病效应是影响急性白血病患者生存的重要生物学效应之一。在过去三十年中，对这种方式的认识导致ALL患者中同种异体干细胞移植的概念和实施以及供体淋巴细胞输注作为治疗方式的深远变化[34]。我们从住院病例中确定并提取了17种常见并发症，包括血小板减少症、肺部感染、真菌感染、一过性高血糖症、纵隔肿块、全血细胞减少症、惊厥、疱疹、胰腺囊肿、胃肠炎、发热、肺炎、中性粒细胞减少症和免疫功能低下。根据记录的病历解释免疫功能低下状况，“由于免疫功能低下状况，患者在隔离室住院”。除此之外，还有4例并发症导致死亡，分别是肾功能衰竭、肺功能衰竭和移植物抗宿主病（GVHD），1例血栓形成导致死亡。所有这些并发症都是由MAHAK医院的一组专业医生诊断的。本研究还考虑了每位患者发生特定并发症的频率3.2. 预处理纸质病历的异构性给患者健康数据分析带来了挑战。由于不同的病人有不同的并发症和疾病状态，临床医生和儿科医生会为每个病人决定不同的治疗方案。患者健康数据中的这种不规则性导致缺乏结构，使特征学习和分类任务复杂化[35]。在我们的工作中，数据预处理是在数据收集过程中完成的，忽略了那些信息率低的患者，试图得到一个完整的数据。在数据收集之后，需要缺失值处理以及数据和标准化任务。但是，在缺失值填补之前，需要对训练数据集和测试数据集进行采样和分离。因此，10倍交叉验证（C。五.）用于将数据集划分为训练数据集和测试数据集。然后，将训练数据集按60：40的比例进行划分，形成用于训练分类器的训练样本和用于调整模型超参数和避免分类器过拟合的验证样本。为此目的，验证样本，它可能表明模型过拟合。3.2.1. 缺失值插补真实世界的数据集有一些缺失值。因此，先前的研究试图找到最佳插补策略[36];然而，由于我们自己收集数据，因此在我们收集的数据集中有一些缺失值。最大缺失值率与RBC计数相关，为0.145。只有四个变量有缺失值，所以它们只是在RStudio [37]中使用missForest包进行估算，这会导致0.132 out-of-bag error OOB（error）。3.3. 响应变量形成在本研究中，ALL患者的治疗结局将分为4组。因此，我们遇到了多类分类问题。我们假设所有的病人都已经完成了治疗。表3显示了基于三个不同变量的响应变量的构建过程。收集数据时，在原始数据版本中，我们获得了三个属性，分别为并发症（值0或1）、白血病治疗成功（死亡（值0）或存活（值1））和并发症治疗成功（因治疗相关并发症死亡为例如 GVHD （值0）或治疗并发症后存活（值1））。接下来，我们根据表3将这三个变量组合在一起形成响应列。如果患者因并发症（肺功能衰竭、肾功能衰竭、血栓形成和GVHD）而死亡，则该患者为1类患者。如果患者在治疗后仍然存活，则其为第2类患者，这意味着患者在治疗期间存活且没有任何严重并发症。当一个病人从白血病中幸存下来并经历了一些并发症时，他或她是第3类的成员，最后，当一个病人在治疗过程中死亡时，他或她是第4类的成员，但我们不确切地知道他/她死亡的主要原因是什么。第四类病人没有在MAHAK医院死亡，因此没有记录，我们称之为未知死亡类。总的来说，class1和class4表示已经死亡的患者，class2和class3表示从疾病中幸存的患者。由于白血病儿童的生存能力很强，这是一个公理，即与死亡人口相对应的大多数类都很低。因此，如图4所示，本研究遇到了不平衡的分类任务。大多数类是class2和class3。另一方面，class1和class4是我们的少数班级，因为治疗后死亡人数很低。对不平衡数据集进行分类可能会导致模型过拟合。为了避免这种不一致性，所有的评估指标都在训练数据集和验证数据集上进行计算和比较，以跟踪过拟合现象。3.4. 分类算法为了对我们收集的数据进行分类，本研究中使用了几种不同的分类器。第一个分类算法和最具描述性的算法是决策树，它是许多集成分类器的基本算法，其中一些包含在我们的比较列表表3响应变量的形成。分类器是预先指定的，并使用网格搜索方法进行调整超参数每个具有预先指定的超参数值的分类器都是在训练样本上训练的那么，它的性能是并发症（0或1）白血病治疗成功（0或1）并发症治疗成功率（0或1）响应列：患者结局状态通过将其应用于验证样品进行评价。为了识别哪些模型容易过拟合，计算分类器的性能，并比较训练样本和验证样本。如果模型的性能对于训练样本比1 0 0 10 1空21 1 1 31 0 1 4A. Kashef等人医学信息学解锁20（2020）1003997¼¼见图4。响应列中四个类的绝对值（class1和class4之和仅占整个响应列的9.12%，仅class3占响应列的73.02%）。支持向量机是数据挖掘研究中最常用的算法之一随机森林（RF）是基于决策树的集成分类器之一，是一种强有力的分类工具LDA [38]是为多维分类视角开发的第一种方法，多年来一直用作主要分类技术。逻辑回归是一种广泛应用的模式识别技术，有时也用于离散响应变量的分类问题，但由于不能正确使用逻辑回归，因此多项逻辑回归作为一种新的多类分类方法取代了LDA方法。在我们的研究中有效使用的其他模型是梯度提升机（GBM）和极端梯度提升（XGBoost）。多层感知器（MLP）作为一个神经网络模型也被实现，但导致性能不佳。因此，MLP被排除在本研究比较的模型DT是一种流行的分类器，它可以提取树状图，并且可以被所有人理解和解释，而不需要熟悉数据挖掘概念。它没有黑盒的性质。此外，它具有较高的收敛速度。DT的另一个优点是可以使用预修剪和后修剪技术来防止过拟合。但是，它的主要缺点是，当数据是线性可分的时，它显示出理想的性能。支持向量机是一种强大的分类器，在许多应用中具有非常理想的性能。使用线性核，SVM只能对线性可分的数据进行分类。但是，支持向量机在使用多项式、径向基和S形核函数等非线性核函数的同时，也能对非线性可分数据进行高性能的分类。为了避免过拟合，优化目标函数中的代价系数应仔细调整。LDA使用来自所有输入变量的信息来构造新的人工变量，以最小化输出值之间的方差并最大化输出值之间的类距离。GBM在许多不同的应用中显示出理想的性能。而RF是一个独立的DT装袋集成，GBM训练的合奏浅和弱的连续DT与boosting方法，以提高性能的下一个DT相比，以前的合奏。因此，GBM在分类数据时表现出很高的准确性，并且通常是其他分类器无法击败的。XGBoost是顶级的机器学习分类器之一，是广泛使用和流行的分类器。它是一种高度灵活和通用的分类工具，具有用户构建目标函数的能力3.5. 评估指标如前所述，在本研究中使用Rstudio实现了不同的分类算法为了在分类器之间进行公平的比较并找到具有最佳性能的优越模型，考虑并计算了几个非常适合我们的案例和我们独特的数据集的评估指标我们考虑的评估指标包括准确性（等式2）。（1））、精度（Eq.（2）、回忆（Eq.（3）），以及最重要的一个是F1-score（Eq.（4）作为评价不平衡多类分类的必要措施。在我们的研究中使用的另一个重要的评估指标是ROC曲线下面积（AUC）。这些措施中的一些适用于二进制分类任务。因此，本研究中使用了这些指标的多类别版本，如多类别AUC [39]。由于我们遇到的是一个不平衡的分类任务，过拟合现象是很有可能的，应该严格监控和避免。RF是几个DT的集合，它也是一个强大的分类器RF能够以高精度对线性可分离和非线性可分离的数据进行分类。RF也是最快的集成分类器之一到精度中国（1）TPTNFPFN为了防止过拟合，可以调整DT的数量，每个DT的最大深度，最小叶子尺寸和一些其他超参数。MLR在医学领域有着广泛的应用，特别是在同时预测多个输出变量方面。使用MLR对数据进行分类的优点在于，这可能有助于实现精度TP公司简介召回TPTPFFN精确度*召回率（二）（三）更准确地理解每个输入变量与输出之间的关系。F1-分数1/42*精确度和召回率（4）¼A. Kashef等人医学信息学解锁20（2020）1003998�4. 实验结果我们的实验结果分为两个场景。第一种情况考虑了具有四个标签的响应变量，第二种情况排除了未知死因类别（第四类），有几个原因。首先，未知的死亡原因可能会使分类产生偏差表5XGBoost模型的混淆矩阵1级（实际）2级（实际）3级（实际）4级（实际）1类2000（预测）结果其次，这个班的病人最少。最后但并非最不重要的原因是，在第一种情况下，最错误的分类与未知的死亡原因类或第四类有关，几乎每个模型都过拟合。在第一种情况下，调整超参数的一些努力并没有显著提高模型的性能。根据我们的实验结果，在第一种情况下没有过拟合的唯一分类算法是2类（预测）3类（预测）4类（预测）表62 11 3 02 0 71 00 0 0 1性能优越，是XGBoost机型。对于所有分类器，调整超参数是通过比较第二种情况下不同分类器的性能网格搜索方法在这项研究中，以达到最佳的性能为ALL患者的治疗结果预测。网格搜索法是以往研究中常用的超参数整定方法之一。该方法的一个主要优点是它的速度快，在以前的研究中已经提出了用于此目的的比较方法。表4说明了XGBoost模型测试数据集的评估指标。表5显示了XGBoost模型的混淆矩阵，作为在第一种情况下导致最佳性能的优越模型对于第二种情况，省略了未知死亡原因类（第四类）。它导致剩余的231个实例用10倍CV策略划分。分类器的超参数（over-fitted）表7精确度精确度召回F1-测量多类别AUC与第一种情况类似。表6比较了在第二种情况下的不同分类器。如表6所示，SVM（成本为100）是导致最佳性能的优良模型，准确度为94.90%（95% CI：88.49-3.20610-7 这些统计显示的显著功率的本研究中考虑的用于分类和预测ALL患者治疗结果的变量。表7是对应于在测试数据集上获得的SVM分类结果的混淆矩阵X如表7所示，99例病例中只有5例观察结果被错误分类。最后，为了更详细和全面的结果，图中显示了第二种情况的四种最佳算法的ROC曲线，包括SVM，RF，DT和MLR。五、4.1. 特征重要性和评分实验结果表明，RF和SVM是两种性能最好的分类算法.因此，基于这两种算法提取特征重要性。首先，随机森林给出了特征重要性，图6显示了基于RF的特征排名，具有两个尺度，准确性和基尼指数。如图6所示，准确性和基尼指数都将发热选为治疗结果分类的最重要变量，将中性粒细胞减少症选为第二重要变量。此外，从支持向量机得出的系数表明，发热变量也被确定为预测ALL患者治疗结果的最重要变量。表4最好的结果，从第一个场景的XGBoost模型中得到的SVM模型的混淆矩阵1级（实际）2级（实际）3级（实际）1级（预测）4 0 22类（预测）0 18 13级（预测）1 1 715. 讨论本研究的主要重点是根据患者的治疗结果对其进行分类。通过分析基因表达、DNA微阵列结构或医学图像，这一研究问题已得到了广泛的重视。据我们所知，这是首次将从纸质病历中收集的临床和医学变量用于预测ALL患者的治疗结果。这项研究的另一个优点是，数据收集不需要像提取DNA微阵列所需的增强技术，因此变量是在事件发生时测量的。这将为该领域的研究开辟一条新的道路特征重要性和排名非常重要，特别是在我们的研究中，数据是完整的。一些分类器，如RF和采用线性核的支持向量机作为特征排序方法。基于我们的RF和SVM的特征排序的实验结果，可以得出结论，治疗结果预测的最重要的特征是发热变量。该变量计算患者在白血病治疗期间发烧的频率。MAHAK医院的领域专家认为这一发现一个有价值的观点。这是第一次将这类变量纳入数据集，并获得了较高的精度。特别是，有一个变量称为免疫功能低下的条件，这是从处方中提取的，其中对应的医生写道：“由于免疫功能低下的条件，将患者送入隔离室”。本研究评估指标精确度精确度召回F1-测量多类别AUC包括低风险和高风险并发症。低风险并发症的一个例子是T细胞患者的纵隔肿块或疱疹。高XGBoost型号88.54% 62.31% 90.23% 73.72% 0.79风险并发症包括可能导致死亡或肾脏损害DT86.73%61.76%54.09%57.67%78.43%SVM百分之九十四点九百分之九十点二三86.22%88.17%百分之八十七点七RF百分之九十点九一79.61%百分之九十二点一七85.43%百分之七十九点八MLR91.84%百分之八十点零五85.77%82.81%77.15%LDA85.86%64.38%71.49%百分之六十七点七五70.06%A. Kashef等人医学信息学解锁20（2020）1003999图五、第二种情况下四种最佳算法的ROC曲线。A. Kashef等人医学信息学解锁20（2020）10039910图六、RF提取的特征排序。失败，最肯定会导致死亡。即使高风险并发症可能导致死亡，GVHD也需要3 -6个月才能显示其极端影响[ 34 ]。在目前的研究中，有四个并发症，根据病人的档案造成死亡;然而，从出现并发症的原因、显示其症状、诊断和由于并发症导致的死亡存在相当长的时间间隔。此外，如果早期诊断，几乎每种治疗相关并发症都可以成功治疗。精确计算和进一步分析测量临床特征与观察实际结果和治疗相关并发症的早期诊断之间的时间间隔可能是未来有趣的研究机会。在这个技术时代，基因表达解决方案是主要的洞察进步，这种从纸质记录中收集的老式数据在某种程度上领先于这个特定的问题。此外，将治疗结果状态的标签从仅仅考虑死亡或活着扩展到更详细的标签，为研究人员重新考虑一些概念以保持更全面和精确的结果开辟了新的途径。机器学习是分类和预测问题中使用最广泛的技术。大多数研究都考虑了一些主要的机器学习算法，并且只报告了最佳性能，并且不倾向于在不同算法之间进行比较，而在这项研究中，我们比较了七种最常见的分类算法，并确定了具有最佳性能的优越模型。类似于大部分的相关工作，SVM导致在这项研究中的治疗结果预测的最佳准确性。此外，在几乎所有研究中，直到这一天，包括数据，这类患者被称为未知被排除在首位，但我们考虑了那些在一个单独的场景，并比较了结果与不组的患者。总的来说，这项实际研究存在一些局限性和困难。首先，主要的限制是关于数据收集，我们必须处理纸质记录和数据收集过程中出现的许多不一致之处。这方面的另一个问题是，为了检索数据，需要阅读大量的文件和档案。最后但并非最不重要的是，因为这些数据是独一无二的，所以在特征上有很多变化，每一个微小的改动都需要专家组的同意最后，尽管整个伊朗的存活率很低，但MAHAK医院是治疗儿童疾病特别是白血病的先驱。这就是为什么我们的数据中只有很少的死亡人数的原因;然而，由于我们的数据中有很少的死亡人数代表我们的死亡类别，我们确实为我们的分类器获得了合理的性能。我们应该从死亡人群中收集更多的观察结果，这是完全可以接受的，我们确实这样做了，但正如我们提到的，由于缺乏重要特征，我们被迫忽略了84个观察结果，包括27名死亡患者，我们可以使我们的结果稳健。在本研究中使用的一个重要的评价指标是F1-措施，这是很少使用在这类研究。但它的使用是因为响应列的每个类别中的观测值数量不平衡。6.

下载后可阅读完整内容，剩余1页未读，立即下载