心力衰竭患者的生存预测及临床决策的机器学习模型

151 浏览量更新于2024-01-09 收藏 603KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁26（2021）100772心力衰竭患者的生存预测学习技术Asif Newaz*，Nadim Ahmed，Farhan Shahriyar Haq孟加拉国加齐布尔伊斯兰理工大学电气和电子工程系A R T I C L EI N FO保留字：机器学习随机森林递归特征消除射血分数不平衡分类A B S T R A C T本研究的目的是开发一个可靠的决策支持系统，通过利用他们的临床记录和实验室检查结果，心力衰竭患者的生存预测。在临床实践中预测心力衰竭相关事件往往是相当不准确和高度可变的。确定心力衰竭的关键驱动因素在临床上也非常重要。在这方面，我们开发了一个模型，利用机器学习技术准确识别有风险的患者。这可以帮助临床医生就患者所需的治疗强度做出明智的决定。在这项研究中，我们使用了最初从巴基斯坦费萨拉巴德心脏病研究所和联合医院收集的心力衰竭数据集。采样策略被纳入集成学习框架，以开发一个更强大的随机森林分类器，可以有效地处理数据的不平衡性，并提供更高的精度和更广泛的结果。两种不同的特征选择技术-卡方检验和递归特征消除被用来识别在心力衰竭患者的生存预测方面最重要的特征。使用我们提出的方法，最大的G-均值得分为76.83%，敏感性得分为80.21%，这是显着高于其他研究人员所报道的。因此，我们提出的框架有可能成为一个有效的工具，以确定谁是风险的患者，并指导临床医生相应地采取相关措施。1. 介绍心力衰竭（HF）是心脏无法向身体泵送足够血液时发生的疾病，通常由慢性疾病如冠心病，高血压或其他心脏疾病或疾病引起[1]。全球HF患者数量急剧增加，从1990年的3350万增加到2017年的6430万[2]。在美国，大约有600万20岁以上的人患有HF，每年诊断出大约100万新病例，这一数字继续上升[3]，并且在美国，HF治疗的总成本每年超过300亿美元[4]。快速诊断和风险评估对于为HF患者提供具有成本效益的及时护理至关重要[5]。了解预期风险并向患者及其家属传达预期的未来疾病轨迹是心力衰竭患者-医生互动的重要方面[6，7]。对未来风险的了解可以帮助临床医生就治疗强度或为患者提供临终护理做出明智的决定[8]。另另一方面，识别低风险患者也可以减少患者的焦虑和额外的治疗费用。然而，如何最好地估计患者的风险尚不清楚。有许多工具可用于评估患者的HF风险，例如生物标志物[9]、风险评分[10]及其组合[11]。然而，HF的常规风险预测策略仅能够提供适度的预测能力[12]。鉴于心脏等重要器官的重要性，预测心力衰竭已成为临床医生的优先事项，然而迄今为止，在临床实践中预测心力衰竭相关事件通常未能达到高准确性[13，14]。HF的复杂性质产生了大量的信息，这些信息对于临床医生来说太难处理，因为它需要同时考虑多个因素及其相互作用。在这种情况下，可以利用人工智能和机器学习技术来开发可靠的决策支持系统，以帮助临床医生正确解释患者这项研究的目的不仅是为了开发一个准确的生存预测模型，而且还发现心力衰竭患者生存预测的基本因素。在这方面，我们利用了一个数据集，* 通讯作者。 1704年孟加拉国电子邮件地址：asifnewaz@iut-dhaka.edu（A.Newaz），nadimahmed@iut-dhaka.edu（N.Ahmed），farhanshahriyar@iut-dhaka.edu（F.Shahriyar Haq）。https://doi.org/10.1016/j.imu.2021.100772接收日期：2021年8月18日;接收日期：2021年10月7日;接受日期：2021年10月22日2021年10月23日在线提供2352-9148/© 2021作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊首页：www.elsevier.com/locate/imuA. Newaz等人医学信息学解锁26（2021）1007722UCI数据库中包含了299名心力衰竭患者的医疗记录。这些数据最初于2015年从巴基斯坦费萨拉巴德心脏病研究所和巴基斯坦费萨拉巴德联合医院收集[6]。该数据集共包含11个协变量和目标变量-患者是否存活。在299例患者中，共有203例患者在研究期间存活，96例患者在研究期间死亡。所以，一个阶级相对于另一个阶级来说是代表性不足的。数据中存在的这种不平衡对于医学数据集来说是很常见的，但是，它在预测任务中产生了一些复杂性[15]。标准分类算法具有面向准确性的设计。它们是基于每个类中实例数量相等的假设构建的。训练分类器以最小化错误预测的总数，而不考虑类别。结果，预测偏向于多数类。另一方面，少数类遭受高误分类率。即使分类器错误分类了大多数少数类样本，只要错误预测的数量最小，它就会假设它表现良好。分类器本质上无法区分多数类实例和少数类实例的错误分类。因此，需要采取适当的措施来减轻不平衡所带来的偏差数据的性质包围学习是一种机器学习范式，其中多个被称为“弱学习者”的模型弱学习者通常不会自己表现得很好。他们经常遭受高偏差或高方差。当一组弱学习器被适当地组合时，可以获得更鲁棒的模型。聚合模型倾向于提供更好的预测性能，减少偏差和方差。决策树是最流行的分类算法之一，因为它们的可解释性和易于实现[16]。然而，如果数据不平衡，它们很容易过度拟合，并且容易产生偏差。为了克服决策树的缺点，可以形成树的集合。随机森林（RF）就是这样一种集成技术，它将决策树的简单性与集成模型的灵活性和功能相结合[17]。在RF分类器中，构建N个决策树的森林，其中使用来自数据集的随机样本来训练每棵树。这个过程被称为“Bootstrapping”。在不同的样本集上训练每棵树可以减少过拟合问题。此外，在分裂期间在每个节点处评估特征的随机子集。这会生成一组不相关的树。最后，将每棵树做出的决策汇总以获得预测。通过这种方式，RF结合了装袋或自举采样和随机特征子空间选择的过程，以创建更鲁棒的预测模型因此，它通常能够提供一个更普遍和更有效的方法。比其他分类算法更好的性能。然而，这种模式仍然容易受到阶级不平衡的影响。因此，需要对分类器设计进行一些修改，以缓解类不平衡问题。数据采样是不平衡学习中的标准技术[18]。这是指使用某些技术重新平衡数据集，以产生更平衡的数据分布。这可以通过对多数类实例进行欠采样或对少数类实例进行过采样来完成。分类器在平衡重采样数据集上进行训练，允许其以与标准分类算法类似的方式进行预测。采样通常在数据预处理步骤中进行。然后，重新采样的数据与其他机器学习算法协同使用。研究人员提出了许多不同的技术来进行采样[19SMOTE是Synthetic Minority Oversampling Technique的缩写，是最流行的过采样技术之一[22]。它使用插值生成合成样本以平衡数据集。CNN（压缩最近邻），ENN（编辑最近邻）是一些流行的欠采样方法[21]。然而，这些技术使用整个少数类执行过采样，或者从整个多数类中删除示例，以在数据中产生平衡的分布大量合成样本的生成导致少数类的过拟合。另一方面，以这种方式从大多数类中删除示例会导致信息丢失，因为大多数类的很大一部分在训练过程中没有使用在这项研究中，我们建议将欠采样过程合并到RF分类器的模型构建步骤中[23]。在标准的RF分类器中，从数据集中提取自举样本来训练森林中的每棵树。在这个过程中引入了一些修改，以解决类不平衡的情况。首先，利用分层K-Fold交叉验证技术来保留每个训练和测试折叠上每个类别的样本百分比。接下来，从训练数据集中提取引导样本，即具有替换的样本的随机子集。然后对多数类进行欠采样，以保持数据中两个类的实例数量相同。这构成了特定树的训练集。这个过程是随机的，并对森林中的所有树木重复。通过这种方式，可以在平衡的自举数据上训练树。这避免了类不平衡的问题，同时也减轻了由于欠采样而导致的信息丢失的影响。因此，我们提出的方法能够在多数和少数类别上提供具有高准确性的平衡预测性能。本研究的另一个重要方面是确定关键特征心力衰竭患者的生存预测。识别在生存预测中最重要的特征可以更好地指导临床医生进行决策。此外，它还减少了预测任务所需的实验室测试的数量。在这方面，两种不同的特征选择技术被用来正确地评估属性的重要性。卡方检验[24]是统计学中用于检验两个事件独立性的常用方法，在本研究中用于识别高度依赖于响应变量的特征。递归特征消除（RFE），这是一种流行的基于包装器的方法，被用来确定一个子集的功能，可以优化的预测性能，建议的平衡RF分类器。通过仅使用3个选定的特征，与使用原始数据集中的所有特征相比，分类器能够做出更准确的预测。2. 文献综述一些研究人员分析了ML技术作为改善HF患者生存预测的工具。这些研究中的大多数旨在确定影响心力衰竭患者死亡可能性Panahiazar等人[25]比较了几种ML模型与西雅图心力衰竭模型（SHFM）[26]，用于射血分数降低的心力衰竭（HFrEF）患者的生存预测使用EHR数据，他们的模型能够将AUC提高11%，用于预测1年，2年和5年生存率。Ahmad等人[6]应用传统的生物统计学时间依赖性模型（如COX回归和Kaplan-Meier生存曲线）预测在巴基斯坦费萨拉巴德心脏病研究所和联合医院住院的299例HF患者的死亡率。他们在网上公开了他们的数据集[27]。他们的研究特别侧重于估计心力衰竭患者的死亡率以及心力衰竭患者死亡风险增加的主要因素他们将年龄增长、肾功能不全、血压、贫血和射血分数确定为突出的风险因素。在此之后，Zahid等人[28]使用相同的数据集提出了两种基于性别的不同生存预测模型他们在研究中声称，男性和女性心力衰竭患者的生存预测模型和最高风险因素差异显着。然而，需要在更大的人群中进行评估奇科等人[13]应用单变量统计分析来排名最可靠的导致心力衰竭患者死亡风险较高的因素tients。他们提供的经验证据表明，只有两个特征，血清肌酐和射血分数，在某种程度上足以预测A. Newaz等人医学信息学解锁26（2021）1007723患者）心力衰竭患者的生存率。在他们的研究中，使用所有特征，使用RF分类器获得了最好的结果，MCC得分为38.4%，灵敏度得分仅为49.1%。当仅使用两个特征（血清肌酐和射血分数）进行相同的分类技术时，MCC评分提高到41.8%，但准确性仅为58.5%。他们获得的最大灵敏度评分为54.1%，特异性评分为85.5%。他们提出的方法在性能上存在明显的差距这是由于数据集的不平衡性质，表1数据集的描述功能描述统计患者年龄范围：40-95岁年贫血无或存在贫血0=无（170例患者）1=存在（129study.此外，敏感性评分仅为50%，这意味着几乎50%的时间，他们的模型无法预测患者的风险然而，预测处于风险中的患者对于启动肌酸磷酸激酶（CPK）血液中CPK酶水平（mcg/L）患者）范围：23-7861平均值=581.839及时治疗并提供必要的护理。因此，具有低灵敏度对于可靠的决策支持系统是不值得羡慕的。为了解决阶级不平衡问题，Kim et al.[29]建议使用3糖尿病无/有糖尿病0=无（174例患者）1=存在（125例患者）不同的过采样方法-SMOTE，Borderline-SMOTE和射血分数离开范围的血液百分比：14阿达森。利用过采样技术使灵敏度高血压每次收缩平均值=38.084SMOTE算法的敏感性最高，为71.23%。在另一篇文献中，Hasan等人[30]使用了两种不同的特征选择技术--最小冗余无/有高血压0=无（194患者）1=存在（105例患者）最大相关性（MRMR）和递归特征消除（RFE）找出最相关的特征他们报告了最高的g均值分数的 69.52% 使用只两特征与的决策树血小板数血液中的血小板数（千血小板/mL）血清肌酐血液中肌酐水平（mg/kg）范围：25.01平均值=263.358分类器范围：0.50DL本研究试图克服上述研究的不足，开发一个更可靠、鲁棒的决策支持系统用于心力衰竭患者的生存预测。使用我们提出的方法，最大灵敏度为80.21%，特异性为74.45%，仅使用3个选定的功能，从11个原始数据集，利用特征选择技术。分类准确率为76.25%。因此，我们提出的方法远远优于奇科等人提出的模型[13]和他人我们的模型有能力提供更平衡的预测血钠水平（mEq/L）吸烟患者是否有吸烟习惯目标是患者是否存活或平均值=1.394范围：114平均值=136.6250=女性（105例患者）1=男性（194例患者）0=假（203例患者）1=真（96例患者）性能，并帮助更准确地识别处于风险中的患者。3. 材料和方法3.1. 数据集描述该数据集最初于2015年从巴基斯坦费萨拉巴德心脏病研究所和巴基斯坦费萨拉巴德联合医院收集[6]。它可以在UCI机器学习库中找到[27]。它包含了299名心力衰竭患者的医疗记录。所有患者均患有左心室收缩功能障碍，并且既往患有心力衰竭，将其置于纽约心脏病协会（NYHA）心力衰竭阶段分类的III级或IV级[31]。原始数据集总共包含11个特征、时间变量（随访期，平均130天）和响应变量（死亡事件）。时间变量被排除，因为研究的重点是根据患者的临床特征识别有风险的目标变量是患者是否存活。捐助者报告说数据集的描述见表1。3.2. 拟议方法首先使用分层5重交叉验证方案将数据集分为训练集和测试集。这种拆分策略通过保留每个训练和测试折叠上每个类别的样本百分比，将数据随机拆分为5个折叠。这确保每个折叠具有与原始数据集中类似的数据分布。接下来，我们提出的平衡随机森林分类器（BRF）在训练集上进行训练。然后将该过程与特征选择技术相结合，以进一步提高分类器的性能。进行卡方检验以识别高度相关的特征。随访期间死亡0=存活（2031=死亡（96例患者）与目标变量有关。这可以帮助辨别最可能导致心力衰竭患者死亡的变量。然而，像卡方检验这样的过滤方法忽略了这样一个概念，即一个特征本身的信息量可能较少，但当与其他特征结合时，它可以提供对数据的有价值的见解[32]。因此，一个流行的包装方法-递归特征选择（RFE）被用来选择一个合适的特征子集，优化我们的BRF分类器的预测性能。包装器方法以启发式搜索可以提供最佳预测性能的次优特征子集。因此，它通常提供优于滤波器技术的结果。使用6种不同的性能指标-我们提出的框架的轮廓如图所示。1.一、3.2.1. 平衡随机森林分类器数据级修改或采样是处理不平衡分类问题的标准方法。标准RF分类器无法解决类不平衡问题，偏向于大多数类。为了防止这种情况，采样策略被纳入RF分类器的模型构建阶段。我们提出的方法的架构描述如下：步骤-1：决定用于构建森林的树的数量（N）。在本研究中，N取为100。大量的树确保了更好的概括性和减少由于欠采样的信息损失。步骤2：从训练集生成N个自举样本。Bootstrapping是一种重新启动，A. Newaz等人医学信息学解锁26（2021）1007724心力衰竭数据集列车试验拆分（使用5倍分层CV）训练集测试集性能评价灵敏度精度特异性MCCG均值ROC-AUC特征选择卡方检验RFE平衡随机森林（BRF）Fig. 1. 拟议框架概要。重复绘制相同大小的较小样本，并从单个原始样本中替换[33]。步骤3：对每个自助样本的多数类进行随机欠采样，以平衡数据中的类分布。步骤4：然后在平衡重采样数据上训练每棵树。这缓解了不平衡分类的问题。此外，由于样本是用替换来绘制的（在样本已经被用于形成样本集之后，在绘制下一个单元之前，样本被返回到群体），因此减轻了由于欠采样而导致的信息丢失的问题。步骤5：在每个决策树的每个节点上，计算基尼指数，以选择优化度量的特征。然而，这里插入了随机性来生长不相关的树，以获得更好的泛化。在每个节点处选择特征的随机子集进行评估。通过这种方式，可以避免在每棵树中包含具有高预测能力的特征这个过程一直持续到整个树形成。步骤-6：对森林中的所有树重复步骤3到5。这样就形成了一个巨大的森林，有各种各样的树木。每棵树都是在数据的随机平衡子集上训练的。通过生成这样的一组不同的树，可以大大减少方差，并且可以实现更好的性能模型。步骤7：最后，为了进行预测，每棵树提供一个决策对于测试集中的每个样本。最后一个预测是森林中的树所做的最频繁的预测。我们提出的BRF分类器的构造方案如图所示。二、3.2.2. 特征选择在分类器的训练过程中使用不相关的特征会导致泛化能力差，而使用冗余特征只会增加复杂性[34]。因此，识别预测任务的最具代表性的特征子集不仅可以减少模型的过拟合和复杂性，还可以提高预测性能并减少计算时间[32]在这方面，我们采用了两种不同的特征选择技术：卡方检验和递归特征消除（RFE）。卡方检验是一种使用统计测量来计算变量依赖性的过滤器方法，而RFE是一种包装方法，其包装在分类算法（在我们的情况下为BRF）周围，以识别优化其预测性能的特征子集。3.2.2.1. 卡方检验卡方检验是检验两个事件独立性的常用统计方法[24]。给定两个变量的数据，它测量预期计数（E）和观察计数（O）如何相互偏离。这可以用来确定A. Newaz等人医学信息学解锁26（2021）1007725步骤-1步骤-2步骤-3步骤-4步骤-5图二、构建平衡随机森林分类器。预测变量和响应变量之间的关系。高度依赖于反应变量的协变量可被认为是心力衰竭患者死亡的主要原因卡方检验的公式为：2由于删除某个功能而导致的性能变化。基于性能标准，它以这种方式计算所有特征的排名。具有最小排名的特征从特征集中移除。然后对模型进行再次训练，计算了最不重要的特征被移除，χ2=∑（Oi-Ei）（一）重复的性能进行优化的功能子集cEi当两个变量相互独立时分类器用于构建最终模型。使用G-均值评分作为性能指标。这里要注意的一件重要的事情是，计数接近预期计数，导致卡方得分较小。因此，如果两个变量之间存在显著的依赖性，卡方得分会更高。3.2.2.2. 递归特征消除（RFE）。递归特征消除（RFE）是最流行的特征选择算法之一，因为它的灵活性和易用性[35]。它是一种基于包装器的向后特征消除技术。它从整个特征集开始训练模型。该算法背后的基本思想是测量RFE排名靠前的特征不一定是最相关的特征[35]。相反，这些特征仅结合在一起才能够优化预测性能。3.2.3. 性能度量评估指标量化了预测模型的性能。准确性是分类任务中最常用的指标。然而，在不平衡数据集的情况下，准确性度量可能会非常误导，因为它偏向于大多数类。因此，我们认为，数据集训练集(80%）测试集(20%）自举0101. . .0101班级不均衡分布取样取样取样取样01. . .平等阶级分布DT1列DT2列 . . . DTn-1列列车DTn性能评价平衡随机森林训练-检验拆分（使用5倍分层CV）010101A. Newaz等人医学信息学解锁26（2021）1007726===×-×类特定性能度量在不平衡分类任务中更有用。借助混淆矩阵可以更好地说明这些问题（见表2）。在二元分类任务的情况下，有两种可能的结果：True（1）和False（0）。TP和TN分别表示正（1）和负（0）类实例的正确预测。FP是指将阴性病例预测为阳性，而FN是指将阳性病例预测为阴性。在我们的场景中，已故患者被标记为1，他们代表少数群体。研究期间存活的患者标记为0，他们构成了大多数类别。基于这4个基本术语，定义了度量3.2.3.1. 精度分类准确度被定义为正确预测的总数与实例总数的比率。可能的预测。3.2.3.6. ROC-AUC。ROC代表接受者操作特征，它是分类任务中广泛使用的性能度量。AUC是真阳性率（TPR）与假阳性率（FPR）的曲线下面积。TPR越高越好，而FPR值越低越好。AUC值可以在0.5至1的范围内分数越高越好。4. 结果和讨论4.1. 使用标准RF分类器，SVM，KNN，LR，AdaBoost类不平衡在许多现实世界的应用程序中经常被观察到准确度TP+TNTP+FP+TN+FN（二）[36，37]，它引起了研究人员的大量关注，因为标准的分类算法并不是为了数据集中的多数类支配模型的分类精度。当数据不平衡时，分类器可以达到较高的准确率。然而，这种高精度是过于乐观的，并不能真正代表分类器的性能。因此，为了更好地反映分类器的性能，需要考虑不同的性能指标，以考虑可能的类不平衡情况。3.2.3.2. 敏感性或回忆。灵敏度，也称为召回率或真阳性率（TPR），表示分类器对阳性（少数）类的性能。较高的灵敏度值反映了分类器对少数类实例的预测能力解决这种不平衡的情况[38]。由于差异，预测偏向于多数类，导致少数类的错误分类率很高。这可以从使用标准RF分类器进行分类时获得的灵敏度和特异性测量之间的巨大不成比例中观察到。使用RF分类器获得的灵敏度、特异性、准确度、G均值、MCC和ROC-AUC测量值概述于表3中。TPR的敏感性仅为49.05%，特异性仅为49.05%。TNR为85.73%。因此，分类器明显存在偏差，假阴性（FN）预测的数量太高，不能被视为生存预测任务中的可靠工具为了比较，我们还使用了其他四种流行的分类算法：支持向量机（SVM），K-最近邻（KNN），灵敏度TPTP+FN（三）逻辑回归（LR）和自适应提升（AdaBoost）。结果在表3中列出。可以观察到，SVM和KNN分类器在少数类别预测上表现得非常差，提供了一种新的分类方法。3.2.3.3. 的特异性特异性，也称为真阴性率（TNR），是一种衡量指标，确定阴性类别的预测效果如何。它通常与敏感性一起使用。由于否定类通常呈现大多数实例，分类器通常表现出较高的特异性但较低的灵敏度。敏感性评分分别为9.42%和14.58%。MCC得分非常接近0，这表明这些分类器的表现并不比随机预测好。LR分类器的分类效果优于SVM和KNN分类器，但低于RF分类器。然而，很明显，集成方法提供了最好的结果仍然偏向于大多数阶级。可以观察到AdaBoost，专属性TNFP+TN（四）其是采用提升方法的另一种集成技术，提供了比RF分类器稍高的灵敏度分数3.2.3.4. 几何平均值（G-均值）。几何平均值（G-mean）结合了两个指标（灵敏度和特异性），并提供了更平衡的性能测量。如果两个类别中的任何一个具有较高的误分类率，则低G均值分数指示分类性能较差。然而，RF分类器在G均值评分、MCC和ROC-AUC方面表现更好。因此，RF分类器优于其他分类算法，但仍然容易受到类别不平衡的影响。4.2. 应用SMOTE后，使用标准RF分类器，SVM，KNN，LR，AdaBoostG-平均值= Sensitivity×specificity（五）一些特别战略需要到被通过到交易与这些3.2.3.5. MCC。Matthews Correlation Coefficient马修斯相关系数它是一个可靠的统计度量，只有当预测在所有4个混淆矩阵类别中都获得良好结果时才产生高分。然而，它并没有区分多数和少数阶级的表现。不平衡情景。SMOTE是用于不平衡分类的最流行的采样技术之一。它对少数类实例进行过采样以平衡数据集。然后在平衡数据上训练分类器，减少由多数类引起的偏差。为了避免数据泄漏，数据首先被分为训练和验证MCCTPTNFPFN=（TP+FP）（TP+FN）（TN+FN）（TN+FN）（六）使用5倍CV设置。仅在培训表3该值的范围为-1到+1。值为+1表示完美预测，值为0表示不比随机预测好，值为-1表示最差表2混淆矩阵预测错误（0）预测正确（1）使用标准分类算法获得的业绩计量（百分比）。SVM KNN LR AdaBoost RF灵敏度9.42 14.58 34.32 51 49.05特异性97.05 91.65 93.1 82.24 85.73G均值26.44 35.72 56.12 64.25 64.31准确度68.89 66.89 74.23 72.23 73.92实际错误（0）TNFPMCC11.579.4335.1634.5937.84实际True（1）FNTPROC-AUC53.2353.1163.7166.6267.39A. Newaz等人医学信息学解锁26（2021）1007727褶皱分类器是在训练集上训练并在验证集上评价它们的性能。取5个测试折叠的性能测量值的平均值。首次使用SMOTE对数据集进行重采样时获得的性能指标见表4。当应用SMOTE时，性能的改进是明显的。特别是对于SVM分类器，灵敏度得分显著提高。一般来说，当使用SMOTE对数据进行重采样时，所有的分类器都表现得更好。然而，在MCC、G-平均得分、准确性或ROC-AUC方面，RF分类器再次优于所有其他分类器。使用RF分类器获得的最大MCC评分为38.68%。然而，用RF分类器实现的灵敏度得分为59.53%，这仍然相对较低。这可能是由于从现有实例生成大量合成样本可能导致泛化能力丧失，因此分类器在测试集上的表现不佳4.3. 使用BRF分类器为了克服标准分类算法以及SMOTE的缺点，我们提出了一个模型，其中采样技术被纳入到一个RF分类器的建设。在这项研究中，我们对每个自举数据集进行了欠采样，以获得平衡的类分布。因此，森林中的每棵树都是在平衡的自举数据上训练的.这种方法不仅减少了不平衡数据产生的偏差，而且以最小的信息损失确保了更好的可推广性能。如果在数据预处理步骤中预先执行欠采样，则可能丢失有价值的信息。此外，很大一部分数据在模型开发阶段仍未使用，这可能导致有偏差的预测。该问题可以通过利用嵌入在RF分类器的构造中的自举方法来缓解。创建bootstrap样本后，实例将返回到原始总体。这样，没有多数类实例从原始群体中移除。通过以这种方式建立一个大型森林，所有的样本都有可能被用于模型开发，从而减少信息的损失。使用我们提出的方法获得的性能指标如表5所示。从表5可以看出，当我们提出的BRF分类器用于预测HF患者的得到的灵敏度得分为71.9%，这是远远高于其他分类算法，甚至比标准的RF分类器，提供了迄今为止最好的性能高分数比预先应用SMOTE对数据集进行重采样时高12.37%使用BRF分类器获得了最高的G-均值得分72.67%，比传统RF分类器高8.36%在所有指标（特异性除外）方面，BRF分类器的表现明显优于所有其他分类器标准分类算法提供了更高的特异性，因为它们偏向于大多数类别。由于使用BRF分类器减轻了偏倚，特异性评分略有下降。然而，如果我们看看更强大的性能指标，如G均值得分或MCC，很明显，BRF分类器的性能比其他分类器以及流行的技术（如SMOTE）好得多。表4应用SMOTE后获得的业绩计量（百分比）表5使用我们提出的BRF分类器获得的性能指标（百分比）。平衡随机森林（BRF）分类器灵敏度和特异性71.973.45G均值72.67精度72.93MCC43.39ROC-AUC72.674.4. 使用随机欠采样（RUS）和RF分类器与传统的欠采样方法相比，我们首先对训练数据集进行随机欠采样。然后使用该重新采样的数据集来训练RF分类器，并在测试集上测量性能。获得的性能指标见表6。可以观察到，使用这种方法实现的性能比我们提出的方法低得多。使用BRF分类器获得的MCC分数比这高7.45%。因此，BRF分类器可以被认为是心力衰竭患者4.5. 使用BRF开发的模型与RFE和卡方选择的由于已经确定BRF分类器优于其他传统方法，因此我们还想了解在预测心力衰竭方面最重要的特征。在这方面，我们首先采用卡方检验来评估特征对目标变量的依赖性。结果如图3所示。射血分数和血清肌酐评分最高，这意味着它们与心力衰竭患者的生存率高度相关。其他变量，如年龄和血清钠也得分相对较高。然而，一些变量，如糖尿病，性别，吸烟习惯几乎为0分，表明它们与心力衰竭患者的生存这里需要考虑的一件事是卡方检验是一种单变量特征排名技术。它没有考虑特征之间的相互依赖性。一个特征本身的信息量可能较少，但当与其他特征相结合时，它可以提供对数据的有价值的见解。因此，为了获得更具体的特征子集，以优化预测性能，我们采用了递归特征消除技术。该过程围绕我们提出的BRF分类器进行，并将G-均值得分作为优化参数。RFE共选择了5个特征。通过RFE计算的重要性分数如图4所示。可以观察到，血清肌酐和射血分数也是RFE中评分最高的两个特征。这证实了这两个特征确实是心力衰竭患者生存的关键驱动因素。患者年龄是第三重要属性，在卡方检验评分中也排名第三。因此，患者的年龄也是心力衰竭死亡率的关键因素表6使用RF分类器的随机欠采样获得的性能测量（百分比）SVMKNNLRAdaBoostRF灵敏度56.4233.4765.6358.4259.53特异性69.573.4671.9873.9379.34G均值61.9848.2468.6165.3268.41精度65.2160.5469.9268.9172.93MCC257.2535.9732.0138.68ROC-AUC62.9653.4768.866.1769.43随机欠采样（RUS）+RF灵敏度66.79特异性70.96G均值68.57精度69.57MCC35.94ROC-AUC68.88A. Newaz等人医学信息学解锁26（2021）1007728图三. 卡方检验得分。图四、RFE选择的特征及其重要性分数。患者RFE选择的其他两个特征是血小板计数和肌酸磷酸激酶（CPK）。虽然这两个特征仅利用从RFE获得的5个选择的特征，我们提出的BRF分类器被再次训练。当特征选择被纳入框架时，分类器的预测性能得到了明显的改善。通过结合特征选择技术获得的结果在表7中给出。对于所选的特征，射血分数（EF）和血清肌酐是生存预测的两个最重要的预测因子。血清肌酐是肾功能不全的关键生物标志物，EF是用于分类心力衰竭的重要测量。它们在文献中被认为是心力衰竭的主要驱动因素[8]。年龄被认为是第三个最重要的因素，这是可以预期的。最后两个特征-血小板计数和CPK显示对目标变量的依赖性较小。然而，CPK和血小板计数与其他主要问题有关，如肾功能不全或心脏损伤，这是死亡的主要原因。因此，它们可能与目标变量没有直接关系，但与其他变量有显著的关系。当性能从表7中可以观察到，当仅利用来自RFE的5个选定特征时，敏感性评分提高了6.31%。当卡方检验中只有前3个特征时，被利用了。这一点很重要，因为高敏感性评分代表心力衰竭患者死亡率预测的高准确性。通过准确识别处于风险中的患者，可以及时开始治疗，并且临床医生可以就所需治疗的强度做出明智的决定，这可以证明对患者非常有益。最高的G-平均值为76.83%，MCC为52.53%。因此，通过将特征选择方法与我们提出的BRF分类器结合，获得了最佳性能。该最终模型仅使用3个特征产生更平衡的预测性能。图 5 示出了与使用标准 RF 分类器、具有过采样数据的 RF（SMOTE）、具有欠采样数据的RF（RUS）和没有特征选择的BRF分类器4.6. 我们提出的方法与以前的作品的性能比较我们提出的方法与以前的作品的性能比较已在表8中报告。作者没有报告某些措施。因此，它们是空的。从表中可以看出，在G均值得分或ROC-AUC测量方面，我们的方法明显优于以前的工作。在其他工作中，Kim等人[29]使用过采样技术报告了71.23%的最大灵敏度。使用我们提出的方法实现的敏感性得分是80.21%，这是显着高于其他作品。Hasan等人[30]报告的准确度为80%，比我们的方法获得的准确度高一点。然而，准确性不是不平衡数据的理想度量，这从Hasan等人提出的方法获得的低灵敏度评分（51.72%）中可以看出。[30]。8075706560组合与其他特征，他们提供更好的预测表7通过应用RFE，使用选定特征获得的业绩计量（百分比）。5550RF SMOTE + RFaBRUS + RFBRFCBRF + RFEDBRF + Chi图五. 我们提出的方法与其他技术的处理不平衡分类问题的技术：随机欠采样（RUS），SMOTE（c）平衡RF分类器（d）具有特征选择方法的BRF：RFE和卡方检验。BRF+ RFEBRF+ Chi2灵敏度78.2180.21特异性70.5174.45G均值74.2676.83精度72.9376.25MCC46.3352.53ROC74.3677.33A. Newaz等人医学信息学解锁26（2021）1007729表8我们提出的方法与以前的作品的性能比较。研究方法学准确性G均值灵敏度特异性AUC MCC Chicco [13]单变量特征选择策略RF 58. 5% 68. 01% 54. 1% 85. 5% 69. 8%41. 8%[29]第29届中国国际航空航天博览会哈桑[30] DT+ MRMR+ RFE80%69.52% 51.72%93.44%72.58%本研究BRF+卡方2 76.25%76.83% 80.21%74.45%77.33% 52.53%5. 结论在这项研究中，我们开发了一个模型，以建立一个可靠的决策支持系统，用于心力衰竭患者的生存预测。在公开可用的HF数据集上实现的性能以及所提出的方法的多功能性表明，它有可能成为一种可靠的工具，可用于临床实践，以帮助临床医生和从业者进行决策。血清肌酐和射血分数已被确定为预测风险的关键因素。然而，患者的年龄也是一个关键因素。仅使用这3个因素，目前处于风险中的心力衰竭患者可以用我们提出的方法准确地识别。目前研究的一个局限性是，由于缺乏公开的数据集，该模型是在相对较小的数据集上开发的。来自不同地理区域的大型数据集肯定会增强模型的鲁棒性，并更好地了解心力衰竭患者最可能的死亡在我们的模型中，我们将欠采样方法引入到自举样本的构建中，以构建我们的平衡随机森林分类器。然而，也可以利用其他采样技术，其性能可以与本研究中提出的模型进行比较。这是我们计划在未来发展中研究的问题利益冲突披露我们声明不存在利益冲突资金来源这项研究没有从公共、商业或非营利部门的资助机构获得任何具体的竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认本研究利用了从巴基斯坦费萨拉巴德心脏病研究所和巴基斯坦费萨拉巴德联合医院收集的心力衰竭患者我们感谢Assia Munir的数据管理。引用[1] 国家心肺和血液研究所（ NHLBI ）。心衰 https://www.nhlbi.nih.gov/health-topics/heart-failure/天啊[2021年10月6日存取。[2] [10]杨文，李文. 1990年至2017年195个国家和地区的心力衰竭负担和潜在原因2月12日Eur J Prevent Cardiol 2021。 https://doi.org/10.1093/eurjpc/zwaa147.[3] Virani SS，Alonso A，Aparicio HJ，Benjamin EJ，Bittencourt MS，CallawayCW，Carson AP，Chamberlain AM，Cheng S，Delling FN，Elkind MS心脏病和中风统计-2021更新：美国心脏协会的报告。2月23日循环2021;143（8）：e254-743。https://doi.org/10.1161/CIR.0000000000950.[4] Heidenreich PA，Albert NM，Allen LA，Bluemke DA，ButlerJ， FonarowGC，Ikonomic JS，Khavjou O，Konartima MA，MaddoX TM，Nichol G.预测心力衰竭在美国的影响：美国心脏协会的政策声明。May Circulation：Heart Fail2013;6（3）：606-19. https://doi.org/10.1161/HHF.0b013e318291329a.[5] Balogh EP，Miller BT，Ball JR.改善医疗诊断。网址：//doi.org/10.17226/21794。[6] Ahmad T，Mu

下载后可阅读完整内容，剩余1页未读，立即下载