机器学习预测终末期肾病死亡率改善

185 浏览量更新于2024-01-07 收藏 1.45MB PDF 举报

机器学习方法

随机森林

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁19（2020）100351终末期肾病死亡率预测增强：一种机器学习方法Edwar Maciasa，*，Antoni Morella，Javier Serrano a，Jose Lopez Vicario a，Jose Ibeas baWirelessInformationNetworking（WIN）Group，UniversitatAutoánomadeBarcelona（UAB），Bellaterra，08193，SpainbTaulí公园医院肾脏科，InstitutdeInvestigacio�iInnovacio�ParcTaulíI3PT。UniversitatAutonomadeBarcelona，Sabadell，08208，SpainA R T I C L EI N FO保留字：死亡率预测终末期肾病机器学习LSTM随机森林A B S T R A C T在这项工作中，我们建议将终末期肾病（ESRD）患者演变过程中收集的大量变量与机器学习技术相结合，以改善ESRD的死亡率预测。这项工作是在261例患者的回顾性队列中进行的，合并了诊断、实验室检查和血液透析期间记录的变量的演变随机森林（RF）用于探索变量的推断，并定义长短期记忆（LSTM）递归神经网络的基本性能。然后，LSTM用专家人员选择的几组变量进行训练，RF发现的变量最好的性能，获得使用所有的变量，但RF发现有更好的预测能力比那些选择的专家知识。整合这三个信息源假设在受试者工作特性曲线下的面积有4%以上的改善。该方法足以预测不同时间范围内的死亡率。对ESRD患者变量的大规模整合，以及LSMT的使用，假设死亡率预测模型有了异常的改善。总之，机器学习方法可以改变ESRD死亡率预测因素分析1. 介绍慢性肾脏疾病（CKD）是一种流行病学问题，在美国成人人群中占11%，在西班牙占9.2%[1]。据世界卫生组织（WHO）称，它对全球人口的发病率和死亡率产生间接影响，增加了最致命疾病的死亡风险[2，3]。CKD与心血管（CV）风险密切相关，心血管（CV）风险是导致死亡率最高的原因，尤其是终末期肾病（ESRD），其中CV死亡是主要原因之一[1]。最广泛使用的检测患有这些类型的病理风险的方法是基于循证医学，其被转化为最佳实践指南，例如美国心脏协会/美国心脏病学院（ACC/AHA）[4]，QRISK 2 [5]，Fra-100 [6]或Reynolds [7]。它们基于风险因素和事件之间的线性关系假设。尽管如此，使用非线性关系的更复杂算法的应用，并且可以在预测模型中提供更好的性能，仍然是一个挑战。一个悬而未决的问题。因此，在机器学习（ML）时代，可以生成由大量数据支持的复杂模型[8 - 10 ]。此外，大规模的研究已经开始描述与ML，以建立预后的死亡率在一般人群中使用常规的临床研究。数据[11 - 14 ]。然而，ESRD中存在的方法使用基于经典统计学的方法[15很少有研究将ML技术应用于CKD。Salekin [20]和Abdullah [21]使用不同的分类器（支持向量机、k-最近邻、随机森林（RF）和人工神经网络（ANN））检测CKD，Doi [22]训练逻辑回归以预测血液透析患者的死亡率，Tita-piccolo [23]使用RF对心血管风险进行使用ML的死亡率预测模型在ESRD人群中甚至更少，Akbilgic[24]使用RF预测1个月至1年的死亡率，接受者工作特征下的面积（AUROC）为0.736。这份手稿的目的是双重的，提出一个探索性的* 通讯作者。电子邮件地址：edwar. uab.cat（E. Macias），antoni. uab.cat（A. Morell），javier. uab.cat（J. Serrano），jose. uab.cat（J.L. Vicario），jibeas@telefonica.net（J.Ibeas）。https://doi.org/10.1016/j.imu.2020.100351接收日期：2020年2月15日;接收日期：2020年5月10日;接受日期：2020年5月10日可于2020年2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuE. Macias等人医学信息学解锁19（2020）1003512通过使用大量变量分析潜力，并通过长短期记忆（LSTM）递归神经网络（RNN）利用时间依赖性来改善ESRD死亡率的预测模型。对几组变量的预测能力进行了评价。本研究还利用了患者连续监测产生的样本数量，提出了短期死亡率的预测模型，据我们所知，该模型尚未达到AUROC高于0.736。这项研究指出了ML方法评估ESRD患者医务人员的潜在益处。它鼓励使用专门的ANN作为预测机制来开发更强大的模型。2. 材料和方法这项回顾性研究是在一个单一中心的1178例HD患者的同质队列中进行的，参考人群近50万居民。在1178例患者中，有537例患者的信息被提取出来，其中261例患者提供了必要的大量数据。这些数据来自2007年至2018年期间肾脏科血液透析（HD）部门的Parc Tauli大学医院信息系统。该项目通过了伦理委员会（代码2018/508），随后按照常规方案进行了匿名处理。入选标准为法定年龄（>18岁）。可用的数据包括诊断、实验室检查和血液透析过程中的变量。暴露期是从患者信息在医院信息系统中登记到ESRD的那一刻起，直到患者死亡。为了利用变量的预测能力及其在ESRD患者随访中的时间依赖性，首先选择数据，然后进行预处理，最后分两个阶段生成预测模型。第一个使用RF，由于其易于调整和计算成本，以找到最重要的变量，并为更复杂的算法设置基线性能。第二阶段有两个目的，即通过LSTM利用时间依赖性和分析变量集的影响，包括前一阶段发现的变量、专家工作人员选择的变量组和使用所有可用变量。预测终末期肾病患者死亡率的所有必要步骤见图1。 1，并在下面描述。2.1. 数据选择来自诊断史、实验室检查、HD疗程和人口统计学的变量被用作开发预测模型的输入。预测的结果是患者的死亡率。的根据缺失值（MV）的百分比过滤变量，丢弃MV超过43.2%的变量。在表1中可以了解所选择的特征。接下来描述了与本研究最相关的信息2.1.1. 诊断与病人入院史相关联。每一个条目都与医务人员的检查和评估所确定的一些特定诊断相关联，这些诊断使用国际疾病分类（ICD 9）进行编码。2.1.2. 实验室血液学、生化或某些ESRD相关激素样本的所有相关变量均作为实验室事件储存。其中一些或多或少是周期性的。例如，最有规律的是血红蛋白，每个月测量一次，而蛋白质和PTH每四个月测量一次。其他测量，如免疫学或肿瘤标志物，表1从数据源中选择的变量。根据患者的死亡日期对结局进行编码。SBP和DBP指收缩压和舒张压，HR指心率，Temp指体温。实验室检查血液透析诊断钙累积重量动脉病Creatine平均流量心脏病铁蛋白血容量糖尿病HD肠病后葡萄糖DBPHD骨折前血红蛋白DBP血红蛋白干重出血HDL胆固醇HD时间肝病HD后的红细胞压积HR高血压HD感染前铁HRKTV低血压瘤HD后的LDL胆固醇SBP肺病HD前白细胞HD后淋巴细胞HD前单核细胞温度人口统计学神经血管通路年龄磷性别磷酸氢二钾PTH结局至死亡的钠总胆固醇总蛋白甘油三酯尿素Fig. 1. ESRD预测模型的开发框架，G11至G33是指根据专家工作人员的经验，按其重要性排序的一组变量。在预处理阶段，对分类特征进行1-hot编码，生成部分特征E. Macias等人医学信息学解锁19（2020）1003513我ðÞðÞ特别地。2.1.3. HD变星在HD疗程期间，每周3记录的信息包括血管通路类型、疗程持续时间、低血压发作和从血液透析机获取的其他变量，例如干重、体温、收缩压和舒张压，心率平均流量等等最后的预测值。然后，由于数据的结构，使用LSTM利用不同的时间依赖性2.3.1. 特征选择-随机森林RF结合基于决策树的预测[25]。它们是用数据Dn的随机子集训练的。决策树的分支是基于通过基尼指数计算其特征的不纯性而生成的，MGDn1-Xp2（一）2.2. 数据预处理一般来说，来自电子健康记录（EHR）的原始数据没有适当的结构来生成或测试学习模型。因此，为了准备预测模型的信息，有必要探索变量，清理它们并一致地纠正错误的值。以下是在样品中发现的问题● 数据结构● 变量值不正确● 缺失值首先，信息必须是结构化的。根据专家知识将诊断分为11个一般诊断。然后，它们被构造成最终数据集的新变量。在图2中，可以理解这种变换。之后，这三个信息源根据其测量日期进行组合。最后将患者随访情况汇总为一个月记录，即，如果每月有多个样本，则为了校正离群值并插补MV，由专家工作人员决定实验室检查和HD阶段的变量范围。识别出变量的异常值，并将其替换为MV，以避免丢失变量的时间戳。然后，分两个阶段处理MV。第一种方法基于使用二阶插值对每个患者的变量进行个体插补，以保留患者演变的趋势。在第二阶段，在一些变量中，对没有样本的患者进行MV插补。因此，从训练集中没有MV的患者中提取每个变量的平均值，并用于插补其余患者的MV2.3. 学习模型最初，RF被用于双重目的，即由于其简单的参数集和计算成本，在预测方面建立基线性能，以及量化1/1其中m是类的数量（在我们的例子中是2个，死的或活的），pi是类i在树的给定分支中的相对频率。最初，G Dn是针对特征和分裂阈值的所有可能组合来计算的。选择实现G Dn的最低值的组合，只要它代表树的该点处Dn的最佳可能分类。在随后的分支中，重复相同的过程直到指定的深度。在RF方法中，计算几棵树并向其提供数据的子集。最后，由大多数树产生的结果作为最终决定（见图1）。 3）。另一方面，基尼指数可以量化特征的重要性。在这项工作中，通过结合递归特征消除（RFE）[26]方法和RF，使用该特征更稳健地为预测因子找到最相关的变量。发现特征重要性的传统方法是将它们单独与结果联系起来，而不考虑变量之间的相互作用。RFE解决了这个问题，迭代地生成多个预测器。因此，在每次迭代中，预测器提供性能测量和特征排名。在下一次迭代中，图三. 随机森林数据流，最后通过对每棵树的投票来做出类决策。图二、最初，每个条目与一系列诊断相关联。在新的方案中，最重要的诊断选择和编码使用独热编码。E. Macias等人医学信息学解锁19（2020）1003514¼¼ð�ÞNi;jKX xXi;ji;j消除和新的预测将产生另一个性能和LN N新的排名等等。2.3.2. 预测模型-LSTM��P于我��λl-1l2019- 01- 211/1J��人工神经网络在过去已经成功地应用于分类问题。目标是，给定一组N个输入示例xn，其中n1;…注意，tn 的所有值都等于0，除了xn所属的类，它的值为1。在预测ESRD患者死亡率的情况下，目的是对收集的数据进行在n个数据月期间，能够确定患者在n个预测月后是否存活。因此，在大量训练样本的驱动下，ANN可以在迭代过程中学习优化的非线性函数，从而使输入和输出之间的误差最小化。图图4示出了基本ANN的结构。人工神经网络由L层（l0;...; L），其中l0代表输入层，每层N1个神经元及其相应的互连。样本首先通过输入层呈现，输入层的神经元与一个或多个隐藏层连接，然后连接到输出层，在输出层获得模型的结果第i层的第i个神经元的输出（所谓的激活）是前一层输出的线性组合，考虑到学习的权重，并通过特定的非线性函数f进行修改，通常是sigmoid，双曲正切或整流线性单元（ReLU）。换句话说，通过L2正则化，由λ控制，我们通过惩罚大权重来限制网络的适应能力。使用梯度下降方法和所谓的反向传播算法进行训练[28]。因此，网络的权重朝着梯度的相反方向迭代地更新，这是由学习速率（LR）控制的步长。目前，一些算法通过动态改变LR来加速学习过程。在这项工作中，我们考虑自适应矩估计（ADAM）[29]。另一方面，RNN是图4所示网络的变体。与前馈ANN不同，RNN使用反馈连接来保留有关过去事件的信息。近年来，成功的RNN实现之一是LSTM。为了进行ESRD的死亡率预测，LSTM用于在患者随访中利用时间依赖性。图5显示了LSTM单元的组件。记忆机制由门控制，由输出层具有特定激活函数的ANN组成。每个单元负责过滤相关信息。其核心思想是将来自门的信息组合在单元门中，遗忘门ft指示丢弃先前状态ht和输入xt的组合中的哪些信息。然后新的信息通过两个门的组合，输入门，it，其决定要更新的信息和候选值C′t。最后，ct被更新，输出是单元门aLF. XNl-1wl1al1！（二）调制的j¼1/4i-;j我-在ESRD死亡率的情况下，LSTM被输入包含n个月演变的级联向量，预测为其中wl-1是将层l-1处的第i个激活连接到进行了P个月。例如图 6说明了一个i;jl病人在m个月内，从第一次遇到医院l第j个神经元的输入。请注意，除输出层外的所有层中均为0¼1，以考虑偏置项。在输出层，激活通常被归一化（例如，softmax），使得结果值取0和1之间的值。它们可以被解释为概率估计;例如，yk表示输入示例属于第k个类的概率。系统的死亡事件。后续行动是结构化的样本，采取n个月的演变信息。然后，使用样本的时间戳和死亡日期，图中的d，计算结构化样本的死亡事件的时间。因此，所生成的数据的二进制目标取决于使用该规则的预测范围训练网络是为了达到给定成本的最小值一个函数，用于测量预测值与相应真值之间的误差。一个常见的函数是交叉熵，0的整数;如果td>p1;否则（五）�P于我��XXt� 系我��nwloo其中p是预测范围，td是死亡事件的时间。’1i;j¼-n1k¼1k;nKn;i;j3. 结果使用ANN的一个已知问题是过拟合，当网络没有从底层数据中学习模型，而是记住单个示例时，就会发生这种情况。减少这种影响的常用方法是应用L2权重正则化[27]，将二次惩罚函数添加到权重中，即（3）修改为见图4。具有两个隐层的前馈人工神经网络的结构。如第2.1节所述，从261例具有3种类型变量的患者中提取本分析的样本。表2显示了人口的描述。由于HD治疗的持续时间在队列中各不相同，因此每位患者每月生成的样本数量不同。总共提取了8394个月样本。在这项工作中，死亡率预计为1、2、3、6和12个月。因此，具有相同数据但不同目标的五个数据集，在应用等式中的变换之后。（5）生成。图7显示了训练集和测试集中患者的死亡率轨迹对于模型开发，将患者分为训练集和测试集（80-20%）。将训练集分成5倍用于交叉验证（CV），参见图8。通过这种方法，可以找到RFE-RF和LSTM的超参数。这些参数是可以手动校准的参数。对于RFE-RF，树的数量，决策树的深度和分裂标准。对于LSTM，细胞的数量，每个细胞的神经元，LR等。然后，随着超-参数固定后，计算网络的参数（LSTM的权重），结果从5重中获得了图8中的5个不同模型M1; M2;在初始测试集中进行评估��E. Macias等人医学信息学解锁19（2020）1003515¼¼图五. LSTM细胞，σ是sigmoid激活函数。图六、从HD 治疗m个月的患者随访至死亡事件的样本结构，d。为了估计测试集中分类器的性能，使用AUROC。它测量了一般准确率的图形表示下的面积，显示了当决策阈值变化时二元分类器的灵敏度和特异性的变化。该度量取0到1之间的值，1对应于完美分类器。3.1. 功能选择-RF我们的第一个实验研究的重要性，可用的功能自动，使用RF的方法，连同RFE的方法。RF的最佳超参数是103棵树，最大深度为3，使用基尼指数分割节点并计算特征的重要性。对于RFE方法，使用5倍来更鲁棒地找到最佳特征。使用该方法，发现42个特征为所有预测因子提供了最佳性能。AUROC分别为0.737、0.714、0.712、0.668和0.615，为基线性能分别预测1、2、3、6和12个月的死亡率。图9示出了作为用于预测一个月内死亡率的所考虑特征的数量的函数的AUROCRF-RFE未考虑的特征为：心脏病、肠病、出血、肝病、高血压、肿瘤、肺病、骨折、感染和血管通路类型3.2. 预测模型-LSTM在第二个实验中，我们考虑了一个更强大的基于LSTM的模型。经过参数优化后，我们发现最佳配置是使用两个单元的LSTM，分别为750和500个单元。我们使用ADAM优化器，LR 0.001，L2正则化，λ0： 001。然后，LSTM方法在由专家人员的经验选择的几组变量中进行评估，RFE-RF发现的变量组和所有可用的变量。表3显示了根据医院专家工作人员的经验确定的图图10显示了使用4个月来喂养LSTM并预测1个月死亡率的变量组的ROC曲线。如图所示，Group_12考虑重要性标签为1的实验室变量和重要性水平为2的HD会话变量，Group_RFE是指RFE-RF发现的变量注意诊断E. Macias等人医学信息学解锁19（2020）1003516表2队列描述。Variable Samples/Patient（变量样本/患者）包含有关患者生成的样本数量的信息。对于诊断，患者数列表示具有特定诊断的患者总数VA指血管通路，SBP和DBP指收缩压和舒张压。特征单元患者数量MV（%）平均值Std最小值最大值年龄性别（女性）性别（男性）样本/患者钙mg/dL 261 10.8 9.10 0.69 6.30 13.00肌酐mg/dL 261 25.0 6.80 2.30 0.30 15.50铁蛋白ng/mL 261 28.1 472.1 368.32 8.10 6590.00葡萄糖mg/dL 261 25.7 123.30 67.85 13.00 1370.00血红蛋白g/L 261 29.2 6.21 1.26 4.10 13.60高密度脂蛋白胆固醇mg/dL 261 18.3 43.73 14.60 4.40 115.60红细胞压积L/L 261 1.0 349.990 0.04 0.17 0.49血红蛋白g/L 261 1.1 111.69 14.21 46.00 161.00铁微克/分升26138.159.44 26.70 10.00340.00KTV mL/min 261 17.3 1.43 0.28 0.42 02.09低密度脂蛋白胆固醇mg/dL 261 18.9 83.40 33.20 8.00 240.00白细胞淋巴细胞单核细胞X109=L261 1.0 7.63 4.97 1.25 11.3X109=L261 5.8 1.50 0.76 0.22 12.74X109=L261 5.8 0.56 0.22 0.03 2.69X109=L261 5.8 5.24 2.29 0.22 7.25磷mg/dL 261 26.1 4.33 1.39 0.20 11.80血小板X109=L261 1.1 223.37 83.17 14.40 1067.00钾mEq/L 261 35.0 4.95 0.80 0.30 8.90甲状旁腺素pg/mL 261 28.3 228.05 189.17 6.00 3264.00网织红细胞X109=L261 28.4 5.37 2.69 0.23 35.23钠mEq/L 261 31.5 138.66 3.59 121.00 198.00总胆固醇mg/dL 261 38.1 149.98 39.41 45.00 432.00总蛋白质g/L 261 27.6 66.02 6.84 28.5 96.00甘油三酯mg/dL 261 18.1 140.49 107.92 20.00 2673.00尿素mg/dL 261 43.2 102.40 51.12 20.20 317.20累计重量Kg 261 21.7 1.95 0.77-3.05 4.44平均流量mL/min 261 16.2 290.28 34.48 200.00 414.55血液体积直径mL/min 261 12.0 65.08 10.52 40.00 98.43HD后HD前DBP mmHg 261 10.5 64.44 10.62 40.00 106.08净重Kg 261 0.9 66.78 15.24 31.29 149.63HD会话时间小时261 0.0 3.73 0.35 3.50 7.30HD后HR BPM 261 10.6 75.59 11.49 41.00 122.00HD前HR BPM 261 6.6 73.19 10.57 42.00 121.17低血压个案/月261 0.0 2 4 0 24HD后收缩HD前收缩压mmHg 261 6.3 137.31 22.19 56.07 218.60HD后温度（℃）26116.935.580.3333.0038.20HD前温度26111.635.520.3433.8538.00动脉病- 177 0.0 -心脏病- 241 0.0 -糖尿病- 204 0.0 -肠病- 94 0.0 -骨折- 9 0.0-––- 出血-60.0-––- 肝病-180.0-––- 高血压-2230.0-––- 感染-1020.0-––- 肿瘤-790.0-––- 肺病-1150.0-––-VA（AVF）- 168 0.0-VA（导管）VA（移植物）死亡率月数所有情况下均包括变量（共11个）。最后，在图11中，我们通过考虑以下因素来测试我们的算法的性能：i）所有变量; ii）仅HD数据和iii）仅诊断和实验室数据。4. 讨论这项工作探讨了深度学习如何帮助ESRD的研究。在进行了实验之后，在这种情况下，集中于死亡率的评估，吸取的教训是：i）我们可以提高模型的准确性w.r.t.文献中的其他作品; ii）包括知识专家并不总是导致更好的模型和iii）解决方案可以通过揭示以前没有探索过的可能的因果关系来指导特定领域的研究，可能远离人类直觉。表4包括AUROC与文献中现有解决方案的性能比较。虽然一年死亡率没有超过文献中所述，但如果我们将预测时间缩短到3个月，短期死亡率的改善将增加到4%。当我们将我们的方法与其他作品进行比较时，我们意识到我们结合了三个数据来源，即，诊断、实验室和HD数据，E. Macias等人医学信息学解锁19（2020）1003517图7.第一次会议。训练集和测试集的Kaplan Meier死亡率模型。第0.17页图8.第八条。交叉验证与5倍。测试数据仅在找到超参数时使用图9.第九条。递归特征选择，5折交叉验证，使用RF作为学习模型。在现有的作品中。其中大多数使用实验室和诊断数据或HD会话数据。图11显示，在AUROC中，包含所有变量将AUROC改善至少11%为了研究考虑知识专家如何影响算法的性能，专家人员标记了HD和实验室数据根据其重要性级别，1为最高级别，3为最低级别（见表3）。因此，在图10中，我们用变量子集的几种组合测试了我们的模型。我们可以期望通过使用1级实验室数据和1级HD变量（即，Group_11（回忆诊断E. Macias等人医学信息学解锁19（2020）1003518表3根据专家的经验对所选特征进行排序它们的重要性从1到3标记，3是不太重要的特征。VA是指血管通路。实验室重要性HD变星重要性钙1HD时间3肌酐3HD后HR1铁蛋白2HD前HR1葡萄糖3低血压1血红蛋白1HD后SBP1HDL胆固醇2HD前SBP1铁3HD后温度3KTV1HD前温度3LDL胆固醇2VA（AVF）1白细胞2VA（导管）1淋巴细胞2VA（移植物）1单核细胞2中性粒2磷1血小板3钾2PTH1网状细胞2钠1总胆固醇2总蛋白3甘油三酯2尿素1所有情况下均包括数据）。然而，实现的性能与Group_33相似，并且包含所有变量将AUROC值提高了9%。换句话说，专家知识无疑是相关的，但探索它之外的知识也很重要最后，机器学习方法还可以通过揭示以前可能没有探索过的因果关系来在图9中，我们测试了自动特征选择工具（如RFE）如何提供帮助。在这种情况下，42个特征为我们提供了使用RF方法的最佳分类性能，当我们将此选择视为LSTM解决方案的输入时，性能接近最佳性能，这是使用所有特征获得的。因此，医生可以探索所选变量的子集，减少或增加它，只要性能持续（见图9），并调查所选特征的重要性和影响。但是，应该注意的是，RF-RFE没有考虑大多数诊断或血管通路类型。这些证据可能表明，那些被认为不重要的变量可能会导致新的医学研究。5. 结论在这项工作中，我们展示了大量使用变量和机器学习技术来改善ESRD死亡率预测模型的潜力。我们使用RFE-RF方法设计了基线预测器和特征选择器。然后我们使用LSTM策略来改进它，该策略利用了数据中的时间依赖性。我们得出结论，由于考虑了诊断变量以及实验室和HD疗程数据，我们可以将ESRD患者死亡率的预测性能提高至少4%w.r.t.短期死亡率的现有工作。此外，结果表明，专家知识有助于分析，但我们不应限制我们的算法，它。在我们的实验中，所选择的组实现的最佳性能不超过RF-RFE。因此，像这里探讨的机器学习方法可以为专家提供反馈，提高我们的知识，并可以导致ESRD死亡率预测因素分析范式的变化。伦理声明该手稿的作者证明，该手稿题为“本研究使用的数据来自Parc Taulí大学医院肾脏科血液透析室的信息系统。该项目通过了伦理委员会（代码2018/508）。接下来列出了作者的贡献。作者贡献研究的概念和设计：E Macias，A Morell，JSerrano，JL Vicario和JIbeas。数据采集：J Ibeas。数据分析和/或解释：E Macias、A Morell、J Serrano、JL Vicario和J Ibeas。起草手稿：E Macias，A Morell，JSerrano，JL Vicario和JIbeas。对重要的知识内容进行批判性修改：A Morell，JSerrano，JLVicario和J Ibeas。见图10。RFE-RF发现的最佳功能之间的性能比较，由专家工作人员选择的功能组合，并使用所有可用的信息。这些组是基于医务人员的经验生成的，从Group_11（可以从最重要的分析与最重要的HD变量的组合推断出）到Group_33（最不重要的变量）。E. Macias等人医学信息学解锁19（2020）1003519图十一岁使用实验室检查和诊断、所有可用变量和仅在血液透析过程中采集的变量进行性能比较。表4与文献中提出的方法进行比较。加泰罗尼亚政府也根据2017 SGR 1670项目批准。引用参考死亡率预测研究人群预测算法AUROC（CI95%）[1] Martínez-CastelaoAlberto，Go�rrizJos�eL，BoverJordi，Segura-delaMorenaJulian，毛里等人1年5738物流0.670Morales-OlivasFrancisco，CebolladaJesús，Sua�rezCarmen，EscaladaJavier，[15]回归系数（0.668阿克比尔吉奇等人[24日]1个月3个月6个月1年27615随机森林0.736（0.7150.764（0.7540.760（0.7470.757（0.746- 0.769）瓦格纳等人[30个]3年75447COX比例风险0.730（0.7000.698个月（0.67913个月十九个月0.717（0.6960.670（0.646托雷斯·曼努埃尔，埃斯马特斯·恩里克，德·帕布洛斯-贝拉斯科·佩德罗，法·洛伦佐，马兹·奥恩·皮拉尔，加马拉·哈维尔，赫尔·莫雷诺·胡里奥，G·加西亚·西尔维娅，罗萨里奥，卡里埃里-卡罗乔-L，圣地亚哥-安娜，桑切斯-塞拉亚-玛尔塔，特兰奇-萨尔瓦多。慢性肾脏病检测和管理共识文件。Endocrinol Nutr2014.[2] 放大图片作者：John W.全球肾脏疾病负担与可持续发展目标。公牛世界卫生组织2018。[3] Rhee Connie M，Kovesdy Csaba P.聚焦CKD死亡-全球死亡率增加。Nat RevNephrol2015。[4] GoffDavidC，BennettGlen，CoadySean，D'Agostino奥唐奈克里斯托弗J，罗宾逊詹妮弗G，桑福德施瓦茨J，谢罗苏珊T，史密斯西德尼C，保罗索利，斯通尼尔J，威尔逊彼得WF。ACC/AHA心血管风险评估指南：美国心脏病学会/美国心脏协会工作组实践指南报告J Am CollCardiol 2013;2014.[5] Hippisley-CoX Julia，Coupland Carol，Vinogradova Yana，Robson John，RubinMinhas，Aziz Sheikh，Brindle Peter. 预测心血管风险英格兰和威尔士：QRISK2的前瞻性推导和验证。 BMJ 2008.[6] DIsshiki等人[31]3个月62风险比0.696放大图片作者：Robert M. 一般心血管风险用于初级保健的概况：Frachial心脏研究。2008年发行。[7] RidkerPaul M，Buring Julie E，Rifai Nader，Cook Nancy R.发展和该方法1 月261 LSTM 0.873（0.8712 月0.813（0.8113 月0.798（0.7966个月0.752（0.7511年0.720（0.703验证用于评估女性总体心血管风险的改进算法：雷诺兹风险评分。 J Am MedAssumption 2007.[8] 德莱塞特尔·斯蒂芬大野·马查多·卢西拉逻辑回归和人工神经网络分类模型：方法学综述。J Biomed Inf 2002.[9] Macias E，Morell A，SerranoJ，Vicario JL. 基于小波和dnn的生理信号分类知识提取：唤醒案例。在：计算在心脏病学会议（CinC）。卷四十五IEEE;2018. p. 一比四 2018年[10] Alanazi Hamdan O，Abdullah Abdul Hanan，Qureshi Kashif Naseer.在医学和医疗保健中使用机器学习方法开发准确和动态预测模型的关键评论。 J MedSyst 2017.[11] 米勒丽贝卡，图明德米特里，库珀詹妮弗，海耶斯唐，约瑟夫D，托拜厄斯。使用机器学习算法预测儿童心脏移植后的死亡率。儿科移植2019.批准出版的手稿：A Morell，JSerrano，JL Vicario和JIbeas竞合利益作者确认，本出版物不存在已知的利益冲突。确认这项工作得到了西班牙政府在项目TEC 2017 -84321-C4-4-R下的支持，该项目由欧盟ERDF基金共同资助[12] [10] Ross Elsie Kyang，Shah Nigam H，Dalman Ronald L，Nead Kevin T，CookeJohn P，Leeper NicholasJ. 使用机器学习识别外围设备动脉疾病和未来死亡风险。血管外科杂志2016;64（5）：1515- 22。[13] Güner，Baykan OmerK，KaraYakup，TireliHülya. 应用神经网络和多变量统计方法预测脑卒中患者10天死亡率方法. 脑血管病卒中杂志2014;23（6）：1506- 12。[14] 王冠进，林建民，邓兆宏，蔡菊诗.通过机器学习技术预测膀胱癌根治术后的死亡率。Comput Biol Med2015.[15] MauriJoanM，Cl�eriesMontse，VelaEmili，加泰罗尼亚肾脏登记处。设计与验证预测血液透析患者早期死亡率的模型。2008年肾脏透析移植。[16] Srinivasan Beddhu ， Bruns FrankJ ， Saul Melissa ， Patricia Seddon ， MarkL，Zeidel.一个简单的合并症量表预测透析患者的临床结局和费用。美国医学杂志2000年。E. Macias等人医学信息学解锁19（2020）10035110[17] 刘建农，黄智，Gilbertson David T，Foley Robert N，Collins AllanJ.一种用于透析患者结局分析的改良合并症指数。肾脏国际2010年。[18] CouchoudCéecile，LabeeuwMichel，OlivierMoranne，VincentAllot，埃斯诺特·文森特，弗里马·卢克，贝·恩·迪迪特·斯坦格尔。一项临床评分用于预测因终末期肾病开始透析的老年患者的6个月预后2009年肾脏透析器移植。[19] Otero-LopezM，Martínez-Ocan~aJuanC，Betancourt-CastellanosLoreley，罗德里格斯-萨拉查·埃莱奥诺拉加西亚-加西亚·曼努埃尔。早期死亡率的两个预后评分及其在老年血液透析患者中的临床适用性：差预测个体患者的成功率。 Nefrologia2012;32（2）：213- 20.[20] 萨勒金·阿西夫斯坦科维奇·约翰慢性肾脏疾病的检测和选择重要的预测属性。上一篇：IEEE国际医疗保健会议信息学（ICHI），vol. 2016年。IEEE;2016. p. 262比70[21] Almansour Njoud Abdullah，Syed Hajra Fahim，Khayat Nuha Radwan，AltheebRawan Kanaan，Juri Renad Emad，Alhiyhal Jamal，AlrashedSaleh，星期天啊奥拉通吉神经网络和支持向量机的预测慢性肾脏病的治疗：一项比较研究。Comput Biol Med 2019;109：101 - 11.[22] 土井俊树、山本修、森永孝俊、佐田贤英、栗田纪明、大西义弘。风险评分预测接受透析前肾病护理的5期慢性肾脏病患者开始血液透析后1年死亡率PloSOne2015;10（6）.[23] Ion Titapiccolo Jasmine，Ferrario Manuela，Cerutti Sergio，Barbieri Carlo，MariFlavio，Gatti Emanuele，Gabriella Signorini Maria. 人工智能对血液透析患者心血管风险分层的模型。 E X pert SystAppl 2013.[24] Oguz Akbilgic，Obi Yoshitsugu，Potukuchi Praveen K，Karabayir Ibrahim，Nguyen Danh V，Soohoo Melissa，Streja Elani，Molnar Miklos Z，Rhee ConnieM，Kalantar-Zadeh Kamyar，Kovesdy Csaba P.机器学习识别透析高死亡风险的患者。肾脏Int. 众议员2019;4（9）：1219- 29。[25] 布莱曼·里奥里奥随机森林 MachLearn2001;45（1）：5- 32.[26] 放大图片作者：J.在随机森林中使用递归特征消除来解释高维数据中的相关变量。BMC Genet2018;19（1）：65.[27] 放大图片作者：John A.简单的权重衰减可以提高泛化能力。在：神经信息处理系统的进展;1992年。 p. 950- 7[28] 放大图片作者：David E，Hinton Geoffrey E，Williams Ronald J. 学习反向传播误差的表示。 Nature1986;323（6088）：533- 6.[29] Kingma Diederik P，Jimmy Ba.亚当：随机优化的一种方法。2014. arXiv预印本arXiv，1412.6980。[30] Wagner

下载后可阅读完整内容，剩余1页未读，立即下载