没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁25(2021)100674机器学习预测ICU死亡率Alvin Har Teck Chiaa,May Sze Khoo a,Andy Zhengyi Lim a,Kian Eng Ong a,Yi xuan Sun a,平山口Nguyenb,*,Matthew Chin Heng Chuaa,c,d,**,Junxiong Pangc,d,*新加坡国立大学系统科学研究所b新西兰惠灵顿维多利亚大学数学与统计学院c新加坡国立大学苏瑞福公共卫生学院和新加坡国立大学卫生系统d新加坡传染病流行病学和研究中心A R T I C L EI N FO保留字:死亡率预测EX plainable机器学习ICUCoX-比例风险特征选择A B S T R A C T背景:重症监护病房(ICU)患者的死亡率预测模型多种多样,可用于指导适当的临床管理。机器学习方法的进步通常采用分类器,如神经网络和随机森林,这些分类器通常被医疗保健专业人员视为黑盒子。这些模型通常不提供输入模型特征和输出临床事件之间的明确联系。我们研究了Cox比例风险(CPH)模型识别的特征是否可用于ICU死亡率预测。方法:我们采用PhysioNet Challenge 2012数据集,这是2001年至2008年波士顿贝斯以色列女执事医疗中心收治的ICU患者MIMIC-II临床数据库数据的一个子集。该数据集被分成训练集A、测试集B和未知集C,每个集有4000名患者。Python是与scikit-learn和lifelines包一起使用的编程语言。除了白盒特征选择方法(逻辑回归和决策树),我们还探索使用COX比例风险模型进行特征选择。然后,我们使用分类器(如逻辑回归和决策树的变体)训练机器学习模型。EX treme梯度提升树模型的性能优于其他分类器。该模型使用5重交叉验证进行验证,并针对未见过的集合C进行评估。使用精确度-召回率曲线下的面积(AUC-PR)作为主要度量来评估模型性能。结果:使用了约12,000例患者的数据,提供了高度的普遍性。通过CPH识别的统计学显著特征的数量(n=16)显著小于逻辑回归(n= 36)、决策树(n= 26)和所有特征(n= 42)。该模型仅使用16个特征,在测试集B上实现了AUC-PR0.438,接近决策树(AUC-PR0.442)和逻辑回归(AUC-PR0 μ 446)和所有功能(AUC-PR 0 μ 446)。解释:通过CPH识别的特征显著减少,从而可以构建一个易于临床医生解释的模型,同时仍能获得与其他模型相当的结果。这一发现允许临床医生使用CPH作为替代方法,以确定和采取行动的功能,需要密切监测ICU患者。1. 介绍重症监护室(ICU)的患者因其危急的健康状况而持续监测医学异常、疾病预后和潜在并发症。他们需要更专业的护理,并且对医生和医疗保健专业人士在为ICU患者提供及时干预方面存在挑战,因为他们需要更多的个性化护理和关注。医疗保健专业人员经常使用基于案例的推理,依靠从过去类似的医疗案例中积累的知识来诊断和治疗他们目前的病人。因此,分享知识和了解关键风险因素更有可能有所帮助* 通讯作者。** 通讯作者。新加坡国立大学系统科学研究所* 通讯作者。 新加坡国立大学苏瑞福公共卫生学院和新加坡国立大学卫生系统。电子邮件地址:binh.p. vuw.ac.nz(B. P. Nguyen),mattchua@nus.edu.sg(M.C.H. Chua),ephpjv@nus.edu.sg(J. Pang)。https://doi.org/10.1016/j.imu.2021.100674接收日期:2021年4月9日;接收日期:2021年7月14日;接受日期:2021年7月15日2021年7月18日在线提供2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuA.H. T Chia等人医学信息学解锁25(2021)1006742提高新患者的诊断速度和有效性医院目前使用严重程度评分系统,如SOFA,APACHE来预测ICU死亡率。然而,这些基于标准/规则的评分系统(对患者人群的不同分层进行分组和比较)在个体水平上的预测准确性有限[1]。机器学习方法的进步已经报告了准确率超过80%的分类结果[2]。他们采用分类器,如神经网络和随机森林,这通常被医疗保健专业人员视为黑盒。这些模型没有提供输入模型特征和输出临床事件之间的明确联系(即,例如,重要特征可能无法识别),因此不太可能有效地帮助治疗干预,因为医生和医疗保健专业人员不知道要注意患者的哪些健康指标[3本研究旨在提出一个能够明确指出关键健康指标的白盒X可以更好地预测单个患者此外,全球对ICU病床的需求一直在增加,ICU成本已上升至医院成本的近22%和总医疗保健成本的5%。尽管全球对ICU病床的需求不断增加,但病床(不到医院病床的10%)、医务人员和设备的可用性仍然有限[6,7]。医院ICU病房管理层的决策直接影响患者的生存率。由于医院的人力、设备、物资和床位/病房有限,资源分配往往是医院面临的一个问题。本研究的目的是使用Cox比例风险(CPH)模型识别与非幸存者患者以及ICU中幸存者相关的风险因素。 通过了解这些因素,医院可以更好地分配可用资源和关注最需要护理的地方。这也可以旨在帮助医生和医疗保健专业人员计划有效的及时干预,为个别ICU患者量身定制特定的护理水平2. 材料和方法2.1. 项目软件该项目主要在Python 3中进行,使用statmodels进行Logistic回归,scikit-learn(sklearn)进行二进制分类,建模,以及用于生存分析的生命线和scikit-survival库。使用了常见的数据科 学库,如pandas 和numpy ,以 及图形绘 制库,如 matplotlib 和seaborn。其他程序SPSS和JMP用于使用CPH进行初始建模。并利用SPSS中的综合检验对CPH模型的显著性进行了检验。2.2. 研究设计和数据来源本研究使用了PhysioNet Challenge 2012数据集[8],这是MIMIC II临床数据库数据集[ 9 ]中提供的2001年至2008年波士顿贝斯以色列女执事医疗中心收治的25,000多名ICU患者的匿名数据子集虽然Physi-oNet于2020年发布了新的ICU死亡率挑战集,但本研究使用2012年数据集,因为时间序列数据允许本研究中开发的模型进行特征工程和基准测试。它也提供了一个机会,探讨生存分析在ICU死亡率问题的有用性。竞赛组织者检索了12,000份ICU住院至少48小时的患者记录,并将其分为训练组、测试组和未见过组在训练集A中有12,000条记录中的4000条,在测试集B中有另外4000条。2012年参加比赛的参赛者可以使用这些工具。看不见的C组,由另外4000个在比赛期间以前未公布的记录组成,由比赛组织者使用,运行最终评分和结果。对原始数据进行清理和预处理。使用来自各种特征选择方法的特征来构建不同的模型。ICU死亡率的预测是针对测试集B和未知集C中的患者进行的2.3. 变量和特征单变量分析和决策树都使用住院死亡作为结局变量,而CPH允许我们在考虑住院时间的在ICU住院的前两天收集了最多41个变量(入院时5个,36个时间序列)(表1),以预测哪些患者在住院期间存活,哪些患者没有存活。其工作原理是,Fig. 1. 研究概述。A.H. T Chia等人医学信息学解锁25(2021)1006743多个变量的更大异常可能与高死亡风险相关[4]。并非所有患者都有每个变量的完整记录,特别是基于时间的观察结果(例如,较不频繁的实验室值)。身高、体重和温度的缺失值为表1具有统计学意义的特征。所有功能LogisticRegression功能决策树功能COX-比例危险特征使用具有相似人口统计学特征(如年龄和性别)且数值不是离群值的患者的中位值进行插补。医疗干预的任何缺失值(例如,机械通气)插补为0。其他连续和二元变量的缺失值分别用患者的中位数和众数进行插补。如果患者的中位数(例如,呼吸率)不可用42个特征36个特征26个特征16个特征ALP(中位数)X X XALT(中位数)XAST(中位数)白蛋白(中位数)X XBUN(中位数)X X X胆红素(中位数)X X在整个停留期间,使用总体中值用于缺失值插补。 同样的原则也适用于胆固醇X(中位数)超出生理范围的可疑记录。一系列汇总统计数据(例如,一个变量的中位数是gener-肌酐(中位数)X X X葡萄糖(中位数)X XHCO3(中位数)X X根据每个患者的时间序列数据进行设计和设计(表1)。然而,每个变量的仅一个值然后被选择用于特征选择,以便在以下情况下规避多重共线性问题:进行单变量分析(逻辑回归),并考虑到红细胞压积[HCT](中位数)心率[HR](中位数)X X XX X X模型之间的公平比较如果这样做是合乎逻辑和适当的,则在准入时的第一次阅读用于某些特征(例如,身高和体重)。其他方面,大多数特征都是基于每个特征患者K(中位数)X X乳酸盐(中位数)X X X镁(中位数)X XNa(中位数)X XPaCO2(中位数)X X血小板(中位数)X X一个时间序列,不太容易受到离群值的影响,呼吸频率xX(中位数)意思。还进行了特征工程以生成新的特征SaO2(中位数)XTroponin–I(表2)使用临床领域知识丰富用于机器学习的数据集并促进健康疾病的识别(例如,肾损伤)可能影响ICU死亡率。Troponin–T(中位数)白细胞X X计数(中位数)连续变量随后使用最小-最大标准化pH值(中位数)X X X缩放方法,将它们缩放到0和1的范围,因此它们在建模时与尺度无关(与标准化相比,受离群值的影响较小)[10]。非二元分类变量为体温(中位数)PaO2和FiO2比值(中位数)xXX X使用虚拟编码重新编码。使用Repeated年龄xX X平均48小时尿液xX进行编辑的最近邻算法以实现78(存活):22(死亡)的比率,从而防止如果使用过采样则过拟合的潜在问题。幸存者和非幸存者的分类如图所示。 二、平均动脉血压(首次)平均舒张压(首次)平均收缩压(首次)XXxX XXX2.4. 特征选择我们采用了三种不同的白盒X特征选择方法高血压x心动过速GCS昏迷xX X糖尿病X单变量分析(物流回归),决定树,和CoX-高血糖比例风险(CPH),以确定最佳预测死亡率的重要特征。对于所有方法,具有统计学意义的特征,如果-低血糖肾损伤XBMI类别X确定了影响因素(p值0.05)<2.4.1. 特征选择方法1:所有特征在特征工程之后,每个变量的最具代表性的特征(如变量和特征中前面部分所述)都包括在内。2.4.2. 特征选择方法2:单变量分析这些特征被单独拟合到逻辑回归模型中,以识别具有统计学显著性的那些特征。然后,将所有重要特征拟合在一起以测量方差膨胀因子,从而检查多重共线性机械X通风ICU类型xX性别x粗体突出显示的特征是实验室测试变量;2.4.4. 特征选择方法4:Cox比例风险COX比例风险常用于生存分析。它检查了患者特征与生存时间之间的关联,从而确定了显著影响生存的预后因素,并推断其对生存曲线的影响[11]。loghi,t=logn=β X1i+2.4.3. 特征选择方法3:决策树h0,t1,n、决策树是一组规则,用于通过基于最佳预测结果的特征分割数据来对数据进行分类。选择占累积重要性90%的统计显著特征其中hi,t是个体i在时间t的风险函数。h0,t是时间t的基线风险函数β1,A.H. T Chia等人医学信息学解锁25(2021)1006744=-图二. 幸存者和非幸存者在数据集中的分布。X1,管理这些病人的资源通过考虑住院时间,事件发生时间(在这种情况下,至院内死亡的时间)可以帮助加深对影响ICU病房住院时间的重要特征的理解。在医院死亡的患者和未死亡的患者的住院时间之间存在统计学显著性差异(t-统计2 × 177,p值0月3<日0月5日)。因此,通过了解影响ICU住院时间延长的功能,医院也可以更好地在各种特征选择方法期间识别的统计学显著特征的数量(表1)对于单变量分析(逻辑回归)[logR]为36,对于决策树[DT]为26,对于CPH为16。由CPH模型鉴定的16个统计学显著特征(按重要性降序排列)是年龄、GCS昏迷、乳酸盐(中位数)、BUN(中位数)、肌钙蛋白-I(中位数)、体温(中位数)、心率(中位数)、胆红素(中位数)、肌钙蛋白-T(中位数)、肾功能(中位数)、肾功能(中位A.H. T Chia等人医学信息学解锁25(2021)1006745数)A.H. T Chia等人医学信息学解锁25(2021)1006746损伤、pH值(中位数)、呼吸频率(中位数)、肌酐(中位数)、ALP(中位数)、平均舒张压(首次)和HCT(中位数)。2.5. 白盒分类器一旦识别出显著特征,就将它们拟合到白盒分类器中,例如逻辑回归和决策树的变体(即,自适应提升树,极端梯度提升树)。执行具有5倍交叉验证的网格搜索以识别为每个分类器提供最佳预测结果的超参数。这些模型基于精确度-召回率曲线曲线下面积(AUC-PR)进行评价。2.6. 模型评价精确率-召回率曲线下的面积(AUC_PR)是示出精确率和召回率之间的权衡的阈值独立度量。AUC越大,表明所有阈值的总体性能越好[7,12]。该指标适用于不平衡数据集,因为它专注于少数类别(真阳性和假阳性)的正确预测[12]。类似地,使用另一个与阈值无关的度量-受试者工作特征曲线(AUC-ROC)下的这是过去PhysioNet竞赛获奖者使用相同数据集的度量标准。3. 结果在所有模型中,EX treme Gradient Boosting(XGB)分类器为所有特征选择方法提供了最佳预测结果。因此,仅报告XGB分类器的结果和讨论。使用训练集A的所有模型的5重交叉验证结果如表2和表3所示。图中的图表。3和4分别显示了使用CPH的模型的AUC-ROC和AUC-PR图。对于5倍交叉验证,最高平均AUC-ROC为0.894使用所有特征的模型实现了最高的平均AUC-PR,为0.717。当CPH识别的特征用于XGB分类器时,与使用其他特征集的得分相比,其平均AUC-ROC为0.863和AUC-PR为0.672略低。使用测试集B和未知集C的所有模型的预测结果见表3,详细信息见附录X表4。虽然使用XGB分类器的所有特征实现了使用训练集A进行交叉验证的最高平均AUC-PR(0 × 717),但测试集B和未见过集C的AUC-PR得分分别低得多,为0 × 446和0 × 448。相比之下,使用CPH识别的特征的XGB模型的AUC-PR相对更稳定,训练集A的评分为0分672,测试集B的评分为0分438,未见过集C的评分为0分417。测试集B和未见过集C的AUC-PR得分与其训练集A得分相比下降最小。表2XGB分类器的五重交叉验证性能(AUC-ROC和AUC-PR),使用训练集A的不同特征。特征数量的特征平均AUC-ROC平均AUC- PR所有420⋅ 8940⋅ 717单变量分析(Logistic360⋅8920⋅716回归)决策树26 0 881 0 702钴X-比例危险16 0 863 0 672以粗体突出显示的值显示列中的最高分数图三. 具有CPH特征的测试集C的5倍交叉验证的平均AUC-ROC为0.863。见图4。具有CPH特征的测试集C的5倍交叉验证的平均AUC-PR为0.672。4. 讨论考虑到ICU类型中患者的健康指标和死亡率分布的差异,从训练到测试和未见过的集合,模型的性能下降是可以预期的。这可归因于用于训练的欠采样技术,其导致训练集A中获得的存活者和非存活者的分布与测试集B和未观察集C相比略有不同(表4)。在列车组A中有更多的ICU3型(内科ICU)、1型(冠状动脉护理)和4型(外科ICU)非幸存者COX比例风险模型的受益在于其能够识别显著影响生存期的预后因素并推断其对生存曲线的影响[11]。Lee和Horvitz通过学习和推断患者特异性死亡风险率构建了预测模型,预测48和8 h死亡率时,AUC-ROC分别在0.817和0.838之间[13]。我们的AUC-ROC结果为0 × 797,在48 h时未观察到的集合C接近于他们在48 h时的结果。基于树的方法似乎对死亡率预测很有效。2012年挑战赛的获奖作品采用了基于树的集成,其中使用马尔可夫链A.H. T Chia等人医学信息学解锁25(2021)1006747==表3测试集B和未见过集C的所有特征的最佳性能模型(XGB)的各种度量结果。我们的研究表明,XGB模型比其他分类器性能更好。例如,我们使用CPH特征的模型为训练集A产生了0 × 863的AUC-ROC,这略高于获胜模型。功能所有单变量分析(Logistic回归)决策树COX-比例危险列车集合A的条目当我们比较研究之间的AUC-ROC时,重要的是要注意不同的研究采用不同的技术来处理缺失数据,排除患者组并创建新的特征,这导致数量的特征AUC-ROC交叉-验证(列车组A)42 36 26 160⋅ 8940⋅892 0⋅882 0⋅863病人健康指标和死亡率分布的差异。因此,这对基准测试时模型之间的公平比较提出了挑战[14]。此外,AUC-ROC并不总是充分反映模型的性能,特别是对于具有不平衡类的数据[15]。从CPH中识别的特征数量明显较少(n=16)具有类似的结果,提供了一种用于特征选择的替代方法测试集B0<$834(↓0<$060[6<$71%])看不见的集合C 0 828(↓0 066[7 38%])AUC-PR0 833(↓0059[6 61%])0830(↓0062[6 95%])0 824(↓0058[6.58%])0821(↓0061[692%])0811(↓0051[592%])0 797(↓0065[7 54%])与Logistic回归相比,第三十六章)和决策树(n 26)特征选择方法。这意味着死亡率预测模型可以受益于维数的降低,因此,使用更少的计算资源,从而缩短计算时间[16]。更重要的是,由于建模所需的功能很少,这可能意味着ICU交叉-验证(列车组A)0⋅7170⋅716 0⋅704 0⋅672监测[17]。此外,使用CPH作为特征选择方法的另一个好处在于其在解释模型,其中停留时间被认为是解释因素测试集B0<$446(↓0<$271[37<$8%])看不见的集合C 0 448(↓0269[375%])0446(↓0270[37 7%])0451(↓0265[370%])0 442(↓0262[372%])0438(↓0266[378%])0438(↓0234[348%])0人 417(↓0人255[37人9%])影响死亡率的结果。我们的模型使用简单的白盒X特征选择方法以及树分类器,相比更复杂的模型在文献中。任何机器学习模型的可解释性在医疗环境中都非常重要。生命体征在ICU中发挥关键作用,以确定患者在与交叉验证(训练集A)相比,分数的降低显示在圆括号()中,其相应的百分比降低显示在方括号[]中。以粗体突出显示的值显示行中的最佳分数表4各数据集的幸存者和非幸存者分类。恶化的风险。根据Brekke等人强调的几项研究,对生命体征变化及其对患者护理的影响的认识和评价似乎不足[4,5,18]。鉴于 在数据集中监测的36个时间序列健康指标(生命体征)中,对于医疗从业者来说,要理解所有36个生命体征变化的影响可能是压倒性的。因此,通过突出CPH识别的少量特征,医疗专业人员可以ICU 1型冠心病监护病房ICU 2型心脏手术恢复单元ICU 3型内科ICUICU 4型外科ICU总做出更快更好的决策。例如,医疗从业者可以关注CPH模型识别的20个实验室测试值中的9个 在预测死亡率方面具有统计学显著性(表1),其中,SIX(ALP、BUN、肌酐、血细胞比容、乳酸、pH)在所有三种特征选择方法中具有统计学显著性。在所有三种特征选择方法中具有统计学显著性的持续监测的其他生命体征是心率、体温、年龄、平均舒张压、GCS昏迷状态(表1)。从本质上讲,任何预测工具最重要的部分都在于其临床相关性[14]。根据健康护理决策支持系统的需要,可以选择不同的操作阈值。本研究的结果对执业医生、ICU病房工作人员和医院管理团队具有实际意义[174.1. 资源分配由于影响患者住院时间和死亡率的重要特征来自Cox比例风险模型的结果,每种ICU类型的存活者和非存活者百分比显示在圆括号()中。Monte Carlo,其实现了列车组A的AUC-ROC为0 860 [14]。 值得注意的是,挑战赛根据另一个指标-最尽管如此,基于树的梯度提升模型在死亡率预测中也表现良好[14,15]。这也是观察到的,这项研究的独特之处在于,它有助于辨别影响ICU病房住院研究结果表明,医院在决定如何将有限的资源分配到最佳用途时,可以考虑分配给ICU病房类型的床位数量[20,18]。例如,内科ICU病房接收更多类型的患者,需要更多床位来满足增加的患者数量。如果不良后果的风险被更早地识别,医院可以更确定地分配医疗资源[20]。资源分配还包括部署幸存293人(78%)659人(94%)4904131855总测试集B374702(64%)764(73%)568(77%)2408死72人(12%)34人(4%)286175567幸存518人(88%)747人(96%)(20%)1146(15%)1013(14%)3424(80%)(85%)(86%)共计590 781143211883991看不见的集合C死亡71人(12%)46人(5%)291177585(21%)(15%)(15%)存活531(88%)826(95%)10829713410(79%)(85%)(85%)列车组A死亡81人(22%)43人(6%)274155553(36%)(27%)(23%)A.H. T Chia等人医学信息学解锁25(2021)1006748医生和医疗保健专业人员。当ICU病房收治高风险患者时,部署具有正确专业知识的人员来照顾患者(基于上述分析确定的重要特征)。例如,医生和护士谁拥有正确的专业知识或经验,参加过去类似的情况下,作为当前患者的条件[ 1,18 ]。4.2. 及时有效的护理这些发现还有助于突出健康指标,这些指标对于预测ICU患者的死亡率比其他指标更重要。医生和医疗保健专业人员必须做出的决定,例如调整每个患者所需的重症监护水平,以及医疗护理的优先级,可以使用上述发现来加强[17]。从Cox比例风险中获得的估计值可供医生设计合适的治疗方法或就预后向患者和家属提供咨询。这些发现可以帮助医生和医疗保健专业人员缩小向患者提供的测试类型,并确保必要的测试类型。例如,结果表明,血尿素氮是患者死亡率的关键健康指标。医生很可能必须注意为处于危急状态的患者测量这一点[17]。这不仅是高效的;更可缩短取得结果的时间,并可就病人的情况作出适时的介入,因而更有效。ICU患者的护理策略具有时间敏感性,因为他们的病情危急,并且可能在短时间内发生急剧变化[18]。它还可以建议每个患者所需的重症监护通过制定关键的健康指标提供有效的护理建议也可以通过借鉴以往的经验来实现。具体来说,医生可以通过与过去可能有类似测试结果的患者进行比较,更好地了解个人目前正在经历的状况。这样做并从经验中学习可以导致及时的干预,更幸运的是,降低死亡风险4.3. 局限性和未来研究我们的研究受到以下限制。首先,建模和结果受到数据集的限制。MIMIC数据库中的所有数据都来自一家医院,因此可能不适用于其他数据集,因此患者可能更多地是异质性混合。使用的数据是MIMIC数据库的一个小子集。患者因各种原因入住ICU,可能从内科ICU到心脏外科ICU。这意味着他们的健康指标和死亡风险的状况从一开始就可能是不同的。因此,对所有四种ICU类型应用相同的方法可能不合适。该数据集仅提供48小时的数据,ICU中的患者可能停留更长时间,特别是昏迷患者。患者护理和药物管理的干预效果例如,如果检测到高胆固醇,医生和医疗保健专业人员可能会开胆固醇药物。未来数据集的构建可以考虑考虑这些影响,并可能建立更稳定的结果。第二,只有一个汇总统计(即,中值或第一读数)包括在模型构建中这是由于两个原因-减轻 共线性 问题 (对于 Logistic 回归)和从而允许在各种模型的输出之间进行比较的基础。未来的模型可以考虑来自医疗从业者的先验知识,其中汇总统计量可能最适合每个特征,以改进分类[7]。第三,根据评估模型性能的指标,存在权衡。例如,超参数的优化是基于AUC-PR评分。以上两点可以解释为什么使用CPH特性构建的模型可能在性能上表现平平。第四,COX比例风险模型假设风险比随时间推移保持恒定,并且个体的风险与任何其他个体的风险成比例。这意味着,如果模型不能使用,如果有违反假设。第五,患者的生存结果是多种因素之间的复杂相互作用,如遗传组成、医疗干预和环境条件。虽然该模型可以在给定患者的现存健康指标的情况下提供统计上良好的性能,但是包括和捕获所有其他不可知因素是具有挑战性的。这也突出表明,尽管有一个健全的统计模型,但在医疗评估中仍需要人的判断。5. 结论总之,我们的研究显示了使用从Cox比例风险中识别的特征进行特征选择的潜力。这种方法的优点,特别是如果时间到事件的数据是可用的,包括减少维度和易于解释的模型。需要使用来自不同医院的更多数据的更大队列规模的进一步实验来最终建立这种新的特征选择方法。贡献者AHTC、MSK、AZL、KEO、YS进行了文献综述、构思和设计研究,包括数据清理、特征工程和数据分析。AHTC、AZL和KEO对数据进行了分析和解释。MSK和KEO起草了手稿。AHTC、AZL、YS修改了手稿。BPN审查了代码并对方法做出了贡献。JP出资收购。BPN、MCHC和JP监督了这项研究,并对手稿进行了重大所有的作者都阅读并认可了这份手稿竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认我们要感谢新加坡国立大学的Rita Chakravarti博士为我们的单变量分析(逻辑回归)特征选择提供的宝贵建议和指导。经费来源于新加坡国防部。资助者在研究设计、数据收集和分析、出版决定或手稿编写中没有任何作用。A.H. T Chia等人医学信息学解锁25(2021)1006749一本附录表1变量的定义变量定义目标变量住院死亡指标变量,其中1表示患者已在住院期间死亡,否则为0表示住院时间住院时间。仅用于COX比例风险模型自变量患者人口统计学年龄性别指标变量,其中1表示男性,0表示女性ICUType分类变量,其中1表示患者被送往冠状动脉监护室,2表示心脏手术恢复室,3表示内科ICU,4表示外科ICU健康指标(时间序列)白蛋白白蛋白(g/dL)ALP碱性磷酸酶(IU/L)ALT丙氨酸转氨酶(IU/L)AST天冬氨酸转氨酶(IU/L)胆红素胆红素(mg/dL)BUN血尿素氮(mg/dL)胆固醇胆固醇(mg/dL)肌酐血清肌酐(mg/dL)DiasABP有创舒张动脉压(mmHg)FiO 2分数吸入O2(0GCS格拉斯哥昏迷评分(3葡萄糖血清葡萄糖(mg/dL)HCO 3血清碳酸氢盐(mmol/L)HCT红细胞压积(%)HR心率(bpm)K血清钾(mEq/L)乳酸盐血清乳酸盐(mmol/L)血清镁(mmol/L)MAP有创平均动脉血压(mmHg)MechVent指示器变量,其中1表示存在机械通气呼吸,否则为Na血清钠(mEq/L)NIDiasABP无创舒张期动脉血压(mmHg)NIMAP无创平均动脉血压(mmHg)NISysABP无创动脉收缩压(mmHg)PaCO2动脉CO2分压(mmHg)PaO2动脉血氧分压(mmHg)动脉pH值(0至14)血小板计数血小板计数(细胞/nL)RespRate呼吸率(bpm)血红蛋白中的SaO2SysABP有创动脉收缩压(mmHg)温度温度(摄氏TropI肌钙蛋白-I(μg/L)TropT肌钙蛋白-T(μg/L)尿量(mL)WBC白细胞计数(细胞/nL)粗体突出显示的特征是实验室测试变量。表2设计特征的定义变量定义原始变量:身高和体重BMI_猫肥胖:BMI≥30超重:25≤ BMI 30<正常:18.5≤ BMI 25体重不足:BMI 18.5<<原始变量:DiasABP、NIDiasABP、MAP、NIMAP、SysABP、NISysABPDiasABP,MAP,SysABP根据现有文献,将每种血压测量(平均动脉血压(MAP)、收缩期动脉血压(SysABP)、舒张期动脉血压(DiasABP))的有创和无创测量组合高血压根据入院时的情况,收缩期动脉血压高于140 mmHg,舒张期动脉血压高于90 mmHg-高血压平均SysABP> 140 mmHg或平均DiasABP> 90mmHg原始变量:GCSGCS_Coma GCS评分为3-8分的患者评分在9-15分的患者A.H. T Chia等人医学信息学解锁25(2021)10067410(接下页)A.H. T Chia等人医学信息学解锁25(2021)10067411表2(续)变量定义原始变量:HR心动过速心率>100次/分钟原始变量:PaO2、FiO2PaO 2/FiO 2原始变量:尿液少尿(肾损伤)肾损伤/肾损害的早期敏感生物标志物(80尿液400)<<原始变量:葡萄糖糖尿病由于数据词典未规定患者空腹检测血糖水平,因此该变量随机记录患者的非空腹血糖水平美国糖尿病协会最近发布的指南建议,2010年危重患者的血糖目标为140至180mg/dL随机血糖水平为200 mg/dL或更高提示糖尿病。糖尿病:血糖≥200mg/dL糖尿病前期:180葡萄糖200 mg/dL<高血糖无糖尿病:140葡萄糖≤180 mg/dL高血糖水平<葡萄糖>250 mg/dL低血糖症血糖过低:54葡萄糖70 mg/dL极低:葡萄糖54mg/dL<表3训练集A中所有特征的最佳性能模型(XGB)的AUC-ROC和AUC-PR结果A.H. T Chia等人医学信息学解锁25(2021)10067410表4测试集B和未见过集C的所有特征的最佳性能模型(XGB)的各种度量结果数据集特征模型名称模型参数准确度精密度召回率F1AUC-ROCAUC-PR真阴性假阳性假阴性真阳性测试集B测试集B测试集B测试集B不可见集C所有XGB XGB分类器(learning_rate=0.001,max_depth=3,n_estimators=10000)logR XGB XGB分类器(学习率=0.001,最大深度=3,n_estimators=10000)DT XGB XGB分类器(learning_rate=0.001,max_depth=3,n_estimators=10000)CPH XGB XGB分类器(学习率=0.001,最大深度=5,n_estimators=10000)所有XGB XGB分类器(learning_rate=0.001,max_depth=0⋅816 0⋅405 0⋅638 0⋅496 0⋅834 0⋅4462893 531205 3620⋅818 0⋅408 0⋅621 0⋅492 0⋅8330⋅4462913 511 215 3520⋅828 0⋅419 0⋅538 0⋅471 0⋅824 0⋅4423001 423 262 3050⋅791 0⋅356 0⋅580 0⋅441 0⋅811 0⋅438 2829 595 238 3290⋅815 0⋅4110⋅6150⋅493 0⋅828 0⋅448 2895 515225 360(接下页)A.H. T Chia等人医学信息学解锁25(2021)10067411表4(续)数据集特征模型名称模型参数准确度精密度召回率F1 AUC-ROC3,n_estimators=10000)AUC-PR真阴性假阳性假阴性真阳性不可见集C不可见集C不可见集ClogR XGB XGB分类器(学习率=0.001,最大深度=3,n_estimators=10000)DT XGB XGB分类器(learning_rate=0.001,max_depth=3,n_estimators=10000)CPH XGB XGB分类器(学习率=0.001,最大深度=5,n_estimators=10000)0⋅819 0⋅420 0⋅615 0⋅499 0⋅830 0⋅4512912 498225 3600⋅833 0⋅442 0⋅526 0⋅480 0⋅821 0⋅4383021 389 277 3080⋅793 0⋅371 0⋅595 0⋅457 0⋅797 0⋅417 2821 589 237 348以粗体突出显示的值显示列中的最高分数引用[1] 放大图片作者:Morid MA,Sheng ORL,Abdelrahman S. PPMF:一个基于患者的早期ICU死亡率预测模型框架arXiv:1704.07499; 2017.[2] Johnson AE,Pollard TJ,Mark RG.重症监护中的生殖问题:死亡率预测案例研究。在:机器学习医疗保健会议; 2017年。 p. 361比76[3] 谭R,丁S,潘J,邱Y.基于关键危险因素识别的ICU死亡率预测在:健康信息科学国际会议;2019。 p. 八九比九十七[4] Sadeghi R,Banerjee T,Romine W.使用生命信号进行早期医院死亡率预测。智能健康2018;9:265-74.[5] Luo Y,Xin Y,Joshi R,Celi L,Szolovits P.通过对多变量生理测量组的时间趋势进行分组来预测ICU死亡率风险。在:第三十届AAAI人工智能会议; 2016年。[6] 放大图片创作者:Bhattacharya S,Rajan V,Shrivastava H. ICU死亡率预测:不平衡数据集的分类算法。第31届AAAI人工智能会议; 2017年。[7] Ghanvatkar S,Rajan V.深度递归神经网络在重症监护中使用多分辨率的临床时间序列进行死亡率预测。ICIS 2019Proceedings; 2019.[8] 预测ICU患者的死亡率。The PhysioNet computing in cardiology challenge[Internet]. 2012年[2020年1月20日引用]。可查阅:https://www.physionet.org/content/challenge-2012/1.0.0/; 2012年。[9] Saeed M,Villarroel M,Reisner AT,Clifford G,Lehman LW,Moody G,HeldtT,Kyaw TH,Moody B,Mark RG.重症监护多参数智能监测II(MIMIC-II):公共访问重症监护病房数据库。 重症监护医学2011年5月;39(5):952。[10] Nielsen AB,Thorsen-Meyer HC,Belling K,Nielsen AP,Thomas CE,ChmuraPJ,Spangsege L.基于长期病史和急性生理学的重症监护病房生存预测:一项丹麦人的回顾性研究国家患者登记和电子病历。柳叶刀数字健康2019;1:78-89。[11] Kim DW,Lee S,Kwon S,Nam W,Cha IH,Kim HJ.基于深度学习的口腔癌患者生存预测。 Sci Rep 2019年5月6日;9(1):1-0。[12] Harutyunyan H,Khachatrian H,Kale DC,Ver Steeg G,Galstyan A.临床时间序列数据的多任务学习和基准测试。科学数据2019;6:1-18.[13] 作者:Lee DH,Horvitz E
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功