没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁22(2021)100495使用实验室测试数据预测重症监护病房患者生存能力的基于排序的集成分类器马里兰州Zahangir Alam a,1,Mohammad M. Masud b,*,M. Saifur Rahman a,Muhsin Cheratta b,MuhammadAli Nayeem a,1,M. Sohel Rahman aa孟加拉国,达卡,1205,West Palasi,ECE Building,BUET, CSE系b阿拉伯联合酋长国艾因阿拉伯联合酋长国大学信息技术学院A R T I C L EI N FO保留字:ICU患者特征向量压缩特征分组实验室检测数据临床预测聚类A B S T R A C T临床决策支持系统(CDSS)近年来受到越来越多的研究关注,因为它们可以提高医疗保健的质量,安全性,效率和有效性。CDSS与先进的数据分析相结合,比传统系统更准确,更高效。在该领域中,重症监护患者的存活或恶化预测,例如,重症监护病房(ICU)患者,是一个活跃的研究领域。早期恶化预测可以帮助医疗保健提供者提供高效和有效的患者护理。该领域的研究主要基于生命体征。然而,很少有研究使用实验室测试数据来研究生存预测。虽然一些研究在这一领域取得了进展,但准确性仍然不够。因此,本研究旨在提高ICU患者生存预测的准确性和效率。我们提出了一个基于特征排序的集成分类器,仅使用实验室测试数据进行ICU患者的生存预测。在所提出的方法中,功能进行评估,并选择有用的功能的子集。随后,使用特征向量压缩(FVC)技术对具有所选特征的训练数据进行聚类。最后,训练集成分类器模型在6个 ICU患者数据集上进行了超过3000个不同设置的实验,所提出的技术实现了加权平均F1得分(FWA)高达82.6%,支持向量机分类器时,使用的组合的垂直和水平分组为基础的FVC的特征排名。所有实验结果表明,该技术优于现有的方法,与 Fwa得分差异高达4.5%。1. 介绍近年来,临床决策支持(CDS)和临床预测(CP)的研究受到越来越多的研究关注,因为它们在医疗保健的质量,安全性,效率和有效性方面带来了显着的改善。重症监护室(ICU)患者需要广泛的护理和监测。通过CDS或CP建议的高效和有效的行动可以帮助护理人员采取必要的行动,以避免不必要的情况或改善患者健康。因此,在过去的十年里,这一领域的研究越来越受到研究人员的关注目前,大多数医院、诊所和医疗保健机构采用各种电子健康监测设备,这些设备持续产生数据。这些医疗设施中的许多以系统化和可操作的方式存储这样的数据。以电子健康记录(EHR)的形式。研究表明,数据分析技术取得了重大进步;当将这些先进技术与高性能计算服务结合应用于EHR时,改进CDS和CP系统[1健康数据,如生命体征和实验室测试数据,可以是连续的,或者分别是离散的/增量的。此外,还可获得其他类型的数据,例如,用药记录、护士记录、人口统计数据和管理(例如,录取)和程序(例如,护理者姓名)信息。 在这些信息中,生命体征和实验室测试记录在文献中使用最多[1使用生命体征数据,一些研究已经证明患者决定,决定言语)可以预测,以警告护理人员采取高效和有效的措施,以挽救病人但不少* 通讯作者。电子邮件地址:zahangirbd@gmail.com(Md.Z.Alam),m.masud@ uaeu.ac.ae(M.M. Masud),mrahman@cse.buet.ac.bd(M.S. Rahman),muhsin.uaeu.ac.ae(M.Cheratta),ali_nayeem@cse.buet.ac.bd(硕士)Nayeem),msrahman@cse.buet.ac.bd(硕士)Rahman)。1 由ICT(PhD)奖学金支持。https://doi.org/10.1016/j.imu.2020.100495接收日期:2020年8月23日;接收日期:2020年12月3日;接受日期:2020年12月3日2020年12月9日网上发售2352-9148/©2020的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuMd.Z. Alam等人医学信息学解锁22(2021)1004952在使用生命体征构建这样的系统中涉及挑战[1相比之下,很少有研究关注实验室测试数据。据我们所知[30,31],是唯一一项专门考虑实验室测试数据的研究。因此,在此,我们主要关注实验室测试记录。实验室测试记录并不容易用于建立一个良好的预测系统。存在与将实验室测试记录作为特征处理相关的重大挑战。最近的几项研究[30,31]讨论了其中一些挑战,总结如下。第一个挑战是可变长度特征向量,这是因为每个患者都经历了不同的(可能重叠的)实验室测试子集。因此,在所有患者中不存在统一的特征向量。然而,大多数学习算法需要统一的特征向量,这需要预测每个患者的特征向量中的缺失值。第二个挑战是由可以执行的众多和不同的潜在实验室测试产生的数据的高维度。第三个挑战是阶级不平衡,这在医疗领域的许多问题中都可以观察到。最后,纵向特征提出了另一个重大挑战,即,患者可以多次经历相同的测试。有趣的是,前两个挑战是相互关联的,这使问题复杂化。例如,缺失值主要是由于高维度而引入的,并且它们随后在数据集中引入噪声、冗余和稀疏性。在这种情况下,一般的解决方案是应用特征选择技术,其中通过标准的特征排名算法对特征进行评估和检查,功能. 显然,缺失值是这种方法中的一个问题,必须妥善处理。此外,阶级不平衡也使这种情况更加严重。在参考文献[30,31]中,一部分作者提出了一种特征向量压缩(FVC)技术来解决缺失值和高维问题,他们给出了一些初步结果。目前的研究提出了几个修改FVC,以提高其效率和有效性。FVC采用真空计数(VC)测量。FVC处理在组合两个特征向量时发现的缺失值。在这里, 我们从另一个角度考虑。而不是只关注缺失值,我们关注的是两组特征向量之间有多少共同特征。因此,我们提出了共同特征计数(CFC)措施比较两组特征向量。本文作出了以下主要贡献。首先,我们提出了一种基于特征排序的特征选择方法,结合FVC技术,用于实验室测试结果,以提高ICU死亡率预测的准确性。通过一些机器学习算法对特征进行排序,并基于一些选择标准分离重要特征。一些使用各种FVC技术的集成模型在重要特征上进行训练。为了评估所提出的方法的有效性,在six ICU患者数据集上进行了超过3000种不同设置的广泛实验。其次,所提出的方法系统地处理缺失数据,高维和类不平衡问题。这种策略也有望在任何其他领域,表现出类似的数据集的特性是有用的。第三,我们探讨如何建议CFC技术可以用来提高死亡率预测的准确性。通过注入集合模型和新实例之间的共同特征的计数,并考虑到这种计数,所提出的方法(CFC)显示出预测精度的提高。最后,我们提出了一个集成的方法来改善预测结果。这种集成技术也有望对其他表现出类似特征的研究问题有益。虽然我们的主要目标是生存预测,但它不应该被解释为生或死的决策过程。通过预测生存率,我们只是想支持护理人员绘制更多的图表知情和自信的治疗计划。例如,与具有较高存活机会的患者相比,护理人员可以向预测存活机会较低的患者分配更多资源(诸如人力、监测和后勤)。这可以提高护理质量,挽救生命,并帮助护理人员实现有效的资源管理。然而,这完全取决于每个照顾者考虑和实施预测措施;因此,我们不认为这样的预测会引起伦理问题。本文的其余部分组织如下。第二部分对相关工作进行了总结。第3节详细描述了所提出的技术。然后,第4节详细描述了实验装置。 第5节介绍了在各种数据集上进行的实验结果,并进行了深入分析,然后在第6节中进行了讨论。最后,第7节总结了本文,并对未来的工作提出了建议。2. 相关作品在本节中,我们简要讨论了最近几项关于ICU患者死亡率预测的研究请注意,我们在补充材料中提供了更全面的文献综述Calvert等人开发了AutoTriage算法,该算法使用8个常见临床变量(主要代表生理测量值)和2个或3个离散变量[9]。这些临床变量产生子评分,加权子评分的组合被用作ICU患者死亡率预测的最终评分他们对重症监护医学信息市场III(MIMIC-III)ICU患者医院数据库进行了实验Bhattacharya等人进行了一项关于ICU死亡率预测的研究,该研究使用特征转换方法解决了二元分类背景下ICU数据中的类别不平衡问题[11]。他们在实验中使用了人口统计数据、37项实验室调查和一些生理信号测量Xie等人概述了开发ICU患者院内死亡率预测模型的基本程序和概念[12]。其中,与逻辑回归(LR)相比,人工神经网络(ANN)、决策树(DT)和支持向量机(SVM)在分析大型和异质数据方面表现出有希望的结果他们使用生理和其他类型的变量,如年龄、合并症和入院类型。Awad等人提出了ICU患者早期死亡率预测(EMPICU)方法[13],以预测入住ICU后6小时的死亡率。这些数据包括从MIMIC-II数据库中收集的Nguyen等人提出了一种基于长短期记忆(LSTM)网络的深度学习架构,具有分层注意力机制来预测ICU死亡率,以解决缺失测量的问题[14],其中他们采用了41种不同的测量(包括生命体征)。为了呈现基准,Johnson等人从28项已发表的研究中进行了38项实验,这些研究使用MIMIC数据库来重现队列(即,一组变量)与死亡率预测模型性能的关系[16]。 此外,Darabi等人开发了一种应用梯度提升决策树(GBT)和深度神经网络来预测ICU患者死亡率的技术[32]。其中,他们采用网格搜索来寻找模型的最佳参数,并对从MIMIC-III数据库收集的医疗代码(诊断代码,程序代码和诊断相关的分组代码)进行了实验。Sadeghia等人提出了一种采用统计和基于信号的特征用于早期医院死亡率预测[18]。值得注意的是,他们专门使用生命信号,即,患者Zheng和Shi利用了LSTM,基于递归神经网络(RNN)的深度学习技术用于ICU死亡率预测[19]。他们使用统计方法对数据进行预处理,并提出了一种基于高斯过程的数据插补方法。其中,他们使用了ICU数据,其中包含36个变量,····Md.Z. Alam等人医学信息学解锁22(2021)1004953≥≤MIMIC-III数据库,并从医学角度讨论了这些功能的重要性。Zahid和Joon Lee探索了深度学习技术,专注于自归一化神经网络(SNN)来预测ICU患者的死亡率。他们使用人口统计学信息、重要生理体征、医生和护士的病程记录、影像学研究报告、实验室检查结果、国际疾病分类-9(ICD-9)代码、每日简化急性生理学评分(SAPS)、序贯器官衰竭评估(SOFA)评分、出院总结、住院时间(LoS)和住院死亡率输出。此外,Purushotham等人提出了临床预测任务的基准结果(例如,死亡率预测,LoS预测和ICD-9代码组预测)使用深度学习模型,超级ICU学习算法(SICULA),SAPS-II和SOFA [22]。 他们发现,深度学习模型始终优于所有其他比较方法。格纳塔斯etal.提出专家增强机器学习(EAML),它指导专家知识的提取及其集成到机器学习模型中[26]。他们在MIMIC-II和MIMIC-III数据库上进行了实验,以预测ICU患者的死亡率。他们在实验中使用了生命体征和其他临床变量。Caicedo-Torres和Gutierrez提出了一种在MIMIC-III数据库中提取的数据集上训练的深度多尺度卷积架构,以预测ICU患者死亡率[27]。他们提出了视觉解释,重点是网络如何将这些输入视为重要特征。其中,他们使用了22个不同的变量,包括生命体征,这与SAPS-II评分中使用的概念有些相似。De Lange等人提出了一种累积预后评分模型,用于预测80岁以上ICU患者的死亡率[33]。他们开发了一种多变量LR模型,其中使用称为LASSO的特征选择技术选择变量。其中,收集了来自24个欧洲国家的306名ICU患者的数据,并在实验中使用了24个临床变量。Herland等人基于健康信息学中的大数据对临床数据挖掘应用进行了全面调查[34]。Cai等人提出了一种基于贝叶斯网络的方法,使用EHR开发模型,用于实时预测多个目标、LoS、死亡率和患者再次入院[35]。在下文中,我们将分析我们的研究与从上面讨论的那些。为了预测ICU患者的生存率,上述大多数研究使用了生命体征或人口统计学变量,有些主要集中在临床记录上。相比之下,我们只考虑实验室测试结果在所提出的方法。请注意,以前的一些研究已经考虑了实验室测试测量;然而,这些研究只考虑了一小部分与其他功能相结合的测量。在此,我们专门考虑了大量的实验室测试测量。此外,上述研究大多集中在单一的机器学习/数据挖掘技术上。然而,在这项研究中,我们提出了一种混合的方法,其中首先,功能选择,然后集成模型生成使用的FVC技术与各种集成分类技术。因此,我们相信,所提出的方法可以普遍适用于任何CDS相关的系统。此外,与机器学习技术相比,所提出的基于FVC的方法的显著优势是其处理医院大数据数据库中的维度问题的固有能力[23]。一些先前的研究考虑了特定的疾病导向数据;然而,我们专注于ICU患者死亡率,而没有具体考虑任何疾病。此外,我们在实验中使用了不同类型的数据集。最后,我们注意到,一个子集的作者参与了亲,提出了FVC方法[30]和正交聚类技术ORCU [31],其中讨论了初步实验和发现。在此,我们提出了对现有技术的改进[30,31],并对真实的临床数据进行了广泛的实验,我们认为这是一个有希望的里程碑。表1组的年龄信息组龄新生儿0婴儿4个月-2岁儿童3- 17岁成人18岁-64岁65岁以上3. 该方法3.1. 数据集本文使用的数据集是从MIMIC-II(Physionet MIMICII)[36]和MIMIC-III(Physionet-MIMICIII)[37]数据库中提取的。 这些数据库分别由麻省理工学院计算生理学实验室的重症监护多参数智能监测(MIMIC-II)项目和重症监护医学信息市场(MIMIC-III)项目开发,该项目由国家生物医学成像和生物工程研究所资助。每个数据库包含对每个患者进行的每个测试产生的实验室测试结果。每个实验室测试结果包含所执行的实验室测试的数值、标志(指示是否结果为和测试时间。3.1.1. MIMIC-IIMIMIC-II数据是在2001年至2008年期间从各个ICU收集的。MIMIC-II数据库包含33,000例患者的记录,其中约25,000例患者为成人(最后一次入院时年龄为15岁),约8000例患者为新生儿(首次入院时年龄为1个月这些患者被36,000多家医院收治,并入住40,000多个ICU。MIMIC-II包括两个主要部分,即,临床数据和生理波形。本研究仅使用临床数据该临床数据库包括40个不同的表,每个表包含不同类型的信息,例如,人口统计学数据(可在一般类别),入院数据,ICU住院数据,药物信息,实验室测试结果(可在Labtests类别),和护士笔记.在本研究中,仅使用实验室测试数据来调查死亡率预测的有效性。除了实验室测试结果外,患者的最终状态,即,考虑患者是否存活或在ICU中死亡。3.1.2. MIMIC-IIIMIMIC-III的数据是在2001年至2012年期间从5万多名住院患者中收集的。该数据库包括25个不同的表,每个表包含不同类型的信息,例如:例如,人口统计数据、入院数据、ICU住院数据、药物信息、实验室检查结果和护士记录。实验室测试数据(称为Labevents)和一些人口统计学和入院信息在此。本文使用了患者表,其中包含出生日期、性别以及患者是存活还是死亡录取表,其中列出了入院日期、出院日期、种族和患者诊断信息。患者的年龄通过连接患者和入院表并确定从出生之日起。最后,本研究还考虑了包含每例患者LoS的ICUStays3.1.3. 特征提取和矢量生成首先,我们根据每个患者的年龄[30]创建一个档案,并形成五个不同的组:新生儿,婴儿,儿童,成人和老年人(表1)。根据以前的研究[30,31],我们只考虑了成人和老年组。Md.Z. Alam等人医学信息学解锁22(2021)1004954表2数据集概述缺失,并且如果多次进行测试,则MIMIC-II(MIMIC-III)数据考虑平均值(最后)。对于实验室测试管理员-模仿类型年龄类型数据类型培训样本数量试验样品数量特征数量在MIMIC数据上进行多次扫描,也许可以通过调整纵向特征处理方法来进行更适当的处理,这将在未来的工作中进行探索表2示出了II成人二进制(F)3352 1481 656本研究中使用的数据集概述注意我们随机II成人数字(V)3352 1481 656将数据集划分为训练样本和测试样本。II高级二等(女)3614 1996 5573.2. 模型构建概述二、高级数字(五)3614 1996 557图1显示了我们的模型构建方法的高级概述。对于每个数据集,将评估所有要素以了解它们在分类任务中的重要性,以及几个特征的排名(五)从MIMIC-IILabtests表和MIMIC-IIILabevents表中提取特征如下。首先,列举了对选定患者进行的所有不同实验室检查的列表。这被称为特征集。然后,对于每名患者,提取测试结果,从病人的病历中提取每个特征 请注意,这需要搜索数百万份实验室测试记录在这里,如果一个特定的未执行测试,则考虑相应的特征值算法(第3.3节)应用于此上下文中。然后,基于排名分数,选择排名靠前的特征的子集。然后,使用一些FVC技术对训练数据进行聚类(第3.4节),然后在这些聚类上训练几种分类算法以形成集成分类器。3.3. 特征排序和选择特征排序和选择已成功地应用于Fig. 1. 模型构建概述。图二. FVC技术举例。III成人数字33521481657III高级(五)数字36141996558Md.Z. Alam等人医学信息学解锁22(2021)1004955许多机器学习管道中不可或缺的一步[38使用一些排名算法(将被提及)对不久),并且这些评估器相对于输出变量对数据集中的每个特征进行评估/排名(即,类标签)。多功能排名算法可以在文献[15,38,42有趣的是,一些 特征 排名算法 从 Waikato Environment for知识分析(通常称为Weka)工具对医学数据集很有用[38]。受文献[38]的启发,我们使用Weka的这些特征排名算法与其他选项,即,InfoGai-nAttributeEval 、 CorrelationAttributeEval 、 具 有 随 机 森 林 的ClassifierAttributeEval和具有SVM的ClassifierAttributeEval。一旦识别出排名的特征,就基于排名从特征集中3.4. 特征向量压缩最流行的机器学习技术,例如,决策树SVM技术要求所有实例的特征向量具有相同的特征以建立预测模型。因此,对于患者数据集,我们必须通过执行所有患者的特征集的并集来为每个患者生成特征向量因此,数据集中某些患者的某些特征会生成空值这种特征的稀疏性产生用于学习技术的高计算开销,并且在数据中引入噪声或冗余在处理大数据时,这个问题会在这里,我们利用FVC来解决可变长度特征集的挑战。这最大限度地减少了特征向量的稀疏性FVC最初在参考文献中提出。[30]由本研究的作者子集,其中报告了一些初步结果在这里,我们利用FVC,并沿几个维度扩展其使用。通常,在FVC技术中,将患者分组(即,聚类的)基于它们的实验室测试集的相似性(即,特征集)。图 2通过示例展示了这种技术。此外,我们还利用了ORCU,这也是由作者的一个子集提出的[31]。值得注意的是,我们在这项研究中应用ORCU进行了一些修改。在正交聚类中,数据集分为两个阶段,每个阶段都有自己的聚类技术来对数据进行分组。在第一阶段中,通过聚类特征来划分数据集(称为垂直聚类),并且在第二阶段中,通过对主题进行聚类(称为水平聚类)来进一步对在第一阶段中聚类的数据进行分组。算法1.ORCU-VH聚类和训练算法2.ORCU-HV聚类和训练我们实现了正交聚类的两种变体。(1)在ORCU-VH中,首先通过垂直聚类将数据聚类为两个组,然后使用水平聚类将两个聚类的组进一步分成四个组(算法1)。(2)在ORCU-HV中,数据以ORCU-VH的相反方向聚类,即,首先执行水平聚类,然后执行垂直聚类(算法2)。3.5. 集成分类器在前一阶段结束时产生的每个聚类上训练分类器,并且这些聚类被用作模型E=E1的集合,…,算法3(分类)执行集合分类该算法的输入是要执行的实例分类,分类器的集成和集成方法(VC或CFC)。首先,测试实例由组 (此 为 回路 在 线 1–9 的 算法 3)。 在此Md.Z. Alam等人医学信息学解锁22(2021)1004956|| |)|)=|∩|=在分级过程中,对增加的真空计数(AVC)[30]或CFC(第4行和第7行)进行计数。如果使用VC,则执行加权多数表决最后的预测(第10-17行)。每个模型的重量为与测试实例的AVC成反比,模型的响应数据集。因此,较低的AVC具有较高的权重(并且表3符号。符号描述符号描述J48 J48分级机H水平聚类反之亦然)。然而,对于氟氯化碳,氟氯化碳价值最高的生产者(即,NB朴素贝叶斯V垂直聚类分类器)预测测试实例。算法3. 分类RFSVM支持向量机机分类器HV先水平后垂直聚类VH先垂直后水平聚类3.5.1. 真空计数法VC是真空的数量(即,空/缺失值)。例如,如图2所示,实例4的VC为4(即,特征F1、F3、F6和F7不具有任何值)。当两个特征集合并时,新的特征集由两个特征集的并集创建,在其中生成一些真空。这种真空的数量被称为AVC。例如,假设数据集D具有特征集FD。如果将新实例d添加到具有特征VC真空计数法CFC通用特征计数方法FVC特征向量压缩NoR No采用的RiRanking Algorithm wherei∈表4中定义的{1, 2, 3, 4}Ri-j排序特征的子集,其中i∈ {1,2, 3,4}定义在表4和j∈ {Noindex,1, 2, 3}表5中定义集合Fd,合并后的新特征集合为FDnew=FD<$Fd。在d的特征向量中创建的额外真空是|F Dnew|--一种|F d|. 因此在数据集D中产生的额外真空是(F DnewFd *n ,其中n是合并前D中的实例数。因此,添加的真空总数表示如下。(1)A=(|F Dnew|--一种|F d|(n +1)(1)当集合分类过程考虑新患者实例进行预测时,相对于集合中每个分类器的特征集对其缺失值进行计数,并且AVC是计算。3.5.2. 公共特征计数法合奏。最后用CFC值最大的分类模型对这一新实例进行预测4. 实验所有实验都使用运行Windows 10操作系统的具有8 GB RAM的Intel(R)Core(TM)i5- 7200 U(2.50 GHz)CPU进行。此外,Weka 3.9[47]用于应用各种排名算法。我们使用F-score评估模型的性能,F-score是文献中广泛使用的流行且可靠的度量。在这里,我们报告范围[0,1](Fwa)中的加权平均F分数,其定义如下。F存活*存活计数+F死亡 *死亡计数我们提出的CFC概念,用于集成分类过程中。CFC的定义如下。FWA=活的计数+死的计数(3)CFC(X,Yi)=|XYi|(二)这里,X是对应数据集的特征集,Yi是特定向量Vi的(非空)特征集。例如,如果Xf1,f2,f3,f4,f5和Yif2,f3,f5,f6,则XYi是3。如前所述,集成和测试实例中的每个分类器具有不同的特征向量。CFC用于计算测试实例和分类器之间的共同特征的数量,4.1. MIMIC-II和MIMIC-III的功能集对于MIMIC-II数据集,在我们的实验中识别了655个实验室测试并将其视为一个特征集。此外,还收集了570个实验室测试,并用于MIMIC-III实验。这些实验室测试的详细列表可在补充材料中获得。Md.Z. Alam等人医学信息学解锁22(2021)1004957基地图三. 模型生成概述。表4排名算法。索引算法简短描述1参考文献[47]中定义的InfoGainInfoGainAttributeEval评估通过测量类的信息增益来确定属性的价值。它根据每个特征在降低整体熵方面的贡献来评估特征。一个好的属性是包含最多信息的属性,也完整描述见参考文献。[38、47]。2相关性CorrelationAttributeEval在参考中定义。[47个]通过测量来表5分级特征的子集。序列号索引子集描述1无索引第1次通过删除零价值特征21第二,保留1/ 4的排名特征32第三,保持1/ 2的排名特征四三四通过保留3/ 4的排名特征,表6相互竞争的方法。相关性(使用Pearson名称/缩写参考数据分组第一千一百一十二章夺舍排名上课它显示了3随机森林两组数据。完整的描述可在Ref. [38、47]。基线1/BL 1本研究–ClassifierAttributeEval在参考文件中定义。[47]通过使用基线2/BL 2 [30] FVC VC否基线3/BL 3 [31] ORCU-VH VC否用户指定的分类器。在这里,随机森林有型号BETID-组合>,这水平,VC、CFC4支持向量机用作分类器。完整描述见参考文献。[38、47]。与上述类似,已使用参考文献[47]中定义的ClassifierAttributeEval,其中支持向量机(SVM)已被设置为分类器。完整的描述可在Ref. [38、47]。1≤i≤ 3144研究垂直,ORCU-VH,ORCU-HV4.2. 符号和定义表3中定义的符号用于呈现结果。4.3. 变量实验为每个数据集创建多个集成模型。这里,对于每个数据集,由四种不同的特征排名算法产生的高排名特征的四个单独的子集与特征向量分组的四种组合相组合:HV(即,ORCU-HV),H(即,水平的),VH(即,ORCU-VH),V(即,垂直)。因此,通过排除具有较少零优值特征的模型,构建了具有不同组合的几个模型。我们使用下面的形式:模式l_i_i_i_i_etID-组合n_i,1≤i≤572。 图 3显示了如何为每个数据集生成这572个模型。比如说,模型AF-R1 HVCJ 48是指这样的模型,其中(1)成人二进制(F)数据集用于训练和测试(2)排名特征的第一子集(即,R1);在应用排名算法之后使用;(3)表7基线1/BL 1F是数据集的评分分类器MIMIC-IIMIMIC-IIIJ48成人(女)成人(五)77.803 76.514高级(女)高级(五)54.258成人73.182学生寮48.546NB79.17565.4566.08377.07264.569RF78.55 79.47837.40450.96877.64650.052SVM80.786 81.36364.22461.99578.17757.835应用水平FVC;(4)使用VC;以及(e)J 48被实现为分类算法。表6列出了所有考虑的方法。此外,我们使用所有特征构建了基线模型,即,忽略特征排名,并且该模型被称为ModelRanketID>。5. 结果共评价了3144个模型,以及文献中报告的所有数据集的基线和其他模型(如表6所示)。不同数据集的基线(BL 1)输出如所示Md.Z. Alam等人医学信息学解锁22(2021)1004958见图4。 F是MIMIC-II Adult Binary(F)数据集上实验的评分。表7. 对于所有成人数据集,SVM获得了最高的F分数,即。例如,80.786、81.363和78.177分别用于MIMIC-II的成人(F)、成人(V)和MIMIC-III的成人数据集。NB获得了最高分数,即,65.45、66.083和64.569,分别用于MIMIC-II的高级(F)、高级(B)和MIMIC-III的高级数据集。在这些数据集上的所有实验中获得的结果在以下章节的几个条形图中显示(与每个条形图对应的数据也可以在补充材料中以表格形式提供)。5.1. MIMIC-II成人二进制(F)数据集的结果图图4显示了MIMIC-II成人二进制(F)的结果数据集。可以观察到,排序后,SVM与其他方法相比表现良好。例如,当通过随机森林(RF)技术对特征进行排序并且考虑总特征的一半时,SVM获得81.479的Fwa得分。当特征在排序后被压缩时,与在没有排序的情况下应用特征压缩时相比,SVM产生更好的结果。最高的Fwa得分(82.088)时,使用SVM的功能进行排名的支持向量机,其中一半的总功能被选中,水平FVC技术被应用,CFC被用作集成方法。这个有希望的结果可以归因于几个原因:通过排名和选择,特征分组和集成技术,专注于(消除)一些非常重要的和贡献(不重要的)功能。当测试实例被分类时,Md.Z. Alam等人医学信息学解锁22(2021)1004959图五、 F是MIMIC-II成人数量(V)数据集上实验的评分。使用它们之间具有最高共同特征的模型似乎是合乎逻辑的;因此,CFC方法对改善预测做出了积极贡献。更多详情见第6节。我们还观察到RF在该数据集上的表现优于J48和NB技术。事实上,与其他技术相比,J48和NB在这个数据集上的表现并不好。这可能归因于分类器在预测中如何处理特征。例如,NB将特征视为独立的,而SVM在一定程度上考虑了特征之间的相互作用。自然地,特征可能与患有疾病的患者高度相关,这将有利于SVM。5.2. MIMIC-II成人数值(V)数据集的结果图图5显示了MIMIC-II成人数字(V)数据集上获得的结果。结果表明,支持向量机单独使用和与其他技术相结合,产生了更好的结果比其他分类器。例如,当通过SVM对特征进行排序时,选择总特征的一半,使用水平FVC,并且采用CFC,则SVM分类器实现82.26的Fwa得分。将水平FVC改为垂直(V)-水平(H)FVC和CFC改为VC获得了更好的Fwa评分(82.512)。然而,当特征由相关性排序器排序,选择总特征的一半,使用VH FVC,并且使用VC集成技术时,通过SVM获得的最高Fwa得分(82.57)。Md.Z. Alam等人医学信息学解锁22(2021)10049510见图6。 F是MIMIC-II高级二进制(F)数据集上的实验得分。应用。我们发现,与任何技术组合相比,J48和NB技术在该数据集上的表现并不好,尽管RF有时会在不同的组合中表现出更好的结果。5.3. MIMIC-II高级二进制(F)数据集图6显示了在MIMIC-II高级二进制(F)数据集上获得的结果。可以观察到,NB与其他技术相结合,在此数据集上获得了最佳性能。例如,当通过InfoGain排名器对特征进行排名并且选择总特征的四分之一时,NB技术获得的Fwa得分为68.502。此外,在以下情况下应用FVC技术后,结果有所改善前一个过程。例如,当垂直(V)FVC技术与VC集成技术一起使用时,获得的Fwa评分为68.808然而,当特征由InfoGain排名器排名时,NB技术获得了69.014的最高Fwa分数,选择了总要素的四分之一,水平(H)使用FVC,并将VC用作集成技术。这里J48和RF技术在使用任何技术组合的该数据集上表现不佳。SVM与这两种技术相比表现更好(即,J48和RF)。5.4. MIMIC-II高级数值(V)数据集的结果图图7显示MIMIC-II高级数字(V)获得的结果Md.Z. Alam等人医学信息学解锁22(2021)10049511图7.第一次会议。 F是MIMIC-II高级数值(V)数据集上实验的得分。数据集。如可以观察到的,NB技术与其他技术相结合实现了最佳结果。例如,当通过相关性排序器对特征进行排序时,选择总特征的一半,并且水平FVC与VC结合使用作为整体技术,NB获得的Fwa评分为67.806。然而,在某些情况下,SVM与其他技术相结合的表现更好。当特征被相关性排序器排序时,SVM获得了最高的 Fwa得分68.215,选择了总特征的四分之一,使用垂直(V)合奏技巧在这里,J48和RF技术不执行在这个数据集上使用任何技术的组合5.5. MIMIC-III成人数据集图8显示了在MIMIC-III成人数据集上获得的结果。这些结果表明,支持向量机与其他技术相结合,产生了最有竞争力的结果。例如,当通过InfoGain排名器对特征进行排名时,选择总特征的四分之三,并且水平FVC与CFC一起用作整体技术,SVM获得79.518的Fwa分数。当特征被SVM排序器排序时,SVM获得了79.975的最高Fwa得分,选择了总特征的四分之三,垂直(V)-水平(V) FVC 是 使用 与 的 CFC系综法Md.Z. Alam等人医学信息学解锁22(2021)100495125.6. MIMIC-III高级数据集图8.第八条。 F是MIMIC-III成人数据集上实验的评分。5.7. 基线和最新技术图图9显示了MIMIC-III Senior数据集上获得的结果。如图所示,NB技术与其他技术相结合产生了更好的结果。例如,当特征由SVM排序器排序时,选择总特征的四分之三,并且水平FVC与VC一起用作集成技术,NB实现了65.945的Fwa分数当通过SVM排序器对特征进行排序时,通过NB技术获得的最高Fwa(66.333)被实现,选择总特征的四分之三,水平(V)FVC与CFC用作集成技术。不幸的是,其他分类器在这个数据集上表现不佳。图图10比较了所提出的方法与现有技术的性能,例如,由[30]的技术产生的结果(即,[ 31 ][32][33][34][35][36] BL3)。图10中的左面板和右面板分别显示了与MIMIC-II和MIMIC-III数据集上的所有先前基线相比,得分最高的模型的性能。对于MIMIC-II数据集,Mod-el187AF-R4- 2 HCFCSVM、496型AV-R1- 2 VHVCSVM、206型SF-R1 HVVCNB,和型号498SV-R2 VHVCSVM分别获得了成人二进制(F)、成人数字(V)、高级二进制(F)和高级数字(V)数据集的最高分数。对于MIMIC-III数据集,Mod-el 360 AV-R4-3VHCFCSVM 和型号230 SV-R4- 3 HCFCNB 获得最高Md.Z. Alam等人医学信息学解锁22(2021)10049513图9.第九条。 F是MIMIC-III高级数据集上实验的评分。分别为成人和老年人数据集的评分。将这些模型的Fwa评分与图1中的所有基线方法进行比较。 10个。表8显示了本研究在准确度、精确度、召回率和F1评分方面的结果,并与每个数据集上的基线技术进行了比较。在每种情况下,很明显,所提出的方法优于所有比较的基线技术。此外,图11显示了每个数据集的一些集成模型的ROC曲线。这些曲线中的每一条都在45度对角线轴的上方,并且倾向于左上角。这表明这些模型的性能可以得到改善。表9总结了与基线BL 1、BL 2和BL 3相比,通过所提出的方法获得的结果。正如可以提供的那样,很明显,所提出的方法优于所有基线方法。6. 讨论基于我们广泛的实验结果,我们观察到,VC和CFC作为集成技术的特征排名为基础的FVC技术表现出最好的性能。在下文中,我们将从不同的角度讨论这些结果。6.1. 功能排名与无功能排名图4 - 9显示了跨技术和数据集的不同组合的特征排名的重要性是显而易见的,并且图12以更集中和系统的方式突出了这一点。左上方的面板图 12清楚地 表明,MI M I C - I I 的结果更优Md.Z. Alam等人医学信息学解锁22(2021)10049514见图10。比较所提出的方法与最先进的技术在FWA评分。这里,BL 1表示未应用预处理技术; BL 2表示应用参考文献[30]中提出的技术; BL 3表示参考文献
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)