新生儿死亡风险分类：数据驱动的方法

161 浏览量更新于2024-01-06 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

医学信息学解锁20（2020）100398新生儿死亡风险分类：数据驱动的方法利用新生儿、母亲和社会因素卡洛斯·爱德华多·贝卢佐a，埃弗顿·席尔瓦 a，卢西亚娜·科雷亚·阿尔维斯 b，罗德里戈·坎波斯·布雷桑 a，Nata'liaMartinsArrudaa，RicardoSovata，TiagoCarvalho a， *a圣保罗联邦研究所b巴西坎皮纳斯大学人口学系A R T I C L EI N FO保留字：婴儿死亡率公共卫生可理解模式A B S T R A C T婴儿死亡率是衡量人口健康状况的一个重要指标，是贫困和社会经济水平的一个粗略指标。它还显示了特定地区卫生服务和医疗技术的可用性和质量。虽然在过去几十年中情况有所改善，但许多国家实施降低婴儿死亡率的行动仍然令人关切。为了解决这样一个重要的问题，本文提出了一种新的支持决策方法来分类新生儿根据他们的新生儿死亡风险。使用与母亲，新生儿和社会人口统计学相关的特征，我们使用数据驱动的分类模型对问题进行建模，该模型能够提供新生儿在生命的第28天之前死亡的概率。不仅仅是一项理论研究，这里提出的决策支持工具与巴西等发展中国家有关，因为它旨在确定可能死亡的危险新生儿，以提高医疗从业人员的注意力，使他们能够更加努力地降低整体新生儿死亡率。克服了96%的AUC，所提出的方法不仅能够提供死亡风险的概率，而且还能够解释模型决策的最重要特征，这在公共卫生应用中至关重要。此外，我们提供了跨不同轮实验的广泛分析，包括产前和产后特征对数据驱动模型影响的分析。最后，与以前进行的依赖于样本少于10万个数据库的研究不同，我们的模型利用了一个新提出的数据库，该数据库使用了2012年至2018年从巴西圣保罗公共记录中提取的140多万个出生和死亡样本1. 介绍婴儿死亡率（IM）是衡量人口这些指标可以对国家公共卫生状况产生积极影响[6]。在发展中国家，新生儿死亡率约占IM的60%[33]。这可以被视为贫困和社会经济水平的指标。它还显示了特定地区卫生服务和医疗技术的可用性和质量。婴儿死亡率是指每1 000名活产婴儿中一岁以下儿童的死亡率，在需求评估和评估公共政策的影响时使用了婴儿死亡率的比较。IM被归类为新生儿，当死亡发生在产后直到28天的生活;和新生儿后期，当死亡发生在29天的生活直到一年的生活。新生儿死亡率和婴儿死亡率是衡量一个国家公共卫生状况和发展水平的重要指标。降低婴儿死亡率的行动反映了这些因素IM的这一层面很重要，因为从世界卫生组织（世卫组织）和联合国儿童基金会（儿童基金会）的角度来看，生命的第一个月是儿童最脆弱的时期。在巴西，我们观察到在过去的十多年中，IM病例中新生儿死亡率的比例增加，如图所示。 1 [25，34]。儿童死亡率是全球公共卫生关注的问题，联合国在全球发展目标中将2015年之前降低婴儿死亡率定为目标。巴西实现了这一千年发展目标，但国家比率并没有显示出地理区域和人口群体之间持续存在的不平等。收入较低的地区和人口* 通讯作者。电子邮件地址：tiagojc@gmail.com（T.Carvalho）。https://doi.org/10.1016/j.imu.2020.100398接收日期：2020年4月6日;接收日期：2020年7月13日;接受日期：2020年7月14日2020年7月19日网上发售2352-9148/© 2020作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuC.E. Beluzo等人医学信息学解锁20（2020）1003982图1.一、婴儿死亡率和新生儿死亡率----巴西，2000年至2017年。数据来源：Datasus 2000-2017。图二、巴西及其宏观区域的新生儿死亡率 -200 0 年至2017年。数据来源：DATASUS 2000-2017。婴儿死亡的风险更大。除了社会经济和地理因素造成的差异外，出生后第一周的婴儿（早期新生儿死亡）没有令人满意地减少，现在是该国解决婴儿死亡率问题的最大挑战。巴西的婴儿死亡率问题已经变得相关，因为现有数据及其各自的分析表明，尽管总体呈下降趋势，但具有不同社会经济特征的地区、州和人口之间的差距持续存在[30]。此外，评估2015-2017年期间的数据，可以观察到巴西新生儿死亡率的逆转行为，经过20多年的下降，开始上升，如图2所示。此外，在巴西，2017年，每1000例活产婴儿中有9例死亡，而在发达国家，每1000例活产婴儿中平均有4例新生儿死亡在巴西，自1988年颁布《联邦宪法》以来，应对新生儿死亡率的大部分负担都强加给了在实施公共卫生政策方面占据突出地位的市政当局[3，14]。位于巴西东南部的圣保罗州首府圣保罗的核磁共振率最低，2017年为每1000名活产7.5与新生儿死亡率相关的因素受到孕产妇和新生儿生物学特征、社会条件和卫生服务提供的护理的深刻阐述和影响[7，20]。在C.E. Beluzo等人医学信息学解锁20（2020）10039832003年，Mosley和Chen提出了一个分层模型，该模型基于社会经济因素决定行为的假设，而这些行为反过来又对一系列生物因素产生影响[19]。根据他们的模型，生物因素是直接导致死亡的因素。等级模式极大地促进了公共政策的制定，因为来自仅限于一组风险因素的研究的信息导致对评估儿童死亡的建议不足，因为它们对这一现象的看法有限。在大多数情况下，诊断高度依赖于执行它的专业人员的经验，以及人类分析有关某种疾病和正在分析的患者病史的可用数据的智力能力。虽然毫无疑问是必要的，但它并不是完美无瑕的，特别是依赖于人为因素的事实，这就是为什么专业人士总是有技术资源来帮助这项任务[ 1 ]。我们最近观察到诊断支持系统的可用性有了很大提高，特别是基于人工智能技术的计算机系统[35]。这些系统主要在处理一定数量和可用性的数据时是不可或缺的，这些数据可以揭示重要的知识，但不易于及时进行人为分析以评估问题[28]。在本文中，基于科学假设，不同特征的异常组合可以导致新生儿死亡风险，并且这些特征可以帮助构建一个完全数据驱动的模型来检测新生儿死亡风险，我们提出了一种新的方法来建模新生儿死亡风险。与经典的统计模型相比，所提出的方法依赖于从广泛的数据库中学到的知识，该数据库包括2012年至2018年期间来自巴西圣保罗市的1，400，000多条记录此外，这种研究在巴西等发展中国家也很重要，因为它旨在识别可能死亡的危险新生儿，以提高医疗从业人员的注意力，从而使他们能够更加努力地降低整体新生儿死亡率。1.1. 机器学习应用于公共卫生和人口统计研究巴西的大多数人口研究都在使用空间分析、多重统计和逻辑参数回归等描述性分析的基础上，一般使用小型数据集，寻找与婴儿和新生儿死亡率有关的具体因素。Nascimento等人提出了一个分层模型来分析264例新生儿死亡的数据集，而Migoto等人使用的数据集包含157，604例活产和903例早期新生儿死亡（最多到生命的第六天）。两项研究都发现了一些与总新生儿死亡率和早期新生儿死亡率密切相关的因素。据观察，新生儿死亡主要与产前保健和直接护理劳动的质量有关。通过一些变量测量这些特征，例如：产前咨询次数、分娩类型、负责分娩的专业人员（随叫随到医生、产科医生、护士或其他）。此外，还发现了与母亲生育史有关的一些关联，例如母亲在以前的怀孕中是否出现胎儿丢失。他们还确定了与畸形的存在和母亲的社会经济条件（母亲的教育，婚姻状况和母亲的种族）的一些关系[ 17，20 ]。Migoto等人还指出，母亲年龄表明，与20-34岁的母亲相比，未成年母亲和35岁或35岁以上的母亲中在教育方面，在完成一周生命之前死亡的儿童的母亲一直学习到他们七岁此外，与已婚妇女相比，没有伴侣的妇女的子女更有可能死亡[17]。虽然上述工作依赖于传统的统计方法，但机器学习（ML）方法开始在一些国际工作中受到重视。Nguyen建议使用ML方法来分析住院儿童死亡率，并将最终诊断作为特征例如，被诊断患有脑膜炎或营养不良的儿童最有可能死亡。这项工作关注的是建立能够检测样本中死亡的模型，因为结果是罕见事件[21]。Pan观察到，除了已经在伊利诺伊州的社会服务中使用的基于纸张的风险评估之外，ML模型还能够识别超过150名高风险孕妇[26]。因此，ML方法能够提高决策的效率，并改进在识别高危妊娠的资格接受特定的卫生服务。Podda等人提出的ML方法旨在过早估计新生儿的存活率，并将ML模型与这些类型分析中最常见的Logistic方法进行了比较。作者的方法预测早产儿的生存率优于逻辑模型，因此，允许更好的方法来识别风险，并允许提高决策质量和识别风险。他们使用神经网络并观察到，尽管逻辑回归模型和其他线性模型更容易理解和解释，并且它们的结果很容易用作风险度量;当变量之间存在相互作用时，这种解释的容易性就丧失了，在这种情况下，神经网络可以考虑变量之间的相互作用和变量结果的非线性[27]。Hsieh提出了ML模型的比较，目的是预测重症监护病房计划外拔管患者的死亡率。他们观察到，即使只有有限的数据点（341），他们也能够开发出一个良好的预测模型。这些作者使用了不平衡的数据，与该工作中使用的其他模型（支持向量机，人工神经网络，逻辑回归模型）相比，随机森林模型呈现出最佳的召回率和精确度值[11]。据我们所知，没有根据巴西数据构建的数据驱动模型来分析新生儿死亡风险。同样，没有报告使用死亡率信息系统和国家活产信息系统的功能解决这类问题的结果。然后，本文的主要贡献是：（1）提出了一种新的数据驱动的新生儿死亡风险分类支持决策方法，该方法结合了不同的最先进的计算方法来解决一个开放的问题，提供了新生儿死亡风险如何低或高的定量度量，这可以帮助医生作为决策支持工具;（2）评估不同类型ML分类器在分类步骤中的功效的比较研究;（3）通过数据驱动的视角，使用Shapley加法解释方法（SHAP-SHapley加法解释）来分析特征重要性，这对于作为所提出的方法的一部分来改善问题理解是必不可少的;(4)（5）对死亡风险分类的定性分析，包括不平凡的案例。我们的方法可以被认为是一种诊断工具，以支持决策，在评估患者患有新生儿死亡的风险，一旦所有必要的功能，出生前（产前）和出生后几个小时（产后）。因此，该方法可以提高评估风险的任务的功效和精确度，并在初始阶段提供关于产后治疗需求的指导，在最后手段中挽救新生儿的生命，以及降低治疗成本，考虑到它还可以防止在没有风险的新生儿中使用不必要的第三部分详细介绍了本文的分类算法描述和实验方案，以及数据集的构建过程和相应的探索性分析。第4节详细介绍了所执行的实验和相应的结果，包括特征重要性方法的结果。最后，第5节讨论的结果，以及主要结论和未来的工作前景。C.E. Beluzo等人医学信息学解锁20（2020）1003984图3.第三章。2000- 2017年圣保罗市与巴西新生儿死亡率比较。在此必须强调的是，根据这一数字，即使在本研究未涵盖的年份（2012年之前），圣保罗的死亡率也明显低于巴西。2. 数据集构建和探索本文提出的数据驱动模型是通过使用从圣保罗市2012年至2018年的出生和死亡系统（SINASC和SIM）中提取的记录构建的。圣保罗市提供了巴西的数据质量来源之一，数据直接从圣保罗市卫生办公室（SMS-SecretariaMunicipalde Sa'udede Sa'uoPaulo）收集。尽管圣保罗的新生儿出生率与巴西其他地区相比质量最好、水平最高，但如图3所示，这些事件以不同的方式发生，表1患者和对照组的临床特征。所有参与者（n= 698）AD（n= 400）对照（n= 289）P载脂蛋白Eε4（+）携带者（n，%）155（38.60%）51（17.64%）0.001载脂蛋白Eε4（-）携带者（n，%）245（61.40%）238（82.36%）CLU rs11136000 0.04*T（n，%）164（21.08%）131（23.48%）C（n，%）614（78.92%）427（76.52%）沪公网安备31010502000113号A（n，%）160（20.62%）127（22.68%）G（n，%）616（79.38%）433（77.32%）rs9331888 0.44*C（n，%）386（48.74%）279（49.47%）G（n，%）406（51.26%）285（50.53%）年龄，岁（平均值±SD）80.1±6.99 71.0±6.290.001BMI，kg/m2（平均值±SD）22.75±3.85 23.99±3.780.001TG，mmol/L（平均值±标准差）1.37±0.61 1.45±1.05 0.17HDL-C，mmol/L（平均值±SD）1.50±0.43 1.54±0.44 0.16LDL-C，mmol/L（平均值±SD）3.11±0.82 3.03±0.84 0.20DWRT评分（平均值±SD）0.31±0.91 7.22±1.260.001APOE，载脂蛋白E基因; BMI，身体质量指数; TG，甘油三酯; HDL-C，高密度脂蛋白胆固醇; LDL-C，低密度脂蛋白胆固醇; DWRT，延迟单词回忆测试。* 经年龄、性别、BMI和APOE ε4校正的P值。最脆弱人口的减少，反映了人口的不利生活条件、医疗保健和社会经济不平等[9]。2.1. 数据源SINASC使用活产声明（DNV-Declara Nascido Vivo）进行喂养。它包括有关婴儿、母亲、产前护理和分娩的人口和流行病学数据的信息。另一方面，SIM的主要目标是支持巴西死亡记录的收集、存储和管理过程，并用于在SINASC上标记出生后28天内发生死亡的记录，使用DNV作为关联键，DNV是两个系统的共同字段。这样，我们最终数据集中的每个样本都包含表2数据字典-数据集的变量特征描述maternal_age母亲新生儿体重（克）cd_apgar 1 1分钟Apgar评分cd_apgar5 5分钟Apgar评分cd_robson_group罗布森群分类num_ceremony_labors剖腹产分娩num_fetal_losses胎儿丢失num_gestations先前妊娠num_gestational_weeks妊娠周数num_live_births活产num_normal_labors正常分娩tp_birth_place出生地代码tp_分娩_援助分娩护理tp_fill_form_responsible主工作者角色tp_labor分娩类型（分娩）tp_maternal_skin_color母亲种族/肤色tp_marrial_status婚姻状况tp_maternal_education_years母亲tp_pregnancy_duration妊娠周数（按范围）妊娠类型tp_prenatal_appointments产前预约（按范围）tp_presentation_newborn新生儿先露类型先天性畸形女性（n，%）281人（70.25%）207人（71.63%）0.70男性（n，%）119人（29.75%）82人C.E. Beluzo等人医学信息学解锁20（2020）1003985表3样本在数据集类中的分布。阳性分类（死亡）阴性分类（存活）样本总数7928 1，427，906相关特征。此外，还提供了关于目标类别（死亡或存活）之间的特征值分布的一些统计数据。1. 产妇的社会经济状况特点：包括以下特点：数据集比例0.55% 99.5%年龄、受教育年限、婚姻状况和种族/肤色。从数据分布来看，母亲SINASC特征和标签（0或1），描述受试者在出生后28天是否存活[15，18，24，32]。DNV是卫生部编制的标准文件，在全国范围内对儿童出生登记具有强制性。所有活产婴儿都必须填写，无论出生的情况如何：医院、产科、急诊、家庭、公共场所同样，我们有死亡证明（DO -DeclaraaodeO′bito），这是用于收集死亡率信息的文件，它被用作计算生命周期统计数据，如巴西新生儿死亡率的计算。然而，尽管填写DNV和DC是强制性的，但由于从医院向市卫生局（负责向MS报告）发送数据时的丢失等许多情况，数据质量存在重大缺陷;字段填写了不正确的值;回答问题的人不知道的信息等。表1描述了我们数据集中每个特征的缺失数据量。SIM/SINASC数据源中至少10%的数据样本存在至少一个缺失/不一致的特征。使用SINASC和SIM，我们构建了一个名为SPNeo-Death的数据集，它包含1，427，906个样本，具有23个特征（和目标变量）。表2描述了整套功能。阳性（死亡）和阴性（存活）分类之间的数据分布见表3。2.2. 数据集描述和探索性分析为了更好地理解SPNeoDeath数据集和问题的限制，本节通过探索性分析提供了一些关于数据集的见解。该数据集可分为四类：（a）社会经济学孕产妇状况特征;（b）孕产妇产科特征;（c）新生儿相关特征;以及（d）既往护理年龄较大，75%的样本集中在15至32岁之间; 55%的母亲已婚或有稳定的关系，43.34人单身; 58%的母亲受过8至11年的教育; 57.83%是白人，40.69人是黑人或棕色人种。2. 产妇产科特征：包括活产数量、既往胎儿丢失数量、既往妊娠数量、正常分娩和剖宫产分娩数量以及妊娠类型等特征。对于所有这些特征，除妊娠类型外，分布广泛（超过所有样本的96%），平均1例活产。关于胎儿丢失，大多数样本在先前妊娠中有0到1个胎儿丢失。根据数据集分布，大多数样本的既往妊娠次数在0到1次之间，且既往分娩正常。在剖宫产史方面，绝大多数孕妇无剖宫产史，97%的孕妇为单胎妊娠，2.74%的孕妇为双胎妊娠。3. 与新生儿相关的特征：出生体重、妊娠周数、1分钟Apgar评分、5分钟Apgar评分、先天性异常和新生儿的先露类型。关于新生儿的体重，大多数样本在2870和3500 g之间，平均值为3143 g。大部分新生儿出生在38-39周之间，平均38周，最小值为15周。Apgar评分：1min Apgar评分8分者占85%，5 min Apgar评分9分者占93%，无先天畸形者占98%，头位者占96.03%。4. 与既往护理相关的特征：产前咨询次数、产程类型、分娩护理和Robson 10组分类。最后，大多数母亲接受过7次以上的产前检查（78.23%）; 56.78%接受过剖腹产; 81.83%接受过医生的分娩护理;34.52%属于罗布森分类第2组。见图4。母亲婚姻状况在死亡和存活目标变量之间的比较。资料来源：统计信息系统，国家统计和信息系统，2012年2018.C.E. Beluzo等人医学信息学解锁20（2020）1003986图五. 母亲受教育程度在死亡与存活目标变量之间的比较。资料来源：SIM，SINASC，2012-2018年。图六、死亡和存活类别之间的妊娠类型比较。资料来源：SIM，SINASC，2012-2018年。2.2.1. 目标类之间的特征值分布从所有的功能，我们选择了两个组先前提出的使用死亡和活着的类之间的值分布进行一些额外的分析。与母亲的社会经济状况有关-婚姻状况和教育：在所有新生儿死亡中，45.00%为单身，53.27%为已婚或稳定结合，65.83%受过8-11年教育，22.11%受过12年或12年以上教育。仅观察那些存活的新生儿，43.33%是单身，54.97%是已婚或稳定的结合，58.28%有8-11年的教育，31.55%有12年或以上的教育，如图1A和1B所示。 4和5.产妇产科-既往胎儿丢失数量和妊娠类型：观察图6，11.73%的新生儿死亡发生在双胎妊娠中，87%发生在单胎妊娠中，在存活类别中，97.21%为单胎妊娠，仅2.68%为双胎妊娠。关于胎儿损失的历史，活着的阶级有一个0-1个胎儿丢失的集中度（几乎98%），并且在死亡的新生儿之间，之前有1个以上胎儿丢失的母亲数量略高，正如我们在图中所看到的。7 .第一次会议。与新生儿相关-出生体重和孕周：当分析出生体重时，其直方图如图所示。八，出生后28天内死亡的新生儿（死亡类）体重不足，平均值为1 500 g，大多数集中在660至2 295 g之间，而在存活类中，新生儿平均体重值为3152 g，大多数集中在2 875至3 490 g之间。关于孕周，我们可以在图9中看到，考虑到死亡类别，大多数样品早产（在妊娠第36周之前出生），平均值为30周，最小值为妊娠19周。在存活组中，大多数新生儿出生时平均妊娠38周，大部分新生儿集中在妊娠38 - 39周与以前的护理有关-产前预约次数和C.E. Beluzo等人医学信息学解锁20（2020）1003987图7.第一次会议。死亡和存活类别之间的先前胎仔丢失比较。资料来源：SIM，SINASC，2012-2018年。图8.第八条。死亡组和存活组的出生体重比较。资料来源：SIM，SINASC，2012-2018年。产程类型：与死亡新生儿产前咨询次数有关，38.02%产前咨询4 ~ 6次，36.54%产前咨询7次以上，19.41%产前咨询1 ~ 3次。仅观察那些存活的新生儿，我们有78.46%的母亲去了7次以上的咨询，只有16.73%的母亲去了4到6次，只有3.8%的母亲去了1到3次，如图所示。 10个。在产程类型上，活产与死产无显著性差异，分别为56.79%和54.85在存活类和死亡类中分别如图12所示。 11场演出3. 该方法本文提出的方法，如图12所示，遵循三个主要步骤：1. 缺失数据处理：所提出的方法的第一步是处理输入数据以处理数据缺口（这类数据非常常见）。这个过程是必要的，允许我们的数据驱动模型学习不同类型的特征（分类，有序和连续）之间的关系。2. 数据驱动模型构建：第二步包括使用监督学习方法对步骤1中提供的特征进行分类。基于第4.2节中详述的经验测试，我们的方法利用EXtreme梯度提升来执行此任务。3. 模型可解释性：所提出的方法的最后一步是解释数据驱动的模型输出，使结果对人类来说是可理解的。这是为公共卫生开发的解决方案的核心要求之一，其作为支持决策工具的适用性取决于这一因素。然后，我们将SHAP方法应用于此目的。1为了允许所提出的方法的再现性，以及与其他技术的比较，源代码和数据集可在https://doi.org/10.7303/syn22240254上获得。C.E. Beluzo等人医学信息学解锁20（2020）1003988见图9。比较Geekweeks的死亡和活着的类。资料来源：SIM，SINASC，2012-2018年。图10个。死亡与存活目标变量产前咨询的比较。资料来源：SIM，SINASC，2012-2018年。3.1. 缺失数据处理如上所述，所提出的方法的第一步包括正确地构造特征向量，处理丢失的数据。在巴西公共卫生数据方面，数据缺失或不一致的情况很常见，主要是由于手写表格填写不正确。一旦用于模型决策的一些输入特征可能丢失，这种数据不一致性可能会阻止所提出的方法应用于真实世界场景。为了解决这个问题，并受到人口统计学研究的启发，我们的方法采用了两种不同的方法：对于每个连续特征，我们计算训练集中的平均值，并使用该值来替换样本中的缺失数据。当处理分类和顺序特征时，缺失值使用训练集中该特征的最频繁值来填充[16，22]。3.2. 死亡风险分类处理完数据后，处理丢失的数据，所提出的方法是构建一个数据驱动的分类模型，该模型能够直接从数据中学习模式，该模式允许所提出的方法根据新样本（受试者）在出生后28天所提出的方法使用称为极端梯度提升（XGBoost-eXtreme GradientBoosting）的可扩展的端到端树提升方法，其具有在不需要强大硬件的情况下处理大量数据的能力的主要优点[5]。简而言之，XGBoost是Gradient Boosting的改进版本，并实现了一系列改进以更有效地工作[8]。导致所提出的方法选择XGBoost的主要特征，除了它激活我们数据中的最佳结果（如第4节所示）之外，还有：正则化：XGBoost算法通过L1和L2正则化使用特定的正则化策略，这会惩罚复杂的模型并有助于避免过拟合。在所提出的方法中，这对于避免将模型过度拟合到高·C.E. Beluzo等人医学信息学解锁20（2020）1003989见图11。死亡类和存活类之间的劳动类型比较。资料来源：SIM，SINASC，2012-2018年。见图12。建议的方法概述：这里提出的方法由三个主要的顺序步骤组成，包括缺失数据处理，然后是数据驱动的模型分类和解释。无死亡风险类别的准确性，因为死亡风险类别的样本数量远小于无死亡风险类别;处理稀疏数据：XGBoost算法结合了稀疏感知的分割查找算法，以处理数据中不同类型的稀疏模式，如由虚拟变量和数据处理生成的稀疏模式。具体来说，在所提出的方法中，这种功能非常有用，因为我们实现了处理数据以纠正丢失和不一致数据的前一步;加权分位数草图：大多数基于树的方法的特征之一是它们依赖于使用相等权重的点（使用分位数草图算法）执行分割的想法。但是，无法保证数据的权重相等，在处理不平衡的数据时，处理这种情况是必不可少的。XGBoost有一个分布式的加权分位数草图算法来有效地处理这种限制;用于并行学习的块结构：为了允许算法的更快训练过程，即使在包含更多de 1，400，00个样本的数据集中，XGBoost可以在CPU和GPU上使用多个核心。具体来说，XGBoost是使用块结构设计的，其中数据被排序并存储在称为块的内存单元中。然后，数据布局可以被后续迭代重用，而不是再次计算;···C.E. Beluzo等人医学信息学解锁20（2020）10039810∑∑M！！（）下一页（{}）图13岁结果使用10倍交叉验证实验3为所提出的方法比较3种不同的算法分类任务。3.3. 模型解释器ML模型的可解释性是计算机科学和应用科学中不同领域的关注点。对于公共卫生和人口统计学来说，这种特性尤为重要。一个专家使用ML模型作为帮助，需要解释和证明所提出的结论。从这个意义上说，除了所提出的方法执行的结果之外，本文还应用SHAP方法来衡量特征SHAP方法属于加性特征属性化方法，可以用特征的线性函数进行简化。这种方法试图为每个数据点提出一个线性回归模型。它将每个特征（xi）替换为一个二进制变量（zMg（z'）= φ 0+φ i z' i（1）i=1其中g（z形式上，SHAP值测量特征i对ML模型产生的输出fx的影响，方法是将特征i包括在除i之外的所有特征组合中，由下式定义：平方误差，也就是说，如果在模式划分中选择了该特征，则在树构建中，平方误差相对于所有树减小。在本文中，通过使用Python预建库H2O [10]计算特征重要性。4. 实验和结果本节介绍了在提出的方法评价过程中进行的主要实验。4.1. 计算环境设置所提出的方法已经用Python编程语言（版本3.6）以及Scikit-Learn（版本0.21.2）、H2O（版本3.24.0.4）、XGBoost（版本0.90）、Pandas（版本0.24.2）和MatplotLib（版本3.1）库实现。所有的实验都是在具有40个CPU核、4个GPU TitanX 12的计算机上进行的 GB，120 GB内存和8 TB存储空间，运行Ubuntu 18.04（64位）。4.2. 实验#1：在SPNeoDeath的子集中评估不同的分类器第一个实验的重点是评估如何提出的方法已经设计，并支持我们的决定，选择XGBoost作为我们的分类方法。φi=SN\{i}|！|! （M-|S|-1）！[f x（S <${i}）-f x（S）]（2）为了在方法之间进行公平的比较，我们首先需要解决阴性和阳性（分别为存活和死亡）类样本数量的巨大差异，如第其中S是除特征i之外的所有特征N中的特征的子集，|！|! （M-M|S|-1）！是对子集S的排列数进行计数的加权因子，f xSi是给定所有特征N（包括i）的实际输出模型，并且f x S是给定特征子集S的期望输出。一般来说，重要性是根据2.2.这是因为使用所有样本训练ML分类器的过程不可避免地会产生过拟合模型。为了处理这类问题，我们使用重新采样来随机欠采样大多数类。我们的过程包括从SPNeoDeath中随机选择70%的阳性类别（死亡）样本，得到5549个样本。然后我们也随机抽取了5549名C.E. Beluzo等人医学信息学解锁20（2020）10039811表4每个算法的性能指标。S/N算法精度灵敏度特异性AUC1 XGBoost百分之九十二百分之九十一百分之九十四0.9642随机森林百分之九十三百分之九十二百分之九十四0.9653逻辑回归百分之九十百分之八十八百分之九十三0.951表5每个XGBoost超参数的网格搜索评估值MCW伽马子样本CSBT MAXD SPW所有评估的分类器都呈现出非常相似的AUC，XGBoost等于0.964，随机森林等于0.965，逻辑回归等于0.951。XGBoost、随机森林和Logistic回归的标准差分别为0.006、0.007和0.006。除了XGBoost的计算优势外，如第3.2节所述，我们还应用了基于McNemar检验的统计显著性评估当比较XGBoost与随机森林时，获得的结果是12.461的统计量，p值等于0.000，考虑5%的显著性。这使我们能够拒绝零假设，这意味着在[1，5，10][0.5，1，1.5][0.5，0.8，1.0][0.5，0.8，1.0][2，4，6][1，5，10]表6网格搜索后的XGBoost超参数MCW伽马子样本CSBTMAXDSPW50.51.00.521阴性类别（存活）的样本，导致总共由11，098个样本组成的子集。从这里开始，这个样本子集将被命名为S1-SPNeoDeath。我们确实将XGBoost与两种文献分类方法进行了比较：经典Logistic回归和随机森林。在这一点上，为了提供方法之间的公平比较，所有方法都使用Scikit-Learn库提供的默认参数鉴于在本实验中，我们正在评估减少的样品数量，我们决定使用10倍交叉验证方案。使用ROC曲线，曲线下面积（AUC）度量呈现结果，如图13所示。每条曲线代表该方法的10倍曲线的平均值，曲线周围的阴影表示其所有10倍的标准差。两个分类器。比较XGBoost与Logistic回归，McNemar统计量和p值分别为18.921和0.000。同样，分类器的答案之间存在统计差异。我们还在表4中纳入了使用准确度、专属性和灵敏度的性能结果。4.2.1. XGBoost微调一旦我们决定在所提出的方法中使用XGBoost作为分类算法，我们就执行了一个微调过程，以使用我们的特征来估计分类器的更好参数。这种微调过程是使用网格搜索方法在S1- SPNeoDeath上进行的。我们决定使用S1- SPNeoDeath而不是SPNeoDeath进行网格搜索的原因是，在包含超过1.4 M样品太贵了。网格搜索的超参数已被评估考虑以下参数： min_child_weight（ MCW ）， gamma ， subsample ， colsample_bytree （ CSBT ），max_depth（MAXD），scale_pos_weight（SPW）。表5列出了每个参数的评价值因此，发现的最佳超参数如表6所示。图十四岁使用S1-SPNeoDeath作为训练样本和Test-SPNeoDeath作为测试样本的结果。C.E. Beluzo等人医学信息学解锁20（2020）10039812表7使用S1-SPNeoDeath作为训练集和Test- SPNeoDeath作为测试集的XGBoost的性能指标。S/N算法精度灵敏度特异性AUC1XGBoost百分之九十四百分之九十一百分之九十四0.9704.3. 实验2：评估SPNeoDeath一旦XGBoost被验证为所提出的方法的分类步骤的最合适的算法，包括额外的网格搜索步骤，在第二个实验中，我们完全评估了SPNeo-Death。该评价在下述两种不同的变化中进行。4.3.1. 变体#1：用于训练的在这个实验中，我们使用S1-SPNeoDeath和通过微调获得的超参数来训练 XGBoost 。然后，我们使用 SPNeoDeath 中的其余样本（1.422.357个阴性样本和2377个阳性样本，称为Test-SPNeoDeath）对其进行评估。在该实验中获得的结果如图所示。十四岁所得ROC曲线与第4.2节中的结果非常相似，AUC为0.97。达到的真阳性率（正确分类的死亡发生样本）为91.5%，这表明分类器在区分阳性和阴性类别方面非常一致。表7还列出了其他性能指标。4.3.2. 变体#2：用于训练的在这个实验中，我们确实将SPNeoDeath分成70/ 30的比例（70%的阳性样本加上70%的阴性样本用于训练，30%的阳性样本加上30%的阴性样本用于测试）。这种方法生成了一个更大的训练数据集，但因此导致了严重的不平衡训练数据集的问题（这肯定会导致分类器过度拟合Alive类）。为了避免前面提到的过拟合问题，我们确实使用了类权重方法，其中正类（具有大量较低数量的样本）的权重增加。这样，在训练过程中，正类的错误分类比负类的错误分类受到更多的惩罚。图15描绘了阳性类别的不同权重值的ROC曲线。虽然ROC曲线在形状和AUC方面存在不可区分的差异，这是由于阳性和阴性类别中测试样本数量的巨大差异造成的，但在分析表8时，我们清楚地认识到不平衡数据集对灵敏度和特异性结果造成的差异。还可以认识到，当对正类使用400的权重时，类权重方法补偿不平衡的数据集，导致与通过使用平衡数据集（S1-SPNeoDeath）训练分类方法时所实现的结果类似的从这一点到论文，其余实验（实验#3、#4和#5）已经使用70/30验证分割和400的权重进行。4.4. 实验#3：通过特征重要性评估的模型理解如前所述，公共卫生问题需要的不仅仅是表8XGBoost分类器的性能指标，具有不同的正类权重值。正类权重精度灵敏度特异性AUC1百分之九十九百分之三十七百分百0.96910百分之九十九百分之七十三百分之九十九0.970100百分之九十六百分之九十百分之九十六0.970200百分之九十四百分之九十二百分之九十四0.969400百分之九十一百分之九十三百分之九十二0.969图15. 使用XGBoost的ROC曲线，70/30验证方案中阳性类别的权重为400。C.E. Beluzo等人医学信息学解锁20（2020）10039813图16. 通过XGBoost和SHAP模型的组合识别特征的重要性。每个特征（Y轴上的位置）代表该特征的平均重要程度，并在Test-SPNeoDeath样本上计算。洋红色条表示产后特征，而青色条表示产前特征。(For对本图中颜色图例的解释，读者可参考本文的网络版强大而准确的ML模型。他们需要一个模型，能够解释如何实现某个决定（在这种情况下，低或高的死亡概率）。该实验揭示了SHAP模型和XGBoost的组合如何提供模型可解释性。对于每个训练集（已用于训练模型）我们计算该特征对于训练模型的最终答案的重要性。最后，计算每个特征的平均量。图16描绘了具有每个个体特征的平均重要性的图从图16，其有可能认识到，平均而言，图17. 使用产前（青色）和产后（品红色）特征的数据驱动模型结果。(For对本图中颜色图例的解释，读者可参考本文的网络版C.E. Beluzo等人医学信息学解锁20（2020）10039814表9使用产前（青色）和产后（品红色）特征的XGBoost分类器的性能指标S/N特征精度灵敏度特异性AUC1后火花属百分之八十七百分之九十一百分之八十八0.9522Prepartum百分之九十百分之八十八百分之九十一0.947图18. 错误分类样本的产后最相关特征分布新生儿体重、cd

下载后可阅读完整内容，剩余1页未读，立即下载