食管静脉曲张早期诊断：一项针对丙型肝炎患者的提升集成方法

108 浏览量更新于2024-01-07 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁20（2020）100421应用Boosted-Naïve Bayes树早期诊断食管静脉曲张：一项针对慢性丙型肝炎患者的多中心横断面研究岛湾Abd-Ellinga，b，c，Mohamed M. Ezzd，c，Shehab Gamalel-Din c，Gamal Esmat e，Ahmed Salamae，Mahmoud ElHefnawia，b，*a埃及吉萨国家研究中心工程研究司b埃及吉萨国家研究中心医学研究卓越中心化学信息组生物医学信息学c埃及开罗爱资哈尔大学工程学院系统和计算机工程系。d沙特阿拉伯萨卡，朱福大学计算机和信息科学学院计算机科学系埃及开罗开罗大学医学院地方病医学和肝病学系A R T I C L EI N FO保留字：食管静脉曲张肝硬化的早期症状提升集成方法肝脏疾病诊断生物医学信息学A B S T R A C T通过上消化道内窥镜检查诊断静脉曲张的标准方法是侵入性的，昂贵的，并且具有许多缺点。为了克服这些缺点，本研究旨在建立一个预测性食管静脉曲张诊断模型，该模型使用最少数量的最重要的变量，试图避免不必要的内窥镜检查程序。本研究使用了2006年至2017年收集的5013例慢性丙型肝炎埃及患者的前瞻性队列数据集。该数据集包括40多个个体临床实验室变量，其中只有10个被认为是显著的，这是通过合并相关系数和p值过滤方法来获得改进的结果。样本数据集中的所有5013例患者都接受了内窥镜评估，这是一种在大多数情况下可以避免的昂贵程序;因此，高度准确的非侵入性诊断模型是强制性的。为了提高预测诊断模型的整体性能，该研究引入了一种新的算法，通过添加提升技术改进了传统的朴素贝叶斯树，称为“Boosted-Naive Bayes Tree”（B-NBT）。在我们的数据集上应用B-NBT显示，AUROC（受试者工作特征曲线下的面积）的性能提高了0.865，准确度提高了79%。总之，这项研究表明，只有十个最重要的变量，足以使非侵入性诊断模型先发制人地预测EV可接受的性能。这可以为医生提供节省时间和金钱的有效选择-对这项研究的医学贡献。此外，对研究的一个工程贡献是将提出的特征选择方法添加到提升技术中，从而提高了预测性能。1. 介绍食管静脉曲张（EV）是肝病“肝硬化”的危险并发症之一。肝硬化是世界范围内第十三位死亡原因[1]。静脉曲张红斑的存在、静脉曲张的大小和肝硬化的严重程度是静脉曲张出血最重要的预测因素。迄今为止，上消化道（UGI）内镜检查被认为是EV的标准侵入性诊断方法[3美国肝脏疾病研究协会和Baveno IV V共识会议[6]建议，所有肝硬化患者应定期进行EV筛查-无静脉曲张的患者每2然而，UGI内窥镜检查也有缺点和并发症，如需要静脉镇静和昂贵的实验。此外，通过UGI筛查所有腹泻患者将需要进行许多不必要的内窥镜检查，并增加内窥镜检查单位的工作量;进行许多内窥镜检查对患者来说是不可行和不方便的[8]。这些缺点提高了对新的成本效益高的非侵入性方法的需求，并因此激发了我们的研究，作为治疗的替代方案。* 通讯作者。埃及吉萨国家研究中心工程研究处信息学和系统部电子邮件地址：sa. nrc.sci.eg（S.M. Abd-Eldner），mahef@aucegypt.edu（M.ElHefnawi）。https://doi.org/10.1016/j.imu.2020.100421接收日期：2020年6月29日;接收日期：2020年8月29日;接受日期：2020年2020年9月3日网上发售2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuS.M. Abd-Eldner等人医学信息学解锁20（2020）1004212精确挑选最需要UGI手术的患者。这种非侵入性的方法应该旨在基于实验室数据对EV进行先发制人的预测，从而减少肝硬化患者静脉曲张出血的机会。最近，机器学习（ML）[9]在有效的医疗决策中变得越来越重要[10]。许多研究-在第2节中进行了全面审查-使用ML和数据挖掘（DM）技术试图为肝脏疾病诊断提供预测方法[11，12]。然而，这些研究都没有准确预测EV的存在;应该考虑到他们使用了从单个中心收集的小数据集，这使得他们的结果既不敏感也不特异。本研究旨在基于HCV患者的实验室数据建立一个诊断EV的准确性可接受的非侵入性预测模型，考虑到我们旨在使用最少数量的最重要变量;因此，我们能够使模型更简单，避免获得冗余实验室数据的成本。此外，我们的目标是通过使用增强的特征选择方法和提升技术来提高模型的预测性能。在这种情况下，本研究使用了5013例埃及慢性丙型肝炎患者的回顾性队列。该数据集是在2006年9月至2017年8月的国家治疗计划期间从“埃及国家丙型肝炎患者国家治疗计划中病毒性肝炎控制委员会”获得的。该数据集是从分布在埃及各省的26个中心收集的。它包括40多个个体临床实验室和成像变量。为了确定预测模型的最显著最小足够变量，将相关系数和p值方法合并在一起，称为“基于P值相关性的过滤器选择”（PC-FS）方法。这种新的改进的选择方法只发现了10个最重要的变量，即血小板计数、白蛋白、硬度、总胆红素、凝血酶原浓度（PC）、脾脏、HCV RNA、门静脉直径（PVD）、超声肝脏纹理和性别，这些变量足以作为EV早期预测模型的输入变量，推荐给医生。并与其他特征选择方法进行了性能比较.为了改善挖掘结果，对一些挖掘算法进行了实验应用于预处理的数据集，并评估其效率。我们将Boosting [13]与决策树（DT）[14]和朴素贝叶斯（NB）[15]算法相结合，这是我们在本文中介绍的一种新方法，称为“Boosted-Naïve Bayes Tree”（B-NBT）。该算法提高了传统朴素贝叶斯树的整体性能。并将B-NBT法与传统NB法和DT法所得结果进行了比较。它的性能也与另一种增强算法（交替决策树-ADT）进行了比较[16]。它已被实验证明，所提出的B-NBT模型的性能指标取代ADT和所有其他本地算法时，单独应用-工程的角度来看。在这篇文章中，第2节概述了一些相关的工作，电动车第3节描述了以下方法，首先描述了所使用的生物医学数据集、预处理步骤、用于特征选择的拟议方法以及提升朴素贝叶斯树的实现。第4节描述了结果，第5节评价和讨论了所得模型结果的讨论和性能。最后，本文对未来的工作进行了展望2. 相关作品我们目前提供了一个简短的概述，最近的研究所做的不同ML技术在各个生物医学领域。期间在过去的几十年里，人工智能（AI）的研究人员使用ML算法，如决策树（DT）[4，17]，朴素贝叶斯（NB）[15]和交替决策树（ADT）来预测慢性疾病。ADT在诊断肝纤维化的生物医学研究领域取得了成功，如研究[18，19]。DT和NB算法（NBT）的组合提高了研究[20]中的分类准确度此外，加强技术提高了诊断疾病的性能，如研究[21]。AdaBoost已被证明成功诊断生物医学研究领域的各种类型的疾病，如冠心病[22]，阿尔茨海默最近，研究人员试图根据实验室和成像数据确定非侵入性预测因子作为诊断EV的替代方法。有两种非侵入性方法：第一种是基于测量一个参数，例如，使用Fibro-Scan（使用Y. Saad等人[25]，Al Ghamdi等人[26]，Sarkar等人[27]，Llop等人[28]，和T. Kim等人[29]。其他一些先前的研究表明，白蛋白可用作唯一的无创预测因子，如Abdel Hamed等人[30]，血小板计数可用作Abd-Ellington等人。[31 ]第30段。第二类研究得出结论，多个预测因子的组合具有显著性，例如肝硬度和血小板计数的组合; Sousa等人[32]评价了Baveno VI造影[3]作为预测食管静脉曲张的无创方法。从以往的研究来看，实验室和超声检查变量对评价EV可能具有一定的预测能力。许多以前的研究试图使用传统的统计方法，如logistic回归和多变量logistic回归[1，26，33，34]。此外，这些先前的研究面临许多局限性。例如，它们涉及来自单个机构或一个医疗中心的少量患者。相比之下，我们的研究是大规模的;数据集是从26个多中心分布的在埃及，旨在更好的性能和更可靠。3. 方法该方法3.1. 患者我们对5013例埃及慢性丙型肝炎患者进行了回顾性研究。该数据集来自在2006年9月至2017年8月的国家治疗计划期间，所有有资格在治疗前进行内镜检查以检测EV的患者都被纳入NCCVH的前提下。每例患者的信息由一名经过研究员培训、在诊断测试报告标准方面具有经验的实验室医生进行评估[35]。这些数据是从分布在埃及所有政府部门的26个中心收集的。在我们的研究中，男性和女性患者的年龄范围在（19-74）岁之间。基于从所有患者收集的实验室检查和成像、肝脏成像和历史标准，收集了40多个个体变量。对该研究中包含的所有HCV患者进行UGI，并对EV的存在或不存在进行评论。所有内窥镜检查均由经验丰富的内窥镜医生在单个内窥镜检查单元中进行。如图1所示，5013例患者中有2240例被诊断为静脉曲张。一些患者接受了瞬时弹性成像，以使用Fibro-Scan测量肝脏硬度（LS）。收集每例患者的年龄、性别和体重指数（BMI）。该数据集包含全血细胞计数（CBC），包括白细胞（WBC）计数、绝对中性粒细胞计数和全血细胞计数。S.M. Abd-Eldner等人医学信息学解锁20（2020）1004213Fig. 1. 评估入选研究的HCV患者流程图。(ANC)、血红蛋白（Hb）和血小板计数（PLT），以及肾功能检查（如肌酐）和肝功能检查（如白蛋白）、总胆红素（T。Bil）和间接胆红素（I. Bil）。数据集还包括常规生物学检查，如丙氨酸氨基转移酶（ALT）、天冬氨酸氨基转移酶（AST）、甲胎蛋白（AFP）、凝血酶原浓度（PC%）、葡萄糖、促甲状腺激素试验（TSH）和国际标准化比值（INR）、糖尿病、HCV RNA和抗核抗体（ANA）、乙型肝炎表面抗原（HBs）。我们还计算了AST/ALT比值（AAR）和Est。credential Clearance（ECrCl）。此外，应用腹部超声检查检测以下内容：肝脏质地（“同质”、“异常”或“硬化”）、门静脉（PV）（“通畅”或“血栓形成”）、门静脉直径、脾脏（“增大”、“平均”或”手术切除”）和腹水（存在或不存在）。第4节包括5013例患者的基线特征分析。值得注意的是，内窥镜检查入选标准所需的所有变量都是该数据集的一部分：例如，符合以下一项或多项标准的患者应被转诊内镜检查以评估EV发展：血清白蛋白3.5 mg/dl，总胆红素>1.2 mg/dl，AFP> 10 ng/dl，INR> 1.2。3.2. 数据理解、预处理和统计分析目前，临床数据的修复已成为医学领域的一项重要任务.通常，患者的数据集由与疾病相关的不同类型的变量和诊断组成。数据质量是数据挖掘过程中的一个重要因素，以及诊断疾病，因为不准确的数据可能导致不准确的预测结果。要运行此步骤，必须执行以下步骤首先，我们仔细研究了各种类型的实验室变量，并与专业医生讨论了它们的有效性。然后我们分析了每个变量诊断EV的医学相关性。这一步对于数据理解非常重要，可以识别随机值、缺失值和离群值。其次，在应用算法获得高质量的ML之前，有必要准备数据集以去除噪声和不一致的数据，以获得更准确的数据。如果数据准确、一致且无噪声，则EV的预测将变得更容易和更快。任何超过50%的值缺失的变量，任何超过30%的数据缺失的患者记录，以及超过95%的相关变量都被排除在分析之外。从数据验证中，我们试图用其他值从观察结果中猜测真实值;用缺失值替换其他噪声值，例如某些变量包含零值，即使医学经验证实此类特征不可能为零。小于5%的缺失值由其平均值替换此外，数值变量的值被重新定义为预定义的类别（有序值），以帮助降低分析数据集的复杂性。将数据集中的所有分类变量（字符串标签）转换为数值进行统计计算。此外，应用一些变量进行了归一化过程，以防止任何变量由于范围较大而比其他变量更重要，如研究中所进行的那样[36]。第三，使用IBM SPSS V23.0（“SPSS Inc.，Chicago，IL，USA”）和MedCalc 17.9（“MedCalc Software bvba，Ostend，Belgium”）。分类变量以百分比形式表示，这些变量的平均值和标准差是连续的。使用Kolmogorov-Smirnov检验对所有连续变量进行正态性检验。数据不是正态分布，因此进行了非参数检验，如Mann-Whitney检验，以比较定量变量与静脉曲张组。进行卡方检验以比较定性变量。计算所有变量的p值，以确定显著性评分。计算Spearman相关系数[37]，以将非参数变量与非参数变量的静脉曲张进行排序。评估的百分比分割和交叉验证方法我们使用了这些模型，以便在我们的数据集上对模型进行评估。在百分比分割方法中，我们的数据集被随机分为80%的患者用于训练，20%用于测试。此外，通过将数据分成十倍来应用十倍交叉验证;模型在其中九倍上进行训练，并针对第十倍进行性能验证。3.3. 特征选择特征选择也称为变量选择或子集选择[38]。特征选择的目标是在构建任何模型之前降低数据集的维数，并在应用数据挖掘技术之前选择重要变量[39]。是选择相关变量子集的重要步骤，用于构建强大的学习模型，以更快地训练，降低模型的复杂性，促进解释，提高准确性，减少过拟合，并最大限度地减少患者所需的测试（成本更低）[40]。特征选择的方法分为三类[41，42]：首先，过滤方法[43]通过使用基于数据的一般特征的统计学来评估变量。其次，包装方法[44]使用应用于数据的学习算法来评估变量的价值;这是通过使用分类器准确度来实现的。过滤器方法测量变量子集的相关性，而包装器方法是使用分类器第三，混合方法[42]试图通过在不同的搜索阶段利用其不同的评估标准来利用这两种方法。针对医学数据集的特征选择提出了多种技术。本研究使用了其中的四种，例如信息增益（IG）[45]，基于相关性的特征子集选择（CFS）[46]，皮尔逊在本文中，我们提出了增强的相关性-基于特征子集选择（CFS）[43]，在研究中表现出高性能[36]。我们提出了一种混合的方法，估计的相关性得分，而阈值计划被用来选择最佳得分的变量，我们称之为“P值相关性为基础的过滤器选择”（PC-FS）方法。我们的方法（PC-FS）将过滤器和包装器方法集成到一个混合方法中，以选择最具信息量的特征进行分类，并提高分类性能。我们提出的算法PC-FS的伪代码如图所示。二、在我们试图理解p值之前，我们必须知道零假设。零假设是两个测量变量之间没有关系的一般性陈述。P值是0和1之间的十进制数，表示给定数据在假设检验下发生的概率。p值越小S.M. Abd-Eldner等人医学信息学解锁20（2020）1004214| （）下一页|图二. 伪码的提出的算法（PC-FS）的特征选择。拒绝零假设的机会就越大。保留与目标类有一定相关性的变量。在我们的研究中，我们假设数据集包含一组变量AK={a1，a2，按照（1）计算所有变量的P值p（Ak），按照（2）计算Ak中每个变量与目标类别Cn之间的相关系数r（Ak）。因此，相关变量A r，|r（A k）|其中r A k是绝对相关系数，τ是阈值相关系数的值。最后，如（3）所示，显著变量Ai在Ar和Ap之间相交，其他变量被认为是不显著的。A p=p（A k）<0. 0001（1）Ar=|r（Ak）|>τ（2）Ai=Ar<$Ap（3）此外，我们应用了其他特征选择方法IG，CFS，Pearson相关性和卡方。我们提出的算法PC-FS的性能进行了测试，并与这些方法进行比较，以评估PC-FS与其他的有效性。3.4. 分类模式的实施对于我们的研究，常用的监督ML算法决策树（DT）[14]和朴素贝叶斯（NB）[15]被应用于创建预测EV的分类模型。此外，ADT [16]用于改善结果。这些分类器的详细描述与数学方程可以在他们的文章中找到。我们选择这些分类算法，因为它们在各种医疗诊断中取得了更好的性能，正如我们在第2节中介绍的那样。除此之外，这些常用的算法还具有如下优点S.M. Abd-Eldner等人医学信息学解锁20（2020）1004215在以下章节中。DT [14]分类器具有以下优点：易于实现，鲁棒性，解释简单，不需要以前的知识，处理数值和分类数据，噪声数据集的能力，以及为大型数据集中大量变量的分类实例提供有用的解决方案[49]。NB [50]是基于贝叶斯定理的简单概率分类器。它被广泛用于DM和ML领域的分类问题，因为它的简单性和令人印象深刻的分类和易用性;只需要对训练数据进行一次扫描。NB分类器由于其较高的分类性能已经应用于许多实际的分类问题中。Boosting [13]是ML的一种技术，它依赖于通过组合许多相对较弱的分类器来创建高度准确的预测规则的想法。boosting算法背后的方案是频繁地调用“弱”或“基”算法。在每一次中，训练数据集的不同子集被用来生成新的弱预测规则。在多个实例之后，弱不准确规则被组合以生成一个超过原始弱规则的高准确度预测规则[16，51]。交替决策树（ADT）[16]算法是DT（C5.0）算法的一种形式，具有Boosting以生成分类规则，C5.0是Ross Quinlan开发的基于决策树的方法中的一种有效算法C5.0算法是对ID3和C4.5算法的ADT由Freund，Y.和L.梅森ADT由决策节点和预测节点组成的决策节点指定谓词条件和变量的集合以及包含单个数字的预测节点。节点之间的分支传输这些变量在观测样本中可能具有的值[19]。据我们所知，以前没有任何研究使用增强技术来预测静脉曲张。因此，在这项研究中，提出了一个简单而有效的算法，这是基于提升与NB和DT（C4.5），被称为Boosted-NBT或B-NBT，并与提升C5.0（ADT）算法进行了比较。M= {（A i，C n）}|（4 ）第一章：简要介绍了混合算法（NBT）的背景，该算法以前被用作Boosting中的基本分类器。朴素贝叶斯树（NBT）算法是一种混合分类器，使用朴素贝叶斯（NB）和决策树（DT）算法。为了整合DT NB的优点，混合分类器（NBT）在所构建的决策树的每个叶节点上构建NB。&在该树中，包含分裂的节点是常规DT，但叶子被NB分类器取代。为了限制熵，测量使用标准熵最小化技术为连续属性选择的阈值。节点的效用是通过离散化数据并在节点处使用朴素贝叶斯（NB）计算五重交叉验证精度估计来计算的，其中赋予节点的权重与该节点的实例数成比例。计算所有类的后验概率，概率最高的类将是实例从图1中的算法可以看出， 3、我们实施了B-NBT图三. 提出了Boosted-NBT算法。S.M. Abd-Eldner等人医学信息学解锁20（2020）1004216∈+算法，给定{（X1C1），（X2C2），X是患者病例数，C表示每个患者的类别，表1数值变量的基线特征。静脉曲张与否，其中C= {0，1}，n表示病例数;此处，n= 5013。在我们提出的算法（NBT）的第一步中，调用一个存在EV的患者（n=（2242）无EV（n=（2771）p值在一系列时间间隔1，2，...，m中重复的基本学习算法我们称之为w（j1）。对于第一次迭代，通过NBT算法训练模型y1，其中如（b）中计算模型的平均误差函数。此外，根据结果，我们计算了模型的权重，如（c）所示权重如（d）所示更新当所需的NBT分类器已经训练好，它们如步骤促甲状腺激素（IU/L）1.82± 1.14 1.80±1.14 0.5265白细胞（X103/mm3）5.77± 4.94 6.41± 6.28 0.001血红蛋白（g/L）13.30± 2.78 13.63± 2.52 0.001白蛋白（g/dl）3.65± 0.60 3.91± 0.62 0.001年龄（岁）54（19体重指数（Kg/M2）29.28± 4.50 30.03± 4.81 0.001谷丙转氨酶（IU/L）60.2± 37.82 62.54±40.1 0.2117谷草转氨酶（IU/L）71.74± 40.28 69.5±46.23 0.0001T.胆红素（mg/dl）1.19± 0.68 0.95± 0.53 0.001甲胎蛋白（IU/L）318.58± 38.99 18.70± 41.153.5. 的诊断性能血小板（X10mm3）123.52± 68.68 147.63± 60.44 0.001基于测试数据集评估分类模型的性能。采取了各种措施准确度（ACC）是正确预测总数的比例。接收器操作-ANC 7.36± 13.38 7.14±12.59 0.004硬度（Kpa）30.79± 16.12 24.48± 13.28 0.001HCV-RNA 5.31± 0.94 5.52± 0.93 0.0001INR 1.23± 0.20 1.18± 0.34 0.0001ROC曲线[37]是一种图形化的方法，肌酐（mg/ dl）0.87± 0.32 0.87± 0.40在真阳性率和假阳性率之间进行权衡。ROC是一种概率曲线，表示PC（%）77.13± 14.78 82.66± 13.97 0.001葡萄糖（mg/Dl）104.75± 30.8 104.61±29.60 0.3632可分性受试者工作特征曲线下面积（AUROC）是诊断试验中常用的诊断指标I.胆红素（mg/dl）0.71± 0.60 0.62± 0.44AUROC越大，模型在区分预测方面越好，PVD（mm）13.66±2.1 13 ± 1.77ECrCl 119.5±33.40 126.73 ± 45.93<0.0010.397静脉曲张患者。还采用了其他评价措施。例如，阴性预测值（NPV）、阳性预测值（PPV）和特异性（Sp）用于确定EV缺失的正确分类程度。灵敏度（Se）用于定义AAR 1.34± 0.98 1.24± 0.27 0.001表2分类变量的基线特征存在EV。此外，阳性似然比（LR）和阴性似然比（LR）评估似然比（LR-）存在EV的患者（N=（2242）无EV（N=（2771）P-值4. 结果4.1. 患者表1（定量数据）和表2（定性数据）显示了我们数据集中5013例患者的特征。在两个表中，计算了每个变量的所有定量数据（年龄除外）的平均值和标准差。年龄表示为中位数和（最小值-最大值）范围，如表1所示。根据上消化道内镜检查结果，慢性C型患者分为两组：2771例（55.3%）无EV，而2242例（44.7%）有EV。根据Kolmogorov-Smirnov检验，Mann-Whitney检验腹水0.064编号2222（99.1）2759（99.6）是20（0.9）12（0.4）HBS负2222（99.6）2746（99.5）0.697阳性8（0.4）13（0.5）ANA 0.005负2043（91.1）2550（98.0）阳性70（3.1）51（2.0）性别0.001女性545（24.3）1016（36.7）男性小行星1697（75.7）小行星1755（63.3）肝纹理0.001异常685（30.5）1154（41.6）肝硬化1483（66.1）1414（51.1）正常74（3.4）203（7.3）糖尿病0.999实验数据如表2所示。Pearson相关系数和分别计算正态分布和非正态分布变量的Spearman相关系数。图4描绘了排名脾脏0.001平均595（26.5）1238（44.7）放大1592（71.0）1502（54.2）绝对相关值。手术移除55（2.4）31（1.1）在我们的实验中，我们选择应用四种特征选择算法，它们是信息增益（IG），基于相关性的特征子集选择（CFS），Pearson相关性和卡方。此外，我们提出了一种新的算法，称为PC-FS。实验使用Weka的实现这四个算法进行比较，他们与我们提出的算法。特征选择评价方法的结果如表3所示。IG通过测量相对于类别的信息增益（熵）来评估每个变量的重要性。IG采用秩和搜索法，选取血小板、白蛋白、僵硬度、T。Bil、PC、脾脏、PVD、HCV RNA、WBC、INR、肝脏纹理和性别。Pearson相关分析采用秩和法，选取PLT、白蛋白、硬度、T。胆汁、PC、脾脏、PVD、HCV RNA，门静脉0.932专利2138（95.3）2656（95.8）血栓形成6（4.7）6（0.2）INR、肝脏纹理和性别。卡方特征评估简单地测量每个变量与目标类的重要性。选择最佳方法是基于保留最多并丢弃最不重要变量的方法[48]。卡方检验选取血小板、白蛋白、僵硬度、T。胆汁、PC、脾脏、PVD、HCV RNA和肝脏纹理。CFS算法使用Greedy Stepwise搜索算法[46]，并选择了PLT、刚度、PVD、HCV RNA和性别五个变量。对于PC-FS方法，通过比较4.用于比较非正态分布的没有小行星1754（55.3）2169（78.3）如表1所示，虽然卡方检验与定性检验一起使用，是的488（44.7）602（21.7）S.M. Abd-Eldner等人医学信息学解锁20（2020）1004217ACC和AUROC，S.M. Abd-Eldner等人医学信息学解锁20（2020）1004218=表3图四、根据绝对相关系数对不同变量进行排序。验证方法被应用于验证所提出的变量集不同类型特征选择技术的AUROC值之间的比较。技术#选择的变量NBDTADTB-NBTCSF50.7080.8190.820.826IG120.740.7970.8480.857卡方90.7370.8270.8480.852PCC110.7420.8060.8480.849PC-FS100.7440.830.8480.865阈值，我们发现8个，10个和12个变量在0.160，0.110和0.110的阈值水平下是显著的，如模型M8，M10和M12所示。三种模型的准确度和AUROC如图所示。 5，这说明阈值τ 0.110具有最佳截止值。因此，基于等式（3），我们得出结论，最有效的变量集是：Ai={PLT，白蛋白，硬度，T.胆汁、PC、脾脏、PVD、HCV RNA、肝脏纹理和性别}从结果来看，所提出的算法PC-FS实现了最高的性能与各种ML算法。4.2. 模型性能本节报告了为分析我们的模型的预测性能而进行的实验结果。分裂和交叉的百分比-图五. 在不同阈值水平值下的比较效率评估。选择的算法。在百分比分割实验中，我们用训练集训练不同的分类器，并使用分类算法建立模型。我们的模型在肝脏数据集上通过这两种方法进行了评估，结果如表4所示。通常，在交叉验证测试中，当算法运行十个测试数据集而不是一个测试数据集时，结果会从百分比分裂中减少。然而，在我们的实验中，结果保持稳定，略有下降，两个验证测试之间没有显着变化。表4列出了NB、DT、ADT、B-NBT算法的质量参数，即阴性预测值（NPV）、阳性预测值（PPV）、灵敏度（Se）、特异性（Sp）、似然比（LR）、准确度（ACC）和AUROC。这些算法的输入是来自10个最重要变量的一组Ai-如等式（4）所示。通过使用两个弱分类器，NB和DT，正确分类的实例分别为70.9%和75.3%，AUROC分别为0.743和0.82。另一方面，通过使用ADT作为基于boosting的强分类器，对于30次boosting迭代，建立模型所花费的时间为0.42秒，而在测试分割上测试模型所花费的时间为0.42秒。0.03 S.然而，对于相同数量的30次提升迭代，B-NBT构建每个模型所需的时间下降到33.52 s，同样，在相同的测试分割上测试模型所需的时间下降到0.05 s。这表明B-NBT执行得更快。此外，观察到性能提高，即，准确度值增加在2.8。此外，与所有其他算法相比，实现了83.3的改进的阴性预测值B-NBT取代了所有比较算法的性能测量，即，准确性为79%，NPV为83.3%，PPV为74%，特异性为80.2%，灵敏度为77.5%，阳性LR为3.9图6描绘了决策树、朴素贝叶斯、ADT和B-NBT算法的ROC曲线图。5. 讨论医疗保健数据每天都在增加，ML允许分析大量数据。因此，在医疗实践中将ML出租应用于对患者的护理使用合适的ML预测算法，医生可能能够有效地选择采取治疗决策所需的唯一预测因子。在这篇文章中，我们提出了一个特征选择的增强S.M. Abd-Eldner等人医学信息学解锁20（2020）1004219表4使用PC-FS方法对不同分类器进行比较评估型号NB DT ADT B-NBT NB DT ADT B-NBT10折交叉验证百分比净现值（%）72.5 79 77.483.368.7 75.6 75.278.5PPV（%）67.9 68.8 74.17468.1 70.7 72.872.5标准品（%）81 78.7 80.780.279.1 76.8 79.677.3硒（%）64.5 70.5 65.777.555.3 70.1 67.472.50.44 0.37 0.430.30.57 0.389 0.410.36LR+3.4 3.31 3.43.92.65 3.02 3.33.190.744 0.83 0.8480.865行政协调会（%）70.9 75.3 76.27968 73.5 74.276.6见图6。预测EV的模型的AUROC曲线。(A)决策树的曲线图。(B)朴素贝叶斯的曲线图。(C)ADT曲线图。(D)B-NBT曲线图方法和一种新的非侵入性模型，用于早期预测EV-最复杂的肝脏相关疾病，死亡率最高。目标是帮助降低医疗、社会和经济成本。根据我们的研究，血小板计数、白蛋白、硬度、总胆红素、凝血酶原浓度、脾脏、HCV RNA、门静脉直径、超声肝脏纹理和性别是最有意义的预测因素。例如，当在[53]中对这10个显著变量应用二元逻辑回归时，获得了以下值：准确性为73.33%，NPV为79.2%，PPV为70%，特异性为69.3%，灵敏度为78%，阳性似然比为2.55，阴性似然比为0.3，AUROC为0.788因此，本研究旨在研究ML在EV预测中的应用，以期获得更准确的预测模型。在这种情况下，我们提出了一种新的方法，（B-NBT），这取决于升压技术。我们的结果显示，在预测EV方面，AUROC的结果为0.865，准确率为79%，优于其他算法，如表4和图5所示。六、据我们所知，这项研究是第一个试图提出一个非侵入性的模型，检测EV的新组合的NB和DT与升压技术。尽管近年来ML模型在其他疾病中的应用迅速增加，但到目前为止，还没有任何有前景的模型可以有效地预测肝病患者临床护理中的EV。另一方面，B-NBT的10个变量模型取得了更高的结果（准确率为78.6%，AUROC为0.865（36）。结论：性别、PC、PLT、白蛋白、T。胆红素、肝脏纹理、脾脏、LS和基线PCR是显著的预测因子，贝叶斯网络（BN）算法保持了预测EV的最佳性能。为了公平比较，结果是通过在我们相同的数据集上重新实现其方法（BN）及其九个变量获得的，其中它实现了较低的性能（准确度为68.8%，AUROC为0.748），如图所示。7.第一次会议。B-NBT模型可以预测EV的存在，这可能有助于医生确定预测变量并减少医疗费用。S.M. Abd-Eldner等人医学信息学解锁20（2020）10042110成本这十个变量随实验室数据而变化，不需要额外的生化测试，这是发展中国家的一个优势。然而，我们需要大量的潜在研究来保证进一步提高非侵入性标记物在食管静脉曲张诊断中的诊断准确性。因此，早期预测肠易激综合征患者的EV可能是一种可供选择的无创性方法。如果我们的研究结果在未来的研究中得到证实，它可能会减少肝硬化患者的UGI负担。我们的研究几乎没有限制;对于一些变量，如僵硬度，数据不足，所以我们不得不删除这些患者的记录。此外，我们不得不在我们的研究中排除一些重要的变量，因为电子病历包含缺失数据或包含超过一半的缺失数据。我们研究的另一个局限性是它不能区分静脉曲张的等级。尽管诊断准确性可接受，但肝病学家应仅使用这10个变量（PLT、白蛋白、肝硬度、T。胆红素、PC、脾脏、HCV RNA、PVD、肝脏纹理和性别），因为它们是用于预测EV的初始工具6. 结论在本文中，我们提出了一种基于NB和DT算法的增强技术，用于食管静脉曲张的早期诊断。提出了混合方法（PC-FS），用于选择最相关的变量，以建立更快，更准确的模型。结果表明，血小板、白蛋白、僵硬度、T.胆红素、PC、脾脏、HCV RNA、肝脏质地、PVD和性别是最重要的预测因子，足以预测或预测无UGI的食管静脉曲张。这10个预测因子对于早期诊断腹泻患者的EV是显著且足够的;因此，建议医生从无效的实验室检查中节省时间和金钱。我们在这里得出结论，没有一个单一的参数，可用作诊断EV的自给自足的预测。然而，有些变量更有效，例如，血小板计数提供了比刚度更好的预测结果另一方面，这项研究引入了一种新的ML类，Fification方法，即B-NBT，它将DT和朴素贝叶斯算法与boosting技术相结合。B-NBT用于生成用于静脉曲张早期诊断的数学模型，其预测与单独应用时的基础方法相比，患者是否有准确性提高的静脉曲张。当应用于我们的数据集时，它实现了79%的准确度和0.865的AUROC，这是单独应用时所有基础方法的最高测量值。此外，它的特异性和灵敏度分别达到80%和76.5%，这意味着该预测模型可以比有静脉曲张的患者更准确地识别无静脉曲张的患者。这是该研究的主要优势，因为这些患者可以免于内镜筛查，而那些预测有静脉曲张的患者将不得不接受内镜分级和随访。我们还远远没有可能用预测因子改变所有患者的UGI，因为100%的准确性还远未达到。因此，我们计划通过使用新技术（如深度学习）继续努力提高预测模型的准确性。疾病的等级和严重程度是未来工作的其他方面资金“This study didn’t receive any grant from funding agencies in thepublic, commercial, or not-for-profit数据和材料当前研究中使用和分析的数据集可根据要求从相应作者处获得。伦理声明没有额外的道德声明要做。竞合利益作者声明，他们没有已知的可能影响本文所报告工作图7.第一次会议。 B-NBT模型和贝叶斯网络预测EV的性能比较。S.M. Abd-Eldner等人医学信息学解锁20（2020）10042110致谢作者感谢附录A. 补充数据本文的补充数据可在https：//doi网站上找到。org/10.1016/j.imu.2020.100421。引用[1] Kraja Bledar，Mone Iris，Akshija Ilir，Koçollari Adea，Skerdi Prifti GB，Bledar.肝硬化患者食管静脉曲张和首次静脉曲张出血的预测因素。23.第23章. https://doi.org/10.3748/wjg.v23的网站。i26.4806。[2] 放大图片作者：Jakab SS，Garcia-Tsao G.第15章：我的天 In：Cohen SM，Davitkov P，LD，editors.肝脏疾病Cham：Springer International Publishing;2019。第195-208页。https://doi.org/10.1007/978-3-319-98506-0_15网站。[3] 德弗朗奇斯河门静脉高压症的扩展共识肝病学杂志2015;63：743https://doi.org/10.1016/j.jhep.2015.05.022网站。[4] 马赫福兹·埃拉泽克·埃马利用数据挖掘预测分析食管静脉曲张程度：在临床医学中有效吗？2013年

下载后可阅读完整内容，剩余1页未读，立即下载