医院病房分类与患者信息医学信息学排序算法及应用研究

184 浏览量更新于2024-01-09 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁26（2021）100682医院就像一台分拣机放大图片作者：AdamPantanowitz a，Benjamin Rosman b，Nigel J. 放大图片作者：David M. 鲁宾aa生物医学工程研究小组，电气和信息工程学院，威特沃特斯兰德大学，约翰内斯堡，私人袋3，2050，南非约翰内斯堡b计算机科学与应用数学学院，威特沃特斯兰德大学，约翰内斯堡，Private Bag 3，2050，约翰内斯堡，南非c南非约翰内斯堡金山大学国家卫生实验室服务处化学病理学系。A R T I C L E I N F O保留字：化学病理学分类临床化学医院信息学检验医学A B S T R A C T大医院根据许多因素将患者分为病房或诊所。患者位置的信息在许多医疗环境中是潜在有用的。通过演示和研究发生在医院的排序，我们表明，每个病房的特征签名出现在与这些病房的病人的血液检测结果。我们通过评估血清丙氨酸氨基转移酶（一种假设与心脏病有关的肝酶）的分布，进一步证明了这些信息在基础研究中的实用性。我们展示了分类器的创建，以确定哪个病房的病人在28个病房的前三个优先预测中，其准确率超过60%。这项研究扩展到预测病人的运动从入院病房通过目的地病房作为一个概念验证到病人路由。我们建议，这项研究提供了一个基础，利用元数据在一些领域，包括：基础研究，实验室医学质量保证，医院和入院管理，病人分诊。1. 介绍许多大型系统都被细分为功能区域，大型医院也不例外。医院被划分为专门的单位，即病房或诊所，病人被适当地分类到这些单位。我们认为，一个大医院的行为是一个排序算法，由于专家，系统和程序在其运作中的工作排序算法是计算机科学中常见且特征明确的方法[1，2]。排序是将元素重新排列到定义的顺序中的过程，实现这一点的算法在研究中引起了广泛关注[3]。在医院的背景下，分类操作通过分诊、入院和患者的临床/病理状态发生物理医院规划是一个活跃的研究领域[4医院的物理布置意味着存在划分的区域，患者根据临床观察和目标进行分类[12]。大医院被安排成专门的病房和诊所[13]。在对患者进行分类时，会形成一层元数据。患者记录也有额外的元数据。分类和所得到的患者元数据产生有用的医疗信息（例如，患者在心脏病病房的事实可以告诉我们他们很可能ALT（也称为丙氨酸转氨酶）水平升高虽然事后，将患者分类到特定病房的决定通常是临床直观的，但利用这些信息可能与医学相关。可以使用实验室医学来观察该元数据层（并测量它），这允许测量血液样本中的特定分析物。本文考虑了与将患者分类到病房相关的元数据，并评估了与血液分析物测量相关的统计结果。这项工作的贡献是：• 建立和展示在医院中发挥作用的“分类”，并评估这是如何反映在血液检测结果。我们假设每个病房都有自己的血液测试签名，通过它可以识别，我们将类似的病房聚集在一起;• 利用此排序显示的信息：确定疑似疾病的生物标志物;以及根据患者的相关血液检测结果预测患者病房（对患者进行分类）本文介绍了不同病房血液结果的总体差异。此后，一个广义病房“签名”，显示病房之间的显着差异。我们发现，相似的病房可以通过聚集和聚类，∗ 通讯作者。电子邮件地址：adam.pantanowitz@wits.ac.za（A. Pantanowitz）。https://doi.org/10.1016/j.imu.2021.100682接收日期：2021年6月11日;接收日期：2021年7月22日;接受日期：2021年7月27日2021年8月14日网上发售2352-9148/©2021的作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuA. Pantanowitz等人医学信息学解锁26（2021）1006822其可用于诸如地理医院规划的领域，定义专业领域。然后，我们确定病房和诊所的血液分析物谱是否显示新的疾病相关谱，特别是显示ALT与患者患有心脏病的病房之间的联系。我们使用机器学习（ML）技术从血液数据中预测患者病房，并且在这样做的过程中，我们证明了与患者在医院中的位置相关的信息中存在有用的元数据。最后，我们使用ML根据患者在入院期间的血液结果和患者后来分配到的目的地病房的结果自动对入院病房的患者进行分类。我们认为，这项研究提供了一个基础，利用元数据分析到：基础研究;实验室医学质量保证;和病人分诊。2. 方法我们假设医院就像一台机器，将病人分类到病房。我们利用血液检测结果和相关元数据（患者病房和/或人口统计数据）。我们基于病房分割数据，并观察数据中的相关变化。我们进行了一项前瞻性研究，使用用于测试ML模型的未知集合来预测患者被分配到的病房。我们扩展到研究的路线，病人从摄入病房到目的地病房。我们利用监督ML算法来预测患者进入病房。2.1. 数据我们利用约翰内斯堡总医院化学病理学实验室（jhbgenset）的血液检测数据库，其中包括2005年至2009年收集的9327660份血液检测结果。这些数据来自各种医院病房和诊所，包括各种分析物的血液测试结果。数据从南非国家卫生实验室服务（NHLS）一个名为Disalab的系统内的结构化数据库中提取为定界文本格式。这些数据是在约翰内斯堡威特沃特斯兰德大学人类研究伦理委员会（医学）的机构审查委员会批准下收集的（批准编号M180796）。数据通过单向散列进行去识别，以防止数据被个人识别[14]。为了进行分析，对数据进行格式化预处理，并导入PostgreSQL数据库。作为参考，补充资料中包括已知病房及其名称的列表以及参数的完整描述材料（附录A）。血液结果由每名患者的多个条目组成。每个条目给出给定的单个生化测量分析物（如ALT、总胆红素等）的结果。结果被分组到测试面板（或这些被统称为2.1.1. 使用数据数据按照ML中的常规做法划分为子集[15]。每个集合是血液测试结果数据的随机划分的子集。这些数据集被称为“训练数据”、“验证数据”和“测试数据”。后一个集合包含在训练期间保留的未见过的数据，因此被称为“未见过的测试数据”。此集合是指用于测试和报告性能的数据建立的模型。这种做法可以防止报告利用以前“看到”的数据的模型的结果2.2. 方法数据是根据血液测试的数量选择的。对于jhbgenset中的前20个分析物中的每一个（按降序排序），我们通过基于前39个分析物分离数据来确定聚合参数。我们确定所有病房（“所有”）的全局统计数据，并考虑和评估病房之间发生的差异在聚合/抽象级别。这在第3节中得到了证明。结果显示了普遍的模式，但由于潜在的医学因素在起作用，在每种情况下确实有所不同。在第3.2.1节中，我们建立了ALT测量与心脏病之间的联系[16，17]。我们使用以下公式计算所有病房的血液分析物水平：��[18][19][1��我们进一步计算每个病房i的平均值和标准差（分别为和），以产生。��基于某些病房表现出相似的测试结果的观察，我们使用了一种称为凝聚聚类的技术[19]。考虑病房之间的相似性凝聚聚类是一种分层聚类技术，它允许基于相似性对多维统计数据进行分组。我们只使用t-SNE作为可视化工具，主要是因为它能够保留高维结构并在较低维度中反映它。我们不会根据图得出任何结论。6，而是依赖于聚类分析（树状图和凝聚聚类）。这使我们能够在二维空间中查看相似的病房，演示如何将具有相似统计数据的病房分组在一起。这些分组可能有助于质量控制，医院设计和患者路由。鉴于基于血液分析物测量的病房之间存在汇总数值差异，我们假设可以通过考虑患者的血液结果和一些人口统计学数据来确定（具有一定程度的准确性）患者来自哪个病房或诊所。为了执行此分析，scikit-learn[15]用于实现RF [21]分类器，以根据血液结果预测特定患者的病房。所选择的算法和相关的超参数使用GridSearchCV进行优化[22]。3. 分析和结果对于全部测试，我们通过将数据分成几个部分来研究每种分析物的测量结果。结果，如可以预期的那样，示出了每个病房中的每个分析物的统计数据指示了该病房内的医疗背景3.1. 展示医院的分类性质我们假设在医院系统中有一个“分类”。我们建立并证明，在医院的分类反映在汇总的血液检测结果。我们证明，有一个高水平的变化，在各种血液分析物和病房的基础上，病人到病房的排序。作为一个例子，考虑图1所示的血清二氧化碳（SCO2）测量直方图。1.一、左图为血液肿瘤科诊所的结果直方图，右图为一般意外伤害，在某些司法管辖区也称为事故和急诊（在第3.2.3节中稍后被视为这是任意选择的，以证明病房内许多血液分析物分布存在可观察到的差异（更多生成的样本见附录A）。图2表示在各种病房中对分析物SCRT进行了更全面的证明（再次，任意选择以证明原理-更多示例见附录A）。值得注意的是，肾脏病房显示平均值和标准差测量值增加。表1显示了一些结果升高的病房，以及它们的描述，显示了直观的结果A. Pantanowitz等人医学信息学解锁26（2021）1006823图1.一、两个不同区域的血液结果直方图：血液肿瘤诊所（左）和普通伤亡（右）。图二. SCRT统计数据在不同病房中分开，按特定测试计数排序。all表示全局统计数据（在所有测试中，不区分为病房）。显示SCRT值升高的病房见表1（可能发生肾损伤或与肾损伤一致的疾病普遍存在）。表1一个指示性的选择病房显示肾脏检查结果升高病房编号病房名称576多学科ICUMBB5肾移植诊所596医学流变学/肾病学597医学肾脏学/核医学595内科胃/肝/肿瘤学296例肾脏儿科临床预期。医院通过临床专家、系统和流程的决策，表现为一个大型分类算法，并根据病理将患者分类到区域集群中。这方面的证据可以从数据中观察到，并且经常与临床直觉相匹配。这种分选的其他实例包括各种分析物。甲状腺癌患者从病房QAA 0 频繁有提出 TSH（图B.15）。内科胃/肝病/肿瘤科和普通外科病房的总胆红素升高（图B.14）。在儿科肾脏门诊，血清蛋白水平升高（图B.13）。通过该分析，可获得多种血液分析物的许多此类观察结果，附录A中提供了全面的收集。3.1.1. 概括病房对于给定的分析物，病房具有某种独特的“签名”。这通过对每个病房的血液结果的平均值进行排序（从高到低排序），并将其绘制在具有数字“病房代理”的同一组轴上来证明。这表明，当跨各个病房观察时，每种分析物具有不同的分布。图3证明了每种分析物测定的平均值。每种分析物都遵循类似的一般模式，其他人平均值偏差为6倍至1倍，标准偏差为4倍。大多数病房位于全球平均值附近（因此在图中接近0）。对相同分析物的标准偏差进行相同的分析，这在图4中可见。每种分析物的标度标准偏差图呈现出类似的模式，许多病房显示出相对于所有病房的总体标准偏差升高的标准偏差。尽管在各种分析物之间存在类似的模式，但是可以注意到，病房代理简单地对这些值进行数字排序以进行比较：底层病房通常不同，因此这些图显示趋势并建立跨各个病房的分析物集合的唯一签名。最重要的观察从图。与图3和图4不同的是，当广泛地观察医院的病房时，聚集的分析物值存在相当大的变化。出于多种原因，这是有用的元数据，并且是考虑医院中患者分布（以及因此病理学）的独特方式，其可能与医院中的物理位置无关A. Pantanowitz等人医学信息学解锁26（2021）1006824图三. 六种分析物（根据最高血液检测次数选择）的标度平均值，按给定病房的平均值排序，并根据数字排序的任意病房绘图代理.见图4。六种分析物（根据最高血液检测次数选择）的标度标准差，按给定病房的平均值排序，并根据数字排序的任意病房代理绘制。3.1.2. 聚类相似病房我们将相似的病房聚集在一起。我们将“元病房”定义为诊所中聚集的位置。这是通过对病房子集（基于最少200次测试选择）应用凝聚聚类来观察的。如表2中分析物阴离子间隙所示，对每个测试进行汇总。聚类是可视化的t-SNE，如图。六、可视化是在后续分析中验证聚类有用性的一步（第3.2.3节）。对这一点的解释是，有病房表现出类似的血液结果，和一般的区域，我们可以路由病人，以更好地处理医疗案件入院到治疗在医院。我们假设，我们能够更好地路由病人，元病房的概念（在3.2.3节中演示）。我们进一步假设，通过证明这一点，病房可以被视为类似的质量控制的角度来看。此外，我们假设这种类型的分析可以让我们寻找潜在的病理相似性。值得注意的是，一些分类为“元病房”提供了机会：当在树状图上查看时，病房之间的相似性这张图显示了给定病房之间的距离例如，在图像顶部聚集在一起的病房都是入院/伤员病房（260、163、165、576、264分别是医疗管理、创伤伤员、伤员、多学科ICU和入院A. Pantanowitz等人医学信息学解锁26（2021）1006825表2用于病房聚类的阴离子间隙的聚合信息样本沃德码是说中值标准偏差最小最大偏斜表4用于预测患者病房的分析物测试分析物5760.1−0.10 1.25 −4.38 14.45 1.82294 −0.06−0.10 0.84 −3.71 17.66 6.98376 −0.53−0.64 0.95 −5.67 8.31 2.06567 0.08 0.03374 −0.19-0.22 0. 82-1.76 5. 08 1.95165 0.26 0.11 1.02 −3.45 18.59 2.81肝功能检查（LFT）血清白蛋白（SALB）、血清碱性磷酸酶（SALP）、血清丙氨酸氨基转移酶（SALT）、血清天冬氨酸氨基转移酶（SAST）、血清直接胆红素（SDBIL）、血清总胆红素（STBIL）、血清γ-谷氨酰转移酶（SGGT）、血清375 −0.18−0.25 0.76 −2.66 3.96 0.88蛋白质（SPROT）286 −0.24−0.32 0.98 −3.28 16.63 6.94表3尿素电解质（U E）阴离子间隙（ANION）、氯化物（SCL）、血清二氧化碳（SCO2）、血清肌酐（SCRT）、血清钾（SK）、血清钠显示SALT值增加的病房。大多数病房的病人（SNA）、血清尿素（SUREA）可能已经发生肝损伤或与肝损伤一致的疾病普遍存在。病房编号病房名称394外科：头颈部综合代谢检查（CMP）血清镁（SMG）、血清磷（SPO4）、血清钙（SCA）595内科胃/肝/肿瘤学296例肾脏儿科376创伤严重损伤-ICU497医学传染病161例儿科伤员165人伤亡294儿科肿瘤科日间诊所164妇科诊所594内科肿瘤学/血液学395血管外科286儿科医疗NAA0血液肿瘤科诊所264医疗入院病房264病房596医学流变学/肾病学396外科胃576多学科ICUPRVD抗逆转录病毒诊所148放射乳腺诊所病房），因此它们之间存在可以理解的相似性，因为它们都是由具有不同病理的患者组成的病房。这些病房包括在被分类之前的患者（入院病房），或其性质上的多学科病房（多学科ICU）。类似的模式出现在其他病房的集合。通过识别这些集合，我们形成了“元沃德”。这不是主要的焦点这项工作的目的是为了表明有可能根据人口统计学和血液测试数据进行这种分类。然而，该构建体的形成在确定相似病理学区域的背景下是有用的，并且因此将相似患者聚集在一起。3.2. 利用排序3.2.1. 可能的疾病生物标志物的鉴定：ALT和心脏病数据使我们能够确认疑似疾病生物标志物的假设。例如，文献中的数据表明，ALT水平在患有心脏病的受试者中升高，然而，这是不确定的[16，17]。我们检查了整个病房的ALT水平，特别注意那些处理心脏病病例的患者。图7清楚地表明，这些病房确实显示出高水平的血清ALT，他们的病人表3列出了血清ALT测量值升高的病房。大多数病房包括可能发生肝损伤或与肝损伤一致的疾病流行的患者。3.2.2. 根据血液结果预测患者病房（对患者进行分类）设置分类器以评估是否可以使用血液测试结果和患者人口统计数据（年龄、种族和性别）来预测给定患者的病房。这对潜在的自动化分诊和医院管理有影响。该研究是在回顾性地，但看不见的数据被用来测试创建的模型。表4列出了用于预测研究的分析物，选择这些分析物是因为这些是具有大量数据的常用检测这项工作的核心思想不仅仅是自动分类或患者路由。相反，我们的假设是，如果我们能够证明患者确实可以根据血液样本结果进行路由，那么必然的结果是，该元数据可以用于评估实验室质量控制。对于该实验，选择具有至少900个尿素电解质（UE）和LFT血液结果的病房集合。选择的分析物如表4所示。900个随机选择结果的子集没有替代品。这可确保不存在由于检测选择频率（血液检测次数）而导致的固有偏倚。这项工作构成了将患者从这些入院病房安排到目的地病房的基础，见第3.2.3节。因此，我们有理由放弃包括医疗入院（病房260）和摄入量（病房264）的摄入病房。28个病房的测试结果集分为训练（72%），验证（8.0%）和测试数据。 RF [21]的超参数最大深度为40，自动最大特征数和1400个估计量在F分数上表现最好。我们确实将RF的性能与高斯朴素贝叶斯（GNB）[23]和支持向量机（SVM）[24]进行了对比。优化的RF（准确度0.41; F分数0.39）是最好的，并且被选择作为用于分类器模型的算法。优化的SVM表现略差（准确度0.37; F-评分0.35），优化的GNB表现最差（准确度0.11; F-评分0.090）。多个分类器没有被彻底评估。相反，这项研究证明了这个概念。在没有临床诊断作为输入特征的情况下，用看不见的测试数据预测病房分类的混淆矩阵如图所示。8 .第八条。对于一个理想的分类器，对角线将是完美相关的。在这种情况下，我们看到沿对角线的强相关性，其中许多病房被正确分类的比例大于0.5%或50%。将CMP结果（根据表4）添加到数据中创建了一个具有12个唯一病房的集合（当每个病房保持900个结果的相同最小计数阈值时）。分类准确度增加到0.556，F-分数增加到0.54。考虑到问题的多类性质分类器中每个特征的相对重要性如图所示。9 .第九条。每个分析物在其与分类器的性能的一致性方面是大致同等重要的。种族和性别的特征几乎没有增加预测价值，并从研究中删除。然而，年龄始终是一个占主导地位的重要特征。直觉上，这是一个关键的区别，当谈到分类儿科病房。年龄比任何给定的血液分析物测量值重要约25%。累积起来，A. Pantanowitz等人医学信息学解锁26（2021）1006826图五、评估各种分析物之间的聚合统计数据之间的距离允许出现 “ 元 ” 。图六、聚类展示了“ 元病房 ”-具有相似血液结果和病理学的病房集合或区域。然而，总体而言，血液分析物比年龄重要得多。作为比较值，当仅使用年龄来预测28个病房的病房时，获得了0.150的准确度和0.143的F分数这仍然比随机猜测（将产生0.035的准确度）有很大的改进。幸运的是，年龄在实验室医学数据中很容易获得。A. Pantanowitz等人医学信息学解锁26（2021）1006827见图7。不同病房的血清ALT统计数据按检测次数排序。标签all指示全局统计信息（跨所有测试，不区分为病房）。图8.第八条。预测混淆矩阵的实际与预计28个病房。图图10呈现了基于未见过的患者数据的病房分类的累积预测顺序（前k预测）。top-k预测是k个最可能的标签，其中k远小于总标签的数量（研究中的总病房）[25]。这意味着它大大优于随机分配，并且通常可以在最初的几个预测中确定患者的病房。在前两个预测中，我们可以得到准确率超过60%，前五个预测的准确率超过80%。对于前一项研究（无CMP），我们在预测8/28时越过80%阈值，对于后一项研究（有CMP），我们在预测3/12时越过80%阈值以获得正确预测。图11呈现了当添加CMP时用于预测的混淆矩阵。性能确实提高了，尽管性能的增量优势似乎被可用数据的减少所抵消，但这是一种折衷A. Pantanowitz等人医学信息学解锁26（2021）1006828见图9。 RF分类器的相对特征重要性。图10个。基于未知患者数据的病房分类的累积预测顺序。特征（不同分析物）和血液结果（数据点）之间的差异。图12确实证明了在早期预测中正确预测病房的能力增加，但这可能是由于要预测的病房较少。尽管如此，我们观察到相当好的预测精度，如图所示，在累积分布图上的预测顺序（前k精度）的一半时，正确预测接近98%。12个。我们能够根据血液测试和年龄数据预测患者被分配到哪个病房。我们假设，这将是有用的预测患者样本交换的质量控制，并在模型中利用这些数据，以提高质量控制。我们在第3.2.3节中进一步探讨了这一想法，其中将建模应用于患者的真实世界分类。如果患者的血液结果被交换，我们假设这可能是可检测的。此外，我们假设患者可以以高精度自动分类到某些区域（元病房）。3.2.3. 将患者从入院病房我们扩展了第3.2.2节中的病房预测研究，以关注我们知道其目的病房的入院病房中的患者。这种扩展是现实世界的改进模型。这需要在入院病房取得血液结果，以及随后从给定的目的地病房取得结果。在本研究中，我们使用了包括UE、LFT和CMP（根据表4）以及患者年龄的血液分析物数据。病房数仅限于每个最少有700个完整结果的病房，导致16个唯一的病房用于训练数据。训练数据以500个唯一样本进行采样，以防止由于病房出现频率不成比例而导致的偏差。表5标记为患者路径研究的入院病房的病房病房代码描述161一般伤亡160个急诊室162产妇入院163创伤伤亡165人伤亡260医疗特派团（摊款）264病房CAS伤亡部CAS1血液室伤亡CRVD接收病房（264号医疗区在有可用血液结果数据的情况下选择测试数据为入院病房和目的地病房的病人提供服务。这样做的目的是最大限度地利用不可见的测试数据。如果数据仅适用于目标病房，则此数据仅用于培训目的。因此，该模型仅使用来自目的地病房的血液测试数据进行训练和验证，并且没有在测试中使用的可见数据。病房分为入院病房（见表5）和目的地病房。训练RF分类器以预测每个患者将被路由到的病房。分类器，一旦训练好，运行在病房病人，然后与看不见的测试数据进行比较。来自入院病房的预测用于与测试数据的病房（患者最终被放置的病房）进行比较。图图13展示了病房预测运行的结果，该运行使用来自入院病房的未见过的测试数据来预测患者的的A. Pantanowitz等人医学信息学解锁26（2021）1006829图十一岁用于对包括LFT、&UE和CMP的集合的不可见数据进行病房预测的混淆矩阵，产生12个病房，每个病房具有900个采样结果的子集。图12个。包括LFT、&UE和CMP的集合的累积分布图，得到12个病房，每个病房具有900个采样结果的子集。由于本研究的限制，分类器从较少的数据中学习，因此分类的执行不如第3.2.2节中的分类器。然而，该原理被证明是有效的，并且在对角线上有一个趋势与正确的预测相关（理想的）。值得注意的是，儿科病房的表现最好，因为年龄是这些模式中的一个很好的区分因素。图14显示正确预测的顺序。大约50%的预测在前两个预测中是正确的，大约85%的预测在前两个预测中是正确的。第八个预测（一半）。作为考虑的基准，如果这是完全随机的，则第8次预测将约为50%。在此之后，测试了一种方法来预测患者被分配到哪个对八个和五个聚类执行聚类。五个聚类最初由树状图表示（如图所示）。15），选择，以便不有太少的集群，并为每个集群组成一个以上的病房。这与八个集群一起呈现，这是我们收集的病房总数的一半。每个病房都根据表2中的聚合功能进行聚合。凝聚聚类A. Pantanowitz等人医学信息学解锁26（2021）10068210图13岁预测混淆矩阵的实际与用于将患者从接收病房路由到目的地病房的预测病房图十四岁包括LFT、&UE和CMP的集合的累积分布图，得到16个病房，每个病房具有700个采样结果的子集。采用了预测的结果在图1和图2中示出。 16和十七岁很明显，五个和八个集群有很大的好处，对于任一集群选择的累积预测结果（前k精度）中的第二个预测，性能接近80%。很明显，正确预测“元”的能力ward’’ a patient belongs is a great improvement over病房这些想法可以在医院的设计和规划中得到利用，并可能用于自动分类，帮助更快地将患者转移到正确的医院部门。集群的选择将转化为医院中的物理区域，并且选择更少的集群是一种权衡。这项工作提出的原则，但是，并没有特别规定的集群的数量。在大型医院的情况下，使用元病房概念可以更准确地预测给定患者属于哪个集群，而不是颗粒病房。我们假设这是在实验室医学质量控制的使用A. Pantanowitz等人医学信息学解锁26（2021）10068211图15. 树状图显示了五个不同的聚类。图十六岁5个聚类（左）和 8 个聚类（右）的 RF预测患者在“元区”中的放置的累积预测结果。图十七岁预测混淆矩阵的实际与5个集群（左）和8个集群（右）的患者放置在“元病房”中的预测病房A. Pantanowitz等人医学信息学解锁26（2021）100682124. 讨论本研究假设了与患者相关的元数据的重要性，这些元数据来自医院内患者的物理分类。这在查看分布时是显而易见的不同病房病人的血液检测结果通过分离病房和聚合值查看的图的使用允许我们建立病房签名。然后，我们通过聚类来利用病房之间的相似性。我们已经建立了一个预测患者如何分类的基础，并通过基于从其初始入院病房获得的数据准确预测患者在目的地病房的安置来证明这一点。我们通过“元病房”的概念，通过聚类相似的病房，大大提高了模型的预测性能，从而提高了性能4.1. 该研究这项研究有一些局限性。首先，它检查了一家大型医院几年内的数据。因此，确定不同规模的医院中存在类似的联系另一个重要的局限性是实验室医学结果存在固有误差[26，27]。我们不纠正或解决这些错误，也不删除离群值（事实上，我们认为离群值在本研究中对于按病房分离的数据很重要）。我们希望，鉴于我们有汇总结果，这些结果是平均的在所考虑的时间内。然而，这可能影响了我们对个体患者路由研究所考虑的数据是一个相对较大的数字（9327660个单独的测试结果）。然而，当这被分割成一个给定的病房，并且当将多个血液分析物的结果合并为单个结果时，数量确实显著减少（大约三个数量级）。当考虑到有来自接收病房和确定病房的结果的患者时，这进一步降低。虽然我们能够实现本研究的目标，但建议为这种性质的研究提供更多数据本研究为回顾性研究，使用了历史数据。虽然在建立这些技术时使用回顾性数据是必不可少的，但它不会在本研究中产生固有的限制。在测试我们的模型时，我们确实使用了看不见的数据，从而为它们建立了有效性，但是，进行前瞻性研究将是有用的。这将在第4.2节中进一步讨论。4.2. 未来工作在一项前瞻性研究中，患者可以在摄入时实时路由，并将结果与预测进行比较。此外，前瞻性研究和实时系统可以利用在线学习技术来学习研究的进展[28]。这项研究证明了使用数据建立疑似疾病生物标志物的能力，其中一个例子是ALT和心脏病之间的推测性联系[16，17]。我们假设，以类似的方式分析数据将能够识别新的疾病生物标志物。考虑到病房之间存在集群链接，这可能是一个研究“元病房”的机会。建立新的疾病联系。这超出了这项工作的范围对未来工作的建议是从患者入院病房跟踪患者水平，然后确定排序算法如何随着时间的推移而工作。我们已经模拟了这一点，但还没有证明在分诊的操作使用。此外，在我们的结果中，我们已经创建了一个原型，另一个ML算法可能会优于我们的结果，这应该被注意到，也许会进一步研究。这一分析也对质量控制产生了影响：如果我们能够预测一个病人可能被安排在哪个病房，那么这个病人的位置就有足够的信息，可以对实验室医学的质量控制产生影响。为有形例如参照图7、如果一个病人在肝损伤患者所在的病房中，与非肝损伤病房的结果相比，患者血液中肝酶结果升高的可能性更大。通过利用这一事实，我们可能会在实验室医学的质量控制方面获得更好的结果。通过利用血液测试中的先验内在信息，我们可以更好地解决系统性错误。5. 结论我们已经量化并展示了将患者划分为病房，并且已经展示了如何利用与此相关的信息使我们能够通过评估元数据来评估和建立疾病生物标志物。我们证明，通过观察ALT升高与心脏病之间的关联，此外，可以查看不同病房之间的相似性，这在医院规划和患者分流中可能有用。这提供了形成“元病房”的机会，并找到这些病房内患者资料之间的新联系。可以使用血液测试数据来确定患者被分配到哪个病房。我们将其扩展到预测患者从入院病房到他们最终被分配到的病房的路由。这为将来实现自动化布线提供了可能性。通过聚集到元病房通过聚类的病房签名，我们证明了一个改进的能力，以执行病人的路线预测。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认作者希望感谢已故Janice Paiker教授作者感谢南非国家卫生实验室服务（NHLS）提供本研究中使用的数据作者希望感谢Amazon Web Services（AWS）在本研究中用于计算的促销积分。感谢电气信息工程学院资助与此项目有关的特此感谢国家研究基金会（NRF）对本研究的财政援助（赠款编号：71438）。表达的意见和得出的结论是作者的意见和结论，不一定归因于NRF。附录A. 补充数据与本文相关的补充材料可以在网上找到在https://doi.org/10.1016/j.imu.2021.100682。引用[1]加格 · 米什拉最佳排序算法的选择。IntJ Intell In-form Process 2008;2（2）：363-8，[Online].可查阅https://www.academia.edu/download/28569137/Selection_of_best_sorting_algorithm.pdf。[2] [10] 杨晓，王晓刚 .了解算法。在： DigitalSTS. Princeton University Press;2019 ， p. 412-22. http://dx.doi.org/10.1515/9780691190600-028 ， [ 在线 ].Available.[3]Al-Kharabsheh KS，AlTurani IM，AlTurani AMI，Zanoon NI.排序算法的比较研究综述。IntJ Comput Sci Secur（IJCSS）2013;7（3）：120 -6，[Online].可查阅http://dx.doi.org/10.1.1.736.3357。[4]杨文龙，李晓梅，李晓梅.仿真在医院布局规划中的应用。在：冬季模拟会议的会议记录。2012年，第1-2页。http://dx.doi.org/10.1080/07408179208964211，[Online]. Available.A. Pantanowitz等人医学信息学解锁26（2021）10068213[5]Arnolds IV，Gartner D.通过临床路径挖掘改进医院布局规划。Ann Oper Res2018;263（1-2）：453-77。 http://dx.doi.org/10的网站。1007/s10479-017-2485-4，[在线]。Available.[6]Butler TW，Karwan KR，Sweigart JR，Reeves GR。基于模型的医院布局综合方法。 IIE Trans 1992;24 （ 2 ）： 144-52. http://dx.doi.org/10 的网站。1080/07408179208964211，[在线]. Available.[7]放大图片作者：Ancarani A，Di Mauro C，Giammanco M.管理和组织因素对医院病房效率的影响 European J Oper Res 2009;194 （ 1 ）： 280-93.http://dx.doi.org/10.1016/j.apnu.2017.09.003，[Online]. Available.[8][10]李晓，李晓. COVID-19对地区综合医院创伤负担、手术室效率和培训机会的影响：为未来疫情做好规划骨关节开放2020;1（8）：494网址：//dx.doi.org/10.1302/2633-1462.18.BJO-2020-0074.R1 网站，[ 联机 ] 。Available.[9]Klein MG，Cheng CJ，Lii E，Mao K，Mesbahi H，Zhu T，Muckstadt JA，Hupert N. COVID-19医院激增能力规划模型：系统性综述。灾害医学和公共卫生准备 2020;1-17 。 http://dx.doi.org/10.1017/dmp.2020.332 ， [ 在线 ].Available.[10] Gagliardi AR，Martinez JPD，Baker GR，Moody L，Scane K，Urquhart R，Wod-chis WP.医院患者参与规划和改善卫生服务的能力：横断面调查。BMC HealthServ Res 2021;21 （ 1 ）： 1-11. http://dx.doi.org/10.1186/s12913-021-06174-0，[Online]. Available.[11] Vahdat V，Namin A，Azghandi R，GriffinJ.通过使用数据驱动的模拟和优化的高效门诊布局设计来提高患者护理的及时性。健康系统2019;8（3）：162-83。http://dx.doi.org/10.1080/20476965.2018.1561160，[在线]. Available.[12] Brunero S，Buus N，West S.综合医院病房内外科护士对精神疾病患者的分类：一项焦点小组研究。Arch Psych Nurs 2017;31 （ 6 ）： 614-23.http://dx.doi.org/10.1016/j.apnu.2017.09.003，[Online]. Available.[13] 潘M，蒙克斯T，Kazmierska A，Alkoheji M. 向通用模式- 医院病房的设计：简单模型的再利用和再开发。JSimul 2020;14 （ 2 ）： 107-18 。http://dx.doi.org/10.1080/17477778.2019.1664264，[Online]. Available.[14] PieprzykJ，Sadeghiyan B.哈希算法的设计Springer; 1993.[15] Pedregosa F，Varoquaux G，Gramfort A，Michel V，Thirion B，Grisel O，Blondel M，Prettenhofer P，Weiss R，Dubelovic V，VanderplasJ，PassosA ， Cournapeau D ， Brucher M ， Perrot M ， Duchesnay E. Scikit-learn ：Python中的机器学习JMach Learn Res 2011;12：2825-30.[16] Belentani S，Bedogni

下载后可阅读完整内容，剩余1页未读，立即下载