联邦学习模型预测患者住院时间的研究

101 浏览量更新于2024-01-16 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报住院患者住院时间预测：一种联邦学习方法马里兰州Mahbubur Rahmana，Dipanjali Kundua，Sayma Alam Suhaa，Mr. Wu，Umme Raihan Siddiqib，Samrat Kumar Deyca孟加拉国达卡军事科学技术学院b孟加拉国Shaheed Suhrawardy医学院生理学系c孟加拉国Gazipur孟加拉国开放大学科学技术学院阿提奇莱因福奥文章历史记录：收到2022年2022年5月29日修订2022年7月12日接受2022年7月23日在线提供关键词：住院时间联合学习数据隐私A B S T R A C T预测患者的住院时间（LOS）是医院保持资源效率和治疗质量的关键决定因素，其中基于机器学习的预测方法可以非常有益。尽管医疗保健行业越来越多地采用信息技术，将其转变为一个庞大的数据中心，但由于保密性问题，大部分数据都保存在医疗机构内，尚未与其他人共享;这使得难以构建需要大量训练数据的高效预测分析。因此，本研究提出了一种基于联合机器学习的模型，用于预测患者在在这里，十家医院客户然后，将局部训练模型的参数（截距和系数）分多轮发送到中心服务器，在中心服务器中进行聚合，构建用于LOS预测的组合模型。通过各种参数度量，比较了本地训练模型和聚合不同数量客户端的服务器端模型的回归分析性能。研究结果表明，使用联邦学习的聚合模型©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍患者的住院时间（LOS）通常是指患者被限制在医疗机构的时间段，其可以根据各种因素从一个患者到另一个患者而变化（Murai等人，2021年）。在医院中，资源优化和患者流管理如今是非常多样化和复杂的问题，其中预测患者*通讯作者。电子邮件地址：suha. gmail.com（S.A. 苏哈）。沙特国王大学负责同行审查制作和主办：Elsevier医疗保健资源（Ellahham和Ellahham，2019）。控制病人住院时间被认为是这是在危机时期合理管理医院资源的最成功的策略之一，也是提高医疗服务质量的重要措施（Wang等人，2020年）。世界各地的许多医院都面临严重的资源短缺。在这种情况下，预测患者在医院的停留时间可以使医院管理系统更有效，增加医院利润，并使医生和其他医疗保健提供者能够应对患者流量。&患者还可以根据其预测的LOS预测医院费用，因此，这种预测可以使所有相关利益相关者受益（Srikanth和Arivazhagan，2017）。在最不发达国家和发展中国家，预测服务水平更为重要，因为这些国家的医疗资源稀缺，管理系统主要是手工操作。然而，由于数据的数量、异质性和复杂性等因素，健康相关数据不断变化https://doi.org/10.1016/j.jksuci.2022.07.0061319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7875等等，并且因此处理这样的高维数据以建立预测模型变得具有挑战性。在这种情况下，机器学习（ML）与应用于健康数据的大数据分析相结合，有助于识别模式和关联，以及提供信息的观察，以改善卫生部门的决策（Rahman等人，2021; Mehta等人， 2019年）。为了为医疗保健系统构建一个有效的机器学习模型，实时数据的需求是巨大的。近年来，物联网（IoT）的使用已将医疗保健部门转变为一个庞大的数据中心。利用医疗数据进行分析已成为许多研究者关注的但是，这些类型的数据在本质上是非常敏感的，并且由于隐私问题，它们中的大多数驻留在特定的医疗部门中而不与他人共享（Rahman等人，2021年）。同样，在医疗保健行业中，数据量和多样性不是唯一的主要问题;而且维护医疗记录的安全性和隐私性也是非常重要的问题;然而，迄今为止的研究对开发基于预测机器学习的模型的安全问题关注最少（Kruse等人， 2016年）。基于ML的解决方案需要一个学习模型来识别数据中的模式结果模型的准确性在很大程度上依赖于这个训练阶段。为了确保ML模型的准确性，它必须在具有多样化样本范围的大型数据集上执行。获取这样的数据集通常是一个昂贵且耗时的过程。这涉及多方收集数据，将其传输到中央存储库，并将其融合以构建模型。因此，数据所有者可能不了解这些程序以及ML模型的潜在未来应用。因此，特别是在医疗保健领域，传统的ML模型可能会损害隐私和数据保护权（Chilimbi et al.， 2014年）。为了克服这个问题，多种技术正在被纳入ML或深度学习（DL）模型中以保护隐私。例如，具有加密数据的基于云的深度计算模型（Zhang等人， 2015）、隐私保护协作深度学习模型（Lyu etal.， 2017）和差分隐私保护卷积深度信念网络（Phan et al.，2017）已经在文献中提出。最近，已经引入了基于区块链的ML模型来实现数据安全（Chen等人， 2018年）。然而，将隐私保护技术与传统的ML模型相结合，需要额外的处理层。用传统机器验证联邦学习学习在这种背景下可能是一种奇妙的解决方案，这是当今研究的一个趋势主题（Khan等人， 2021年）。联合学习是一种基于云的方法，使用分散在多个端点上的数据集构建机器学习模型，避免多个数据所有者在不向其他人公开其数据的情况下协作训练模型的安全漏洞（Yang et al.， 2019年）。这种学习过程不同于典型的集中式或分布式现场机器学习过程。在集中式ML中，控制由单个实体执行，其中数据被传输到云或中央服务器以创建机器学习模型，然后客户端可以通过API向可访问的服务之一提交请求来使用该模型在分布式现场学习的情况下，每个客户端使用其自己的数据在其自身内本地进行机器学习，并且在与云进行初始交互以将模型分发到设备之后，不再需要与服务器或云进行交互（AbdulRahman等人，2020年）。另一方面，联合学习方法结合了集中式和分布式现场学习过程的优点，因为这里每个分布式客户端使用自己的数据在本地创建模型，然后将其本地训练的因此，本研究的目的是构建一个联邦-基于学习的模型，用于预测住院患者的住院天数。为了实现这一目标，已经在该研究中被用于开发联合学习模型，该模型是用于在可靠的堆栈之上进行实验的开放源代码的更高级别的抽象，具有跨异构操作系统和网络资源进行训练的优点（Beutel等人，2021; Rahman等人，2021年）。在这项研究中，不是从许多来源获取数据来训练模型，而是使用自己的本地数据来训练本地模型。每个客户端从中央服务器接收模型，在训练完成后更新并发送回中央服务器。因此，它通过网络发送参数或结果，同时在源处保持本地数据的安全。来自几家拥有异构操作系统的分散式医院的管理数据被认为是这里的客户端，在自己的端点本地训练机器学习回归模型。然后，将来自各种本地训练模型的参数聚集在中央服务器上，以创建用于保持安全考虑的LOS预测的鲁棒组合模型。此外，已使用具有若干性能指标的测试数据集评估了服务器中的聚集回归模型基于上述讨论，本研究的主要目标如下所示建立一个基于联邦学习的住院病人住院天数预测模型结合本地训练的各种分散和异质医院客户的模型的结果，预测患者的日间保护用于预测住院患者住院时间的敏感数据的隐私剩下的论文组织如下：第2节探讨研究的背景下，第3节探讨相关的作品;第4节讨论在这项研究中使用的方法;第5节讨论的结果分析和发现;和第6节的讨论和结论，强调了重要的发现，挑战和未来的研究。2. 研究背景2.1. 本研究这项研究于2021年10月21日开始，关键词为“智能医疗”，“医院资源管理”和“联合学习”。在这里，在最初阶段，我们省略了日期的限制。最初，我们研究了最新的6篇相关文章，其中联邦学习被用于智能医疗保健，但也有其他背景，如从胸部X射线图像检测COVID-19或从图像检测乳腺癌。此外，我们还回顾了10篇使用机器学习预测住院患者住院时间的文章。此外，5项研究显示了分析美联储式学习与电子医疗记录整合效益的系统性综述。但在这种情况下，联邦学习的使用对于保护数据的隐私性和维护跨节点的数据可用性是不够的，这表明了本研究的必要性。2.2. 本研究在这项研究中，提出了一个基于联邦学习（FL）的模型，本研究中使用的十家医院客户的本地训练数据是从hos的开源数据集中提取的●●●马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7876来自纽约州卫生部的医院管理信息，包括患者记录、住院时间以及其他相关属性。分散的本地设备中的每一个采用它们自己的训练数据来训练，并且在机器学习完成之后，来自客户端中的每一个的经训练的参数被发送到服务器。然后，集中式服务器汇总来自多个医院客户端的学习参数，而无需访问他们的数据，从而形成统一且强大的机器学习模型，用于预测患者的LOS。在这里，针对每个去中心化客户端训练和测试了三种类型的机器学习回归模型，然后通过各种参数度量比较了使用这些模型的本地训练模型的性能。此外，在中央服务器聚合不同数量的训练的客户端参数的性能进行了评估和比较。本研究中基于FL的集成模型提高了回归模型的预测性能，并保护了用于测量分析的数据的隐私2.3. 所有现有证据的含义我们的研究结果表明，在联邦学习之后，组合模型的回归分析性能比客户端的本地训练模型更不容易出错，并且ML模型的性能随着大量客户端的训练参数在服务器端聚合而提高。因此，该技术可以成为预测患者LOS的先驱因为，使用这种方法，大量的医院记录可能会合并到一个由国家医疗监管机构监督的中央系统，同时维护患者隐私，然后医疗从业人员可以使用经过严格训练的模型改善预测。3. 相关作品在世界各地的文献中，研究人员正在应用几种计算技术来预测患者住院的持续时间。在这种情况下，机器学习方法是广泛使用的技术之一，它通常分析来自卫生部门不同来源提供的大量不同数据的历史和当前信息，以预测未来（Kumar和Singh，2018）。在集中式学习环境中执行传统分类（在不同类别中预测）或回归（在天数中预测）机器学习算法，几项研究预测了医院患者的LOS。例如，Colella等人（2021）将LOS分为两类，然后应用机器学习分类器及其性能指标评估，使用下肢骨折住院患者的临床数据估计LOS的价值。Alsinglawi等人（2020）开发了一种预测研究结构，该结构使用机器学习回归模型来预测重症监护病房心血管住院的LOS;然后通过R平方和平均误差（MAE）比较模型性能，以探索性能最佳的预测模型。Mekhaldi等人（2020）实施了一个用于LOS预测的ML过程，从数据预处理开始，使用两个机器学习回归模型进行模型验证，并使用MAE，R2和AdjustedR2评估技术比较结果。Kirchebner等人（2020）进行了一项探索性研究，以预测住院精神分裂症患者的LOS，其中通过前向选择过程预先选择最具影响力的因素，然后使用不同的机器学习分类算法来预测两类服务水平：长期停留和短期停留。Daghistani等人（2019）提出了一种基于电子病历的方法，根据持续时间将心脏病患者的LOS预测为三类，其中使用Weka软件进行特征选择，然后输入四种不同的分类技术以获得预测。使用来自医院的管理数据，Turgeman等人（2017）使用Cubist树模型预测住院充血性心力衰竭（CHF）患者入院时的LOS。表1总结了一些使用机器学习技术预测LOS的重要相关研究。然而，在早期的研究中，研究人员到目前为止已经预测了特定成人医学专业（例如心脏病学，糖尿病等）的LOS。在集中式设备中，对维护数据安全性的关注最少。但是，在医疗保健设施中违反数据安全性可能具有各种潜在的不同影响，因此通过保护来保持数据完整性已成为医疗保健行业中的主要和关键问题（Pandey例如，2020; Rahman等人，2021年）。在这种情况下，应用联合机器学习技术可以在维护分散式医院设备的数据隐私以及通过基于云的实现增强机器学习方法的计算能力方面发挥重要作用（Zhang等人，2021; Rahman等人，2020年）。服务器端的本地训练和然后的聚合使信息免受许多攻击，并且可以通过两阶段验证容易地获得针对一些漏洞的进一步保护，其中模型初始参数传递策略还涉及一些验证过程（Choudhury等人，2019年）。同样，在现实世界中，来自多个位置的数据并不总是以FL模型优于标准的基于机器学习的模型的相同格式（Vaid等人，2020年）。最近，一些研究人员正在探索联邦学习技术来解决各种医疗保健相关问题。例如，Dang等人（2020）提出了一种基于FL的模型，该模型具有两种预测住院死亡率的平均机制（FedAvg和FedProx）。同样，Kerkouche et al.（2021）提出，通过利用基于FL的方法，可以在预测结果中牺牲相对可忽略的准确性的情况下实现实质性的用户隐私。Beutel et al.（2021）提出了一个实现联邦学习的框架，利用GoogleBeutel等人（2021）在另一项可比研究中提供了Flower模型架构，该架构具有将此框架应用于具有大量客户和不同设备的部门的优势。研究人员分析和审查了使用联邦学习处理EHR的医疗保健系统的优势，例如Antunes等人（2022）， Rieke 等人（2020 ）， Islam等人（ 2022）， Yu等人（ 2022 ）， Nguyen 等人（ 2022 ），（ 2022 ）和 Sharma 等人（2022）。表2总结了一些相关的工作，其中联邦学习已被纳入医疗保健相关的研究。然而，很少有研究者关注于利用联邦学习技术从分散的各医院数据中预测患者在4. 方法在本节中，已经描述了客户端本地训练技术和服务器端模型聚合方法，其利用所提出的联邦学习方法，旨在预测医院患者的LOS，保持个人数据客户端数据机密性，如图所示。1.一、在这里，用于预测LOS的机器学习模型使用它们的马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7877表1使用机器学习技术预测医院患者的LOS的相关工作总结参考预测类型数据源大小（记录数）预测患者组使用的ML模型Colella等人（2021年）阿尔辛拉维分类回归‘‘San Giovanni di Dio e Ruggi UniversityHospital”; Orthopedic and由MIT实验室12361,532下肢骨折心血管病人决策树;随机森林; SVM;梯度提升树;随机森林回归;梯度提升等人（2020年）计算生理学在重症监护单元回归量;堆叠回归量;深层神经元网络Mekhaldi等人（2020年）基尔舍布纳回归分类Microsoft数据集用于预测LOS瑞士法医机构数据100000143一般患者精神分裂症罪犯随机森林回归;梯度提升回归;提升树; K近邻;支持向量机等人（2020年）达吉斯塔尼分类沙特利雅得阿卜杜勒阿齐兹国王心脏病中心16,917心脏病患者随机森林分类器;人工神经网络;分类器等人（2019年）图尔格曼回归阿拉伯退伍军人健康管理局（VHA）数据，20,321充血性心力衰竭网络; SVM;贝叶斯网络分类器立体树模型等人（2017年）Tanuja等人分类宾夕法尼亚州匹兹堡超级专科医院（位置-说明401(CHF)患者一般患者多层反向传播;朴素贝叶斯;K-NN;（2021年）（具体规定）决策树分类器（Weka ML环境）表2FL在医疗保健研究中的相关工作总结。引用数据源记录大小预测患者使用的方法预测区域Dang等人（2020年）eICU协作研究数据库200,859ICU患者FedAvg和FedProx算法（基于FL）预测患者Vaid等人（2020年）Choudhury纽约市医院有限的市场扫描4029921、167和21，COVID-19患者非甾体类抗-Lasso MLP回归器（基于FL）感知器SVMCOVID-19患者死亡率预测死亡率预测等人（2019年）凯尔库什Explorys声明- EMR数据Premier医疗保健数据库139（重症监护病房）1,271,733炎性药物与ICU患者住院患者逻辑回归（基于FL）神经网络（FL-确保电子医疗保健数据预测患者等人根据）（2021年）Flores等人布里格姆将军（胸部16,148COVID-19患者深度神经网络从胸部（2021年）Kumar等人X射线图像）CT扫描图像来自34,006COVID-19患者AI（基于FL）胶囊网络x射线图像从CT检测COVID-19-（2021年）Zhang等人不同医院临床图像来自746 CT图像COVID-19患者基于动态融合图像检测COVID-19从（2021年）不同医院2960 X射线FL临床图像希门尼斯Hologic，GE（私人数据）未指定乳腺癌患者或CNN乳腺癌检测桑切斯等人（2021年）和Siemens（公开提供）肿瘤在每个客户端的本地过程中使用自己的医院训练数据集，其中不包括其他医院每个客户另一方面，服务器端将来自多个客户端的本地训练的模型进行组合，而无需访问来自本地或客户端的实际数据该模型是一个回归问题，它将医院管理数据作为来自10个分散客户端的输入，并预测患者在医院停留的天数作为输出。参与这项研究的客户端在所提出的方法中，“Flower”框架被用于联邦学习，其中PyCharm被用作实现IDE。以下是各阶段的简要概述。4.1. 联邦学习框架在这个提议的解决方案中，在这种联邦系统中，“Flower”主要作为本地和全球运营之间的连接，包括两个核心组件：服务器和客户端。服务器保留全局功能，但不能访问本地客户端提供的数据。另一方面，本地客户在其设备上拥有自己的本地数据，他们利用这些数据完成培训和学习过程并获得预期的结果。图 2给出了基于回归模型的联邦学习隐私保护框架。服务器重复以下阶段以协调训练过程：第一步是选择客户端并进行通信。这里，服务器通常处理客户端选择策略、客户端更新和平均方法。Flower核心模型由三个主要部分组成：ClientManager、Loop和Strategy，所有这些都可以由系统用户轻松更改。同样，Flower模型的运行需要服务器和相关组件之间的有效通信。在这种情况下，Google RPC协议用于建立通信，并且可以用各种语言实现，包括Python和Java。这种模式的优点之一是，马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7878Þ（十）Fig. 1. 研究方法框架。图二、框架联合学习：保护数据隐私。许多具有异构操作系统的设备可以作为客户端工作，甚至具有极低带宽的移动电话连接也可以参与该设计并通过使用gRPC来传输信息（Beutel等人， 2022年）。之后，通过进行训练过程（其可能涉及对本地数据的GD），每个所选择的设备在本地计算模型更新。核心模型由具有初始全局梯度（GD）的网络提供给客户端，因此模型随着数据的接收而更新。每个客户端通过使用自己的数据减少损失函数来计算更新。之后，更改将发送到中央服务器进行进一步处理。在Eq。1，损失函数是Loss（w;xn;yn，并且该损失函数基于所使用的机器学习模型而不同。在这个等式中，N是用于预测的数据量，w是参数，xn，yn分别是模型的特征和标签。在从客户端获取训练参数之后，服务器侧聚合通过根据等式中的公式平均所有客户端更新来实现。二、通过使用本地数据（Ni）获得GD的一个步骤，并且从服务器获得加权平均值（Fi=weight），平均步骤完成。（1XN）1NNn1Lossw;xn;yn）ð1ÞN1NiωFið2Þ马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7879因此，在聚合阶段，该系统中的各个客户端最初利用它们自己的数据进行训练以及获取本地模型参数，然后将本地模型参数发送到等待所有本地参数的中央服务器。在收集所有链接的参数之后，通过聚集训练的参数来更新服务器，然后将训练的参数中继到所有其他客户端以进行进一步处理（Chen等人， 2020年）。4.2. 客户的本地培训分散的数据所有者作为培训系统中的客户端参与FL过程，然后他们协作训练服务器的模型。在这种情况下，代表十个分散医院的十个设备被认为是系统的客户端，并且它们中的每一个使用它们自己的管理数据在本地训练模型。这些医院客户作为本地客户，使用自己的数据独立进行机器学习培训。然后，当本地训练完成时，客户端仅将其本地训练模型的参数（例如，截距和系数）传输到服务器，而不将其自己的数据暴露给其他客户端或服务器。每个客户都遵循类似的本地培训方法。这里讨论了客户方当地培训的基本阶段4.2.1. 数据采集和预处理这项研究采用了来自纽约州卫生部的患者医院管理信息的开源数据集数据存储库包括患者出院的基本信息，包括2015年纽约几家州立医院的住院时间。从该数据集中，分别提取了10家不同医院的记录，然后将这些医院的数据用作10个分散客户端的本地数据，以用作联邦学习过程。因此，从该数据集获得的10个医院的记录因此，为了执行本地训练，从源获得所需的数据集，并将其加载到各个终端设备的实现环境中，其中每个终端仅包含一家医院的记录表3列出了10家医院及其入选人数。每个数据集都包含一个名为“住院时间”的属性对每个客户端数据集的主要分析揭示，每个客户端数据集具有不同数量的条目，所有条目具有34列属性，包含患者记录的11个数字属性和23个分类属性。属性列表如表4所示。数据集中的要素包含几个关键信息-表3去中心化客户端列表。SL编号医院名称记录数量客户端1奥尔巴尼医疗中心20353客户端2圣约瑟夫健康中心16029客户机3布朗克斯-黎巴嫩医院中心7560客户机4联合卫生服务医院7960客户端5布法罗妇女儿童11051客户端6格伦斯福尔斯医院14012客户端7伯德特护理中心2007客户端8普特南医院中心4052客户9奈亚医院6401客户端10圣玛丽山医院3328关于住院病人;例如，“年龄组”、“性别”、“出生体重”、“费用”、“CCS诊断描述”、入院类型等。在此，特征“CCS诊断描述”指示患者的疾病，其也在特征“CCS诊断代码”中表示为疾病代码例如，疾病流感的代码被认为是数字代码中的123，心脏节律失常的疾病是代码106，等等。为了可视化每个客户的数据分布，年龄数据可视化在图3（A）中呈现。在此图中，每个客户的年龄范围已使用饼图显示。再次，目标属性从图中可以清楚地看到，大多数患者在医院1停留0-2天，很少有患者在医院1停留超过25天。同样，在本研究中，每个客户端数据集都经过了严格的分析和预处理，然后应用机器学习模型来解决数据集中存在的缺陷和缺陷，包括缺失或不一致的数据样本、噪声和其他问题。预处理步骤如下：处理空值：处理空值一直是预处理数据的初始策略;其中包含太多空值或缺失值的特征被完全从数据集中删除，因为它们不会提供任何重要信息;然后包含一些空值的列被该列的其他值的平均值替换。噪声去除：然后，从每个条目中删除一些具有不需要的符号或噪声的列，例如消除不必要的或冗余的功能：之后，不必要的或重复的列已被消除，以提高预测性能。例如，从提供相同信息的一对列中，两个列中的一个被保留，而另一个被从嵌套框中移除例如，表4数据集中的属性列表数字数据列（11列）分类数据列（23列）操作证书编号卫生服务区CCS程序描述机构（医院）ID医院县APR DRG描述出院年份机构（医院）名称APR MDC描述CCS诊断代码年龄组APR疾病严重程度描述CCS程序代码邮政编码-3位数字APR死亡APR DRG代码性别APR医疗手术描述APR MDC代码种族付款类型1APR疾病严重程度代码族裔付款类型2出生体重住院时间付款类型3总费用入学类型中止编辑指示符总成本患者分布CCS诊断描述急诊科指标●●●马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7880JXXX..2图3.第三章。数据集中各组的（A）年龄分布和（B）LOS分布的可视化诊断描述表5具有相同信息的冗余列列表。第二个数字列与代码相关，第二个数字列与描述相关，因此列名（数值数据）冗余列名（分类数据）保留了一个，而另一个相同的被删除了。表5中示出了此类柱的示例。除此之外，包含不必要的预测属性（如ID编号、相同排放年份等）的其他列已被删除，因此为后续阶段留下了重要特征。数据编码：为了执行机器学习模型以实现最佳预测，属性需要包含数值;但数据集仍然包含一些具有分类值的列。因此，需要对这些列进行编码，将包含二进制值的第一列（例如“急诊室指示符”、“性别”等列中的“Y/N”和“M/F”）转换为1/0。然后使用“one-hot encoding”方法对其余的邮政编码-3位数字健康服务区设施ID设施名称CCS诊断代码CCS诊断描述CCS程序代码CCS程序描述APR DRG代码APR DRG描述APR MDC代码APR MDC描述疾病严重程度代码LASSO回归模型是一种线性回归，代表“最小绝对收缩和选择算子”，其中数据点朝向中心位置减少，估计稀疏系数，并且由于其倾向于偏好具有较少参数值的解决方案，限制因变量的数量，因此也很有用（Roy等人，2015年）。对于岭回归，使用相同的最小二乘准则，但它包括参数变化较大的L2正则化惩罚（等式4）。数据归一化：为了消除对Np●不同属性和fea的测量单位的变化，ERidgew;b¼Xyi-w：xib2aXw2ð4Þ真实灵敏度，则使用MinMax对数据集进行归一化1/1第1页标量技术。分为训练数据和测试数据：在对每个客户端数据集进行细致的预处理后，它们被分成70%的训练数据和30%的测试数据，用于在机器学习模型中实现岭回归模型是另一种用于机器学习回归问题预测的方法，通过计算多元回归模型的系数来解决共线性（McDonald，2009）。对于Lasso回归，使用L1正则化惩罚（等式5），而不是岭回归中使用的L2正则化惩罚。4.2.2. 应用机器学习回归模型Np在本研究中，为每个医院客户训练和测试了三种类型的经典机器学习回归模型，以利用其设备上预处理的数据实施本地训练。回归模型有：线性回归，线性Lasso回归和线性岭回归。这里，线性回归模型是最广泛使用的监督机器学习模型之一，其具有确定自变量和因变量之间最密切相关的线性线的简单策略，因此找到用于预测目标属性的线性关系（Chen等人，2019年）。假设线性模型，线性回归模型的回归参数可以使用最小二乘法通过最小化（eq-3）中的误差项来估计。NELSw; byi-w：xib31/1其中yi是目标值，w是斜率，xi是数据点，b是截距。ELassow;byi-w：xib2awj5联系我们4.2.3. 模型回归模型评估的常用性能指标已用于评估对每个客户端的数据集执行的各种机器学习模型的结果，然后评估服务器中的组合模型;度量标准为：平均绝对误差（MAE），均方根误差（RMSE）和R平方分数。在这里，MAE和RMSE值的降低表示具有更小误差的更好性能，并且R- 2得分的较高值被认为是具有更好拟合数据的模型的良好性能。4.2.4. 获取模型在训练操作之后更新模型●●马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7881用于设置初始参数和接收更新参数的以下职责：获取参数方法返回现有的局部模型参数。fit方法然后从服务器接收全局模型参数，并使用更新后的参数在本地数据集上对其进行训练。get model参数生成模型系数和模型截距中的模型参数，如果值截距为0或假;否则，将通过去除平均值并除以l2-范数（Pedregosa例如，2011年）。因此，在训练阶段完成之后，将修改的本地模型4.3. 全球服务器联邦学习是一种将局部计算策略和全局计算策略相结合的方法。在服务器端，服务器最初向每个客户端发送未经训练的模型。初始化后，客户端使用其设备上的数据进行本地训练。FlowerFramework的策略抽象具有客户端的选择和最小数目、训练配置、参数更新、参数聚集的控制。“FedAvg”算法（Beutel等人，2021）已在本研究中用于聚合目的。另一方面，与服务器连接的每个客户端负责模型客户端和服务器的通信是通过远程过程调用（RPC）实现的。的帮助下RPC客户端监视连接并维护消息传输。在服务器端的“策略”方法基本上表6环境参数根据技术进行设置。控制模型参数的更新和验证过程的聚合和其他重要任务。这里使用了一个流行的FedAvg策略，它有一些参数，例如：min-fit-clients，min-eval-clients ， min-available-clients ， initial-parameters ， fraction-fit，Beutel et al.（2021）。默认值为2时，最小拟合客户端定义了在整个训练阶段必须提供的最小客户端数量。最小可用客户端用于确定系统的最小可用客户端总数。这里，最小可用客户端、评估客户端和适配客户端的默认值为2，可以在策略方法中重新配置。在此过程之后，在从客户端获得训练参数后，服务器中的聚合模型经过多轮训练。此外，在服务器端的聚合模型已被评估使用测试数据集的LOS预测。然后，使用各种性能度量来评估来自服务器侧和客户端侧两者的结果，其中服务器侧不具有对实际数据的访问，但是本地或客户端侧具有用于训练和评估模型参数的目的的数据集。4.4. 实验装置在本节中，我们将描述环境设置，报告有关模拟工具和网络设置的详细信息。表6总结了基于参考技术组织的模拟环境的所有参数。该模型是一个回归问题，它将医院管理数据作为来自10个分散客户端的输入，并预测患者在医院停留的天数作为输出。本研究中的参与者具有不同的操作系统，其中四个使用20.04LTS"参数值Server Python IDEPycharm Federated Framework操作系统Ubuntu 20.04 with 6 cores of aAMD Ryzen5 4500 U CPUClient 1操作系统Ubuntu 20.04 with 6 cores of aAMD Ryzen5 4500 U CPUClient 7联邦框架花操作系统Windows with 6 cores of a AMD Ryzen5 4500 U CPU表7ML模型在客户端的性能比较分析。例如，2021）已被用于联邦学习，在此提出的方法中，PyCharm已被用作实现IDE。5. 结果分析5.1. 当地客户在数据预处理步骤和由服务器启动之后，每个分散的医院客户端都使用自己的本地数据来执行三种类型的回归模型，目的是训练他们的本地设备。使用不同绩效指标对每个客户的本地培训评估进行的比较评估分析表明，对于大多数客户，MAE和RMSE值相对较高，而R-2分数较小，这表明该模型对服务水平的预测性能并不令人这里，包含所有客户端中最多记录的数据1客户线性回归器套索回归岭回归MAE RMSER-2MaeRMSE R-2MaeRMSER-2客户端12.72350.3492.9250.1982.5163.72620.355客户端23.21730.3532.7983.66440.1612.1263.22220.351客户机32.52430.4652.1833.30580.1821.5782.53310.461客户机41.863 2.88120.4732.5473.71050.1461.8782.89310.483客户端52.235 2.32310.2982.4922.70950.0412.2572.33220.295客户端63.12350.7633.0900.1091.6633.11710.762客户端70.233 0.34850.8480.6720.88590.1920.5930.81670.766客户端81.510 2.28070.5322.1273.23960.2551.5282.30000.524客户91.894 3.20680.4872.4783.85370.1871.8093.10560.488客户端104.11500.6804.6275.22350.2072.4394.56510.678马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7882¼¼表8聚合ML模型在服务器端的性能比较分析聚合客户数量线性回归Lasso回归岭回归MaeRMSER-2MaeRMSER-2MaeRMSER-222.2252.53940.3112.4183.67100.2612.2233.50400.21431.9042.56050.4232.4033.40180.2691.9112.97590.25341.5672.54320.5222.0923.02300.3281.6572.77980.26951.5122.52430.5542.0882.77390.4441.6372.63750.37661.6102.49530.5692.3883.58110.5191.7072.63810.42871.5272.47130.6152.3073.30370.5341.6642.63750.51681.4892.44480.6272.0873.29350.5631.5762.48710.61191.4312.25010.7552.0763.36950.6541.5032.43390.564101.3892.03200.8731.9962.71190.7461.4722.34330.768图四、比较分析（A）MAE，（B）RMSE和（C）聚合不同客户端数量的ML模型的R2得分（20353个患者数据）提供了具有最高错误率（线性回归中MAE2： 500）的最差性能，另一方面，具有最少记录数（2007个患者数据）的客户端7提供了具有最少错误的最佳性能（MAE 0： 233线性回归）与其他客户相比。另一个值得注意的点是，线性回归模型对大多数R-2分数较好的客户给出的误差较小，另一方面，Lasso回归模型表现较差。因此，我们认为，马里兰州Mahbubur Rahman，D. Kundu，S.A.Suha等人沙特国王大学学报7883现在有必要研究在通过联邦学习聚集这些本地训练的客户端模型的参数之后，用于LOS预测的回归分析的误差是否减小5.2. 联合结果线性回归，Lasso回归和岭回归模型使用来自五家医院的数据进行训练。首先，培训是用2个客户端完成的，这意味着来自两家医院的数据，然后医院的数量增加1。表8表示不同机器学习模型的比较分析。在这种情况下，使用在训练阶段未识别到机器的测试数据来验证模型此外，为了确保设备的异构性，我们在Windows操作系统上保留了2 个组件，其中3 个在Ubuntu 上。我们的服务器是另一个Ubuntu操作系统，它没有任何关于训练和验证过程中使用的数据的首先，将一些初始参数设置为2，例如最小可用客户端、最小匹配客户端和最小评估客户端。在这种情况下，MAE为2.22，2.418，2.22，RMSE为2.5394，3.6710，3.5040，线性回归，套索回归，岭回归，在这个顺序。然后用同样的方法将最小数目设置为3，MAE和RMSE的结果都得到了改善。同样地，当最小拟合和评估客户端设置为10时，线性回归的MAE为1.389，这是最小值，而lasso回归的MAE为1.996，这是四种应用的机器学习模型中的最大值。因此，在三种ML算法中，线性回归在这种情况下的表现优于其他两种方法，对于10家医院，MAE为1.389，RMSE为2.0320，而作为局部模型，lasso表现较差。此外，很明显，随

下载后可阅读完整内容，剩余1页未读，立即下载