临床预测康复成功的机器学习模型研究：基于临床和患者报告的结果指标

30 浏览量更新于2024-01-09 收藏 1.06MB PDF 举报

医学信息学

机器学习方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁24（2021）100598基于临床和患者报告的结果指标预测康复成功的机器学习方法Michael Tschuggnalla，*，Vincent Groteb，c，g，Michael Pirchlb， d，Bernhard Holznere，a， f，放大图片作者：GerhardRumpold e，a，Michael J. 费希尔b，d，ga评估软件开发，奥地利b路德维希·玻尔兹曼康复研究所，奥地利c奥地利格拉茨医科大学生理学系奥托·洛伊研究中心奥地利基茨比厄尔瓦梅德康复中心奥地利因斯布鲁克医科大学f奥地利因斯布鲁克第一精神病大学医院g奥地利维也纳医科大学物理医学、康复和职业医学系A R T I C L EI N FO保留字：临床决策支持结局预测机器学习康复A B S T R A C T治疗髋关节、膝关节或足部损伤的常见方法是在几周甚至几个月内进行相应的医生指导的康复。虽然卫生专业人员通常能够根据他们的经验在一定程度上估计治疗成功率，但在科学上仍然不清楚相关程度因素和环境解释或预测康复结果。为此，我们将现代机器学习技术应用于由一千多名康复患者（N= 1，047）的数据组成的真实数据集，并建立能够预测患者在治疗开始时康复成功的模型。通过使用问卷调查中的临床和患者报告结局指标（PROM），我们计算了患者相关的临床指标，这些指标包括针对不同目标（如膝盖的运动范围）的测量指标（CROMs），并随后使用这些指标来学习预测模型。虽然我们首先应用回归算法来估计康复成功的精神病院入院和出院值的差异，我们最后还利用分类模型进行预测的基础上，三级分级方案。对不同治疗组和目标的深入评估显示出有希望的结果，F分数超过65%，能够大大超过基线（高达40%），因此表明机器学习确实可以应用于更好的医疗控制和优化康复实践中的治疗路径。未来的发展应包括进一步相关的关键成功标准，在康复常规，以进一步优化临床实践的预后模型1. 介绍残疾状况的发生率急剧增加[1]。康复在缓解和改善这些问题方面起着至关重要的作用与衰老和慢性病相关的功能限制。这些特别包括肌肉骨骼系统的退行性疾病[2，3]。在这些领域中，健康专业人员通常能够基于他们在治疗开始时关于临床测量（CROMs）的经验来估计康复成功。此外，在此过程中还可包括完成问卷的患者报告结局指标（PROM）。虽然这种主观估计是重要和有效的，但往往不清楚什么是最重要的。预后良好的影响和决定因素。如第2节所述，据我们所知，没有现有的方法或计算机模型可以在此估计过程中适当帮助或指导医生，也无法在完成康复治疗后提供有关最具影响力因素的因此，基于通过利用上千名康复患者的真实数据，我们的目标是为更加个性化的医疗保健奠定基础，该医疗保健受益于使用监督机器学习的持续改进过程-康复中的一种新的临床常规* 通讯作者。电子邮件地址：michael. ches.pro（M. Tschuggnall）。https://doi.org/10.1016/j.imu.2021.100598接收日期：2021年2月22日;接收日期：2021年5月5日;接受日期：2021年5月8日2021年5月21日网上发售2352-9148/©2021的作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuM. Tschuggnall等人医学信息学解锁24（2021）1005982总之，我们在这项工作中具体解决了以下研究问题：机器学习算法能否用于预测髋关节、膝关节或足部损伤患者的康复成功率？如果可以，在多大程度上？对于一个好的预测模型，最有影响力的因素是什么？医生可以使用这个模型来计划一个成功的治疗方案。本文的其余部分结构如下：在提供了一个简短的概述医疗康复，相关的工作是在第2节。第3节概述了包括本研究中使用的所有相关PROM和CROMs的数据集。在第4节中描述了本研究在方法学方面的主要贡献之后，第5节详细介绍了相应的结果。最后，第6节总结并讨论了未来可能的工作。1.1. 医疗康复在世界各地，医疗康复以不同的方式构建，尽管可以观察到社会和医疗保健系统标准化的趋势[4]。在奥地利，这是住院康复的最常见原因（36%）[5]。住院治疗平均每天持续2-3小时。提供了一个由主动和被动治疗组成的个体化治疗方案。积极的治疗包括体育活动，包括体操和个人理疗课程，医疗培训侧重于水下，测力计，北欧步行，力量，平衡，放松和运动训练。被动治疗包括按摩、热疗、电疗、超声波和各种讲座或心理辅导等教育课程。每名患者在三周内提供至少30小时的治疗计划，分为大约50%的主动治疗和50%的被动治疗。在专业康复中心进行的这种多学科骨科康复可改善健康状况和身体功能，并减少大多数患者[6特别是髋关节后的康复，膝关节内假体（TEP）的证据水平较高[9，10]。经过医学、身体活动和心理治疗的跨学科治疗，重新进入劳动力市场的人数仍然很高[11，12]。住院医疗单位的结构对医疗质量有很大的影响。建议常规收集标准化结局指标，以比较不同人群、项目和实践[13]。根据卫生技术评估研究，与奥地利社会保障机构签订了一个合同框架。该框架包括基于过程质量和治疗结果标准的绩效协议[14]。因此，根据入院和出院时的国家立法指南，本研究中收集的数据可直接从电子和经验证的患者记录中导出，基于常见和强制性2. 相关工作机器学习和深度学习技术在过去十年中越来越频繁地应用于医疗保健领域。然而，医生通常仍然依赖于传统的方法进行决策或治疗计划。原因可能包括人工智能（AI）从未应用于特定领域，系统不够成熟，医生或患者不理解机器学习结果或根本不信任它们。在三个层面上（即，临床医生，医疗保健和患者），Topol还质疑应用它的意愿，即，最近呼吁使用人工智能，因为另一方面，人工智能已经成功地应用于许多医学领域，正如Esteva等人所概述的那样[18]。因此，最突出的应用领域之一可能是图像的处理[19]）、病理学（例如，[20]）、皮肤病学（例如，[21]）或心脏病学（例如，[22]）。但最近许多其他领域也成为目标，包括通用计算机视觉，自然语言处理，机器人辅助手术，基因组学，临床结果预测或一般决策[18]。因此，广泛的应用显示出有希望的结果，其中通常包括表明AI可以匹配甚至超过临床医生决策的评估。一些例子包括痴呆症的预测[23]，从电子医疗记录中自动提取有用信息[24]，死亡风险评估[25，26]，阿尔茨海默病的识别尽管如此，就康复的具体领域而言，据我们所知，只有少数研究存在，尽管Zhu等人[29]已经在十多年前展示了机器学习的潜力。在他们对20，000多名家庭护理患者进行的比较研究中，他们发现即使是像K最近邻（KNN）这样非常简单的算法也可以比常用的临床评估协议更好地预测康复潜力。在随后的研究中，Zhu等人也证明了支持向量机（SVM）和随机森林显着超过常规做法[30，31]。与这项研究类似，Lin等人最近使用机器学习来预测中风后康复治疗的结果[32]。分析大约300例患者的数据，使用logistic回归、SVM和随机森林预测出院时的Barthel指数[33]。评估表明，回归算法能够估计结果值的平均绝对误差约为10，分类器可以实现超过70%的准确性分类的巴特尔指数状态在三个类的计划。最近，Huber等人还进行了一项研究[34]，其中机器学习用于预测髋关节和膝关节置换手术后患者报告的结果。与本研究相反，作者仅使用PROM，旨在预测生活质量，即，手术成功率的估计不是研究的一部分。尽管如此，使用八种不同的监督分类器有希望的结果已经报告的生活质量。所有前面提到的研究都集中在特定的问题和数据集上，因此结果与本研究的结果没有直接可比性。尽管如此，它们显示了机器学习的一般潜力，我们相信机器学习可以更频繁地用于康复领域。沿着这些路线，我们的目标是进一步填补空白，并通过将机器学习应用于髋关节、膝关节或足部受伤患者的数据来增加这些研究。通过展示人工智能在帮助卫生专业人员决策方面的总体潜力，我们希望进一步激励其他研究人员也将机器/深度学习应用于他们的特定领域和数据。最后，通过公开讨论这项工作的见解和好处，我们希望消除前面提到的对机器学习应用于医疗数据的普遍怀疑。3. 数据集在这项研究中，我们使用了一个匿名的真实世界数据集，其中包含来自Vamed Rehabilitation Center Kitzbühel的1，047名康复患者的数据。1更具体地说，患者被分配到五个不同群体：这将用于改善医患关系或促进它的侵蚀还有待观察为此，例如，Norgeot等人1https://www.reha-kitz.at。··M. Tschuggnall等人医学信息学解锁24（2021）1005983===[客户端]1. 创伤髋关节区域（髋关节T，N148）：股骨近端骨折、转子下骨折、转子周围骨折、髋臼骨折2. 创伤膝盖区域（膝盖T， N109）：股骨远端骨折、胫骨和腓骨近端骨折、髌骨骨折3. 创伤踝/足跟区（踝，N92）：胫骨和腓骨远端骨折，跟骨骨折4. 髋关节置换术（髋关节A，N= 292）5. 膝关节置换术（膝关节A，N= 406）第1、2和3组包含髋关节、膝关节或踝关节区域骨折或创伤性损伤的患者。第4组和第5组接受髋关节或膝关节置换术。所有患者均住院康复治疗21天。根据治疗组，数据集包含代表患者在康复开始（T1）和结束（T2）时状态的组特异性值。例如，对于创伤膝关节区域组的患者，记录T1和T2的活动范围，指示康复前后膝关节的活动度。在这种情况下，T2时的较高值将指示康复成功，如第4节中更详细地概述的。在奥地利社会保障机构的个人资料中建立的医疗质量结果测量作为这项工作的基础[14]，即，作为输入变量。基于常见和强制性的常规数据收集过程，从电子病历中提取患者报告的结局测量值（PROM）和临床医生报告的测量值（CROMs），以获得康复前医疗状况和与住院康复相关的预期变化的数据。根据国家立法准则，收集个人和健康相关数据是常规医疗护理的一部分，也是医生和保健专业人员的质量保证和评估。此外，还使用了患者的性别和年龄3.1. 临床医生报告的结局指标（CROMs）CROM数据包含由临床医生评估的变量，例如，髋关节的活动范围（ROM）、膝关节周长或计时起身和行走（TUG）测试值。2用于混凝土的CROMs每个治疗组的数据列于表1中。3.2. 患者报告结局指标（PROM）PROM数据是指任何已完成的标准化调查问卷，用于评估与疾病相关的领域是否有所改善。表1每个处理组使用的CROMs。治疗组CROMs髋关节T、髋关节A、髋关节周长、髋关节ROM、TUG值膝关节T、膝关节A、膝关节周长、膝关节ROM、TUG值踝关节周长，踝关节ROM，TUG值2在骨科康复中，有几种技术可用于测量髋关节和膝关节的活动范围（ROM），包括由经验丰富的检查员使用短臂或长臂测角仪、数字测角仪或放射学关节角度测量进行估计[35，36]。计时起身和行走测试（TUG）记录了一个人从标准椅子上站起来，走到3米远的一条线上，转180度，回到椅子上，然后坐下所需的时间（以秒为单位）。它最初是为了识别有跌倒风险的老年人而开发的，并用于基于静态和动态平衡来评估一个人的独立移动能力[ 38，39 ]。在这项研究之前，治疗结果[42，43]，特别关注功能状态和福祉[44]。方案促进措施可分为两类：一般措施和具体措施。通用测量旨在总结适用于许多不同损伤，患者和人群的健康或生活质量概念的范围[45]。评定疼痛强度和不适的主观方法包括视觉模拟量表（VAS）[46]。其他通用PROM包括健康评估问卷（HAQ），该问卷基于 5个以患者为中心的维度：残疾、疼痛、药物作用、护理成本和死亡率[47]。欧洲生活质量5维度问卷（EQ-5D-5L）是一种通用工具，可测量5个维度的健康状况，每个维度由5个水平组成：移动性、自我护理、日常活动、疼痛/不适和焦虑/抑郁[48]。使用Barthel指数评估身体残疾。Barthel指数是一种用于评估日常生活活动（ADL）、护理需求和独立性的指数[33]。本研究使用EQ-5D-5L、Barthel指数、HAQ残疾指数、HAQ患者总体量表和VAS疼痛量表。特定PROM是指对特定损伤或疾病相关结局的更详细评估[49]。他们使用特定的分数，这并不表明整体健康状况。例如，西安大略和麦克马斯特大学骨关节炎指数（WOMAC）是为参与临床试验的髋关节或膝关节骨关节炎患者开发的，以测量疼痛（5项）、僵硬（2项）和身体功能（17项）的3个维度[50]。客观的临床医生报告的测量（CROM）和受试者-活动性PROM在康复过程中表现出特征性变化。这些方法之间的相关性很低[6，7]。与组目标值类似，数据集包含CROMs和PROMs的T1和T2例如，在康复开始和结束时进行TUG测试，并在每个时间点输入问卷。4. 方法本研究的主要目的是根据患者在治疗开始时的健康状况预测患者康复的成功率。总体概述如图1所示。为了量化预测模型的成功以及质量，我们比较了在康复的开始（T1）和结束（T2）的多个目标变量的值，并计算每个患者的相对变化值。3在第一步骤中，我们利用回归量来估计该值，并进一步定义结果组（例如，“中等成功”或“显著成功”），其被分类器用于预测成功结果组。在下文中，我们详细描述了该过程，包括所利用的特征、算法、评估指标和一般实验设置。4.1. 目标当我们检查不同治疗组的康复时，我们首先定义了应该为每组预测的适当目标值。一般来说，我们考虑三个CROM（膝关节和髋关节的ROM，TUG值）和两个PROM（HAQ和WOMAC问卷的总分）作为目标，即，时间点T2的数值。因此，相应的可能范围和最佳值如下：膝关节/髋关节活动度：使用传统测角器测量髋关节和膝关节活动度的标准化结局是基于美国骨科医师学会普遍接受的正常范围参考值（AAOS主动运动评分[51它的范围在0%和 100%之间，其中100%是最佳值（全活动度）。收集结果测量的医生和治疗师接受了标准化数据收集培训，以获得有效、可靠和可重现的ROM和TUG数据[40，41]。3请注意，T1和T2值都已经存在于数据集中，但仅最终模型需要T1值来预测康复成功。·M. Tschuggnall等人医学信息学解锁24（2021）1005984•（）下一页[客户端]•[客户端]最大值（100-X，0. 001）T1PRC=（）下一页[客户端]⎩⎪100-45Fig. 1. 方法概述。我们分析康复开始时（T1）的一般、CROM和PROM值，并试图预测康复结束时（T2）特定目标的结果。具体来说，我们计算患者的相对变化（PRC），并将其分类为三个结果组，这些结果组通过回归量（a）或直接使用分类器（b）进行预测。TUG值：理论上，其范围在0，∞之间，0为最佳值，但由于试验设计的原因无法实现（最大值是无限的，因为患者可能根本无法完成试验）。在现实生活中，建议健康的社区居住老年人的正常截止点为10秒或更少[39]。TUG结果低于5 s在临床实践中非常罕见，可以认为是最小的。HAQ总分（残疾指数）：根据定义[47]，其范围为0- 3，其中0为最佳（无残疾）。WOMAC总分：根据定义[50]，其范围在0- 240之间，其中0为最佳（无疼痛、僵硬或功能限制）。显然，并非每个目标都适用于每个治疗组，但我们评估了表2中总结的每种可能的组合。4.1.1. 患者相对变化医疗结果质量被定义为“医疗结果的可测量变化”需要以标准化的替代方式表示的可比较的成功值。从医学角度来看，该值还应考虑以下因素：1. 目标变量最多可以提高100%。2. 目标变量的恶化没有限制，即，理论上可以3. 所有目标变量的成功应具有可比性，即，正值应始终指示改进。具体而言，我们必须考虑ROM（髋关节和膝关节）的较高值比较低值更好，而另一方面，TUG值和问卷总分的较低值更好。考虑到这些因素，我们最终将目标X的患者相对变化（PRC）值定义如下：如果较高的X值是一种改进，则为100（XT2-XT1）X专业评估的健康状况，生活质量和满意度，患者的状态100mm（XT1-XT2）max（X T1，0.001）否则结束因此，康复前（T1）和康复后（T2）的基线率之间的比较是可能的。因此，我们通过将治疗开始时的特定目标的值与结束时的相应值（例如，T1髋关节活动度与T2髋关节活动度比较）。因此，T1处的值显著影响康复“成功“的解释表2评价每个治疗组的目标变量目标/组髋关节T膝关节T踝关节髋关节A 膝关节AROM膝关节其中XT1和XT2分别是目标变量在时间点T1和T2的值。注意，我们包含了max...，0。001的功能来处理边缘情况，其中在恢复开始时的值已经是最佳的（即，没有进一步的改进是可能的4），因为否则PRC将由于被零除而未定义为了说明PRC在不同输入方面的情况，我们展示了一些例子：1. 膝关节活动度（范围：0、 100、100为最佳）(a) 改进ROMknee T1 = 45，ROM膝关节T2 =66公司简介 =100（66-45）= 38。百分之二(b) 恶化髋关节活动度TUG值HAQ总评分WOMAC总分[4]这可能是事实，因为我们为一名患者评估了多个靶点。例如，在一个示例中，主要治疗膝关节问题的患者可能仍然具有最佳HAQ总和分数。·M. Tschuggnall等人医学信息学解锁24（2021）1005985[客户端]3050100-40ROMknee T1 = 40，ROM膝关节T2 =25个公司简介 =100（25-40）= -25%2. WOMAC总分（范围：0、 240、0为最佳）(a) 改进WOMAC T1 = 30，WOMAC T2 =2个PRCWOMAC =100（30-2）= 93。百分之三(b) 恶化WOMAC T1 = 50，WOMAC T2 =120人PRCWOMAC =100（50-120）= -140%4.1.2. 成果小组PRC值代表康复治疗将如何影响患者的精确和标准化数字。然而，治疗师通常对更粗粒度的观点感兴趣，即，康复治疗是否有效，如果是，是显著的还是仅仅是轻微的改善。因此，基于PRC值，我们引入了结果组，如表3所示。它们对应于额外考虑初始值和最佳值的标准化效应，包括临床相关变化的医学意义。如本节稍后所述，这些结果组将被监督机器学习算法用于直接预测该组（使用分类算法），但也可以间接预测该组（通过用回归算法估计连续数并随后对其进行分类）。4.2. 要素集和数据集准备本研究中使用的主要输入变量是CROM（来自不同测量的医疗数据），PROM（来自完成的问卷的数据）和两个一般变量年龄和性别。关于PROM，数据集包含每个问卷的总分（分量表）以及每个问题的答案。如后所述，我们的目标是找到预测康复成功的最佳特征集组合，因此执行网格搜索评估多个配置。在与负责医生讨论后，我们最终形成了表4中列出的功能集。在第5节的评估中，我们将包含所有PROM数据的功能称为PROMall，即，包含PROMsum、PROMdetail和PROMortho的所有功能。4.2.1. 表示和规范化作为一种常用的技术，我们将[ 0，1 ]之间的所有数值特征归一化。这包括所有的CROMs，但也包括来自调查问卷的几个PROMs。例如，对于像“没有帮助，你能走多远？”答案（0被认为是有序的，因此也可以被标准化另一方面，对于性别以及分类问题，即，在答案不暗示任何顺序的情况下，我们应用独热编码。具体而言，以下特征是分类的：性别; ORTHO-BASIS项目2、4-8、10-13、15-18、21-25、28-30、33-34、37-41，43、46、47; Barthel指数项目1-3、7; HAQ项目10-20、31-38。表3结果分组基于PRC值。目标PRC成果组膝关节/髋关节ROM，TUG值≤ 0%无变化或恶化（WO）表4功能集。套件编号描述一般2年龄、性别CROM 13所有CROM数据PROM总和 15除ORTHO-BASIS外所有问卷的总和评分PROM详述除ORTHO-BASIS外所有问卷的73个PROMortho来自ORTHO-BASIS问卷的39个#与包含在相应集合中的特征的数量4.2.2. 清洁由于我们希望单独研究不同治疗组的预测，因此并非所有特征都可以同时使用，我们还根据以下策略清理数据：给定治疗组T（例如，创伤髋关节区域）和目标X（e.例如，在一个实施例中，髋关节ROM）：1. 排除所有不属于T的患者。2. 删除所有未分配X值的患者。3. 删除30%以上患者无价值的所有特征。4. 删除所有剩余特征值不超过30%的患者。5. 将缺失的数值替换为-1，将缺失的分类值替换为新的通过这样做，我们可以确保最终用于执行网格搜索的数据集尽可能完整和正确。幸运的是，基茨比厄尔康复中心提供的数据集基本上是完整的，即，对于大多数患者，所有数据点均可用。总体而言，表5显示了治疗组和目标值的最终剩余数据集。请注意，我们还评估了具有相似身体部位的治疗组的组合，例如，（HIP 1，HIP 2）包含来自两组的患者4.3. 算法在第一步中，我们使用T1时的所有可用数据并应用回归算法来估计PRC值，即，相对变化百分比表5目标和治疗组的最终数据集大小目标人群患者髋关节活动度T115HIPA292（HIPT，HIPA）407膝关节活动度膝关节T84膝关节A406（膝关节T，膝关节A）490TUG值HIPT111膝关节T81脚踝80HIPA292膝关节A406所有群体996HAQ总分HIPT115膝关节T89脚踝83HIPA287膝关节A403所有群体999（0%， 25%）中度改善（MI）>25%显著改善（SI）WOMAC总评分HIPT113HAQ评分，WOMAC评分≤ 0%无变化或恶化（WO）（0%， 50%）中度改善（MI）>50%显著改善（SI）膝关节T89脚踝83HIPA287膝关节A404所有团体998M. Tschuggnall等人医学信息学解锁24（2021）1005986[-]从治疗的开始和结束。通过这种方式，我们依赖于常用的算法：线性回归，随机森林回归[54]，EX tra Trees回归[55]，线性支持向量5. 结果在本节中，我们系统地介绍了个人评估回归（SVR）[56]和具有多项式核的核岭[57]。此外，我们根据表3中列出的阈值将每个预测PRC值投射到相应的结果组。例如，如果回归量估计膝关节ROM的PRC为12.7%，则相应组将为“中度改善”。通过这样做，我们还能够计算分类度量，如稍后所述，允许将结果与直接分类的结果进行比较4.3.1. 直接分类或者利用回归值进行PRC值预测，我们应用分类算法直接估计表3中列出的类别的康复成功。在这种情况下，我们从数据集中删除PRC值，并将其替换为映射的结果组作为目标类。这意味着分类器从T1的数据点结合相应的结果组而不是PRC值来学习模型在算法方面，我们参考了以下常用方法：随机森林，EX tra树，支持向量分类（SVC）[58]，具有线性和nu核[59]，朴素贝叶斯[60]和线性判别分析[61]。在下文中，我们将这两种方法称为回归分类（reg-cls）和直接分类（cls）。4.3.2. 基线由于康复领域缺乏可比方法，我们计算以下基线以估计预测模型的质量：对于回归，我们使用一个虚拟回归器，它总是预测相对于使用中的数据集的平均PRC值。因此，为每个数据集预测一个恒定的结果组，这是从平均值投影的。对于直接分类，我们类似地应用分层虚拟分类器，该分类器通过尊重数据集的类分布来请注意，我们明确避免使用深度学习技术（即，各种类型的神经网络），因为与参数的数量相比，数据集的大小太小[62]。4.4. 实验装置为了找到最佳预测模型，我们对每个靶标、治疗组及其组合进行网格搜索，如表5所列。对于每个网格搜索，我们使用分层训练和测试分割进行5重交叉验证，以找到每个机器学习算法的最佳超参数。为了衡量模型的性能，我们依赖于回归的平均误差（MAE）和分类的F1得分根据PCR值定义（见第4.1.1节），其范围可能为∞;100。然而，为了正确看待MAE，我们列出了目标的PRC价值范围，因为它们出现在数据集如下：ROM髋关节[-33。三，七十。9]，ROM膝关节[-结果我们首先比较算法的性能，然后比较两种评估类型（即，通过回归和直接分类进行分类），并最终呈现每个治疗组和目标的详细结果。5.1. 算法比较一般来说，关于算法的F1加权的性能差异在所有目标和结果组上都是相似的，事实证明，基于树的方法大大优于线性技术。作为代表性示例，表6a显示了目标HAQ总分的最佳回归分类结果（对于所有组合治疗组）。可以看出，对于该目标，随机森林和EX tra树回归器实现了最佳结果。当检查直接分类的结果时，可以看到类似的情况，其中随机森林和EX tra Trees分类器也基本上优于所有其他方法：表6b示例性地显示了TUG值和治疗组HIPT的结果。虽然在这项工作中没有明确列出，但详细的实验表明，通过回归进行分类以及直接分类的性能差异在所有目标上都是相似的，即，随机森林和EX tra树算法总是执行得最好。关于两种类型的康复成功预测，即，类通过对回归分类和直接分类的比较，评价结果清楚地表明，直接分类大大优于回归分类。作为代表性示例，我们在表7中显示了两种类型的目标ROM髋关节的结果。如前所述，我们更感兴趣的是根据显著、中度或无成功来预测结果组，而不是以百分比（PRC）来估计具体的因此，我们只提出了其余目标的分类结果。5.2. 目标结果在下文中，我们提供了每个目标和治疗组（组合）的评价结果。具体而言，表7表6不同机器学习算法的预测性能比较，以HAQ得分和TUG值目标为例。(a) 通过回归对HAQ总分进行分类HAQ总分的相应PRC值范围为[-960; 100]。宏观(b) TUG值100，75]，TUG值[ -41. HAQ总分[-960， 100]，WOMAC总分[-1010， 100]。例如，MAE为35，算法F1 宏观F1加权HAQ总分明显优于ROM髋关节。关于F1评分，我们选择评估宏观和加权变量。在我们的例子中，F1宏测量每个结果组的精确度和召回率，并最终计算它们的未加权平均值，而不管可能的组不平衡。为了结合数据集确实包含结果组中的不平衡的事实（相对于结果的加权平均值随机森林分类器0.6390.669EX tra Trees分类器0.5990.623SVC（nu）0.4960.514SVC（线性）0.4680.508朴素贝叶斯线性判别分析0.4330.484群分布加权变量也被用作优化在网格搜索期间的标准。5 将随机森林称为RF，将E X tra树称为ET。··算法MaeF1F1加权随机森林回归35.00.4620.464EX tra树回归34.00.4620.462核岭34.30.4210.424线性回归38.10.4120.404线性支持向量回归46.80.3470.347M. Tschuggnall等人医学信息学解锁24（2021）1005987表7直接分类（cls）和回归分类（reg-cls）的比较。例如，最好的结果ROM髋关节表10HAQ总分的最佳直接分类结果组特征算法F1加权组特征算法F1加权髋关节TCROM，通用RF（cls）0.503-基线（cls）0.254CROM，PROMortho ET（reg-cls）0.435HIPT PROM总和，PROM详细信息，一般ET 0.625-基线0.185膝关节TCROM，PROM所有，通用ET 0.522-基线0.320-基线（reg-cls）0.247HIPA CROM，PROMsumRF（cls）0.470-基线（cls）0.202CROM ET（reg-cls）0.434-基线（reg-cls）0.181(HIPT，HIPT）CROM，PROMorthoRF（cls）0.448-基线（cls）0.216CROM ET（reg-cls）0.400-基线（reg-cls）0.213RF：随机森林，ET：EX tra树。表8ROM膝关节的最佳直接分类结果组特征算法F1加权膝关节TCROM，通用RF 0.565-基线0.105膝关节ACROM，PROM总和，通用RF 0.595-基线0.309(KNEET，膝关节A）CROM，PROM总和RF 0.586-基线0.290RF：随机森林，ET：EX tra树。表9TUG值的最佳直接分类结果组特征算法F1加权髋关节TCROM，通用RF 0.669-基线0.306膝关节TCROM，PROM总和，通用RF 0.594-基线0.286踝关节CROM，PROM总和，PROMorthoET 0.600-基线0.383HIPA CROM，通用RF 0.570-基线0.388膝关节ACROM，通用RF 0.585-基线0.405所有CROM RF 0.579-基线0.358RF：随机森林，ET：EX tra树。评估模型质量的基准。如前所述和表7中示例性示出的，直接分类显著优于通过回归方法的分类。因此，我们仅显示表8 一般来说，F1加权值的范围从大约0.4到超过0.65，在每种情况下，基线都可能被大大超过。关于表现最好的特征组，几乎总是包括CROM变量，而PROM变量经常用于HAQ和WOMAC评分，这反映了这些目标是由患者单独完成的问卷得出的。最后，结果表明，在大多数情况下，为每个治疗组单独建立模型比为组合组学习一个模型更有优势。有关对要素重要性的更详细评估，参见第5.3节。为了进一步理解所创建的模型，我们还在图1和图2中可视化了归一化混淆矩阵。 2比6 例如图 3 a踝关节PROM总和，PROM详细信息，一般ET 0.625-基线0.359HIPA CROM，PROM总和，通用RF 0.583-基线0.243膝关节ACROM，PROM所有，通用ET 0.540-基线0.156所有CROM，PROM所有，通用RF 0.553-基线0.171RF：随机森林，ET：EX tra树。表11WOMAC总分的最佳直接分类结果组特征算法F1加权HIPT CROM，PROMallRF 0.545-基线0.230膝关节TPROM总和RF 0.468-基线0.274踝关节胎膜早破，一般ET 0.601-基线0.305髋关节ACROM，PROM总和，PROMortho，通用RF 0.493-基线0.181膝关节ACROM，PROM所有，一般ET 0.465-基线0.297所有CROM、PROM，通用RF 0.471-基线0.240RF：随机森林，ET：EX tra树。图二. ROM髋关节的标准化混淆矩阵。图3.第三章。ROM 膝关节的标准化混淆矩阵。M. Tschuggnall等人医学信息学解锁24（2021）1005988图四、TUG 值的归一化混淆矩阵。图五. HAQ值的归一化混淆矩阵。图六、WO M AC 值的归一化混淆矩阵。显示71%的患者没有康复成功或病情恶化，而另一方面，该模型仅正确分类了44%的中度改善患者，即，预测24%会恶化，32%会显著改善。一般来说，在单个组预测的情况下，每个目标和治疗组的结果也不同，其中正确的组（对角线中）显示最高值，准确度高达81%（见图5）。请注意，在这项研究中，我们没有纳入错误分类可能不具有相同权重的事实，例如，将实际上有显著改善的患者分类为仅实现中度康复成功显然比预测他/她恶化更好（参见第6节以获得更详细的讨论）。5.3. 特征重要性所有的评估场景都使用随机森林或EX tra树分类器（例如，关于F1加权，比表6 b）中所示的示例中的支持向量机好约15%。由于这两种方法都是基于树的，因此我们能够更深入地研究各自输入变量的重要性，反驳医疗保健中的机器学习“以不透明为代价”的论点[ 63 ]。为此，表12描述了每个场景的三个最重要的特征，包括它们的百分比重要性权重。6对于PROM变量，第n是指第n个6所有输入特征的重要性之和为100%。请注意，当使用大量特征时，最重要特征的值通常会显著降低。在相应的调查问卷中的问题，例如，HAQ项目25代表HAQ 1.0问卷的第25个问题（见第3节）。有趣的是，患者的年龄似乎起着不可忽视的作用。在许多情况下，康复成功与否取决于性别，而不是。6. 结论和今后的工作在本研究中，我们旨在预测膝关节、髋关节和足部康复患者治疗的潜在成功率。因此，我们使用了一个真实生活中的匿名数据集，其中包含已完成治疗的多个临床（CROM）和患者报告（PROM）变量，说明其在整个康复过程中的进展。在计算每个患者的相对成功值和预定义的目标变量后，利用最先进的回归和分类算法，最终预测康复成功的三级分级方案（结果组）。对每个治疗组和目标的单独评估表明，直接分类的性能明显优于预先使用回归算法。总之，可以实现从40%到超过65%的加权F1分数，其中通过利用基于树的算法Random Forest和EX tra Trees大大超过简单基线。对特征重要性的进一步研究表明，不仅像膝关节活动度这样的物理参数对预测很重要，而且患者的年龄以及他们通过问卷调查自我报告的幸福感也很重要。考虑到这项研究是康复领域的第一个试点工作，为了预测癌症，我们想要强调的是，所利用的数据是从特定地理区域的患者收集的。虽然我们认为这项研究的结果也可以转移到其他地区（即，M. Tschuggnall等人医学信息学解锁24（2021）1005989表12特征重要性。对于每个场景，它列出了最佳预测模型使用的前三个变量。相应的F1评分见表7-11。目标中国集团最重要特征（T1）ROM髋关节HIPT髋关节周长（26%）、年龄（25%）、ROM髋关节（22%）、HIPA ROM髋关节（11%）、EQ-VAS（8%）、髋关节周长（8%）ROM膝关节膝关节TROM膝关节（32%），年龄（24%），膝关节周长（19%），膝关节AROM膝关节（17%），膝关节周长（7%），HAQ总分（7%）TUG值HIPT TUG值（31%）、年龄（24%）、髋周长（19%）膝关节TTUG值（14%）、WOMAC疼痛评分（8%）、WOMAC总分（8%）踝关节ROM踝关节（7%），WOMAC僵硬评分（5%），确认试验注册本临床研究于2020年8月14日回顾性录入德国临床研究注册中心（注册号：DRKS 00022854）。伦理方面因斯布鲁克医科大学伦理委员会于2019年8月23日批准了研究方案（参考：EK Nr：1158/2019年）。个人相关和健康相关数据的收集是髋踝关节周长（5%）ATUG值（31%）、年龄（23%）、髋周长（23%）常规医疗护理和质量管理符合《奥地利隐私法》的所有规定，并符合膝关节ATUG值（32%）、膝关节周长（23%）、年龄（21%）HAQ总分HIPT HAQ项目25（3%），WOMAC总分（2%），WOMAC第十三项（百分之一）膝关节THAQ总分（2%），HAQ项目3（1%），TUG值（1%）踝关节EQ-5D活动度评分（5%）、HAQ总分（3%）、HAQ现行有效的《赫尔辛基宣言》和国家立法。数据可用性声明髋项目三十（百分之二）HAQ总分（9%）、TUG值（7%）、年龄（7%）本手稿中分析和引用的数据集尚未公开。作者可以提供有关indi的描述性数据WOMAC总分膝关节AHAQ项目30（2%），HAQ总分（2%），HAQ项目29（1%）髋关节TWOMAC总分（2%）、髋关节周长（2%）、WOMACADL评分（2%）膝关节TWOMAC总分（11%）、EQ-VAS评分（11%）、EQ-5D总分，（11%）踝关节WOMAC项目23（2%），WOMAC僵硬评分，（2%），WOMAC项目13（2%）HIPA WOMAC ADL评分（7%）、WOMAC总分（7%）、WOMAC疼痛评分（6%）膝关节AWOMAC总分（2%），WOMAC ADL评分（2%），WOMAC第7项（1%）根据要求，为不同群体提供入院和出院的可视医学指标或住院康复

下载后可阅读完整内容，剩余1页未读，立即下载