软件X16：基于Python的进行性疾病亚型和分期推理工具

169 浏览量更新于2024-01-25 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 16（2021）100811原始软件出版物pySuStaIn：子类型和阶段推理算法的Python实现莱昂·M Aksmana，b，1，P. Wijeratneb，1，Neil P. Oxtobyb，Arman Eshaghib，c，放大图片创作者：Cameron Shandb，Andre Altmannb，Daniel C.放大图片作者：Alexanderb.年轻的da美利坚合众国南加州大学凯克医学院史蒂文斯神经成像和信息学研究所b联合王国伦敦大学学院计算机科学系和医学物理系医学图像计算中心c皇后广场多发性硬化中心，神经炎症系，伦敦大学学院皇后广场神经病学研究所，脑科学系英国伦敦大学学院d联合王国伦敦国王学院精神病学、心理学和神经科学研究所神经影像系ar t i cl e i nf o文章历史记录：收到2021年2021年9月8日收到修订版，2021年保留字：疾病进展建模疾病异质性疾病亚型疾病分期a b st ra ct进行性疾病是高度异质性的。这些疾病的基于症状的临床分类可能不能反映潜在的病理生物学。数据驱动的患者亚型和分期有可能解开疾病进展的复杂时空模式。实现这一目标的工具在临床和治疗开发社区的需求很高。在这里，我们描述了pySuStaIn软件包，一个基于Python的子类型和阶段推理（SuStaIn）算法的实现。SuStaIn通过从横断面数据中推断多种疾病进展模式（亚型）和个体严重程度（阶段）来揭示异质性疾病的复杂性。pySuStaIn的主要目标是通过一个可访问的Python包来实现SuStaIn的广泛应用和翻译，该Python包支持在单个一致的架构中简单扩展和泛化到新的建模情况。版权所有©2021作者。由爱思唯尔公司出版这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。代码元数据当前代码版本v1.0此代码版本所用代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00098法律代码许可证MIT使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求，操作环境依赖性Linux，Mac，Windows问题支持电子邮件leon. loni.usc.edu，p. ucl.ac.uk，alexandra. kcl.ac.uk通讯作者：美国南加州大学凯克医学院史蒂文斯神经影像和信息学研究所。电子邮件地址：leon. loni.usc.edu（Leon M.阿克斯曼），p. ucl.ac.uk（彼得A.Wijeratne），n. ucl.ac.uk（Neil P. Oxtoby），a. ucl.ac.uk（Arman Eshaghi），c. ucl.ac.uk（Cameron Shand），a. ucl.ac.uk（Andre Altmann），d. ucl.ac.uk（丹尼尔·C.亚历山大），kcl.ac.uk。Young）。1 共同第一作者。https://doi.org/10.1016/j.softx.2021.1008111. 动机和意义亚型和阶段推断（SuStaIn）算法是了解异质性疾病进展的有力工具。SuStaIn可唯一识别导致时间变化的不同疾病进展模式（亚型这是有价值的，因为许多进行性疾病本质上是异质的，并且可以自然地通过一组不同的亚型来描述[1SuStaIn已应用于许多神经退行性疾病，包括阿尔茨海默它也被应用于进行性肺病[8]。2352-7110/©2021作者。由爱思唯尔公司出版。这是一篇开放获取的文章，使用CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008112与SuStaIn相反，大多数疾病进展模型试图根据个体内疾病进展的横截面或短期纵向快照，找到疾病如何从早期发展到晚期的单一连贯画面这些模型假设所有个体都遵循相同的进展模式[9SuStaIn概括了这些模型，以推断多种进展模式（从等效数据）。它是通过- 时空聚类方法，其将疾病亚型（即，不同的进展空间模式）与疾病阶段（即，特定亚型内的严重性或时间进展程度）分开。重要的是，SuStaIn推断的亚型和分期不能通过直接在亚型上聚类来解决，这不能解释簇内疾病严重程度的异质性，或者不能解释簇内亚型异质性的分期。开发pySuStaIn包的动机是通过开源Python实现（最初是MATLAB）扩展算法的可访问性这使更多的用户能够在他们的数据集上尝试该算法，并使更多的开发人员能够轻松地扩展代码或将其与其他方法进行比较。另一个主要动机是增加算法的灵活性，以处理多种疾病进展模型。最初的SuStaIn实现是基于线性z分数的似然函数; pySuStaIn将SuStaIn推广为在面向对象架构中处理任意定义的数据似然项作为派生这允许直接插入新的模型.作为初始证明，我们在该框架内实现了三个模型作为衍生类：（i）使用基于z分数的似然性（ZScoreSustain）的相对于对照群体的pySuStaIn包的目的是灵活和容易用途：用户选择似然类型并设置一些参数，这些参数控制要推断的子类型的数量、马尔可夫链蒙特卡罗（MCMC）迭代的数量和期望最大化（EM）起始点以及是否使用并行化。它还旨在易于扩展：可以添加新的疾病进展模型作为AbstractSustain的实现，并具有适当定义的可能性。提供了模拟代码和笔记本电脑，以帮助用户了解这些功能。2. 软件描述pySuStaIn是用Python 3编写的，使用NumPy和SciPy数值包。它使用Pathos包来并行化稍后描述的几个基于EM的计算的起始点。我们使用了Pathos而不是Python默认的多处理包，因为它允许在进程中分离随机种子，这很重要，因为pySuStaIn广泛使用了随机排列的序列。以下部分描述了pySuStaIn的软件体系结构及其主要功能。为了帮助理解，本文还提供了一些代码片段2.1. 软件构架Young等人[5]详细描述了SuStaIn算法。简而言之，SuStaIn使用一组横截面训练样本（受试者-特征矩阵）推断出越来越复杂的疾病进展模型理想情况下，这些样本应该能够充分捕捉到某些潜在异质性的动态变化，疾病，在进展和疾病严重程度的变异性方面鉴于这些数据，SuStaIn首先推断出一系列事件，这些事件表征了从早期到晚期的疾病进展。每次连续的迭代通过添加子类型来增加模型的复杂性，直到指定的最大值。最初的实现[5]使用基于z分数的数据似然来找到每个亚型的最大似然事件序列每个生物标志物与一组固定的基于z分数的事件相关;事件对应于相对于相对控制人口平均值。pySuStaIn将算法推广到接受可定制的数据可能性，例如，基于混合模型。用户可以自由地从可用的实现中选择最适合他们的问题的数据可能性（图1）。（1）、贡献自己。算法的核心功能在AbstractSustain类中实现所示图1，然后每个子类实现自己的_calculate_likelihood_stage（），_optimize_parameters（）和_perform_mcmc（）方法，所有这些方法都依赖于子类每个子类也有一个sustainData成员变量，它是AbstactSustainData派生类的实例。对于 ZscoreSustain 类，这是一个带有内部数据的ZscoreSustainData变量包含所有受试者的z评分生物标志物，其中z评分在外部进行。对于MixtureSustain，这是一个MixtureSustainData对象，内部L_yes和L_no矩阵存储生物标志物测量值属于（相对于）混合模型的患者或对照分布的概率。存储概率而不是数据本身允许以用于对事件发生或未发生的概率进行建模的概率分布的形式的完全灵活性。这些矩阵通常通过混合建模过程生成，该过程可以在pySuStaIn 中执行或在外部完成。在提供的示例代码（simrun.py）中，使用高斯混合建模（将sustainType设置为mixture_gmm）或内核密度估计混合建模（将sustainType设置为mixture_kde ） [14].OrdinalSustain 类似地存储内部OrdinalSustainData对象，其中prob_nl和prob_score矩阵分别存储每个生物标志物为“正常”的概率或者每个特定的分数。与MixtureSustain一样，该公式允许用户完全灵活地选择分布的形式。为了帮助理解我们的实现，我们简要地解释了AbstractSustain中一些最重要的方法。的run_sustain_algorithm（）中的_estimate_ml_sustain_model_nplus1_clusters（）方法在初始化后启动算法，负责推断去子类型的数量它基于这样的原则，即将现有的子类型拆分为两个子类型在计算上比将整个数据集拆分为多个子类型要简单最初，_find_ml（）函数使用贪婪期望最大化（EM）来找到基于最大似然的生物标志物序列，其描述所有受试者的进展（即，单亚型模型）。一旦推断出该序列，两个单独的方法将该算法推广到多个亚型。第一个是_find_ml_split（），如图2a所示，它找到现有事件序列分成两个子类型的最佳分割。在该方法中，由序列描述的n个受试者被随机分成两个子组，并且对每个子组分别运行贪婪EM，以找到描述该子组进展的最佳序列第二个是_find_ml_mixture（），它使用新拆分的序列和莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008113Fig. 1. PySuStaIn的架构图二. AbstractSustain的_estimate_ml_sustain_model_nplus1_clusters（）方法中的核心计算。上一次迭代作为起点来优化整个集合的序列。例如，如图所示。如果SuStaIn试图根据两个先前推断的序列S1和S2来推断三亚型模型，它将尝试两种不同的拆分，并评估它们中的每一个与数据的拟合程度。它将S1分解为S1，1和S1，2，并使用贪婪EM来找到以S1，1，S1，2开始的最大似然序列和S2。同样，它也会分裂把S2转化为S2，1和S2，2，然后对S1，S2，1和S2，2做同样的操作。使用最大似然，它将选择这两组优化序列中的哪一组最好地描述整个训练数据集并选择该集合作为新的三子类型模型。为了找到一个四子类型的模型，该算法然后将三个子类型中的每一个进行拆分，并找到三个结果四子类型模型中的哪一个最好地描述了数据，等等。一旦使用上述过程推断出序列，_estimate_uncertainty_sustain_model（）使用MCMC来估计每个序列的位置不确定性。每个序列通过交换两个随机选择的位置进行置换此过程执行一定次数莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008114图三. p y S u S t a I n 的主要功能描述为一系列操作，从输入生物标志物数据矩阵开始，然后是取决于所选数据可能性的数据准备步骤，然后SuStaIn算法在完整和交叉验证的数据上运行，最后是一组输出，包括：（i）推断模型的可视化;（ii）训练和测试受试者最可能的亚型和阶段的估计;以及（iii）一组模型选择工具。（通常为十万或一百万）。由此可以构建位置方差图（PVD），以可视化每个生物标志物在每个位置出现的频率（参见[9]以获得进一步解释）。2.2. 软件功能pySuStaIn的主要功能是：（i）灵活选择数据可能性;（ii）数据准备，这取决于可能性;（iii）基于SuStaIn的推断，以找到指定数量亚型的生物标志物这些功能在图3中描绘，并在以下子部分中更详细地描述。2.2.1. 灵活选择数据可能性pySuStaIn 最重要的功能之一是，它允许用户在现有的AbstractSustain实现中进行选择，并轻松添加新的实现。每种模型代表不同的基础疾病进展模型，由独特的数据可能性定义例如，ZscoreSustain使用基于z分数的可能性表示相对于对照群体的异常的连续累积，而MixtureSustain使用基于混合模型的可能性对从正常到异常测量的转变进行建模。OrdinalSustain模型使用分类似然从一个分数过渡到另一个分数。通过从 AbstractSustain 和AbstractSustainData派生，可以轻松添加其他疾病进展模型。重要的是，在所有这些派生类中，核心算法都没有改变：它总是使用贪婪EM和MCMC来推断最能解释可用数据的事件序列（无论如何定义）。2.2.2. 数据准备数据准备因使用的数据可能性而异。在z得分似然的情况下，ZscoreSustain类假设用户将自己对输入数据进行z得分，因此在这种情况下没有数据准备。为了清楚起见，应该对对照人群进行z评分，以便基于z在simrun.py中，sustainType设置为zscore。在混合模型似然的情况下，如上所述，MixtureSustain虽然用户可以自由地构建自己的混合模型来生成这些矩阵，但pySuStaIn实现了高斯混合模型（GARCH）和基于核密度估计的混合模型。混合模型（KDE-KES），这两种模型以前都曾与基于事件的模型一起使用[9，13，14]。在simrun.py中，分配最早阶段的模拟受试者用作对照，最后阶段的受试者用作病例。然后使用fit_all_gmm_models或fit_all_kde_models拟合混合模型，具体取决于sustainType是否设置为mixture_gmm或mixture_kde。作为一般规则，甘精胰岛素应当每一个的正态分布和异常生物标志物被怀疑是正态分布的，而KDE-100应该用于更一般的情况下，当这些值，UE不一定是高斯的，例如，它们是重尾的或不对称的。2.2.3. 基于SuStain的推理一旦准备好数据，pySuStaIn就可以运行SuStaIn算法来推断指定的子类型数量。在初始化AbstractSustain类型对象（具体地，ZscoreSustain 、 MixtureSustain 或 OrdinalSustain 对象）并调用run_sustain_algorithm（）由于SuStaIn可能在计算上要求很高，特别是在大样本量、大量生物标志物（特别是如果使用z分数似然性）和/或高N_S_max的情况下，因此使用pickle文件来保存该程序每次迭代时的算法进度。 Pickle文件保存在output_folder目录的/pickle_files子文件夹中，也是在实例化时传入的。这允许程序重新启动，例如，如果程序先前已在N_S_max设置为2的情况下运行，随后设置为3。在这种情况下，算法不必重新计算一亚型和两亚型模型，以找到一个三亚型模型。SuStaIn也可以通过cross_validate_sustain_model（）函数在交叉验证方案中运行，该函数接受每个折叠的测试样本索引列表。折叠的训练指数是所有训练样本和给定测试样本之间的集合差。然后，SuStaIn在折叠的训练数据上运行，直到指定数量的子类型，每个模型保存为特定于折叠的2.2.4. 推断亚型一旦SuStaIn模型已经拟合，位置方差图（PVD）是可视化每个亚型的推断事件排序同时考虑基于MCMC的位置不确定性估计的直观方式例如图 4 a描绘了a莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008115×见图4。如在www.example.com中实施的模拟z评分数据simrun.py。基于模拟输入数据通过ZScoreSustain推断三种亚型，其中：（图（a）每个亚型的真实事件序列;和（b）给定（c）具有随机采样的亚型和阶段的受试者的z估计亚型和分期与真实亚型和分期的比较分别见（d）和（e）PVD显示了用于生成模拟数据的三亚型模型的真实序列。每个生物标志物具有三个明确定义的基于z分数的事件，在排序中没有不确定性图另一方面，4pySuStaIn为两个完整模型（即在所有样本上训练）和交叉验证模型。交叉验证的PVD是通过找到每个折叠和完整模型序列之间的最佳一对一匹配这样做是因为更改训练数据（如在交叉验证中）可以更改推断子类型内的事件顺序。图4b和4c分别描述了来自完整和交叉验证模型的PVD，显示了交叉验证版本中的额外不确定性，如预期。2.2.5. 亚型和分期估计给定一个SuStaIn模型，由最大似然和MCMC序列组成，subtype_and_stage_individuals（）函数估计每个训练样本最可能的亚型和阶段。这是通过首先计算所有可能的亚型和阶段的概率分布来完成的，基于所述模型和给定受试者的生物标志物值来确定受试者的生物标志物值。为了找到最可能的亚型，我们对所有可能的阶段求和，选择具有最高边际概率的亚型。类似地，为了找到最可能的阶段，我们对所有子类型求和，为每个主题选择最可能的阶段图 4d和4e描绘了基于www.example.com中的模拟z分数数据建立的推断模型simrun.py。模拟将估计的子类型和阶段写入Subject_subtype_stage_estimates.csv文件。pySuStaIn还可以通过subtype_and_stage_individuals_newData（）函数估计未知测试样本的子类型和阶段，该函数期望数据的格式与训练相同data （ z- 在 ZscoreSustain 中评分 ;L_yes ， L_no 在MixtureSustain 中 ;prob_nl ， prob_score 在 OrdinalSustain中）。重要的是，该函数可用于评估个体水平子类型分配的稳定性。例如，在数据上训练SuStaIn模型后，从受试者的基线访问，子类型_和_stage_individuals_newData（）函数可以被称为上相同（或子集）受试者请注意，用户可以自由地使用该函数返回的三向prob_subtype_stage矩阵来导出替代的子类型和阶段分配（参见第2.3节）。2.2.6. 模型选择SuStaIn推断模型的复杂性不断增加，直到N_S_max指定的子类型的最大数量。用户必须自行决定选择最合适的模型。一般来说，具有更多子类型的模型将更好地描述训练数据（存在过度拟合的风险），但将更难解释。pySuStaIn提供了几种工具来帮助模型选择：（i）MCMC似然图（MCMCMC_likelihoods.png），以帮助直观地比较模型的样本内模型拟合（见图 1 ）。 5 f）;(ii)在交叉验证完成后，它将一个子类型到N_S_max-子类型模型的交叉验证信息标准（CVIC）打印到终端[5];以及（iii）对于每个交叉验证折叠，作为图（Log_likelihoods_cv_fold. png;图5g）和文件（Log_likelihoods_cv_fold.csv）的跨MCMC样本平均的通常建议使用以下两种方法选择模型：CVIC或样本外对数似然（视觉上和/或通过增加复杂性的模型之间的统计测试）而不是通过样本内MCMC似然，因为交叉验证近似于模型对未知数据的概括性。2.3. 示例代码段下面的代码片段显示了如何初始化Zscore- Sustain对象并运行SuStaIn。莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008116×××其中数据是大小为M N的矩阵，其中M是训练样本的数量，N是特征的数量，SuStaIn-Labels是用于绘图的生物标志物名称的列表。Z_vals将每个生物标志物的z分数事件阈值指定为矩阵。在上述实例中，N个生物标志物中的每一个被分配三个z分数（1、2和3）。用户还可以分配不同的号码，z值-通过在z_vals为零。例如，下面的代码：将第一个生物标志物的z分数设置如果Z_vals的该版本被传递到ZScoreSustain构造器，则第一生物标志物将仅具有两个相关联的z分数阈值（2和3），并且总体上在推断序列中将存在3 N-1个阶段而不是3 N个。通过以这种方式将Z_vals的一些元素设置为零，用户可以完全定制每个生物标志物的z分数的集合一旦维持对象被初始化，SuStaIn就可以通过以下方式运行：其中sample_sequences和samples_f是MCMC样本中每个子类型的事件序列和受试者分数，ml_subtype和prob_ml_subtype是每个样本的最大似然子类型和相关子类型概率，ml_stage和prob_ml_stage是每个样本的最大似然阶段和阶段概率。 MN_stagesN_S_max矩阵prob_subtype_stage存储每个样本的所有可能的子类型和阶段上的完整概率分布，从中我们导出prob_ml_subtype和prob_ml_stage向量。此外，一个教学笔记本电脑也是可用的-可以在/notebook中使用。3. 说明性实例pySuStaIn的说明性实例示于图2A和2B中。4和对于SuStaIn的z这些都是由simrun.py制作的仿真代码，在 /SIM 卡中模拟器通过随机采样子类型（在零和N_S_ground_truth之间，地面真值子类型的数量，在两种情况下都设置为三个），阶段（在零和阶段总数之间）。地面真值子类型从离散分布中采样，三个子类型的概率分别为0.5、0.3和0.2。地面实况阶段从均匀分布中采样。使用随机生成的地面真值序列（如图所示），4a和5a）以及这些亚型和阶段分配，生成训练数据集用于SuStaIn算法的输入。要推断的子类型的最大数量N_S_max也设置为3。图4b和5b显示推断序列三种亚型模型。在这两种情况下，都与真实序列密切对应，表明SuStaIn能够以纯粹的数据驱动方式恢复生物标志物进展的真实潜在模式。重要的是，SuStaIn有一个内置的不确定性量化（位置方差，当比较4b中的推断序列与4a中的地面实况时很明显），它真实地反映了跨阶段的欠采样。图图4D和4E描述了训练对象的真实（随机生成的）亚型和阶段与它们对于Z分数似然模拟的估计对应物之间的对应关系。图图5 f和图5 g描绘了混合物模拟的样本内（MCMC似然）和样本外（交叉验证倍数似然），表明正如预期的那样，三亚型模型比简单模型更好地解释了训练数据。4. 影响慢性病给个人和社会带来了巨大的挑战，这些挑战可能会随着全球人口的老龄化而增加。这些疾病包括神经退行性疾病如阿尔茨海默氏病、帕金森氏病和MS，以及呼吸系统疾病如慢性阻塞性肺病（COPD）。理解这种复杂的多因素疾病必然涉及使用具有相似时空进展模式的受试者分组的方法来解释异质性。SuS-taIn的独特之处在于它能够以客观的、数据驱动的方式，使用来自一组适当多样的样品的横截面信息来发现这些亚型。pySuStaIn包旨在使SuStaIn广泛可访问，易于使用并适用于不同的建模场景。它已经对各种神经退行性疾病的基本理解产生了重大影响[16]，并且从长远来看，将影响临床试验和临床实践。pySuStaInSuStaIn主要用于从连续生物标志物测量中识别数据驱动的亚型，例如从神经成像（例如多模态MRI、PET）或肺成像（例如CT）获得的那些。Ordinal SuStaIn扩展了该算法以处理各种离散有序数据，包括图像的视觉评级、神经病理评级以及临床和神经心理学测试分数。最近的四项研究说明了pySuS- taIn如何使研究人员更好地了解神经退行性疾病和肺部疾病：莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008117×图五. 在www.example.com中实现的模拟混合模型数据的示意图simrun.py，其中显示了两种可用的混合模型类型（mixture_GMM或mixture_KDE，分别基于高斯混合建模或核密度估计）。使用MixtureSustain对模拟输入数据（L_yes和L_no矩阵）进行三个子类型的推断。每个矩阵都是一个主题特征矩阵，存储受试者的观察属于混合模型导出的病例（L_yes）或对照（L_no）分布。所显示的图来自mixture_GMM样式;来自mixture_KDE样式的图非常相似。它已被用于表征阿尔茨海默病相关的tau蛋白病理学在整个大脑中的时空传播。这是迄今为止使用tau PET成像的最大研究，分析了来自五项研究的1100多名个体，目的是尽可能多地捕获tau异质性。本研究使用源自tau PET成像的区域标准化更新值比率（SUVR）作为ZscoreSuStaIn的输入。它发现了四种不同的亚型，其中两种与以前的研究一致，两种是新的亚型，类似于阿尔茨海默氏症的非典型变体。本研究使用z-评分似然性，因此异常的解释相对于认知正常的个体[6]。重要的是，这项研究表明，SuStaIn的个体水平亚型分配随时间推移是稳定的，表明89%的个体在基线和随访时都是相同的亚型，或者从零期进展到亚型。作为SuStaIn的进一步验证，还使用不同的放射性示踪剂在单独的样品中复制了四种鉴定的亚型。一项相关的研究调查了阿尔茨海默氏症相关的淀粉样蛋白和tau蛋白病理的传播，使用PET成像在400名个体中进行了一项研究。本研究使用来自淀粉样蛋白PET和tau PET的局部SUVR作为MixtureSuStaIn的输入。它发现受试者分为两种基本亚型：淀粉样蛋白优先亚型，其中淀粉样蛋白病理首先出现在大脑中，以及tau优先亚型。该模型支持阿尔茨海默病进展的双途径假说，而不是淀粉样蛋白级联假说，即流行的淀粉样蛋白中心模型。该研究使用混合模型似然，将疾病阶段解释为从明显正常到明显异常测量的过渡[17]。SuStaIn也被用于寻找基于MRI的亚型本研究使用T1加权、T2加权和T2- FLAIR MRI特征作为ZscoreSuStaIn的输入研究发现，有三种不同的MRI驱动亚型与残疾进展的相关性优于目前基于四种基于MRI的亚型的亚型分型系统。重要的是，该研究还表明，在随机对照试验中，只有一种确定的亚型显示出显著的治疗反应。该研究使用z-评分似然[7]。SuStaIn确定了慢性阻塞性肺疾病（COPD）中肺损伤的两种主要模式[8]：这些模式可用于在随访时识别存在COPD风险的其他健康吸烟者，表明SuStaIn可用于COPD的极早期分层。到目前为止，pySuStaIn已经由UCL的研究人员与密切的合作者开发和使用然而，该软件包的预期用户群是更广泛的研究人员和临床医生社区，他们专注于了解神经退行性疾病和其他进行性疾病。我们预计pySuStaIn将促进这一点，就像基于事件的模型代码现在在社区中得到更广泛的使用一样。5. 结论我们已经介绍了pySuStaIn，这是SuStaIn算法的一个基于Python的实现，是一种理解慢性疾病等渐进过程中异质性的范式转换方法。pySuStaIn旨在通过开源Python实现来扩展此算法的可访问性。我们的面向对象的实现，使用户定义的子模型，这可以很容易地添加到在未来，增加了算法的适用性。通过提供代码示例、帮助模型解释的可视化和模型选择工具，增强了竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢该项目已获得欧盟地平线2020研究和创新计划的资助，资助协议编号为666992。LMA得到了美国国立卫生研究院国家生物医学成像和生物工程研究所的支持，奖励号为P41EB 015922，并得到了美国国立卫生研究院国家老龄化研究所的支持，····莱昂·M作者：Peter A.作者：Neil P.Oxtoby等人软件X 16（2021）1008118|奖号 P30AG066530 。 PAW 得到了 MRC 技能发展奖学金（MR/T027770/1）的支持。NPO是UKRI未来领袖研究员（MR/S03546 X/1）。机管局持有MRC电子医学实验室医学生物信息学职业发展奖学金。NPO和DCA感谢国家健康研究所伦敦大学学院医院生物医学研究中心的资助。这项工作得到了医学研究委员会的支持[授权号MR/L016311/1]。AE得到了国际进步MS联盟的支持，奖项参考号PA-1412-0242。引用[1] 放大图片作者：J.阿尔茨海默病的生物学亚型：系统综述和荟萃分析。神经病学2020;94（10）：436-48。http://dx.doi.org/10.1212/WNL.0000000000009058网站。[2] Seelaar H，Rohrer JD，Pijnenburg YAL，Fox NC，van Swieten JC.额颞叶痴呆的临床、遗传和病理异质性：综述 J Neurol Neurosurg Psychiatry2011;82（5）：476-86. http://dx.doi的网站。org/10.1136/jnnp.2010.212225。[3] [10]李国伟，李国伟.多发性硬化病变的异质性：脱髓鞘的病原学意义。《神经学年鉴》2000;47（6）：707-17。http://dx.doi.org/10的网站。1002/1531-8249（200006）47：6 707：：aid-ana3> 3.0.co;2-q.[4] Murray ME，Graff-Radford NR，Ross OA，Petersen RC，Duara R，Dick-son DW.具有不同临床特征的阿尔茨海默病神经病理学亚型：一项回顾性研究《柳叶刀神经病学》 2011;10 （ 9 ）： 785-96 。 http ：//dx.doi.org/10.1016/S1474-4422（11）70156-9.[5] Young AL等，《揭示异质性和时间复杂性》神经退行性疾病的亚型和阶段推断。自然社区2018;9（1）：4273。http://dx.doi.org/10.1038/s41467-018-05892-0网站。[6] Vogel JW，et al.，Four distinct trajectories of tau deposition identified inAlzheimer's disease. Nat Med 2021;1-11. http://dx.doi.org/10.1038/s41591-021-01309-6.[7] Eshaghi A等人使用无监督机器学习和MRI数据识别多发性硬化症亚型。Nature Commun 2021;12（1）. http://dx.doi的网站。org/10.1038/s41467-021-22265-2，货号1.一、[8] Young AL等人，慢性阻塞性肺疾病疾病进展模型。Am. J.呼吸。Crit. CareMed. 2020;201 （ 3 ）： 294-302. http://dx.doi.org/10.1164/rccm.201908-1600OC网站。[9] 其他人HM。基于事件的疾病进展模型及其在家族性阿尔茨海默病和亨廷顿病中的应用神经影像学2012;60（3）：1880-9。http://dx.doi.org/10.1016/j.neuroimage.2012的网站。01.062[10]Donohue 其他 MC 从短期数据估计长期多变量进展。 Alzheimers Dement2014;10：S400-10. http://dx.doi.org/10.1016/j.jalz.2013.10.003。[11] Jedynak其他BM.计算神经退行性疾病进展评分：阿尔茨海默病神经影像学倡议队列的方法和结果神经影像 2012;63 （ 3 ）： 1478-86 。http://dx.doi.org/10的网站。1016/j.neuroimage.2012.07.059。[12]Lorenzi M，FilipzoM，Frisoni GB，Alexander DC，Ourselin S，阿尔茨海默病神经影像学倡议。描述诊断不确定性的概率疾病进展模型：应用于阿尔茨海默病的分期和预测。Neuroimage 2017. http://dx.doi.org/10.1016/j的网站。neuroimage.2017.08.059网站。[13] Young AL等人，散发性阿尔茨海默病生物标志物变化的数据驱动模型。脑2014;137（9）：2564-77。http://dx.doi.org/10.1093/brain/awu176.[14] Firth NC等人，使用一种新的基于事件的疾病进展模型估计的典型阿尔茨海默病和后皮质萎缩的认知下降序列 Alzheimer's Dementia 2020;16（7）：965-73. http://dx.doi.org/10.1002/alz.12083网站。[15] Ordinal SuStaIn：Subtype and stage inference for clinical scores，visualratings ， andotherordinaldata. 前 ArtifIntell2021;4 ： 111.http://dx.doi.org/10.3389/frai.2021.613261网站。[16]忘记典型的阿尔茨海默氏症： AI 发现四种类型 ALZFORUM 。 2021 年，https://www.alzforum.org/news/research-news/forget-typical-alzheimers-ai-finds-four-types。（2021年5月19日查阅）。[17] Aksman LM等人，在体内和死后研究中一致确定了阿尔茨海默病的Tau第一亚型。2020，www.example.com 10.1101/2020.12.18.418004，bioRxiv，p.2020.12.18.418004。[18] Janelidze S等人，血浆磷酸化tau 217水平与早期阿尔茨海默病中tau正电子发射断层扫描的关联。 JAMA Neurol 2021;78 （ 2 ）： 149-56 。http://dx.doi.org/10.1001/jamaneurol.2020.4201网站。

下载后可阅读完整内容，剩余1页未读，立即下载