多中心临床研究使用OHDSI数据模型实现数据协调

186 浏览量更新于2024-01-09 收藏 869KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁27（2021）100760多中心临床研究JoãoRafaelAlmeidaa，b，a，LuísBastãoSilvaa，c，IsabelleBosd，e，PieterJelle Visserd，e，何塞·路易斯·奥利维拉a葡萄牙阿威罗阿威罗大学DETI/IEETAb西班牙拉科鲁尼亚大学计算系cBMD Software，Aveiro，葡萄牙d荷兰阿姆斯特丹自由大学医学中心神经病学系阿尔茨海默病中心荷兰马斯特里赫特马斯特里赫特大学精神卫生和神经科学学院精神病学和神经心理学系A R T I C L E I N F O保留字：临床研究观察性研究数据协调ETLOMOP CDMA B S T R A C T为了更好地了解特定的医疗条件，已经进行了许多临床试验和科学研究。然而，这些研究通常基于少数参与者，因为很难找到具有相似医学特征并可参与研究的人。这在罕见疾病中尤其重要，因为受试者数量的减少阻碍了可靠的发现。为了通过增加分析的效力来产生更多的临床证据，研究人员已经开始进行数据协调和多队列分析。然而，对异构数据源的分析意味着要处理不同的数据结构、术语、概念、语言，最重要的是数据背后的知识。在本文中，我们提出了一种方法，将不同的队列协调成一个标准的数据模式，帮助研究界从更广泛的数据源中生成证据。我们的方法受到OHDSI通用数据模型的启发，该模型旨在协调观察性研究的EHR数据集，利用知识和开源工具进行多中心疾病特异性研究。该建议使用来自几个国家的阿尔茨海默病队列进行了验证，最终结合了6，669名受试者和172个临床概念。统一的数据集现在可以进行多队列查询和分析，有助于执行新的研究。该方法是用Python语言实现的，可在MIT许可证下在https://bioinformatics-ua.github.io/CMToolkit/上获得。1. 介绍对更好的健康诊断和治疗的持续需求推动了许多临床研究，如观察性研究和临床试验。在临床试验中，患者通常被分为两组或更多组（例如活性药物组和安慰剂组），以研究治疗对特定临床病症的有效性[1]。在这种情况下，对患者进行直接干预，例如给药或治疗程序。然而，这种方法并不总是最合适的，例如，通过随机对照试验解决整形外科的研究问题往往受到道德约束[2]。此外，在观察性研究中，研究人员不对患者进行任何积极干预，暴露是自然发生的或通过其他因素发生的。在这里，医学研究人员仅限于记录暴露与研究结果之间的关系[1]。观察性研究可分为三类：队列研究、病例对照研究和横断面研究[3]。队列定义为具有相似特征的一组受试者[4]。队列研究基于一组受试者的入选和排除标准，以及随着时间的推移确定和观察到的几个特征[5]。这些研究期间收集的数据不遵循任何关于数据存储的标准方法。因此，这些研究通常使用专用的数据收集解决方案进行，在某些情况下，该解决方案可以访问存储的一些患者信息电子健康记录（EHR）系统[6]。虽然无论采用何种技术，研究都可以成功进行，但当这些数据需要与其他相关队列相结合时，就会出现许多问题。这是多队列研究的情况，旨在增加人口规模，统计证据的力量，从而增加研究J.R. Almeida由美国国家科学基金会（FCT）资助，资助号为SFRH/BD/147837/2019。通讯作者：DETI/IEETA，阿威罗大学，阿威罗，葡萄牙.通讯作者：DETI/IEETA，阿威罗大学，阿威罗，葡萄牙.电子邮件地址： joao.rafael. ua.pt（J.R. Almeida），jlo@ua.pt（J.L.Oliveira）。https://doi.org/10.1016/j.imu.2021.100760接收日期：2021年7月29日;接收日期：2021年10月11日;接受日期：2021年10月11日2021年10月19日网上发售2352-9148/©2021的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuJ.R. Almeida等人医学信息学解锁27（2021）1007602整合多个群组不仅仅是一个技术问题。数据内容引起了其他问题，因为同一医疗程序可能有不同的描述和概念，这取决于国家、机构甚至研究。虽然有指导原则支持临床研究的设计，但它们没有考虑技术方面。因此，结构和临床概念缺乏协调是健康数据共享的主要障碍之一，这一问题延迟甚至阻止了多队列分析。这些研究的潜在影响也促使研究人员寻求更强大和可重复使用的解决方案，以从分布式健康数据集中聚合知识，从而创建组织和新的临床数据库探索方法[8]。由于法律、伦理和监管要求，共享患者级数据的主要障碍涉及隐私问题[9]。患者数据非常敏感，这种隐私的破坏可能对个人、医疗保健提供者和社会中的亚群体产生严重后果[10]。此外，每个国家的立法可能不同，这使得很难定义适合所有相关机构的协议[11]。因此，这是另一个挑战，需要找到一种解决方案，允许在不暴露数据的情况下分析多个队列。为了解决这些问题，我们提出了一种方法，通过将数据存储在标准的通用模型中，并将临床概念映射到规范化的表示来对特定疾病的队列进行协调。该数据模式被用于协调全球范围内观察研究中的EHR数据库，从而能够利用先前的知识和开源工具进行多中心疾病特异性研究[12]。2. 相关工作在过去的几年里，研究人员已经研究了几种使用来自多个机构的异质数据进行临床研究的策略。考虑到这一目标，创建了一些项目、组织和工具。Informatics for Integrating Biology and the Bedside（i2b2）[13]是首批旨在创建工具以支持临床研究人员整合患者数据的项目之一。其成果之一是能够使用匿名EHR数据进行队列估计并确定研究可行性的网络应用程序[14]。这种方法的一个共同问题是需要将数据集中起来并供平台用户访问。然而，由于法律、道德和监管政策的原因，来自不同机构的健康数据的集中化是复杂的临床研究电子健康记录（EHR4CR）一个旨在改善以患者为中心的试验设计的欧洲项目[15]。因此，在该项目中，开发了一个平台，通过访问现有的EHR系统来支持研究人员进行临床试验的可行性评估和患者招募。该平台可以使用欧洲各地包含匿名患者数据的多个临床数据仓库进行实时查询。研究人员获得了汇总结果作为输出。虽然该架构为访问多个数据集提供了一个很好的解决方案，但其成功完全取决于加入网络的卫生机构HMORN（健康维护组织研究网络）是另一个专注于创建大规模分布式健康数据网络的项目。PopMedNet1是该项目的开源应用程序，旨在简化分布式健康数据查询的操作。然而，与先前描述的举措一样，它侧重于创建访问数据的策略，而不是制定协调和匿名患者信息的标准策略。观察性健康数据科学和信息学（OHDSI）2也有类似的目标。该国际组织旨在发展支持医疗保健数据中大规模观察性研究的方法。该组织是作为OMOP项目（观察性医学成果合作伙伴关系）的一个成果发起的，以继续在全球范围内进行观察性研究。目前，该组织支持一个具有多个开源解决方案的生态系统，以使用观察数据库进行医疗产品安全性监督[8]。这类解决办法的一个例子是ATLAS，3这是一个设计群组和对观测数据进行人口一级分析的网络平台。OMOP项目的一个主要成果是定义和传播通用数据模型（CDM），这是一种数据库模式，用于扩展医疗保健数据库的内容[17]。该模型最初的重点是药物安全性监测，但它已扩展到护理质量，卫生经济学和比较有效性的许多其他用例[17，18]。该模型适应患者临床数据的标准定义，允许跨数据库使用联合查询，从而实现多个分布式分析。虽然该模型目前用于电子健康记录（EHR）数据库中的数据，但我们相信其潜力并不限于此领域。OHDSI的另一个成果是在此上下文中定义的ETL（提取、转换和加载）过程和工具。这些工具是专门为EHR数据设计的，但它们可以适应所提出的场景。另一个受OHDSI核心原则启发的项目是欧洲医疗信息框架项目（EMIF）。4该项目旨在加强对欧洲不同卫生机构患者水平数据的访问，并对不同疾病进行多队列研究[19]。其轨道之一，EMIF-AD，旨在加速发现和验证新的生物标志物，以诊断痴呆前期的阿尔茨海默为此，需要解决的一个关键问题是将不同的队列数据集组合成一个统一和一致的模型。因此，拥有所有这些平台来分析EHR数据，准备队列数据的工作将在一定程度上受益于这些工具。主要的问题是缺乏处理这个问题的ETL方法一种数据。尽管OHDSI已经为EHR数据定义了ETL管道，但队列数据集提出了不同的挑战，因为这些不要遵循原始数据中的同构或关系数据模式3. 提案拟议的方法尽可能重复使用开源工具和方法，避免开发具有类似目标的新工具和方法。因此，我们在我们方法的某些组成部分中采用了一些OHDSI工具和原则。关于存储迁移队列的数据模式，我们使用了OMOP CDM的一部分，而没有对其结构进行任何更改，因为保持数据模式不变可能会增加从队列创建的数据库与EHR数据库之间的互操作性。这种互操作性因为数据模式不适用于队列场景。相反，我们试图将信息放入现有表格中。因此，可以使用用于探索迁移到OMOP CDM的EHR数据我们还使用了OHDSI的一些ETL（提取、转换和加载）支持工具，我们将其用于队列映射场景。虽然这是一个很好的起点，但我们觉得需要使用一个协作平台来通过语义本体管理这些映射。该本体用额外的信息来表征词汇表中涉及的所有元素，并将它们组织起来他们之间的关系1http://www.popmednet.org/。2 http://www.ohdsi.org/。3 http://www.ohdsi.org/web/atlas/。4 http://www.emif.eu。J.R. Almeida等人医学信息学解锁27（2021）10076033.1. 概述所提出的方法是基于ETL原则。因此，在提取阶段，通过从一个或多个数据源中拉取所选择的源数据来读取它们。这个阶段的主要目标是从源系统获取数据，而不影响它们的正常性能。在健康数据库中，这是一项敏感的任务，因为由于数据提取过程，EHR不能过载。然而，在临床研究中，数据量不足以在此阶段使系统崩溃。此外，临床研究被导出到电子表格中，这不需要与用于收集患者数据的系统转换阶段是该管道中最复杂的组件。此阶段需要将源数据库映射到目标模式，以及内容的协调。对于数据源，此过程需要一个完整的映射，这是昂贵的。内容协调可以基于数据源对数据进行自定义操作。在临床数据库中，临床概念存在广泛的差异，需要使用标准词汇表进行协调。虽然我们能够自动化这一阶段的部分，我们仍然需要由专业的健康专业人员手动验证，以确保所有映射的数据是正确的。最后，加载阶段将处理后的数据插入目标数据库，然后可以使用分析工具访问目标数据库。在临床数据库中，这些数据库填充有匿名数据，允许在不侵犯患者隐私权的情况下进行临床研究。此外，当数据迁移到标准数据模式时，原始数据最终会被验证，并且在源数据库中可能会发现不一致。这是可能的，因为在管道中创建了质量机制，负责检查加载的数据是否符合每个标准概念的规则属性。3.2. OMOP公共数据模型模式队列协调的关键点之一是使用通用数据模式进行数据存储，例如OMOP CDM。OHDSI社区不断改进这一标准数据模式，并将其作为这个社区，有一个确定的队列协调问题的表的数量过多，主要是因为这个模型被设计为从EHR系统中提取数据。然而，专注于疾病的临床研究只需要这种模式的一小部分来存储它们的信息。完整的OMOP CDM数据模式详见[21]。该数据模式针对观察性研究目的进行了优化，每个表的表和字段由OHDSI社区定义。然而，我们的方法依赖于图1所示的OMOP CDM表集。 1、不改变它们的关系和结构。Person表存储患者的个人信息，即性别、出生日期、种族和民族。观察表保存研究期间进行的所有测量。该表中的每个条目包含：（1）用于患者识别的数字条目，仅在该数据库中使用;（2）观察概念的标准代码，即在患者就诊期间进行的特定检查该值可以通过其类型来表征，即它可以是数字、文本或代码。观察期表包含每例患者接受观察的时间间隔。OMOP CDM有一套属于“标准化卫生系统数据“组的表格。因此，我们还使用“护理地点”和“位置”表来存储有关进行临床研究的机构的信息。此外，我们使用了“标准化词汇表”组中的所有表来存储标准概念的字典。在工作流的第三阶段，即加载阶段，创建此数据模式并加载数据库。Fig. 1. 拟议方法中使用的表格来自OMOP CDM模式。完整的数据模式可在[21]中找到。3.3. ETL OHDSI工具ETL OHDSI工具是协调临床研究中记录的数据的一个很好的起点，主要是因为它们是为了独立于数据格式处理临床数据而开发的。在所提出的方法中，我们使用White Rab- bit和Usagi的一些功能来提取、协调和映射患者的临床数据。这些工具是OHDSI迁移中使用的ETL管道的一部分，其中White Rabbit扫描数据源并创建包含有关数据库内容的所有信息的结构化报告。Usagi是一个补充工具，它接收本报告中提供的一些信息，以将概念与其标准定义进行映射。队列采用电子表格结构，因为这是机构系统中通常使用的导出格式，或者在某些情况下是记录数据的方式。在方法学工作流程的提取阶段使用White Rabbit，我们可以概述这些数据集，即临床研究中的不同记录及其内容的一些统计表示。该工具生成的报告有助于在第一视图中识别数据中的一些异常。在我们的方法的不同步骤中，该报告也被用作某些组件的输入。我们对Usagi工具的修改在我们的提案中扮演了两个不同的角色。一个角色是概念映射，这与该工具的原始目标相似。通过这种方式，我们可以将学习列和观察映射到标准词汇表。另一个角色是将队列结构映射到OMOP CDM数据模式。这个工具是一个我们工作流程转型阶段的核心组成部分3.4. 协同本体开发数据库中的概念，通过映射到它们的标准定义，很容易被医疗团队识别，也允许在不同的队列研究中识别相同的概念。该程序通过丢弃未映射的概念来细化数据集中存在的数据，但原始队列数据包含更多不直接存在的患者信息。根据临床研究情况，即研究中的疾病或健康影响，观察结果可能具有其他含义。传统的ETL通常提取数据，将其转换为源目标模式，并将数据加载到新的数据模式中。当应用于具有静态和组织良好的结构的数据时，这是非常有效的[22]。在我们的场景中，有一些额外的信息需要在转换过程中进行注释。在一个非常简单的例子中，使用两个常见的测量值，如体重和身高，我们可以计算出病人的体重指数。因此，当该值高于30时，患者肥胖，这意味着患者具有肥胖的症状。J.R. Almeida等人医学信息学解锁27（2021）1007604心血管危险因素，可归类为合并症[23]。本例仅基于患者的身高和体重，显示了原始数据中有多少信息可以提高临床研究中患者选择阶段的效率。通过这种方式可以提取更多的信息，但是负责设计ETL映射的团队无法推断出这一点。为了用这种语义信息来增强数据集，我们依靠WebProtégé [24]来构建并更新我们的协调工作流程中应用的本体。该网络平台促进了参与该项目的临床专家之间的协作，从而定义了AD领域中的疾病特异性本体。最后，我们能够获得一个结构化的语义本体，其中包含通过在迁移过程中关联字段来推断知识的属性，以及作为附加功能的其他属性，以验证每个概念中的输入信息。该本体用于ETL工作流的转换阶段4. 工作流实现：CMToolkit所提出的方法使用前面描述的工具的改编在Python中实现，并且在MIT许可下在https://bioinformatics-ua.github.io/CMToolkit/上公开可用。该方法包括ETL操作的阶段，即从队列的原始数据到OMOPCDM数据库的工作流程在我们的实现中，我们将这些阶段分开，以便允许用户单独执行它们。WhiteRabbit（在提取阶段）提供了队列结构的指纹。与此同时，队列读取器将数据加载到预转换的格式中。这两个输出在转换阶段中使用，遵循并行流程。Usagi读取WhiteRabbit输出并生成队列协调器使用的映射。这个主块集中了一组操作来生成输出文件，该输出文件可以在加载阶段使用CDM加载器由于提出的用例，一些组件的实现具有挑战性。医疗数据的使用需要深厚的知识数据源，以便正确执行协调。另一项具有挑战性的任务是每个队列原始数据的自定义操作，即.在收集数据时，负责的实体采用了非标准的战略，使迁移工作流程复杂化。另一项具有挑战性的任务是将数据载入OMOP CDM和保证所建立的数据库的质量4.1. 数据协调数据协调是该工作流程中最复杂的任务，因此该阶段分为几个步骤，并行工作。如图2.有一个预处理组件，用于访问存储在临时结构中的队列数据，并基于患者随访重新组织该信息。该组件创建一个键值结构，其中每个测量值都用所有患者和时间信息表示。该结构包括患者的键值将包含作为钥匙，（一）的患者标识符，(2)诸如访问日期的属性，以及（3）检查或队列属性。该值将是该属性的条目，并且在下一个交互中，该条目和属性的标准概念代码图3示出了群组原始数据（第一表）及其在所有工作流程期间处理的格式的结构（下表）的示例。蓝色框包含定义键值结构的键的三个字段绿色框显示两个字段，它们接收协调值的概念代码。在某些情况下，协调值为空，例如所示示例。然而，在这方面，需要填写协调考试，否则该条目将在加载阶段被丢弃。队列所有者使用我们的Usagi改编版本这种调整的目的不是为了改善从该工具中获得的指标，而是为了降低处理多语言群体时的复杂性，这需要手动翻译和映射概念的大量工作[25]。从这个过程中获得的输出是必不可少的，知道群组变量是重要的迁移，什么是标准的概念，为每一个，和测量的映射。在队列协调器组件中，系统使用新的结构并添加新的属性。具有键值度量和其特征化所需信息的结构现在具有更多标识概念类型的字段以及标准代码对于变量映射，而对于测量，有数值、字符串或概念。如第3.4节所述，原始数据中存储了许多未直接表示的知识。在协调过程中，所提出的系统读取队列的本体，以检查和计算这些新的变量后，预定义的规则。例如，两个不同群组中的相同检查可以具有不同的异常值范围，这取决于用于执行检查的技术，这可以通过在本体中指定正常值范围来容易地计算。该信息与另一种患者状况相结合，导致数据库中出现了一个关于先前未在原始数据中定义4.2. 定制化运营协调器组件能够处理几乎所有的队列迁移。然而，有些场景是特定于队列的，需要额外注意。在这些情况下，我们需要开发自定义方法，例如使用Python，然后协调器将调用Python，并以高于通常迁移的最大优先级来处理数据使用这些方法的一个例子是，当存在诸如“0“和“1“的变量时，它们应分别代表“否“和“是”，但在特定队列中，“0“可代表没有响应。而“否“和“是“的实际值是“1“和“2”。虽然这个例子可以在Usagi映射中解决，但它也可以在工作流的这个阶段解决。这些方法对于处理队列数据中的错误特别有趣。例如，当队列最初以厘米为单位存储患者身高，但某些测量结果以其他单位记录时，自定义方法可以轻松解决问题，而无需更改数据源。最后，将此情况报告给数据所有者，以便他们可以修复数据不一致性。另一个例子是关于在列中拆分的变量，或者两个变量在同一列中。对于这两种情况，最好的解决方案是使用自定义方法预处理数据，该方法将在不执行任何映射的情况下重新组织数据这样，系统将按照正常执行中的预期运行这些操作需要在Python中实现为协调器在执行时加载的模块。图4显示了表示在转换阶段与这些模块的交互的图。ad-hoc模块以绿色表示，这些模块通过连接器加载到队列协调器中。因此，负责处理这些特殊字段的人员只需要创建一个模块，将映射到特定标准代码的数据进行转换。然后，在协调器中的管道期间注入该模块4.3. 数据加载到OMOP CDM在ETL工作流的最后阶段，我们可以将数据加载到OMOP CDM模式中。该系统可以连接到一个新的数据库，并自动执行此加载或返回一组CSV文件与数据协调和结构化。如果采用这种方法，J.R. Almeida等人医学信息学解锁27（2021）1007605图二. 从原始数据到OMOP CDM结构的迁移工作流程，使用建议的方法与ETL OHDSI工具相结合。此工作流分为三个主要阶段，有两个进程并行运行（以红色虚线标记）。第一阶段提取队列信息并将其加载到系统中。转换阶段使用与本体规则混合的映射对原始数据执行所有定义的操作。最后，加载阶段将数据插入数据库，生成迁移报告，指出原始原始数据的所有问题。(For在该附图图例中，读者可以理解颜色的含义，请参阅本文的网页版本图三. 队列原始数据（第一个表）及其在所有工作流程中处理格式的结构示例。蓝色框表示键值结构的键，绿色方框代表将接收协调概念代码的字段。(For在该附图图例中，对颜色的参考的解释，这篇文章的网络版本）。对于新的队列，对于进一步的数据更新，管道不需要要更改的数据库，并且它已准备好追加新数据或清理并写入新数据库。然后，可以对数据进行分析和验证。在此阶段，系统还生成一个迁移报告，这是一个执行日志，其中包含过程中发生的所有错误和警告。此报告有助于验证迁移和识别数据不一致性。例如，当存在测量值超出本体中定义的值范围时，或者当这些值不是来自指定的相同类型时，这将显示为警告。此外，该报告还显示了错误的日期和缺失的记录，后者是根据注释器所做的映射来检测的。如果映射了变量，则该报告将包含针对该变量中缺失测量值的每位患者的警告。5. 结果所提出的方法使得能够使用患有AD的患者的多个队列数据来创建研究生态系统。这条管道的主要成果是创建了这个生态系统，协调和验证了数据。然而，在这项工作的开发过程中，与队列所有者、医学研究人员和技术团队合作，创建了一个本体，用作迁移其他AD队列的基础此外，这项工作还5.1. 本体使用临床数据交换标准（CDISC）5构建本体作为指南，其中我们整合了该领域临床专家的知识以及与AD相关的既往药物化工作[26，27]。在本体中，我们添加了与标准词汇表相同的概念，大大减少了词汇表的大小，并简化了映射任务。这有两个主要好处：它提供了一个优雅的结构来管理在迁移过程中应用于概念的规则，并且它减少了Usagi字典中的概念数量，从而提高了工具的性能。创建的本体遵循分层结构，细分为12个域：• 临床信息：包含描述一些临床信息的子域，即与饮酒、吸烟、生命体征、合并症、临床访视和随访以及药物使用相关的信息• 认知筛选测试：包含认知筛选测试的概念，即认知估计，记忆改变，蒙特利尔认知评估和简易精神状态测试。• 人口统计学：是在人口统计学水平表征患者的一个小领域。允许建立一种策略，让外部研究人员在不违反数据隐私的情况下探索这些队列的数据5 https://www.cdisc.org。J.R. Almeida等人医学信息学解锁27（2021）1007606表1两个队列的属性总结。第一列包含原始数据中所有变量的总和。丢弃和映射的列是从原始数据中使用的变量的数量，组合列是从本体规则中生成的属性的数量。最后一列是构成迁移队列的属性数。变量丢弃映射组成最终柏林BASE-II 85 26 59 8 67马斯特里赫特研究313 200 113 20 133见图4。ETL工作流的片段集中在特别模块上（用蓝色表示）。绿色代表队列协调器，负责转换操作的编排。黄色的数据集表示转换为处理结构后的队列原始数据（左侧）和具有映射到其标准定义的医学概念的相同格式的队列（右侧）。 (For对于图中颜色的解释，请读者参考本文的网络版本。）• 协调生物标志物值：是用于存储关于协调生物标志物的可能值的元信息的节点。• 成像：包含映射CT、MRI和PET检查信息的标准概念。• 实验室检查结果：包括与血液和CSF方案相关的概念。• 生活方式因素：包含映射患者营养、体力活动和睡眠信息的概念• 神经心理学检查：是一个节点，与神经心理学检查相关的几个层次，即视觉结构，语言，记忆，智力和注意力。• 药物遗传学发现：主要与患者体内存在的载脂蛋白E基因• 评定量表：定义不同指示的评定量表，可用时用作控制值• 受试者特征：该节点包含患者的生活方式和教育信息• 研究信息：包含队列原始数据元数据。在这些域中的每一个中，都有几个子域层，具有表征它们的详细信息，例如，概念类型、值范围、定义概念的简要描述，以及在特定情况下，与迁移工作流相关的一些附加信息。图5示出了本体条目，其表示在该本体中如何定义概念5.2. 队列协调协调工作流程在初始阶段使用2个由真实数据生成的合成数据集。这些队列的患者数量较少，概念数量减少。然而，我们能够测试和验证自动化组件的效率。需要进行初步确认，以确保系统开发质量，并确保所产生的输出符合预期。这项验证是与荷兰阿姆斯特丹阿尔茨海默中心的元素合作手动完成的。他们收到了一个小样本的数据库生成与方法，并确定可能的结构性错误，即在映射的概念，在OMOP CDM模式。随着整个管道的整合，我们使用了EMIF-AD项目中的两个异质队列。这些队列是与柏林Charité大学医院相关的柏林记忆诊所（BMC）队列，包含6583名个体，以及来自与马斯特里赫特大学医学中心附属诊所相关的BioBank Alzheimer Center Limburg（BBACL）队列的86名患者。按照第5节所述的流程对两个队列进行了映射。所有的属性进行了分析，但我们只映射了AD研究的兴趣变量。我们使用EMIF-AD多模态生物标志物发现研究的最小临床数据集作为映射变量的指南[20]。BMC队列提供了85个属性，其中59个被映射，26个被丢弃。BBACL队列包含313个变量，但最小临床数据集中仅包含113个变量。从映射的变量中，我们进一步基于本体规则生成了新的属性：8个来自柏林数据集，20个来自马斯特里赫特队列。这些变量的总结见表1。该迁移中映射的变量是被认为对未来研究感兴趣的信息。丢弃的变量数量代表数据中的噪声，如果不迁移这些变量，则难以进行队列分析。在马斯特里赫特的情况下，与血液分析相关的变量数量可观，研究人员没有发现对AD研究的兴趣。组合变量是间接呈现的新信息但它被识别并以可搜索的格式存储。与协调程序和知识代表类似发送时，迁移管道还在收集的数据中检测到不正确的值。这种分析可以清理数据集，最终提供更准确的信息。5.3. 数据分析环境这种新格式的队列数据主要在数据分析方面带来了新的机会。虽然数据可以在一个独特的数据库中汇总，但这项工作的目标是将每个队列保存在一个独特的数据库中。这种策略使队列所有者在进行研究时能够完全控制他们的数据图6显示了研究人员进行研究时使用的工作流程的概述，包括不同级别的隐私。在第一个位置（用绿色标记），研究人员从不访问队列数据，但他们可以将包含SQL查询的ATLAS包发送给队列所有者。然后，这些实体针对其数据库运行ATLAS软件包，并在将其发送给研究人员之前分析所获得的结果。如果队列所有者同意分享这些结果，他们可以向研究人员提供数据包结果。这一战略类似于[29]中所述的，并使队列所有者完全控制数据。虽然可能不需要这种级别的隐私，但可以采用建议的方法和通用数据格式的数据来采用这种策略。在第二种情况下（标记为橙色），研究人员可以直接查询队列数据库。这是一个更灵活的场景其中数据可以共享。然而，由于OMOPCDM模式的原则之一是所有条目的匿名化，因此仍然可以确保患者隐私。J.R. Almeida等人医学信息学解锁27（2021）1007607图五. 在本体上定义一个标准概念的节点。标签标识本体中的节点，在本例中，标识来自队列raw的所需输入值数据是正数。标准代码以rdfs：conceptCode表示，它属于SNOMED词汇表，标识符为45768723 [28]。6. 讨论这项工作的结果表明，在采用拟议的方法迁移到OMOP CDM数据库的队列数据的几个好处。因此，我们讨论了这种格式的队列数据的优势，重点是数据质量和分析。我们还讨论了网络中的队列的互操作性，以及这如何解决最初提出的隐私问题。最后，我们确定了可能的限制这可能不影响其在其他情况下的使用，这取决于研究或项目要求。6.1. 数据质量和分析使用此工作流的一个优点是数据质量。在ETL过程结束时，系统能够提供一个迁移报告，其中包含有关迁移数据的统计信息，包括见图6。用于执行研究的工作流程概述，显示数据可以可以保存在私有环境中，也可以直接查询。本图中省略了分析工具和细节。5.4. 研究示例：淀粉样蛋白病理学的患病率让我们假设一个场景，研究人员希望研究淀粉样蛋白病理学的患病率，这是AD的第一个病理标志，在女性中。一个队列可能通过脑脊液中淀粉样蛋白β 1-42的水平来测量淀粉样蛋白病理学，而另一个队列则进行淀粉样蛋白正电子发射断层扫描（PET）根据这两种测量（CSF和淀粉样蛋白PET），我们可以定义允许组合不同方法的异常值为了使用原始数据回答这个研究问题，我们需要为每个队列定制搜索查询，以获得所需的子集。这并不简单，可能需要技术支持访问和过滤感兴趣的数据，这可能导致开发专门设计的编码脚本来提取信息。另一方面，通过使用迁移的队列来回答这个问题，研究人员只需要知道如何从OHDSI或数据库模式中使用ATLAS，包括搜索哪些概念。使用ATLAS，研究者定义查询而不需要了解SQL查询，因为该平台已经导出了要应用的包在其他机构和他们的数据库工作对于该问题，查询将包含以下概念代码：女性（8532）、基线观察类型（2100000000）、淀粉样蛋白β 1-42（200000070）、淀粉样蛋白β 1-42异常（200000071）、SUVr检查（2000000428）和SUVr异常检查（2000000429）。源数据不一致。这些信息对队列所有者很有帮助，因此他们可以纠正这些问题，这些问题主要是在患者随访访视期间手动收集的除了这种数据质量控制和采用通用模型外，该方法还有助于多个队列研究中的数据共享。研究问题可以在一个数据集中定义，其中指定了队列细节，并且可以在其余队列中共享和执行所得到的查询，以评估医学发现是否可在不同人群中复制。该查询可以通过SQL语言或使用ATLAS在数据库中手动定义。ATLAS也可以被认为是OMOP CDM数据库的网络用户友好的查询生成器。在这里，用户不需要知道任何编程语言来处理数据。例如，考虑以下场景：研究人员希望研究基于几种药物和检查的患者数据集，患者使用原始数据队列回答该研究问题需要使用电子表格工具，以筛选并获得所需的患者子集。如果数据储存在机构系统中，可能需要信息技术小组的支持，以便查询数据库，这很费时，而且并非总是可行。这两种战略目前都在一些机构中使用，但在数据收集方面存在相当大的延迟。此外，这两种方法都不允许数据互操作性，这是我们方法的主要要求。使用ATLAS，这个研究人员可以非常快速地定义这个查询。第5.4节提供了一个示例，这是一项重点检索淀粉样蛋白病理学患病率的女性数量的研究。虽然我们使用了一个简单的研究案例，但这可以很容易地根据研究设计的复杂性进行扩展。例如，研究人员可以在网络平台中定义队列进入事件、纳入和排除标准、研究的概念等。J.R. Almeida等人医学信息学解锁27（2021）10076086.2. 互操作性和隐私性所提出的方法的优点不仅限于简化数据分析。这也允许在不同的群组中使用相同的分析工具。 OHDSI 社区包括专门的工具，使用ACHILLES，6工具以图形方式显示数据集的统计信息，ACHILLES，6工具是一个执行广泛数据库表征的R包。这些原则可以应用于迁移到OMOPCDM模式的队列，该模式采用了建议的迁移过程。因此，ATLAS和ACHILLES提供了一个具有分析功能的Web环境，可以单独处理迁移的数据集，但由于处于同构数据模式中，这些分析很容易复制。此外，还有其他工具，即EHDEN NetworkDashboards7，专注于比较OMOP CDM数据库，这些功能也可以用于比较不同的队列数据集，以了解哪些数据集作为多队列研究的一部分是可行的队列的数据模式通常是不同的，多个队列的整合始终是一个特别的程序，通常需要在每个新研究中重复。采用所提议的方法，即，通过将数据统一到标准模式中，我们可以避免这个问题并加快研究速度。同时，由于数据转换由每个数据团队在本地执行，因此我们确保了组合数据的隐私性。因此，我们的方法可以克服医学研究中存在的一些伦理，法律和社会问题的障碍。由于OMOP CDM格式符合GDPR指南，因此解决了与患者数据隐私和第二次使用这些信息相关的伦理和法律问题。社会问题，即研究人员通常不想共享数据，也得到了解决，因为我们考虑了一个数据根本不需要共享的场景。6.3. 限制开发的方法是使用队列原始数据生成OMOP CDM数据库。然而，将输出数据模式改变为与OMOP CDM完全不同可能需要对所提出的管道的加载阶段进行重构。这种结构的小调整是可能的，对开发的系统的影响很小。当我们开发工作流程时，我们牢记OMOP CDM中可能的调整，因为OHDSI是一个活跃的社区，它改进了OMOP CDM，旨在扩展到其他医疗领域。使用AD队列实施并验证了该方法。我们不认为这种方法仅限于这一领域。然而，使用来自其他疾病的队列应用这种迁移工作流程可能需要一些调整，即在定义这个新领域的本体时。该方法的重点是ETL程序，该程序考虑了不同级别的数据集协调，并采用了旨在在队列数据集中进行EHR观察性研究的成熟工具。虽然这些队列更具疾病特异性，但不同机构的结果汇总显示了有影响力的发现[30，31]。7. 结论多队列研究通过将研究扩展到具有相似特征的不同人群来增强临床研究。在罕见疾病或疾病的研究中，受试者数量较少，在进行研究时，参与者人数减少通常是实现扎实调查和提高结果影响力的最大障碍。然而，使用来自不同和6https://github.com/OHDSI/Achilles。7https://github.com/EHDEN/NetworkDashboards。独立研究有可能增加研究价值并证实研究结果。为了简化这一研究场景，我们开发了一个迁移管道，该管道依赖于标准数据模式（OMOP CDM）、规范化词汇表（统一医学语言系统）和开源分析工具（OHDSI生态系统）。这项工作的结果有助于研究同一疾病的不同临床机构之间的合作，尊重患者的数据隐私。此外，该管道简化了数据过滤和共享，这是回答特定研究问题所必需的，而无需进行新的临床试验。虽然我们提出了一个功能齐全的方法适用于阿尔茨海默病，作为未来的工作，该方法可以复制与其他疾病。这可能需要使用已识别的工具定义新的本体，或者重用和扩展现有的本体。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1]兰加纳坦研究设计：第1部分-概述和分类。Perspect in Clin Res 2018;9（4）：184. http://dx.doi.org/10.4103/picr.PICR_124_18.[2]Song JW，Chung KC. 观察性研究：队列和病例对照是个种马。 PlastReconstr Surg 2010;126（6）：2234。http://dx.doi.org/10.1097/PRS的网站。0b013e3181f44abc。[3]陆CY。观察性研究：研究设计、挑战和策略综述以减少混淆。国际临床实践杂志2009;63（5）：691 http://dx.doi.org/10。1111/j.1742-1241.2009.02056.x。[4]兰加纳坦研究设计：第3部分-分析性观察研究。透视临床研究2019;10（2）：91。http://dx.doi.org/10.4103/picr.PICR_35_19.[5]卡尔森医学博士，莫里森RS。研究设计、精密度和有效性问题研究帕利亚

下载后可阅读完整内容，剩余1页未读，立即下载