意大利临床笔记：实体链接改进图嵌入预测病人和确诊疾病的联系

151 浏览量更新于2024-01-02 收藏 1.36MB PDF 举报

电子健康记录

医疗保健

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用17（2023）200161通过实体链接改进图嵌入：意大利临床笔记DanielaGiancarlo Sperlíb，意大利a计算机科学系，博兹-博尔扎诺自由大学，博兹-博尔扎诺，39100，意大利b那不勒斯“费德里科二世”大学地址：Via Claudio 21，80125，ItalyA R T I C L E I N F O A B S T R A C T保留字：实体链接图嵌入链接预测健康分析医疗保健电子健康记录（EHR）的不断增加是精准医疗的关键推动因素，其目的是提供不仅基于医学文献，而且基于临床经验和患者个人信息（例如基因组学，生活方式，健康史）的治疗和诊断。EHR的非结构化特性给其有效性分析带来了挑战，异构图是处理EHR信息异构性的最佳解决方案。然而，虽然电子病历是一个非常有价值的数据源，信息从目前的医学文献尚未考虑在临床决策支持系统。在这项工作中，我们从那不勒斯费德里科二世医院提供的意大利EHR中构建了一个异质图，并定义了一个方法学工作流程，使我们能够预测病人和确诊疾病之间的联系我们经验证明，将概念与生物医学本体（例如，UMLS，DBpedia）-允许我们从医学文献中提取实体和关系- 在ROC曲线下面积（AUC）和平均倒数秩（MRR）方面，对我们的链接预测工作有很大的好处。1. 介绍在最佳情况下，美国前10种药物对1/4例患者有效（最差情况下，1/25例患者有效）（Schork，2015）。我们可以报告大量类似的例子，以强调需要创新的方法来提供诊断和治疗，以便根据每个患者的生活方式、基因组学、合并症和临床病史进行量身定制（Abul-Husn Kenny，2019，Kraljevic等人，2021年）。这是精准医疗的主要目标，数字化医疗文件的可用性不断增加，通常以电子健康记录（EHR）的形式提供（Abul-Husn Kenny，2019，Rajkomar等人，2018年）。这些文件由病房的护士和医生填写，并包含有关医院招生的详细信息（例如：回忆、诊断、治疗、ICU入院）与非结构化或半结构化方法（Kormilitzin等，2021，Negro-Calduch等人，2021，Gao等人，2021年）。*通讯作者。缺乏统一的方法/框架来编辑和处理临床记录，医疗工作时间的短缺-这通常意味着更重要的活动-不可避免地导致两个主要问题（Yoon等人，2019年）：（1）来自不同来源（即，医院、病房或甚至健康专业人员）的数据的异质性，以及（2）大量的缩写和排版错误，连同以多义词和交替拼写为特征的生物医学文本的特性，使得从这样的文档中自动检索信息极其困难。如今，异构图是前一个问题的最合适的解决方案（Liu et al.，2020年）：来自异类源的信息可以被集成在统一的数据结构中，该数据结构包括医学实体（例如，入院、症状、疾病、药物）以及分别表示为节点和边的它们的关系。这些数据结构不仅使人们能够轻松直观地探索EHR，而且还可以用作许多下游任务的输入，例如社区检测（MoscatoSperlingo，2022），药物再利用（Zhang等人，2021），问题回答（Park等人，电子邮件地址：daniela. unibz.it（D. unina.itunina.itD’Auria), Postiglione），gius. studenti.unina.it（G. Romito），giancarlo. unina.it（G. Sperlí）。https://doi.org/10.1016/j.iswa.2022.200161接收日期：2022年7月1日;接收日期：2022年10月15日;接受日期：2022年11月27日2022年12月1日上线2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。目录可在ScienceDirect智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsD. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）20016122021年），等等。例如，住院信息（包括病历、诊断和测试症状的信息）可以存储在一个集成的异构图中，这使得医生可以探索患者的病史，人工智能系统可以分析所有实体和关系中隐藏的价值。在处理EHR的非结构化信息，从而从这样的数据中检索实体和关系的困难，是有效地使用异构图的主要障碍。Xiao et al.（2019）已经证明了将知识图数据与本体集成的重要性，不仅可以轻松利用来自异构数据源的数据，还可以用领域知识丰富数据。鉴于此，为了提高异质图的质量，来自EHR的信息可以用来自现有医学本体的外部知识来丰富，诸如UMLS（Bodenreider，2004）和DBpedia（Auer等人，2007a），其允许基于现有医学文献向现有图添加新节点和新关系。在这项工作中，我们建立了一个医院入院的知识图谱，那不勒斯费德里科二世医院提供的数据。我们定义了一种方法学工作流程，通过杠杆化实体链接和异构图嵌入的最新技术，使我们能够根据患者的病史和与其他患者病史的关系预测患者与可能诊断的疾病之间的联系。最重要的是，我们经验性地证明了实体链接的有益效果，它使我们能够在语义上丰富嵌入在异构图中的信息，保证了链接预测性能的显著提高。仅仅依靠病人的病史和目前的症状，我们的框架不仅可以被医生成功地应用于解释可能的诊断和并发症，而且还可以减少急救的负担，急救往往被那些不采取行动的人所淹没。 ally need first aid -对疾病联系的预测可能有助于患者了解他们是否处于紧急状态。从这个角度来看，为了减轻医生的负担，我们的方法也可以与自动分析心电图的工具集成（Persia等人，2021）通过将其信息整合到图形数据中由基于图的结构表示，其节点表示真实世界的实体，而边定义这些实体之间的不同关系。特别是在生物医学领域，生物医学异构图在大数据集成中发挥着核心作用将非结构化文本转换为结构化和可比较的格式是关键资产之一。作为因果模型，异构图可以潜在地分析患者、疾病、基因、药物、蛋白质等之间的相互作用和关系，或将患者划分为社区，或促进临床决策或帮助推动研究向精准医学发展。图在生物医学领域的应用已经得到了广泛的探索：Ma et al.（2018）和Choi et al.（2017）使用外部数据源和图神经网络来学习嵌入，然后将其用于下游任务（例如顺序诊断预测，心力衰竭预测）。Choi et al.（2020）和Choi et al.（2018）假设几个EHR中的不同种类的医疗代码具有潜在的因果关系，可以利用这些因果关系来执行下游预测。尽管它们被证明是有效的，但这些方法集中在同质图上，而没有考虑嵌入在EHR中的信息为了填补这一空白， Liu 等人（ 2020 ）提出了一种相似性图神经网络（HSGNN），将EHR的信息组织在多个同质图中，然后将其组合成一个图进行诊断预测。在这项工作中，我们分析了利用外部本体插入结构信息（例如，疾病和治疗之间的已知关系）转换到现有的对EHR数据建模的异构图2.1.1. 定义定义1（异构图）。形式上，异构图��= {��，��}是一个具有多种类型节点和链路的网络。具体地，在H内，每个节点��与节点类型（）相关联��，并且每个链路��∈��与链路类型��（��）相关联。定义2（元路径）。元路径是在网络结构以11的形式表示的模式22 ...n+1其中o和l是本工作的其余部分结构如下：在第2节中，←←←←←→←←←←←←←→←←←←←←←←←→←←��提供了这项工作的理论背景，同时考试相关的工作;在第3节中，我们描述了那不勒斯费德里科二世医院提供的意大利语料库，而在第4节中，我们提供了深入描述这项工作的方法流程。最后，实验结果在第5节中给出。2. 背景和相关工作节点类型和链路类型。每个元路径从特定的语义角度捕获其两端节点之间的邻近性。定义3（异构图嵌入）。对于给定的异质图H，异质网络嵌入是一组映射，功能{��∶ ��×��}��其中K是节点类型的数量，在本节中，我们检查相关的工作，并提供了本文的理论背景。特别地，在第2.1节中，给出了异构图的概述，以及定义（第2.1.1节）和表示学习（第2.1.2节）和链接预测下游任务（第2.1.3节）的概述。第2.2节对实体链接进行了深入研究。在第2.3节中，提供了当前生物医学本体的概述，重点是本文中使用的那些。最后在2.4节中我们讨论了我们的贡献，突出了所提出的方法的新颖性。2.1. 异质图一般来说，一个图��的定义是一个数据结构，它由一组节点组成，这些节点之间用边连接。��然而，生物医学场景是大量具有不同类型（例如患者，疾病，治疗，症状）的相互关联的实体。因此，将节点与它们的类型一起特征化可能是非常有信息性的，并且对于下游任务是有用的。具有两种或两种以上类型的节点和/或关系的图称为异构图。异构图的诞生是为了将人类知识融入智能系统。这一知识是代表性的。∀�� ∈��,��(��) =��,�� ≪∣�� ∣. E a= c1 h映射定义了潜在表示（也称为��嵌入），其捕获关于E中的异构链路的网络拓扑信息。2.1.2. 表示学习表示学习是将结构化和非结构化数据映射到嵌入向量的过程，因此它们可以由各种下游机器学习算法直接执行。根据其共同目标，可以将文献中存在的HNE的不同方法分为3个不同的组（Yang等人，2020年）：• 邻近保持方法（Fu等人，2017，Zhang等人，2022年）。通过保持节点之间不同类型的邻近性，可以捕获网络的拓扑信息。HNE中有两大类近似保持方法：随机游走方法和基于一阶/二阶近似的方法。这两类保逼近方法本质上都是对某类矩阵进行单层分解，因此被认为是浅网络嵌入。D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001613Fig. 1. 链接预测示例。• 消息传递方法（Schlichtkrull等人，2018年，Hu 等人，2020年）。网络中的每个节点可以具有被表示为特征向量的属性信息。��消息传递方法的目标是通过聚合u的邻居的信息来学习基于u的��图神经网络（GNN）被广泛用于消息传递过程。因此，与基于近似的HNE方法不同，消息传递方法通常被认为是深度网络嵌入，因为它们具有多层可学习的投影函数。• 学习方法（Yang等人，2015年，Dettmers等人，2018年）。与以前的方法，通过参数代数运算建模的边缘类型之间的关系，关系学习方法依赖于引入一个基于三重的评分函数，而不是考虑元路径或元图。知识图中的每条边都可以看作是一个三元组（u，l，v），其中u，v是图中定义一条边的两个节点，其类型为l。这些方法的目标是学习一个评分函数��（��，��），它评估每个三元组并返回一个标量来衡量每个三元组的可接受性。2.1.3. 链接预测链路预测是预测网络中两个节点之间是否存在链路的任务。有几个链接预测的例子，比如：预测社交网络中用户之间的友谊链接，预测引用网络中的合著链接，预测生物网络中基因和蛋白质之间的相互作用，以及在我们的案例中，预测生物医学网络中患者和疾病之间是否存在联系。链接预测也可以具有归纳方面，其中，给定时间处的链接集合的快照，目标是预测时间+1处的链接（参见图11）。1）。问题定义给定一个网络，其中，网络中的实体节点表示网络中实体节点的集合，网络中实体之间的真实链接表示网络中实体之间的真实链接的集合，我们考虑实体集合和真实链接的子集，称为观察链接（训练集），目标是预测观察链接中未考虑的真实链接，称为未观察链接。��在链接预测的归纳公式中，观察到的链接对应于时间t的真实链接，目标是推断时间t+1的真实链接集。通常，我们也会得到一个未观察到的链接的子集，称为潜在链接E在链接预测任务的二进制分类公式中，潜在链接被分类为真链接或假链接。用于此设置的链接预测方法学习将E'中的链接映射到正标签和负标签的分类器在概率估计公式中，潜在链接与存在概率相关联。用于此设置的链接预测方法学习将E'中的链接映射到概率的模型根据用于预测链接的信息类型，方法可分为：• 基于拓扑的方法（Behrouzi等人，2020年）。具有相似网络结构的节点更有可能形成链路。在这方面，可以使用不同的方法来计算两个节点之间的相似性，基于它们的共同邻居，如：共同邻居，Jaccard测度，• 基于内容的方法（Gao等人，2011年）。这些方法基于节点属性的相似性来预测链接的存在，所述相似性是利用欧几里得距离上的余弦相似性来计算的。• 混合方法（Zhang等人，2020年）。它们结合了基于属性和拓扑的方法。最常用的混合方法之一是图嵌入，它学习一个嵌入空间，其中相邻节点由向量表示，以便向量相似性度量，如点积相似性或欧几里得距离，在嵌入空间中保持不变。这些相似性是拓扑特征和基于属性的相似性的函数。然后可以使用其他机器学习技术（例如，SVM）来基于向量相似性预测边缘。2.2. 实体链接实体链接（EL）是指将命名的实体引用映射到知识库中相应的概念。命名实体词是指感兴趣的实体类型（例如，人、疾病、位置）的文本中的标记序列解决此任务的一般架构由3个不同步骤组成（Shen等人，2015年）：• 候选实体的生成。（Shen等人，2013，Deorowicz Ciura，2005，Zhang等人，2010）对于每个命名实体，然后，EL系统过滤掉知识库中不相关的实体，并返回一个候选实体的子集，这些实体可能会引用。• 候选人排名。（Cucerzan，2007，Chen等人，2010，Shen等人，2012，Chen Ji，2011）基于监督或无监督方法对候选实体进行排名，以检索要链接到命名实体提及的最• Underground提到了预测。在某些情况下，命名实体项不能与知识库中的任何概念相链接。在过去的几年中，已经提出了几种方法来通过联合执行命名实体识别和消歧任务（端到端实体链接）来提高整体性能（Broscheit，2019年，Wiatrak Iso-Sipila，2020年）。实体链接的另一种有效方法是利用领域知识：例如，在生物医学领域，存在可以链接到命名实体的生物医学概念的知识库和词库（见第2.3节）。Bhowmik等人（2021）遵循经典的Zhu et al.（2020）和Onoeand Durrett（2020）添加了更多信息以提高所获得的性能，即与每个候选实体和每次提及相关联的类型的预测，基于知道实体的类型可以简化消歧的想法。由于并不总是能够依赖于关于特定领域的丰富信息（即注释数据，大型知识库），基于远程学习的独立于领域的方法用于注释未标记数据（Le Titov，2019）和零射击方法用于在一个领域上训练模型并在其他不同领域上进行预测（Wu等人，2020，Yao等人，2020年，它变得越来越普遍。最后，近年来，已经尝试通过不仅利用基于非结构化文本的信息，而且利用基于图形嵌入的信息，在知识的基础上利用不同实体之间D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001614表1与相关工作比较参考文献年节点任务方法本体Yang and Yang（2015）2015用户、药物、疾病、药物不良反应（ADR）Chen等人（2016）2016年记录，身体测试，心理评估，轮廓药物相互作用logistic回归×风险预测优化×Yang和Yang（2016）2016年用户、药物、疾病、ADR药物相互作用决策树，k-NN，×MLP，SVM，RBF赵杨（2016）2016年药物、疾病、ADR药物再定位路径挖掘×Pham等人（2018）2018肾脏疾病，肝炎，糖尿病，血压和胆固醇，心脏病，呼吸系统疾病，个人资料和其他风险预测优化×Sun等人（2019）2019年患者，诊断疾病进展挖掘社区检测，×规则挖掘完颜等人（2020）2020年患者，实验室，诊断疾病预测异质图×嵌入Liu等人（2020）2020年患者、就诊、诊断、用药疾病预测异质图×嵌入Wang等人（2021）2021例患者、症状、疾病疾病预测异质图×嵌入完颜等人（2021）2021例患者，实验室，诊断死亡率预测异质图×嵌入Ours2022 patient，disease，symptom，drug disease prediction heterogeneous graph我们的2022例患者，疾病，症状，药物疾病预测异质图嵌入为了集体地消除同一文献中不同提及的歧义（Bhowmik等人，2021，Parravicini等人，2019年）。2.3. 生物医学知识库为了解决实体链接问题，不仅需要考虑提及，而且还需要考虑允许将每个提及链接到所考虑的知识库中的对应实体的知识库生物医学实体链接背后的想法是，医学概念之间的已知关系可能有助于预测下游任务。大量的公共生物医学数据库提供了一个丰富的资源，用于将事实知识添加到异构图中。例如，国家生物医学本体中心（NCBO）BioPortal1每年增加约75个新本体在这工作，我们将考虑两个不同的知识库，称为：• 网格2医学主题词（MeSH）叙词表是由美国国家医学图书馆编制的受控和分层组织的词汇表。它用于生物医学和健康相关信息的索引，编目和搜索MeSH包括MEDLINE/PubMed、NLM目录和其他NLM数据库中出现的主题词• DBpedia（Auer等人，2007年b）。DBpedia社区项目从维基百科中提取结构化和多语言知识，然后使用语义网和关联数据技术将其免费提供给Web。该项目从维基百科的111个不同语言版本中提取知识从英文版中提取的最大的DBPE知识库维基百科包含超过4亿个事实，描述了370万件事物。从其他110个维基百科版本中提取的DBpedia知识库总共包含146亿个事实，并描述了1000万个额外的东西。DBpedia项目将27种不同语言版本的Wikipedia infoboXes映射到一个由320个类和1，650个属性组成的共享本体1https://bioportal.bioontology.org。2http://www.nlm.nih.gov/mesh/。2.4. 我们的贡献在我们的工作中，在构建生物医学异构知识图之后，我们看到实体链接任务如何通过规范化其中的实体来改进先前创建的知识图，其中实体存在于DBPedia知识库中，并从后者添加进一步的信息。以这种方式，在计算节点嵌入后，将有可能通过聚类分析获得更好的链路预测任务和分布均匀的患者社区的性能与Parravicini等人（2019）使用的方法不同，他们使用了一种基于深度行走的技术（Perozzi等人，2014）来获得知识图的每个顶点的向量表示，在我们的工作中，使用了最先进的异构网络表示学习技术（消息传递方法，第1章中形式化的学习受最近用于通过图嵌入来提高实体链接任务的性能的方法的启发（Parravicini等人，2019），进行了相反的过程：基于双编码器和交叉编码器的实体链接模型（Wu等人，2020）被用来提高异构知识图的质量，用DBpedia中存在的实体规范化其中的实体，并添加从规范化实体中提取的进一步信息。表1总结了将异构图分析应用于医疗保健的现有方法。我们可以观察到，异构图已用于许多下游任务：由于广泛存在药物不良反应，药物相互作用预测是一项重大的健康安全挑战，应进行预防性检测;药物重新定位旨在识别可用于新适应症的已知药物;健康风险预测旨在根据当前和过去的EHR识别处于风险中的患者，其中风险旨在作为不希望的结果，如死亡或发病率;疾病预测根据患者的EHR或病史（也称为“疾病”）识别可能的诊断。疾病进展挖掘）。在我们的工作中，我们将专注于疾病预测，这将被处理为链接预测任务，即我们将根据EHR识别患者和疾病节点之间的链接。在最近的工作中，我们分析了异构图结构的异构图嵌入的手段，并比较perfor-mance获得不同的国家的最先进的方法。到达贝斯特在我们的知识中，通过将基于EHR的异构图集成到现有的生物医学知识库中获得的实体和关系从未被研究过，尽管具有很高的潜在价值D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001615表2数据集表征。统计值入院人数404患者人数239招生日期从2012年02月28日至2021年01月20日每例患者的入院率（平均值，标准差）1.690，1.646最大允许人数11发生次数最多的5种疾病（高血压疾病，291），（房颤，151），（冠状动脉疾病，121），（异常脂蛋白血症，110），（1型糖尿病，101）这要归功于他们提供的关于实体的公共医学知识。为了填补这一空白，我们构建了两个不同的异构图（在基于实体链接的丰富之前和之后），并研究了基于异构图嵌入的链接预测模型的性能。在我们的实验中，我们确认了本体对基于EHR的异构图的附加价值，这使我们能够通过实验的所有嵌入方法获得显著且一致的性能改进3. 材料在这项工作中，我们使用了一个临床记录语料库，我们将使用Wincare的名称，其特征如表2所示，关于那不勒斯费德里科II提供的心脏科住院情况。一个生物医学工程的学生团队注释了总共1000个与从sauri获得的独特概念相关的疾病，例如DBpedia和医学主题标题（MeSH）。对于实体链接任务所需的标记，为标记为疾病的每个提及分配与MeshID代码对应的字母数字标签就足够了语料库特征如下：在训练集中700个疾病提及，在开发集中150个疾病提及，在测试集中150个疾病提及。从针对名称实体识别任务标记的数据集开始，其中每个标记与以下之间的标签相关联：B-疾病、I-疾病、B-症状、I-症状、B-药物、I-药物、O。然后，每个令牌与代表特定生物医学实体的另一个标签相关联，由所考虑的令牌表示。这些标签通过外部知识库如DB-pedia（Aueret al.，2007a）和MeSH（Lipscomb，2000）（医学主题标题），通过提取每个生物医学实体的相应网格ID代码。特别地，通过分别称为OpenLink Virtuoso和MeSH Browser的DBpedia和MeSH的适当搜索引擎，可以针对所提供的数据集的每个令牌在知识库中搜索对应的实体，并从后者提取要用作令牌标签的网格ID代码。通过这种方式，可以标记1000个不同的实体提及，这些实体提及可以用于基于BERT等转换器对实体链接模型进行微调。具体而言，在这1000次提及中，有85.8%在DBpedia知识库中有相应的生物医学实体，而只有剩余的14.2%没有。对于这14.2%，从MeSH知识库中提取与每个实体提及对应的标签。为了完整起见，我们在表3中报告了我们的异质图的统计数据，这些统计数据是从方法学工作中得出的。4. 方法本研究的主要目的是分析意大利临床笔记的实体链接方法，旨在通过图嵌入策略改进链接预测任务。特别是，我们从意大利医院治疗的患者的病历中提取信息，用于构建和改进生物医学知识图。表3图形特征化。统计值节点总数1764边缘总数3351疾病节点数204既往疾病节点数668诊断疾病节点数455症状节点数143患者节点数量239患者的平均疾病数4.71患者的平均症状数2.29从构建的知识图开始，异构图表示学习的最新技术已经被用于在低维空间中表示图的每个节点，因此图中的相邻节点具有相似的向量表示（同构）。然后，这些表示已被用来直观地分析通过降维技术（PCA和t-SNE）获得的结果，并处理链接预测任务。总体方法学工作流程总结见图2。首先，我们对可用数据集进行预处理，以便从原始数据集中收集感兴趣的信息。因此，检索并用图形数据结构组织关于入院的病历、测试症状和诊断的临床笔记。执行NER步骤以便将这些非结构化注释连接到医学概念，即疾病、症状和药物。然后，执行实体链接步骤，不仅消除实体提及的歧义，而且检索医学概念之间的新关系。通过计算异构图嵌入，我们最终可以执行链接预测，以预测从诊断到疾病的链接，从而使我们能够帮助医生识别可能的医疗问题。我们现在将深入描述方法中的每一步，并提供一个运行示例以促进理解。运行示例1. 让我们考虑一个具有以下病史临床记录的患者“E IMA nel 2006.首先是IVA，然后是CX。Nega angor，riferiscedispnea da sforzi non abituali从这个非结构化的文本评论开始，我们的目标是提取医学概念并预测相关疾病。4.1. 预处理在我们的数据集中，每个患者可以进行一次或多次访问，这些访问与医生测试的单个病史（既往史），单个诊断和单个症状信息反过来，每个病史可以有零个或多个症状、疾病和药物，而每个诊断只能有就诊后要服用的药物和诊断出的疾病的信息。从提供的原始数据开始，有必要分析这些数据，以提取构建知识图谱所需的信息。特别是，获得了每例患者的以下信息：• 访视：数字识别代码、日期和时间。• 回忆：收集和批判性研究的症状和事实的医学利益报告的病人或他的家人。进行这项调查的目的是丰富的信息图片，有助于正确诊断当前的病态。• 诊断：确定疾病、伤口或损伤、其位置和性质。识别是通过D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001616图2. 总体方法学工作在我们的分析中进行。根据类比推理对患者表现出的各种症状进行评估• 医生测试的症状• 症状和疾病在回忆阶段。• 诊断的疾病。• 在访视前后服用的药物。4.2. 命名实体识别关于症状和疾病的信息是从与病历中存在的回忆和诊断相关的文本字段中提取的，通过根据IOB 2（内部-外部-开始）格式（RamshawMarcus，1999）的先前标记阶段提供标记前的I-前缀表示标记在一个块内（在我们的例子中，I-疾病或I-症状）。O标记指示令牌不属于任何块。标签前的B前缀表示该标签是一个块的开始（在我们的例子中是B-Disease或I-Disease）。在将文本分割成标记之后，对于包含在与回忆字段和诊断字段相关的文本中的每个标记，在B-疾病、I-疾病、B-症状、I-症状、B-药物、I-药物、O之间分配标签。运行实施例1（从第5页继续）。NER步骤允许我们从临床笔记中提取和提取医学概念。我们显示了从分析中的临床记录中检索到的概念，其中突出疾病和症状概念“E IMAnel 2006. 首先是 IVA ，然后是 CX 。 Nega angor ，riferiscedispnea da sforzi non abituali4.3. 实体链接一般来说，实体链接模型需要两个不同的输入：待训练、验证和测试的示例（数据集），以及将每个示例链接到相应实体的外部知识库知识库本身。特别地，从数据集中提取关于陈述及其上下文的信息，而关于实体的信息（即，每个实体的标题和描述）从所使用的知识库中推断。我们使用BLINK（Wu等人，2020）用于实体链接，因为它在少数情况下证明了有效性，在这种情况下，我们没有大训练集的可用性，就像我们的情况一样。特别是，为了将每个提及链接到所考虑的知识库中的相应实体，我们使用了两个不同模型的联合：• 双编码器模型。它使用两个独立的BERT转换器模型将上下文/提及和实体编码成稠密向量，每个实体候选者的得分是这些向量D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001617|| |向量。然后将由双编码器检索的候选者传递到交叉编码器进行排名。• 交叉编码器模型。它在一个Transformer中编码上下文/提及和实体，并应用额外的线性层来计算每对的最终得分。输入是输入上下文、提及表示和实体表示的串联。这允许模型在上下文和实体描述之间具有深度交叉关注。该实体链接模型的主要优点之一是能够在测试阶段正确预测，甚至在训练阶段从未见过的提及，利用候选实体的标题和描述信息。4.3.1. 实体规范化在该阶段中，从实体链接模型获得的结果用于规范化包含在自动创建的知识图中的疾病类型的实体。特别地，该模型将针对数据集中的每次提及预测知识库中的相应正确实体。在将这些信息存储在文件中之后，可以创建一个脚本，在图上执行几个密码查询，以便用新的疾病类型节点修改疾病类型节点（对应于我们的数据集的提及），对应于属于DBpedia知识库的预测实体。4.3.2. 通过DBpedia丰富存储在知识图中的信息在实体规范化步骤之后，我们将在图中具有一组疾病类型节点，其对应于存储在DBpedia知识库中的实体，用于规范化Wincare数据集中存在的实体提及因此，一旦获得这些DBpedia实体，就可以通过从DBpedia中提取每个实体的附加信息来丰富知识图。特别是从DBpedia中提取的信息包括：• 领域：特定疾病所属的医学分支（例如心脏病学、肺病学、肿瘤学等）;• 并发症：疾病的不利发展或后果。并发症通常涉及疾病严重程度的恶化或出现新的体征、症状或病理变化，这些变化可能遍布全身并影响其他器官系统。因此，并发症可能导致由先前的疾病引起的新疾病的发展。各种治疗也可能导致并发症。• 治疗：对健康问题的尝试性治疗，通常遵循医学诊断。一般来说，每种疗法都有适应症和禁忌症。有许多不同类型的治疗。并非所有的疗法都有效。许多疗法可能产生不必要的不良反应。• dispnea→呼吸急促（https://dbpedia.org/page/Shortness_of_breath）此外，这些医学概念之间的关系，并与本体中的其他概念提取。例如，4.4. 异构图嵌入在本节中，我们概述了这项工作中使用的异构图嵌入的最新技术。该步骤的目标是使用这些异构图嵌入技术来获得先前获得的链接知识图的每个节点的矢量表示。在这方面，将使用4种不同的最先进的技术来获得节点嵌入。随后，将通过视觉分析和定性分析对它们进行比较，评估它们在链接预测任务中的性能，从而在我们的案例中找到获得图嵌入的最佳技术。4.4.1. HIN2Vec（邻近保持方法）HIN2Vec（Fu等人，2017）是一种神经网络模型，旨在通过利用节点之间不同类型的关系来捕获嵌入在异构信息网络（HIN）中的丰富语义。HIN2Vec的思想是联合学习节点向量多个预测任务的模型，每个元路径一个。因此，模型的目标是预测每对输入节点之间的一组目标关系（由元路径和跳数指定）。所使用的模型是一个单隐层前馈神经网络，它以一对节点��，��∈��作为输入来预测概率��（��，��）（��= 1.�� ）作为输出。总而言之，这个概念模型可以被看作是一个多标签分类器，三个矩阵，、和，收集了输入节点对的特征向量及其关系。��这种概念模型在训练数据准备和模型学习过程中都面临着过多的开销，因此HIN2Vec的作者提出了一种更好的设计。4.4.2. R-GCN（消息传递方法）R-GCN（Schlichtkrull等人，2018）是GCN（图卷积网络）的扩展，它引入了特定于关系的变换（即取决于边的类型和方向），并具有K个卷积层。回想一下，在GCN中，每个节点i的隐藏表示在（n+ 1）��层的计算公式为：ℎ��+1=��(∑1��(��)ℎ(��))(1)以这种方式，有可能推导出这些参数之间的进一步关系��∈��为每位患者诊断不同的疾病。例如，如果两种不同的疾病属于同一医学分支，则它们可以彼此相关（例如，“sharing”运行实施例1（从第6页继续）。分析中的临床记录中每个实体的关联概念如下所示：• iperteso→高血压（https://dbpedia.org/page/Hypertension）其中，k是归一化常数， k是节点i的邻居索引的集合。R-GCN与GCN的主要区别在于R-GCN中的边可以表示不同的关系。在GCN中，等式（1.1）中的权重f（f）由层l中的所有边共享相反，在R-GCN中，不同的边缘类型使用不同的权重，并且仅使用相同关系类型的边r与相同的投影权重r（r）相关联。因此，R-GCN中的（n+ 1）��层中的实体的隐藏表示可以被公式化为以下等式：ℎ��+1=��(��ℎ��+∑∑1��(��)ℎ (��))(2)• 糖尿病→血脂异常（https://dbpedia.org/page/Dyslipidemia）0��∈��∈��，��• IMA→心肌梗死，其中，IMA表示节点i的邻居索引的集合，��（https://dbpedia.org/page/Myocardial_infarction）r∈ R和��，是一个标准化常数。应用的问题D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001618图3.第三章。给定输入查询的链接预测示例。上述等式直接导致了参数数量的快速增长，尤其是对于高度多关系的数据。为了减小模型参数大小和防止过拟合，本文作者提出使用基分解。该模型的特征在于，分数由2D形状嵌入上的卷积定义。形式上：��(��,��)=��(��(��([��;�� ]∗��))��) ��(5)whereanddenote the 2D reshaping matrices of nodeembedding��（（三）和关系嵌入;是向量化运算符因此，权值λ（λ）是基变换λ（λ）与系数λ（λ）的线性组合。基的数量B远小于知识库中关系的数量��最后，节点i的节点嵌入是第K层的输出<$k（k）。4.4.3. DistMult（关系学习方法）给定一个三元组（主体实体（别名头）、关系和对象实体（别名尾）），DistMult（Yang等人，2015）仅使用对角矩阵，而不是使用多个矩阵（如RESCAL（Nickel Tresp，2011））来表示实体之间的关系。使用双线性函数定义基于相似性的评分函数 λ（λ，λ）( , )=(4)其中=（1，...，）是对角矩阵X，而和是u和v的节点嵌入。与RESCAL（Nickel Tresp，2011）等先前方法相比，该方法的一大优势是训练阶段使用的参数数量明显较少。4.4.4. ConvE（关系学习方法）ConvE（Dettmers等人，2018）超越了简单的距离或相似度函数，并提出了深度神经模型来对三重性进行评分。在ConvE中，输入实体和关系之间的交互由卷积层和全连接主要特点是--=1将一个m × n矩阵X映射到一个mn维向量;D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）2001619卷积算子4.5. 链接预测遵循Yang et al.（2020）的方法，我们使用Hadamard函数来构建节点对的特征向量，在80%的训练链路上训练两类LinearSVC，并对20%的保持链路进行评估我们重复标准五重交叉验证的过程，并计算AUC（ROC曲线下面积）和MRR（平均倒数秩）的平均得分。AUC是二进制分类问题的标准度量，而MRR是排名的标准度量（链接预测可以被认为是链接检索问题）。运行实施例1（从第7页继续）。通过利用在先前步骤中构建的异构图和用最先进的方法获得的嵌入，我们能够执行诊断和病症之间的链接预测。在图3中示出了分析中的患者的示例。考虑到从临床笔记中提取的概念以及它们与异构图的其余部分的连接，链接预测框架选择“冠状动脉疾病”作为最可能被诊断的疾病。这不仅得到了与其他患者相似性的支持，而且还得到了高血压与诊断疾病之间的并发症D. 莫斯卡托湾Postiglione等人智能系统与应用17（2023）200161105. 实验在本节中，我们将讨论所设计的方法的每个步骤中获得的结果。特别是• 将描述用于实体链接步骤的数据集、知识库、度量和训练参数。• 所得结果之间的比较，注意前后的差异。• 讨论分析结果，关于每个步骤所带来的优势。5.1. 实验方案在我们的案

下载后可阅读完整内容，剩余1页未读，立即下载