John Giorgi1,4,5,� Gary D. Bader1,2,4,6,7,† Bo Wang1,3,5,8,†0一种用于文档级关系抽取的序列到序列方法01 多伦多大学计算机科学系 2 多伦多大学分子遗传学系 3多伦多大学实验室医学与病理学系 4多伦多大学特伦斯∙唐纳利细胞与生物分子研究中心 5 Vector人工智能研究所6 Lunenfeld-Tanenbaum研究所,西奈健康系统 7 PrincessMargaret癌症中心,大学健康网络 8 Peter Munk心脏中心,大学健康网络0� 通讯作者 † 同等贡献 {john.giorgi,gary.bader}@mail.utoronto.cabowang@vectorinstitute.ai0摘要0由于许多关系跨越句子边界,对文档级关系抽取(DocRE)的兴趣越来越大。DocRE需要整合句子内部和句子之间的信息,捕捉实体提及之间的复杂交互。大多数现有方法是基于流水线的,需要实体作为输入。然而,联合学习提取实体和关系可以提高性能,并且由于共享参数和训练步骤而更加高效。在本文中,我们开发了一种称为seq2rel的序列到序列方法,可以端到端地学习DocRE的子任务(实体提取、共指消解和关系提取),取代了特定任务组件的流水线。使用一种称为实体提示的简单策略,我们将我们的方法与现有的基于流水线的方法在几个流行的生物医学数据集上进行了比较,在某些情况下超过了它们的性能。我们还首次报告了这些数据集的端到端结果,以供将来比较。最后,我们证明,在我们的模型下,端到端方法优于基于流水线的方法。我们的代码、数据和训练模型可在 https://github.com/johngiorgi/seq2rel上获得。在线演示可在https://share.streamlit.io/johngiorgi/seq2rel/main/demo.py上使用。01 引言0PubMed是最大的生物医学文献库,包含超过3000万篇文章,每分钟增加一篇(Church,2017年)。需要准确的自动化文本挖掘和自然语言处理(NLP)方法来最大化发现和提取结构化信息。0从这个大量的文本中提取信息的一项重要步骤是关系抽取(RE),即识别文本中参与语义关系的实体组。在生物医学领域,感兴趣的关系包括化学诱导疾病、蛋白质相互作用和基因-疾病关联。0已经提出了许多关于RE的方法,从基于规则的方法到基于机器学习的方法(Zhou等,2014年)。大部分工作都集中在句内二元关系抽取上,即将句子内的实体对分类为属于特定关系(或无关系)。这些方法通常忽略了常见的复杂性,如嵌套或不连续的实体、共指提及(文本中指代同一实体的词或短语)以及句间和n元关系(见图1的示例)。不对这些现象建模是一个强假设。在GENIA(Kim等,2003年)中,一篇PubMed文章的语料库中标记了约10万个生物医学实体,约17%的实体嵌套在另一个实体内。不连续的实体在临床文本中特别常见,流行的基准语料库中约10%的提及是不连续的(Wang等,2021年)。在CDR语料库(Li等,2016b年)中,该语料库包含1500篇PubMed文章,注释了化学诱导疾病关系,约30%的关系是句间的。一些关系,如药物-基因-突变相互作用,很难用二元关系抽取建模(Zhou等,2014年)。0针对其中一些缺点,对文档级别的RE(DocRE)越来越受到关注。DocRE旨在建模实体的共指提及之间的句间关系。0arXiv:2204.01098v1[cs.CL]2022年4月3日0+v:mala2277获取更多论文+v:mala2277获取更多论文0图1:实体和关系提取中的复杂性示例及所提出的线性化模式来建模它们。CID:化学诱导的疾病。GDA:基因疾病关联。DGM:药物基因突变。0复杂性示例 注释0不连续的提及 由paracetamol诱导的膀胱和肝脏肿瘤。膀胱肿瘤的不连续提及。0paracetamol @DRUG@ 膀胱肿瘤 @DISEASE@ @CID@paracetamol @DRUG@ 肝脏肿瘤 @DISEASE@ @CID@0共指提及原癌基因HER2(也称为erbB-2或neu)在乳腺癌的发生和预后中起着重要作用。HER2的两个共指提及。0her2; erbb-2; neu @GENE@ 乳腺癌 @DISEASE@ @GDA@0n-ary,句间EGFR基因外显子19上的缺失突变在16名患者中存在,而外显子21上的L858E点突变在10名患者中出现。所有患者均接受ge�tinib治疗,并显示部分缓解。0三元DGM关系跨越句子边界。0gefitinib @DRUG@ egfr @GENE@ l858e @MUTATION@ @DGM@0文档级别的方法通常涉及基于图的方法,其优势在于自然地建模句间关系(Peng等,2017;Song等,2018; Christopoulou等,2019;Nan等,2020; MinhTran等,2020)。然而,像所有基于流水线的方法一样,这些方法假设文本中的实体是已知的。正如之前的工作已经证明的那样,并且正如我们在§5.2中展示的那样,联合学习实体和关系可以提高性能(Miwa和Sasaki,2014;Miwa和Bansal,2016; Gupta等,2016;Li等,2016a,2017;Nguyen和Verspoor,2019a;Yu等,2020),并且可能更高效,因为可以共享参数和训练步骤。现有的端到端方法通常结合了用于实体检测、共指消解和关系提取的任务特定组件进行联合训练。大多数方法仅限于句内RE(Bekoulis等,2018; Luan等,2018;Nguyen和Verspoor,2019b;Wadden等,2019;Giorgi等,2019),并且最近才扩展到DocRE(Eberts和Ulges,2021)。然而,它们仍然专注于二元关系。理想情况下,DocRE方法应能够在不严格要求已知实体的情况下建模上述复杂性。0一种不太流行的端到端方法是将RE作为生成任务进行序列到序列(seq2seq)学习(Sutskever等,2014)。这种框架通过消除任务特定组件和显式的负训练示例(即不表示关系的实体对)来简化RE。如果要提取的信息适当地线性化为字符串,seq2seq方法足够灵活,可以建模到目前为止讨论的所有复杂性。然而,现有的工作停止于此。0简而言之,我们关注于句内二元关系(Zeng等,2018; Zhang等,2020; Nayak和Ng,2020;Zeng等,2020)。在本文中,我们将RE的seq2seq方法扩展到文档级别,并做出了几个重要的贡献:0•我们提出了一种新颖的线性化模式,可以处理先前的seq2seq方法忽视的复杂性,如共指提及和n-ary关系(§3.1)。0•使用这种线性化模式,我们证明了seq2seq方法能够联合学习DocRE的子任务(实体提取、共指消解和关系提取),并在几个流行的生物医学数据集上报告了首个端到端结果(§5.1)。0• 我们设计了一种简单的策略,称为“实体提示”(§3.3),以将我们的模型与现有的基于流水线的方法进行比较,在某些情况下超过了它们的性能(§5.1)。02 任务定义:文档级关系抽取0给定一个包含 S个标记的源文档,模型必须提取与文档中的实体 E之间表示的关系 R相对应的所有元组(E1,...,En,R),其中 n是参与实体的数量,或关系的度。每个实体 Ei在文档中表示为其共指提及集合{eij},通常以别名、缩写或首字母缩写的形式表示。元组中出现的所有实体在文档中至少有一个提及。表示给定关系的提及不一定包含在同一句子中。通常,假设 E 是p(Y |X) =T�t=1p(yt|X, y