没有合适的资源?快使用搜索试试~ 我知道了~
833→基于图卷积网络的化学关系提取达尔希尼·马亨德兰弗吉尼亚联邦大学美国弗吉尼亚州里士满mahendrand@vcu.edu邓丽筠弗吉尼亚联邦大学美国弗吉尼亚州里士满ctang2@vcu.edu布丽奇特·T McInnes弗吉尼亚联邦大学美国弗吉尼亚州里士满btmcinnes@vcu.edu摘要从化学专利中提取有关新化学品和化学反应的信息在化学和制药工业中起着至关重要的作用。由于化学专利数量的不断增加,迫切需要自动化解决方案来提取化合物之间的关系。一些研究已经使用了应用注意力机制的模型,例如来自变形金刚的双向编码器表示(BERT)来捕获文本中的上下文信息。然而,这些模型并没有捕捉到关于特定词汇表的全局信息 另一方面,图卷积网络(GCN)捕获语料库中术语之间的全局依赖关系,但不捕获局部上下文信息。 在这项工作中,我们提出了两种新的方法,GCN-Vanilla和GCN-BERT,化学关系提取。 GCN-Vanilla方法基于词的共现和词与词之间的关系为整个语料库构建一个单一的图。然后,我们使用GCN对图进行建模,以捕获全局信息并对句子节点进行分类GCN-BERT方法结合GCN和BERT来捕获全局和局部信息,并共同构建关系提取的最终表示。我们在CLEF-2020数据集上评估了我们的方法。 我们的研究结果表明,结合GCN-BERT方法优于独立的BERT和GCN模型,并实现了更高的F1比我们以前的研究报告。CCS概念• 特征选择;信息提取。关键词关系抽取,化学自然语言处理,图卷积神经网络,BERTACM参考格式:Darshini Mahendran,Christina Tang和Bridget T.麦金尼斯2022年图卷积网络在化学关系提取中的应用。 在网络会议2022(WWW '22同伴)的同伴程序,2022年4月25日至29日,虚拟活动,里昂,法国。ACM,美国纽约州纽约市,10页。https://doi.org/10.1145/3487553.3524702本作品采用CreativeCommons Attribution-NoDerivs International许可协议4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.35247021引言化学专利为获得它们的科学家提供了使用特定化学品、分子、化合物的专有权[5]。化学专利包括有关新化学品和化学反应的信息;因此,它们在化学和制药工业中发挥着至关重要的作用由于近年来化学专利呈指数级增长,研究人员很难跟上当前的技术水平。手动提取信息几乎是不可能的;因此,迫切需要找到自动化解决方案来提取化学化合物之间的关系。 化学关系抽取(RE)是从原始文本中抽取化学实体之间的语义关系的任务。RE已被应用于提取各种化学领域实体之间的关系,如化学-基因[12],化学-疾病[11,30],化学蛋白质[20]。RE方法广泛使用基于神经网络的技术,例如卷积神经网络(CNN)、递归神经网络(RNN)和基于自注意力的模型,例如来自变压器的双向编码器表示(BERT)[3]。这些技术通过在学习的表示中嵌入语义和句法信息,特别是BERT,很好地捕获了句子或文档中的局部上下文信息[14]。单词的位置和顺序在确定单词在句子中的上下文方面起着至关重要的作用大多数深度学习方法都依赖于位置嵌入来对句子中不同位置的元素之间的依赖关系进行建模,以生成上下文化表示[14]。然而,它们在文本中捕获长范围依赖全局信息的能力是有限的。利用句子边界之外的词之间的全局关联信息可以帮助生成更好的表示。例如,在RE中,我们学习句子中的单词和实体的表示,以分类实体对之间是否有关系。 在某些情况下,语料库中除了目标句子之外的共现词之间的关联可以具有相关信息来确定句子内的词/短语的关系。在这种情况下,基于句子内的局部信息生成表示没有帮助。因此,我们需要利用的方法,也捕获的全球关联信息之间的共现词。BERT是一种基于自我注意的模型,它捕获给定的标记信息和周围标记的信息,但它不能很好地捕获语言中的全局关联信息,因为它只考虑单词的位置信息。图神经网络(GNN)是在图域中操作并捕获单词/短语之间的全局信息的深度学习最近基于该图的研究834∗∗()下一页WWWMcInnes由于图形的强大表达能力,它受到了更多的关注[31]。最近流行的GNN变体是图卷积网络(GCN)[10]。GCN通过对图中的邻居节点执行卷积操作并合并来自邻居的信息来捕获全局上下文信息GCN可以在图嵌入中保持图的全局结构信息[26]。多年来,GCN也在几个NLP任务中进行了探索,例如文本分类[14,26],关系推理[33]和情感分析[24]。然而,很少或没有工作已经做了关于使用GCN的化学RE。为了生成一个更好的表示捕捉本地和全局信息是必不可少的。使用注意力机制(如BERT)的模型可以更好地捕获局部上下文信息,而基于图的模型(如GCN)可以更好地捕获全局信息。在这项工作中,我们将探索如何有效地捕捉语料库中术语之间的全局依赖关系,以及如何将BERT的功能与GCN相结合并从中受益。我们提出了两种新的方法来提取化学实体之间的关系:GCN-Vanilla和GCN-BERT。 在GCN-Vanilla方法中,我们基于词共现和词-词关系构建一个图,并使用GCN对图进行建模以捕获全局信息。在GCN-BERT方法中,我们将BERT和GCN结合起来,以补充BERT捕获的局部信息与GCN捕获的全局信息,并允许两种类型的信息相互影响,以构建RE的最终表示。我们在CLEF ChEMU-2020数据集上评估了我们的方法[19]。我们的实验结果表明,GCN-BERT方法优于BERT和GCN单独和实现更高的F1比我们以前的研究报告。本文件其余部分的结构如下。首先,讨论我们的方法背后的算法。其次,我们讨论了在这一研究领域所做的相关工作第三,我们描述了我们用来评估我们的系统的数据集第四,我们详细讨论了我们的方法。第五,我们分析和分析结果。最后,我们陈述了我们从这项工作中得出的结论,我们未来的2背景在这里,我们讨论我们在本文中使用的算法2.1图卷积网络神经网络在过去的十年里得到了广泛的应用,各种简单神经网络的变体在许多研究领域都取得了成功。然而,这些变体中的大多数处理欧几里得数据,而许多真实世界的数据是非欧几里得的。这些数据导致了最近发明的变体-GNN。GNN是一种基于深度学习的方法,它扩展了现有的神经网络方法,以处理图域中表示的数据[32]。GNN处理包含元素之间的丰富关系信息的非欧几里德图数据以下是GNN相对于CNN的优势[32]:传统的神经网络(如CNN和RNN)在像图像(2D网格)这样的规则欧几里得数据上运行,并且不能很好地处理非欧几里得类型的数据,因为它们按特定顺序堆叠特征图形数据不有一个自然的节点顺序,节点可以以不同的顺序遍历。图中两个节点之间的依赖性在GNN中由边表示,而它们在传统网络中被认为是另一个特征传统的网络通过数据的分布来学习,而GNN从非结构化中生成图形并学习推理,这有助于高级AI相关研究。GCN [10]是基本GNN架构的最新变体,旨在对使用图描述的数据进行推理。给定一个图G=V,E,GCN将以下内容作为输入[10]:输入特征矩阵N F,其中N是节点数,F是每个节点的输入特征数,特征矩阵X,以及图结构的N N矩阵表示,例如G的邻接矩阵A。GCN利用“消息传递”机制,该机制通过矩阵操作执行,其中信息从一个节点传递到另一个节点。GCN的每一层都以矩阵的形式定义了一个传播规则,它决定了输入在被发送到下一层之前将如何进行转换在该层中,传入特征矩阵乘以邻接矩阵,如等式1所示f(Hi,A)=σ(AHiWi)(1)其中Wi是层i的权重矩阵,σ是非线性激活函数,例如ReLU函数,Hi是隐藏层,f是传播规则,H0=X,特征矩阵。这有助于特征在每个连续层变得越来越抽象。GCN的基本操作类似于CNN。 卷积通过将输入神经元乘以通常称为滤波器或内核的权重来应用于CNN。GCN执行类似的操作来学习相邻节点的特征。然而,不同之处在于GCN中的节点是无序的,并且节点之间的连接是不均匀的(不规则的非欧几里德数据),而CNN对规则的欧几里德数据进行操作Kipf等人[10]在他们的开创性工作中介绍了GCN,表明它在几个基准图数据集上实现了最先进的分类结果,包括斯坦福情感树库(SST-2)[23],语言可接受性语料库(CoLA)[25],ArangoHate[1].2.2变压器双向编码器表示(BERT)2018年,谷歌推出了BERT [3],这是一种语言模型,利用注意力机制来建模文本中单词之间的语义关系。 BERT是第一个双向训练的语言模型,在此之前的模型是从左到右训练的,反之亦然。此外,BERT生成令牌的上下文嵌入表示。这些表示可以针对特定领域进行微调为此,BERT利用由编码器组成的Transformer读取输入。语言模型生成参与了编码器,编码器读取输入。 输入表示是标记、分割和位置嵌入的总和。标记嵌入将标记转换为固定维度的向量表示。段嵌入添加标记以指示单词标记来自哪个句子,并检查···835用于化学关系提取的图形卷积网络WWW输入仅来自一句话 位置嵌入表示输入标记在句子中的位置。3相关工作基于GCN的模型最近在NLP社区中受到了关注。然而,GCN单独或与BERT组合之前尚未应用于化学RE。在这里,我们讨论了与RE相关的工作,以及启发我们提出使用GNN/GCN的方法的工作。关系推理试图对实体及其关系进行推理,这在许多NLP任务中非常重要,包括RE [33]。Zhu,et al.[33]提出了根据自然语言句子生成GNNs的参数(GP-GNNs),这使得GNNs能够对非结构化文本输入进行关系推理。 GP-GNN是由文本序列中的实体构成的,后面是三个模块,这些模块从自然语言中编码丰富的信息,在各个节点之间传播关系信息,并进行分类。 联合实体和关系抽取是信息抽取中的一项重要任务,其目的是从非结构化文本中抽取所有关系三元组[29]。赵,等[29]提出了一种基于RE异构GNN(RIFRE)的表示,迭代融合。他们将关系和单词建模为图上的节点,并通过消息传递机制更新它们以执行RE。这将关系节点的语义信息融合到与它们相关联的词节点,这有助于提取形成有效关系的实体。句间RE处理文档中的复杂语义关系[22]。Sahu等人 [22]提出了一种新的句间RE模型,该模型在文档级图上构建标记边GCN模型。 该图是使用各种句子间和句子内依赖关系构建的,他们利用双仿射成对评分的多实例学习来预测实体对的关系。GNN的主要应用之一是节点分类,我们用标签训练图节点,并尝试预测没有地面事实的节点的标签这已被修改为使用图形结构执行文本分类。Yao,et al.[26]使用GCN进行文本分类。首先,他们基于单词共现和文档单词关系构建了一个文本图,然后为语料库学习了一个文本GCN。文本GCN共同学习单词和文档的嵌入,由已知的文档类huang等人 [8]提出了一种不同的基于GNN的方法。他们没有构建一个语料库级别的图,而是为每个输入文本构建了一个图他们在一个相对较小的文本窗口内连接单词节点,而不是全部。相同节点的表示和边的权重是全局共享的,并通过消息传递机制在文本级更新,其中节点从相邻节点接收信息以更新其表示。 他们声称这消除了单个输入文本和整个语料库之间的依赖负担。zhang等人 [27]提出了一种通过GNN进行“归纳词表示”的新方法,称为TextING。 他们首先为每个文档构建单独的图,然后使用GNN来学习基于其局部结构的细粒度单词表示,有效地为新文档中的未见过单词生成嵌入。最后,将词节点作为文档嵌入。Lu,et al.[14]提出了一个模型,在同一模型中结合了BERT和Vocabulary VGCN的优势。 词嵌入和图嵌入在分类器学习过程中通过自注意机制相互作用。在我们的工作中,我们建立了两个模型,首先单独使用GCN,然后结合GCN和BERT的化学RE。 我们的模型使用GCN的灵感来自姚等人的作品。[26]和Lu,et[14]第14话文字分类4数据于二零二零年,Elsevier Melbourne University(ChEMU)评估实验室(其为评估论坛会议及实验室(CLEF-2020)的一部分)引入CLEF-2020数据集,以识别化学实体及事件,从而解释从化学反应到最终产物的步骤顺序[7]。该数据集包含从化学专利中采样的化学片段,包括四个类别下的十个实体类和两类触发词:REACTION_STEP,WORKUP。附录中的图4显示了实体标签的层次结构,附录中的表4显示了每个实体类型的定义。关系分为两类:ARG1和ARGM。ARG1包括触发词和化学化合物实体之间的关系ARGM事件标签对应于触发词与温度、时间或产量实体之间的关系。表1显示了训练数据集的统计数据表1:训练数据中实体类型和触发词的数量及其事件关系事件实体实例反应步骤后处理示例_标签886--反应_产品2052110111ARG1起始物料试剂催化剂17541281174712724-溶剂114011344其他_化合物46401614097产量_百分比9559371ARGM产量_其他时间106110591043839281温度1515813242触发反应步骤3815后处理3053数据集中的每个化学片段都由Brat快速注释工具(BRAT)注释,这是一种基于网络的文本注释工具。 这有助于识别实体、它们的类型以及它们之间的关系。附录部分中的图5显示了来自包含化学实体和关系的数据集的BRAT注释语句的示例。除了触发词之外的实体是黄金标准实体。我们使用命名实体识别(NER)系统[15]。 我们的NER系统利用双向长短期记忆( BiLSTM ) 和 条 件 随 机 场 ( CRF ) 的组合模型,并使 用ChemPatent嵌入进行训练[27]。5方法在这里,我们提出了两种RE方法:GCN-Vanilla和GCN-BERT。我们将RE任务视为一个二元分类任务,为每个触发词-实体类型建立一个单独的模型,以确定它们之间是否存在关系:1)肯定类-触发词和实体之间存在关系,2)否定类WWW放大图片作者:Christina Tang,Bridget T.McInnes836.()下一页类-触发词和实体之间没有关系(无关系)。5.1GCN-香草方法在这种方法中,我们首先在整个语料库中构建一个包含单词和句子节点的单个图图中节点的数量V等于语料库中句子的数量和唯一单词的数量其次,我们使用逐点互信息(PMI)来测量两个单词节点(单词-单词节点)之间的边的权重[2]。 两个单词同时出现可能只是偶然,也可能是因为两个单词以特定的顺序出现的频率高于偶然。例如,“睡眠不安”一词有不同的独立含义,但合在一起,它们表达了一个精确的、独特的概念。 PMI是量化两个单词共现的可能性的度量。 等式2显示了如何在两个字节点之间计算PMI。如果x和y是独立的,它们的联合概率等于它们的边际概率的乘积,导致log等于0,这意味着单词是偶然出现的。正PMI值指示句子中的词之间的语义相关性,而负值指示没有相关性。因此,我们考虑在生成图时PMI值为正的单词节点之间的边。图1:GCN-Vanilla方法的图表结构。允许信息从一个句子节点传递到另一个。首先,随机初始化节点的权重向量,然后联合学习单词和句子的嵌入。最后,第二层节点的输出被馈送到softmax层进行分类。这将关系分类问题PMI x,y=logP(x,y)P(x)P(y)中国(2)一个节点分类问题。Softmax的计算如公式3所示:第三,我们使用术语频率-逆文档频率(TF-IDF)[9]测量节点和句子(单词-句子节点)之间的边的权重。对于语料库中的多个文档,TF-IDF会考虑令牌在多个文档中出现的频率[6]。TF-IDF是通过 乘 以 两 个 度 量 来 计 算 的 : 术 语 频 率 ( TF ) 和 逆 文 档 频 率(IDF)。 TF测量文档中单词的原始计数,IDF测量单词在多个文档中的常见程度。分数越高,该词在特定文档中的相关性越高。在这里,TF是通过单词在句子中出现的次数来衡量的,而IDF是通过包含单词的句子数量的按比例缩放的反分数来衡量的。第四,我们利用预先训练的词嵌入来为词节点生成初始词向量我们对连接到句子节点的词节点的词向量进行平均,以创建句子的嵌入表示。 图1显示了我们为这种方法构建的图的结构。以S开头的节点是句子节点(绿色),其余的是唯一的单词节点(黄色)。 句子节点和单词节点之间的黑色粗边是单词-单词边,单词节点之间的黑色细边是单词-单词边。 我们将此方法视为我们的基线。第五,我们用多层GCN对图进行建模,以捕获高阶邻域信息。多层GCN允许在不直接连接但相隔几层的节点之间传递消息。两层GCN从最多两步远的节点传递消息[26]。在我们的图中没有直接的句子节点,但是它们通过单词节点连接;因此,两层GCNZ= softmax ( AReLU ( AX W0 ) W1 ) ,(3)其中A= D−1/2AD−1/2 [26]。计算所有句子的交叉熵误差。5.2GCN-BERT方法从我们以前的工作[17]中,我们发现基于BERT的方法优于其他监督式深度学习方法。 BERT利用位置信息来捕获句子或文档中的局部上下文信息。另一方面,GCN通过对图中的邻居节点执行卷积操作来为了生成更好的表示,捕获输入中的词之间的局部上下文信息和全局关联信息是必不可少的。因此,我们建议将BERT与GCN相结合,以从捕获本地和全局信息中获益。在这种方法中,我们首先生成一个词汇图的基础上的词的关联信息,这是通过GCN捕捉语言的全局信息 然后,我们将图嵌入和词嵌入结合在一起,形成BERT中的自注意编码器[14]。 两种嵌入相互作用,共同构建分类的最终表示[14]。首先,我们提取实体对所在的句子我们使用BERT分词器将句子分词为单词。 由于BERT是一个预先训练好的模型,输入数据需要采用特定的格式,BERT分词器执行特定的操作来生成格式。首先,将单词拆分为子单词和字符。BERT通过将词汇表外(OOV)单词标记到字符级别来处理它们。他们利用'##'符号来表示他们是一个更大的基于图卷积网络的化学关系提取WWW837图2:GCN-BERT组合方法的结构当生成词嵌入时,从词标记生成词标记子词向量被平均以生成原始词的近似向量在将句子分割成标记之后,我们构建了一个词汇表映射,将唯一标记映射到整数。其次,我们生成一个词汇图G =(V,E),其中节点的数量等于语料库中唯一单词的数量。我们通过映射的整数来表示图中的词节点,并且我们使用如等式2所示的PMI来测量两个词节点(词-词节点)之间的边的权重。这里,PMI值在[-1,1]的范围之间被归一化(NPMI )。正的NPMI 值指示词之间的语义相关性,而负的NPMI值指示很少或没有语义相关性。当PMI>0. 接下来,我们通过一个两层的GCN来生成基于其邻域属性的图嵌入。GCN执行两层卷积来捕获未直接连接的节点之间的信息。 我们在GCN [14]中使用ReLU激活函数,如公式4所述:第三,我们将映射的单词索引与生成的图嵌入相结合,然后将它们传递给BERT,这有助于捕获句子中单词的顺序以及图捕获的全局信息。BERT使用了一个Transformer,这是一种学习单词之间上下文关系的注意力机制BERT在级联输入上应用多层多头自注意。输入的文本序列通过每个级别的12个编码器和前馈神经网络的堆栈,并输出用于分类的句子嵌入。通常,BERT架构采用输入文本的标记、段和位置嵌入以及[CLS]标记。然而,在这里,我们在将它们传递到BERT之前,将单词标记嵌入和图嵌入的占位符组合在一起 当令牌嵌入层将每个单词段令牌转换为向量表示时,我们组合图形嵌入向量。接下来,BERT应用双向训练,它同时考虑前一个和下一个令牌并表示输入序列。最后,最终的嵌入表示被馈送到一个完全连接的层进行分类。图2显示了这种组合GCN-BERT的总体结构VGCN= ReLU(XmvAvv Wvh)Whc(四)方法,并说明了如何输入句子是通过这个架构。输入句子S1被标记化,单词节点用蓝色表示 在词汇图中,来自输入句子S1的单词节点以蓝色示出,而单词节点以蓝色示出。其中m是批处理大小,v是词汇表大小,h是隐藏层,c是句子嵌入的大小WWW放大图片作者:Christina Tang,Bridget T.McInnes838其他句子的节点以黄色显示这种方法捕获并组合输入文本的局部和全局信息。5.3实体表示为了确定两个化学实体之间的关系,我们首先定位实体对所在的句子一个句子可以有多个这样的实体对,因此我们需要以与其他实体对可区分的方式表示目标实体对。在这里,我们探索了我们以前工作中输入句子实体表示的三种变化[18]:(1) 表示A-我们输入实体对所在的整个句子。目标和非目标实体对都按原样表示(2) 表示B-我们从输入句子中删除非目标实体对。目标实体对按原样表示。(3) 表示C-我们用输入句子中的语义类型替换目标实体对非目标实体对按原样表示。图3显示了来自CLEF-2020数据集的输入句子的示例,以及目标实体对如何在每个表示中以不同的方式表示。6实验设计单词嵌入。 对于我们的GCN-Vanilla方法,我们使用GloVe [21]嵌入表示。 GloVe在Wikipedia(2014)和Gigaword 5上进行了训练。对于我们的GCN_BERT方法,我们使用BERT嵌入。BERT最初是在整个英语维基百科和布朗语料库上进行预训练的,并在下游NLP任务上进行微调。超参数我们定义模型训练超参数通过调整批量大小,学习率,正则化和epoch的数量我们使用了512的批量大小,Adam优化器的学习率为0.01,并为我们的GCN-Vanilla方法训练了20个epoch,提前停止了15个epoch我们使用512的批量大小,Adam优化器的学习率为0.0001,并为我们的GCN-BERT方法训练10-20个epoch 我们使用HuggingFace团队的PyTorch-Transformers 1来构建BERT模型。可复制性。本文的源代码可以在以下公共存储库:https://github.com/NLPatVCU/RelEx-GCN7评价标准我们使用精确度(P)、召回率(R)和F1得分(F)来评估我们的方法Precision计算所有实例中有多少实例被正确预测,Recall计算所有应该被预测的正确实例中有多少实例被正确预测。F1分数是精确率和召回率的调和平均值我们还报告了系统性能的微平均值。 微平均通过计算真阳性、假阴性和假阳性的总数来计算全局指标。1 https://pytorch.org/hub/huggingface_pytorch-transformers/8结果和讨论在这一节中,我们提出并讨论了我们的两种方法的结果,并与以前的工作进行比较8.1测试集结果表2显示了CLEF-2020数据集的测试集上的精确度(P),召回率(R)和F1(F)分数,对于我们的每个架构,在第5.3节中描述的三种输入表示中。 总体结果表明,对于除表示A之外的所有三种输入表示,GCN-BERT方法优于基线GCN-vanilla方法。此外,GCN-BERT方法获得了最高的精度,召回率和F1分数的所有关系的反应步骤和WORKUP类。GCN-BERT的性能的显著提高显示了将BERT与GCN结合的优势,允许局部上下文和全局关联信息之间的交互。 比较REACTION_STEP类与WORKUP类的结果,我们发现两种方法使用REACTION_STEP类获得的F1分数都高于WORKUP 类 。 这 是 因 为 REACTION_STEP 类 比 大 多 数WORKUP类具有更多的训练实例,因此它们在训练时可以与WORKUP类区分开来。 尽管WORKUP类中的训练实例数量较少,但GCN-BERT相比GCN-Vanilla获得了更高的F1分数。 这表明,将文本的局部信息与全局信息相结合为分类层提供了比仅考虑全局信息更多的信息,特别是对于类中具有较少训练实例的类。我们使用各种输入实体表示来区分目标实体对。当输入句子中存在多个实体对时,表示B移除非目标实体对,并且表示C用其语义类型替换实体对is,而表示A按原样传递句子。对各种输入实体表示的总体分析表明,表示B通过获得更高的F1分数而优于其他两种输入表示,这表明掩蔽非目标实体有助于提取基本信息以更好地识别类别。 所有的表示获得类似的精度,召回率,和F1分数与GCN香草,但表示B和C获得相对较高的精度,召回率,和F1分数与GCN-BERT。 这表明,当目标实体与非目标实体区分开时,性能提高。 由于测试集中的大多数输入句子都很长,我们可以在一个句子中找到多个实体对。因此,我们认为掩蔽非目标实体(表示B)或用其语义类型替换目标实体(表示C)提供了更好的分类表示。8.2与以往工作的比较表3显示了使用CLEF-2020数据集的CLEF ChEMU-2020挑战报告的最佳结果,挑战组织者提供的共现基线,我们以前方法的最佳总体结果[16]和我们当前方法的最佳结果之间的比较。 粗体字表示每个类别中的最佳结果。基于图卷积网络的化学关系提取WWW839表2:使用我们之前的NER模型[16]识别的触发词测试集的精确度(P),召回率(R)和F1(F)得分(BiLSTM+ CRF,使用ChEMU专利嵌入进行训练)方法关系触发实体#火车表示A表示B代表CPRFPRFPRF其他_化合物1610.000.000.000.000.000.000.000.000.00反应_产品11010.850.960.900.850.960.900.850.950.91反应步骤试剂_催化剂溶剂127211340.580.580.730.700.650.640.610.580.710.750.650.650.590.580.680.690.630.63起始材料17470.610.760.680.610.770.680.610.760.68ARG1平均0.520.470.510.870.790.820.640.650.63其他_化合物40970.590.680.630.620.750.680.630.670.65反应_产品110.000.000.000.000.000.000.000.000.00后处理试剂_催化剂-0.000.000.000.000.000.000.000.000.00溶剂40.000.000.000.000.000.000.000.000.00GCN-香草起始材料40.000.000.000.000.000.000.000.000.00平均0.180.090.120.190.170.180.190.180.18温度8130.550.380.450.560.380.450.610.340.44时间8390.560.630.590.610.640.620.600.580.59反应步骤产量_其他10430.850.970.910.850.970.910.850.970.91ARGM产量_百分比9370.850.960.900.850.960.910.860.950.90平均0.700.740.710.720.740.720.730.710.71温度2420.000.000.000.620.210.310.560.130.21后处理时间810.000.000.000.000.000.000.000.000.00平均0.000.000.000.310.110.160.280.070.11系统0.650.700.670.660.730.690.670.690.68其他_化合物1610.430.590.500.600.480.530.000.000.00反应_产品11010.970.850.900.930.900.910.890.900.89反应步骤试剂_催化剂溶剂127211340.000.870.000.400.000.540.940.930.870.850.900.890.550.820.780.700.640.73起始材料17470.780.500.610.950.840.890.960.880.91ARG1平均0.610.470.510.870.790.820.640.650.63其他_化合物40970.880.430.580.950.850.890.940.880.91反应_产品110.000.000.000.000.000.000.000.000.00后处理试剂_催化剂-0.000.000.000.000.000.000.000.000.00溶剂40.000.000.000.000.000.000.000.000.00GCN-BERT起始材料40.000.000.000.000.000.000.000.000.00平均0.440.220.290.480.430.450.470.440.45温度8130.550.300.390.900.500.640.890.550.68时间8390.720.410.520.880.720.790.900.770.83反应步骤产量_其他产量_百分比10439370.880.850.940.960.910.900.990.990.970.920.980.960.940.870.890.930.910.90ARGM平均0.750.650.680.940.780.840.900.790.83后处理温度2420.000.000.000.870.610.720.000.000.00时间810.000.000.000.000.000.000.720.490.58平均0.000.000.000.440.310.360.360.250.29系统0.820.480.610.940.810.870.870.750.81表3:与我们之前的结果和ChEMU-2020竞赛的最佳结果相比,我们的最佳结果基线由ChEMU-2020挑战赛PRF我们目前的方法GCN-香草0.660.730.69GCN-BERT0.940.810.87基于规则0.510.810.580.620.720.540.590.500.600.650.580.55我们以前的方法基于cnn基于BERT基于BioBERTChEMU_2020团队[第28话]0.960.940.760.950.860.690.950.900.72[13]第十三话BOUN_REX[4]基线[19]第十九话0.240.890.38WWW放大图片作者:Christina Tang,Bridget T.McInnes840图3:示例输入句子的各种实体表示的图示结果表明,GCN-BERT方法的性能优于其他方法,并获得了最高的整体准确率、召回率和F1得分。特别是,它的表现优于GCN和BERT,这证实了将它们结合起来的优势。在仅使用局部信息的模型中,CNN的表现优于BERT。 如果我们比较基于CNN的方法和基于GCN-Vanilla的方法,我们可以看到基于GCN-Vanilla的方法获得了更高的召回率和F1分数,但精度不高。CNN和BERT能更好地捕捉词与词之间的局部信息,而GCN能更好地捕捉全局信息这表明捕获全局信息有利于对CLEF-2020数据集中的关系进行分类GCN-BERT的优越性能表明,将BERT和GCN结合起来并允许两种类型的信息之间的交互是有益的。ChEMU-2020挑战赛组织者提供的基线比我们目前的方法获得了更高的召回率 由于基线是一种基于规则的方法,基于共现信息,它获得了较高的召回率,但精度较低。我们的方法在精度和F1得分方面优于基线。在CLEF ChEMU-2020挑战赛中,Melaxtech [28]使用了将深度学习模型与模式匹配规则相结合的混合方法,并获得了整体最高的F1分数。 首先,他们重新训练BioBERT专利数据,以生成Patent_BioBERT的新语言模型,并利用二元分类器识别同一句子中事件触发器和语义角色之间的关系。他们还应用后处理规则来恢复长复句中的关系NextMove/Minesoft [13]使用语法规则解析信息,BOUN_REX [4]使用一组规则来识别关系。 Melaxtech [28]和NextMove/Minesoft [13]都获得了比我们的方法更高的F1分数。 在未来,我们计划探索将基于规则的信息集成到基于GCN-BERT的方法中。9结论和今后的工作在本文中,我们提出了两种方法的关系提取:GCN-Vanilla和GCN-BERT方法。GCN-Vanilla利用GCN捕获图嵌入中的全局结构信息。相比之下,GCN-BERT结合了GCN和BERT,单词之间的局部上下文和全局信息 我们还探讨了三种输入实体表示与这两种方法。我们在CLEF-2020化学专利数据集上评估了我们的方法。 从结果中,我们可以得出结论,与单独使用BERT和GCN相比,结合GCN和BERT并允许两种类型的信息通过注意力机制层进行交互是有益的。 我们还发现,用目标实体的语义类型替换目标实体或掩蔽句子中的非目标实体有效地提供了输入句子的唯一实体表示。在未来,我们计划研究扩展这两种方法来执行多类分类和基准对不同的数据集。 我们还计划构建一个模型,分别训练GCN和BERT,然后在将它们馈送到最终分类层之前将图和BERT嵌入连接起来。在GCN-BERT方法中,我们利用定制的单词整数映射来表示词汇图中的单词节点此外,我们最初使用随机权重向量来生成图嵌入。 在未来,我们希望使用外部预构建的词汇表,并使用各种外部预训练的单词嵌入来探索图嵌入的性能。致谢这项工作由美国国家科学基金会(NSF)资助,资助号为CMMI1651957。引用[1] 艾梅·阿朗戈豪尔赫·佩雷斯芭芭拉·波夫莱特2019年。 仇恨语音检测并不像你想象的那么容易:仔细看看模型验证。第42届国际acm sigir信息检索研究与发展会议论文集。45比54[2] 肯尼思·W丘奇和帕特里克·汉克斯一九八九年 词汇联想规范、互信息与词典学。 在27日的会议记录中。 计算语言学协会年会。计算语言学协会,温哥华,不列颠哥伦比亚省七十六比八十三[3] JacobDevlin , Ming-WeiChang , WendonLee , andKristinaToutanova.2018年Bert:深度双向转换器的预训练,用于语言理解。 arXiv预印本arXiv:1810.04805(2018)。[4] Hilal Dönmez , Abdullatif Köksal , Elif Ozkirimli , and Arzucan Ozgür.2020年。BOUN-REX在CLEF-2020 ChEMU任务2:评估事件提取的预训练转换器。(2020年)。[5] 杰弗里M唐斯和约翰M巴纳德。2011年。化学专利信息系统。WileyInterdisciplinary Reviews:Computational Molecular Science(威利跨学科评论:计算分子科学)1,5基于图卷积网络的化学关系提取WWW841(2011),727[6] 周国栋,苏建,张杰,张敏。2005年探索关系抽取中的各种知识在计算语言学协会第43届年会上。计算语言学协会,427[7] JiayuanHe , Dat Quoc Nguyen , Saber A Akhondi , ChristianDruckenbrodt , Camilo Thorne , Ralph Hoessel , Zubair Afzal , ZenanZhai , Biaoyan Fang , Hiyori Yoshikawa , et al. 2020 年 。 CLEF 2020ChEMU实验室的扩展概述评价论坛会议和实验室。2020年9月22日至25日[8] Lianzhe Huang,Dehong Ma,Sujian Li,Xiaodong Zhang,and HoufengWang.2019. 用 于 文 本 分 类 的 文 本 级 图 神 经 网 络 arX
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功