没有合适的资源?快使用搜索试试~ 我知道了~
0重连再探:一种对预训练语言模型进行生物医学知识探测的对比方法0Zaiqiao Meng ��� Fangyu Liu �� Ehsan Shareghi ��0Yixuan Su � Charlotte Collins � Nigel Collier �0�剑桥大学语言技术实验室�格拉斯哥大学计算机科学系�莫纳什大学数据科学与人工智能系�{zm324, fl399, ys484, cac74,nhc30}@cam.ac.uk�ehsan.shareghi@monash.edu0摘要0知识探测对于理解预训练语言模型(PLM)背后的知识传递机制至关重要。尽管在一般领域中,探测PLM的知识取得了不断的进展,但生物医学领域等专门领域的探测仍然相对较少。为了促进这一点,我们发布了一个经过精心策划的生物医学知识探测基准MedLAMA,该基准基于统一医学语言系统(UMLS)元词汇表构建。我们在我们的基准测试中测试了各种最先进的PLM和探测方法,最高达到10个答案的3%的准确率。虽然我们强调了导致这种令人失望的性能的各种领域特定挑战的来源,但我们说明了潜在的PLM在探测任务中具有更高的潜力。为了实现这一点,我们提出了一种新颖的自监督对比探测方法Contrastive -Probe,它可以调整底层的PLM而无需使用任何探测数据。虽然Contrastive -Probe将准确率提高到24%,但性能差距仍然显著。我们的人工专家评估表明,我们的C ontrastive -Probe的探测性能被低估了,因为UMLS并没有全面涵盖所有现有的事实知识。我们希望MedLAMA和C ontrastive -Probe能够促进更适合该领域的探测技术的进一步发展。01 引言0预训练语言模型(PLM;Devlin等,2019年;Liu等,2020年)通过以任务无关的方式预训练模型参数,并通过微调将知识转移到特定的下游任务,已经在无数少量或零样本语言理解任务上取得了令人难以置信的进展(Brown等,2020年;Petroni等,2021年)。01 数据和代码实现可在以下网址找到0https://github.com/cambridgeltl/medlama。�平等贡献。此工作是在剑桥大学完成的。0查询答案0困难查询0利奥西瓦特具有生理效应[M ask]。血管扩张0恩替卡韦可能预防[M ask]。乙型肝炎0浸润性乳头状乳腺癌疾病映射到基因[M ask]。[ERBB2基因,CCND1基因]0简单查询0创伤性动静脉瘘的相关形态[M ask]。创伤性动静脉瘘0突变RUNX1的急性髓系白血病疾病映射到基因[M ask]。RUNX1基因0氯化镁可能预防[M ask]。镁缺乏症0表1:来自MedLAMA的示例探测查询。粗体字表示UMLS关系。0为了更好地理解这些成就背后的知识传递机制,已经提出了许多知识探测方法和基准数据集(Petroni等,2019年;Jiang等,2020a;Kassner等,2021年;Zhong等,2021年)。通常通过将知识三元组形式化为掩码对象的填空式查询(见表1),并使用PLM填充单个(Petroni等,2019年)或多个(Ghazvininejad等,2019年)[Mask]标记,而无需进一步微调。与此同时,已经证明专门的PLM(例如BioBERT;Lee等,2020年,Blue-BERT;Peng等,2019年和PubMedBERT;Gu等,2020年)在几个生物医学任务中显著提高了性能(Gu等,2020年)。生物医学领域是一个有趣的测试平台,用于研究知识探测的独特挑战(包括词汇量,多令牌实体)以及可能摆脱昂贵的知识库构建过程的实际效益。然而,对于该领域中的知识探测研究还相对较少。为了促进在这个方向上的研究,我们提供了一个经过精心筛选的生物医学知识探测基准,MedLAMA,其中包含19个经过深入选择的关系。每个关系包含1k个查询(总共19k个查询,每个查询最多有10个答案),这些查询提取自0arXiv:2110.08173v3[cs.CL]22May20220+v:mala2277获取更多论文0ID 关系 手动提示01种疾病可能有相关疾病该疾病[X]可能有相关疾病[Y]。2基因产物在生物过程中发挥作用基因产物[X]在生物过程[Y]中发挥作用。3基因产物由基因编码基因产物[X]由基因[Y]编码。4基因产物具有相关解剖学基因产物[X]具有相关解剖学[Y]。5基因与疾病相关基因[X]与疾病[Y]相关。6疾病具有异常细胞[X]具有异常细胞[Y]。7发生在[X]之后发生在[Y]之后。8基因产物具有生化功能[X]具有生化功能[Y]。9疾病可能具有分子异常疾病[X]可能具有分子异常[Y]。10疾病具有相关解剖部位疾病[X]可能源自相关解剖部位[Y]。11[X]的相关形态学是[Y]的相关形态学。12疾病具有正常组织起源疾病[X]源自正常组织[Y]。13基因编码基因产物基因[X]编码基因产物[Y]。14具有生理效应[X]具有[Y]的生理效应。15可能治疗[X]可能治疗[Y]。16疾病映射到基因疾病[X]映射到基因[Y]。17可能预防[X]可能能够预防[Y]。18疾病可能具有发现[X]可能具有[Y]。19疾病具有正常细胞起源疾病[X]源自正常细胞[Y]。0表2:MedLAMA中的19个关系及其相应的手动提示。0我们使用自动度量标准根据查询标记的答案暴露难度来识别困难样本。在MedLAMA中,处理答案的一个重要挑战是多标记编码(例如,在MedLAMA中,仅有2.6%的答案是单标记,而在英文的mLAMA数据集中,有98%的答案是单标记),而所有现有方法(即掩码预测;Petroni等人,2019,基于检索的方法;Dufter等人,2021,和基于生成的方法;Gao等人,2020)都难以有效处理。例如,掩码预测方法(Jiang等人,2020a)在探测多语言知识方面表现良好,但在MedLAMA上的准确率不到1%。为了解决上述挑战,我们提出了一种新方法C ontrastive -Probe,首先通过使用基于检索的对比学习目标(类似于“重连”Liu等人,2021c)调整底层PLMs的表示空间,然后根据它们与查询的表示相似性检索答案。值得注意的是,我们的C ontrastive -Probe在探测过程中不需要使用MLM头,这避免了不同模型之间的词汇偏差。此外,基于检索的探测方法对于解决多标记的挑战非常有效,因为它避免了从MLM词汇表中生成多个标记的需要。我们展示了C ontrastive -P robe如何有效地进行探测。02基于提示的探测方法,如Auto-Prompt(Shin等人,2020a),SoftPrompt(Qin和Eisner,2021)和OptiPrompt(Zhong等人,2021),需要额外的标记数据来微调提示,但我们将调查范围限制在不需要任务数据的方法上。0与现有方法相比,C ontrastive -P robe在acc@1和acc@10探测性能上改进了约5%和21%。我们进一步强调,C ontrastive -P robe所揭示的知识并不是从额外的随机句子中获得的,而是来自原始预训练参数,这与Liu等人(2021b)、Glavaš和Vuli´c(2021)、Su等人(2021,2022)的先前发现相一致。此外,我们证明了不同的最先进PLMs和transformer层适用于不同类型的关系知识,不同的关系需要不同的调整深度,这表明在注入不同关系的知识时应考虑层和调整深度。此外,对MedLAMA的部分PLM响应进行专家评估表明,像UMLS这样的专家制作资源仍然没有包含全部的事实知识,这表明PLMs中编码的事实信息比自动评估所反映的要丰富。我们的研究结果以及提出的MedLAMA和C ontrastive -Probe,突显了生物医学领域的独特挑战和PLMs未开发的潜力。我们希望我们的研究能够揭示领域专用PLMs捕捉到的内容以及如何以最小成本进行探测。02 MedLAMA0为了促进生物医学领域的知识探测研究,我们基于最大的生物医学知识图谱UMLS(Bodenreider,2004)创建了MedLAMA基准。UMLS 303发布版本2021AA:https://download.nlm.nih.gov/umls/kss/2021AA/umls-2021AA-full.zip0+v:mala2277获取更多论文1 2 3 4 5 6 7 8 9 10111213141516171819Relation ID05001000Countsetfullhard1 2 3 4 5 6 7 8 9>9Number of Tokens01020Percent0图1:左:完整集和困难集的计数。右:令牌数量的答案百分比。0是一个包含360万个实体和超过3520万个知识三元组的综合元词典,这些三元组涵盖了818种关系类型,这些关系类型来自各种本体论,包括SNOMEDCT、MeSH和NCBI分类法。从这样一个知识图谱中创建类似LAMA(Petroni等人,2019)的探测基准存在一些挑战:(1)UMLS是一个由不同组织构建的包含150多个本体论的知识图谱集合,这些本体论具有非常不同的模式和重点;(2)某些词汇(来自某些词汇表)是非自然语言(例如,表示观察到的核型异常的t(8;21)(q22;q22)),这些词汇几乎无法被现有的PLM理解,因为它们的分词是针对自然语言定制的;(3)一些查询(由知识三元组构建)可能有数百个答案(即1对N关系),这使得探测性能的解释变得复杂;(4)一些查询可能在自身中暴露答案(例如,查询中的答案),这使得解释相对准确性得分变得具有挑战性。关系类型的选择。为了获得高质量的知识查询,我们在关系层面上进行了多轮手动过滤,排除了无信息的关系或仅在本体论上下文中重要而不包含有趣语义的关系(例如,分类法和测量关系)。我们还排除了三元组/实体不足的关系。然后,我们手动检查了每个关系的知识三元组,过滤掉包含非自然语言实体的三元组,并确保它们的查询在语义上是有意义的。此外,在存在多个正确答案的1对N关系的情况下,我们限制所有查询最多包含10个正确答案。这些步骤导致了19个关系,每个关系包含1k个随机抽样的知识查询。表2显示了详细的关系名称及其对应的提示。简单查询与困难查询。最近的研究(Poerner等人,2020;Shwartz等人,2020)发现了0方法类型答案空间MLM0填充掩码(Petroni等人,2019)MPPLM词汇-X-FACTR(Jiang等人,2020a)MPPLM词汇-生成型PLM(Lewis等人,2020)GBPLM词汇-掩码平均(Kassner等人,2021)RBKG实体-对比探测(我们的)RB KG实体0表3:不同方法的比较。探测方法的类型:掩码预测(MP)、检索型(RB)和生成型(GB)。0PLM过于依赖实体的表面形式来猜测知识查询的正确答案。PLM通过检测查询和答案表面形式之间的词汇重叠来“作弊”,而不是运用其预测事实知识的能力。例如,PLM可以轻松处理三元组<登革热病毒活性抗原CYD血清型1,可能预防,登革热>,因为答案是查询的一部分。为了减轻这种偏见,我们还通过使用令牌和匹配度量(即精确匹配和ROUGE-L(Lin和Och,2004))选择每个关系的子集,为每个关系创建了一个困难查询集。有关更多详细信息,请参见附录。我们将最终过滤和原始查询分别称为“困难集”和“完整集”。图1(左)显示了困难集和完整集的数量。多令牌问题。探测MedLAMA的一个关键挑战是对其实体名称进行多令牌解码。在MedLAMA中,只有2.6%的实体名称是单令牌,而在英文的mLAMA(Kassner等人,2021)和LAMA(Petroni等人,2019)中,单令牌答案的百分比分别为98%和100%。图1(右)显示了不同令牌数量的答案百分比。03现有的多词元素知识探测方法0虽然PLM知识探测的先驱工作主要集中在单词元素上,但最近的许多工作开始探索多词元素场景的解决方案(Kassner等人,2021年;Jiang等人,2020a;DeCao等人,2021年)。这些知识探测方法可以根据答案搜索空间和对MLM头的依赖性进行分类,分为三类:Mask预测、基于生成和基于检索。表3总结了它们的主要区别。Mask预测。Mask预测(Petroni等人,2019年;Jiang等人,2020a年)是最常见的一种方法。它使用MLM头来填充填空式查询中的单个掩码标记,并将输出标记作为PLM词汇表的一部分(Petroni等人,2019年)。由于许多真实世界的实体名称由多个标记编码,Mask预测方法也已经扩展到使用条件掩码语言模型预测多词元素答案(Jiang等人,2020a年;Ghazvininejad等人,2019年)。图2(a)显示了预测过程。具体而言,给定一个查询,探测任务被定义为:1)独立并行填充掩码(Independent);2)自左向右自回归填充掩码(Order);3)按最大置信度贪婪地填充标记(Con�dence)。在所有掩码标记都用初始预测替换后,可以通过逐个修改一个标记直到收敛或达到最大迭代次数的方式进一步改进预测(Jiang等人,2020a年)。例如,Order +Order表示答案首先由Order预测,然后由Order进行改进。在本文中,我们根据我们的初步探索,研究了这两种方法,即独立和Order + Order。04由Bert-base-uncased进行标记化。0+v:mala2277获取更多论文HIV + In + ##fect + ##ions0.45 0.2 0.6 0.35shockDextran 40 may treat [Mask] .Elvitegravir may prevent [Mask][Mask][Mask][Mask] .EpistaxisElvitegravir may prevent [Mask] HIV In ##fect ##ions[CLS] Elvitegravir may prevent [Mask].Elvitegravir may prevent [Mask].Nasal MassPainEpistaxis Rhinorrhea…AutoregressiveDecoderNasal MassPainEpistaxis Rhinorrhea……[CLS]Multi-token DecodingNearest NeighborSearchrespond to the [Mask] token in an autoregressivemanner. An illustration is provided in Figure 2(b).Retrieval-based. Mask predict and Generation-based approaches need to use the PLM vocabularyas their search spaces for answer tokens, whichmay generate answers that are not in the answerset. In particular, when probing the masked PLMsusing their MLM heads, the predicted result mightnot be a good indicator for measuring the amountof knowledge captured by these PLMs. This ismainly because the MLM head will be eventuallydropped during the downstream task fine-tuningwhile the MLM head normally accounts for morethan 20% of the total PLM parameters. Alterna-tively, the retrieval-based probing (Dufter et al.,2021; Kassner et al., 2021) are applied to addressthis issue. Instead of generating answers based onthe PLM vocabulary, the retrieval-based approachfinds answers by ranking the knowledge graphcandidate entities based on the query and entityrepresentations, or the entity generating scores.To probe PLMs on MedLAMA, we use mask aver-age (Kassner et al., 2021), an approach that takesthe average log probabilities of entity’s individualtokens to rank the candidates. The retrieval-basedapproaches address the multi-token issue by re-stricting the output space to the valid answer setand can be used to probe knowledge in differenttypes of PLMs (e.g. BERT vs. fastText; Dufteret al. 2021). However, previous works (Kassneret al., 2021; Dufter et al., 2021) only report resultsbased on the type-restricted candidate set (e.g. re-lation) which we observed to decay drastically un-der the full entity set.0(d)对比探测0(b)生成式PLM(a)Mask预测0单词元素 多词元素0BERT0BART/T50BERT0BERT0BERT0MLM0MLM0MLM0实体0(c)掩码平均0实体0鼻出血0查询0嵌入0实体0嵌入0图2:不同探测方法的比较。(d)是我们提出的对比探测方法。0用于探测掩码PLM(例如BERT)的常用方法之一是Mask预测方法。Mask预测方法使用MLM头来填充填空式查询中的单个掩码标记,并将输出标记作为PLM词汇表的一部分(Petroni等人,2019年)。由于许多真实世界的实体名称由多个标记编码,Mask预测方法也已经扩展到使用条件掩码语言模型预测多词元素答案(Jiang等人,2020a年;Ghazvininejad等人,2019年)。图2(b)提供了一个示例。基于检索的。Mask预测和基于生成的方法需要使用PLM词汇表作为答案标记的搜索空间,这可能会生成不在答案集中的答案。特别是,在使用MLM头对掩码PLM进行探测时,预测结果可能不是衡量这些PLM捕获的知识量的好指标。这主要是因为MLM头在下游任务微调期间将被最终删除,而MLM头通常占总PLM参数的20%以上。作为替代,检索式探测(Dufter等人,2021年;Kassner等人,2021年)被应用来解决这个问题。检索式方法不是基于PLM词汇表生成答案,而是根据查询和实体表示或实体生成分数对知识图谱候选实体进行排名。为了在MedLAMA上探测PLM,我们使用了maskaverage(Kassner等人,2021年),这是一种通过计算实体各个标记的平均对数概率来对候选实体进行排名的方法。检索式方法通过将输出空间限制为有效答案集来解决多词元素问题,并且可以用于探测不同类型的PLM(例如BERT vs.fastText;Dufter等人,2021年)。然而,先前的研究(Kassner等人,2021年;Dufter等人,2021年)仅报告了基于类型限制的候选集(例如关系)的结果,我们观察到在完整实体集下这些结果急剧下降。0基于生成的。最近,许多基于生成的PLM已经被提出用于文本生成任务,例如BART(Lewis等人,2020年)和T5(Ra�el等人,2020年)。这些生成式PLM是通过去噪目标进行训练的,以自回归的方式恢复其原始形式(Lewis等人,2020年;Ra�el等人,2020年)。这种自回归生成过程类似于Order探测方法,因此生成式PLM可以直接用于为每个查询生成答案。具体而言,我们使用带有单个[Mask]标记的填空式查询作为模型输入。然后,模型预测与之对应的答案实体。04个对比-探针:作为自我检索游戏的填空式任务0为了更好地转换用于填空式探测任务的PLM编码器,我们提出了对比-0+v:mala2277获取更多论文0探针,它在从PLM的原始预训练语料库中随机抽样的少量句子上进行预训练,使用对比自我监督目标,受Mirror-BERT(Liu等人,2021b)的启发。我们的对比预训练不需要MLM头部或任何额外的外部知识,并且可以在2×2080TiGPU上不到一分钟内完成。自我监督的对比重连。我们随机抽样一小组句子(例如10k,参见§5.2,对几个随机抽样集的对比-探针稳定性分析),并将它们的尾部标记(例如,不包括句号的最后50%)替换为[Mask]标记。然后,将这些转换后的句子作为填空式自我检索游戏的查询。下面我们展示将句子转换为填空式查询的示例:0句子:社交隔离大大减少冠状病毒感染。查询:社交隔离主要[M ask]。0其中“减少冠状病毒感染”被标记为该查询的正向答案。给定一个批次,填空式自我检索游戏是要求PLM从同一批次中的所有查询和答案中检索出正向答案。我们的对比-探针通过优化InfoNCE目标(Oord等人,2018)来解决这个问题。0L = -0i = 1 l0xj∈Ni exp(cos(f(xi), f(xj))/τ), (1)0其中f(∙)是PLM编码器(去掉MLM头部,[CLS]作为上下文表示),N是批量大小,xi和xp来自查询-答案对(即xi和xp来自同一句子),Ni包含批量中的查询和答案,τ是温度。该目标函数鼓励f为来自同一句子的任何查询-答案对创建相似的表示,并为属于不同句子的查询/答案创建不相似的表示。基于检索的探测。对于探测步骤,查询是基于每个知识三元组的基于提示的模板创建的,如下所示:0三元组:查询:Elvitegravir可能预防[M ask]。0我们从同一模型编码的所有实体表示中搜索最近的邻居。0方法 PLM 完整集0准确率@1 准确率@100生成式PLM0BART-base 0.16 1.39SciFive-base 0.53 2.02SciFive-large 0.55 2.03 T5-small0.70 1.72 T5-base 0.06 0.190X-FACTR(置信度)BERT 0.05 - BlueBERT 0.74 - BioBERT0.17 -0X-FACTR(顺序+顺序)BERT 0.06 - BlueBERT 0.50 - BioBERT0.11 -0掩码平均BERT 0.06 0.73 BlueBERT 0.05 1.39 BioBERT 0.28 3.030对比-探针(我们的)0BERT 1.95 6.96 BlueBERT 4.8719.870BioBERT 3.28 15.46PubMedBERT 5.71 24.310表4:不同探测方法在MedLAMA的完整集上的性能。由于PubMedBERT的MLM头部不可用,无法应用掩码预测和掩码平均方法。最佳结果以粗体显示,次佳结果以下划线显示。05个实验0在本节中,我们进行了大量实验,以验证对生物医学PLM进行探测的对比-探针的有效性。首先,我们在MedLAMA基准测试上使用对比-探针和现有的探测方法进行实验(§5.1)。然后,我们对对比-探针在探测生物医学PLM中的稳定性和适用性进行了深入分析(§5.2)。最后,我们报告了生物医学专家对探测预测的评估结果,并强调了我们的发现(§5.3)。对比-探针重连。我们基于从PubMed文本中随机抽样的10k个句子进行对比-探针的训练,使用掩码比例为0.5。最佳超参数及其调整选项详见附录。探测基线。对于掩码预测方法,我们使用X-FACTR(Jiang等人,2020a)的原始实现,将束搜索大小和掩码数量设置为5。掩码预测和基于检索的方法在通用领域和生物医学领域的BERT模型(即Bert-based-uncased(De-vlin等人,2019),BlueBERT(Peng等人,2019),BioBERT(Lee等人,2020),PubMedBERT(Gu等人,2020))下进行测试。对于基于生成的基线,我们测试了五个PLM,即BART-base(Lewis等人,05我们从PubMed语料库中抽取了用于BlueBERT预训练的句子(Peng等,2019年)。6PubMedBERT的MLM头部不公开可用,无法通过X-FACTR和mask average进行评估。0+v:mala2277获取更多论文1>5061>500.250.500.751.001.2502020年),T5-small和T5-base(Ra �el等,2020年)是通用领域的生成型PLMs,SciFive-base和SciFive-large(Phan等,2021年)是在大型生物医学语料库上预训练的。05.1在MedLAMA上进行基准测试0比较各种探测方法。表4显示了MedLAMA上各种探测基线的整体结果。可以看到,所有现有的探测方法(即生成型PLMs、X-FACTR和maskpredict)的性能都非常低(acc@1小于1%,acc@10小于4%),无论底层PLM如何,它们都不是衡量知识捕获的有效指标。相比之下,我们的对比-探测在acc@1和acc@10上分别与三种现有方法相比,绝对改进了约5%和21%,这验证了它在衡量知识探测性能方面的有效性。特别是PubMedBERT模型在这些生物医学查询中获得了最佳的探测性能(准确率为5.71%),验证了它在捕获生物医学知识方面与其他PLMs(即BERT、BlueBERT和BioBERT)相比的有效性。与对比-探测进行基准测试。为了进一步检验PLMs在捕获生物医学知识方面的有效性,我们通过对比-探测在MedLAMA上对几种最先进的生物医学PLMs(包括纯预训练和知识增强模型)进行了基准测试。表5显示了完整集合和困难集合上的探测结果。总体上,我们可以观察到这些生物医学PLMs的性能总是优于通用领域的PLMs(即BERT)。此外,我们观察到所有这些模型在更具挑战性的困难集合查询上的性能下降。虽然PubMedBERT在所有纯预训练模型中表现最好,但SapBERT(Liu等,2021a年)和CoderBERT(Yuan等,2020年)(它们是知识注入的PubMedBERT)进一步将性能提升到了acc@1和acc@10指标分别为8%和30.41%,凸显了知识注入预训练的好处。根据答案长度进行比较。由于不同的PLMs使用不同的分词器,我们使用查询答案的字符长度将MedLAMA分成不同的区间,并测试不同答案长度上的探测性能。图3显示了结果。我们可以看到,对比-探测中基于检索的探测性能随着答案长度的增加而增加0模型acc@1 / acc@100全部集合 困难集合0BERT(Devlin等,2019年)1.95±0.40 / 6.96±0.96 BlueBERT(Peng等,2019年)4.87±0.43 /19.87±0.62 BioBERT(Lee等,2020年)3.28±0.20 / 15.46±0.93ClinicalBERT(Alsentzer等,2019年)1.83±0.15 / 8.64±0.79SciBERT(Beltagy等,2019年)3.64±0.33 / 18.11±1.95PubMedBERT(Gu等,2020年)5.71±0.58 / 24.31±1.290UmlsBERT(Michalopoulos等,2021年)2.94±0.21 / 11.64±0.46 1.80±0.11 / 7.75±0.42SapBERT(Liu等,2021a年)7.80±0.38 / 30.41±1.23 5.15±0.27 / 26.09±1.17CoderBERT(Yuan等,2020年)8.00±0.60 / 26.41±1.08 6.08±0.52 / 22.69±1.100表5:通过对比-探测在MedLAMA上对生物医学PLMs进行基准测试(完整集合和困难集合)。底部面板是知识增强型PLMs。根据对10个不同随机集的重连报告了平均性能及其标准差。0字符数0acc@1百分比0对比-探测0字符数0掩码预测0模型0BluebertBioBert0图3:答案长度的性能。0答案长度增加时,掩码预测的性能显著下降。这个结果验证了我们的对比-探测(基于检索的)在预测较长答案方面比掩码预测方法更可靠,因为后者严重依赖于MLM头。05.2 对比-探测的深入分析0由于我们的对比-探测涉及许多超参数和随机因素,因此验证它在(1)不同随机抽样的句子集;(2)不同类型的关系;和(3)不同的预训练步骤下的一致行为至关重要。对比-探测的稳定性。为了进行这种验证,我们从PubMed语料库中抽取了10个不同的10k句子集,并使用我们的对比-探测对PubMedBERT模型进行了探测。图4显示了前9个关系的acc@1性能以及所有19个关系的微平均性能。我们可以看到标准差很小,并且在不同样本集上的性能显示出相似的趋势。这进一步说明了0对于单词探测场景,对比-探测在一般领域中并不优于掩码预测方法。这是预期的,因为大多数掩码PLMs都是通过单词填充目标进行预训练的。8调整语料库本身并不重要,因为我们甚至可以使用维基百科获得类似的结果。0+v:mala2277获取更多论文100200300400500steps05101520acc@1100200300400500steps102030405060acc@10micro average (all 19 relations)gene product plays role in biological processgene product encoded by geneoccurs afterdisease may have molecular abnormalityassociated morphology ofdisease has normal tissue origingene encodes gene productmay preventdisease has normal cell origin0图4:完整集上的训练步骤性能。阴影区域表示标准差。0通过对比-探测的成功并不是由于所选的预训练句子。直观地,对比自检索游戏(§4)等同于填充任务的公式化,因此调整底层PLMs使它们更适合在探测期间需要的知识引出(如“重连”交换机板)。此外,从图4中还可以看出0我们还可以观察到不同关系在对比-探测的预训练步骤中表现出非常不同的趋势,并在不同步骤下达到峰值,这表明我们需要在注入知识时根据不同类型的关系使用不同的调整深度。我们将进一步探索这个问题。通过关系进行探测。为了进一步分析不同关系上的探测差异,我们还绘制了各种PLMs在MedLAMA的不同关系上的探测性能,如图5所示。我们可以观察到不同PLMs在不同类型的关系知识上表现出不同的性能排名(例如,BlueBERT在关系12上达到峰值,而PubMedBERT在关系3上达到峰值)。这个结果表明不同的PLMs适用于不同类型的关系知识。我们推测这反映了它们的训练语料库。通过层进行探测。为了调查每个Transformer层存储了多少知识,我们切割了PLMs的最后几层,并应用对比-探测来评估基于MedLAMA上第L∈{3,5,7,9,11,12}层的探测性能。总体上,我们可以在图6中看到,模型性能在切割最后3层后显著下降,而仅切割最后一层时其准确性仍然很高。在图7中,我们进一步绘制了PubMedBERT在不同关系上的逐层探测性能。令人惊讶的是,我们发现不同关系并不显示相同的探测性能。0层次上的性能趋势。例如,仅使用前3层,PubMedBERT在关系11的查询上实现了最佳准确率(>15%)。这个结果表明,关系类型和PLM层次是捕捉事实知识的混淆变量,这有助于解释图4中关系训练步骤的差异。这个结果还表明,逐层和逐关系的训练可能是有效注入PLMs事实知识的关键。05.3 对预测的专家评估0为了评估实际探测性能是否可能高于常用的自动评估所反映的性能,我们对预测结果进行了人工评估。具体而言,我们随机抽取15个查询,并使用基于PubMedBERT的C ontrastive - Probe预测它们的前10个答案,并要求评估员在[1,5]的范围内对预测结果进行评分。图8显示了混淆矩阵。我们观察到以下情况:(1)有3个UMLS答案被注释为分数级别1-4(准确地说是级别3),这表明UMLS答案可能并不总是完美的答案。(2)在前10个预测中有20个标注为完美答案(分数为5),但在UMLS中并未标记为黄金答案,这表明UMLS并未包含所有预期的黄金知识。(3)总体而言,PubMedBERT在黄金答案下的acc@10为8.67%(13/150),但在专家注释下的acc@10为22%(33/150),这意味着探测性能高于使用自动提取的答案进行评估的性能。0基准 #关系 #查询 平均答案数量 %单词0LAMA 41 41k 1 100% BioLAMA 36 49k 1 2.2% MedLAMA 1919k 2.3 2.6%0表6:LAMA、BioLAMA和我们的MedLAMA的统计数据比较。05.4 与BioLAMA的比较0在撰写本文期间,我们注意到与我们的工作同时发布了一个生物医学知识探测基准,名为BioLAMA(Sung等,2021年)。在表6中,我们比较了LAMA、BioLAMA和我们的MedLAMA的数据统计信息。09个细胞生物学高级博士研究生。10在附录中,我们提供了带有UMLS黄金答案、人工注释答案和不同探测方法的探测预测的示例。0+v:mala2277获取更多论文12345678911213141516171819002035111208351112060关系ID0宏观准确率@10模型0BERT-baseSciBERTPubMedBERTBioBERTBlueBERT0图5:不同关系上PLMs的性能。0层次0宏观准确率@10模型BlueBERTBioBERTPubMedBERT0层次0宏观准确率@10集合0困难完整0图6:不同层次的性能。0比较MedLAMA与LAMA(Petroni等,2019年)和BioLAMA在数据统计方面的差异。我们发现BioLAMA和MedLAMA之间只有1个重叠的关系(即可能治疗),并且查询之间没有重叠。我们可以看到,没有来自生物医学知识事实的额外训练数据,C ontrastive -Probe与OptiPrompt方法相比具有很好的性能,并且需要进一步的训练数据。此外,由于MaskPredict和OptiPrompt需要使用MLM头,因此不可能比较没有发布MLM头的模型(例如PubMedBERT)。相比之下,我们的C ontrastive -Probe不仅提供了一个很好的指标来比较这些模型在捕捉知识方面的能力,还使得逐层知识探测成为可能。05.5 对比探针的限制0如何提前停止?为了公
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JSP+SSM科研管理系统响应式网站设计案例
- 推荐一款超级好用的嵌入式串口调试工具
- PHP域名多维查询平台:高效精准的域名搜索工具
- Citypersons目标检测数据集:Yolo格式下载指南
- 掌握MySQL面试必备:程序员面试题解析集锦
- C++软件开发培训:核心技术资料深度解读
- SmartSoftHelp二维码工具:生成与解析条形码
- Android Spinner控件自定义字体大小的方法
- Ubuntu Server on Orangepi3 LTS 官方镜像发布
- CP2102 USB驱动程序的安装与更新指南
- ST-link固件升级指南:轻松更新程序步骤
- Java实现的质量管理系统Demo功能分析与操作
- Everything高效文件搜索工具:快速精确定位文件
- 基于B/S架构的酒店预订系统开发实践
- RF_Setting(E22-E90(SL)) V1.0中性版功能解析
- 高效转换M3U8到MP4:免费下载工具发布
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功