生物医学知识探测的对比方法及其性能评估

76 浏览量更新于2023-11-30 收藏 18.82MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

0重连再探：一种对预训练语言模型进行生物医学知识探测的对比方法0Zaiqiao Meng �� Fangyu Liu �� Ehsan Shareghi ��0Yixuan Su � Charlotte Collins � Nigel Collier �0�剑桥大学语言技术实验室�格拉斯哥大学计算机科学系�莫纳什大学数据科学与人工智能系�{zm324, fl399, ys484, cac74,nhc30}@cam.ac.uk�ehsan.shareghi@monash.edu0摘要0知识探测对于理解预训练语言模型（PLM）背后的知识传递机制至关重要。尽管在一般领域中，探测PLM的知识取得了不断的进展，但生物医学领域等专门领域的探测仍然相对较少。为了促进这一点，我们发布了一个经过精心策划的生物医学知识探测基准MedLAMA，该基准基于统一医学语言系统（UMLS）元词汇表构建。我们在我们的基准测试中测试了各种最先进的PLM和探测方法，最高达到10个答案的3%的准确率。虽然我们强调了导致这种令人失望的性能的各种领域特定挑战的来源，但我们说明了潜在的PLM在探测任务中具有更高的潜力。为了实现这一点，我们提出了一种新颖的自监督对比探测方法Contrastive -Probe，它可以调整底层的PLM而无需使用任何探测数据。虽然Contrastive -Probe将准确率提高到24%，但性能差距仍然显著。我们的人工专家评估表明，我们的C ontrastive -Probe的探测性能被低估了，因为UMLS并没有全面涵盖所有现有的事实知识。我们希望MedLAMA和C ontrastive -Probe能够促进更适合该领域的探测技术的进一步发展。01 引言0预训练语言模型（PLM；Devlin等，2019年；Liu等，2020年）通过以任务无关的方式预训练模型参数，并通过微调将知识转移到特定的下游任务，已经在无数少量或零样本语言理解任务上取得了令人难以置信的进展（Brown等，2020年；Petroni等，2021年）。01 数据和代码实现可在以下网址找到0https://github.com/cambridgeltl/medlama。�平等贡献。此工作是在剑桥大学完成的。0查询答案0困难查询0利奥西瓦特具有生理效应[M ask]。血管扩张0恩替卡韦可能预防[M ask]。乙型肝炎0浸润性乳头状乳腺癌疾病映射到基因[M ask]。[ERBB2基因，CCND1基因]0简单查询0创伤性动静脉瘘的相关形态[M ask]。创伤性动静脉瘘0突变RUNX1的急性髓系白血病疾病映射到基因[M ask]。RUNX1基因0氯化镁可能预防[M ask]。镁缺乏症0表1：来自MedLAMA的示例探测查询。粗体字表示UMLS关系。0为了更好地理解这些成就背后的知识传递机制，已经提出了许多知识探测方法和基准数据集（Petroni等，2019年；Jiang等，2020a；Kassner等，2021年；Zhong等，2021年）。通常通过将知识三元组形式化为掩码对象的填空式查询（见表1），并使用PLM填充单个（Petroni等，2019年）或多个（Ghazvininejad等，2019年）[Mask]标记，而无需进一步微调。与此同时，已经证明专门的PLM（例如BioBERT；Lee等，2020年，Blue-BERT；Peng等，2019年和PubMedBERT；Gu等，2020年）在几个生物医学任务中显著提高了性能（Gu等，2020年）。生物医学领域是一个有趣的测试平台，用于研究知识探测的独特挑战（包括词汇量，多令牌实体）以及可能摆脱昂贵的知识库构建过程的实际效益。然而，对于该领域中的知识探测研究还相对较少。为了促进在这个方向上的研究，我们提供了一个经过精心筛选的生物医学知识探测基准，MedLAMA，其中包含19个经过深入选择的关系。每个关系包含1k个查询（总共19k个查询，每个查询最多有10个答案），这些查询提取自0arXiv:2110.08173v3[cs.CL]22May20220+v:mala2277获取更多论文0ID 关系手动提示01种疾病可能有相关疾病该疾病[X]可能有相关疾病[Y]。2基因产物在生物过程中发挥作用基因产物[X]在生物过程[Y]中发挥作用。3基因产物由基因编码基因产物[X]由基因[Y]编码。4基因产物具有相关解剖学基因产物[X]具有相关解剖学[Y]。5基因与疾病相关基因[X]与疾病[Y]相关。6疾病具有异常细胞[X]具有异常细胞[Y]。7发生在[X]之后发生在[Y]之后。8基因产物具有生化功能[X]具有生化功能[Y]。9疾病可能具有分子异常疾病[X]可能具有分子异常[Y]。10疾病具有相关解剖部位疾病[X]可能源自相关解剖部位[Y]。11[X]的相关形态学是[Y]的相关形态学。12疾病具有正常组织起源疾病[X]源自正常组织[Y]。13基因编码基因产物基因[X]编码基因产物[Y]。14具有生理效应[X]具有[Y]的生理效应。15可能治疗[X]可能治疗[Y]。16疾病映射到基因疾病[X]映射到基因[Y]。17可能预防[X]可能能够预防[Y]。18疾病可能具有发现[X]可能具有[Y]。19疾病具有正常细胞起源疾病[X]源自正常细胞[Y]。0表2：MedLAMA中的19个关系及其相应的手动提示。0我们使用自动度量标准根据查询标记的答案暴露难度来识别困难样本。在MedLAMA中，处理答案的一个重要挑战是多标记编码（例如，在MedLAMA中，仅有2.6%的答案是单标记，而在英文的mLAMA数据集中，有98%的答案是单标记），而所有现有方法（即掩码预测；Petroni等人，2019，基于检索的方法；Dufter等人，2021，和基于生成的方法；Gao等人，2020）都难以有效处理。例如，掩码预测方法（Jiang等人，2020a）在探测多语言知识方面表现良好，但在MedLAMA上的准确率不到1%。为了解决上述挑战，我们提出了一种新方法C ontrastive -Probe，首先通过使用基于检索的对比学习目标（类似于“重连”Liu等人，2021c）调整底层PLMs的表示空间，然后根据它们与查询的表示相似性检索答案。值得注意的是，我们的C ontrastive -Probe在探测过程中不需要使用MLM头，这避免了不同模型之间的词汇偏差。此外，基于检索的探测方法对于解决多标记的挑战非常有效，因为它避免了从MLM词汇表中生成多个标记的需要。我们展示了C ontrastive -P robe如何有效地进行探测。02基于提示的探测方法，如Auto-Prompt(Shin等人，2020a)，SoftPrompt(Qin和Eisner，2021)和OptiPrompt(Zhong等人，2021)，需要额外的标记数据来微调提示，但我们将调查范围限制在不需要任务数据的方法上。0与现有方法相比，C ontrastive -P robe在acc@1和acc@10探测性能上改进了约5%和21%。我们进一步强调，C ontrastive -P robe所揭示的知识并不是从额外的随机句子中获得的，而是来自原始预训练参数，这与Liu等人(2021b)、Glavaš和Vuli´c(2021)、Su等人(2021,2022)的先前发现相一致。此外，我们证明了不同的最先进PLMs和transformer层适用于不同类型的关系知识，不同的关系需要不同的调整深度，这表明在注入不同关系的知识时应考虑层和调整深度。此外，对MedLAMA的部分PLM响应进行专家评估表明，像UMLS这样的专家制作资源仍然没有包含全部的事实知识，这表明PLMs中编码的事实信息比自动评估所反映的要丰富。我们的研究结果以及提出的MedLAMA和C ontrastive -Probe，突显了生物医学领域的独特挑战和PLMs未开发的潜力。我们希望我们的研究能够揭示领域专用PLMs捕捉到的内容以及如何以最小成本进行探测。02 MedLAMA0为了促进生物医学领域的知识探测研究，我们基于最大的生物医学知识图谱UMLS（Bodenreider，2004）创建了MedLAMA基准。UMLS 303发布版本2021AA：https://download.nlm.nih.gov/umls/kss/2021AA/umls-2021AA-full.zip0+v:mala2277获取更多论文1 2 3 4 5 6 7 8 9 10111213141516171819Relation ID05001000Countsetfullhard1 2 3 4 5 6 7 8 9>9Number of Tokens01020Percent0图1：左：完整集和困难集的计数。右：令牌数量的答案百分比。0是一个包含360万个实体和超过3520万个知识三元组的综合元词典，这些三元组涵盖了818种关系类型，这些关系类型来自各种本体论，包括SNOMEDCT、MeSH和NCBI分类法。从这样一个知识图谱中创建类似LAMA（Petroni等人，2019）的探测基准存在一些挑战：（1）UMLS是一个由不同组织构建的包含150多个本体论的知识图谱集合，这些本体论具有非常不同的模式和重点；（2）某些词汇（来自某些词汇表）是非自然语言（例如，表示观察到的核型异常的t（8;21）（q22;q22）），这些词汇几乎无法被现有的PLM理解，因为它们的分词是针对自然语言定制的；（3）一些查询（由知识三元组构建）可能有数百个答案（即1对N关系），这使得探测性能的解释变得复杂；（4）一些查询可能在自身中暴露答案（例如，查询中的答案），这使得解释相对准确性得分变得具有挑战性。关系类型的选择。为了获得高质量的知识查询，我们在关系层面上进行了多轮手动过滤，排除了无信息的关系或仅在本体论上下文中重要而不包含有趣语义的关系（例如，分类法和测量关系）。我们还排除了三元组/实体不足的关系。然后，我们手动检查了每个关系的知识三元组，过滤掉包含非自然语言实体的三元组，并确保它们的查询在语义上是有意义的。此外，在存在多个正确答案的1对N关系的情况下，我们限制所有查询最多包含10个正确答案。这些步骤导致了19个关系，每个关系包含1k个随机抽样的知识查询。表2显示了详细的关系名称及其对应的提示。简单查询与困难查询。最近的研究（Poerner等人，2020；Shwartz等人，2020）发现了0方法类型答案空间MLM0填充掩码（Petroni等人，2019）MPPLM词汇-X-FACTR（Jiang等人，2020a）MPPLM词汇-生成型PLM（Lewis等人，2020）GBPLM词汇-掩码平均（Kassner等人，2021）RBKG实体-对比探测（我们的）RB KG实体0表3：不同方法的比较。探测方法的类型：掩码预测（MP）、检索型（RB）和生成型（GB）。0PLM过于依赖实体的表面形式来猜测知识查询的正确答案。PLM通过检测查询和答案表面形式之间的词汇重叠来“作弊”，而不是运用其预测事实知识的能力。例如，PLM可以轻松处理三元组<登革热病毒活性抗原CYD血清型1，可能预防，登革热>，因为答案是查询的一部分。为了减轻这种偏见，我们还通过使用令牌和匹配度量（即精确匹配和ROUGE-L（Lin和Och，2004））选择每个关系的子集，为每个关系创建了一个困难查询集。有关更多详细信息，请参见附录。我们将最终过滤和原始查询分别称为“困难集”和“完整集”。图1（左）显示了困难集和完整集的数量。多令牌问题。探测MedLAMA的一个关键挑战是对其实体名称进行多令牌解码。在MedLAMA中，只有2.6%的实体名称是单令牌，而在英文的mLAMA（Kassner等人，2021）和LAMA（Petroni等人，2019）中，单令牌答案的百分比分别为98%和100%。图1（右）显示了不同令牌数量的答案百分比。03现有的多词元素知识探测方法0虽然PLM知识探测的先驱工作主要集中在单词元素上，但最近的许多工作开始探索多词元素场景的解决方案（Kassner等人，2021年；Jiang等人，2020a；DeCao等人，2021年）。这些知识探测方法可以根据答案搜索空间和对MLM头的依赖性进行分类，分为三类：Mask预测、基于生成和基于检索。表3总结了它们的主要区别。Mask预测。Mask预测（Petroni等人，2019年；Jiang等人，2020a年）是最常见的一种方法。它使用MLM头来填充填空式查询中的单个掩码标记，并将输出标记作为PLM词汇表的一部分（Petroni等人，2019年）。由于许多真实世界的实体名称由多个标记编码，Mask预测方法也已经扩展到使用条件掩码语言模型预测多词元素答案（Jiang等人，2020a年；Ghazvininejad等人，2019年）。图2（a）显示了预测过程。具体而言，给定一个查询，探测任务被定义为：1）独立并行填充掩码（Independent）；2）自左向右自回归填充掩码（Order）；3）按最大置信度贪婪地填充标记（Con�dence）。在所有掩码标记都用初始预测替换后，可以通过逐个修改一个标记直到收敛或达到最大迭代次数的方式进一步改进预测（Jiang等人，2020a年）。例如，Order +Order表示答案首先由Order预测，然后由Order进行改进。在本文中，我们根据我们的初步探索，研究了这两种方法，即独立和Order + Order。04由Bert-base-uncased进行标记化。0+v:mala2277获取更多论文HIV + In + ##fect + ##ions0.45 0.2 0.6 0.35shockDextran 40 may treat [Mask] .Elvitegravir may prevent [Mask][Mask][Mask][Mask] .EpistaxisElvitegravir may prevent [Mask] HIV In ##fect ##ions[CLS] Elvitegravir may prevent [Mask].Elvitegravir may prevent [Mask].Nasal MassPainEpistaxis Rhinorrhea…AutoregressiveDecoderNasal MassPainEpistaxis Rhinorrhea……[CLS]Multi-token DecodingNearest NeighborSearchrespond to the [Mask] token in an autoregressivemanner. An illustration is provided in Figure 2(b).Retrieval-based. Mask predict and Generation-based approaches need to use the PLM vocabularyas their search spaces for answer tokens, whichmay generate answers that are not in the answerset. In particular, when probing the masked PLMsusing their MLM heads, the predicted result mightnot be a good indicator for measuring the amountof knowledge captured by these PLMs. This ismainly because the MLM head will be eventuallydropped during the downstream task ﬁne-tuningwhile the MLM head normally accounts for morethan 20% of the total PLM parameters. Alterna-tively, the retrieval-based probing (Dufter et al.,2021; Kassner et al., 2021) are applied to addressthis issue. Instead of generating answers based onthe PLM vocabulary, the retrieval-based approachﬁnds answers by ranking the knowledge graphcandidate entities based on the query and entityrepresentations, or the entity generating scores.To probe PLMs on MedLAMA, we use mask aver-age (Kassner et al., 2021), an approach that takesthe average log probabilities of entity’s individualtokens to rank the candidates. The retrieval-basedapproaches address the multi-token issue by re-stricting the output space to the valid answer setand can be used to probe knowledge in diﬀerenttypes of PLMs (e.g. BERT vs. fastText; Dufteret al. 2021). However, previous works (Kassneret al., 2021; Dufter et al., 2021) only report resultsbased on the type-restricted candidate set (e.g. re-lation) which we observed to decay drastically un-der the full entity set.0（d）对比探测0（b）生成式PLM（a）Mask预测0单词元素多词元素0BERT0BART/T50BERT0BERT0BERT0MLM0MLM0MLM0实体0（c）掩码平均0实体0鼻出血0查询0嵌入0实体0嵌入0图2：不同探测方法的比较。（d）是我们提出的对比探测方法。0用于探测掩码PLM（例如BERT）的常用方法之一是Mask预测方法。Mask预测方法使用MLM头来填充填空式查询中的单个掩码标记，并将输出标记作为PLM词汇表的一部分（Petroni等人，2019年）。由于许多真实世界的实体名称由多个标记编码，Mask预测方法也已经扩展到使用条件掩码语言模型预测多词元素答案（Jiang等人，2020a年；Ghazvininejad等人，2019年）。图2（b）提供了一个示例。基于检索的。Mask预测和基于生成的方法需要使用PLM词汇表作为答案标记的搜索空间，这可能会生成不在答案集中的答案。特别是，在使用MLM头对掩码PLM进行探测时，预测结果可能不是衡量这些PLM捕获的知识量的好指标。这主要是因为MLM头在下游任务微调期间将被最终删除，而MLM头通常占总PLM参数的20%以上。作为替代，检索式探测（Dufter等人，2021年；Kassner等人，2021年）被应用来解决这个问题。检索式方法不是基于PLM词汇表生成答案，而是根据查询和实体表示或实体生成分数对知识图谱候选实体进行排名。为了在MedLAMA上探测PLM，我们使用了maskaverage（Kassner等人，2021年），这是一种通过计算实体各个标记的平均对数概率来对候选实体进行排名的方法。检索式方法通过将输出空间限制为有效答案集来解决多词元素问题，并且可以用于探测不同类型的PLM（例如BERT vs.fastText；Dufter等人，2021年）。然而，先前的研究（Kassner等人，2021年；Dufter等人，2021年）仅报告了基于类型限制的候选集（例如关系）的结果，我们观察到在完整实体集下这些结果急剧下降。0基于生成的。最近，许多基于生成的PLM已经被提出用于文本生成任务，例如BART（Lewis等人，2020年）和T5（Ra�el等人，2020年）。这些生成式PLM是通过去噪目标进行训练的，以自回归的方式恢复其原始形式（Lewis等人，2020年；Ra�el等人，2020年）。这种自回归生成过程类似于Order探测方法，因此生成式PLM可以直接用于为每个查询生成答案。具体而言，我们使用带有单个[Mask]标记的填空式查询作为模型输入。然后，模型预测与之对应的答案实体。04个对比-探针：作为自我检索游戏的填空式任务0为了更好地转换用于填空式探测任务的PLM编码器，我们提出了对比-0+v:mala2277获取更多论文0探针，它在从PLM的原始预训练语料库中随机抽样的少量句子上进行预训练，使用对比自我监督目标，受Mirror-BERT（Liu等人，2021b）的启发。我们的对比预训练不需要MLM头部或任何额外的外部知识，并且可以在2×2080TiGPU上不到一分钟内完成。自我监督的对比重连。我们随机抽样一小组句子（例如10k，参见§5.2，对几个随机抽样集的对比-探针稳定性分析），并将它们的尾部标记（例如，不包括句号的最后50%）替换为[Mask]标记。然后，将这些转换后的句子作为填空式自我检索游戏的查询。下面我们展示将句子转换为填空式查询的示例：0句子：社交隔离大大减少冠状病毒感染。查询：社交隔离主要[M ask]。0其中“减少冠状病毒感染”被标记为该查询的正向答案。给定一个批次，填空式自我检索游戏是要求PLM从同一批次中的所有查询和答案中检索出正向答案。我们的对比-探针通过优化InfoNCE目标（Oord等人，2018）来解决这个问题。0L = -0i = 1 l0xj∈Ni exp(cos(f(xi), f(xj))/τ), (1)0其中f(∙)是PLM编码器（去掉MLM头部，[CLS]作为上下文表示），N是批量大小，xi和xp来自查询-答案对（即xi和xp来自同一句子），Ni包含批量中的查询和答案，τ是温度。该目标函数鼓励f为来自同一句子的任何查询-答案对创建相似的表示，并为属于不同句子的查询/答案创建不相似的表示。基于检索的探测。对于探测步骤，查询是基于每个知识三元组的基于提示的模板创建的，如下所示：0三元组：查询：Elvitegravir可能预防[M ask]。0我们从同一模型编码的所有实体表示中搜索最近的邻居。0方法 PLM 完整集0准确率@1 准确率@100生成式PLM0BART-base 0.16 1.39SciFive-base 0.53 2.02SciFive-large 0.55 2.03 T5-small0.70 1.72 T5-base 0.06 0.190X-FACTR（置信度）BERT 0.05 - BlueBERT 0.74 - BioBERT0.17 -0X-FACTR（顺序+顺序）BERT 0.06 - BlueBERT 0.50 - BioBERT0.11 -0掩码平均BERT 0.06 0.73 BlueBERT 0.05 1.39 BioBERT 0.28 3.030对比-探针（我们的）0BERT 1.95 6.96 BlueBERT 4.8719.870BioBERT 3.28 15.46PubMedBERT 5.71 24.310表4：不同探测方法在MedLAMA的完整集上的性能。由于PubMedBERT的MLM头部不可用，无法应用掩码预测和掩码平均方法。最佳结果以粗体显示，次佳结果以下划线显示。05个实验0在本节中，我们进行了大量实验，以验证对生物医学PLM进行探测的对比-探针的有效性。首先，我们在MedLAMA基准测试上使用对比-探针和现有的探测方法进行实验（§5.1）。然后，我们对对比-探针在探测生物医学PLM中的稳定性和适用性进行了深入分析（§5.2）。最后，我们报告了生物医学专家对探测预测的评估结果，并强调了我们的发现（§5.3）。对比-探针重连。我们基于从PubMed文本中随机抽样的10k个句子进行对比-探针的训练，使用掩码比例为0.5。最佳超参数及其调整选项详见附录。探测基线。对于掩码预测方法，我们使用X-FACTR（Jiang等人，2020a）的原始实现，将束搜索大小和掩码数量设置为5。掩码预测和基于检索的方法在通用领域和生物医学领域的BERT模型（即Bert-based-uncased（De-vlin等人，2019），BlueBERT（Peng等人，2019），BioBERT（Lee等人，2020），PubMedBERT（Gu等人，2020））下进行测试。对于基于生成的基线，我们测试了五个PLM，即BART-base（Lewis等人，05我们从PubMed语料库中抽取了用于BlueBERT预训练的句子（Peng等，2019年）。6PubMedBERT的MLM头部不公开可用，无法通过X-FACTR和mask average进行评估。0+v:mala2277获取更多论文1>5061>500.250.500.751.001.2502020年），T5-small和T5-base（Ra �el等，2020年）是通用领域的生成型PLMs，SciFive-base和SciFive-large（Phan等，2021年）是在大型生物医学语料库上预训练的。05.1在MedLAMA上进行基准测试0比较各种探测方法。表4显示了MedLAMA上各种探测基线的整体结果。可以看到，所有现有的探测方法（即生成型PLMs、X-FACTR和maskpredict）的性能都非常低（acc@1小于1%，acc@10小于4%），无论底层PLM如何，它们都不是衡量知识捕获的有效指标。相比之下，我们的对比-探测在acc@1和acc@10上分别与三种现有方法相比，绝对改进了约5%和21%，这验证了它在衡量知识探测性能方面的有效性。特别是PubMedBERT模型在这些生物医学查询中获得了最佳的探测性能（准确率为5.71%），验证了它在捕获生物医学知识方面与其他PLMs（即BERT、BlueBERT和BioBERT）相比的有效性。与对比-探测进行基准测试。为了进一步检验PLMs在捕获生物医学知识方面的有效性，我们通过对比-探测在MedLAMA上对几种最先进的生物医学PLMs（包括纯预训练和知识增强模型）进行了基准测试。表5显示了完整集合和困难集合上的探测结果。总体上，我们可以观察到这些生物医学PLMs的性能总是优于通用领域的PLMs（即BERT）。此外，我们观察到所有这些模型在更具挑战性的困难集合查询上的性能下降。虽然PubMedBERT在所有纯预训练模型中表现最好，但SapBERT（Liu等，2021a年）和CoderBERT（Yuan等，2020年）（它们是知识注入的PubMedBERT）进一步将性能提升到了acc@1和acc@10指标分别为8%和30.41%，凸显了知识注入预训练的好处。根据答案长度进行比较。由于不同的PLMs使用不同的分词器，我们使用查询答案的字符长度将MedLAMA分成不同的区间，并测试不同答案长度上的探测性能。图3显示了结果。我们可以看到，对比-探测中基于检索的探测性能随着答案长度的增加而增加0模型acc@1 / acc@100全部集合困难集合0BERT（Devlin等，2019年）1.95±0.40 / 6.96±0.96 BlueBERT（Peng等，2019年）4.87±0.43 /19.87±0.62 BioBERT（Lee等，2020年）3.28±0.20 / 15.46±0.93ClinicalBERT（Alsentzer等，2019年）1.83±0.15 / 8.64±0.79SciBERT（Beltagy等，2019年）3.64±0.33 / 18.11±1.95PubMedBERT（Gu等，2020年）5.71±0.58 / 24.31±1.290UmlsBERT（Michalopoulos等，2021年）2.94±0.21 / 11.64±0.46 1.80±0.11 / 7.75±0.42SapBERT（Liu等，2021a年）7.80±0.38 / 30.41±1.23 5.15±0.27 / 26.09±1.17CoderBERT（Yuan等，2020年）8.00±0.60 / 26.41±1.08 6.08±0.52 / 22.69±1.100表5：通过对比-探测在MedLAMA上对生物医学PLMs进行基准测试（完整集合和困难集合）。底部面板是知识增强型PLMs。根据对10个不同随机集的重连报告了平均性能及其标准差。0字符数0acc@1百分比0对比-探测0字符数0掩码预测0模型0BluebertBioBert0图3：答案长度的性能。0答案长度增加时，掩码预测的性能显著下降。这个结果验证了我们的对比-探测（基于检索的）在预测较长答案方面比掩码预测方法更可靠，因为后者严重依赖于MLM头。05.2 对比-探测的深入分析0由于我们的对比-探测涉及许多超参数和随机因素，因此验证它在（1）不同随机抽样的句子集；（2）不同类型的关系；和（3）不同的预训练步骤下的一致行为至关重要。对比-探测的稳定性。为了进行这种验证，我们从PubMed语料库中抽取了10个不同的10k句子集，并使用我们的对比-探测对PubMedBERT模型进行了探测。图4显示了前9个关系的acc@1性能以及所有19个关系的微平均性能。我们可以看到标准差很小，并且在不同样本集上的性能显示出相似的趋势。这进一步说明了0对于单词探测场景，对比-探测在一般领域中并不优于掩码预测方法。这是预期的，因为大多数掩码PLMs都是通过单词填充目标进行预训练的。8调整语料库本身并不重要，因为我们甚至可以使用维基百科获得类似的结果。0+v:mala2277获取更多论文100200300400500steps05101520acc@1100200300400500steps102030405060acc@10micro average (all 19 relations)gene product plays role in biological processgene product encoded by geneoccurs afterdisease may have molecular abnormalityassociated morphology ofdisease has normal tissue origingene encodes gene productmay preventdisease has normal cell origin0图4：完整集上的训练步骤性能。阴影区域表示标准差。0通过对比-探测的成功并不是由于所选的预训练句子。直观地，对比自检索游戏（§4）等同于填充任务的公式化，因此调整底层PLMs使它们更适合在探测期间需要的知识引出（如“重连”交换机板）。此外，从图4中还可以看出0我们还可以观察到不同关系在对比-探测的预训练步骤中表现出非常不同的趋势，并在不同步骤下达到峰值，这表明我们需要在注入知识时根据不同类型的关系使用不同的调整深度。我们将进一步探索这个问题。通过关系进行探测。为了进一步分析不同关系上的探测差异，我们还绘制了各种PLMs在MedLAMA的不同关系上的探测性能，如图5所示。我们可以观察到不同PLMs在不同类型的关系知识上表现出不同的性能排名（例如，BlueBERT在关系12上达到峰值，而PubMedBERT在关系3上达到峰值）。这个结果表明不同的PLMs适用于不同类型的关系知识。我们推测这反映了它们的训练语料库。通过层进行探测。为了调查每个Transformer层存储了多少知识，我们切割了PLMs的最后几层，并应用对比-探测来评估基于MedLAMA上第L∈{3，5，7，9，11，12}层的探测性能。总体上，我们可以在图6中看到，模型性能在切割最后3层后显著下降，而仅切割最后一层时其准确性仍然很高。在图7中，我们进一步绘制了PubMedBERT在不同关系上的逐层探测性能。令人惊讶的是，我们发现不同关系并不显示相同的探测性能。0层次上的性能趋势。例如，仅使用前3层，PubMedBERT在关系11的查询上实现了最佳准确率（>15%）。这个结果表明，关系类型和PLM层次是捕捉事实知识的混淆变量，这有助于解释图4中关系训练步骤的差异。这个结果还表明，逐层和逐关系的训练可能是有效注入PLMs事实知识的关键。05.3 对预测的专家评估0为了评估实际探测性能是否可能高于常用的自动评估所反映的性能，我们对预测结果进行了人工评估。具体而言，我们随机抽取15个查询，并使用基于PubMedBERT的C ontrastive - Probe预测它们的前10个答案，并要求评估员在[1,5]的范围内对预测结果进行评分。图8显示了混淆矩阵。我们观察到以下情况：（1）有3个UMLS答案被注释为分数级别1-4（准确地说是级别3），这表明UMLS答案可能并不总是完美的答案。（2）在前10个预测中有20个标注为完美答案（分数为5），但在UMLS中并未标记为黄金答案，这表明UMLS并未包含所有预期的黄金知识。（3）总体而言，PubMedBERT在黄金答案下的acc@10为8.67%（13/150），但在专家注释下的acc@10为22%（33/150），这意味着探测性能高于使用自动提取的答案进行评估的性能。0基准 #关系 #查询平均答案数量 %单词0LAMA 41 41k 1 100% BioLAMA 36 49k 1 2.2% MedLAMA 1919k 2.3 2.6%0表6：LAMA、BioLAMA和我们的MedLAMA的统计数据比较。05.4 与BioLAMA的比较0在撰写本文期间，我们注意到与我们的工作同时发布了一个生物医学知识探测基准，名为BioLAMA（Sung等，2021年）。在表6中，我们比较了LAMA、BioLAMA和我们的MedLAMA的数据统计信息。09个细胞生物学高级博士研究生。10在附录中，我们提供了带有UMLS黄金答案、人工注释答案和不同探测方法的探测预测的示例。0+v:mala2277获取更多论文12345678911213141516171819002035111208351112060关系ID0宏观准确率@10模型0BERT-baseSciBERTPubMedBERTBioBERTBlueBERT0图5：不同关系上PLMs的性能。0层次0宏观准确率@10模型BlueBERTBioBERTPubMedBERT0层次0宏观准确率@10集合0困难完整0图6：不同层次的性能。0比较MedLAMA与LAMA（Petroni等，2019年）和BioLAMA在数据统计方面的差异。我们发现BioLAMA和MedLAMA之间只有1个重叠的关系（即可能治疗），并且查询之间没有重叠。我们可以看到，没有来自生物医学知识事实的额外训练数据，C ontrastive -Probe与OptiPrompt方法相比具有很好的性能，并且需要进一步的训练数据。此外，由于MaskPredict和OptiPrompt需要使用MLM头，因此不可能比较没有发布MLM头的模型（例如PubMedBERT）。相比之下，我们的C ontrastive -Probe不仅提供了一个很好的指标来比较这些模型在捕捉知识方面的能力，还使得逐层知识探测成为可能。05.5 对比探针的限制0如何提前停止？为了公

~~下载后可阅读完整内容，剩余1页未读，立即下载~~

大数据-算法-火灾探测信号处理算法及其性能评估方法研究.pdf

本文主要探讨了大数据环境下的火灾探测信号处理算法及其性能评估方法。火灾自动探测技术是多学科交叉的产物，涉及电子、通信、传感器技术等多个领域。其核心在于利用传感器监测火灾生成物，提前预警火灾，避免误报和...

深圳大学生物医学传感器课件.zip

总的来说，这门课程不仅覆盖了生物医学传感器的多种类型及其工作原理，还强调了实际应用中的测量电路设计、性能优化和干扰处理。通过深入学习，学生可以具备设计和开发高效、可靠的生物医学传感器的能力，为未来在...

高光谱目标探测算法对比分析：性能评估与优化

"这篇论文是关于高光谱目标探测算法的性能分析比较，主要探讨了完全自适应探测算法和半监督目标探测算法在高光谱小目标检测中的应用。研究发现，异常探测算法（RXD）和基于数据白化距离探测算法（WAAD）在完全自适应...

系留气艇探测风速的误差订正及其应用评估 (2013年)

使用系留气艇探空系统在常州、苏州、南京市区对边界层风速、温度、湿度廓线进行了观测...本文还用订正后的系留气艇探测结果与苏州市气象局的风廓线雷达资料进行对比，结果显示风廓线雷达探测结果在500 m以下系统偏小。

大视场地表层自适应光学系统性能评估方法对比分析.docx

GLAO系统性能评估通常涉及三种理论方法：零阶误差标度律、一阶线性系统解析模型和蒙特卡洛数值模拟模型。零阶误差标度律基于参数间的依赖关系，只能提供粗略估计，适合初步分析。一阶线性系统解析模型则简化了物理...

电子政务-光电探测成像系统及其成像方法.zip

在本资料"电子政务-光电探测成像系统及其成像方法.zip"中，主要探讨的是光电探测成像系统在电子政务中的应用以及其成像方法。光电探测成像技术是利用光电器件对光线强度、颜色等信息进行检测，并转换为电信号，进而...

拉曼探头的发展及其生物医学应用

在生物医学领域,拉曼光谱学越来越多地应用于目标样本或组织的在体原位无损探测。拉曼探头作为重要的拉曼检测部件,正朝着多样化和功能化方向发展。拉曼信号本身极其微弱,且易被其他噪声信号干扰,因此拉曼探头的设计...

散射光声探测技术及其成像方法

为了实现强散射样品的光声显微成像，提出了一种散射光声显微成像新技术。...实验结果表明，散射光声显微成像技术可以极大地改善图像对比度和增强图像边缘，对于工业、大气等方面的微粒直径测量具有重要的应用意义。

提高“猫眼”探测系统自动对焦性能的方法研究

为提高自研“猫眼”探测系统的自动对焦性能，对主动激光图像散斑噪声、自动对焦窗口和视场变化三个对焦性能影响因素进行分析，分别提出了自动对焦改进算法及策略。实验证明，改进后，探测系统自动对焦性能明显提升，...

电子功用-基于碳化硅紫外光电管的火灾探测器及其火灾探测方法

标题中的“电子功用-基于碳化硅紫外光电管的火灾探测器及其火灾探测方法”揭示了这份行业资料的核心内容，它涉及到电子技术在火灾探测领域的应用，具体是通过碳化硅紫外光电管来实现的。碳化硅紫外光电管是一种特殊...

生物组织的光声成像技术及其在生物医学中的应用

光声成像技术的优势在于它能提供类似光学成像的高对比度和类似超声成像的深层组织成像能力，同时避免了纯光学成像中的光学散射影响，为临床诊断和生物医学研究提供了新的视角和方法。由于光声成像技术在生物组织...

王庄井田陷落柱探测方法应用对比分析

井田陷落柱的存在对煤矿安全生产造成了极大隐患,采用合理方法对其进行有效探测具有重要意义。文章基于对王庄煤矿陷落柱分布特征的分析,以8108工作面风巷和8103工作面内陷落柱探测为例,分别探讨了钻探法和无线电波...

量子雷达及其目标探测性能综述 (2014年)

从雷达目标探测角度出发，介绍了量子雷达的基本概念与分类、若干实现模型，重点剖析、归纳了量子纠缠等量子效应增强雷达目标探测性能的物理机理与研究现状，指出了量子雷达研究和实现中的关键技术与研究方向。

北斗三频周跳探测新方法及其实验验证

"北斗三频数据周跳的探测方法" 北斗导航系统作为全球四大卫星导航系统之一，其数据处理中的周跳探测是确保定位精度和系统稳定性的重要环节。周跳是指在卫星信号接收过程中，由于各种干扰因素导致的载波相位观测值在...

太赫兹脉冲探测芯片的几何与电参数测试与性能评估

本文主要探讨了一种已完成模拟设计、工艺研究和成品开发的太赫兹脉冲探测芯片的性能分析。这种探测芯片具有显著的特点，即其尺寸仅为百微米级别，这在小型化和集成度方面具有优势。研究者对芯片的几何参数和电参数...

大规模MIMO-OFDM系统性能评估：ZF与MMSE探测器分析

它很可能是通过对仿真数据的统计分析，来评估在不同的天线配置、调制技术和子载波数量下，ZF和MMSE探测器的误码率等性能指标，为设计和优化实际的无线通信系统提供理论依据和技术指导。此研究为通信工程师和学者...

近红外InGaAs线列探测器MTF测试系统：高精度性能评估

MTF是衡量光电成像器件空间频率响应的关键参数，它能够全面评估器件的成像性能。随着科技发展，对MTF的测试精度和可靠性愈发重要。该系统采用全反射式Offner光学结构，这是一种高效的成像方案，它将窄缝图像清晰地...

高分辨率遥感图像雾霾去除方法：性能评估与应用

首先，作者们注意到蓝谱段对雾霾有较高的探测能力，因此构建了雾霾图和非雾霾图，通过对比这两个图，可以更准确地识别出受雾霾影响的区域。然后，利用红谱段的稳定性，结合mean-shift分割技术，对亮目标进行识别，并...

星载面阵CCD探测器筛选与性能测试方法

这项研究不仅提供了一种有效的低等级面阵CCD筛选方法，还为CCD的性能评估技术发展提供了重要参考。其成果对于提升空间遥感仪器的性能，尤其是对于多角度偏振成像仪的研制和优化，具有深远的影响。

低空小目标探测：情报雷达评估方法与仿真分析

"情报雷达低空小目标探测能力评估方法研究 (2009年) - 陈华伟, 李侠, 曹永辉, 蔡万勇 - 空军雷达学院" 本文深入探讨了情报雷达在探测低空小目标时面临的技术挑战和解决方案。针对低空探测的特殊环境，作者综合考虑...

cpongm

粉丝: 5

资源: 2万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益
登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

最新资源

JSP+SSM科研管理系统响应式网站设计案例
推荐一款超级好用的嵌入式串口调试工具
PHP域名多维查询平台：高效精准的域名搜索工具
Citypersons目标检测数据集：Yolo格式下载指南
掌握MySQL面试必备：程序员面试题解析集锦
C++软件开发培训：核心技术资料深度解读
SmartSoftHelp二维码工具：生成与解析条形码
Android Spinner控件自定义字体大小的方法
Ubuntu Server on Orangepi3 LTS 官方镜像发布
CP2102 USB驱动程序的安装与更新指南
ST-link固件升级指南：轻松更新程序步骤
Java实现的质量管理系统Demo功能分析与操作
Everything高效文件搜索工具：快速精确定位文件
基于B/S架构的酒店预订系统开发实践
RF_Setting(E22-E90(SL)) V1.0中性版功能解析
高效转换M3U8到MP4：免费下载工具发布

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈