使用文档链接的LM预训练方法：LinkBERT

20 浏览量更新于2023-12-01 收藏 935KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文LinkBERT：带文档链接的Yasunaga Jure Leskovec（Jure Leskovec）斯坦福大学{myasu,jure,pliang}@cs.stanford.edu摘要语言模型（LM）预训练可以从文本语料库中学习各种知识，帮助下游任务。然而，诸如BERT的现有方法对单个文档建模，并且不捕获跨文档的依赖关系或知识。在这项工作中，我们提出了LinkBERT，一种利用文档之间链接的LM预训练方法，例如，超链接。给定一个文本语料库，我们将其视为文档图，并通过将链接的文档放置在相同的上下文中来创建LM输入。然后，我们用两个联合自监督目标预训练LM：掩蔽语言建模和我们的新建议，文档关系预测。我们表明，LinkBERT在两个领域的各种下游任务上优于BERT：一般领域（在维基百科上使用超链接进行预训练）和生物医学领域（在PubMed上使用引用链接进行预训练）。LinkBERT对于多跳推理和少量QA特别有效我们发布我们的预训练模型，LinkBERT和BioLinkBERT，以及代码和数据。11介绍预训练语言模型（LM），如 BERT和GPT（ Devlin et al. ， 2019; Brown et al. ， 2020年），在许多自然语言处理（NLP）任务上表现出卓越的性能，例如文本分类和问答，成为现代NLP系统的基础（Bommasaniet al. ，2021年）。通过执行自我监督学习，例如掩蔽语言建模（Devlinet al. ，2019），LM学习从文本语料库中编码各种知识，并为下游任务产生信息表示（Petroni et al. ，2019; Bosselut et al. ，2019; Raffel et al. ，2020）。同等的资深作者。1可查阅https://github.com/michiyasunaga/LinkBERT。文档链接文档（例如超链接、参考）【全国樱花节】1912年3月27日，东京市长尾崎幸雄将日本樱花树作为礼物送给华盛顿特区。尾崎市长赠送这些树是为了增进美国和日本之间日益增长的友谊...............................的最初的礼物是12个品种的3，020棵树，吉野樱桃（占总数的70%）和观山樱桃（占总数的13%）现在占主导地位。......这是什么？图1：文档链接（例如超链接）可以提供显著的多跳知识。例如，维基百科的文章超链接的文章（右）揭示了节日庆祝总的来说，该链接提供了在单个文档中无法获得的新知识我们的目标是利用文档链接将更多的知识纳入语言模型预训练。然而，现有的LM预训练方法典型地考虑来自每个输入上下文中的单个文档的文本（Liuet al. ，2019; Joshi et al. ，2020），并且不对文档之间的链接建模。这可能会造成限制，因为文档通常具有丰富的依赖性（例如，超链接、引用）和知识可以跨越文档。作为示例，在图1中，维基百科文章“潮汐盆地，华盛顿特区。” (left) describes that the basin hosts总之，超链接提供了新的，多跳的知识在预训练中获得这种多跳知识对于包括问答在内的各种应用都是有用的事实上，像超链接和参考文献这样的文档链接是无处不在的（例如，网络，书籍，科学文献），并指导我们人类如何获取知识，[潮汐盆地，华盛顿特区]潮汐盆地是位于波托马克河和华盛顿海峡（英语：Washington Channel）位于华盛顿特区，是西波托马克公园的一部分，靠近国家广场，是每年春天举行的国家樱花节的焦点杰斐逊纪念堂马丁·路德·金纪念堂富兰克林·德拉诺·罗斯福纪念馆和乔治·梅森纪念馆毗邻潮汐盆地。arXiv：2203.15827v1 [cs.CL] 2022年3月+v：mala2277获取更多论文文件4Doc 1Doc 2Doc 5文件3或文件6或超链接，文档关系预测● 联系我们● Rcndom● 链接Masked LanguageModeling（MLM）^cpcnese cherr;参考等A段B段A段B段链接文档语料库创建LM输入预训练LM图2：我们的方法概述，LinkBERT. 给定一个预训练语料库，我们将其视为一个文档图，带有超链接等链接（第4.1节）。为了将文档链接知识纳入LM预训练，我们通过将一对链接的文档放置在相同的上下文中（链接）来创建LM输入，除了现有的放置单个文档（连续）或一对随机文档（随机）的选项之外，如BERT。然后，我们用两个自监督目标训练LM：掩码语言建模（MLM），它预测输入中的掩码标记，以及文档关系预测（DRP），它对输入中两个文本段的关系进行分类（连续，随机或链接）（§4.2）。甚至做出发现（Margolis et al. ，1999）。在这项工作中，我们提出了LinkBERT，一个有效的语言模型预训练方法，incor- porates文档链接知识。给定一个文本语料库，我们获得文档之间的链接，如超链接，并通过将链接的文档放置在相同的上下文中来创建LM输入，除了现有的放置单个文档或随机文档的选项，如BERT。具体来说，如图2所示，在对锚文本段进行采样之后，我们放置（1）来自同一文档的连续段，(2)一个随机文档，或（3）一个从锚段链接的文档，作为输入中的下一段然后，我们用两个联合目标来训练LM：我们使用掩码语言建模（MLM）来鼓励学习通过文档链接（例如，同时，我们提出了一个文档相关性预测（DRP）目标，它将第二段与第一段的关系（连续、随机或链接）进行分类。DRP鼓励学习相关性和桥接概念（例如，将预训练语料库视为文档图，LinkBERT也被激励为图上的自监督学习，其中DRP和MLM对应于图机器学习中的链接预测和节点特征预测（ Yanget al. ， 2015; Hu 等人，2020）。因此，我们的建模方法提供了基于语言和基于图形的自监督学习的自然融合。我们在两个领域中训练LinkBERT：一般领域，使用带有超链接的维基百科文章（§4），以及生物医学领域，使用带有引用链接的PubMed ar-search（§6）。然后，我们在这两个领域的广泛下游任务（如问答）LinkBERT在各个领域和任务中持续改进基线对于一般领域，LinkBERT在MRQA基准测试（F1分数绝对值+4%）和GLUE基准测试中优于BERT。对于生物医学领域，LinkBERT超过PubmedBERT（Gu et al. ，2020年），并在BLURB生物医学NLP基准（BLURB评分绝对值+3%）和MedQA-USMLE推理任务（准确率绝对值总体而言，LinkBERT在多跳推理、多文档理解和少量问题回答方面获得了显着的收益，这表明LinkBERT通过使用文档链接信息进行预训练，比现有的LM内化了更多的知识2相关工作检索增强型LM。一些作品（Lewis et al. ，2020b; Karpukhin et al. ， 2020; Oguzet al. ，2020; Xie et al. ，2022）引入了用于LM的检索模块，其中给定锚文本（例如，问题），将检索到的文本添加到相同的LM上下文以改进模型推断（例如，答案预测）。这些作品显示了在推理时将相关文档放置在相同LM上下文中的承诺，但他们没有研究在预训练中这样做的效果Guu等人（2020）用检索器预训练LM，该检索器学习检索文本以回答锚文本中的掩码标记相反，我们的重点不是检索，而是预训练一个通用LM，它将跨越文档的知识内在化我们预先训练的LM可以用于初始化这些作品的LM组件）。此外，我们专注于将文档链接，如超链接，它可以提供显着的知识，常见的词汇检索方法可能无法提供（Asai等人。，2020）。用相关文件对LM进行预培训。多个并发工程使用多个相关文档语言模型[CLS]的Tidcl Bcsin.[SEP]. [M6St][M6St]树木[SEP]连续的文件1，附件p文件1序号p+1伦多姆Doc 5 seekq林赫德Doc 1 seekp Doc 3 seekq+v：mala2277获取更多论文X{}⊆X{}GX E{}来预训练LM。Caciularu等人（2021）将关于同一主题的文档（新闻文章）放置在相同的LM上下文中，Levine等人（2021）将关于同一主题的文档（新闻文章）放置在相同的LM上下文中。（2021）将词汇相似度高的句子放入同一上下文。我们的工作提供了一个通用的方法，将文档链接纳入LM预训练，其中词汇或主题相似性可以是文档链接的一个实例，除了超链接。我们在这项工作中关注超链接，因为我们发现它们可以带来通过词汇相似性可能不明显的突出知识，并产生更有效的 LM（§5.5）。此外，我们提出了DRP目标，它改进了 LM 中多文档及其之间关系的建模（§5.5）。NLP的超链接和引用链接。超链接通常用于学习更好的检索模型。Chang等人（2020）;Asai等人（2020）; Seonwoo等人（2021）使用维基百科超链接来训练检索器进行开放域问题回答。Ma等人（2021）研究各种超链接感知预训练任务检索。虽然这些作品使用超链接来学习检索，我们专注于使用超链接来创建更好的学习通用LM的背景。另外，Calixto et al.（2021）使用维基百科超链接学习多语言LM。引用链接通常用于改进学术论文的摘要和推荐（Qazvinian和Radev，2008; Yasunaga等人，2009）。，2019; Bhagavatula et al. ，2018; Khadka et al. ， 2020; Cohan 等人，2020）。在这里，我们利用引用网络来改进预训练通用LM。图增强LM。几个作品用图来增强LM，通常是知识图（KG），其中节点捕获实体并将它们的关系边缘化。 Zhang等人（2019）; He etal. （2020）; Wang et al. （2021 b）将LM训练与 KG 嵌入相结合。 Sun 等人（ 2020 ） ;Yasunaga等人（2021）; Zhang et al. （2022）将LM和图神经网络（GNN）结合起来，共同训练文本和KG。与KG不同，我们使用文档图来学习跨文档的知识3预赛语言模型（LM）可以从文档语料库中预先训练，= X（ i ）。 LM是两个函数fhead（fenc（X））的组合，其中编码器fenc接收令牌序列X =（x1，x2，.，xn），并为每个标记产生上下文化的向量表示（ h1 ， h2 ， ... ，hn）。头f头使用这些表示来执行自我-基于BERT构建（Devlin et al. ，2019年），它用以下两个自我监督的任务预训练LM。Masked Language Modeling（MLM）给定一个记号序列X，记号子集YX被屏蔽，任务是从修改后的输入中预测原始标记。Y占X中令牌的15%;其中80%被[MASK]替换，10%被随机令牌替换，10%保持不变。下一句预测（NSP）NSP任务以两个文本片段2（XA，XB）作为输入，并预测XB是否是XA的直接延续。具体来说，BERT首先从语料库中采样XA，然后（1）从同一文档中获取下一个片段XB，或者（2）从语料库中的随机文档中采样XB。这两个部分通过特殊的标记连接在一起，输入实例[CLS]XA[SEP]XB[SEP]，其中[CLS]的预测目标是XB是否确实跟随XA（连续或随机）。在这项工作中，我们将进一步将文档链接信息纳入LM预训练。我们的方法（§4）将建立在传销和NSP的基础上。4LinkBERT我们提出了LinkBERT，一种自我监督的预训练方法，旨在使用文档链接信息将更多的知识内化到LM中。具体地说，如图2所示，=X（i），我们将其视为文档的图=（，），其中=（X（i），X（j））表示文档之间的链接（§ 4.1）。这些链接可以是现有的超链接，也可以由其他获取文档相关性的方法。然后我们考虑从文档链接中学习的预训练任务（第4.2节）：我们通过将链接的文档放置在相同的上下文窗口中来创建LM输入，除了单个文档或随机文档的现有选项之外。我们使用MLM任务来学习由文档链接在上下文中聚集的概念，并且我们还引入文档关系预测（DRP）任务来学习文档之间的关系。最后，我们讨论了获取链接文档的信息对以提供给LM预训练的策略（第4.3节）。4.1文档图给定一个预训练语料库，我们链接相关的文档，以便链接可以将单个文档中不可用的知识汇集在一起我们专注在预训练步骤中的监督任务，并按照-形成微调步骤中的下游任务我们2段通常是一个句子或一个段落。+v：mala2277获取更多论文⊆/⊆E∈ E联系我们Σ在超链接上，例如，维基百科文章的超链接（§5）和学术文章的引用链接（§6）。Hy-perlinks有很多优点。它们提供了关于文档作者认为有用的概念的背景知识-链接可能具有高精确度的相关性，并且还可以引入仅通过词汇相似性可能不明显的相关文档（例如，在图1中，虽然超链接的文章提到了“日本”和“吉野”樱桃树，但这些词没有出现在锚定文章中）。超链接在网络上也无处不在，并且很容易大规模收集（Aghajanyanet al. ，2021年）。为了构造文档图，如果存在从文档X（i）到文档X（j）的超链接，则我们简单地制作有向边（X（i），X（j））。为了进行比较，我们还实验了一个文档图，该图是由文档之间的词汇相似性构建的。对于每个文档X（i），我们使用公共TF-IDF余弦相似性度量（Chen et al. ，2017;Yasunaga et al. ，2017），以获得前k个文档X（j），并生成边（X（i），X（j））。我们使用k = 5。4.2训练前任务创建输入实例。一些作品（Gaoet al. ，2021;Levine等人，2021）发现LM可以学习在训练期间在相同上下文中一起显示的单词之间的依赖关系，而不是没有显示的单词。为了有效地学习跨文档的知识，除了现有的单个文档或随机文档的选项之外，我们还通过将链接的文档放置在相同的上下文窗口中来创建LM输入。具体来说，我们首先从语料库中采样锚文本片段（片段A; X A X（i））。对于下一个段（段B; X B），我们或者（1）使用来自同一文档的连续段（X BX（i）），（2）从随机文档中采样段（X BX（j），其中j=i），或者（3）从从段A链接的文档之一中采样段（X B其中（X（i），X（j）。然后，我们通过特殊的标记将两个段连接起来，形成一个输入实例：[CLS]XA[SEP]XB[SEP]。培训目标。为了训练LM，我们使用两个目标。第一个是MLM的目标，鼓励LM学习通过文档链接带入相同上下文中的概念的多跳知识我们提出的第二个目标是文档关系预测（DPR），它将段XB到段XA的关系r（r连续，随机，链接）分类。通过区分链接与连续和随机，DRP鼓励LM学习文档之间桥接概念的相关性和存在性，以及在普通NSP目标中学习的能力为了预测r，我们使用[CLS]的表示token，就像NSP一样总之，我们优化：L=LMLM+LDRP（1）=−logp（x i|hi）−logp（r |h[CLS]）（2）我其中xi是输入实例的每个令牌，[CLS]XA[SEP]XB[SEP]，hi是它的表示。Graph Machine Learning Perspective. 我们的两个预训练任务，MLM和DRP，也是基于文档图的图自监督学习在图自监督学习中，通常使用两种类型的任务，节点特征预测和链接预测来学习图的内容和结构。在节点特征预测（Hu et al. ，2020），节点的一些特征被掩蔽，并且任务是使用邻居节点来预测它们。这对应于我们的 MLM 任务，其中可以使用Segment B（图上的链接文档）预测Segment A中的掩码令牌，反之亦然。在链接预测（ Bordes et al. ， 2013; Wang et al. ， 2021a），任务是预测两个节点之间的边的存在或类型。这与我们的DRP任务相对应，在该任务中，我们预测给定的一对文本段是链接的（边缘），连续的（自循环边缘）还是随机的（没有边缘）。我们的方法可以被看作是基于语言（例如，BERT）和基于图的自监督学习。4.3获取链接文件的策略如第4.1节和第4.2节所述，我们的方法在文档之间建立链接，并为每个锚点段采样链接的文档，以将其放在LM输入中。在这里，我们讨论了在这个过程中要考虑获得有用的链接文档本案无关语义相关性是在文档之间建立链接的必要条件。如果链接是随机建立的，没有相关性，LinkBERT将与BERT相同，只有两个LM输入选项（连续或随机）。相关性可以通过使用超链接或词汇相似性度量来实现，这两种方法都比使用随机链接（§5.5）产生更好的性能显著性。除了相关性，另一个要考虑的因素（显着性）是链接的文档是否可以提供新的，有用的知识，可能是不明显的当前LM。在这方面，超链接可能比词汇相似性链接更有优势：LM被证明善于识别词汇相似性（Zhang etal. ，2020），超链接可以带来有用的背景知识，+v：mala2277获取更多论文仅通过词汇相似性可能并不明显（Asaiet al. ，2020）。事实上，我们根据经验发现，使用超链接会产生更高性能的LM（§5.5）。多样性在文档图中，一些文档可能具有非常高的入度（例如，许多传入的超链接，如维基百科的如果我们从每个锚点段的链接文档中均匀采样，我们可能会在整个训练数据中过于频繁地包括高程度的文档，从而失去多样性。为了调整，使得所有文档在训练中以相似的频率出现，我们以与其入度成反比的概率对链接文档进行采样，如图数据挖掘文献中所做的那样（Henzinger et al. ，2000年）。我们发现这种技术产生了更好的LM性能（§5.5）。5实验我们首先在一般领域中试验我们提出的方法，在那里我们在带有超链接的维基百科文章上预训练LinkBERT（§5.1），并在一系列下游任务上进行评估（§5.2）。我们与BERT（Devlinet al. ，2019）作为我们的基线。我们在§6中进行了生物医学领域的实验。5.1培训前设置数据我们使用BERT使用的相同预训练语料库： Wikipedia 和 BookCorpus （ Zhu et al. ，2015 ）。对于维基百科，我们使用WikiExtractor3来提取Wiki文章之间的超链接然后，我们通过对连续、随机或链接段进行采样来创建训练实例，如§4所述，三个选项均匀出现（ 33% ， 33% ， 33% ）。对于BookCorpus，我们通过像BERT中那样对连续或随机片段（50%，50%）进行采样来创建训练然后，我们结合维基百科和BookCorpus的训练实例来训练LinkBERT。总之，我们的预训练数据与BERT相同，只是我们在维基百科文章之间有实施. 我们预训练三种大小的LinkBERT，-tiny，-base和-large，遵循BERT tiny（4.4M参数），BERT base（110 M参数）和BERT large（340 M参数）的配置（Devlin et al. ，2019;Turc et al. ，2019）。我们使用-tiny主要用于消融研究。对于-tiny，我们使用随机权重初始化从头开始预训练。我们使用AdamW（Loshchilov和Hutter，2019）优化器，其中（β1，β2）=（0.九，零。98），预热前5,000步的学习率，然后线性衰减。3https://github.com/attardi/wikiextractor我们训练了10，000步，峰值学习率为5e-3，权重衰减为0.01，批量大小为2，048个序列，512个令牌。在两个配备fp16的GeForce RTX2080 Ti GPU上进行了为期一天的培训对于-base，我们使用Devlin等人发布的BERT base检查点初始化LinkBERT。（2019年），并继续培训。我们使用峰值学习率3e-4，训练40，000步。其他训练超参数与-tiny相同。在四个A100 GPU上进行了为期4天的训练，使用了fp16。对于-large，我们遵循与-base，除了我们使用2 e-4的峰值学习率训练在8个A100 GPU和fp16上进行了7天基线。我们将LinkBERT与BERT进行比较。具体来说，对于-tiny规模，我们与BERTtiny进行比较，我们从头开始使用与LinkBERTtiny相同的超参数进行预训练。唯一的区别是LinkBERT使用文档链接来创建LM输入，而BERT不使用对于多碱基规模，我们与BERT碱基进行比较，我们采用Devlin等人的BERT碱基版本。（2019），并继续在相同的语料库上使用vanilla BERT目标进行预训练，步骤数与LinkBERT base相同。对于-large，我们遵循与-base相同的过程5.2评价任务我们在一系列下游任务上对LinkBERT进行微调和提取式问答（QA）。给定一个文档（或一组文档）和一个问题作为输入，任务是从文档中识别答案范围。我们评估六个流行的数据集从MRQA共享任务（Fisch等人。，2019）：HotpotQA （ Yang et al. ， 2018 ）， TriviaQA（Joshietal.，2017）、NaturalQ（ Kwiatkowski et al. ， 2019 ）、 SearchQA（Dunn et al. ，2017），NewsQA（Trischleretal. ， 2017 ）和 SQuAD （ Rajpurkar et al. ，2016）。由于MRQA共享任务没有公共测试集，我们将开发集分成两半，以创建新的开发集和测试集。我们遵循微调方法 BERT（Devlin et al. ，2019）用于提取QA。更多详情见附录B。胶通用语言理解评估（GLUE）基准（Wanget al. ，2018年）是一套流行的分级分类任务。 BERT 之后，我们对 CoLA 进行评估（Warstadt et al. ，2019）、SST-2（Socher etal. ，2013）、MRPC（Dolan and Brockett，2005）、QQP、STS-B（Cer et al. ，2017），MNLI （ Williams et al. ， 2017 ）， QNLI（Rajpurkar et al. ，2016）和 RTE（Daganetal. ，2005; Haim et al. ，2006年; Giampiccolo+v：mala2277获取更多论文HotpotQA TriviaQA 搜索QA NaturalQ 新闻资讯 SQuAD平均值BERT微型49.8 43.4 50.2 58.9 41.3 56.6 50.0LinkBERT微型54.6 50.0 58.6 60.3 42.8 58.0 54.1BERT基值76.0 70.3 74.2 76.5 65.7 88.7 75.2LinkBERT基础78.2 73.9 76.8 78.3 69.3 90.1 77.8BERT大型78.1 73.7 78.3 79.0 70.9 91.1 78.5LinkBERT大型80.8 78.2 80.5 81.0 72.6 92.7 81.0表1：MRQA问答数据集的性能（F1）。LinkBERT在所有数据集上的表现都优于BERT，无论是微小的、基本的还是大型的。在需要在上下文中使用多个文档进行推理的数据集上，例如HotpotQA，TriviaQA，SearchQA，收益特别大。GLUE评分BERTtiny64.3LinkBERTtiny64.6BERT基础79.2LinkBERTbase79.6BERT大80.7LinkBERT大号81.1表2：GLUE基准测试的性能。LinkBERT达到相当或适度改善的性能。SQuAD SQuAD分散BERT基值88.7 85.9LinkBERTbase90.1 89.6表3：当分散注意力的文档被添加到上下文时，SQuAD上的性能（F1）。虽然BERT在F1中会有很大的下降，但LinkBERT不会，这表明它在理解文档关系方面具有鲁棒性。HotpotQA TriviaQA NaturalQSQuADBERTbase64. 8 59. 2 64. 8 79. 6LinkBERT基础70.5 66.0 70.2 82.8表4：当使用10%的微调数据时的少次QA性能（F1）。LinkBERT获得了很大的收益，这表明它在预训练中比BERT内化了更多的知识HotpotQA TriviaQA NaturalQ SQuADLinkBERT微型54.650.060.358.0没有分集53.548.060.057.8将超链接更改为TF-IDF50.048.259.657.6将超链接更改为随机49.843.458.956.6表5：关于将哪些链接文档输入LM预培训的消融研究（第4.3节）。小队改进的多跳推理。在表 1 中，我们发现LinkBERT在需要对多个文档进行推理的QA数据集上获得了显着的收益，例如HotpotQA（比BERTtiny增加了5%），TriviaQA（增加了6%）和SearchQA（增加了8%），而SQuAD（增加了1.4%），每个问题一个文件。为了进一步获得定性的见解，我们研究了LinkBERT成功而BERT失败的QA示例。图3显示了HotpotQA的一个代表性示例回答这个问题需要两跳推理：从第一个文件中识别虽然BERT倾向于简单地预测问题实体附近的实体（第一个文档中的“Toronto”，仅为1跳），但LinkBERT正确地预测了第二个我们的直觉是，HotpotQA TriviaQA NaturalQ SQuAD分散LinkBERT使用成对的链接文档进行预训练LinkBERT基础78.2 73.9 78.3 90.1 89.6无DRP 76.5 72.5 77.0 89.3 87.0表6：LM预训练中文档关系预测（DRP）目标的消融研究（§ 4.2）。等人，2007），并报告平均得分。更多微调细节见附录B。5.3结果表1显示了MRQA数据集的性能（F1评分）。LinkBERT在所有数据集上都大大超过BERT平均而言，增益为BERT小尺度的绝对值为+4.1%，BERT基本尺度的绝对值为+2.6%，BERT 大尺度的绝对值为+2.5% 。表 2 显示了 GLUE 的结果，其中LinkBERT的性能略好于BERT。这些结果表明，LinkBERT在学习对QA任务有用的知识世界知识），同时保持对初级语言理解的表现。5.4分析我们进一步研究了LinkBERT在下游任务中何时特别有用。段而不是纯粹的单个文档，它更好地学习如何流动信息（例如，当在上下文中给出多个相关文档时，跨令牌执行（do总之，这些结果表明，使用链接文档进行预训练有助于下游任务的多跳推理提高对文件关系的理解虽然MRQA数据集通常使用地面实况文档作为回答问题的上下文，但在开放域QA中，QA系统需要使用由检索器获得的文档，其可能包括除了黄金文档之外的噪声文档（Chenet al. ，2017; Dunn et al. ，2017年）。在这种情况下，QA系统需要理解文档关系才能很好地执行（Yang et al. ，2018）。为了模拟这种设置，我们修改SQuAD数据集，将1-2个分散注意力的文档前置或追加表3显示了结果。虽然BERT会带来很大的性能下降（-2.8%），但LinkBERT对分散注意力的文档（-0.5%）是健壮的这一结果表明，预训练与文档链接提高了理解文档关系的能力，+v：mala2277获取更多论文HotpotQA示例问：1953年，罗登兄弟被一个总部设在加拿大哪个城市的集团收购DocA：Roden Brothers于1891年6月1日由Thomas和Frank Roden在加拿大安大略省多伦多成立。1910年代，公司更名为RodenBros.L td。后来在1953年被亨利·伯克斯父子公司接管。1974年，Roden Bros.L td.出版了这本书，“丰富的切割玻璃”与时钟屋出版物在彼得伯勒，安大略省，这是一个重印的1917年版出版的罗登兄弟，多伦多Doc B：Birks Group（前身为Birks Mayors）是一家珠宝、钟表、银器和礼品的设计师、制造商和零售商在加拿大和美国设有商店和制造设施截至2015年6月30日，它在三个不同的零售旗帜下经营商店：...该公司总部位于魁北克省魁北克市，美国公司办事处位于佛罗里达州塔马拉克。LinkBERT预测：图3：HotpotQA上多跳推理的案例研究。回答这个问题需要从第一份文件中识别出“Roden Brothers were takenby Birks Group”，然后从第二份文件中识别出“BirksGroup is headquarters in Montreal”。BERT倾向于简单地预测问题实体附近的实体（本案无关特别是，我们的直觉是DRP目标帮助LM在预训练中更好地识别文档关系，如（锚文档，链接文档），这有助于识别下游QA任务中的关系，如（问题，正确文档）。我们确实发现，从LinkBERT中删除DRP目标会损害性能（第5.5节）。理解文档关系的强度也表明了将LinkBERT应用于各种检索增强方法和任务的前景（例如Lewis et al.2020 b），无论是作为主要的LM还是密集检索器组件。改进了少量QA性能。我们还发现，LinkBERT特别擅长于少量学习。具体来说，对于每个MRQA数据集，我们只使用10%的可用训练数据进行微调，并在表4中报告性能。与表1中的全资源方案相比，在这种少量发射方案中，LinkBERT获得了比BERT更显著的增益（在NaturalQ上，F1中的绝对值为5.4% vs 1.8%，或相对误差减少15% vs 7%这一结果表明，LinkBERT在预训练期间比BERT内化了更多的知识，这支持了我们的核心思想，即文档链接可以为LM带来新的有用知识5.5消融研究我们对LinkBERT的关键设计选择进行消融研究。哪些链接的文档要输入LM？我们研究了第4.3节中讨论的获取链接文档的策略：相关性、显著性和多样性。表5显示了MRQA数据集上的消融结果首先，如果我们忽略相关性并使用随机文档链接而不是超链接，我们将获得与BERT相同的性能（平均-4.1%;表5中的其次，使用词汇相似性链接而不是超链接导致1.8%的性能下降（“TF-IDF”）。我们的直觉是，超链接可以提供更突出的知识，可能不明显的词汇相似性单独。然而，使用词汇相似性链接比 BERT（+2.3%）要好得多，这证实了将相关文档放在LM预训练输入中的有效性。最后，在文档采样中去除多样性调整会导致每隔1%总之，我们的见解是，要为LM预训练创建信息输入，链接的文档必须在语义上相关，并且理想情况下是突出和多样的。DRP目标的影响。表6显示了DRP物镜的消融结果（§4.2）。在预培训中重新移动DRP会损害下游QA性能。对于具有多个文档的任务（HotpotQA、TriviaQA和SQuAD，这些文档会分散注意力），下降幅度很大这表明DRP有助于LM学习文档关系。6生物医学LinkBERT（BioLinkBERT）对生物医学文本进行预训练可以提高生物医学NLP任务的性能（Beltagy et al. ，2019; Lee etal. ， 2020; Lewis 等人， 2020a; Gu et al. ，2020）。生物医学LM通常在PubMed上进行培训，其中包含生物医学论文的摘要和引用虽然以前的作品只使用原始文本进行预训练，但学术论文通过引用（参考文献）彼此具有丰富的依赖性我们假设，纳入引用链接可以帮助LM学习论文和跨越它们的知识之间的依赖关系。出于这种动机，我们在PubMed上使用引用链接（§6.1）预训练LinkBERT，我们称之为BioLinkBERT，并在生物医学下游任务中进行评估（§6.2）。作为我们的基线，我们遵循并与最先进的生物医学LM，PubmedBERT（Guet al. ，2020年），它具有与BERT相同的架构，并在PubMed上进行训练。6.1培训前设置数据我们使用与PubmedBERT相同的预训练语料库：PubMed摘要（21GB）。4我们4https://pubmed.ncbi.nlm.nih.gov。我们使用2月之前2020年，在PubmedBERT。+v：mala2277获取更多论文使用Pubmed Parser5提取文章之间的引用链接然后，我们通过对连续、随机或链接段进行采样来创建训练实例，如§4所述，三个选项均匀出现（33%，33%，33%）。总之，我们的预训练数据与PubmedBERT相同，只是我们在PubMed文章之间有引用链接实施.我们预训练BioLinkBERT，- 从头开始的基础大小（110 M参数），遵循与PubmedBERT基础相同的超参数（Gu etal. ，2020）。具体来说，我们使用峰值学习率6 e-4，批量大小8，192，训练62，500步。我们在前10%的步骤中预热学习率，然后线性衰减。训练在8个带有fp16的A100 GPU上进行了7天此外，虽然最初的PubmedBERT版本不包括-large大小，但我们从头开始预训练-large大小（340 M参数）的BioLinkBERT，遵循与-base，除了我们使用4 e-4的峰值学习率PubMed-BioLink-BERT基地BERT基BioLink-BERT大号命名实体识别BC5-chem（Li et al. （2016年）93.3393.7594.04BC 5-疾病（Li et al. （2016年）85.6286.1086.39NCBI-疾病（Do gGillanet al. ，2014年）87.8288.1888.76BC2GM（Smith et al. （2008年）84.5284.9085.18JNLPBA（Kim et al. （2004年）80.0679.0380.06PICO萃取EBMPICO（Nye et al. ，2018年）73.3873.9774.19关系抽取ChemProt（Krallinger et al. （2017年）77.2477.5779.98DDI（Herrero-Zazo et al. ，2013年）82.3682.7283.35GAD（Bravo et al. ，2015年）82.3484.3984.90句子相似度BIOSSES（So gancıo g luet al.（2017年）92.3093.2593.63文档分类HoC（Baker et al. （2016年）82.3284.3584.87问答PubMedQA（Jin et al. ，2019年）55.8470.2072.18BioASQ（Nentidis et al. ，2019年）87.5691.4394.82BLURB评分81.1083.3984.30表7：BLURB基准测试的性能。BioLinkBERT在所有任务上都取得了改进，在BLURB上建立了新的技术在PubMedQA和BioASQ等文档级任务上的收益非常大并以20%的步幅热身。训练在8个A100 GPU和fp16上进行了21天基线。我们比较了BioLinkBERT与Gu等人发布的PubmedBERT。（2020年）。6.2评价任务对于下游任务，我们在BLURB基准上进行评估（Gu et al. ，2020年），一套多样的生物医学-方法Acc. （%）BioBERT大型（Lee et al. （2020年） 36.7QAGNN（Yasu

下载后可阅读完整内容，剩余1页未读，立即下载