外部知识增强变压器模型，实现AI民主化：常识平等性QA任务KEAR准确率达89.4%

46 浏览量更新于2024-02-04 收藏 723KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文人类对常识的平等性QA：用外部注意力Yichong Xu，Chengguang Zhu，Shuohang Wang，Siqi Sun，HaoCheng，Xiaodong Liu，Jianfeng Gao，Pengcheng He，Michael Zeng，Xuodong HuangMicrosoft Corporation{yicxu，chezhu，shuowa，siqi.sun，chehao，xiaodl，jfgao，penhe，nzeng，xdh}@ microsoft.com摘要当今的大多数AI系统都专注于在大量不同的数据上使用自我注意机制和Transformer架构，以实现令人印象深刻的性能提升。在本文中，我们提出了一个外部的注意力机制，使外部的知识和上下文来承担，以增加transformer架构。通过将外部信息整合到预测过程中，我们希望减少对越来越大的模型的需求，并增加人工智能系统的民主化。我们发现，所提出的外部注意力机制可以显著提高现有AI系统的性能，使实践者能够轻松地为许多不同的下游应用定制基础AI特别地，我们以常识推理任务为所提出的系统，知识外部注意力推理（KEAR），达到人类平等的开放常识QA研究基准的准确率为89.4%，相比之下，人类的准确率为88.9%。1介绍变压器（Vaswani et al. ，2017年）已经革命了人工智能的许多领域，在广泛的任务中具有最先进的性能（Devlin et al. ，2018; Dosovitskiyet al. ，2020年）。Transformer模型中最显著和最有效的组件是自注意机制，它使模型能够动态地利用输入的不同部分进行计算，即使是输入中最远的部分也不会丢失信息与预训练模型的成功（Devlin et al. ， 2018; Liu etal. ，2019），Transformer及其自我注意机制已被广泛采用，作为基础模型的基石是在大量数据上训练的（Bommasani et al. ，2021年）。在Transformer模型的开发过程中发现的一个现象是，具有较大尺寸的模型往往具有更好的学习能力，特别是当与大规模数据相结合时（Ka-plan et al. ，2020年）。这促使了最近超大型 Transformer 模型的繁荣，从 BERT（Devlin et al. ，2018）与1.1亿个参数，到GPT-3（Brown et al. ，2020年），具有1750亿个参数。然而，许多研究表明，这些巨大模型的相应理解和生成能力仍然落后于人类（Bommasani et al. ，2021年）。此外，这些模型的庞大规模已经在利用、部署、解释和环境影响方面带来了严重的实际挑战（Patterson etal. ， 2021 年）。因此，最近的基于Transformer的NLP建模的“按比例放大”方法是不可持续的，并且在最近的研究中受到质疑（Bommasani et al. ，2021年）。在本文中，我们后退一步，检查当前基于transformer的模型的机制。自注意的设计，使模型能够更好地分析输入数据的内部结构，并训练模型，使其参数掌握和记忆训练数据的所有内容和模式当模型被赋予一个新的输入X时，隐含存储在参数中的关于相关信息的知识被激活，以促进对X的分析。这可以部分解释为什么用更多数据预训练的较大模型在性能上具有优势。虽然Transformer模型通过自我注意向内看来处理输入，但我们建议通过提供来自各种来源的相关上下文和知识来使模型向外看。然后，我们让模型对输入进行自我关注，同时也计算对知识的外部关注（图1）。为arXiv：2112.03254v1 [cs.CL] 2021年12+v：mala2277获取更多论文∈上下文和知识通常可以以非参数和符号的方式存储（例如，纯文本、知识图和字典条目），即使是中等大小的Transformer模型也可以在NLP任务中表现出色。这种方法允许缩小基于Transformer的基础模型的大小，这对AI技术的可访问性和民主化至关重要这种方法也类似于人类处理智能的方式;我们经常求助于搜索引擎、字典或其他人的信息来导航世界。外部关注的另一个好处是，由于相关知识存储在模型外部，因此从业者可以轻松地更新知识源以更改其模型的行为例如，人们可以从知识图谱中添加或删除条目，或者重写维基百科中的某些段落通过显式地表示知识，模型的决策过程变得更加透明和可解释。在本文中，我们使用常识推理任务CommonsenseQA（Talmor et al. ，2019年）作为利用外部关注的案例研究以获得并整合与输入相关的信息。给定一个常识问题和一个选择，我们从三个外部来源检索知识：知识图（ConceptNet），词典（Wiktionary）和标记的训练数据（Com- monsenseQA和16个相关的QA数据集）。检索到的知识直接附加到输入中，并发送到语言模型，而无需重新查看底层架构。我们表明，与建议的外部注意，常识推理的准确性使用DeBERTa-xxlarge模型（He etal. ，2020年）在开发集上可以从83.8%大幅提升到90.8%，而像GPT-3这样经过微调的大型机型只能达到73.0%。我们模型的集成版本，知识外部注意力推理（KEAR），在开发集上达到93.4%的准确率，在测试集上达到89.4%，首次超过人类性能（88.9%）（Talmoret al. ，2019）。我们的方法的好处超出了常识推理。首先，外部的注意力大大减少了我们的系统词匹配，给主模型增加很少的计算成本第三，输入和知识的文本级连接不会改变Transformer模型，使现有系统能够轻松采用这种新的外部注意力机制。2方法我们首先在第2.1节描述我们的外部注意力框架。接下来，我们将在第2.2节中描述我们的外部知识来源。最后，我们在第2.3节中介绍了用于改进常识推理的其他建模技术。我们在第3节中展示了我们的技术的经验结果。问题表述。本文研究的是多项选择题的回答问题，目标是从给定的列表c1，c2，...中选出正确的答案c n对于常识性问题q。模型的输出是{1，2，.， n}。2.1关注自我注意大多数最近的语言模型是基于Transformer 架构的（ Vaswani et al. ， 2017年）。Transformer中最重要的组件之一是自我注意机制，它可以表述为Q=HIWq，K=HIWk，V=HIWv，QKTA=softmax（A）V，（1）其中Hl∈RN×d是第l层Transformer的输入隐藏向量，Wq，Wk，WvRd×d是投影矩阵，N是输入长度，d是隐藏向量的维度。到第一Transformer层的输入通常是标记化输入文本的嵌入，表示为H0=X=[x1，x2，.，x N] 1。在多项选择问答系统中，输入文本是问题和特定选项的外部注意。对于常识问题回答，回答问题所需的信息通常不在输入中。因此，我们需要将外部知识整合到模型中。在这项工作中，我们将文本格式的额外知识表示为 K=[x K ， xK，...，x K]。1 2Nk大型模型，即，通过高达1.5亿个参数的模型第二，外部信息是通过计算效率高的方法获得的，例如信息检索和有很多方法可以整合外部1在下面的讨论中，我们不区分令牌和它们的在前面的工作之后，我们在输入前添加一个[CLS]标记。+v：mala2277获取更多论文·jOpenBookQA常识问答猜谜概念网来自多个数据集的数据比分预测自我关注外部关注Self-Attention………+++++++…[候选问题概念网定义训练数据人们在玩的时候做什么吉他？唱歌弹吉他，子事件，唱歌吉他：音乐剧仪器当一个人看到弹吉他吗唱歌.知识检索图1：我们提出的知识外部注意力推理（KEAR）方法。从外部来源检索相关知识，例如，知识图、字典和训练数据，使用输入作为关键字，然后与输入集成。虽然可以向Transformer块添加额外的外部注意力层，但我们采用文本级连接来进行外部注意力，不会对模型架构进行结构性更改知识融入模型。在本文中，我们将知识连接到输入文本：H0=[X;K]=[x1，...，xN，xK，.，x K]。先进的-实体是 eq ，选择包含实体 ec2 。如果在ConceptNet中有从eq到ec的直接边r，我们选择这个三元组（eq，r，ec）。否则，我们-1Nk这种输入级集成的优势在于现有的因此，不需要修改模型架构然后，将自我注意力应用于H0可以使trieve所有来自ec的三元组。我们得分每个三元组j乘以其置信度wj的乘积（由ConceptNet提供）和定义的关系在知识文本和问题/选择之间自由建模推理，因此，类型权重trj：sj=wj·trj=wNNrj得双曲余切值.增强推理能力的模型2.2知识检索附加到输入中以引起外部注意的知识对于获得正确的预测至关重要对于常识推理，我们收集了三个外部知识源来补充输入问题和选择。知识图谱。知识图（KG）包含了一些经过整理的事实，可以帮助进行常识推理.我们遵循KCR（Lin，2020）在ConceptNet图中检索相关关系三元组（Speer et al. ，2017年）。假设这个问题rj是j的关系类型，N是总数在源于e c的三元组中，N rj是这些三元组中具有关系r j的三元组的数量。然后我们选择权重最大的三元组。最后，如果选择的三元组是（e1，r，e2），我们将KG中的知识格式化为KKG=[e1r e2]。字典虽然预训练的语言模型暴露于大规模文本数据，但单词的长尾分布意味着单词表示的质量2在CommonsenseQA数据集中，同时提供了eq和ec。否则，我们可以使用实体链接来找到与输入文本相关的+v：mala2277获取更多论文--∼P∼另一方面，字典可以提供准确的语义解释的话，无论他们在数据集中的频率。为了帮助理解问题和答案中的关键概念，我们遵循DEKCOR（Xu et al. ，2021）使用问题和答案概念的维基词典定义对于每个概念，我们使用最接近的词汇匹配从Wiktionary获取第一个（最常见的）定义。设dq是eq的定义文本，dc是e c的定义文本，我们将字典知识格式化为Kdict=[eq：dq;ec：dc]。训练数据。虽然最近的语言模型在参数数量方面是巨大的，但最近的研究表明，它们不能完美地描述其训练数据的所有细节（Anonymous，2022）。为了应对这一挑战，我们建议从训练数据中检索相关问题和答案作为额外的知识。我们使用BM 25（Schützeet al. ，2008）以从训练数据中检索前M个相关问题和答案。我们使用问题、概念网三元组和维基词典定义的串联来构建查询和索引。对于从训练数据中检索到的每个问题，我们丢弃知识部分，并将检索到的问题及其真实答案作为外部知识。在训练过程中，对于查询x，我们从检索到的结果中过滤自身，以避免数据泄漏。假设检索到的问题和答案是（x1，c1），（x2，c2），.，（x M，c M），我们将来自训练数据的知识格式化为Ktrain=[x1c1; x2c2;···; x Mc M]。与Anonymous（2022）不同的是，检索问题仅从相同的数据集获得，我们使用三种训练数据源进行检索：i ） CSQA训练数据， ii ）CSQA+OBQA+RiddleSense ，一个专注于ConceptNet知识的小数据集，以及iii）17个数据集的池，侧重于常识推理（我们在附录中描述了这17个数据集的详细信息最后，我们将从三个来源检索到的知识连接起来，形成最终的知识输入：K=[KKG;Kdict;Ktrain]。在实践中，分隔符被分隔符标记（例如，[SEP]）。我们将我们的知识检索和集成技术命名为知识外部注意力推理（KEAR），如图1所示。2.3改进常识推理的一般方法以前的作品已经提出了其他方法来提高一般的NLU性能，因此很自然地想知道这些方法是否也适用于常识推理。在这里，我们探索了两种提高常识推理性能的一般方法：i）使用不同的文本编码器和ii）虚拟对抗学习。文本编码器。自然语言理解（NLU）的先前方法（Xu et al. ，2021; Yanet al. ，2020; Wang等人，2020; Khashabi et al. ，2020）已经尝试使用BERT（Devlin et al. ，2018），RoBERTa（Liu et al. ，2019），ALBERT（Lan et al. ，2019 ）、 T5 （ Raffel et al. ， 2019 ）、ELECTRA（Clarket al. ，2020）和DeBERTa（ He et al. ， 2020 ）作为文本编码器，在GLUE基准上实现了最先进的性能（Wang etal. ，2019）。因此，我们评估这些模型作为编码器的常识推理任务。虚拟对抗训练（VAT）。以前的工作表明，虚拟对抗训练（增值税，宫等。（2018））可以提高一般NLU和问答任务的性能（Jianget al. ，2020; Cheng等人，2021年）。在多项选择常识推理任务中，目标是最小化交叉熵损失：minE（x，y）D[CE（f（x;θ），y）]（2）θ其中，f产生模型预测（选择的分布），θ表示模型参数，y是单热点地面实况答案向量，CE是交叉熵，D是经验数据分布。VAT首先找到更新δ，该更新δ导致预测分布的最大变化，受到Lp范数约束。然后，添加一致性正则化损失项以最小化函数输出与输入变化δ相比的差异minE（x，y）D[CE（f（x;θ），y）+（3）]θαmaxCE（f（x;θ），f（x+δ;θ））]，（4）ǁδ ǁ2 ≤ε其中α和ε是超参数。3实验3.1设置数据我们专注于CommonsenseQA（CSQA，Talmor et al. ，2019年）基准。常见的-+v：mala2277获取更多论文∈∈−−联系我们{−}--{−}senseQA是一个广泛使用的多项选择题回答数据集，需要常识知识。它包含12k个问题，这些问题是使用 ConceptNet 创建的（ Speer etal. ，2017年）。对于ConceptNet中的边（主体，关系，对象），Talmoret al. （2019）检索具有相同主题和关系的其他对象概念作为问题的干扰项。然后，要求人类工作者i）编写包含主题并以对象作为正确答案的问题，ii）从检索到的概念中挑选最容易分心的答案，以及iii）为问题编写另一个分心物。最后一个问题包含5个选择，其中一个正确的选择，两个随机检索的概念，一个人工选择的概念和一个人工策划的答案。模型设置。我们将输入文本馈送到预先训练的文本编码器（例如，DeBERTa）并取[CLS]令牌的表示vRd，其中d是编码器的维度。我们将问题和答案文本的segment id设置为0，并将附加的知识文本设置为最终的预测是通过softmax（vTb）计算的，其中bRd是一个参数向量，softmax是在一个问题的所有五个选择上计算的。然后，我们在训练过程中最小化交叉熵误差。实施细节。我们使用AdamW优化器对模型进行微调。批处理大小设置为48或更小，以使批处理适合单个 GPU 。我们训练模型 10 个epoch，并在开发集上取得最佳结果。我们选择最好的权重在0，0中衰减。01，0。1.一、学习率选自1e5、2e5、3e6对于除DeBERTa之外的所有编码器;遵循DeBERTa论文（He et al. ，2020）我们使用较小的学习率，从4e6，6e6，9e6中选择。我们使用来自Huggingface Transformers 的 DeBERTa v2 模型（Wolf et al. ，2020年），并从MNLI上的预训练模型或微调模型中选择。对于增值税，我们选择α0的情况。1，1。0，10。0设ε=1e5。对于DeberTa-xxlarge上的VAT，我们遵循SiFT（He et al. ，2020），其在添加扰动δ之前对词向量进行归一化，并设置ε=1ε4。对于来自训练数据的知识，我们从三个检索源数据集中选择最好的。我们用3种不同的种子运行每个实验，并从最佳运行中呈现结果。3.2单个组件编码器的影响。如表1所示，对NLI任务的一般认知与常识推理之间存在正相关关系编码器CSQAMNLI #段微调GPT-373.082.1175BRoberta-large76.790.23.55亿ALBERT-xxlarge81.290.6235MELECTRA-base75.088.8110MELECTRA-大型81.390.9335MDeberTa-xlarge82.991.7900MDeberTa-xxlarge83.891.71.5BDeBERTaV 3-大号84.691.8418MT5-11B83.5191.311B表1：各种编码器的CSQA开发集精度。我们将每个编码器的MNLI数据集（域内）的准确度作为参考。MNLI分数来自相应的GitHub存储库。1：刘等人（2021年）。常识问答的能力。请注意，具有1750亿个参数的微调GPT-3模型只能在CommonsenseQA的开发集上实现73.0%。基于这些结果，我们选择ELECTRA- 大型和 DeBERTa 变体（ He et al.2020，2021）作为用于随后实验的编码器。方法偏差接入（%）基线ELECTRA-大号81.3DeberTa-xxlarge 83.8DeBERTaV 3-大号84.6含增值税ELECTRA-large+增值税82.1DeberTa-xxlarge + SiFT 84.4DeBERTaV 3-大号+增值税85.2表2：虚拟对抗训练的结果。虚拟对抗训练的效果。表2表明，VAT可以提高所考虑模型的常识ELECTRA-large显示出最大的准确度提高（0.8%）。因此，我们将VAT应用于ELECTRA-large进行以下实验。外部注意力的影响。如表3所示，所有提出的知识源都在所有基本编码器模型上带来常识推理准确性的增益。当DeBERTaV 3-large时，字典、知识图和训练数据分别带来0.5%、2.1%和2.5%的改进（He et al. 2021）是基本编码器模型。我们发现最好的训练数据+v：mala2277获取更多论文方法E-1 +V D-xxl DV 3 - 1基地82.183.884.6+ KG85.286.486.7+字典83.884.085.1+ 训练数据84.086.487.1表 3 ：对不同知识来源的外部关注 E-l+V 代表ELECTRA-large with VAT ，D-xxl 代表 DeBERTa-xxlarge，DV 3-l代表DeBERTaV 3-large。方法偏差接入（%）ELECTRA-large + KEAR 88.7DeberTa-xlarge + KEAR 89.5DeberTa-xxlarge + KEAR 90.8DeBERTaV 3-大号+KEAR91.2Ensemble（39 models w/KEAR）93.4表4：使用不同编码器和集成的CSQA开发集结果。检索源依赖于确切的编码器，我们在附录中给出了详细的比较这证明了我们提出的知识检索和拼接方法的有效性方法单个合奏BERT+OMCS62.5-罗伯塔72.172.5ROBERTA+KEDGN-74.4阿尔伯特-76.5RoberTa+MHGRN75.476.5ALBERT + HGN77.380.0T578.1-统一QA79.1-ALBERT+KCR79.5-ALBERT + KD80.380.9ALBERT + SFR-81.8DEKCOR80.783.3人类-88.9KEAR（我们的）86.189.4表5：来自排行榜的测试集结果。人类的表现是5个工人的合奏（Talmoret al. ，2019）。3.3结合技术表4显示了KEAR的结果，该结果结合了先前实验中的最佳技术，即，重视增值税和外部所有的知识来源，以进一步提高业绩。最佳单机机型（DeBERTaV 3-large + KEAR）在开发集上达到91.2%的准确率。我们进一步集成了39个模型，其中12个ELECTRA模型，12 个 DeBERTaV 3 模型， 11 个 DeBERTa-xxlarge模型和4个DeBERTa-xlarge模型。我们的增强模型在开发集上达到了93.4%的准确率。表5显示了隐藏测试集的官方排行榜结果我们的集成模型比以前最好的DEKCOR模型高出6%以上，比人类的表现（88.9%）高出0.5%。4相关工作许多以前的作品已经提出了将外部知识源整合到trans-former架构中的方法。对于常识问题回答，专业知识图，如 ConceptNet （ Speer etal. ，2017）和ATOMIC（Sapet al. ，2019a）是外部知识来源的最受欢迎的选择。Lin et al.（2019）从问题和选择中的概念构建了一个方案图，并使用LSTM来推理问题和选择概念之间的路径。Feng等人（2020）进一步提出了多跳图关系网络（MHGRN）用于概念之间的路径推理Yasunaga等人（2021）构建了一个包含QA上下文和KG的联合图，然后使用图神经网络对这两个知识源进行推理。另一种工作是探索结构化程度较低的知识，如维基百科和用于常识推理的词典（Xu etal. ，2021; Chenet al. ，2020; Lv等人，2020年）。 Bhakthavataret al.（ 2020 ）结合了ConceptNet、WordNet和其他语料库的知识，形成了350万条通用语句，并表明这些知识有助于提高准确性和解释质量。最近，有一些方法可以从预训练的语言模型中生成Bosselut等人（2019）和Hwang et al.（2020）在ATOMIC上微调预训练模型，以完成com-monsense知识图。Liu等人（2021）直接提示GPT-3模型（Brownet al. #20200;，以获取知识。除了常识推理，外部知识也可以帮助提高其他语言处理任务的性能，如开放域问题回答（Yu et al. ，2021）、关系分类（Yu et al. ，2020 a）、对话响应生成（Ghazvininejad etal. ， 2018 ），会话问答（秦等。， 2019年），多语言NLU（方+v：mala2277获取更多论文等人，2021）和文本生成（Yu et al. ，2020b）。与使用额外模块的先前工作相比GNN）或额外的模型（例如，GPT-3），我们的外部注意力框架非常轻量级。它通过非参数检索和文本拼接的组合来操作，我们表明这是非常有效的，能够在常识问答任务上超越人类的平价。5结论我们提出外部注意作为一个轻量级的框架检索和整合外部知识的语言理解。与自我注意相比，外部注意可以从外部来源获得我们证明，这种策略可以导致相当大的收益与little额外的计算成本的性能。通过利用来自知识图、词典和训练数据的知识，我们证明了我们的技术KEAR首次在常识问答基准任务上实现了人类平等。在未来的工作中，我们将把这项技术应用到其他NLP任务中，以利用外部知识提高语言模型的确认我们感谢匿名评论者对我们早期系统DECKOR的评论我们感谢Reid Pryzant校对本文。引用匿名的2022年。训练数据比你想象的更有价值：从训练数据中检索的简单有效的方法正在审查。Chandra Bhagavatula 、 Ronan Le Bras 、 ChaitanyaMalaviya 、Keisuke Sakaguchi 、Ari Holtzman 、Han- nah Rashkin 、 Doug Downey 、 Scott Wen-Tau Yih和Yejin Choi。2019.溯因推理。arXiv预印本arXiv：1908.05739。Sumithra Bhakthavataru，Chloe Anastasiades和Peter克拉克 2020. 通用skb：一通用语句知识基础。arXiv预印本arXiv：2005.00660。作者简介：杨文，李文，高建峰，蔡业珍. 2020.Piqa：用自然语言推理物理常识第34届AAAI人工智能会议。RishiBommasani，Drew A Hudson，Ehsan Adelli，Russ Altman，Simran Arora，Sydney von Arx，Michael S Bernstein ， Jeannette Bohg ， AntoineBosselut，Emma Brunskill，et al. 2021. 的机遇和风险的基础模型。 arXiv 预印本 arXiv ：2108.07258。Antoine Bosselut，Hannah Rashkin，Maarten Sap，Chai- tanya Malaviya ， Asli Celikyilmaz ， andYejin Choi.2019. Comet：自动知识图构建的常识转换器. arXiv预印本arXiv：1906.05317。Tom B Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165。迈克尔·陈，迈克·达西，艾丽莎·刘，杰瑞德·费南德斯，道格·唐尼. 2019. Codah：一个针对常识的对抗性问答数据集。在Proceedings of the 3rdWork-shoponEvaluatingVectorSpaceRepresentations for NLP中，第63陈强龙，季峰，陈海青，张银。2020. 通过基于图的多知识源提高常识问题的回答。在Proceedings of the 28th International ConferenceonComputationalLinguis-tics ， pages2583-2594，Barcelona，Spain（Online）中。国际计算语言学委员会。Hao Cheng，Xiaodong Liu，Lis Pereira，YaoliangYu，and Jianfeng Gao. 2021. 具有f-散度的后验微分正则化用于改善模型鲁棒性。在计算语言学协会北美分会2021年会议记录中：人类语言技术，第1078-1089页，在线。计算语言学协会。Kevin Clark，Minh-Thang Luong，Quoc V. Le，andChristopher D.曼宁2020. Electra：预训练文本编码器作为判别器而不是生成器.在国际学术代表上。Peter Clark ， Oren Etzioni ， Daniel Khashabi ，Tushar Khot ， Bhavalani Dalvi Mishra ， KyleRichardson，AshishSabharwal，CarissaSchoenick，Oyvind Tafjord，Niket Tandon，et al.2019.从纽约摄政科学考试中的“f”到“a”：一个关于阿斯托项目的概述。 arXiv 预印本 arXiv ：1909.01958。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2018年Bert：深度双向转换器的语言理解预训练 arXiv 预印本 arXiv ：1810.04805。Alexey Dosovitskiy ， Lucas Beyer ， AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， MostafaDehghani ，Matthias+v：mala2277获取更多论文Minderer ， Georg Heigold ， Sylvain Gelly ， etal.2020年。一张图片相当于16x16个单词：用于大规模图像识别的变形金刚。 arXiv 预印本arXiv：2010.11929。Yuwei Fang，Shuohang Wang，Yichong Xu，JosenXu ， Siqi Sun ， Chenguang Zhu ， and MichaelZeng. 2021.在多语言常识推理中利用知识。arXiv预印本arXiv：2110.08462。Yanlin Feng ， Xinyue Chen ， Bill Yushan Lin ，Peifeng Wang，Jun Yan，and Xiang Ren. 2020.知识感知问题回答的可扩展多跳关系推理。arXiv预印本arXiv：2005.00646。Liye Fu，Jonathan P Chang，and Cristian Danescu-Niculescu-Mizil. 2019.问正确的问题：从个人叙述中推断寻求建议的意图。arXiv预印本arXiv：1904.01587。Marjan Ghazvininejad ， Chris Brockett ， Ming-WeiChang ， Bill Dolan ， Jianfeng Gao ， Wen-tauYih，and Michel Galley. 2018.基于知识的神经会话模型。在AAAI人工智能会议论文集，第32卷。何鹏程，高剑锋，陈伟柱。2021年Debertav3：使用electra风格的预训练和梯度分解的嵌入共享来改进deberta。arXiv预印本arXiv：2111.09543。Pengcheng He，Xiaodong Liu，Jianfeng Gao，andWeizhu Chen. 2020. Deberta：解码增强的bert，注意力分散。在国际学习代表上。黄立夫，罗南·勒·布拉斯，钱德拉·巴伽瓦图拉，蔡业真。2019. Cosmos QA：具有上下文常识推理的机器阅读理解。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（ EMNLP-IJCNLP ）的会议中，第 2391-2401页，中国香港。计算语言学协会。Jena D Hwang ， Chandra Bhagavatula ， Ronan LeBras ， Jeff Da ， Keisuke Sakaguchi ， AntoineBosselut ， and Yejin Choi.2020 年。彗星原子2020：符号和神经常识知识图。arXiv预印本arXiv：2010.05953。Haoming Jiang，Pengcheng He，Weizhu Chen，Xi-aodong Liu，Jianfeng Gao，and Tuo Zhao. 2020.智能：通过有原则的正则化优化，对预训练的自然语言模型进行鲁棒和高效的微调。在计算语言学协会第58届年会的会议记录中，第2177杰瑞德·卡普兰，山姆·麦克坎德利什，汤姆·亨尼根，汤姆·B·布朗，本杰明·切斯，雷温·柴尔德，斯科特·格雷，亚历克·雷德福，杰弗里·吴和达里奥·阿莫代。2020.神经语言模型的标度律。arXiv预印本arXiv：2001.08361。Daniel Khashabi，Tushar Khot，Ashish Sabharwal，Oyvind Tafjord，Peter Clark，and Hannaneh Ha-jishirzi. 2020.统一的质量保证体系：用单一的质量保证体系跨越格式界限。arXiv预印本arXiv：2005.00700。Tushar Khot，Ashish Sabharwal，和Peter Clark 。2018年SciTail：来自科学问答的文本蕴涵数据集。在AAAI。Guokun Lai ， Qizhe Xie ， Hanxiao Liu ， YimingYang，and Eduard Hovy. 2017. Race：来自考试的大规模阅读理解数据集。arXiv预印本arXiv：1704.04683。ZhenzhongLan ， MingdaChen ， SebastianGoodman，Kevin Gimpel，Piyush Sharma，andRadu Soricut. 2019. Albert：一个用于语言表示的自我监督学习的Lite bert。arXiv预印本arXiv：1909.11942。Bill Yuchen Lin，Xinyue Chen，Jamin Chen，andXiang Ren.2019. Kagnet：知识感知图网络-用于常识推理。arXiv预印本arXiv：1909.02151。Bill Yuchen Lin，Ziyi Wu，Yichi Yang，Dong-HoLee，and Xiang Ren. 2021.谜语推理：以语言创造性和常识性知识为特征的谜语推理。在计算语言学协会第59届年会（ACL-IJCNLP 2021）的会议记录中。地出现。杰申 · 林。2020.由关系选择的知识。https://github.com/jessionlin/csqa/blob/master/Model_details.md。Jiacheng Liu ， Alisa Liu ， Ximing Lu ， SeanWelleck，Pe- ter West， Ronan Le Bras， YejinChoi，and Hannaneh Hajishirzi.2021.为常识推理生成知识提示。 arXiv 预印本 arXiv ：2110.08387。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。吕尚文、郭大雅、徐晶晶、唐杜宇、段南、龚明、寿林军、姜大新、曹桂红、胡松林。2020.基于图的异质外部知识推理在常识问答中的应用。Todor Mihaylov ， Peter Clark ， Tushar Khot ， andAshish Sabharwal.2018.一套盔甲能进行反渗透吗？一个新的开卷问答数据集在EMNLP。TakeruMiyato ， Shin-ichiMaeda ， MasanoriKoyama，and Shin Ishii. 2018. 虚拟对抗训练：一种用于监督和半监督学习的正则化方法。IEEE模式分析与机器智能汇刊，41（8）：1979-1993.+v：mala2277获取更多论文David Patterson、Joseph Gonzalez、Quoc Le、ChenLiang、Lluis-MiquelMunguia、DanielRothchild、David So、Maud Texier和J

下载后可阅读完整内容，剩余1页未读，立即下载