知识化提示调整的文本分类方法

194 浏览量更新于2023-11-30 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文知识渊博的调试：将知识转化为文本分类提示动词胡胜定1、3，丁宁1、3，王华东1、3，李志远1、2、3，李娟子1、2，孙茂松1、2、31计算机科学与技术系，2人工智能研究所3清华大学智能技术与系统国家重点实验室北京{hsd20，dingn18}@mails.tsinghua.edu.cn摘要使用特定于任务的提示来调整预训练的语言模型（PLM）已经成为文本分类的一种有前途的方法。特别是，以前的研究表明，提示调整有显着的优越性，在低数据的情况下，通用的微调方法与额外的分类器。自动调优的核心思想是插入文本片段，即，模板，并将分类问题转换为掩码语言建模问题，其中关键步骤是构造投影，即，在标签空间和标签词空间之间。语言化器通常是手工制作的或通过梯度下降搜索的，这可能缺乏覆盖率，并给结果带来相当大的偏差和高变异性。在这项工作中，我们专注于将外部知识纳入言语化者，形成一个有知识的提示调整（KPT），以改善和稳定提示调整。具体来说，我们使用外部知识库（KB）扩展动词化器的标签词空间，并在使用扩展的标签词空间进行预测之前，使用PLM本身来细化扩展的标签词空间。零和少数镜头的文本分类任务的广泛实验证明了知识的自动调整的有效性。1介绍近年来，预训练语言模型（PLM）（Peters etal. ， 2018; Radford et al. ， 2018; Devlin etal. ， 2019; Raffel et al. ， 2020; Xu et al. ，2021），这是由于它们在广泛的语言相关的下游任务上的优异性能，例如文本分类（Kowsari et al. ，2019）、问题回答（Ra-jpurkar et al. ， 2016 ）和机器读取压缩（Nguyen et al. ，2016）。为了理解PLM的有效性，研究人员通讯作者：刘志（liuzy@tsinghua.edu.cn）已经进行了广泛的研究，并建议PLM在预培训期间获得丰富的知识（Petroni et al. ，2019;Davison et al. ，2019; Roberts et al. ，2020）。因此，如何激发和利用这些知识正受到越来越多的关注。实现这一点的一种常规方法是微调（Devlinet al. ，2019年），其中我们在PLM顶部添加额外的分类器，并在分类对象下进一步训练模型。在有监督的任务上，微调取得了令人满意的结果。然而，由于额外的分类器需要足够的训练实例来调整，因此在少数学习中应用微调仍然具有挑战性（Brown et al. ，2020）和零射击学习（Yin et al. ，2019年）的情景。来源于 GPT-3 （ Brown et al. ， 2020 ）和 LAMA（Petroni et al. ，2019年，2020年），一系列使用提示的研究（Schick和Schütze，2020年a;Liu et al. ，2021）的模型调整桥梁之间的差距，预训练目标和下游任务，并证明，这种离散或连续提示诱导更好的性能PLM上的少数拍摄和零拍摄任务。一个典型的使用自动调优的方法是将输入句子包装成一个自然语言模板，让PLM进行掩码语言建模。例如，对一个句子的主题进行分类：在“S CIENCE“类别中预测是基于单词“science”被填充到“[MASK]“标记中的概率进行的从标签词（例如， S类CIENCE）称为言语化者（Schick and Schütze，2020 a）。动词化器在词汇和标签空间之间架起了一座桥梁，并被证明对分类性能有很大的影响（Gaoet al. ，2020）。arXiv：2108.02035v1[cs.CL] 2021年8月+v：mala2277获取更多论文→联系我们大多数现有的作品使用人类书写的动词（Schick和Schütze，2020a，2021），其中设计师手动想出一个单词来表示每个类别。然而，人类书面语的言语表达者通常是根据有限的信息来确定预测的.例如，在上面提到的例子中，朴素的动词化者{science} SCIENCE意味着在推理过程中，只有预测[MASK]标记的单词这种手工制作的一对一映射限制了标签词的覆盖范围，因此缺乏足够的信息进行预测，也会导致言语化者的偏见。因此，手工制作的动词很难是最佳的，在调优，标签词的语义是至关重要的预测。一些作品试图减轻手工语言化器的缺点，并提出使用梯度下降来搜索最佳语言化器（Liuet al. ，2021; Schick等人，2020），并归纳出几个在词义上与类名相似但在表面形式上不同的词。然而，这种基于优化的扩展难以跨粒度（例如，从“科学”到“物理学”）推断单词。如果我们把上述例子的描述者扩展到科学，即物理科学中，则预测真标号的概率将大大提高。因此，为了提高覆盖率和减少言语表达者的偏见，我们提出将外部知识整合到言语表达者中，以促进言语调节，即知识性言语调节（KPT）。由于我们的扩展不是基于优化，因此它将更有利于零射击学习。具体地说，KPT包含三个步骤：识别、提炼和利用。(1)首先，在构建阶段，我们使用外部知识库为每个标签生成一组标签词（见第3.2节）。需要注意的是，扩展后的标签词不是简单的同义词，而是涵盖了不同的粒度和视角，因此比类名更全面和公正（2）利用PLM本身对扩展后的标注词进行去噪处理。对于零射击学习，我们建议使用上下文化的先验来删除那些先验概率低的单词由于来自KB的单词可能具有显著不同的先验概率，因此我们提出了一种鲁棒的校准方法，即，情境化校准，以提高零触发性能（见第3.3节）。对于少量学习，我们为每个标签词分配一个可学习的权重，以消除知识丰富的动词。(3)最后，我们应用香草平均损失函数或加权平均损失函数来利用扩展的动词，将一组标签词的分数映射到标签的分数。我们进行了广泛的实验零镜头和少数镜头的文本分类任务。实验结果表明了KPT（见§4）的有效性. 除了比常规的线性调整有希望的改进之外，KPT还减少了少量试验中的预测方差，并产生更稳定的性能（在§5中）。我们将公开源代码。2相关工作这项工作的重点是将知识到提示动词。因此，有三组研究与KPT相关：知识调整，语言化构建和知识增强的PLM。由于我们在文本分类任务上进行了实验，因此我们在§4中介绍了零镜头和少镜头文本分类的几个工作。自动调谐自从 GPT- 3 的出现（ Brown etal. ，2020年），自动调谐已经受到相当大的关注。GPT-3（Brown et al. ，2020年）证明，通过自动调优和上下文学习，大规模语言模型可以在低数据状态下实现卓越的性能。下面的工作（Schick和Schütze，2020 a，b）认为小规模语言模型（Radford et al. ，2018; Devlin etal. ，2019; Liu et al. ，2019; Lan et al. ，2019年）也可以使用快速调优实现不错的性能。虽然大多数研究都是在文本分类或SuperGLUE中的任务上进行的（Wang et al. ，2019年），一些工作扩展的影响，自动调谐到其他任务，例如，关系提取（ Hanet al. ，2021; Chen etal. ，2021年）。除了对各种下游任务进行快速调优之外，还可以使用prompt来探测来自PLM的知识（Petroni et al. ，2019年，2020年）。动词化结构。如第1节所述，言语控制者是即时调整的重要组成部分，现有研究表明，言语控制者对即时调整的表现有很大影响（Holtzman et al. ，2021; Gao等人，2020）。大多数作品使用人类书写的动词（Schick和Schütze，2020年a），这是高度双向的。+v：mala2277获取更多论文MM∈Y|知识库过滤/校准/加权科学标签science，mathematics，biology，research，knowledge，physics，electron，scientist，capabilities，labs，knowledge，innovate，calculation，.，农业生物学，mscience，euclid，orthogon，化学原理命名法science，mathematics，biology，research，knowledge，physics，electron，scientist，capabilities，labs，knowledge，innovate，calculation，.，农业生物学，mscience，euclid，orthogon，公理、命名法物理数学科学计算研究…构建知识化的言语表达者提炼知识丰富的语言表达器最终语言化者标签词物理数学标签预测传销头科学…篮球NBA体育知识丰富的语言表达者G科学S端口…科学问：速度和加速度之间的关系是什么？模板原始输入图1：KPT的说明，知识丰富的动词化者将标签词上的预测映射到标签中。以上是KPT的构建、提炼和运用过程。以个人词汇为基础，没有足够的覆盖面。其他一些研究（Gao et al. ，2020; Shin等人，2020;Liu et al. ，2021; Schick等人，2020）设计自动言语化搜索方法以用于更好的言语化选择，然而，他们的方法需要足够的训练集和验证集以用于优化。此外，自动确定的动词化通常是类名的同义词，这与我们使用外部KB用一组多样且全面的标签词扩展动词化的直觉不同Schick等人（2020）; Shin et al. （2020）也尝试为每个类多个标签词。每个类的最优标注词集一般小于10个.在这项工作中，我们提出了KPT，它使用外部知识，以提高perfor-曼斯的快速调整。与以前的策略相比，我们的方法可以为每个类生成并有效地利用超过100个相关的标签词，并且可以有效地应用于零镜头设置。知识增强型PLM。近年来，利用外部知识来提高PLM的性能已经得到了广泛的研究，并且通常应用于预培训阶段（ Zhanget al. ，2019b; Liu et al. ，2020年）和微调阶段（杨等。， 2019; Guan et al. ，2020 ）。具体来说，在文本分类任务中，Chen et al. （2019）;Zhang et al.（2019 a）; Sinoara et al.（2019）也探索了利用知识库来增强输入文本。与这些方法不同的是，外部知识在自动调整阶段，并产生显着的改善，在零杆和少数杆文本分类任务。3知识丰富的调优在这一节中，我们提出了我们的方法，将外部知识整合到一个提示动词。本文首先介绍提示语调整的总体范式，然后阐述如何构建、提炼和利用知识性提示语。3.1概述假设是在大规模语料库上预训练的语言模型。在文本分类任务中，输入序列 x= （ x0 ，x1，...，xn）被分类到类别标签y中。调优将分类任务形式化为掩蔽语言建模问题。具体地说，预调优用模板包装输入序列，模板是一段自然语言文本。例如，假设我们需要对句子x=“速度和加速度之间的关系是什么？”到标签SCIENCE（标记为1）或SPORTS（标记为2）中，我们将其包装到xp=[CLS]A[MASK] question：x然后给出词汇表中每个单词v被填入[MASK]tokenPM（[MASK]= v ×p）。为了绘制概率图将词的概率转换为标签的概率，我们将动词化器定义为来自词汇表中的几个词的映射f，这些词形成标签词集合V，+v：mala2277获取更多论文VVVG.ΣV{} V}D|V{}到标签空间Y，即，f：V → Y。我们用Vy表示V的映射到一个特殊标号y上的子集，其中Vy∈YVy=V. 那么标签 y 的概率，即， P（y|xp），计算为P（y|xp）=g PM（[MASK]=v|xp）|v∈ Vy，（1）其中g是将标签词的概率转换为标签的概率的函数。在上面的示例中，常规的微调可以定义1= “科学”，2={ 和g作为恒等函数，则如果“科学”的概率我们提出了KPT，它主要侧重于使用外部知识来改善动词的自动调整。在KPT中，我们使用KB来生成与每个类y相关的多个标签词，例如，1={并提出了一种上下文化的校准方法来消除扩展中的噪声。最后，我们探讨了香草平均和加权平均方法的利用扩大。详细信息见以下各节。3.2动词化结构基于上下文的屏蔽词预测过程不是一个单选过程，也就是说，没有标准的正确答案，但是大量的词可能适合这个上下文。因此，动词化者映射的标签词应具备两个属性：覆盖面广和主观偏见小。这样一个全面的投影对于模仿预训练是至关重要的，即，快速调谐。幸运的是，外部结构化知识可以同时满足这两个要求。在本节中，我们将介绍如何使用外部知识进行两个文本分类任务：主题分类和情感分类。主题分类的核心问题是从各个角度和粒度上提取与主题相关的标签词。从这个角度来看，我们选择相关词汇1，这是一个从多个资源聚合的知识图，包括单词嵌入，概念网（Speeret al. ，2017），WordNet（Pedersen et al. ，2004）等，作为我们的外部KB。边缘表示“相关”关系，并标注有相关性分数，该分数可用于测量标签词和主题之间的相关性。我们使用每个主题v的名称作为锚节点来获取邻域节点1https://relatedwords.orgNG（v），其得分大于阈值η作为相关词。因此，每个类被映射成一组标签词y=NG（v）v。对于二元情感分类，主要目标是选择尽可能多的倾向于积极或消极的表达。并且我们使用了前人总结的情感词典2、3.因此，我们得到了一个知识丰富的动词化器，将多个标签词映射到一个类标签，这增强了手工制作的动词化器与外部知识。KPT中的标签词的几个示例在表1中。3.3语言化工具优化虽然我们已经构建了一个知识丰富的动词化，包含全面的标签词，收集知识丰富的动词化可以是非常嘈杂的，因为知识库的词汇表不是为PLM量身定制的。因此，有必要通过保留高质量的词和去除低相关性的词来进一步细化此类动词在本节中，我们将介绍零镜头和少镜头设置中的言语化工具的改进零次精炼。在零镜头学习中，需要解决三个问题，以促进知识丰富的言语表达者的使用。首先，知识库推荐的一些词汇是PLM的词汇表外（OOV），但是，这些词汇也可能提供分类信息为了支持这些单词的预测，我们简单地使用每个标记在其标记化中被填充在掩码位置的平均概率作为这些单词的概率。第二个问题是处理生僻字。我们假设KB中的几个单词对于PLM来说是罕见的，因此这些单词的预测概率而不是使用词频词典，我们建议使用语境化的标签词的先验来删除这些词。具体来说，给定一个文本分类任务，我们将句子x在语料库中的分布表示为。对于分布中的每个句子，我们将其包装到模板中，并计算掩码位置 PM 中每个标签词 v 的预测概率（[MASK]=vxp）。通过对句子的整个分布的概率的期望，我们可以得到先验分布。2https://www.enchantedlearning.com/wordlist/positivewords.shtml3https://www.enchantedlearning.com/wordlist/negativewords.shtml+v：mala2277获取更多论文CPVCUP.Σ|pMΣ{∈}MpPD（v）数据集标签标签词AGSPORTS体育，田径，体操，运动员，比赛，自行车，足球，.IMDB阴性糟糕的，不利的，令人担忧的，愤怒的，烦恼的，焦虑的，冷漠的，骇人听闻的，...绝对，接受，称赞，完成，成就，...表1：扩展标签词的示例。在主题分类（例如AG的新闻）中在掩码位置的标签词的掩码我们可以将其形式化为其被初始化为零向量。权重在每个Vy内被归一化：经验（wv）（五）PD（v）=ExDPM（[MASK]= v|xp）。（二更）αv=πu∈Vy.经验（wu）从经验上讲，我们发现使用从训练集中采样的小尺寸未标记的支持集，并去除标签，将产生上述期望的令人满意的估计因此，假设输入样本xC 具有均匀先验分布，上下文化先验近似为P（v）<$1<$P（[MASK]=v|xp）。（三）直观地说，在训练过程中，期望为有噪声的标签词学习一个小的权重，以最大限度地减少其对预测的影响注意，在少数镜头设置中，我们不进行校准，因为标签词的概率可以被训练到期望的幅度，即，（[MASK]=v|xp）=PM（[MASK]= v|xp）。3.4言语化工具利用率D|C|Mx∈C最后一个问题是如何将每个细化标签词的预测概率映射到然后，我们删除标签词的先验概率，能力低于阈值。第三个问题是标签词的先验概率的巨大差异。作为以前的作品（赵等。， 2021;Holtzman等人，2021）已经示出，与输入句子的标签无关，一些标签词比其他标签词更不可能被预测，从而导致有偏差的预测。在我们的设置中，KB中的标签词往往具有更多样化的先验概率。因此，我们使用类标签y，即，知识丰富的言语表达者的目标函数g此外，在少量学习中，另一个问题是如何优化知识丰富的语言表达者。指数. 在细化之后，我们可以假设一个类的每个标签词对预测标签的贡献相等。因此，我们使用y上的预测得分的平均值作为标签y的预测得分。预测的标签y是标签词的上下文化先验，以校准预测的分布，即，y=argmaxy∈Y1|Vy|˜Mv∈Vy（[MASK]=v|xp）（六）校准（CC）：P（[MASK]=v|x）=PM（[MASK]=v|xp）。（四）与上下文校准（Zhaoet al. ，2021）和PMIDC（Holtzman et al. ，2021），我们的方法利用了一个小的未标记的支持集，但产生更好，更稳定的结果（见§5.1）。我们在零次学习中使用这种方法，因为没有要训练的参数。加权平均。在小样本文本分类中，我们采用标签词得分的加权平均值我们使用细化权重αi作为求平均值的权重因此，预测的标签y是少枪精炼。在少量学习中，y=argmaxy∈Yexp s（yx）经验值s（yJ|x）X，（七）细化更容易，因为我们可以识别每个标签词集齐y′p其中s（y|xp）为从知识库中删除标签词，我们首先删除被分成多个标记的标签词，因为它们在训练中往往更难处理s（y|xp）= αvv∈Vy对数PM（[MASK]=v|xp）。（八）.+v：mala2277获取更多论文objective.为了减轻标签词的噪声问题，我们为每个标签词v分配一个可学习的权重wv。权重形成向量w ∈ R| V|、该目标函数适合于通过对预测概率应用交叉熵损失来进行连续优化。+v：mala2277获取更多论文| |4实验我们在四个文本分类数据集上评估了KPT，以证明将外部知识融入到调优中的有效性。4.1数据集和模板我们在两个主题分类数据集上进行了实验：AG的新闻（Zhang et al. ，2015）和DBPedia（Lehmann et al. ，2015）和两个发送分类数据集：IMDB（Maas et al. ，2011年）和亚马逊（McAuley和Leskovec，2013年）。数据集的统计数据见表2。详细信息见附录A。亚马逊情绪2 10000IMDB情绪2 25000表2：每个数据集的统计数据。由于包含丰富的专业知识，手动模板被证明与自动生成的模板竞争或优于自动生成的模板（Gaoet al. 2020年），尽管它们更容易建造。因此，我们在实验中使用手动模板。手动模板也比自动生成的模板更适用于零激发设置。为了减轻不同模板的影响，我们在每个数据集的多个模板下测试KPT。具体来说，我们为每个数据集使用四个手动模板，这些模板要么是由（Schick和Schütze，2020 a）引入的，要么是为适应数据集而定制的。我们报告四个模板的平均结果和最佳模板的结果我们为每个数据集使用的特定模板在附录A中。4.2实验设置对于 PLM，我们使用 RoBERTa large （ Liu etal. ，2019）用于所有实验。对于测试指标，我们在所有实验中使用Micro-F1我们有不同的设置为零拍摄和少数拍摄实验。零射击实验未标记支持集C的大小为200。在主题分类中，去除生僻词的阈值为0.5.对于情感分类数据集，我们发现我们的情感词典是高质量的，因此我们没有基于先验概率删除单词。由于随机种子的选择会影响测试性能，因此我们使用不同的随机种子在KPT和PT+CC中重复每个实验5次少数实验。我们进行了5次、10次和20次射击实验。对于k-shot实验，我们从原始训练集中对每个类的k个实例进行采样以形成few-shot训练集，并对每个类的另外k个实例进行采样以形成验证集。我们将整个模型调优5个epoch，并选择具有最佳验证性能的检查点进行测试。由于少样本训练集和验证集的不同选择严重影响了测试性能，我们对5个随机种子重复实验。用于调整Roberta模型的其他超参数可以在附录B中找到。4.3基线在本小节中，我们介绍了我们比较的基线，包括定期提示调整，与上下文化校准相结合的快速调整和微调。我们还包括LOTClass和UDA的报告分数，因为它们是最先进的无监督和半监督文本分类。然而，他们使用更多的培训资源比KPT，这可能会导致不公平的比较。快速调谐（PT）。常规的提示调优方法将输入的句子包装到手工制作的模板中。与KPT不同的是，它使用类名作为每个类的唯一标签词，这被PET和大多数现有作品所采用请注意，PET使用了其他一些技巧，如自我训练，提示合奏等。我们不使用任何这些技巧，因为我们想研究知识丰富的语言表达者的影响。这些技巧与我们的贡献是正交的，可以在未来的工作中结合到我们的贡献中。自动调谐+情境化校准（PT + CC）。这种方法是与所提出的情境化校准相结合的自动调谐。我们使用与KPT相同的未标记支持集来计算标签词的上下文先验。该基线是为了查看通过情境化校准而不是知识渊博的语言表达者进行的改进在少数镜头学习实验中，我们不包括这个基线，因为我们发现校准对少数镜头学习不太重要。微调（FT）。传统的微调方法将PLM的[CLS]令牌的隐藏嵌入输入到分类层中进行预测。请注意，微调不能应用于零拍摄设置，因为分类-名称类型#类测试大小AG话题47600DBpedia话题1470000+v：mala2277获取更多论文| |80.0 ± 0.8（81.1）75.1±5.4（82.3）91.1±1.8（93.7）表3：零镜头文本分类的显示了四个模板的平均结果和方差最佳模板的结果显示在括号中请注意，对于PT+CC和KPT，我们使用不同的随机种子重复每个†意味着他们使用的培训资源与我们的设置不同。层是随机初始化的。LOTClass 。 LOTClass （ Meng et al. ，2020）使用PLM从整个未标记的训练语料库中提取主题相关词然后使用Masked CategoryPrediction任务在带有伪标签的未标记语料库上进行训练。UDA。UDA（Xie et al. ，2019）使用小的标记语料库和大的未标记语料库。为了利用未标记的语料库，他们使用先进的数据增强方法，如反向翻译，以鼓励预测在增强的数据样本上的一致性。4.4主要结果在这一小节中，我们介绍了具体的结果，并提供可能的KPT的见解。零射击从表3中，我们看到KPT始终优于PT和PT+CC基线，这表明我们的方法是有效的。我们实现了优于LOTClass的性能，无论是所有模板的平均性能还是最佳性能模板，尽管我们DBPedia的总得分优于PT的最佳模板。然而，KPT在此设置下仍然优于FTKPT的另一个显著特点是，与基线方法相比，它实现了显著这可能是因为不同标签词的集成提供了更稳定的训练目标。与UDA合作，虽然我们使用的培训资源少得多，但我们在AG的新闻和IMDB上优于他们93929190898382818074737271700 50 100 150 200 250 300|C|图2：未标记的支持集的大小r. t. 测试性能 C=0处的点是PMI DC的性能。不要利用大型未标记的训练集。具体而言，我们观察到与主题分类的基线相比，性能提升高于情感分类，我们推测主题分类需要比情感分类更多的外部知识虽然CC比PT基线有很大的改进，但在DBPedia上，外部知识的整合比PT+CC提高少枪从表5中，我们发现KPT一致优于基线方法PT，特别是在5次和10次试验中。对于20-shot，我们假设标记实例的数量足以优化标签词然而，KPT仍然在三个数据集上实现了改进从表中可以看出，FT在低激发区非常不稳定，但有足够的数据，例如，280个数据数据集Micro-F1AG新闻86.8±1.1 -0.4DBPedia 97.8± 0.4 -0.2IMDB 93.2± 0.9 -0.1亚马逊94.5± 1.1 0.1表4：在10次学习中使用CC的KPT结果。“参数”列显示使用CC的模型与不使用CC的模型之间的差异。5分析在本节中，我们进行了几项消融研究，包括语境化校准的效果和预测标签词的多样性。5.1情境化校准对零杆学习的影响现有方法提出了域条件 PMI （ Holtzman etal. ，2021）（PMIDC）来校准分布，该分布直接测量先验分布。亚马逊IMDbAG新闻DBpedia微型F1方法AGDBpedia亚马逊IMDbLOTClass†82.286.085.380.2PTPT + CC75.1±6.2（79.1）67.4±3.6（71.1）80.5±9.3（88.2）86.4±4.2（92.5）90.6±3.1（93.7）KPT83.0±1.7（85.9）82.5±4.4（87.2）92.5±1.3（94.7）91.5±3.0（94.2）+v：mala2277获取更多论文| ||C|∼| |∈V5PT83.8 ± 3.1（85.7）96.5±0.7（96.8）92.8±2.0（94.6）10 PT 86.3± 1.8（86.5）97.1±0.8（97.5）94.2±1.2（94.6）20PT87.2 ± 1.8（88.4）97.5± 0.4（97.6）94.6±0.9（94.9）93.9±1.0（94.7）KPT87.4±0.9（88.0）98.0±0.2（98.1）95.0 ±0.4（95.3）93.8± 1.4（94.5）表5：少量文本分类的结果。显示了使用四个模板的平均Micro-F1分数和方差。最佳模板的Micro-F1分数显示在括号中请注意，每个实验使用不同的随机种子重复五次。†意味着他们使用的培训资源比我们的设置更多。在给定原始模板的情况下，在[MASK]位置预测的标签词的概率，而不使用语料库中的实例填充模板为了将我们的方法与PMI DC进行比较，并进一步评估需要多少实例才能产生令人满意的校准，我们在图2中绘制了未标记支持集的大小C对测试性能的影响，并绘制了C =0时PMI DC的性能以进行比较。从图2中，我们发现，PMI100足以产生令人满意的校准，并利用这样一个小的未标记的支持端口集产生更好的结果比PMIDC。5.2校准对少拍学习很重要吗虽然校准对于零射击至关重要AG的新闻显示。如图3所示，预测了标签词的多样性，而不是主要的原始类名。所预测的标签词涵盖了相应主题的各个方面。例如，对于POLITICS这一主题，所预测的外交官议会占领外国国防共和国战争政治地区部国际议会国防总统联赛球队足球运动员棒球运动教练田径运动篮球俱乐部球队特许足球运动员我们不为少数人进行校准，0 250 500 750频率0 200 400 600频率因为我们假设标签词的后验概率可以仅用几个训练实例训练到期望的幅度。为了从经验上验证这一假设，我们尝试了一个10杆分类与上下文校准。表4中报告了结果以及有校准和无校准的方法之间的差距，这表明情境化校准在少数情况下几乎没有影响。5.3热门预测词的多样性KPT的一个优点是它可以在不同粒度上生成不同的标签词为了具体量化这种多样性，我们进行了案例研究。对于类y的正确预测的句子，我们计算标签词vy出现在[MASK]位置的前5个预测中的频率然后我们在图3中报告前15个常用标签词。由于篇幅所限，仅列出POLITICS和SPORTS类别图3：出现在前5个预测中的频繁单词两个类的结果：POLITICS（左）和SPORTS（右）。6结论在本文中，我们提出了KPT，它扩展了动词化器在使用外部知识库调优。为了更好地利用知识库，我们提出了知识丰富的动词化的细化方法。实验结果表明，KPT在零拍和少拍两种情况下都有很好的应用前景在今后的工作中，还有一些与我们的研究有关的悬而未决的问题.(1)选择信息标签词的复杂方法。(2)在模板构造和动词化器设计方面，结合知识库和自动调优的更好方法。(3)将外部知识转化为其他任务（如文本生成）的自动调优我们期待着在这个方向上有更多的新作品。枪 MethodAGDBpedia亚马逊IMDbUDA† 86.498.696.088.7FT 37.9 ±10.0KPT85.3±0.9（85.9）95.8 ±1.397.2±0.6（97.4）52.1 ±1.393.3±2.0（94.6）51.4 ±1.492.1±2.4（94.2）92.5±2.4（94.3）FT 75.9 ±8.4KPT87.2±0.9（87.5）93.8 ±2.298.0±0.3（98.1）83.0 ±7.094.4±1.1（94.8）76.2 ±8.792.8±1.2（93.8）93.3±0.7（93.6）+v：mala2277获取更多论文引用Tom B Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是少数成功的学习者。arXiv预印本arXiv：2005.14165。Jindong Chen，Yizhou Hu，Jingping Liu，YanghuaXiao，and Haiyun Jiang. 2019.深度短文本分类与知识驱动的注意力。在AAAI的Proceedings，第33卷，第6252Xiang Chen ， Xin Xie ， Ningyu Zhang ， JiahuanYan，Shumin Deng，Chuanqi Tan，Fei Huang，Luo Si，and Huajun Chen.2021. Adaprompt：基于自适应提示的关系提取微调. arXiv预印本arXiv：2104.07650。乔·戴维森约书亚·费尔德曼和亚历山大·拉什2019.从预训练模型中挖掘常识知识。在EMNLP会议记录中，中国香港。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2019年。Bert：深度双向转换器的语言理解预训练在NAACL的诉讼中。高天宇，亚当·费舍尔，陈丹琪。2020.使预先训练的语言模型更好地用于少数学习者。arXiv预印本arXiv：2012.15723。Jian Guan ， Fei Huang ， Zhihao Zhao ， XiaoyanZhu，and Minlie Huang.2020.常识故事生成的知识增强预训练模型。 Transactions of theAssociation for Computational Linguistics，8：93韩旭，赵伟林，丁宁，刘致远，孙茂松。 2021.Ptr：使用文本分类规则进行提示调优。arXiv预印本arXiv：2105.11259。Ari Holtzman，Peter West，Vered Schwartz，YejinChoi ， and Luke Zettlemoyer.2021. 表面形式竞争：为什么最高概率的答案并不总是正确的。arXiv预印本arXiv：2104.08315。Kamran Kowsari，Kiana Jafari Meimandi，MojtabaHei-darysafa ， Sanjana Mendu ， Laura Barnes ，and Donald Brown.2019.文本分类算法：综述.Information，10（4）：150.ZhenzhongLan ， MingdaChen ， SebastianGoodman，Kevin Gimpel，Piyush Sharma，andRadu Soricut. 2019. Albert：一个用于语言表示的自我监督学习的Lite bert。arXiv预印本arXiv：1909.11942。Jens Lehmann ， Robert Isele ， Max Jakob ， AnjaJentzsch ， DimitrisKontokostas ， PabloNMendes ， SebastianHellmann ， MohamedMorsey，Patrick Van Kleef，Sören Auer，et al.2015.Dbpedia–a large-scale, Semantic Web ， 6（2）：167WeijieLiu，Peng Zhou，Zhe Zhao，Zhiroo Wang，Qi Ju，Haotang Deng，and Ping Wang. 2020. K-bert：使用知识图实现语言表示。在AAAI的Proceedings，第34卷，第2901-2908页。Xiao Liu ， Yanan Zheng ， Zhengxiao Du ， MingDing，Yujie Qian，Zhilin Yang ，and Jie Tang.2021. Gpt 也理解。 arXiv 预印本 arXiv ：2103.10385。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。Andrew Maas，Raymond E Daly，Peter T Pham，Dan Huang，Andrew Y Ng，and Christopher Potts.2011.学习词向量进行情感分析。在ACL的诉讼中。Julian McAuley和Jure Leskovec 2013.隐藏的因素和隐藏的主题：用评论文本理解评级维度。在RecSys的诉讼中。Yu Meng，Yunyi Zhang，Jiaxin Huang，ChenyanXiong ， Heng Ji ， Chao Zhang ， and JiaweiHan.2020.仅使用标签名称的文本分类：语言模型自训练方法。在EMNLP的会议记录中。Tri Nguyen ，Mir Rosenberg ，Xia Song ，JianfengGao，Saurabh Tiwary，Rangan Majumder，andLi Deng. 2016. marco女士：人类生成的机器阅读理解数据集。CoCo@ NeurIPS。TedPedersen ， SiddharthPatwardhan ， JasonMichelizzi ， et al. 2004.Wordnet ：： Similarity-measuring the relatedness of concepts.在AAAI会议录，第4卷，第25Matthew E Peters，Mark Neumann，Mohit Iyyer，Matt Gardner，Christop

下载后可阅读完整内容，剩余1页未读，立即下载