基于噪声通道语言模型的少样本文本分类

89 浏览量更新于2023-11-30 收藏 743KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于噪声通道语言模型的少样本文本分类SewonMin1，，2Mik eLewis，2HannanehHajishirzi1，，3Luk eZettlemoy er1，21华盛顿大学2Facebook AI Research3艾伦人工智能{sewon，hannaneh，lsz}@cs.washington.edumikelewis@fb.com摘要xy =（“一个三小时的电影大师班。”、“太棒了。“）本文提出了一种基于噪声通道的少镜头文本分类语言模型提示方法输入输出fication.信道模型不是计算给定输入的标签的似然性（称为直接模型），而是计算给定输入的标签的一致性概率。”“是的，”他说，“每个人都必须解释。3小时电影大师班信道这是伟大的这是伟大的3小时电影大师班输入中的单词。我们使用通道模型为最近提出的少数拍摄学习方法，没有或非常有限的更新语言模型参数，通过在上下文中的演示或提示调整。我们的实验表明，对于这两种方法，通道模型的性能明显优于其直接对应模型，我们将其归因于其稳定性，即，更低的方差和更高的最坏情况的准确性。我们还提出了广泛的解释，为何时使用通道提示调谐而不是其他竞争模型（例如，直接头部调谐）：当训练样本的数量很小、训练数据中的标签不平衡或者需要对看不见的标签进行一般化1介绍通过将自然语言文本或连续向量（称为提示）前置到输入中来识别大型语言模型，已被证明在少量学习中很有前途（ Brown et al. ，2020）。先前的工作已经提出了用于找到更好的提示的方法（Shin et al. ，2020; Li andLiang，2021; Lester et al. ，2021）或对模型输出进行更好的评分（ Zhao et al. ， 2021;Holtzman等人，2021年）。这些研究直接预测目标标记，以确定最终任务的预测尽管结果令人鼓舞，但它们可能不稳定，在不同的动词（标签的文本表达）和种子之间具有高方差，并且最坏情况下的性能通常接近随机猜测性能（Perezet al. ，2021; Lu et al. ，2021年）。在本文中，我们介绍了替代渠道，提示少镜头文本分类图1：情感分析任务中语言模型提示的直接模型和通道模型的说明。大型语言模型，受到机器翻译中噪声通道模型的启发（Brown et al. ，1993; Koehn et al. ，2003; Yu et al. ，2017; Yee et al. ，2019年）及其扩展到其他任务（Yogatamaet al. ，2017;Lewis and Fan，2018）。与计算给定输入的标签标记的条件概率的直接模型不同，通道模型计算给定输出的输入的条件概率（图1）。直觉上，需要信道模型来解释输入中的每个单词，这可能会在低数据状态下放大训练信号我们研究的语言模型提示的语言模型的参数被冻结的通道模型的影响。特别是，我们比较信道模型与它们的直接对应物（1）演示方法，无论是基于级联（布朗等人）。，2020年）或我们提出的基于集合的（第4.1.3节），以及(2) 快速调谐（Lester et al. ，2021年）。我们在11个文本分类数据集上的实验表明，通道模型的性能大大优于直接模型我们将信道模型的强大性能归因于它们的稳定性：它们具有较低的方差和显着更高的最坏情况下的准确性，然后在不同的动词和种子上直接对应。我们还发现一个直接的模型与头部调整-调整LM头，同时冻结其他参数-是令人惊讶的有效，往往超过-P（y|（x）直接P（x |y）P（y）P（x|年）的LMarXiv：2108.04106v1 [cs.CL] 2021年8月+v：mala2277获取更多论文|我|||我|C{}∈X|X−→CX∈ CP（cNULL）与其他形式的调谐一起形成直接模型。虽然在给定不同条件的情况下优选不同的方法，但是当（1）训练数据不平衡或（2）需要推广到不可见标签时，具有即时调谐的信道模型（表示为信道即时调谐）显著优于所有直接基线总之，我们的贡献有三个方面：1. 我们介绍了一个嘈杂的通道的方法，语言模型提示在少数镜头文本分类，表明他们显着优于他们的直接同行的演示方法和提示调整。2. 我们发现，当训练数据不平衡或需要泛化到看不见的标签时，通道模型的性能比直接模型特别强。3. 基于我们广泛的消融，我们提供不同模型之间的建议（直接与频道和即时调谐与头部调谐），所述头部调谐基于给定条件，例如目标任务、训练数据的大小、类别的数量、训练数据中的标签之间的平衡以及是否需要对未见过的标签进行泛化。2相关工作2.1少数学习之前的少数学习工作使用了不同的方法，包括带有数据增强或一致性训练的半监督学习（Miyato et al. ，2017; Clark等人，2018; Xieetal. ， 2020; Chen 等人， 2020 ）和 Meta 学习（ Finn et al. ， 2017; Huang et al. ， 2018;Bansalet al. ，2020）。最近的工作已经引入了一个大型语言模型的提示（或启动）。例如，Brown et al.（2020）提出使用训练示例的级联作为演示，以便当它被前置到输入并被馈送到模型时，模型返回的输出遵循训练示例中的模式这是特别有吸引力的，因为它消除了更新语言模型的参数的需要，这通常是昂贵的和不切实际的。随后的工作提出了通过更好的模型校准对标签进行评分的替代方法（Zhao et al. ，2021; Holtzman等人，2021年）。其他工作探索学习更好的提示，无论是在一个离散的空间（申等。， 2020; Jiang et al. ， 2020; Gao etal. ，2021）或在连续空间（李和梁，2021;莱斯特等人，2021; Liu et al. ，2021; Zhong et al. ，2021;Qin和Reynner，2021）。几乎所有这些都是直接模型，计算输入与提示的输出的可能性12.2信道模型假设x和y分别是输入和输出，最广泛使用的模型，表示为直接模型，计算P（y x）。相比之下，噪声信道模型使P（x y）P（y）最大化（Shannon，1948; Brown et al. ，1993）。[2]虽然噪声通道方法在机器翻译中是最成功的（ Yamada 和 Knight ， 2001; Koehn 等人，2002）。，2003; Yu et al. ，2017; Yee et al. ，2019年），它也被研究在更一般的NLP任务。先前的工作提供了一种理论分析，即通道模型比它们的直接对应物更快地接近它们的渐近误差（Ng和Jordan，2002），并且经验性地表明，通道模型对文本分类中的分布偏移更鲁棒（Yogatama et al. ，2017年）或问答（刘易斯和范，2018年），并在几个镜头设置（丁和吉姆佩尔，2019年）。在本文中，我们使用大型语言模型在广泛的文本分类任务上探索通道模型，重点是基于小样本的少样本学习。3制剂我们专注于文本分类任务。目标是学习一个任务函数f：，其中是所有自然语言文本的集合，c1... c m是一组标签。我们考虑三种提法。直接计算给定输入x的标签ci的分布：P（ci x）。这是现代神经网络中使用最广泛的方法。Direct++是一个更强的直接模型，它计算P（ci|x）代替P（cx），遵循Holtzman等人的方法。（2021年）和非-Zhao等人（2021）的参数方法。这种方法的动机是这样一个事实，即语言模型可能校准不良，1Holtzman et al.（2021）探索了一种零触发模型，该模型基于逐点互信息计算给定输出的输入概率，但限制输入和输出是可互换的。2我们遵循Yu et al.（2017）; Yee et al.（2019）使用术语直接模型和通道模型。它们在先前的工作中通常被称为判别模型和生成模型（Yogatama et al. ，2017;Lewisand Fan，2018）。原则上，这两个区别并不总是等同的，例如，计算P（x，y）=P（yx）P（x）的模型是生成的而不是信道模型。+v：mala2277获取更多论文j=1j=1j=1j=1j=1j=1j=1P（x）|||||C−→XC{}j=1方法基于零炮的Concat演示直接P（ci|（x）PL M（v（ci））|x）PL M（v（ci）|C（{xj，v（cj）}K（x）PL M（v（ci））|xj，v（cj），x）直接++P（c|（x）PL M（v（ci））|（x）PL M（v（ci））|C（{xj，v（cj）}K）、x）PL M（v（ci））|xj，v（cj），x）我P（ci|空）PL M（v（ci））|空）PL M（v（ci））|C（{xj，v（cj）}K），NULL）j=1PL M（v（ci））|xj，v（cj），NULL）信道P（x|ci）PL M（x|v（ci）） PL M（x|C（{v（cj），xj}K）、v（ci））PL M（x|v（cj），xj，v（ci））表1：比较的零射击，基于concat的示威游行，和基于集合的演示。{（xj，cj）}K是训练数据，v是verbalizer，并且C（{aj，bj}K）是a1，b1，···，a K，b K的级联。具有相同含义的不同字符串之间的竞争该方法用于第4.1节中的演示方法。信道使用贝叶斯规则进行重新参数化P（ci|x）作为P（x|ci）P（ci）。就像我们在-4.1示范方法在演示方法中，没有可训练的参数。我们探索了三种预测方法（表1），其中两种来自Brownet al.（2020），第三种来自本文。关于argmax独立于ci∈CP（xci）P（ci）P（x）且P（x）为4.1.1Zero-shotci，它足以模拟P（x|c i）P（c i）。我们假设P（ci）=1，并且仅我们遵循布朗 et al.（2020年）在电脑方面，计算P（x|ci）。4方法|C|将P（ci x）和P（x ci）分别作为PLM（v（ci）x）和PLM（x v（ci））。例如，给定x =“一个三小时的电影大师班”，直接模型比较“这是伟大的”的概率。和我们使用因果语言模型（LM）PLM探索直接和通道模型，该模型给出了文本y在x之后的条件概率。更准确地说，给定文本x=x1... xtx和y=y1. yty（x1. xtx，y1. yty∈V，其中V是向量集），PL M（y|x）表示当在“It was great”或“It was terrible”之后时4.1.2基于Concat的演示TY3t′= 1PL M（yt′ |x1... xtxy1. yt′−1）。当学习任务函数f：X→−时，C、我们我们遵循布朗的少次学习方法等人（2020年）。关键的想法是预先准备一个还假设预定义的言语化器V：其将每个标签映射到自然语言表达式。例如，如果任务是情感分析，=c+ ， c−，aneexampleinputte xtx是一个例子v将有一个v e v（c+）=“Itw asgreat”和v（c −）=“It was terrible”。在少数镜头设置中，我们还给出了一组 K 个训练示例 D={（x1，c1），···，（x K，c K）}。我们主要对没有可训练参数的方法感兴趣（4.1节），或者可训练参数的数量大致小于总数的0.01%（4.2节）。这与先前工作的动机相同，即为每个任务更新和保存大量参数是昂贵的，并且通常是不可行的（Rebuffi et al. ，2017;Houlsby et al. ，2019; Lester et al. ，2021年）。3在实践中，我们使用Holtzman等人发现有效的长度归一化。（2021年）。+v：mala2277获取更多论文级联的 K训练示例到输入，以便语言模型可以从输入中学习任务设置原始方法用于直接模型，但可以自然地扩展到信道模型。具体地说，P（c i|x）通过PL M（v（ci）|x1，v（c1），···，xK，v（cK），x）和 P（ x|c i）通过PL M （x ）获得 |v（ c1 ）， x1 ， ··· ， v （ cK ）， xK ， v（ci））.4.1.3基于集合的演示我们提出了一种新的方法作为替代的concat为基础的方法，我们发现，更强的直接模式。关键思想是，而不是连接K个训练样本作为一个序列，并从LM获得输出概率一次，我们从LM获得输出概率K次条件下一次一个训练样本，并乘以所得的概率。具体地，P（c i|x）计算+v：mala2277获取更多论文j=1j=1∈∈|∈V|||||∈V∈|Transformer层1Transformer层1Transformer层1Transformer层1头Transformer层L反式嵌入嵌入嵌入嵌入3小时电影大师班(a) 所有微调3小时电影大师班(b) 磁头调谐3小时电影大师班(c) 变换微调3小时电影大师班(d) 快速调谐图2：不同的微调方法，它们计算给定“三小时的电影大师班”的下一个令牌的分布。黄色框表示可训练参数;白色框表示冻结参数。h和V表示LM的隐藏维度和v（c1）.的词汇量。v（c m）。所有微调是一种典型的微调方法，它更新LM的所有参数（作为参考说明）。Head调优、Transformation调优和Prompt调优在第4.2节中描述;所有这些方法更新的参数数量非常有限。通过PakkPL M（v（ci））|xj ，v（cj），x）和P（x|ci）通过RankpLM（x v（c j），x j，v（c i））计算。这种方法还减少了内存消耗-基于concat的方法使用O（K2），而这种方法使用O（K）-并消除了对训练示例顺序的依赖性，已经显示出显著影响模型性能（Zhao et al. ，2021; Lu et al. ，2021年）。4.2整定方法我们探索调整非常有限数量的模型参数的方法，如图2所示。头部调谐（第4.2.1节）和变换调谐（第4.2.2节）适用于直接模型。提示调谐（第4.2.3节）可用于直接和通道模型，为简单起见，我们分别将其称为直接提示调谐和通道提示调谐所有模型在训练和推理期间都与表14.2.1磁头调谐头部调优微调头部-LM中的矩阵，将隐藏表示从最后一个Transformer层转换为logit值。让OR| V| ×h是头部，h×Rh是来自给定x的最后一个Transformer层的隐藏表示，令牌vi的PLM（v i x）经由Softmax（Ohx）的第i个元素计算。我们微调O，同时冻结LM的所有其他参数。虽然O在语言模型预训练期间与LM的嵌入矩阵联系在一起，但我们在微调期间将它们分开。的4.2.2变换微调作为头部调整的替代方案，我们用新的变换矩阵URh×h变换O。具体地，用于令牌vi的PLM（v i x）经由Softmax（OUhx）的第i个元素来计算。我们训练U，从单位矩阵初始化，并冻结包括O在内的其他参数。可训练值的数量为h2。4.2.3快速调谐快速调谐是最近引起广泛关注的方法（Li和Liang，2021; Lester等人，2012）。，2021;Liu et al. ，2021年）。关键的想法是将LM视为黑盒模型，而不是学习连续提示嵌入。我们遵循Lester等人的方法。其中n个提示令牌u1. u n被前置到输入中，而u 1的嵌入.n有学问。换句话说，直接模型计算P（c ix）=PLM（v（c i）u1. .. un，v（c i））。LM中的参数被冻结，除了u1的嵌入...因此可训练值的数量是NH。5实验装置5.1数据集我们报告了11个文本分类数据集的结果，继Zhang et al.（2015）和Gaoet al. （2021）：SST-2（Socher et al. ，2013年），SST-5 （Socher et al. ，2013），MR（Pang和Lee，2005年），CR（胡和刘，2004年），亚马逊（麦考利可训练值的数量为|v（C）|其中v（C）表示v（c1）中的词汇表. v（c m）。44这与先前工作中的头部调谐不同，例如，LeScao和Rush（2021），它微调了PLM，并使用了单独的，随机初始化的头，而不是LM头。[5]这与Gao等人的快速调谐不同。（2021）;Liu et al.（2021），其联合训练提示嵌入和LM的参数。Transformer层L头Transformer层L头Transformer层L头…………+v：mala2277获取更多论文|C|--|我|我P（cNULL）数据集任务|C|SST-2情绪分析（电影）2SST-5情绪分析（电影）5MR情绪分析（电影）2CR情绪分析（电子）2亚马逊情绪分析（Amazon）5Yelp情绪分析（Yelp）5TREC问题分类（答案类型）6AGNews新闻分类（专题）4Yahoo Question分类（主题）10DBPedia本体分类14Subjectivity classification 2表2：用于实验的数据集。表示类的数量。示例见附录A。和Leskovec，2013）、Yelp（Zhang et al. ，2015 ）、 TREC （ Voorhees and Tice ，2000 ）、 AGNews （ Zhanget al. ， 2015 ）、Yahoo （ Zhang et al. ， 2015 ）、 DBPe- dia（ Lehmann et al. ， 2015 ）和 Subj （ Pang 和Lee，2004）。数据集包括每个任务的不同数量的类，从2到14。数据集样本见附录A中的表105.2训练数据对于少量学习，我们主要使用训练集大小K=16，但在消融中探索K=4，16，64，Full我们对K个样本进行均匀采样，并放松了先前工作中每个标签相等数量的训练样本的假设（Gao et al. ，2021; Logan IV等人，2021年），以进行更现实和更具挑战性的评估。我们不使用保留的验证集，而是遵循先前工作中的所有超参数和细节（附录B）。非常有限的数据更好地用于训练而不是验证，并且当验证集非常小时，交叉验证的帮助较小（Perez et al. ，2021年）。5.3语言模型我们使用GPT-2（Radford et al. 2019年，LM？我们主要使用GPT-2大号，但也在消融中试验不同尺寸（小号、中号、大号和超大号）虽然我们只对GPT-2进行了实验，但我们的实验很容易扩展到其他因果语言模型。5.4评价我们使用准确性作为所有数据集的度量标准我们使用4种不同的语言表达器（摘自Gaoet al.（2021）;完整列表见附录A）进行实验，5种不同的随机种子用于采样训练数据，4种不同的随机种子用于训练。这意味着我们有（1）4个运行a零触发设置（因为数据种子和训练种子无关紧要），（2）20次运行用于演示方法（因为训练种子无关紧要），以及（3）80次运行用于调谐方法。然后我们报告平均准确度和最差情况准确度。6我们认为最坏情况下的准确度与平均准确度一样重要，因为少数学习模型的方差很高，如以前的工作所示（Zhao et al. ，2021; Perez等人，2021; Lu et al. ，2021年）。在高风险应用中，最差情况下的准确性可能更受关注（Asri et al. ，2016; Guo et al. ，2017年）。其他实施细节载于附录B。6实验结果本节报告了演示方法（第6.1节）、调谐方法（第6.2节）和消融（第6.3节）的结果。讨论见第7节。6.1主要成果：示范方法表3显示了演示方法的性能。Direct与Direct++Direct++在所有设置上的性能都显著优于朴素直接模型，这表明使用P（ci|x）而不是P（cx）如Holtzman等人所声称的是非常有益的。（2021）; Zhao et al. （2021年）。我们提出的基于集成的方法在直接模型中比基于集成的方法更好，当对所有数据集进行宏观平均时，平均精度和最坏情况下的精度绝对值为7%相比之下，基于集成的方法在信道模型中并不总是更好;它只在具有长输入的数据集上更好。我们推测，当训练数据中的标签不平衡时，基于集合的方法可能会受到影响，如Zhao等人所述，direct++明确考虑到了这一点。（2021年）。直接++ vs.通道在少数情况下，通道模型几乎在所有情况下都优于直接模型在平均准确度和最差情况准确度方面，最强通道模型分别比最强直接模型高出3.1%和7.2%。标准偏差和最佳情况准确度报告见表11和表12。[6]我们还在附录中报告了标准差和最佳情况下的+v：mala2277获取更多论文数据零发射（4次运行）基于Concat（20次运行）基于Ensemble（20次运行）直接直接++信道直接直接++信道直接直接++信道SST-263.0/51.180.3/76.977.1/74.858.9/50.666.8/51.785.0/83.157.5/50.979.7/68.077.5/59.5SST-527.5/24.433.3/28.829.2/27.727.6/23.023.7/14.436.2/32.725.6/23.233.8/23.333.6/30.2先生61.7/50.377.4/73.274.3/69.356.4/50.060.2/50.580.5/76.858.8/50.076.8/60.176.1/60.0CR59.2/50.077.9/69.765.8/60.254.7/50.066.8/50.080.8/74.851.0/50.072.8/54.679.7/69.3亚马逊31.2/22.437.6/35.037.1/31.633.0/21.440.8/35.739.4/34.331.7/23.139.8/32.040.4/36.2Yelp33.2/25.636.8/31.838.0/31.932.6/23.338.5/31.639.8/36.531.4/23.639.2/29.641.5/38.5AG新闻59.8/47.859.9/44.061.8/59.734.0/25.051.2/34.468.5/60.651.9/34.273.1/58.674.3/69.3TREC38.7/26.027.7/12.630.5/19.427.2/9.431.6/13.042.0/26.832.1/13.022.9/9.831.5/23.8雅虎20.7/17.835.3/28.748.7/48.113.0/10.029.6/19.456.2/52.316.6/10.750.6/46.558.6/57.4DBpedia32.3/18.637.6/30.451.4/42.732.5/7.171.1/55.258.5/40.046.8/17.172.6/55.764.8/57.0Subj51.0/49.952.0/48.857.8/51.553.7/49.956.9/50.060.5/40.851.6/49.652.2/41.852.4/46.9Avg.43.5/34.950.5/43.652.0/47.038.5/29.148.8/36.958.9/50.841.4/31.455.8/43.657.3/49.8表3：示范方法的结果。所有与GPT-2大。两个数字分别表示不同的言语化器（零炮和少炮）和数据种子（少炮）的平均和最坏情况下的准确度平均值最后一行中的平均值表示所有数据集的宏观平均值。五月。它们表明通道模型的强性能direct ++在大多数数据集上实现了最高的最佳情况准确度，但它具有更高的方差，具有比通道模型更低的平均和最差情况直接模型的性能有时会在少数拍摄设置中下降，这也是先前工作所观察到的（Zhao etal. ，2021年）。这可能是因为训练数据提供的演示可能会导致模型被错误校准，并且很容易因演示的选择而产生偏差然而，信道模型在所有数据集上实现了比零激发方法更好的少激发性能。6.2主要结果：调整方法表4显示了调优方法的性能当使用即时调整时，通道模型在所有数据集上的表现都大大优于直接模型平均和最差情况下的准确度分别提高了13.3%和23.5%标准差和最佳情况准确度报告见附录中的表13。与第6.1节中的结果一致，通道即时调谐的强性能可以通过通道即时调谐的低方差来直接快速调谐通常可以实现更高的最佳情况精度;然而，由于其高变化性，其总体精度较低，大大降低了最坏情况下的准确性。我们发现头部调音是一种非常强大的方法，尽管经常数据头直接反式提示信道提示SST-280.2/68.6 77.3/57.5 72.6/50.9 85.8/81.3SST-534.9/30.0 33.0/25.5 30.9/19.1 36.3/27.9先生73.7/56.4 71.3/51.6 67.4/50.1 81.7/78.0CR67.6/50.0 63.9/50.0 65.7/50.0 79.6/76.4亚马逊34.5/28.8 32.1/18.2 31.2/20.0 43.4/39.2Yelp40.6/32.8 38.9/31.5 31.9/20.6 43.9/37.2TREC54.1/42.4 48.0/31.0 35.9/13.0 37.1/20.8AG新闻74.1/61.2 66.9/47.0 61.9/25.2 73.4/63.9雅虎39.1/31.4 33.8/23.0 27.4/15.7 54.0/46.7DBpedia49.3/37.5 42.4/28.641.8/9.967.7/52.9Subj86.3/79.1 86.0/71.6 65.5/49.9 75.5/58.8Avg.57.7/47.1 54.0/39.6 48.4/29.5 61.7/53.0表4：具有有限数量的可训练参数的调谐方法的性能。所有方法均使用GPT- 2 Large，并运行80次。Head、Trans、Prompt分别表示头调谐、变换调谐和提示调谐我们报告平均/最差情况下的平均值是所有数据集的宏观平均值。在先前的工作中被省略作为基线在所有情况下，它都明显优于直接提示调整它在某些数据集上的性能也优于通道提示调优对于这些数据集，任务-找到问题答案的类型或识别语句的主观性-本质上不同于语言建模，并且可能受益于直接更新LM参数，而不是将LM用作黑盒。尽管如此，在大多数数据集上，通道提示调谐优于直接头部调谐。最大的收益来自Yahoo和DBPedia。事实上，在这些数据集上，频道提示调谐甚至超过了-+v：mala2277获取更多论文显示标签显示提示生成提示显示标签显示提示生成提示|C|≤SST-2MR TRECAG新闻S M LXLS M LXLS M LXLS M L XLDis标签Dis提示生成提示DisLabDelireDtiHsPeroamdptG enPrDiptectPr omDpistLabe lDiCsPhroamnptelPGroenmPprotmt tDis标签Dis提示Gen提示图3：将LM的大小从GPT-2小号更改为GPT-2超大号。报告了平均准确度（顶部）和最差情况准确度（底部）所有模型运行20次（4个语言化器和5个数据种子）。Head和Prompt分别表示头部调谐和提示调谐不同尺寸LM的趋势一致100SST-2先生100100TREC100AG新闻60 604 16 64已满204 16 64已满554 16 64已满4 16 64已满直接全部直接头部直接提示通道提示直接++恶魔通道恶魔图4：改变训练样本的数量（K）。所有型号均使用GPT-2 Large。All、Head和Prompt分别表示微调LM的所有参数、头调整和提示调整。 Direct++ Demon和Channel Demon表示基于演示的方法（采用基于concat和基于集成的最佳方法）。模型对于K=full运行4次（4个语言化器），对于其他（4个语言化器和5个数据种子）运行20次通道模型在较小的K下更具竞争力;在较大的K下竞争力较低。形成了所有的微调-微调LM的所有参数-在Yahoo 上达到 48.9/43.8 ，在 DBPedia 上达到66.3/50.4。我们推测，在这些数据集上使用K=16自然需要泛化到不可见的标签，因为类的数量很大（=10和14），其中通道提示调整明显优于直接模型，如第6.4节所示。演示（第 6.1 节）与 Tuning Lo-gan IV 等人（2021）声称，即时调整并没有优于演示方法，我们发现这在直接模型中是正确的。当使用信道模型时，即时调谐比演示方法平均高出3%。6.3消融对于消融，我们报告了SST- 2，MR，TREC和AGNews上的实验，使用一个训练种子（而不是四个），四个动词和五个数据种子（如主实验）。改变LM的大小我们改变LM的大小，并在图3中报告平均和最差情况下的准确度。趋势-无论最好的性能是通过通道即时调谐或直接磁头调谐来实现的--在不同尺寸的LM上是相当改变训练样本的数量我们改变训练样本的数量（K），并在图4中报告平均准确率。随着K的增加，所有虽然我们确认强性能的通道提示调谐与K16，头部调谐优于通道头部调谐时，K=64。当K=满时，直接提示调谐和磁头调谐-执行通道提示调谐。我们认为这是因为（1）当K较小时，通道模型（Lewis和Fan，2018）放大的训练信号更显著，（2）当训练数据上的标签不平衡（在下一次消融中确认）时，通道模型更有益，这在K较大时不太可能发生。同样值得注意的是，我们对K=Full的实验证实了Lester等人的发现。（2021）直接提示调整匹配所有微调的性能-微调LM的所有参数-同时是更多的参数-90906080409050901060308040501030平均准确度（%）最差情况平均准确度（%）准确度（%）+v：mala2277获取更多论文--C{}|{∈D|}||D|--|联系我们|数据零拍微调直接直接直接直接信道表5：当测试时至少有一个标签在训练期间不可见时的模型性能。所有模型运行20次（4个语言化器和5个数据种子）。All、Head、Trans和Prompt分别表示微调LM的所有参数、Head调谐、变换调谐和提示调谐。我们报告平均和最坏情况下的准确度，用斜线分开。90K=16 K=6470500.125 0.25 0.375 0.5 0.125 0.25 0.375 0.5对对直接所有直接头直接提示通道提示无上采样上采样图5：标签不平衡的影响。当K=16（左）或64（右）时，不同方法在SST-2和MR上的平均准确度，其中训练数据上的阴性标记比率不同（记为p-随着p-的增加，数据更加平衡。信道模型对不平衡的训练数据更鲁棒。高效.这仅适用于K=Full;在少数镜头设置中，所有微调都明显优于其他方法。这与传统的分析相矛盾，即当训练数据稀缺时，具有较少的可训练参数更好（Ng和Jordan，2002）。这可能是因为这种分析没有考虑到语言模型的预训练，它为模型提供了监督，但不是最终任务的训练数据。标签不平衡的影响在二进制数据集（SST-2和MR）上，我们改变训练数据中的标签不平衡，K=16，64。具体来说，让=c+ ，c−和p−=（x，c）c=c-/，即，训练数据中负标记的比率。我们将p−变为0，0。125，0。250，0。375，0。五、p−=0。5意味着标签是完全平衡的，p−= 0意味着训练数据中的标签只包含c+。We此外，与上采样基线进行比较，在上采样基线中，我们使用不一致的标签对训练示例进行上采样，以便模型具有相等的训练期间每个标签的示例数结果报告于图5中。所有直接模型都对训练数据中的不平衡很敏感，即使它们在p−很小时受益于上采样。通道快速调谐对不平衡不敏感，当p −较小时，其性能明显优于直接模型;当p − 0时，其性能甚至优于所有微调<。二十五当p−接近0.5时，直接头部调谐匹配或优于通道提示调谐。还值得注意的是，当p−较小时，直接快速调谐与上采样匹配或优于所有微调和磁头调谐。6.4泛化到不可见标签我们尝试了一个具有挑战性的场景，其中模型必须泛化到不可见的标签。虽然这可能被视为一种极端的情况，但这通常是一种实际的设置，例如，该问题用一组标签来定义，但随后可能需要添加新在第一个实验中，我们像主实验一样采样K=16个这意味着在测试时至少有一个标签在训练期间不可见，即，c1... c K>0 。表 5报告了结果。所有的直接模型都无法预测在训练时看不到的标签。但是，通道提示调谐成功预测看不见的标签，并实现比zero-shot更好的性能。它在双向分类数据集上的性能优于所有微调，并且在五个数据集上的性能优于头部调优，除了TREC，头部调优在所看到的标签上实现了非常强大的性能。在下一个实验中，我们运行零次迁移学习，其中模型在一个数据集上进行训练，并在另一个数据集上进行测试这里，头部调音准确度（%）直接++通道所有头反式提示提示SST-277.1/74.850.2/49.150.2/49.150.2/49.150.2/49.185.5/82.5SST-533.3/28.8 29.2/27.740.1/34.834.3/28.032.6/24.530.0/18.137.5/32.6先生74.3/69.350.0/50.050.0/50.050.0/50.050.0/50.080.9/74.8CR77.9/69.7 65.8/60.250.0/50.050.0/50.050.0/50.050.0/50.080.9/74.8TREC27.7/12.6 30.5/19.450.8/31.044.8/29.644.6/32.833.9/17.434.3/26.0Subj52.0/48.8 57.8/51.550.0/50.050.0/50.050.0/50.050.0/50.066.6/57.6+v：mala2277获取更多论文|C||C|40测试数据：SST-541测试数据：亚马逊40测试数据：Yelp35测试数据：TREC20SST-2 MR30SST-2 MR30SST-2 MR20AGNews Yahoo70测试数据：AGNews70测试数据：Subj35SST-2MRTRECSubj雅虎DBPedia35SST-2 MR TREC AGNews Yahoo DBPedia直接全部直接头部直接提示通道提示零拍直接++零拍通道图6：转换为不可见数据时的模型性能，其中x轴表示训练数据。当标签空间不共享时（当测试数据集为TREC、AGNews和Subj时），Direct Head不适用。信道模型比直接模型具有更好的泛化能力。当标签在两个数据集之间不共享时不适用。图6显示了结果。通道提示调谐优于所有直接模式，包括所有微调的所有数据集，除了TREC。当任务本质上相似时，它特别具有竞争力，例如，前三个图中的双向情绪分析和五向情绪分析事实上，在这种情况下，它们的性能接近于在域内数据上训练的模型：36.3、43.4和43.9而SST-5、亚马逊和Yelp上分别为38.0、40.2和39.5。当任务本质上不同时，例如，从图6中的其余图来看，零触发性能的增益相对较小;我们认为应该做更多的工作来使跨任务转移更具竞争力，并发现何时可能。该实验与Lester等人（2021）中的消融相关，该消融表明，在全拍摄设置中，当对域外数据进行测试时，即时调谐具有很强的泛化能力。然而，与他们的研究结果不同，在我们的实验中，直接快速调谐比零拍摄我们认为这是因为（1）我们使用小K，其中直接提示调整总体上竞争力较低，（2）我们的设置更具挑战性，因为它需要泛化到看不见的标签，与Lester等人（2021）的设置相反，其中训练和测试数据本质上是相同的任务，但来自不同的分布。7结论在这项工作中，我们引入了一种通过语言模型提示进行少量文本分类的噪声通道方法，其中我们要么提供语言模型的演示，要么调整提示嵌入在连续空间中。我们在11个文本分类数据集

下载后可阅读完整内容，剩余1页未读，立即下载