MixandMatch：基于能量语言模型的可控文本生成新方法

118 浏览量更新于2023-11-30 收藏 758KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文Mix and Match：基于能量语言模型Fatemehsadat Mireshghallah1，Kartik Goyal2，Taylor Berg-Kirkpatrick11加州大学圣地亚哥分校，2芝加哥丰田技术学院（TTIC）[fatemeh，tberg]@ucsd.edu，kartikgo@ttic.edu摘要最近的工作控制文本生成要么需要基于属性的微调的基础语言模型（LM），或限制了参数化的属性，以兼容的基础自回归LM。在这项工作中，我们提出了Mix andMatch LM，这是一种用于可控文本生成的基于全局分数的替代方案，它结合了任意预训练的黑盒模型，用于在生成的文本中实现所需的属性，而不涉及任何关于黑盒模型的微调或我们将可控生成的任务解释为从基于能量的模型中抽取样本，该模型的能量值是来自黑盒模型的分数的线性组合，黑盒模型分别负责流畅性、控制属性和对任何条件情境的忠诚度。我们使用Metropolis-Hastings采样方案，使用双向上下文和全局属性特征从基于能量的模型中进行采样我们验证了我们的方法在各种受控生成和基于风格的文本修订任务上的有效性，这些任务优于最近提出的方法，这些方法涉及额外的训练，微调或对模型形式的限制性假设1介绍虽然在互联网上发现的大量数据上训练的大型基于transformer的自回归语言模型表现出生成自然语言文本的卓越能力，但用于生成满足全局约束并具有整体期望属性的文本的有效方法仍然是一个活跃的研究领域这些控制语言生成的机制有可能减轻大型语言模型编码的不良偏见，并防止仇恨言论和有毒语言的生成（Xu et al. ;Gehmanet al. ，2020; Sap et al. ，2021; Baheti et al. ， 2021;Mireshghallah andBerg-Kirkpatrick，2021）. 许多以前的工作已经接近控制gener-通过训练域条件神经语言模型（Prabhumoye etal. ， 2020; Heet al. ， 2020; Lample et al. ，2018; Shen et al. ，2017; Krishna et al. ，2020;Reif 等人， 2021; Ficler andGoldberg ， 2017;Khalifa et al. ，2021）或微调/修改底层的大型预训练基础模型以用于属性敏感生成的域特定数据的生成（Ziegler et al. ，2019; Keskar etal. ， 2019; Mai et al. ， 2020; Gururangan 等人，2020; Chronopoulou et al. ，2021年）。这些方法不仅涉及与语言模型的训练相关联的计算开销和估计误差，而且它们还依赖于对大量属性特定语言数据的访问，这在许多场景中可能是不切实际的并且加剧了隐私问题（Brown etal. ，2022; Mireshghallah等人，2021; Kandpalet al. ，2022）。我们的方法避开了训练，专注于从预先训练的模块生成时间控制。最近在这一领域的工作已经使用了属性判别器（Dathathri et al. ，2020; Krause et al. ， 2020; Yang and Klein ，2021; Holtzman et al. ，2018年），以引导一代从一个大的自回归语言模型。这些鉴别器需要在部分世代上单独训练，以便使用逐步自回归模型进行操作因此，这种方法还需要数据的可用性来训练本质上是全局的（在序列级）属性的逐步因此，我们专注于从预先训练的黑盒专家的测试时间组合中提取样本，每个专家都对输出文本的期望属性进行具体来说，我们将这些黑箱专家的产品视为概率能量模型（Hinton，2002）一个非自回归的、全局归一化的语言模型，然后使用具有Metropolis-Hastings校正步骤的特定Gibbs采样器进行采样（无需进一步训练或微调）（Goyalet al. ，2021年）。arXiv：2203.13299v1[cs.CL]2022年3月+v：mala2277获取更多论文传销提案E1（X）E2（X）E3（X）exp（−∑iEi（X））Z能源LM迭代i：蛋糕是传销（BERT）作为吉布斯采样器上一篇：蛋糕是MHE4（X）吉布斯采样器，metropolis-Hastings校正依据能源LM校正E5（X）Metropolis-Hastings校正接受/拒绝迭代i+1：蛋糕图1：Mix and Match LM概述。乐高作品展示了不同的专家，可以用来形成能量LM，并帮助控制生成的文本中的不同特征右侧显示了吉布斯采样链中的第i步，其中MLM提出建议，然后基于能量分数接受/拒绝我们的完整框架，我们命名为 Mix andMatch LM（如图1所示），通过混合和匹配黑盒模型（如现成的预训练属性敏感判别器（例如，情感分类器），大型双向预训练语言模型，如BERT（Devlinet al. ，2019年），以及其他专门用于捕获与任何附加上下文的忠实性有关的期望特征的模块，如汉明距离或伯特分数距离（Zhang et al. ，2020）之间的样本和调节上下文。我们使用最近提出的吉布斯-大都会-黑斯廷斯方案（Goyal et al. ，2021），用于使用掩蔽语言模型作为建议分布从能量模型在这个方案中，一个像BERT这样的表达性双向语言模型被用来在吉布斯链中的每个转换步骤提出一个建议，从当前序列x跳到序列x′。这个建议虽然与使用祖先采样的自回归方法相比，我们的采样器的MCMC性质对解码过程中的运行时间产生了负面影响，但我们发现我们的方法仍然是实用的，并且可以产生高质量的多样化样本，这些样本尊重专家黑盒模型产品引起的分布我们通过执行各种受控生成任务，如基于方面的文本修订，样式转换和属性接地生成和比较，展示了我们的方法的灵活性它与最近提出的控制发电资源/数据更加密集的方法。我们观察到，我们的方法，它不需要任何梯度优化，并能够结合任意异构的黑盒模型，优于其他方法，根据各种自动化的流畅性，质量和控制指标，以及人类的评价。我们在这个GitHub存储库中提供了代码、数据和示例生成： https ：//github。com/mireshghallah/mixmatch（有关复制结果的详细信息，请参见A.12相关工作与我们的工作精神最接近的方法涉及从具有外部属性敏感控制机制的基本语言模型转向生成。即插即用LM（Dathathri et al. ，2020）使用从自回归LM的顶级隐藏层学习的鉴别器GeDi（Krause et al. ，2020）和FUDGE（Yang和Klein，2021）采用类似的方法，但是训练定制逐步属性敏感鉴别器，其决定当前生成路径是否可能满足期望的属性。GeDi为这些判别器训练类条件语言模型，因此还依赖于对属性敏感语言数据的访问。Kumar等人（2021）将受控生成的任务公式化为通过在词汇表上的位置方面的单形上的梯度下降来优化受到基于全局可微属性的约束的基本LMD专家（Liu etal. ，2021）是另一种解码时间可控生成方法，其用softmax log-i来修改自回归预训练LM的逐步softmax logit。BertScore汉明距离BLEURT属性鉴别器机构评分新鲜的变味了。新鲜的+v：mala2277获取更多论文X·∝- -Σi=1X独立训练的特定领域专家自回归语言模型。这些方法需要定制模块的训练，并且不容易享受以简单的概率方式将基于全局属性的特征并入生成机制的益处相比之下，我们的基于能量的公式不仅是无优化的，而且是完全模块化的，并且能够容易地结合全局特征，允许异构的黑盒专家彼此组合3混合匹配语言模型在本节中，我们将描述我们的方法和方法背后的具体而言，我们将执行受控发电的问题框定为从专门的基于能量（或全局归一化）的序列模型采样的问题，该序列模型定义了满足我们希望在受控发电设置中施加的期望约束的概率分布如下所述，该基于能量的模型由预先训练的组件组成基于能量的序列模型定义了可能序列空间上的概率分布1e−E（X;θ）积极的情绪。如果我们可以访问两个单独的概率分布，一个用于建模良好性（p1（X）），另一个用于建模积极性（p2（X）），那么在这种情况下，受控生成的自然解决方案将是从概率分布中抽取样本，该概率分布是这两个分布的乘积，即pdesire（X）p1（X）p2（X）。在我们的方法中，我们进一步放宽了这一要求，假设访问专家黑盒，产生标量非概率能量分数E1和E2表明一个序列w.r.t. well-formedness 格式 and positivity 积极either分别.在上述专家框架的乘积下，期望的概率分布将采取以下形式：（E1（X）+E2（X））对数Z该表达式表明，当使用专家黑盒的标量分数时，专家模型的乘积产生能量模型，该能量模型的能量仅仅是从专家模型获得的标量能量值的总和。受此启发，我们提出了一个框架，涉及各种黑盒专家的线性组合，以获得一个分布，其样本满足所需的控制生成的要求，X为： p（X;θ）=X′∈X e−E（X′;θ），其中E（X;θ）受控生成任务：EM M（X）=kαiEi（X），是指序列X的标量能量，用θ表示。较低的能量对应于较高的X的可能性。与常见的自回归序列模型相比，这些模型的精确似然计算和有效采样具有挑战性。尽管有这些挑战，我们专注于这种模式的序列建模，因为基于能量的模型提供了更大的灵活性，通过序列级的功能和约束。正如我们接下来讨论的，这种能力让我们很容易定义表达函数，用于控制序列的生成，这是自回归建模范式不容易提供的3.1专家乘积能量模型与可控发电我们的方法是出于这样一种观点，即受控生成的任务需要在满足与流畅性、目标属性和其他控制变量有关的各种约束的序列的小子空间上集中概率质量。考虑生成积极情感句子的任务。这需要满足两个主要的约束：（1）序列X应该是良构的，（2）序列X应该表示[1]为了简单起见，我们考虑的是一个有限的序列集，该序列集受到某个最大长度的限制我们提出的混合搭配能量是由k个专家能量分量构成，这些专家能量分量由标量超参数α加权。3.2混合搭配LM中的专家因素如图 1，我们在实验中使用以下黑盒专家作为模块，我们可以添加或删除它们以产生所需的行为：Emlm（X）：最近的研究表明，像BERT这样的掩码语言模型（MLM）可以区分格式良好和格式不良的句子（Zhang etal. ，2020）并在序列上诱导隐式能量函数（Goyal et al. ，2021年）。因此，我们使用BERT基作为一个黑盒来建模句子的形式和流畅性具体而言，我们使用的能量参数化Goyal等人。在步骤（2021）中，其是在掩蔽对应位置之后在经由MLM的前向传递获得的每个位置处迭代计算的未归一化对数的和的负值。Edisc（X）：这个特定的专家模块指的是通过对感兴趣的属性进行分类获得的能量这个模块返回的是目标属性的原始logit。例如，如果我们有一个情感分类器，并希望产生积极的情感，那么Edisc（X）=−logp（+|X）。+v：mala2277获取更多论文Ehamm（X;XJ）：对于给定的序列XJ，这个量是指序列X和XJ之间的汉明距离。这惩罚了来自XJ的令牌级别的去重，如果我们只对XJ进行较小的编辑感兴趣，这将很有用，如稍后所述Efuzzy（X;XJ）：类似于汉明距离，这个量指的是BertScore（Zhang et al. ，2020），其可以可以看作是模糊汉明距离，语义相似度。3.3采样方案为了从上一节中描述的能量参数化中进行采样，我们遵循Metropolis-Hastings（Hastings，1970）MCMC方案，从Goyal等人引入的掩蔽语言模型中进行采样。（2021年）。虽然我们使用的建议分布与Goyal等人相同。（二零二一年），即掩码语言模型我们简要地解释了采样过程，它涉及到形成长马尔可夫链的序列从一个随机序列开始，并遵循MH计划，该计划使用一个建议分布提出一个新的序列在链的每一步，这是接受或拒绝的基础上，其健身的能量函数。这些链末端的序列对应于来自期望的基于能量的模型的样本。在操作上，在每个MCMC步骤中，我们在chain中的当前序列X中的随机位置处屏蔽出令牌，并通过在屏蔽位置处从 MLM 条件softmax中采样令牌来提出要过渡到的新序列X'这个建议的序列是通过其减少链中当前序列的能量的能力来评估的，并且以概率被接受句子生成：这个任务的重点是生成以指定的提示语开始的格式良好的句子，并且还满足我们可以访问的目标属性。一个示例任务是生成从This movie开始的积极情感序列。能量函数的形式为Egen（X）=Emlm（X）+α Edisc（X）（1）α是一个超参数，它控制MLM评分和风险影响之间的权衡对于此任务的基于MH的采样，我们使用开始提示符初始化序列，并屏蔽其余标记，这将创建形状为电影[MASK][MASK]的种子文本。[MASK]，用于电影的提示示例。掩码令牌的数量取决于目标生成长度，我们限制采样器只产生建议和修改非提示令牌，并将提示令牌标记为受控文本修订：该任务涉及编辑源序列XJ，以便满足所生成的序列X所展示的期望目标属性。该任务的能量函数为：Erev（X）=Egen（X）+β Ehamm（X，X ′）+γEfuzzy（X，X ′）（二更）该能量函数除了评估格式良好性和满足目标属性要求之外，还关注于保持对源序列Xj的忠实性。为了使用该能量进行采样，我们使用要编辑的序列X J来初始化序列这将目标序列的长度设置为与源序列相同在此设置中，采样器可以修改所有令牌，并且不受约束。对于这两个任务，我们运行单独的MCMCyp（X<$;X）=min.1，e−EMM（X<$）p传销（X i）|X i）。链为每个生成的句子为8至15时间，取决于任务。一个时代指的是e−EM&M（X）pml m（X<$i|X i）EM &M （X）是指专家能量的乘积，i是指选择用于掩蔽的位置，pmlm是指MLM在[MASK]位置处的条件分布。直观地说，这个接受概率表明，如果提议的序列X′比链中的当前序列X具有更低的能量，并且很少或不太可能被提议分布再次提议，则提议的序列X ′更可接受。3.4受控生成任务我们使用的专家黑箱因素和采样方案在我们的框架中进行两种控制生成任务。在序列的所有非冻结位置（随机选择）上进行一个掩蔽循环4实验装置我们在附录B部分提供了完整的实验细节，在这里我们简要概述了实验中使用的任务，数据集，基线和指标。4.1任务和数据集可控去偏（ROC故事语料库）：我们使用ROC 故事语料库的子集（ Mostafazadeh etal. ， 2016 ）测试集，该测试集由PowerTransformer使用（Ma et al. #20200;为他们+v：mala2277获取更多论文评价。我们使用这些数据进行可控的debi-asing，文本修订任务，旨在纠正隐性的和潜在的不良机构的偏见，在人物刻画，取代动词，如“情感转移（Yelp）：我们使用Yelp（Shenetal. ，2017）数据集的用于发送传输任务的测试集。测试集包含1000个句子，一半是积极的，一半是消极的。我们也有一个参考集的手写senti-ment转移句子，提供（He et al. ，2020年），我们用于报告评估指标。形式转换（ GYAFC ）：我们使用 GYAFC（Rao和Tehrult，2018）数据集的娱乐和音乐领域子集中的1051个句子，其中包含正式和非正式句子，用于形式转换任务（正式到非正式和非正式到正式的方向）。提示生成：我们在两种形式的提示生成上评估我们的方法：1）情感控制生成和2）主题控制生成。对于情绪控制的生成，我们设置Mixand Match LM以生成具有积极或消极情绪的文本，给出提示，通过使用Yelp情绪分类器作为模板并与PPLM进行比较（Dathathri et al. ，2020），这是一种流行的情感控制生成方法。对于主题控制生成，我们与FUDGE（Yang和Klein，2021）进行比较，并遵循他们的实验设置，包括7个不同的主题和20个提示。4.2专家组件我们使用Huggingface预训练的bert-base-uncased模型作为我们的MLM，用于产生Emlm，并在我们的MH MCMC采样器中提供建议分布为了获得E盘，我们在我们的数据集的训练集上训练基于BERT的分类器作为我们的属性判别器。我们可以使用Huggingface的任何预先训练的属性分类器用于E盘，但我们将其保留下来用作外部属性分类器，以针对基线进行公平评估。对于我们添加BertScore的实验（Zhang et al. ，2020年）分量的能量，我们使用预训练的roberta-large_L17模型。最后，对于代理分数，我们使用由（Sapet al. ，2017年），并检查每个生成的序列，并计算存在的目标机构动词的数量。计数就变成了代理商的分数。4.3基线电力变压器。对于可控去偏置（机构修订）的任务，我们将我们的工作与PowerTransformer（Ma et al. ，2020），一种基于重建损失使用释义和自我监督的方法，建立在预先训练的语言模型上，以重写文本并控制句子的代理级别He等人对于情感形式上的风格转换，我们与He等进行了比较. （2020），一个生成式风格转换框架，使用使用基于序列到序列LSTM的模型构建的变分自动编码器（VAE）来进行无监督的样式传输。这个框架需要为每个风格转换任务从头开始训练联合国布隆迪办事处。作为风格转换的第二个基线，我们使用UNMT（Lample et al. ，2018年），一个无监督的机器翻译框架，展示了情感转移的高性能。PPLM。对于情感控制生成的任务，我们比较即插即用 LM （ PPLM ） Dathathri 等人。（2020），其使用来自在生成器的最后隐藏层表示上训练的鉴别器的梯度流来进行属性受控生成，以指导生成。该死。这种方法（Yang和Klein，2021）在GPT-2的部分生成上训练逐步判别器，以确定与所需属性相关的约束是否会通过序列的未来完成来满足。我们与此主题控制生成的比较，因为这种方法被证明是优于PPLM在这项任务上。4.4评估指标我们使用各种评估指标来比较我们的方法在两个(1)生成文本的质量，以及（2）成功匹配用于控制的目标属性4.4.1文本质量与语义相似度GPT-2 PPL。我们把生成的测试句子喂给Huggingface（Radford et al. ，2019）预训练的GPT-2xl模型，并报告其困惑度（PPL），作为流畅性的自动测量。尽管这种测量并不是流利性的完美指标，但我们发现它是人类判断的一个有用的指标。2蓝色。对于情感（Yelp）和正式（GYAFC）传输，我们有参考文本，我们2由于GPT-2在句子间产生的PPL分数差异很大，我们报告了每个系统的中位数分数。+v：mala2277获取更多论文报告BLEU评分。对于受控的去偏置，我们报告生成的文本和源之间的BLEU，并将其显示为BLEU（src）。伯特分数。作为意义保留的一种度量，我们使用F1 BertScore度量（Zhang et al. ，2020）以将所提供的参考句子的语义相似性与所生成的输出进行比较。汉明距离我们还报告了源文本和生成文本之间的汉明距离，以衡量变化的程度。4.4.2属性质量内部分类器精度。假设目标属性是正确的标签，我们在生成的文本上报告内部分类器（用于生成的分类器这个精度越高越好。外部分类器精度。在内部分类器上获得高精度是很自然的，因为我们正在从中采样。为了进行公平的比较，我们报告了使用Huggingface（textattack/bert-base-uncased-yelp-polarity（Morriset al. ，2020）用于情感和共整合/roberta-base-formality用于正式）。机构词汇准确性。对于受控的去偏置，我们衡量的准确性，在机构的变化，通过比较目标机构水平与生成的文本，提取使用的内涵框架词典，并按照马等人的设置。（2020年）。5结果5.1可控去偏置表1和表2显示了我们为控制机构偏见而进行文本修订的任务的结果，该任务由PowerTransformerMa等人在2020年引入，这是我们这项任务的基线。PowerTransformer有一个vanilla（无boost）变体和一个vocab boosting变体，它对属于目标代理词典的动词的logit进行加权，以增加它们的概率并激励该方向的生成我们还在原始测试集上测量我们的指标，而不进行修改，以更好地了解所做的更改我们提供了我们框架的不同变体，以提供公平的比较并更好地消除我们提出的方法。“Disc” denotes our framework where we add thediscriminator expert (（方程式2）。计算生成的建议和源句子之间的汉明距离。“&代理分数”变体为E M M而不是E disc添加了一个替代术语，其是根据内涵框架词典的目标代理动词的数量（Sap et al. 2017年）在句子中。“光盘+机构”的变种有两个能源组件。我们还以两种方式应用我们的方法：在此设置中，所有令牌保持冻结，除了给定的动词。然而，常规模式（M M LM）针对句子中的所有标记提出修改，并且不受约束。表2显示，在传统设置中，Mix and MatchLM（仅限光盘）的性能与PowerTransformer相似，但没有升压。使用代理评分组件，我们的方法在根据代理词典准确性度量的修订准确性方面优于PowerTransformer在应用目标机构准确性方面，这种更好的表现背后的原因是，我们的方法到尝试通过释义和代理（如PowerTransformer 方法中使用的 vocabboosting）另一个重要的观察是“动词替换”和常规模式之间这种消融表明，虽然我们的方法做了一些改变（源和输出句子之间的平均汉明距离在1。37和2。45），它仍然优于一个5.2风格迁移在这一节中，我们实验了情感和正式转移，其中情感转移需要较少的变化和正式转移需要更多的结构变化到原来的句子。我们在表1中显示了示例句子和转移（由于数据集不是公共的，我们无法正式显示示例）。5.2.1情感转移对于这个任务，我们在能量模型中包括两个组件，一个是用于诱导目标风格的属性Edisc，另一个是用于保持句子含义的汉明距离Ehamm+v：mala2277获取更多论文表1：使用Mix Match LM的原始和风格转换的例句。情绪显示情绪转移的任务，从消极到积极和积极到消极，在Yelp上。代理显示了可控的代理去偏任务（Ma et al. ，2020）。在这些例子中，我们将消极的因素转化为积极的因素。原食物还可以，服务是我遇到的最差的食物很棒，服务也是我见过的最好的我们不会再使用这个地方了。我们肯定会再次寻找这个位置。良好的零件和配件的选择和合理的价格。零件和配件选择不佳，价格高。这是一个很酷的地方，有很多东西可以看和尝试。这是一个愚蠢的地方，没有什么可看和可尝试的。玛丽需要新鞋。玛丽买了新鞋。她尽了最大的努力按照指示去做。她尽了最大努力执行了指令。帕姆想为她儿子的生日准备一个特别的蛋糕帕姆决定为她儿子的生日准备一个特别的蛋糕惠特尼的考试会不及格的。whitney准备去考试了表2：ROC故事语料库上的可控去偏置/句子代理修改。指标旁边的（src）表示相对于源文本的测量。内部分类是能量中使用的能量的准确性。哈姆这是Hamming距离。代理账户是基于机构词汇的机构修订的准确性（第B.4.1节）。方法BLEU（src）GPT-2BertScore（src）哈姆（src）内部分类代理账户源文本100.00153.9 1.00 0.00 7.47PowerTransformer（无升压）60.30210.80.941.11 64.8469.17PowerTransformer（+Boost）57.46247.20.951.2877.23M M LM Verb Replace（Disc）60.53 238.7 0.95 1.04 81.05 70.80M M LM动词替换（机构得分）63.34 193.3 0.96 0.89 32.42 64.75M M LM动词替换（Disc+Agency得分）54.52 248.8 0.95 1.05 77.23 77.27M M LM（Hamming +Disc）56.26 211.20.951.37 96.5269.00M M LM（Hamming+Agency评分）35.26 231.6 0.95 1.56 23.13 86.01M M LM（Hamming+Disc+Agency评分）39.82 261.60.932.45 90.1689.42表3：Yelp上的情绪转移。（ref）/（src）表示所测量的度量是相对于参考/源文本来测量的。Int./分机Clsf.显示内部/外部属性分类器精度。哈姆Hamming距离方法BLEU（参考）GPT-2BertScore（src）哈姆（src）内部分类分机Clsf.参考文本100.00 169.5 1.00 5.80 83.70 85.60He等人18.67200.60.934.2384.87联合国军事观察团M M LM（Discriminator↑）15.75 163.5 0.93 2.84 97.53 90.00M M LM（Hamming↑）19.71 191.50.951.83 94.7282.85表4：GYAFC数据集上的形式转移。指标旁边的（ref）/（src）表示它们是相对于参考/源文本进行测量的。 Int. Clsf. 显示了能量中使用的能量的精确度，→非正式/形式。显示了外部分类器精度的细分。哈姆这是Hamming距离。方法BLEU（参考）GPT-2BertScore（src）哈姆（src）内部分类→非正式→形式。参考文本100.00118.10.927.7282.97100.009.41He等人15.83122.80.9010.0364.79100.003.33联合国军事观察团M M LM（Discriminator↑）17.78 206.3 0.89 5.22 91.15 96.67 23.13M M LM（BertScore↑）27.71 194.40.932.50 72.1294.26 19.01我们我们报告了两种不同变体的结果，一种是在能量中具有更高系数的α分量（鉴别器↑），另一种是具有更高系数的汉明距离（汉明↑）。实际上，这两个因素反映了翻译质量和对源句的忠实性之间的权衡我们在表3中看到，我们的方法，与火腿分量的加权，优于两个生成基线方面的转移准确性（Ext.Clsf.）语义相似度（BertScore）我们还可以看到Mix and Match LM相对于所提供的手牌具有更高的BLEU分数情绪机构我们我们的巴塞尔。巴塞尔。我们的巴塞尔。+v：mala2277获取更多论文↑→→×↑↑↑写参考句子。我们假设这种优势是由于我们的模型倾向于进行最小的修改，以满足专家能量模型的产品因此，我们的模型可以成功地改变风格，而不改变句子的含义然而，生成基线重新生成了施加更多变化的句子，正如可以从汉明距离列（Hamm.（src））。5.2.2形式转移对于这项任务，我们包括形式分类器（E盘），汉明距离（Ehamm），和BertScore（E模糊）组件中的能量公式，允许风格的转移，也保持句子的意义E模糊有助于在源和生成的句子之间施加语义相似性，因为汉明单独我们展示了我们的框架的两个设置的结果，一个是识别系数较高的（判别器），另一个是BertScore系数较高的（BertScore↑）。在表4中，我们已经分解了正式到非正式（Inf.）反之亦然。我们这样做是因为形式。任务通常更难，因此具有较低的准确性。我们观察到，我们的方法在BertScore和BLEU方面优于基线，外部分类器的准确性水平相似然而，我们可以看到，我们的方法的GPT-2 PPL高于基线。这背后的原因是数据中的格式和噪音。该数据集的样本取自音乐和娱乐行业领域，包含一些类似于表情符号的符号和字符（例如这就是我们倾向于最小修改的地方-我们对文本的修改通常不会消除所有这些符号，而基线的生成方法成功地删除了所有多余的字符，因为它们从头开始5.3受控发电5.3.1情感控制的一代我们生成了560个不同长度的序列（12，20和50个标记），给定14个提示，2个情感和每个情感20个序列，取自Dathathri等人（2020）提示和示例生成位于附录B.9和A.2，各代的完整清单见补充材料。表6显示了我们的实验结果。在这里，我们有一个额外的度量， MLM 能量（越低越好），它像GPT-2一样，指示生成句子的质量（Salazaret al. 2020年，根据BERT？我们在这里报告了这个额外的指标，因为PPLM使用GPT模型进行生成，很自然，它会在这个指标上进行该表显示，对于所有长度的生成句子，我们的方法在诱导目标情感方面要好得多然而，我们观察到PPLM在GPT-2方面表现更好，而我们的方法在MLM能量度量方面表现更好。这表明基于模型的流畅性度量倾向于偏向相应的模型，因为PPLM使用GPT-2进行生成，而MM LM使用BERT。为了能够更全面地比较文本质量，我们报告了人工评估的结果。对于这些评估，我们为每个提示随机选择10个生成的输出，每个情绪（总共240个），并询问每个样本对的三个Amazon Turker，他们认为哪个样本更流畅。我们在表格中报告土耳其人的多数票。结果表明，对于长度为12和20的序列，他们发现我们这一代人更流畅。然而，对于长度50，M M的偏好率&下降到46。7%，这表明我们的方法优于PPLM短/中等长度的生成，然而，PPLM更好地生成更长的序列。5.3.2主题控制生成我们遵循FUDGE（Yang和Klein，2021）的实验设置，该设置涵盖7个主题，给出20个提示并生成7个20个长度序列20. 为了让我们这一代人了解时事，我们添加一个主题为基础的能源，E主题。这种能量本质上是与主题相关的单词数量的负数计数（使用FUDGE提供的列表表7显示了该实验的结果，A.2中也提供了代次。主题得分（Topic-score）是杨和克莱因在他们的论文中用于训练和评估主题控制生成的语法性（）是由基于Roberta的CoLA语法性模型在所有输出上平均给出的语法性得分（Warstadt et al. ，2019）。“Div”（）指标显示了最后，人的评价显示了人的顺应性，即句子的流畅性（B.10）。+v：mala2277获取更多论文表5：使用我们的混合匹配LM和PPLM，提示情绪控制世代的样本我们的（混合搭配LM）PPLM这个国家以吸引25万游客而闻名这个国家这个湖是游泳、潜水和浮潜的好地方鸡肉和所有其他配料做成了一顿美味的饭菜。鸡翅是你能吃到的最好的食物之一，这部电影很适合家庭，在日本很成功这部电影，这是目前只有第三次的，这个国家不稳定，还没有准备好实现现代化。该国湖，一个大的，最大的，最可怕的，鸡开始咕咕叫，并开始感到有点恶心。鸡肉面是我吃过的最难吃的东西这部电影只获得了两项提名，没有获得大奖。电影不在那个，一表6：情感控制的生成结果和人类评估。BERT表示BERT MLM能量分数（相当于GPT-2困惑），分数越低越好。Int./分机Clsf. 显示Huggingface的能量/外部校准中使用长度GPT-2（↓）BERT（↓）内部分类（↑）分机Clsf. （↑）人类偏好（%）我们的PPLM我们的PPLM我们的PPLM我们的PPLM我们的PPLM12264.1113. 1- 1604- 137。194.371.七六五。一百五十八。071。一百二十九。920167.2611- 271。0- 237一百九十六。374.565957. 六百六十二。九点三十七。150122.329.-692。3- 606193.873. 六百六十八。660.七四六。753. 3如表所示，我们的方法的流畅性与FUDGE相当，甚至在人类偏好和语法判断方面更好FUDGE具有稍高的主题得分，这是预期的，因为它为针对任务优化的每个主题训练了自定义逐步但我们的方法显示出对主题的竞争性忠诚，特别是考虑到没有FUDGE判别器的GPT-2代仅获得0分的事实。23岁5.4推理速度鉴于我们模型对于长度为20的序列，我们发现未优化的实现需要8秒的生成时间和3秒的修订时间–16秒，FUDGE每生成需要0.4秒。与FUDGE相比，这是一个相当大的放缓，但不是一个使所提出的方法在离线设置中不切实际的问题。此外，更快的采样方案超出了本文的范围，但可能会在未来的工作中探索，以加快模型，如MM LM。6结论我们提出了混合和匹配语言模型（ MMLM），一个无训练的框架控制文本生成，可以很容易地混合异构的专家模块。我们表明，我们的框架优于以前的方法上的一套文本修订和属性控制的生成任务。此外，我们的研究结果表明，概率能量表7：主题受控生成结果和人类评价。M.M. LM主题得分（↑）1.45 1.21语法性（↑）0.61 0.74GPT-2 PPL（↓）104.8 110.2单一字母表上的多样性（↑）0.54 0.57二元组的多样性（↑）0.86 0.89三元组的多样性（↑）0.87 0.88人类偏好（%）（↑）36.5 63.5当与适当的采样方案相结合时，通常被认为难以处理的语言模型可以用于实际的文本生成任务致谢作者要感谢匿名评审员和元评审员提供的有用反馈。我们也感谢UCSD/CMU Berg实验室的同事们提供的有用的意见和反馈。伦理考虑所提出的方法采取了一种新的模式，可能会部分减轻对能源密集型GPU训练的需求-可能会对环境产生积极的这种方法也可能对无障碍环境产生积极影响，因为在建立新的受控文本生成系统时不需要强大的计算资源然而，我们确实承认，依赖于判别器的强控制生成方法有可能破坏敏感的训练数据，并产生有害的输出和有毒的语言（Xu et al. ;Gehman et al. ，2020;Wallace et al. ，2020）。但是，如果使用得当，发送阴性。发送位置。+v：mala2277获取更多论文我们预计这将对消除偏见和安全发电产生积极影响。引用Ashutosh Baheti ， Maarten Sap ， Alan Ritter ， andMark Riedl. 2021. Just Say No：Analyzing the St姿 of Neural Dialogue Generation in OffensiveContext. arXiv预印本arXiv：2108.11830。汉娜·布朗、凯瑟琳·李、法特梅萨达特·米雷什哈拉、礼萨·肖克里和弗洛里安·特拉梅尔。2022.语言模型保护隐私意味着什么？ arXiv 预印本arXiv：2202.05520。Alexandra Chronopoulou，Matthew E Peters和JesseDodge。2021.预训练语言模型的高效分层域自适应。arXiv预印本arXiv：2112.08786。Sumanth Datathri、Andrea Madotto、Janice Lan、Jane Hung 、 Eric Frank 、 Piero Molino 、 JasonYosinski和Rosanne Liu。2020. 即插即用语言模型：一种简单的方法来控制文本生成。在国际学习代表会议上。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Tou

下载后可阅读完整内容，剩余1页未读，立即下载