预训练语言模型在情感分析中利用话语标记的方法

167 浏览量更新于2023-12-01 收藏 817KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文幸运的是，话语标记语可以增强情感分析的语言模型Liat Ein-Dor*1、Ilya Shnayderman1、Artem Spector1、LenaDankin1、Ranit Aharonov†1和Noam Slonim11IBM Research{liate，ilyashn，artems，lenad，noams} @ il.ibm.com摘要近年来，预训练的语言模型已经彻底改变了NLP世界，同时在各种下游任务中实现了最先进的性能然而，在许多情况下，当标记数据稀缺时，这些模型的表现并不好，并且期望模型在零或少数拍摄设置中表现。最近，一些研究表明，持续的预训练或执行第二阶段的预训练（inter-training）可以更好地与下游任务保持一致，从而改善结果，特别是在数据稀缺的情况下。在这里，我们建议利用带有情感的话语标记来生成大规模的弱标记数据，这些数据反过来可以用于调整语言模型以进行情感分析。广泛的实验结果显示了我们的方法在各种基准数据集上的价值，包括金融领域。代码、模型和数据可在https://github.com/ibm/tslm-discourse-marker上获得。1介绍大型预训练语言模型正在重塑NLP的版图。这些模型，最近被称为基础模型（Bommasani et al. 2021年），最初提出了一个两步范式。该模型首先在广泛的数据上进行大规模的预训练，并使用代理自监督任务;然后通过对通常较小的标记数据进行微调，将通过这种预训练获得的知识转移和适应到特定的下游任务。突出的例子包括BERT（Devlinet al. 2019）和GPT-3（Brown etal.2020）。这种方法的实用价值是巨大的。自监督预训练不需要标记数据。由此产生的模型代表了一个强大的起点，可以通过少量甚至零次学习，快速调整以解决各种目标任务，而注释工作相对较少（Brown etal.2020）。随后的研究表明，最初的两步范式可以进一步完善，以产生一个更好的起点模型的特定任务的兴趣。例如，继续对特定于域的数据进行预训练，* 这些作者同样为这项工作做出了贡献。†当前隶属关系：PangeaTherapeutic，ranitah1@gmail.comCopyright © 2022 ， Association for theAdvancement of Artificial Intelligence （ www.aaai.org ） . Allrights reserved.金融或法律文件已被证明对这些领域的任务有益（ Araci2019;Chalkaline et al.2020;Gururan-ganet al. 2020年）。类似地，BERT在对话数据上的额外预训练在与对话应用相关的目标任务中产生更好的结果（Wuet al.2020），并且通过感知预训练任务对BERT进行产品评论的持续预训练，提高了该领域情感分析的性能（Zhou et al.2020）。另一个更具计算要求的选项是在自我监督任务上从头开始预训练模型，旨在更好地反映目标任务的性质。例如，SpanBERT 的预训练任务（Joshiet al. 2019）和PEGASUS（Zhanget al. 2020a）被设计为分别在精神上更接近于如问题回答中的跨度提取任务和概括任务，从而在这些目标任务中产生更好的性能。在本工作中进一步探索的相关路径是添加中间训练步骤，称为交互训练，其在某种程度上与感兴趣的特定目标任务一致。这些相互培训的方法在几个方面有所不同。一个主要方面是中间任务和目标任务之间的相似性，其范围从使用弱或容易获得的标记数据的完全对齐（Meng et al.2020;Zhou et al.2020;Huber et al.2021）到使用类似但不同任务的标记数据的转移学习（Pruksachatkunet al. 2020），并且还包括在没有标记数据的情况下执行迁移学习的作品，例如，（Shnarch etal.2021）应用无监督文本聚类，然后对模型进行内部训练以预测聚类标签。在依赖于完全对齐的中间任务的方法中，一些作品利用了原始文本固有的弱标签，如明确提到类名（Menget al.2020）或句子中存在标记“that”（Levy et al. 2018）;而其他作品则依赖于非文本信号，如人为添加的数字评论评级（Zhou et al. 2020）或情感表情符号（LeCompte和Chen2017）。文本固有的弱标签通常具有有限的覆盖范围，并且涉及对定义弱信号的特定关键字或模式的偏见虽然非文本信号通常不受这些问题的影响，但由于它们是文本外部的，它们通常特定于任务和领域，因此不太直接适用于新任务和/或新领域。本文提出了一类新的弱标号，arXiv：2201.02026v1 [cs.CL] 2022年1+v：mala2255获取更多论文∈是原文固有的，但同时可以被视为一个外部标签，可以从原文中删除，同时保持剩余的文本有意义和语法（Moder和Martinovic-Zic2004）。具体来说，我们建议利用特定的话语标记语（DM）所携带的信号来生成大量的弱标记数据，用于情感分析（SA）的重要任务。例如，我们假设前缀“Happily”和“Sadly”后面的句子分别传达积极的利用这个简单的假设，用11个话语标记语的小种子我们从一个大型通用英语语料库。在这些数据上进行BERT-base和BERT-tiny的相互训练可以显著提高性能，特别是当标记数据稀缺且处于零触发场景时。此外，我们展示了如何使用所获得的分类器，自动揭示特定领域的情感承载话语标记语。依赖于这些特定领域的情绪携带话语标记产生了额外的性能增益在零拍摄学习，并可能进一步打开大门，为其他未来的应用。总之，我们的主要贡献是：1. 一种利用话语标记的情感信号来创建情感感知语言模型的新方法，该模型显著优于先前的模型。2. 基于领域语料中话语标记语的统计分析，提出了一种增强领域情感分类的新方法。3. 一个来自Wikipedia的弱标记句子的大型数据集，以及一个用于从给定文本语料库生成弱标记数据的代码2相关工作话语标记语（Discourse Markers，简称DM）是一种在语篇的结构和表达中起着重要作用的词或短语。DM已被使用作为预测隐式话语关系（Liu and Li2016;Braudand Denis2016）和推理关系（P an et al.2018）的学习信号。DM预测的任务已经在几项工作中得到了利用，例如（ Jernite ， Bowman 和 Sontag2017;Nie ， Bennett 和Goodman2019;Sileo et al.2019），以学习句子的一般表示，可以将其转移到各种NLP分类任务中。Sileo等人是第一个系统地研究个体话语标记语与特定下游任务类别之间关联的人。使用经过训练以预测句子对之间的话语标记的模型，它们预测具有已知语义关系（由现有分类数据集提供）的句子对之间的可能标记基于这些预测，他们研究了话语标记语和分类数据集中标注的语义关系之间的联系，在这里，我们展示了如何利用这种联系来增强语言模型在下游任务上的性能，进而在特定领域中。任务感知语言模型。最近的一系列工作集中在弥合自我监督任务和下游任务之间的差距，这是多目的预训练模型所固有的（Sunet al. 2019年;田等人， 2020;Chang 等人， 2020 ）。在（ Joshi etal.2020）中，文本的跨度被掩蔽而不是单个标记，从而产生了面向跨度选择任务的语言模型 Chang等人提出了一种针对文档检索的语言模型，Zhang等人追求类似的抽象文本摘要目标。对于情感分析，一些作品将情感知识纳入预训练任务（Tian et al.2020;Gu et al.2020），同时主要关注单词级情感预测任务。在这里，为了实现与句子级情感分类的下游任务的完全对齐，我们提出了一个模型，该模型结合了句子级情感预测目标。在（Zhou et al.2020）中使用了类似的目标，依赖于评级作为情感信号，这是特定于评论领域的。相比之下，我们的方法依赖于话语标记语所携带的情感信号，话语标记语是语言本身所固有的，因此可用于广泛的领域。3SenDM：一种新的情感语言模型3.1训练基于DM的情感模型本文提出了一种基于DM的情感语言模型的通用开发方法，并利用该方法开发了一种新的情感语言模型SenDM模型依赖于大的弱标记的情感数据集，其通过利用DM（话语标记）和情感类之间的强关联从给定语料库自动导出，如图1所示。给定语料库C和表示积极或消极情绪的DM的列表L，每个DM都伴随着其类别标签，我们遵循由（Ruther-ford和Xue2015）引入的启发式，并查找C中以L开头并后跟逗号的所有句子。然后，我们从每个句子的开头删除l和逗号，并使用与l相关联的类标签注释所有结果句子。这个过程产生了一个用于情感分析的二进制分类数据集，用于微调预训练的语言模型M（inter-training）。在这项工作中，我们使用上述流程来生成SenDM，并构建一个额外的域适应模型，如第4节所述。3.2SenDM模型我们引入SenDM，一个通用的情感模型，旨在提高跨领域的情感分类的性能。使用上述流程获得SenDM，其中C是报纸和期刊文章的一般语料库，表示为Cg（参见第3.3节），并且L是使用英语的一般知识手动获得的更具体地说，我们问了3个注释者，去检查一个173个通常使用描述于（Sileoet al. 2019），并标记任何DM如果它可能打开一个带有积极/消极情绪的句子，则根据其在英语中的常见用法，将其定义为积极/消极。最后的列表Lg由11个DM组成，由所有3个注释者选择与积极情绪相关的话语标记’fortunately’, ’ideally’, ’happily’, and ’thankfully’与消极情绪相关的词+v：mala2255获取更多论文−−−图1：如何训练基于DM的情感模型概述’unfortunately’, ’admittedly’, and ’curiously’所得到的弱标记数据用于微调 BERT的未封装基础和微小架构（Devlinet al. 2019;Jiaoet al. 我们分别用SenDM-base和SenDM-tiny表示生成的模型，并将这两个模型作为这项工作的一部分发布。3.3实验装置一般语料库（Cg）我们提出的解决方案依赖于未标记文本的语料库的可用性。我们使用了一个包含4亿篇报纸和期刊文章的语料库，将文章分成句子，并对这些句子进行索引。我们专注于英语句子2和以下（Sileo等人。2019），我们只使用句子3长度为32个标记，并具有平衡括号。训练细节。内部训练步骤（图1）包括使用弱标记数据微调BERT。对于相互训练SenDM，我们通过使用Cg中的句子上的情感相关DM的列表Lg，获得总共1，876，614个3.1. 我们将样本分为训练集（80%）、开发集（10%）和测试集（10%）。我们将学习率设置为5e5，批量大小设置为32。我们使用早期停止策略，将最大epoch数设置为4，并在开发集上选择具有最佳精度的模型。丢弃概率始终保持为0。1.一、我们使用Adam优化器，β1=0。9，β2=0。999，且n=1e06。训练在两个V100GPU上进行。3.4评价详情在以下三种情况下对数据集进行评价：零次、少量和全数据。对于零射击，我们简单地使用从内部训练获得的分类层。对于少数镜头，我们进一步用来自训练集的n个示例的小样本微调训练后的模型，其中n的范围从16到1024。我们重复每一个用不同的随机种子进行五次实验，每次选择不同的例子进行微调。在全数据场景中，所有训练示例都用于微调。1来自Lounge Nexis 2011-2018语料库，https：//www.lexisnexis.com/en-us/home.page[2]具体来说，基于Graveet al. 2018年）。为了支持小样本训练，批量大小设置为16。其他超参数与上面描述的训练阶段，有一个例外。对于代表低资源设置的少镜头场景，我们假设没有开发集可用于采用早期停止策略。相反，我们遵循（Zhang et al.2020c）中的观察，即对于小的训练数据，更多的迭代有助于稳定BERT结果，并将epoch的数量设置为10。数据集用于评价的数据集见表1。所有数据集都包含标记为情感的句子。Amazon、Sst2和Yelp由评论句子组成fpb75由来自财经新闻的句子组成。这些数据集大多提供两个以上可能的标签，因此我们调整了二元情感分类任务的数据集。具体来说，fpb75包含标记为中性的句子，我们将其从训练集和测试集中删除。Amazon和Yelp包含五个不同的标签，反映每个句子的情感评级（我们只留下得分最低和最高的句子，分别将其视为负面和正面标签。用于精细我们使用来自训练集的多达1024个示例进行调整为了测试，我们使用整个测试集。数据集域测试集大小亚马逊产品评论2KYelp业务评审20KsST2电影评论1821fpb75金融新闻691表1：用于评价的数据集。数据集的参考文献如下，按表中出现的顺序：（Keunget al. 2020），（Zhang，Zhao和LeCun 2015），（Wanget al.2018），（Malo etal. 2014年）。3.5结果我们现在评估了一般情感模型的基本版本和微小版本（SenDM-base和SenDM-tiny）在不同领域数据集上的性能。由于我们的主要关注点是零次和少次设置，因此我们报告了在0到1024个训练样本上进行微调后的结果。+v：mala2255获取更多论文基底微小亚马逊YelpsST2fpb75图2：SenDM和基线在四个数据集上的性能，给出了不同数量的训练示例。左栏：基本尺寸模型。右栏：小尺寸模型。线条表示平均值，阴影区域表示5个种子的标准差（详情见第3.4节）。水平虚线表示完整训练数据（完整数据设置）的微调结果水平虚线表示数据集中公共类的先验。FinBERT和SentiX仅提供基本尺寸。+v：mala2255获取更多论文图2 显示了所有数据集的SenDM-base（左列）和SenDM-tiny（右列）的准确性，用于微调的示例数量。准确性分别与香草BERT - base和tiny的准确性进行比较，并与SentiX（Zhou et al. 2020），其在相同标记的示例上进行微调。对于fpb 75，我们添加了BERT-base -FinBERT（Araci2019）的相应域特定版本。在所有数据集中，SenDM的表现都明显优于BERT基线，包括特定于金融的FinBERT，特别是当用于微调的示例数量当专注于微型架构时，性能的提升甚至更为显著。这在fpb 75数据集中尤其明显，其中BERT-tiny在256个样本的情况下，SenDM-tiny完全无法学习，而SenDM-tiny只需要16个样本就可以学习。在sst2数据集中也可以看到类似的趋势正如预期的那样，SenDM与其对应方之间的差距随着训练示例数量的增加而减小，反映了初始权重对微调模型的衰减效应在大多数数据集中，这个差距在完整数据场景中完全消失，除了fpb75，其中完整的训练数据大小为1044，仅略大于1024，这是我们的少数拍摄制度的上限。从稳定性的角度来看，SenDM更健壮与其他模型相比，由于其分类层的初始化缺乏随机性，初始种子中的变化。SentiX是一种感知情感的预训练语言模型，最初设计用于跨域评论情感分析。重要的是，SentiX是在大量的Yelp和Amazon评论上训练的，以及它们的关联星级，相同的星级用于定义我们的Amazon和Yelp数据集中的训练集和测试集。因此，不能在这两个数据集中报告该模型的零/少量训练结果，因为可用模型已经在大量相应的训练数据上进行了训练。也就是说，探索这个模型在我们的其他两个数据集上的性能是很有趣的。当考虑到基于电影评论的sst2的结果时，我们看到SentiX的强劲表现。这是意料之中的，因为这类数据由星号评论组成-尽管来自不同的有趣的是，与我们的SenDM相比，它的差距相对较小，并且当在16和32个示例上进行微调时不显著。考虑到更远领域的结果，即fpb75数据集，其中星号评论是不相关的，我们看到了我们方法的明确价值，始终优于所有其他模型，包括SentiX，通常都有很大的优势，特别是当标记数据稀缺时。这些结果支持了我们的假设，即基于情感相关DM的预训练将产生更鲁棒的模型，在各个领域进行测试时，该模型会产生更好的性能。可能会出现一个问题，即我们在fpb75上的方法所展示的强大性能与以下事实有关：产生用于内部训练的弱标签的一般语料库也包含一些财务文档，并且其中金融文档从通用语料库3中移除。我们发现结果没有恶化，这支持了这样一个观点，即观察到的替代方法的改进不是由于使用财务文件的相互培训-参见附录中的我们想要研究的另一个问题与我们的方法对低资源语言的相关性有关，在这种语言中，没有像Cg为此，我们通过创建两个版本的Cg来检查结果对弱标记数据大小的敏感性，一个基于仅使用10%的内部训练，另一个基于只有1%的弱标记数据。令人惊讶的是，这些两种模型对结果没有不利影响此外，还可以利用大型英语弱标记数据来相互训练多语言BERT模型（M-BERT）。我们把这种方法的研究留给未来的研究。总的来说，所提出的基于DM的情感模型显著提高了小型和大型语言模型的情感分类值得注意的是，即使是微小版本的SenDM也优于更大的BERT基线。4使SenDM适应新领域在第3.5节中，我们看到SenDM利用了与情绪相关的DM的一般列表，改善了所有数据集（包括金融数据集fpb75）的基线结果。在这里，我们调查是否适应SenDM到一个新的域，可以进一步提高其性能的域。我们选择在金融领域进行研究，因为如（Araci2019）所述，由于专业语言和缺乏特定领域的标记数据，金融情绪分析是一项此外，对于许多潜在用户来说，这是一项重要的任务，最后，可以在给定fpb75数据集的可用性的情况下测试自适应影响4.1培训方法SenDM的鲁棒性可能来自它所依赖的多域语料库，以及DM列表的一般性质，Lg，由大量使用并携带一般情感信号的话语标记组成。然而，由于潜在的领域特定的行话和语言风格，给定领域特定的文本语料库Cd，构建领域特定的情感模型可能是有用的。我们研究了五种基于图1中描述的一般流程构建特定领域情感模型的方法。在表2的底部描述的所有五个结果模型都基于来自领域特定语料库的弱标记句子。所有五个模型都依赖于通用情感模型的可用性，该模型以独立于领域的方式进行训练，例如SenDM，我们将其发布给社区。在我们这里描述的实验中，我们使用了一种变体的SenDM，下面表示为SenDM，其被开发为SenDM，但是在从一般语料库Cg中移除金融相关文档之后，为了更好地模拟金融对于语料库中未覆盖的域，结果将较差我们开始。为了解决这个问题，我们基于主题标记生成了版本3，详见第4.2节。+v：mala2255获取更多论文DD作为一个新的领域。4该SenDM模型被用作训练所有五个模型的应变点，并且在某些情况下用于定义训练间弱标记数据，如下所述。第一个模型SenDMLg使用一般DM列表Lg从目标域中的文本中提取弱标签然而，由于情感相关的DM可能是特定领域的，我们开发了一种方法来提取特定领域的情感相关的DM列表，Ld。为此，我们注意到，没有必要使用标准的语言定义来定义DM，而是可以使用功能定义。因此，我们定义作为与情感相关的DM，任何n元语法（n<= 3）后跟逗号，其打开的句子集合富含高度自信的肯定/否定预测，如由SenDM管理。第二种型号SemDMLd，相关DM列表Ld，给定领域特定语料库Cd并使用SenDM索引。注意，我们对识别所有领域特定的情感相关DM不感兴趣相反，我们正在寻求一个面向精度的列表，目的是获得一个高质量的弱标记句子集，用于相互训练过程因此，我们在过程中执行严格的自动过滤。这个想法是首先识别所有可能作为DM的n元语法，然后根据SenDM的预测，识别它们打开的句子集是否富含积极/消极情绪。第一步是确定一份候选人名单，私信为此，我们首先确定所有的一元，二元，三元，其次是一个逗号，开放的句子在Cd中，并进一步使用NER对这些进行分组（例如，而不是多个类型的二元组依赖于由这类模式文件组成的清单，而不是LDG. 作为我们在“日期”上生成一个二元组候选列表第三种方法，我们执行一步自训练，其中SenDM对来自Cd的句子的高置信度预测用于间训练，忽略DM。5该模型用SenDMP表示。最后，为了减少标记噪声，我们探索一种协同方法，即，仅将开头DM传达情感信号并且该情感与SenDM的高置信度预测一致的那些句子作为弱标记的肯定/否定句子。我们用两个DM列表来研究这种方法，Lg和Ld，产生两个额外的模型，表示为SenDMLg+P和SemDMLd+P。1000个最常见的DM根据领域语料库，可以进一步应用特定的过滤器第二步包括使用SenDM筛选器从候选列表中选择域特定DM。我们分析了以上候选人中以话语标记语开头的句子列表，以找到其关联句子与积极/消极情绪的高度自信预测显著关联的那些DM。对于每个候选DM，我们从以DM后跟逗号开头的所有句子的集合中抽取1000个句子，并将这些句子中的每一个分配给d d d如果SenDM的评分具有高置信度6，则与情绪有关。对于每个候选DM，我们对1000个句子的样本执行其关联句子的情感的统计分析，前提是它们基于标记计数不是太重复，并且具有较高计数的情感类包括至少85%的被分配情感的句子。如果正/负类别的p值小于0，则认为DM与正/负情绪相关。基于超几何检验，对多个检验进行Bonfer-roni校正后如上所述，我们发布了允许具有感兴趣的语料库的用户使用SenDM来生成适配于语料库的特定DM列表的代码4.2实验装置表2：图1中描述的流程中的情感语言模型和C，L和M的相应分配，以及SenDM的预测是否用于分配弱标签（SenDM是一个通用（多域）模型。其他五个是特定领域。 Cg ：一般的多域语料库 ;Cd：来自域 d 的语料库;Lg：与英语语言中的情感相关联的DM的列表;Ld：适于域d的这样的列表。领域特定情感相关DM我们现在来描述我们如何生成领域特定情感-4在实际应用中，用户显然可以使用我们的在构建特定于域的模型时直接使用S enDM内部培训和评估细节与第3.3节中描述的相同。关于用于对特定于金融的情绪模型进行相互训练的弱标记样本的数量，请参见附录中的表1在所有的情况下，将样本分为训练集（80%）、开发集（10%）和测试集（10%）从通用语料库Cg中，我们可以定义一个专注于金融领域的子语料库，使用提供的元数据主题字段，并仅过滤来自主题“金融”的文章我们把这个语料库C鳍和使用它来研究适应金融领域。SenDM由于我们有兴趣研究适应新领域的场景，这可能没有被用于训练SenDM的数据所覆盖，并且由于使用的语料库5在这项工作中，我们使用得分> 0的预测。9和得分<0。1作为正/负弱标签。<60. 1或> 0。9型号名称CLM通过自我训练SenDMCGLg伯特NASenDMLgDCdLgSenDM没有SemDMLdDCdLdSenDM没有SenDMPDCdNASenDM是的SenDMLg+PDCdLgSenDM是的SemDMLd+PDCdLdSenDM是的+v：mala2255获取更多论文∗图3：一般模型和各种领域特定模型在财务数据集fpb75上的性能，用于零触发设置。SenDM是在不包含财务文档的语料库上训练时的通用模型所有型号都是基本尺寸。在所有模型领域D是金融。水平虚线表示fpb75中公共类的先验。为了训练SenDM确实包含一些金融文档，我们生成SenDM的变体，不包括金融领域。该模型由SenDM表示，类似地训练为SenDM，除了我们从Cg中排除财务文件在使用它之前。当然，我们并不期望用户训练这样的模型，它在这里和附录中使用，只是为了检查我们的方法在多大程度上可以推广到用于训练SenDM的一般语料库未覆盖的领域。4.3结果利用SenDM和Lfin，我们生成了4.1中描述的五一般模型（橙色与绿色条）。这可能是由于与一般语料库相比，金融语料库中的Lg这种解释是一致的，通过将自我训练与Lg，一个步骤，导致噪音降低的协同方式所获得的改善。对于少数拍摄场景，我们没有发现模型之间的显著差异-参见附录中的我们注意到，所建议的方法可以迭代地应用于金融数据集以获得进一步的改进。此外，这种适应过程也可以应用于SenDM本身。我们把这些方向留给今后的工作。领域特定情感DM的分析如上所述，利用金融特定DM对于使情感模型适应金融领域是有用的。表3列出了从普通英语、Lg以及金融领域中提取的与情感相关的话语标记语。虽然一些金融专用的话语标记语与一般英语用法中出现的话语标记语相呼应（例如，例如，双字母“ORGCEO”（“Walmarts CEO”、“BOA's CEO”等），与积极情绪有关。乍一看，这可能令人惊讶，可能不会被列出在一个手动策划的金融特定DM列表中，但在事后看来是有意义的。在考虑这样的开场白之后会有什么句子时，人们会期望他们讨论公司的积极事物。另一个例子是“领导下”。在这里，我们再次发现，虽然不是先验的，但由于提到领导，这个开头之后的大多数句子都会带有积极的情绪。接下来，我们有兴趣看看情感话语标记语在其他领域的变化。我们从一般语料库中划分出几个领域语料库除了上面描述的金融语料库，我们还介绍：（1）体育语料库：类似于金融语料库的创建，但过滤来自主题“体育”的文章(see表3针对L鳍7中的DM。图3描述了并且被定义为在一个在金融数据集fpb 75上，对于零触发设置，金融特定情感模型的准确性与通用模型SenDM的准确性相比。可以看出，实际上使用域特定DM而不是一般列表提高了准确性（蓝色与橙色，布朗VS。紫色条）。一步自我训练是有价值的，即使没有结合来自DM的信号（红色与绿色条）。以协同方式将一步自我训练与来自DM的信号结合，如上所述，带来了额外的价值（紫色与橙色和棕色与蓝色条）。当将特定于金融的DM的信号与一步自我训练（棕色条）相结合时，实现了最高的准确性上述准确度比较均具有显著性（p<0. 05）。05），基于McNemar检验。有趣的注意，使用Lg从金融语料库，结果比使用7我们还使用SenDM标识符代替SenDM来标识L鳍由于上述原因期刊影响因子列表中包含的期刊8.这些清单见表3。我们发现，一些DM继续在各个领域普遍存在（例如，“fortu-nately”），但其他人似乎只与特定领域的情绪有关。一个有趣的例子是“女性”这个词我们发现，在科学论文中，以“妇女”开头的消极情绪。5讨论这项工作建议利用携带情感信号的DM来相互训练并使通用语言模型适应情感分类任务。所获得的senti- ment分析模型表现出显着的性能8https://www.scimagojr.com/journalrank.php+v：mala2255获取更多论文域与Posi-情感与负相关-积极情绪一般“幸运地”，pilly ' ， ' thankfully'，' ideally '，' luckily'，' thanks ''不可否认'，ously'，'inevitably'，'sadly'，'unfortu-nately'金融'作为ORG“，’at“事件”，“幸运地”，“ 幸运地 ” ， “ 理想地”， 'in未来“、”在其他业务中“、”幸运 “ 、 ” 一旦完成“ 、 ”ORG CEO“ 、 ”开始日期“、”谢天谢地“、”计划“、”这样“、 ”实现这一目标“、 ”在他的领导下“、”与ORG合作“据’sadly’,’theproblem’,’theproblemis’,’un-fortunately’,体育”“开头'fortunately' ， 'in thefuture' ， 'luckily' ，'thankfully'，'thatway'’admittedly’,’granted’,科学’established’ifnecessary’,’ifpossible’, ’if success-ful’,’luckily’,’thatway’,’toaddressthis’,’whenpossible’,’wheneverpossible’,’wherepossible’, ’with this'不可否认'，有序的表3：情绪相关DM。双线下面的列表是特定于域的大写标记是NER标记。在多个领域的提升，最明显的是在零镜头和少数镜头的学习场景，强调这项工作的实用价值。我们进一步展示了如何使用自动识别的特定领域DM将所获得的模型进化到特定的感兴趣领域，并展示了这种方法如何在具有挑战性的金融领域内进一步提高零次学习的性能。引导一个一般的，小的，容易识别的种子情绪携带DM到一个强大的情感分析模型的能力可能持有额外的有价值的含义。例如，这种方法可以很容易地适应英语以外的语言，包括低资源语言，只要有一个合理大小的语料库另一被认为是情感目标。（Sileo et al.2020）表明，各种NLP任务类别自然与特定的DM相关联因此，这里提出的利用DM创建任务特定语言模型的方法可以潜在地应用于情感分析之外的最后，话语标记语可能只代表自然语言中丰富的信号中的一种语言线索，可以作为自我监督来调整LM与下游任务。A附录A.1应用于特定于域的DM选择的过滤器在某些领域，某些DM可能是非常具体的期刊，甚至是记者。我们发现，在金融领域就是这种情况。因此，我们进一步过滤出的话语标记语的句子来源于一个相对狭窄的一组期刊。为此，我们定义了DM的熵，基于其句子在期刊上的概率分布，并过滤出30%的DM具有最低熵。更以金融领域的情况下，由于情绪分析任务为了识别关于公司的情绪，我们仅将上述过程应用于提及公司名称的句子，其中我们使用在五大证券交易所之一交易的所有公司的列表9。A.2附加表格和图型号名称用于中间培训的样本总数SenDM1,876,614SenDM1,815,943SenDMLgD60,671SemDMLdD99,521SenDMPD490,989SenDMLg+PD45,246SemDMLd+PD70,681表4：用作弱标签来训练每个情感模型的样本数量在所有情况下，我们将其分为训练集（80%）、开发集（10%）和测试集（10%）引用Araci，D.2019年。FinBERT：使用预训练语言模型进行金融情绪分析ArXiv，abs/1908.10063。Bommasani ， R.;Hudson ， D. 一、 Adeli ， E.;Altman ，R.;Arora，S.; von Arx，S.; Bernstein，M. S.的; Bohg，J.;Bosselut ， A.; Brunskill ， E.;Brynjolfsson ， E.;Buch ，S.;Card，D.;卡斯特利翁值得注意的方向是扩大拟议的行动计划，有针对性的情感分析。例如，在金融领域，出现在句子中的公司可以是9注意，该句子选择步骤不应用于包含来自金融文档的所有句子的金融语料库+v：mala2255获取更多论文∗图4：给定不同数量的微调示例，fpb75上SenDM基础和基础大小的基线的性能。线条表示平均值，阴影区域表示5个种子的标准差（详情见第3.4节）。水平虚线表示数据集中公共类SenDM与SenDM（培训时），不包括财务文件。图5：一般模型和各种领域特定模型在金融数据集fpb75上的性能，用于零次和少次设置。SenDM是在一般语料库（不包括金融文档）上训练在所有模型中，D是金融。水平虚线表示fpb75中公共类的先验的R.; Chatterji，N.;Chen，A.;Creel，K.;Davis，J.问：德姆斯基，D. 的 ; Donahue ， C.; Doumbouya ， M.; Durmus ， E.;Ermon，S.; Etchemendy，J.; Ethayarajh，K.; Fei-Fei，L.;Finn，C.; Gale，T.; Gillespie，L.;Goel，K.;Goodman，N.;Grossman，S.;古哈，N.; Hashimoto，T.;Henderson，P.;Hewitt，J.;Ho，D.E.的; 洪，J. 道： Hsu ， K.; 黄， J.;Icard ， T.;Jain ， S.;Jurafsky ，D.;Kaghani ， P.; Karamcheti ， S.;Keeling ， G.;Khani ，F.;Khattab，O.;科赫德，P.W.; Krass，M.; Krishna，R.; Kuditipudi，R.; Kumar，A.; Ladhak，F.;李，M.;李，T.;Leskovec，J.;Levent，I.;李鹏说，X. L.的;李，X.;马，T.; Malik，A.;曼宁角D.的; Mirchan-dani ， S.; Mitchell ， E.; Munyikwa ， Z.; Nair ， S.;Narayan ，A.; Narayanan ， D.; Newman ， B.; Nie， A.;Niebles ， J. C.; Nil- foroshan ， H.;Nyarko ， J.;Ogut ，G.;Orr ， L.;Papadimitriou ， I.;Park ， J.S. 的 ; Piech ，C.;Portelance，E.;Potts，C.;Raghunathan，A.; Reich，R.;任，H.;Rong，F.;鲁哈尼，Y.;Ruiz，C.;Ryan，J.; Re′，C.;Sadigh，D.;Sagawa，S.;Santhanam，K.;Shih，A.;Sriniv asan，K.; Tamkin，A.; Taor i，R.; 托马斯，A. W的;Trame`r，F.; 王河，西-地E.的; 王，W.;吴，B.;吴，J.;吴，Y.;Xie，S.M.; Yasunaga，M.;你，J。Zaharia，M.;张， M.; Zhang ， T.;张， X.; 张玉 ; 郑， L.; 周， K.; 和Liang ， P. 2021. 基金会模式的机遇与风险 arXiv ：2108.07258。Braud，C.; Denis，P. 2016. 隐性语篇关系识别中基于连接词的词汇表征学习。2016年自然语言处理经验方法会议论文集，203奥斯汀，德克萨斯州：计算语言学协会。布朗， T.B. 人 ; Mann ， B.;Ryder ， N.;Subbiah ，M.;Kaplan，J.;Dhariwal，P.;Neelakantan，A.;Shyam ，P.;Sastry，G.;Askell，A.;阿加瓦尔，S.; Herbert-Voss，A.; Krueger ， G.; Henighan ， T.; Child ， R.;Ramesh ，A.;Ziegler，D.M.; 吴，J.;温特，C.的; Hesse，C.;陈，M.; Sigler，E.; Litwin，M.; Gray，S.; Chess，B.;克拉克，J.; Berner，C.; McCandlish，S.;Radford，A.; Sutskever，I.;和Amodei，D. 2020.语言模型是少数学习者。 In Larochelle ， H.; Ranzato ， M.;Hadsell，R.;Balcan，M.;和Lin，H.，编辑，神经信息处理系统的进展33：神经信息处理系统2020年年会，NeurIPS 2020，2020年12月6日至12日，虚拟。查尔克塞岛; Fergadiotis，M.;

下载后可阅读完整内容，剩余1页未读，立即下载