TimeLMs：Twitter数据持续学习的历时语言模型

175 浏览量更新于2023-12-01 收藏 527KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文TimeLMs：TwitterDaniel Loureiro*，Francesco Barbieri*，LeonardoNeves，Luis Espinosa Anke，Jose Camacho-Collados葡萄牙波尔图大学公司简介美国加利福尼亚州圣莫尼卡英国卡迪夫大学计算机科学与信息学院Cardiff NLPDaniel.b. inesctec.pt，juvenile{fbarbieri，lneves}@snap.com，邮箱{espinosa-ankel，camachocolladosj}@cardiff.ac.uk摘要尽管时间变量很重要，但在NLP和语言模型文献中，它在很大程度上被忽视了。在本文中，我们提出了TimeLMs，一组专门的历时Twitter数据的语言模型。我们表明，持续学习策略有助于增强基于Twitter的语言模型我们还进行了大量的定性分析，显示它们如何应对涉及特定命名实体或概念漂移的活动的趋势和峰值。TimeLMs 可以在 https ： //github 上找到。com/cardiffnlp/timelms.1介绍神经语言模型（LMs）（Devlin et al. ，2018;Radford et al. ，2019; Liu et al. ，2019年）今天是NLP的关键推动者。它们在许多应用中促进了下游性能的普遍提升，有时甚至可以与人类判断相媲美（Wang et al. ，2018年，2019年），同时也带来了通过预培训获取知识的新范式。然而，目前，从模型开发和评估的角度来看，这种范式基本上是静态的，这影响了推广到未来数据的能力和实验结果的可靠性，因为评估基准与预训练语料库重叠并不罕见（Lazaridou et al. ，2021年）。例如，BERT和RoBERTA的原始版本都没有跟上当前的冠状病毒大流行。这显然是麻烦的，因为近年来的大多数通信都受到了它的影响，但当我们谈论冠状病毒，COVID-19或封锁时，这些模型几乎不知道我们指的是什么，仅举一例标有星号（*）的作者贡献相等。举几个例子。在社交媒体等背景下，缺乏历时性的特殊化尤其令人担忧，在社交媒体中，讨论的主题经常迅速变化（Del Tredici et al. ，2019）。在本文中，我们通过与社区分享一系列专门针对Twitter数据的（TimeLM）来解决这个问题。我们的计划超出了本文中报告的初始发布、分析和实验结果，因为模型将定期继续进行训练、改进和发布。2相关工作在自然语言处理中，关于时间变量的处理有大量的工作.例如，通过专门化来自单词嵌入模型或神经网络的语言表示（Hamilton et al. ，2016; Szymanski ， 2017; Rosen-feldand Erk ，2018; Del Tredici et al. ， 2019; Hof-mann etal. ，2021年）。关于LM的特定情况，将它们暴露于新数据并相应地更新其参数，也称为连续学习，是一个有前途的方向，具有机器学习的既定传统（ Lopez-Paz 和 Ranzato ， 2017;Lewis等人，2017年）。，2020; Lazaridouetal. ，2021年）。然而，其他工作已经提出用时间变量来增强基于 BERT 的主题模型（Grootendorst， 2020）。关于领域内专门化，有许多作品通过在专门化语料库上预训练通用LM一个众所周知的例子是生物医学领域，例如， BioBERT（Leeet al. ，2020）、SciBERT （ Beltagy et al. ， 2019 ）或 Pub-MedBERT（Gu et al. ，2021年）。与我们类似的方法可能是Agarwal和Nenkova（2021）的分析。这项工作表明，在最近的数据中训练语言模型是有益的，Luu等人（2021）在不同的环境中发现这种改进是微不足道的。在持续的终身学习方面，这与我们的主要目标无关，Biesialska等人。（2020年）arXiv：2202.03829v1 [cs.CL] 2022年2+v：mala2277获取更多论文对NLP文献中提出的主要技术进行了详细的调查。另一方面，与本文更相关的是专门用于社交媒体数据的 LM ，特别是 Twitter ，以及BERTweet （ Nguyen et al. ， 2020 ），TweetEval（Barbieri et al. ，2020）和XLM-T（Bar-bieriet al. ，2021年），据我们所知，是最突出的例子。然而，上述努力几乎没有解决语言的历时性。更重要的是，他们没有解决将LM专门用于社交媒体的问题，并将时间变量置于框架的核心。此外，期望这样的时间感知模型与可用软件和可靠的基础设施一起发布我们的TimeLMs计划（详见第3节）旨在应对上述挑战。3TimeLMs：Twitter的历时语言模型在本节中，我们将介绍针对不同时间段训练语言模型的方法。3.1Twitter语料库对于语言模型的训练和评估在下文中，我们将解释数据收集和清理过程。数据收集。我们使用Twitter Academic API来获取大量均匀分布在不同时间的推文样本。为了获得一个样本，是社交平台上一般对话的代表，我们使用最频繁的停用词 1 来查询API，以获得以5分钟为间隔的时间戳的设定数量的推文-对于构成特定年度季度的每天的每个我们还使用API支持的特定标志来只检索英文推文，而忽略转推、引用、链接、媒体帖子和广告。对于我们的初始基础模型（2019- 90 M），我们使用了来自API的均匀时间分布的语料库，用于2018年至2019年期间，并补充了来自Archive.org的额外推文，这些推文覆盖了同一时期，但分布不均匀。数据清理。在训练任何模型之前，我们使用本节中详细介绍的过程过滤每个模型从机器人是最活跃的用户开始，我们删除了前1%的用户1我们使用来自google-10000-english.txt的前10个条目发推最多的人此外，根据Lee等人（2021）的建议，我们删除了重复和近似重复。我们通过对小写和去除标点符号后的推文文本进行哈希处理来哈希使用MinHash执行，有16个排列。最后，除了经过验证的用户之外，用户提及被替换为通用提及（@user）。3.2语言模型训练一旦Twitter语料库被收集和清理，我们就开始进行语言模型的预训练。这包括两个阶段：（1）训练由数据组成的基础模型，直到2019年底;（2）自基础模型建立之日起，每三个月持续训练一次语言基础模型训练。我们的基础模型使用数据进行训练，直到2019年（包括）。 Barbieriet al. （2020），我们从原始的RoBERTa基础模型（Liu et al. ，2019年），并继续在Twitter数据上训练掩蔽语言模型。该模型使用与Barbieri等人（2020）相同的设置进行训练，即在验证分裂时提前停止，学习率为1。0e-5。这款最初的2019- 90 M基本型号在8个NVIDIA V100 GPU上运行了大约15天后收敛。持续训练。在训练了我们的基础模型之后，我们的目标是用最近的Twitter语料库继续训练这个语言模型。在撰写本文时，出于实际和后勤方面的原因，我们决定每三个月训练一次每种语言模型的新版本。训练这个更新的语言模型的过程很简单，因为它遵循与上面解释的语言模型我们的承诺是每三个月更新和发布一个新模型，有效地使社区能够在任何时间段使用3.3TimeLM发布摘要在表1中，我们总结了截至本文撰写之日为止收集的Twitter语料库和训练的模型模型分为四个季度（Q1，Q2，Q3和Q4）。我们的基础2019- 90 M模型包括到2019年底的9000万条推文。然后，每个季度（即，每三个月）添加420万条额外的推文，并且模型如上所述进行更新。我们最新发布的模型，即2021-Q4和2021- 124 M（后者仅使用2020年和2021年的所有数据重新训练过一次），+v：mala2277获取更多论文1.24亿条推文在原始的RoberTa基础模型之上（Liu et al. ，2019）。所有型号目前都可以通过https的拥抱脸枢纽//huggingface.co/cardiffnlp网站。模型额外总2019- 90百万-90.26M2020年第一季度4.20M94.46M2020年第二季度4.20M98.66M2020年第三季度4.20M102.86M2020年第四季度4.20M107.06M2021年第一季度4.20M111.26M2021年第二季度4.20M115.46M2021年第三季度4.20M119.66M2021年第四季度4.20M123.86M2021-124M33.60M123.86M表1：用于训练每个模型的推文数量。显示用于更新模型的推文数量，以及从Liu等人的RoberTa-base开始的总数。（2019年）。除了这些用于训练语言模型的语料库之外，我们还为每个季度设置了一些推文（独立于训练集，没有重叠）。这些集被用作我们的困惑评估的测试集（见4.2节），每季度由30万条推文组成，这些推文以与原始语料库相同的方式进行采样和清理4评价在本节中，我们的目标是评估特定时间语言模型（见第3节）在特定时间任务上的有效性。换句话说，我们的目标是测试旧模型随着时间的推移可能出现的退化，并相应地测试这种情况是否可以通过持续训练来缓解。评价任务。我们在两个任务中评估了发布的语言模型：（1）TweetEval（Bar-bieriet al. ，2020），它由七个下游推文分类任务组成;以及（2）对从不同时间段采样的语料库的伪困惑。虽然第一次评估的目的只是为了验证基本语言模型的训练过程，但第二次评估是本文在评估方面的核心贡献，可以在不同的时间段测试不同的模型。4.1TweetEvalTweetEval（Barbieri et al. ，2020年）是一个统一的Twit- ter基准测试，由七个异构的+v：mala2277获取更多论文tweet分类任务它通常用于评估Twitter数据上语言模型（或更一般的任务不可知模型）的性能。通过这项评估，我们的目标只是为了显示与我们的包释放模型的一般竞争力评价任务。TweetEval中的七个推文分类任务是表情符号预测（Barbieri et al. ，2018），情绪识别（Mohammadet al. ，2018），仇恨言论检测（Basile et al. ，2019），反语检测（Van Hee et al. ，2018），攻击性语言识别（Zampieri et al. ，2019），情绪分析（罗森塔尔等人。， 2017 ）和姿态检测（Mohammad et al. ，2016）。实验设置。与TweetE-val原始基线相似，仅进行中度参数检索。唯一微调的超参数是学习率（1。0e−3，1. 0e−4，1. 0e−5）。每个模型训练的epoch数是可变的，因为我们使用早期停止来监控验证损失。验证损失也用于在每个任务中选择最佳模型。比较系统。比较系统（ SVM，FastText，BLSTM，RoBERTa-base和TweetEval）来自原始TweetEval论文以及最先进的BERTweet模型（Nguyen et al. ，2020年），它训练了超过9亿条推文（在2013年至2019年之间发布）。所比较的所有语言模型都是基于RoberTa的体系结构。结果TweetEval结果总结见表2。BERTweet是在大量数据上训练的，它获得了最好的平均结果。然而，当查看单个任务时，BERTweet的性能优于我们最新发布的两个模型，即，TimeLM-19和TimeLM-21，仅在反语检测任务2上。同样重要的是要强调，TweetEval任务包括最迟在2018年之前发布的推文这表明我们最新发布的模型（即TimeLM-21），即使训练到2021条推文，即使在过去的推文中也具有竞争力。事实上，在大多数任务中，TimeLM-21的表现优于最相似的TweetEval模型，该模型遵循类似的策略进行训练（在这种情况下，直到2019年才使用较少的推文进行训练）。2我们注意到，讽刺数据集是通过使用#irony标签的远程监督创建的，并且可能存在+v：mala2277获取更多论文Emoji情感讨厌讽刺进攻情绪立场所有SVM29.364.736.761.752.362.967.353.5fastText25.865.250.663.173.462.965.458.1BLSTM24.766.052.662.871.758.359.456.5ROBERTa-Base30.876.644.955.278.772.070.961.3TweetEval31.679.855.562.581.672.972.665.2BERTweet33.479.356.482.179.573.471.267.9时间LM-1933.481.058.148.082.473.270.763.8时间LM-2134.080.255.164.582.273.472.966.1度量M-F1M-F1M-F1F（i）M-F1M-Rec平均值（F1）TE表2：所有比较系统的TweetEval测试结果。4.2时间感知语言模型评估一旦在下游任务中测试了基础模型和后续模型的有效性，我们的目标是测量所发布的各种模型对更具时间意识的评估的敏感程度为此，我们依赖于伪复杂性度量（Salazar et al. ，2020）。评估指标：伪困惑度（PPPL）。Salazar等人（2020）引入的伪对数似然（PLL）得分这种方法特别适合于掩码语言模型，而不是传统的从左到右模型。伪困惑（PPPL）类似于标准困惑公式，使用PLL作为条件概率。结果表3显示了所有测试集中的伪困惑结果。作为主要结论，该表显示了在大多数测试集中（特别是那些同期的）评估旧数据时，更新的模型如何倾向于超越训练的模型这可以通过简单地观察表中各列中的递减值来理解3.不过，也有一些有趣的例外。例如，2020年第一季度和2020年第二季度的测试集，对应于冠状病毒大流行的全球开始尽管如此，在更现代的数据上训练的模型似乎会收敛到最佳结果。随着时间的推移退化一个模型要多久才会过时？总体而言，PPPL分数往往在一年后增加近10%。一般而言，PPPL似乎在每季度更新时持续下降这一结果加强了对更新语言模型的需求，即使是短时间的学习，比如三个月的季度。在大多数情况下，未来数据的退化通常大于旧数据。这种结果并非完全出乎意料，因为新模型也是在更多时间段内对更多数据进行训练的35Python接口在本节中，我们将介绍一个集成的Python接口，它将与本文中介绍的数据和语言模型一起发布。如第3.3节所述，所有语言模型都可从Hugging Face中心获得，我们的代码设计用于此平台。我们的界面，基于变形金刚包（沃尔夫等人。，2020年），专注于为特定时期和相关用例训练的语言模型提供简单的单行访问。我们的界面所使用的语言模型的选择是使用以下四种操作模式之一来确定的：(1) 其特定季度）;（3）定制：提供优选的日期或季度（例如， ‘2021-Q3’); and (4)‘quarterly’: using在指定了首选语言模型之后，代码中有三个主要功能，即：（1）计算伪困惑分数，（2）在我们发布或定制的测试集中评估语言模型，以及（3）获得掩蔽预测。用户可以测量选择的预训练语言模型被对齐的程度（即，熟悉）与给定的tweet列表（或任何文本）使用伪困惑（更多细节请参见第4.2节），如代码1所示计算。3在附录中，我们包括一个表格，详细说明了语言模型随时间的相对性能下降。+v：mala2277获取更多论文模型2020年第一季度2020年第二季度2020年第三季度2020年第四季度2021年第一季度Barbieri等人，2020年9.4209.6029.6319.6519.8329.92410.07310.247N/A2019- 90百万4.8234.9364.9364.9285.0935.1795.2735.362N/A2020年第一季度2020年第二季度2020年第三季度2020年第四季度2021年第一季度2021年第二季度2021年第三季度2021年第四季度2021-124M4.3194.2974.2794.2194.3224.3614.4044.489N/A表三：Twitter测试集中所有模型的伪困惑结果（越低越好），这些测试集是从不同季度（每个季度对应于三个月）中抽样的。Q1：1 - 3月; Q2：4 - 6月; Q3：7 - 9月; Q4：10 - 12月）。最后一列报告了伪困惑度的差异，比较了在前一个季度训练的模型和用同一季度的数据更新的模型之间为每个季度的测试集获得的值fromtimelmsimport TimeLMstlms = TimeLMs（device=tweets = [{'text'：'期待今晚观看鱿鱼比赛！' }]pseudo_ppls = tlms.get_pseudo_ppl（tweets，mode=代码1：使用最近可用的模型计算给定推文的伪PPL为了使用伪困惑对语言模型进行更广泛的评估，我们提供了2020年和2021年的测试数据的随机子集4为了评估Transformers包中的其他模型，我们提供了我们提供的子集）使用Transformers包支持的其他语言这两种评分方法不仅提供了每个模型特有的伪困惑分数（取决于指定的模型名称或 TimeLM 指定的模式），而且还提供了由不同模型分配给每个tweet的PLL分数。最后，可以很容易地获得对任何给定tweet或文本的掩码令牌的预测，如代码2所示。tweets = [{“text”：“So glad I<'mmask>vaccinated.“，“created_at”：“2021-02-01T23：14：26.000Z”}]preds = tlms.get_masked_predictions（tweets，top_k=3，mode=代码2：使用对应于tweet日期的模型获得屏蔽预测。需要tweets或texts带有token。4限制为5万条推文，这是Twitter允许的最大值所有测试tweet的ID都可以在存储库中找到请注意，虽然本文中包含的示例与特定日期相关联（即，created_at字段），这些仅对于“对应”模式是需要的6分析为了补充上一节中的评估，我们在两个重要方面进行了更详细的分析：（1）时间和大小之间的关系（第6.1节）和（2）定性分析，其中我们展示了时间对特定示例的语言模型的影响（第6.2节）。6.1时间和尺寸控制实验鉴于上一节中给出的结果，人们可能会很自然地想知道这种改进是否是由于训练规模的增加或额外数据的新近出现虽然这个问题不容易回答（答案可能介于这两个原因之间），但我们试图通过执行一个简单的控制实验来回答。我们用2021年第三季度（2021-Q3）两倍的训练数据训练了一个额外的语言模型。这样，训练推文的总数与训练到2021年第四季度（2021-Q4）的模型完全相同。考虑表4中的结果，我们发现在所有测试季度中，使用两倍Q3数据训练的模型优于使用默认Q3数据训练的模型。这证实了增加训练数据会提高语言模型性能的观点。当与训练到2021-Q4的模型进行比较时，结果显示2021-Q3-2x模型在4.5214.6254.6994.6924.8624.9525.0435.140--4.01%-2.15%-2.81%-2.89%-2.83%-3.26%-2.24%4.4414.4394.5484.5544.7164.8014.9025.0054.5344.5254.4504.4874.6524.7384.8314.9454.5334.5244.4294.3614.5714.6724.7634.8594.5094.4994.3994.3344.4394.5744.6684.7674.3764.3194.4114.4994.4814.4454.5704.6754.4714.4554.3354.2804.3664.3944.4224.5654.4674.4554.3304.2634.3514.3814.4024.463+v：mala2277获取更多论文模型2021年第二季度2021年第三季度2021年第四季度2021年第二季度4.4454.5704.6752021年第三季度4.3944.4224.565表4：比较季度模型的对照实验结果，其中2021-Q3模型使用该季度的两倍数据（2021-Q3-2x）进行训练。2021-Q2和2021-Q3测试集。然而，正如我们所预料的那样，模型在最近的数据中训练直到2021-Q4）在最近的测试集上获得最好的总体结果2021年第四季度）。这一结果增加了证据表明，同期的语言模型更适合最近的数据。6.2定性分析在这一节中，我们将在实践中说明，在不同季度接受培训的模型如何感知特定的推文。首先，我们使用他们的掩码语言模型头来预测上下文中的<掩码>令牌表5显示了我们每个季度模型的三条推文和相关属于最相关季度的模型展示了更符合该时期趋势的背景知识。在两个与COVID相关的例子中，我们观察到人们对全面接种疫苗（而不是未接种疫苗，这是2020-Q1模型的最高预测）的普遍认识不断提高，在前者中，在后者中，忘记口罩的可能性高于忘记与特定时期不太相关的其他服装，如充电器、打火机或钱包。最后，请注意如何，在最后一个例子，<”，只有在2021年第四季度，预测才会发生实质性变化，当时该模型已经暴露于对“鱿鱼游戏”节目的反应，与其全球发布时间重叠。我们的第二项分析涉及对需要了解与特定时期相关的趋势或事件的推文的伪对数似然（PLL）分数的可视化（图1）。事实上，最近的相反，我们观察到关于老真人秀的参赛者表 5 ：使用三个示例推文作为输入（使用mode='quartarily'）的随时间的掩蔽令牌预测对于每个季度模型，该表显示了按预测概率排名的前3个预测。图1：TimeLM语言模型在不同时间段训练的PLL分数，用于三个选定的推文。很高兴我我一直忘记带口罩。期待观看面具>今晚的比赛！2020年第一季度没有得到自我袋钱包充电器TheThis2020年第二季度没有得到充分口罩袋钱包TheEnd2020年第三季度没有得到充分口罩袋钱包TheEnd2020年第四季度没有得到充分袋钱包充电器TheEnd2021年第一季度不完全得到钱包充电袋TheEnd2021年第二季度完全没有得到袋式打火机TheThis2021年完全没有充电器袋钱包The+v：mala2277获取更多论文7结论在本文中，我们提出了TimeLM，在Twitter上训练不同时间段的语言模型。该计划还包括未来每三个月进行一次语言模型培训，从而为NLP从业者提供免费使用和最新的语言这些语言模型与一个简单的Python接口一起发布，该接口便于加载和使用这些模型，包括时间感知评估。在本文的评估中，我们不仅从理论角度，而且从实践角度展示了时间感知训练的相关性，因为结果表明，当模型用于未来数据时，性能明显下降，这是实践中最常见的设置之一。作为未来的工作，在语言模型中更突出地整合时间跨度变量将是有趣的，即，引入字符串前缀，沿着 Dhingra 等人的路线。（ 2021年）。引用奥申·阿加瓦尔和阿尼·年科娃。2021.时间效应对语言处理任务的预训练模型的影响。arXiv预印本arXiv：2111.12790。Francesco Barbieri，Luis Espinosa Anke，and JoseCamacho-Collados. 2021. Xlm-t：twitter的多语言模型工具包。arXiv预印本arXiv：2104.12250。Francesco Barbieri ， Jose Camacho-Collados ， LuisEs- pinosa Anke ， and Leonardo Neves. 2020.TweetE-val：推文分类的。在计算语言学协会的调查结果：EMNLP 2020，第1644计算语言学协会FrancescoBarbieri 、 JoseCamacho-Collados 、Francesco Ronzano、Luis Espinosa-Anke、MiguelBallesteros 、 Valerio Basile 、 Viviana Patti 和Horacio Saggion。2018. Semeval 2018任务2：多语言表情符号预测。第12届语义评估国际研讨会论文集，第24瓦莱里奥·巴西勒，克里斯蒂娜·博斯科，伊丽莎白·费尔西尼，黛博拉·诺扎，维维安娜·帕蒂，弗朗西斯科·曼努埃尔·兰格尔·帕尔多，保罗·罗索和曼努埃拉·圣吉内蒂。2019. SemEval-2019任务5：Twitter中针对移民和女性的仇恨言论的多语言检测。在 Proceedingsofthe13thInternational Workshop on Semantic Evaluation，pages 54-63 ， Minneapolis ， Minnesota ， USA中。计算语言学协会。伊兹·贝尔塔吉，凯尔·罗，还有阿曼·科汉2019.Scib- ert：一个用于科学文本的预训练语言模型。arXiv预印本arXiv：1903.10676。Magdalena Biesialska ， Katarzyna Biesialska ， andMarta R Costa-jussà. 2020.自然语言处理中的持续终身第28届国际计算语言学会议论文集，第6523马可·德尔·特雷迪奇拉奎尔·费尔南德斯和杰玛·博莱达2019. 短期意义转移：一种分布性探索。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第2069计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2018年Bert：深度双向转换器的语言理解预训练 arXiv 预印本 arXiv ：1810.04805。Bhuwan Dhingra ， Jeremy R Cole ， Julian MartinEisenschlos，Daniel Gillick，Jacob Eisenstein，and William W Cohen. 2021.作为时间知识库的时间感知语言模型。 arXiv 预印本 arXiv ：2106.15110。马腾·格罗滕多斯特2020. BERTopic：利用BERT和c-TF-IDF创建易于解释的主题。Yu Gu，Robert Tinn，Hao Cheng，Michael Lucas，NaotoJingyama ， XiaodongLiu ， TristanNaumann ， Jianfeng Gao ， and Hoifung Poon.2021.用于生物医学自然语言处理的领域特定语言模型预训练。ACM Transactions on Computingfor Healthcare（HEALTH），3（1）：1William L.Hamilton ， Jure Leskovec ， and DanJurafsky.2016. 词的历时嵌入揭示了语义变化的统计规律。在 Proceedings of the 54 th AnnualMeeting of the Associationfor ComputationalLinguistics（Volume 1：Long Papers），第1489-1501页，柏林，德国。计算语言学协会。瓦伦丁·霍夫曼，珍妮特·皮埃尔亨伯特，和辛里奇 · 舒茨。 2021. 动态语境化词嵌入。在Proceedings of the 59th Annual Meetings of theAssociation for Computational Linguistics and the11th International Joint Conference on NaturalLanguage Processing（Volume 1：Long Papers）中，第6970计算语言学协会Angeliki Lazaridou ， Adhiguna Kuncoro ， ElenaGribovskaya，Devang Agrawal，Adam Liska，etal.2021年静态语言建模的陷阱。arXiv预印本arXiv：2102.01951。Jinhyuk Lee ， Wonjin Yoon ， Sungdong Kim ，Donghyeon Kim ，Sunkyu Kim，Chan Ho So ，and+v：mala2277获取更多论文姜在宇2020. Biobert：一个用于生物医学文本挖掘的预训练生物医学语言表示模型。Bioinformatics，36（4）：1234KatherineLee 、 DaphneIppolito 、 AndrewNystrom、Chiyuan Zhang、Douglas Eck、ChrisCallison-Burch和Nicholas Carlini。2021.消除重复训练数据使语言模型更好。 arXiv 预印本arXiv：2107.06499。帕特里克·刘易斯，庞图斯·斯特内托普，塞巴斯蒂安·里德尔。2020.开放域问答数据集中的问答测试训练重叠。arXiv预印本arXiv：2008.02637。Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。arXiv预印本arXiv：1907.11692。大卫·洛佩斯·帕斯和马克·奥雷利奥·兰扎托。2017.持续学习的梯度情景记忆。神经信息处理系统进展，30：6467-6476。KelvinLuu，DanielKhashabi，SuchinGururangan，Kar- ishma Mandyam，and Noah ASmith.2021.时间不等人！节奏失调的分析和挑战。arXiv预印本arXiv：2111.07408。SaifMohammad，FelipeBravo-Marquez，Mohammad Salameh ， and Svetlana Kiritchenko.2018. Semeval- 2018任务1：影响推文。第12届语义评估国际研讨会集，第1Saif Mohammad ， Svetlana Kiritchenko ， ParinazSob- hani，Xiaodan Zhu，and Colin Cherry. 2016.Semeval-2016任务6：检测推文中的立场。在第10届语义评估国际研讨会（SemEval-2016）的会议记录中，第31阮达国，吴清，阮英。2020. Bertweet：一个预先训练的英语推文语言模型。arXiv预印本arXiv：2005.10200。Alec Radford ， Jeffrey Wu ， Rewon Child ， DavidLuan，Dario Amodei，Ilya Sutskever，et al. 2019.语言模型是无监督的多任务学习器。OpenAIblog，1（8）：9.Alex Rosenfeld和Katrin Erk 2018.语义转移的深层神经模型在计算语言学协会北美分会2018年会议论文集，第474萨拉·罗森塔尔，努拉·法拉，还有普雷斯拉夫·纳科夫.2017年。Semeval-2017任务4：Twitter中的情绪分析。第11届语义评估国际研讨会论文集（SemEval-2017），第502朱利安·萨拉扎，戴维斯·梁，托恩·Q。阮，和卡特琳·基尔霍夫。2020. 屏蔽语言模型评分。在第58届年会的会议记录中计算语言学协会，第2699-2712页，在线。计算机语言学协会。泰伦斯·西曼斯基2017.时间词类比：用历时词嵌入识别词汇替换。计算语言学协会第55届年会论文集（第2卷：短文），第448Cynthia Van Hee Els Lefever和Véronique Hoste 2018.Semeval-2018任务3：英语推文中的反讽检测。第12届语义评估国际研讨会论文集，第39Alex Wang、Yada Pruksachatkun、Nikita Nangia、Amanpreet Singh 、 Julian Michael 、 Felix Hill 、Omer Levy和Samuel R Bowman。 2019. Super-glue：通用语言理解系统的一个更有粘性的基准。arXiv预印本arXiv：1905.00537。Alex Wang ， Amanpreet Singh ， Julian Michael ，Felix Hill，Omer Levy，and Samuel R Bowman.2018. Glue：用于自然语言理解的多任务基准测试和分析arXiv预印本arXiv：1804.07461。Thomas Wolf ， Lysandre Debut ， Victor Sanh ，Julien Chaumond ， Clement Delangue ， AnthonyMoi，Pier- ric Ciudad，Tim Rault，Remi Louf，MorganFuntow-icz ， JoeDavison ， SamShleifer，Patrick von Platen，Clara Ma，YacineJernite ， Julien Plu ， Canwen Xu ， Teven LeScao ， Sylvain Gugger ， Mariama Drame ，Quentin Lhoest ， and Alexander Rush. 2020.transans-formers：最先进的自然语言处理。在2020年自然语言处理中的Em-pesticide方法会议论文集：系统演示，第38-45页，在线。计算语言学协会。MarcosZampieri 、 ShervinMalmasi 、 PreslavNakov 、 Sara Rosenthal 、 Noura Farra 和 RiteshKumar。2019. SemEval-2019任务6：识别和分类社交媒体中的攻击性语言（OffensE-val）。在Proceedings of the 13th International Work-shop onSemanticEvaluation，pages75-86，Minneapolis，Minnesota，USA.计算机语言学协会。+v：mala2277获取更多论文模型2020年第一季度2020年第二季度2020年第三季2020年第一季度2020年第二季度2020年第三季度2020年第四季度2021年0.00%0.04%2.29%3.94%3.78%7.52%9.52%11.53%13.68%0.00%2.46% 2.59%百分之十点四二百分之十二点七五0.00%0.82%4.53%6.47%8.54%11.10%11.43%7.39%-2.83%-0.77%0.00%2.83%5.19%-3.20%-1.26%0.00

下载后可阅读完整内容，剩余1页未读，立即下载