大规模多语言情感分类器的评估及数据集分析

156 浏览量更新于2023-12-01 收藏 1.44MB PDF 举报

性能比较

模型评估

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文大规模多语言情感分类器的评估Krzysztof Rajda1，2，Rukasz Augustyniak1，2，PiotrGramacki2，Mar cinGruza1，2，SzymonWoz'niak2Tomasz Kajdanowicz11人工智能系，弗罗茨瓦夫科技大学2品牌24 AI{krzysztof.rajda，lukasz.augustyniak}@pwr.edu.pl{piotr.gramacki，marcin.gruza，szymon.wozniak}@brand24.com摘要在寻找SOTA的但是，如果这2%的性能提升并没有在生产用例中产生差异呢也许更小、更快的模型带来的好处超过了那些轻微的性能提升。此外，在多语言任务中，跨语言的同样良好的性能比SOTA在单个任务上的结果更重要。我们提供了最大的，统一的，多语言的情感分析数据集。我们使用这些来评估27种语言的11个模型和80个高质量的情感数据集（收集的342个原始数据集），并包括内部注释数据集的结果。我们深入评估多个设置，包括微调基于变压器的模型以测量性能。我们从多个方面对结果进行了比较，以解决语言覆盖率和数据集大小的不平衡问题。最后，我们从多语言的角度提出了处理如此大量的数据集和模型的一些最佳实践1介绍多语言文本表示在科学界和商业界都变得越来越重要然而，它们究竟有多普遍和多功能？我们能用它们来训练一个多语言的、生产就绪的情感分类器吗？为了验证这个研究问题，我们收集了大量的情感分析数据集，并在这些数据集上评估了11种不同的模型。我们希望评估微调语言模型的性能，以及语言模型作为更简单的特征提取器，甚至是线性模型。情绪分析是主观的，并且既依赖于行为又依赖于语言，因此更需要了解多语言设置的行为和性能我们专注于多语言情感分类，我们的业务用例涉及分析世界各地多种语言的此外，生产环境中的一个通用模型更容易部署，维护，监控，消除偏见或提高模型我们希望比较最先进的多语言嵌入方法，并选择跨语言性能最好的方法。本文的主要目的是回答以下研究问题：（RQ1）我们是否能够创建一个单一的多语言情感分类器，对每种语言都表现得同样好(RQ2)基于transformer的模型的微调是否(RQ3)模型大小和性能之间的关系是什么？越大越好吗？我们的主要贡献包括三个要点。首先，我们对公开的情感数据集进行了大范围的审查使用一组严格的包含和排除标准，我们将342个数据集的初始池过滤为代表27种语言的80个高质量数据集。其次，我们评估了多语言文本表示对于情感分类问题的通用性和通用性最后，我们比较了许多基于深度学习的方法，包括微调和没有微调的多语言情感分类。本文的其余部分组织如下：第2节介绍了关于多语言情感分析主题的文献综述;第3节描述了语言模型，数据集和我们的评估方法;第4节描述了进行的实验并总结了结果;第5节讨论了研究问题的结果;第6节提出了结论并描述了进一步的工作。arXiv：2204.04937v1 [cs.CL] 2022年4月+v：mala2277获取更多论文2相关工作多语言文本表示。最初，多语言文本表示是使用多语言词嵌入获得的（Ruder et al. ，2019）。这些是使用各种训练技术、平行语料库和词典创建的，例如通过对齐单语言Word2Vec（Mikolov et al. ，2013 a）使用小参数字典进行线性变换的向量空间（Mikolov et al. ，2013 b）。为了更好地表示较长的文本，现代方法使用更复杂的上下文语言模型，如 BiLSTM（Artetxe和Schwenk，2019）和Transformers（ Feng et al. ， 2020; Conneau et al. ， 2020;Devlin等人，2019; Xue et al. ，2021; Yangetal. ，2020）。他们的多语言能力来自于对多语言目标任务的预训练，如机器翻译（Artetxe和Schwenk，2019），翻译语言建模（TLM）（ Con-neau et al. ， 2020 年 ; Conneau 和Lample，2019年）或翻译排名（Feng et al. ，2020; Yang et al. ，2019）。在我们的实验中使用的模型的细节在第3.1节中描述。多语言文本表示的质量通常通过跨语言和多语言任务进行评估，如跨语言自然语言推理（ Conneau et al. ， 2018 ），问答（ Lewisetal. ， 2020 ）、命名实体识别（ TjongKimSang ， 2002; Tjong Kim Sang 和 DeMeulder ，2003）或并行文本提取（Zweigenbaumet al. ，2017; Ziemski et al. ，2016）。另一个重要的基准是XTREME（Huet al. ，2020），旨在测试跨40种语言和9个任务的跨语言迁移能力。尽管XTREME具有庞大的特点，但它缺乏情感分析的基准任务，并且只有mBERT，XLM，XLM-R和MMTE被用作基线模型。我们试图用我们的工作来填补这个空白。K等人（2020）对mBERT的跨语言能力进行了广泛的研究。Wu和Dredze（2020）将mBERT与单语言模型进行了比较，发现它在低资源语言上表现不佳。 Liu等人（2020）分析了mBERT的跨语言能力，考虑到mBERT的上下文方面和数据集大小。尽管有mBERT，但对其他语言模型的特征的详细分析明显缺乏多语言情感分析。在文献中，有几个评论的例子，这些评论集中在传统的情感分析方法上（例如，基于词汇的，词汇特征工程，浅模型），而没有提到任何基于嵌入的方法（Dashtipour etal. ，2016; Sagnikaet al. ，2020）。它们是关于情感数据集的有价值的信息来源。然而，现代NLP应用程序通常使用深度学习技术，这在这里没有涉及Attia等人提出了一个基于深度学习的方法的例子。（2018），他在英语，德语和阿拉伯语文本的单词级嵌入上训练了卷积神经网络（CNN），每种语言都有一个单独的模型。这种方法需要许多资源和计算，因为必须为每种语言创建单独的嵌入字典。另一种方法是使用字符级嵌入 .Wehrmannet al.（2017）训练了这样一个模型，将用英语、德语、葡萄牙语和西班牙语撰写的推文分类为积极或消极。这种方法需要比词嵌入模型更少的多语言情感分析的新方法使用深度模型和机器翻译例如，Can等人（2018）在英语评论上训练了一个递归神经网络（RNN），并在俄语、西班牙语、土耳其语和荷兰语的机器翻译评论上对其进行了评估他们使用谷歌翻译API和预先训练的 GloVe 嵌入英语。 Kanclerz 等人（2020）使用激光句子嵌入来学习波兰评论的情感分类器，并使用该分类器来预测翻译成其他语言的评论的情感。正如我们所看到的，大多数研究只涵盖了几种用于情感分析的语言。因此，我们决定收集27种语言的342个数据集。3评价方法我们进行了几个实验来回答是否存在真正通用的多语言文本表示模型（表1）。我们基于文献中最大的情感分析数据集测试了它们的3.1多语种语言模型我们使用多种语言模型作为文本表示方法（表1）。我们的目标是选择在预训练中使用的架构、大小和数据类型方面不同的模型我们选择了两个不使用Transformer架构的模型（CNN和BiLSTM）作为基线。我们还使用了基于多个不同的Transformer架构的模型，+v：mala2277获取更多论文表1：实验中使用的模型-预训练中使用的推理时间、参数数量和语言，预训练模型注射时间[s]#params#语言碱基a数据参考MT51.69277M101T5CCB（Xue et al. ，2021年）激光1.6452M93BiLSTMOPUSc（Artetxe和Schwenk，2019）mBERT1.49177M104伯特Wiki（Devlin et al. ，2019年）MPNet**1.382.78亿53XLM-ROPUSc，MUSEd，Wikitlese（Reimers和Gurevych，2020）XLM-R-dist1.372.78亿53XLM-ROPUSc，MUSEd，Wikitlese（Reimers和Gurevych，2020）XLM-R1.372.78亿100XLM-RCC（Conneau et al. ，2020年）LaBSE1.36470M109伯特CC、Wiki +挖掘的双文本（Feng et al. ，2020年）DistilmBERT0.79134M104伯特Wiki（Sanh et al. ，2020年）博物馆区 **0.79134M53DistilmBERTOPUSc，MUSEd，Wikitlese（Reimers和Gurevych，2020）MUSE变压器 *0.6585M16Transformer挖掘QA +双文本，SNLI（Yang et al. ，2020年）mUSE-cnn*0.1268M16CNN挖掘QA +双文本，SNLI（Yang et al. ，2020年）* 在TensorFlow实现中使用了mUSE模型，而在torch中使用了其他模型aBase模型要么是基于单语言版本，要么是使用和采用的另一种多语言模型 b多语言版本的Colossal Clean Crawled Corpus（mC4） c来自OPUS网站（https：//www.example.com）的多个数据集，d来自MUSE（https：//github.com/facebookresearch/MUSE）的双语词典，e只是来自多语言opus.nlpl.eutures（T5，BERT，RoBERTA）.我们还包括使用多语言知识蒸馏（Reimers和Gurevych，2020）训练的模型，我们还包括在维基百科（Wiki）或Common Crawl（CC）等多语言语料库上训练的模型，以及使用并行数据集训练的模型。所选型号尺寸不同- 从52M参数的LASER到470M的LaBSE。它们在覆盖的语言方面也有所不同我们所说的语言数量，是指有多少种语言被用来创建特定的模型，而不是模型支持的所有语言（例如MPNet，使用53种语言训练，但由于它基于XLM-R，它支持100种语言）。我们还比较了从所有数据集中随机选择的500个文本样本的平均推断时间使用的硬件如第A.1节所述。我们在文献中搜索了类似任务中的模型比较，但没有找到任何比较超过2或3个模型的表1中描述了所有使用的模型。3.2数据集我们收集了342个情感分析数据集，其中包含来自多种语言、数据源和领域的文本我们搜索了各种来源的数据集，如Google Scholar，GitHub存储库和HuggingFace数据集库。如此大量的数据集使我们能够估计局域网的质量在各种条件下的计量模型具有更大的确定性。据我们所知，这是目前文献中收集和研究的经过初步分析，我们根据5个标准选择了80个质量合理的数据集。(1)我们拒绝了包含弱注释的数据集（例如，具有基于表情符号出现或通过机器学习模型分类自动生成的标签的数据集），因为我们的分析表明它们可能包含太多噪声（Northcuttet al. ，2021年）。(2)我们拒绝没有关于注释过程的足够信息的数据集（例如，注释是手动的还是自动的、注释者的数量），因为合并用不同注释指南创建的数据集总是一个有问题的决定。(3)我们接受评论数据集，并将其评级标签映射到情感值。映射规则见第3.2.1节。(4)我们拒绝了仅2类数据集（阳性/阴性，无中性），因为我们的分析显示它们在3类使用方面的质量较低。(5)有些数据集包含多种语言的样本-我们将它们拆分，并将每种语言视为单独的数据集。3.2.1数据预处理处理多个数据集意味着它们可能包含不同类型的文本、各种工件（如URL或HTML标记），或者只是不同的senti- ment类映射。我们对每个数据集应用了几个预处理步骤来统一所有数据集。我们删除了重复的文本。我们删除了URL、Twitter提及、HTML标签和电子邮件。期间+v：mala2277获取更多论文表2：选定的80个高质量数据集的摘要分类：N-新闻，O-其他，R-评论，SM-社交媒体计数类别样品N O RSMNEG NEU英语17阿拉伯语9西班牙语5中文2德语6波兰语4法语3日语1捷克语4葡萄牙语4斯洛文尼亚语2俄罗斯2克罗地亚语2塞尔维亚语3泰国2保加利亚语1匈牙利语1斯洛伐克语1阿尔巴尼亚语1瑞典语1波斯尼亚语1乌尔都语1印地语1波斯语1意大利语2希伯来语1拉脱维亚语13 4 460 1 440 1 320 0 200 0 150 0 220 0 120 0 100 0 220 0 041 0 010 0 021 0 010 0 210 0 110 0 010 0 010 0 010 0 010 0 010 0 010 1 000 0 010 0 100 0 020 0 010 0 01305，782 289，847 1734，857139，173 192，463 600，439110，156 120，668118，023 68，953105,416 99,291 11118078，309 61，041 97，33884，324 43，09783，985 41，976 83，81939，687 59，181 97，41957，737 54，145 45，95234，178 50，055 29，31032,018 47,852 3106019，907 19，298 38，38925，580 31，762 19，0269，327 28，615 34，37714，040 28，543 19，5679，004 17，590 30，08814，518 12，735 29，3706，958 14，675 22，65116，664 12，912 11，77012，078 11，039 13，0665，244 8，580 5，8364，992 6，392 5，6151，619 5，074 6，8324，043 4，193 3，8292，283 238 6，0981，379 2，617 1，79442 23328 159145 864四十八-19 13139 24519 10860-29 16812 73161 105411 7386 556176 109418 31712 8511 8313 9713 9014 9412 7513 6927 12821 10416 10422 11020 138通过探索性分析，我们发现基于评论的数据集通常包含许多重复的文本，这些文本的情感得分相互矛盾。我们对这些案例进行了重复数据删除，并应用多数投票来选择情感标签。最后，我们将所有数据集的标签统一为3类（阴性，中性，阳性）。在数据集包含用户评级（1-5级）及其评论文本的情况下，我们将评级映射到情绪如下：评级量表的中间值（3）被视为中性情绪，低于中间值的评级为负面情绪，高于中间值的评级为积极情绪。呈现27种语言的80个数据集的统计数据我们检查了数据集的不同聚合和排序，以使其统计数据尽可能易于阅读可用于讨论结果我们决定按语言对数据集进行分组，然后根据每个集合中的示例数量对它们进行排序-表2。我们总共选择了80个数据集，包含6，164，942个文本样本。数据集中的大部分文本为英语（17个数据集的2，330，486个样本）、阿拉伯语（9个数据集的932，075个样本）和西班牙语（5个数据集的418，892个样本）。这些数据集包含来自不同类别的文本：社交媒体（44个数据集），评论（24个数据集），新闻（5个数据集）和其他（7个数据集）。它们在例子中的平均字数和字符所用数据集的详细信息见表5和表6。我们还选择了大约6万个样本进行训练和验证，另外6万个样本进行测试。这足以在上面训练一个小分类器。+v：mala2277获取更多论文表3：内部数据集郎样本NEG NEU POSpl2968百分之十四百分之六十百分之二十六en943百分之四百分之七十四百分之二十二冻结嵌入或微调基于Transformer的模型（参见第3.3节）。这也是由于计算资源的限制。3.2.2内部数据集我们还使用了人工注释的内部数据集它是多领域的，由来自波兰语和英语的各种互联网来源的文本组成它包括来自社交媒体、新闻网站、博客和论坛的文本。我们将此数据集作为黄金标准。我们需要它，因为我们不知道来自文献数据集的确切注释指南在我们的gold数据集中，每个文本由3个注释器注释，大多数标签选择。注释者达到了科恩的kappa：0测量的高度一致性。665，克里彭道夫α系数为0. 666.该数据集的统计数据见表3。将所有样品修剪至350个字符的长度（平均长度为145个字符）。3.3实验场景我们希望在不同的用例中比较多语言模型首先，我们想看看有多少信息存储在预训练的嵌入中。在这种情况下，我们使用第3.1节中列出的每个文本表示模型作为特征提取器，并将它们与一个小的线性分类头耦合。我们使用最终层的平均值我们将参考这个场景只是头部-线性。在第二种情况下，我们用BiL-STM分类器替换了线性分类器，仍然使用文本表示模型作为特征提取器。我们为BiLSTM层提供了来自特征提取器（Just Head-BiLSTM）最后一层的输出LASER和mUSE不提供每个令牌的嵌入，因此不包括在此场景中。由于我们的大多数模型都是基于变压器的，我们决定在微调设置中测试它们。最后一个场景评估了所有基于transformer的模型的微调（称为微调），但mUSE-transformer除外，因为我们在Py- Torch中使用Huggingface模型的实现是不可能的。对于每个场景，我们准备了3个测试指标，我们称之为整体测试，按数据集和内部平均。它们中的每一个单独测量模型性能，但它们都是基于宏观F1分数。整个测试是根据3.2组合中描述的数据集的所有样本它旨在反映模型的真实性能，因为我们的现实世界应用程序经常处理语言分布的不平衡（英语是互联网上使用的最流行的语言）。按数据集平均，我们首先计算每个数据集的宏F1分数，然后计算这些分数的平均值。这意味着该模型对于大多数语言或最大的数据集是否过于拟合。最后，在内部场景中，我们在我们的内部数据集（在3.2.2中描述）上评估它们，以衡量我们特定于域的示例中的性能。3.4评价程序为了展示每个模型在鸟瞰图中的表现，我们为所有三个实验设置准备了Nemeneyi事后统计检验发现不同的模型组。它被用于多重比较Friedman 检验的顶部（ Demšar ， 2006 ）。Nemeneyi检验对所有模型的秩进行成对比较。我们使用alpha等于5%。Nemeneyi检验为彼此没有显著差异的比较组3.5模型设置对于每个场景，我们调整了超参数。对于线性和微调，隐藏大小设置为LM的嵌入大小，对于BiLSTM设置为32。所谓隐藏大小，我们指的是中间线性层大小，或者在BiLSTM的情况下-它的隐藏大小参数。BiLSTM使用较小的隐藏大小，因为我们的实验表明它不会损害性能，但会提高效率。所有场景的学习率最初都是相同的，即公认的1 e-3值然后，我们对每个版本进行了修改，减少了微调（到1 e-5），并稍微增加了基于BiLSTM的模型（5e-3）。批处理大小由GPU的内存大小决定。我们使用200个用于线性和BiLSTM，6个用于微调。我们在BiLSTM的分类头中使用了dropout-0.5，0.2 for other scenarios场景.我们在微调场景中训练了5个时期，在两个场景中训练了15个时期+v：mala2277获取更多论文(a) 仅头部-线性(b) Just head -BiLSTM(c) 微调图1：根据每个数据集其他的，因为这些是模型开始过拟合之前的最大时期数。我们在验证数据集上使用最佳F1分数进行测试。4结果我们将结果分为三层。首先，我们展示了所有模型的总体鸟瞰然后，我们为每个数据集的每个模型提供详细的结果。最后，为了更深入地挖掘模型4.1鸟瞰在基于Nemenyi图的任何测试场景中，都没有明显最佳的嵌入模型-图1。然而，我们可以看到 MPNet 被证明是最好的（对于线性场景），并且不比最好的更差- XLR-M模型-在其他两种情况下。值得一提的是，基于 mBERT 的模型（ mBERT 和DistillmBERT）被证明是我们任务中最差的4.2按数据集与从文本中提取向量然后应用线性（高达0.61）或BiLSTM（高达0.64）层相比，所有模型都通过微调（高达0.7 F1分数）获得了更好的结果，如表4所示。与mod相比，在MLM和TLM任务（如mBERT或XLM-R）上预训练的微调模型的性能增益更高。表4：模型的汇总结果（F1评分，%）。突出显示每个测试集的最佳结果。（W -整体测试，A -平均值。按数据集，I -内部）XLM-RLaBSEMPNetXLM-R-distmT5mBERTDistilmBERT博物馆区激光mUSE-trans.mUSE-cnnJust Head -线性W62626360595655 59555554一51545551494543 50474745我 55616156504338 60504950Just Head -BiLSTMW6662636265605962- -一5755565456494854- -我 6463646363544864- -微调WAI68686767666564 六十三 --616262626056 56 五十六--706965676757 58 六十--ELS，其用句子分类任务、句子相似性任务或类似任务（如LaBSE）训练。例如，mBERT在整个测试中获得了 9 、11 和14个百分点（pp），数据集和内部测试用例的平均值，Distilm-BERT-9、13和20 pp，XLM-R-6、10和15 pp。与此同时，LaBSE只有6、8和7pp，MPNet只有4、7和4pp。尽管如此，这些模型实现了更好的整体性能。微调减少了模型之间结果的不平等（0.55 vs在Just head-线性设置中，最佳和最差模型为0.43，通过数据集度量对平均值进行微调后为0.62 vs 0.56）。这些结果旨在显示微调模型与仅训练分类头之间的一般比较。在transformer token嵌入之上的额外BiLSTM层在大多数情况下改进了仅具有线性层的模型的结果。差异在我们内部数据集的结果中最为明显，其中结果甚至改进了13页。(from 50%至63%）。这些结果表明，三个模型是最有前途的选择：XLM-R，LaBSE和MP-Net。它们在所有场景和测试用例中实现了相当的性能。此外，它们在几乎所有的测试用例中都优于其他模型。XLM-R-dist非常接近这些，但用Nemenyi图分析表明，它比这三个略差。+v：mala2277获取更多论文图2：模型比较的详细结果图例：lang-所有语言的平均值，ds-数据集的平均值，ar-阿拉伯语，bg-保加利亚语，bs-波斯尼亚语，cs-捷克语，de-德语，en-英语，es-西班牙语，fa-波斯语，fr-法语，he-希伯来语，hi-印地语，hr-克罗地亚语，hu-匈牙利语，it-意大利语，ja-日语，lv-拉脱维亚语，pl-波兰语，pt-葡萄牙语，ru-俄语，sk-斯洛伐克语，sl-斯洛文尼亚语，sq-阿尔巴尼亚语，sr-塞尔维亚语，sv-瑞典语，th-泰语，ur-乌尔都语，zh-中文。4.3 每种语言我们评估了每个模型在每个实验场景中关于语言的表现通过语言和类别标签分层对文本进行子采样，使得测试数据集中的语言分布反映了整个数据集中的语言分布。这意味着一些语言的代表性不足。我们还在列“全部”中包括总的宏F1得分值。微调方案的结果见图2，其他方案的结果见图5。这些结果证实了上一节关于XLM-R、LaBSE和MPNet优势的结论。它们在大多数语言中具有最佳性能，与XLM-R-dist一起，它们之间没有太大的差异。5讨论我们是否能够创建一个单一的多语言情感分类器，对每种语言都表现得当在微调设置中只考虑最佳模型（XLM-R，LaBSE，MPNet）时，我们观察到它们在每种语言中都能获得最佳或接近最佳的结果-图5。在某些语言中，结果明显比其他语言差，但对于评估的其他模型也是如此，因为这可能是由这些语言中样本数量、质量和样本因此，我们可以说，一个模型可以在所有语言中工作得非常好另一方面，在图1a、1b和1c中以Nemenyi图的形式呈现的统计分析表明，图3：按规模和场景划分的模型结果微调设置，所以不可能说哪一个是最好的。我们可以更确切地说，哪组模型被证明明显优于其他模型。RQ2：基于transformer的模型的微调是否显著改善了情感分类结果？所有模型在微调时都能更好地工作，但性能增益各不相同。它在4（mUSE-dist）和9（mBERT和DistilmBERT）pp之间。基准测试数据集上的F1，并且在0（mUSE-dist）和20pp之间。（DistilmBERT）在我们的内部数据集上。第17、15、14页内部数据集上mT5、XLM-R和DistilmBERT的增益也值得注意。一般来说，在仅使用语言建模（MLM或TLM）训练的模型中可以观察到最显著的增益，例如XLM-R和mBERT。+v：mala2277获取更多论文RQ3：模型大小和性能之间的关系是什么？越大越好吗？实验结果表明，语言模型的分类结果与其参数个数之间存在着相关性图3显示，对于所有场景和测试数据集类型，在大多数情况下，更大的模型可以实现更好然而，也有一些反例，例如，mUSE-dist比mBERT小，但在所有数据集类型的Just head - Linear设置中实现了更好的性能。这表明模型的大小是影响其性能的重要因素，但其他因素，如预训练任务的域和类型，也可能影响结果。此外，我们观察到这种相关性在微调后较弱我们经常可以找到性能与最佳模型相似的模型，但对于生产环境来说，它要小得多，速度也更快为了确定哪种模型效果最好，我们重复进行了五次微调，以便为每个模型和数据集二次采样移除一个正确/错误的随机种子因子。由于计算资源的限制，我们选择了八个模型在Huggingface微调。有趣的是，我们可以看到其中一个样本看起来像离群值-几乎所有评估模型的图4该样本的F1分数我们研究了这种异常，发现它总是相同的样本（用于样本生成的相同种子）。需要提醒的是，由于我们收集了大量的数据集并且计算资源有限，因此我们对五次运行中的每一次都进行了文本不同模型之间的子样本保持相同。看起来所提到的样品比其他样品更难或具有独特的特征。如果没有深入的分析，很难解释原因，因此我们打算使用噪声比等技术对感测分析任务中的数据质量进行进一步研究（Northcutt等人，2009年）。，2021 ）或数据制图（ Swayamdipta et al. ，2020）。在这里，我们看到了一个突出的例子，说明数据集的准备对于训练/开发/测试集的分割是多么重要6结论和进一步工作在这项工作中，我们通过比较多种方法，使用不同的图4：使用不同种子进行多次微调实验的结果。深度学习方法在这个过程中，我们收集了最大的多语言情感数据集-27种语言的80个数据集。我们评估了11个模型（语言模型和文本矢量化技术）在3个不同的场景。我们发现，在我们收集的数据集中，可以创建一个在所有语言中实现最佳或最具竞争力结果的模型，但性能最好的模型之间没有统计差异我们发现，微调基于transformer的语言模型有很大在进行实验时，我们发现了值得解决的进一步问题。数据集质量评估在我们看来是最重要的一个，我们计划在进一步的工作中解决它。同时，我们使用了具有文献背景的数据集，并相信它们是经过精心准备的，并且具有良好的质量注释。我们还发现，很难提出一个连贯的实验方法，这种语言和数据集大小的不平衡。此外，当必须解决数据集、语言、数据源、模型和实验场景的维度时，分析结果是困难的。最后，我们发现，当对数据集进行二次采样以进行实验时，种子起着重要的作用（参见图4中的结果）。为了分析这种现象，我们打算开展进一步的研究并使用噪声比（Northcutt etal. ，2021）和数据汽车制图（Swayamdipta etal. 2020年），以了解这种分裂与其他分裂的区别。在我们看来，这将是一个良好的开端，全面分析我们打算执行的多语言情感分类任务的数据集质量。+v：mala2277获取更多论文确认这项工作得到了弗罗茨瓦夫科技大学人工智能系和欧洲区域发展基金（ERDF）2014-2020年RPDS.01.02.02-02-0065/20）。我们感谢您发送编修。我们会重新检视您的建议。我们要感谢我们的注释员团队- Barbara Ordowska，Daria Sza-Piramacha，KonradGajewski 和 PawesternOdrowaPirzstec-Sypniewski。引用Marwan Al Omari，Moustafa Al-Hajj，NacereddineHammami，and Amani Sabra. 2019. 情绪分类因子：黎巴嫩阿拉伯军队的逻辑回归分析在2019年国际计算机与信息科学大会（IC-CIS）上，第1穆罕默德·阿里和阿米尔·阿蒂亚。2013. LABR：一个大规模的阿拉伯语书评数据集。在Proceedings of the 51st Annual Meeting of theAssociationforComputationalLinguistics（Volume 2：Short Papers），pages 494-498，Sofia，Bulgaria.计算语言学协会。亚当·阿姆拉姆，阿纳特·本·大卫，和鲁特·察尔法蒂。2018. 形态丰富语言的神经情感分析中的表示和架构：现代希伯来语的案例研究。第27届国际计算语言学会议论文集，第2242-2252页，美国新墨西哥州圣达菲。计算语言学协会。Mikel Artetxe和Holger Schwenk 2019. 大规模多语言句子嵌入零镜头跨语言传输和超越。Transactions of the Association for ComputationalLinguistics，7：597-610.Mohammed Attia ， Younes Samih ，Ali Elkahky ，and Laura Kallmeyer. 2018. 使用卷积神经网络的多语言多类情感分类。在第十一届国际语言资源与评估会议上，日本宫崎。欧洲语言资源协会（ELRA）。放大图片作者：Alaa Khaddaj，Hazem M.哈吉，瓦西姆 · 哈吉，哈立德 · 巴希尔 · 沙班。 2018.ArSentD-LEV：A Multi-Topic Corpus for Target-Based Sentiment Analysis in Arabic LevantineTweets. 第十一届语言资源与评估国际会议（LREC 2018），法国巴黎。欧洲语言资源协会（ELRA）。Francesco Barbieri、Valerio Basile、Danilo Croce、Malcolm Nissim 、 Nicole Novielli 和 VivianaPatti。2016. Evalita 2016 SENTIment极性分类任务概述。在第三届意大利计算语言学会议（CLiC-it 2016）&上，意大利语自然语言处理和语音工具的第五次评估活动。最终研讨会（EVALITA 2016），那不勒斯，意大利。Mohaddeseh Bastan 、 Mahnaz Koupaee 、 YoungseoSon、RichardSicoli和NiranjanBalasubramanian。2020. 作者第28届计算语言学国际会议论文集，第604-615页，巴塞罗那，西班牙（在线）。国际计算语言学委员会。你在巴丹岛，你在波利岛，米兰在米洛斯岛。2016年。资源有限语言中情感分析的可靠基线：塞尔维亚电影评论数据集。第十届国际语言资源与评估会议论文集（ LREC 欧洲语言资源协会（ELRA）。VukBatan o vi c'，Miloirc v et a n o v ic'，andBoirk oNik ol ic'. 2020. 一个多功能的框架，用于资源有限的情感表达，注释和短文本。PLOS ONE，15（11）：1Henrico Brum 和 Maria das Graças Volpe Nunes 。2018.建立tweets的情感语料库巴西葡萄牙语第十一届语言资源与评估国际会议（ LREC2018 ），日本宫崎。欧洲语言资源协会（ELRA）。JožeB uca r，Martinnidarši c，andJanezP o vh. 2018年斯洛文尼亚语注释新闻语料库和情感分析词典。 Language Resources and Eval-uation ， 52（3）：895埃森·F Can，Aysu Ezen-Can，and Fazli Can. 2018.多语言情感分析：基于RNN的有限数据框架。计算研究仓库，arXiv：1806.04511。版本1.Emile Chapuis，Pierre Colombo，Matteo Manica，Matthieu Labeau，and Chloé Clavel. 2020. 口语对话。在计算语言学协会的调查结果：EMNLP2020，第2636-2648页，在线。计算语言学协会。Mark Cieliebak，Jan Milan Deriu，Dominic Egger，and Daughh Uzdilli. 2017. 德国情绪分析的Twitter语料库和基准资源。第五届社交媒体自然语言处理国际研讨会论文集，第45-51页，西班牙瓦伦西亚。计算语言学协会+v：mala2277获取更多论文Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练. 第33届神经信息处理系统集，Red Hook，NY，USA。柯兰联合公司Alexis Conneau，Ruty Rinott，Guillaume Lample，Adina Williams ， Samuel Bowman ， HolgerSchwenk，and Veselin Stoyanov. 2018. XNLI：评估跨语言句子表示。2018年自然语言处理经验方法会议论文集，第2475-2485页，比利时布鲁塞尔。计算语言学协会。Fermin L Cruz ， Jose A Troyano ， FernandoEnriquez，and Javier Ortega. 2008.西班牙语电影评论的情感分类实验。 Proce-samiento delLenguaje Natural，41：73Kia Dashtipour，Soujanya Ruman，Amir Hussain，Erik Cambria，Ahmad YA Hawalah，Al

下载后可阅读完整内容，剩余1页未读，立即下载