跨语言迁移以抵消因果关系检测

51 浏览量更新于2023-11-30 收藏 540KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

501→探索跨语言迁移以抵消因果关系检测瑞典乌普萨拉大学德国波鸿鲁尔大学电子邮件：ruhr-uni-bochum.de摘要寻找文本中的因果关系是许多类型的文本分析的重要任务这是一项具有挑战性的任务，特别是对于许多没有或只有很少注释的训练数据的语言。为了克服这个问题，我们探索跨语言的方法。我们的主要重点是瑞典语，我们的数据量有限，我们探索从英语和德语转移。瑞典乌普萨拉萨拉大学Sara. lingfil.uu.se1引言事件检测是分析大量文本的重要步骤一种重要的关系类型是因果关系，表达了原因如何导致结果。瑞典语的例子1说明了这一点，因为它包含一个原因åsknedslag（“雷暴”），其后果bränder（“火灾”），这种关系通过使用因果连接词tillföljdav（“作为”的后果“）而变得明确。我们还提供以英语为源语言的德语的其他结果。我们探索了一个零拍摄的设置，（1）Efter后布伦德火灾直到作为弗尔伊德后果奥斯克涅德斯拉格雷霆och和目标训练数据，以及具有少量目标数据的几次射击设置另一个挑战是，奥夫里加其他肯达已知布兰德多萨克火灾原因范斯存在索特尔烟囱火灾不同数据集的方案不同，我们讨论如何解决这个问题。此外，我们探讨了不同的影响，och和奥夫里加其他埃尔斯塔德壁炉相关布伦德火灾som作为内斯塔下句子表征的类型我们发现，我们有最好的结果为瑞典语与德语作为源语言，我们有一个相当小的，但兼容的数据集。我们能够利用有限数量的噪声瑞典训练数据，但前提是我们平衡其类别。此外，我们发现，新的基于transformer的表示可以更好地利用目标语言数据，但基于递归神经网络的表示在零触发设置中具有令人惊讶的竞争力CCS概念• 计算方法学;话语、对话和语用学;信息提取;神经网络。关键词因果关系，因果检测，跨语言迁移ACM参考格式：塞巴斯蒂安·雷曼和莎拉·斯蒂姆恩2022.探索跨语言传输以抵消因果关系检测的数据稀缺性。在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。ACM，美国纽约州纽约市，8页。https://doi.org/10.1145/3487553.3517136本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3517136kategori。类别.’After fires as a consequence of thunderstorms andother known causes of fire, there were chimney firesand other例如，确定这些句子可以成为政府报告影响评估的一个重要步骤，这是我们的最终目标。在大量不断增长的文本数据中识别因果关系，可以让政府机构跟踪、分析和预测公共部门的发展，从而也可以预测社会的发展。然而，在这项任务上训练监督神经模型的适当注释数据仍然是一个挑战，因为数据通常很少或根本不可用。例如瑞典语，理论上可以被认为是一种中等资源的语言，大型维基百科在mBERT等资源中提供了相当好的表示[5]。不幸的是，它缺乏任何用于因果关系检测的注释数据。然而，对于相关语言英语和德语，有可用的数据集，尽管与我们的目标不完全匹配，但使我们能够探索跨语言学习。根据[23]的迁移学习旨在通过利用从源域获得的知识来提高目标域中的任务的性能跨语言迁移表示这种迁移学习的情况，其中源域通过源语言（有时也称为迁移语言）表示，目标域通过特定的目标语言表示，并且这可以帮助解决训练数据的缺乏在本文中，我们探索了两种设置，零镜头学习，我们只使用来自源语言的训练数据和少量学习，我们还添加了来自目标语言的有限数量的训练数据mBERT [5]等多语言表示具有WWWSebastian Reimann和Sara Stymne502已经证明在零射击设置中的一系列任务[24，32]中产生良好的结果，其中没有目标语言和任务的训练数据然而，使用少量学习，即使目标任务只有少量的语言注释数据，也可能导致竞争性结果[21]。在本文中，我们的主要重点是对瑞典语的因果关系检测我们通过对不同语言的训练和测试来研究零次迁移，并研究添加少量目标语言数据的潜在收益。以前的工作[11，21]表明，只需几个小时的注释工作就可以大大提高结果。因此，我们还研究了如何快速注释的小瑞典数据集可以用于训练。为了评估我们的方法，我们注释了一个测试集，用于瑞典语句子级因果关系检测，其中的任务是决定一个句子是否包含因果关系。来源的差异是另一个挑战。两个英语数据集之间存在相当大的差异，我们用于训练跨语言模型的德语数据集，以及我们的瑞典数据集之间的差异。在以前的跨语言参数挖掘工作中，例如[9]，来自不同来源的数据集之间的域不匹配导致了问题。在我们研究中使用的数据集中，何时考虑句子因果关系的指导方针不同，注释的水平也不同，因果和非因果示例之间的平衡也不同。在所有情况下，都可以将数据集转换为事件级因果关系检测，以便我们可以将它们用于我们的目标。为了进一步阐明跨语言的因果关系检测，我们还进行了探索性的实验，德语作为目标语言。我们的主要目标是：研究哪种类型的多语言预训练嵌入可能最有益，将基于Transformer的mBERT [5]和XLM-RoBERTa [3]与基于递归神经网络的LASER [1]嵌入进行探索来自不同注释项目的注释方案的影响，因为当前任务的数据仍然相对稀缺研究在多大程度上跨语言迁移的因果关系检测可能受益于额外的目标语言数据的训练总之，我们发现，用于零发射传输和因果关系检测的LASER通常至少能够与较新的基于Transformer的模型竞争。然而，它不能充分利用额外的训练数据，另一方面，这对mBERT和XLM-R的性能有很大的影响，尽管并不总是以积极的方式。我们的研究结果还进一步强调了一致的注释指南的重要性2以前的工作2.1因果关系检测早期的自动检测因果关系的尝试是基于规则的，并且集中在词汇模式以及形态和形态句法线索上[10，17]。后来的工作开始使用机器学习，例如决策树分类器将不同的词汇和句法特征作为输入来学习可以检测因果关系的规则[12]。除了决策树，支持向量机机器（SVM）已经被证明是有用的。SemEval-2010任务8中关于语义关系（包括因果关系或因果关系）分类的大多数贡献都使用了SVM [15]，包括性能最佳的贡献[27]。最近，神经网络已被用于检测因果关系，例如[4]，BiLSTM将GloVe 词向量加上基于 POS 标签的语言特征，依赖关系和WordNet名词层次结构作为输入，用于查找因果句子并提取相应的原因，结果和因果连接词。在FinCausal 2020共享任务[22]的第一个子任务中，专注于因果关系的二进制分类，基于Transformer架构[30]的预训练语言模型，特别是BERT [5]，占主导地位，集成架构[13，28]是性能最好的系统之一然而，所提供的基线[22]仅使用英语基于BERT的模型，在其上有一个dropout层和一个线性回归层，从而产生了强大的性能。2.2多语言预训练嵌入和跨语言迁移LASER（Language Agnostic Sentence Representations）[1]代表了一种尝试，即提供可用于各种语言的NLP任务的句子表示。这些句子表示基于递归神经网络，在这种情况下是BiLSTM [14，16]。句子表示通过BiLSTM编码器获得，通过将93种不同语言的句子翻译成英语和西班牙语，对机器翻译任务进行了预训练。对多语言自然语言推理（XLNI）和以英语为源语言的文档分类的实验结果表明，XLNI的准确率在62%~ 72%之间，而XLNI的准确率在60%~ 85%之间。Devlin等人 [5]提供了基于Transformer的BERT（mBERT）的多语言版本，除了单语言版本之外，例如因果关系检测也是成功的[22]。它是在一个掩蔽的语言建模和一个涉及整个维基百科104种语言的下一个句子预测任务上进行预训练的。在NER和英语、德语、荷兰语和西班牙语的零射击实验中，mBERT的准确率在65%到75%之间。对于使用mBERT的零射击POS标记，准确率甚至在80%到90%之间这些实验后来得到了扩展，涵盖了38种语言、零触发文档分类和XNLI [32]。研究还发现，mBERT的各层在对99种不同语言的句子进行测试时，平均能够以96%的准确率识别相应的语言，这表明每一层至少在一定程度上包含语言特定的信息。另一个预训练的基于 transformer 的模型是 XLM （ X-LingualModel），除了掩蔽语言建模之外，还在额外的机器翻译任务上进行了预训练[19]。XLM最终在零发射XNLI上超过了mBERT。Conneau等人引入了XLM的进一步改进版本XLM-RoBERTa（XLM-R），它只使用掩蔽语言建模任务进行预训练，使用更大的语料库，更大的词汇量和更多的隐藏状态[3]。它在零射击NER，XNLI和问答上的表现优于mBERT和XLM。···探索跨语言迁移以抵消因果关系检测的数据稀缺性WWW503→→表1：英语培训和发展数据的分布，包括因果关系示例的百分比SE+FC因果关系百分比%半评价% SE+FC-c%21，478次列车9.37 13，4787.497,20012.06 8，21022.87Dev 8，6296.62 8，6296.6280016.88 1，36951.42进一步表明，在各种大小的目标语言数据上微调mBERT和XLM-R，从10到1000个额外的句子可以导致改进[21]。对于大多数任务，即使只有十句话，也能看到改进。这种改善在与英语无关的语言中更为明显。大多数关于零镜头传输的工作都使用英语作为源语言。然而，已经表明使用其他语言通常是有益的，即使其他语言是从英语机器翻译的[29]。特别是在这里，德语和俄语通常作为源语言在任务和目标语言中工作得很好。3数据在本节中，我们描述了新注释的瑞典数据，以及现有的英语和德语数据集，包括我们必须对它们进行的修改，以适应瑞典的目标。表1和表2显示了数据概述3.1英语英文数据由两个先前共享任务的数据集组成：SemEval-2010任务8[15]和FinCausal 2020共享任务[22]。后者已经有了根据句子是否表达因果关系的二元标签SemEval-2010数据集的原始注释包含九种不同的语义关系，这些关系被替换为二元标签，其中所有表达因果关系的句子都被认为是因果关系，所有其他句子都被标记为非因果关系。这两个英文数据集的注释方案不同对于FinCausal [22]，提出了对效果角色的修改，以便只有量化的事实，即直接与度量相关并表示数字或数量的事实，才能成为效果。SemEval以及德国和瑞典的数据集都没有在其注释指南中包括这一限制为了查看这种差异的影响，我们分别仅使用FinCausal或SemEval数据，两者的串联（表1中的SE+FC），并且，由于FinCausal注释更严格，因此可以假定根据 FinCausal 注释的因果示例也是根据SemEval注释方案的因果，FinCausal阳性数据和所有SemEval数据的组合（表1中的SE+FC-c）。由于没有为SemEval提供开发集，因此我们使用所提供的SemEval训练数据的10%作为仅涉及SemEval 数据的实验中的开发集。在 SemEval 数据加上FinCausal正例的设置中，我们只需将FinCausal发展集的正例添加到这800个句子中。3.2德国本研究中使用的所有德语数据都来自因果语言的数据集[25]，他们的注释方案基于[8]。它包含来自德国新闻文本的TIGER语料库[6]和由欧洲议会会议记录组成的Europarl语料库[18]的句子与英语数据集相反，他们在标记水平上用两种不同类型的标签注释数据，指示参与者在因果关系中的角色（原因，结果，受影响和行为者）和因果关系的特定类型（结果，动机，目的）。我们将它们的注释转换为二进制句子标签，以便通过考虑所有包含原因和结果的例子作为因果关系，使它们与其他数据集保持一致，因此，这些标签之一或两者都缺失的句子被认为是非因果关系。此外，我们将所有不同类型的因果关系视为一个单一的因果类。3.3瑞典所有瑞典数据均摘自1994年至2020年期间撰写的政府报告语料库。1这些数据是从HTML格式中提取的，并经过预处理以检索标题和运行文本，删除非文本元素，如表格，标题和页脚，并合并跨行和分页的句子和单词。2从瑞典语语料库中，我们通过搜索可能表达因果关系的术语对来对句子进行采样，例如氡癌症和汽车交通污染。这些句子都加了注释由三名具有计算语言学背景的注释者，两名母语者和一名母语为德语并具有高水平瑞典语的注释者，根据他们是否表达因果关系。在最初的试点注释回合中，注释者之间的一致性相对较低，Fleiss因此，受Dunietz等人启发的具体指南。[8]，类似于第3.2节中提供的德国数据的指南。这些准则侧重于明确的因果关系，除了原因和结果之外，还要求存在专门表达因果关系的因果连接因此，隐含地表达因果关系的时间关系例如被排除，但是模态和否定因果关系被注释。与[7]不同的是，我们没有考虑不同类型的因果关系，而是将所有类型的因果关系归为一个因果类。在第二轮30个句子的试验中，这些指导方针使注释者之间的一致性提高了0.58最后一轮注释涵盖了300个句子，与最后一轮试点的30个句子相结合，最终数据集中有330个句子每句话都至少有两个注释者进行注释注释阶段后的注释者间一致性为0.5，因此与第二次试验相似为了进一步提高注释质量，所有分歧都通过注释者之间的讨论得到了巩固。1Statensoffentligautredningar，可查阅http://data.riksdagen.se/data/dokument/。2可从https://github.com/UppsalaNLP/SOU-corpus获得WWWSebastian Reimann和Sara Stymne504−−表2：德国和瑞典数据的分布，包括因果关系实例德国%瑞典%火车3，10450.48 210见表3表3：瑞典训练数据的三种不同变体的标签分布POS. Neg.阳性% 分数170 40 80.95多数票1436768.10平衡676750.00小的瑞典语训练集是通过快速注释阶段与三个注释器收集的。从政府报告语料库中抽取了10个句子，每个句子有21个术语，这些术语可能表达因果关系，如or（“原因”），pgrundav（“因为”）和resultat（“结果”）。[3]这一提取过程导致了很大比例的正面例子。每个注释者决定每个句子是否表达因果关系，如果它是一个不清楚的情况，或者如果它不表达因果关系。与没有指南的第一个测试集试点类似，仅达到了0.45的公平注释者间一致性[20]。此外，未对该数据进行合并。我们尝试了几种方法来将三个注释者的注释转换为每个句子的单个注释这里，可以说，如果一个注释者决定一个句子是因果关系的，而另一个注释者决定这个句子代表一个不清楚的情况，那么这个句子至少传达了一些因果关系的概念，这会使否定注释过于严格。考虑到这一点的一种方法是分配数值分数，其中肯定的注释得到0.2分不清楚的注释得到0.1分，非因果注释得到0分我们考虑了得分达到0.3或更高的例子的因果标签。这提供了相对较低的阈值，因为因果标签仅需要一个阳性注释和一个不明确注释。一个更严格的选择是简单的多数表决，如果三个注释者中有两个同意，所有的句子都被认为是因果关系。如表3所示，无论是数字加权还是多数投票，分布都强烈倾向于因果类因此，我们创建了第三个变体，包括来自瑞典训练数据的负样本加上来自训练数据的正样本，其具有相同的大小。这两个瑞典因果关系数据集都是在CC-BY许可下公开提供的。4[3]完整的因果关系术语和因果关系术语对可以在[26]中找到。4实验装置4.1模型架构和嵌入本文的一个目标是比较不同的预训练多语言嵌入在因果关系检测上的性能，特别是通过比较基于BiLSTM的LASER与基于Transformer的mBERT和XLM-R。下面将介绍嵌入类型和使用它们的分类器架构。如果没有另外说明，则通过在英语上训练或微调相应的模型并在德语开发集上测试它们来调整所有模型的超参数，因为通过在涉及跨语言迁移的设置中评估它们来选择超参数似乎是直观的，而不是在单语设置中。激光器使用LASER语句嵌入[1]是为了包括基于非微调的方法。正如[1]中所建议的，我们首先将句子标记化，然后将它们转换为BPE子词单元。最后，我们将它们馈送到编码器以获得相应的嵌入。对于分类，我们使用提供的多层感知器（MLP）分类器，具有两个隐藏层。我们训练了100个epoch的MLP分类器，学习率为0.001，第一隐藏层中有10个节点，第二隐藏层中有8个节点，批量大小为12，dropout为0.1。多语言 BERT 。在我们涉及 mBERT 的实验中，我们使用HuggingFace [ 31 ]提供的BertForSequenceClassification架构，其中在常规BERT架构之上添加了dropout和额外的线性分类层。在通过BERT标记器对文本进行编码之前，不进行任何预处理基于mBERT的分类器被微调3个时期，学习率为2e 5，批量大小为32。输入的最大长度为256。XLM-R。这里再次使用了HuggingFace Transformer库的实现，用于具有附加线性层的序列分类。我们对XLM-R进行了2次微调，学习率为2e5，批量大小为32，最大长度为256。4.2实验我们的目标是比较不同的嵌入类型，以及衡量额外的目标语言数据的影响5Con-Because，我们进行了零镜头实验和少数镜头实验，涉及所有三种多语言表示。在所有实验中，德语作为目标语言的源语言将是英语。在以瑞典语作为目标语言的实验中，我们还使用德语作为源语言，并与英语结合使用。我们还研究了不同的注释方案的影响，特别是对于FinCausal数据的更严格的注释因此，对于以英语作为源语言的实验，我们尝试了英语数据集的所有不同组合。为了测量目标语言数据在训练中的效果，我们采用类似于[21]的方法，使用不同数量的训练示例。瑞典的数据是稀缺的，这限制了我们对不同尺寸进行实验的测量4https://github.com/UppsalaNLP/Swedish-Causality-Datasets5其他实验以及更深入的分析可以在[26]中找到。Dev375 51.73––测试905 50.6033048.49探索跨语言迁移以抵消因果关系检测的数据稀缺性WWW505由于目标语言数据的更大部分的影响，因此我们使用德语数据集，其与瑞典语数据相比在大小上明显更大，但仍然比所有英语数据集小得多，并且使用210个句子（6.8%;瑞典语训练数据的大小），以及其中的12.5%，25%，50%，75%，以及完整的德语训练数据。对于Swedish，我们还尝试了不同的方法来组合来自三个注释器的训练数据。我们在运行系统时考虑了变化，并将所有零发射实验重复五次。为了进行评估，我们提出了F1-宏分数，以及因果类的精确度和召回率。5结果和讨论5.1零发射实验表4给出了以英语作为源语言的零触发实验的结果对于目标语言和源语言的所有组合，嵌入类型之间的差异相对较小，LASER通常匹配甚至优于mBERT和XLM-R。然而，可以观察到关于训练数据选择的差异。当观察F1-macro和使用联合英语数据集或仅使用FinCausal数据的模型的因果类的召回时，我们可以看到模型最终未能识别测试数据中实际表达因果关系的广泛示例。在这里，与其他数据集相比，上述对FinCausal数据进行更严格注释的问题确实引起了问题，特别是当考虑到在没有负面FinCausal示例的两个实验中，因果类和F1宏的召回率要高得多时。在英语-德语和英语-瑞典语的零射击场景中然而，它这样做是以精确为代价然后，这些模型被暴露在广泛的额外的积极的例子与词汇从金融领域和表达的数量。因此，这导致了推广方面的困难，当将此处的结果与仅涉及SemEval数据时的结果进行比较时，其表现为精度降低。此外，在我们使用英语作为源语言和德语作为目标语言的实验中，存在几个问题，这些问题可能与两种语言之间的差异有关德语在介词方面有所不同，因为除了介词之外，它还提供了一系列在动词之后而不是在动词之前的因果后置词，例如halber（“为了”）。此外，一些德语介词表达因果关系，如mangels（“出于缺乏”），在翻译成英语时需要更复杂的结构。这两种现象的问题发生在所有不同的英语数据集在零拍摄的情况下，在德国进行测试表5列出了瑞典语的结果，我们使用德语作为源语言，无论是单独使用还是与英语结合当比较表4和表5的结果时，可以看出，对于mBERT和XLM-R，对德语数据进行微调明显比对英语数据进行微调产生更好的结果，即使德语训练数据包含的示例少得多对此可能的假设是，德国数据和瑞典测试数据的指南相对相似，这导致了明显更好的性能，并且德国训练数据与英语不同，是平衡的。然而，[ 29 ]的研究结果也暗示，在许多情况下，德语作为跨语言NLP任务的源语言通常比英语更有益，这里也可能是这种情况。然而，在LASER中，英语作为源语言的表现略好于德语。德语和英语的组合导致的结果比仅使用德语的mBERT和XLM-R略差，并且与单一语言相比，LASER的召回率更高，但准确率更低然而，没有明确的模式的语言现象的问题时，应用零杆跨语言迁移从英语到瑞典语。5.2少量试验表6给出了涉及额外瑞典语目标语言数据的少量实验结果的概述。对于通过数值方案计算最终注释的瑞典数据集，性能令人惊讶地低，特别是对于两个基于变压器的模型。对于mBERT和XLM-R以及所有源语言，可以观察到因果类的明显过度使用有趣的是，当使用瑞典训练数据时，这个问题似乎变得不那么明显，在瑞典训练数据中，注释是通过多数投票合并的，因果类的实例较少在这里，只有mBERT与英语数据集的组合表现不佳。然而，当我们以之前描述的方式平衡瑞典训练数据时，我们甚至能够看到零射击实验的平均值有所改善，与之前的发现类似[21，33]。这很有趣，因为在我们的例子中，我们只使用了一半多一点的瑞典训练数据。以前的工作，例如 [2]发现mBERT和XLM-R与在机器翻译任务上预训练的模型（如激光的BiLSTM编码器）相比，捕获了更多的语言特定信息。因此，一个可能的假设可能是，由于绝大多数瑞典语的例子是因果关系，模型似乎错误地认为瑞典语的一些一般方面对因果关系的决定具有决定性作用，因此过度概括并将大量瑞典语的例子归类为因果关系。这一点也得到了以下事实的支持：英语作为源语言，这个问题尤其突出，另一方面，训练数据中的正因果示例很少，而且这种过度概括的问题并没有真正影响LASER嵌入。瑞典的几次试验结果表明，至少在努力消除数据不平衡时，可以实现与[ 21 ]中的结果类似的多语言因果关系检测图1显示了以德语为目标的少量学习的结果，以及不同数量的德语训练数据。对于mBERT以及XLM-R，少量发射传输导致了与零发射设置类似的改进。此外，我们可以看到，更大的广告目标语言数据集甚至可能导致两个基于transformer的模型的更大改进，即使当使用超过一半的数据集时，差异再次变得更小。另一方面，对于LASER，更多的目标语言数据只会导致微小的改进，而使用完整的数据集则会导致WWWSebastian Reimann和Sara Stymne506表4：F1-当相应模型在英语数据上进行训练或微调时，零射击实验中因果类的平均宏观得分和精确度/召回率值模型德国瑞典F1PRF1PRSemEval激光器+FinCausalmBERT41.8542.8975.0374.929.0510.5552.2146.0796.3578.3219.3813.50XLM-R42.6375.3310.2448.9287.8216.25激光34.5849.371.3734.9658.331.00FinCausal mBERT35.9741.242.7136.2661.092.50XLM-R35.0625.102.0835.9160.912.12激光53.3879.7024.1365.1674.5547.50SemEval mBERT49.5076.5119.2062.1972.2351.13XLM-R52.6479.8123.2863.1169.0150.38SemEval激光器63.7965.9057.2567.5963.0485.62+FinCausal mBERT57.2962.4342.8457.1769.5444.38（因果）XLM-R56.7664.3341.7362.0367.1760.25表5：在涉及对德语进行微调和对瑞典语进行测试的零射击实验中，因果类的平均F1宏观分数和精确度/召回率值数据模型F1PR德国激光66.6562.4082.90mBERT72.5173.0972.75XLM-R76.9375,7879.37德国激光66.5961.7887.12+ SemEvalmBERT71.4473.5965.50因果（Causal）XLM-R71.5670.5375.13表6：涉及瑞典语作为目标语言的少量实验的F1宏观分数。英文数据为Se- mEval+FinCausal（因果关系）。方法源LASER mBERT XLM-RF1PRF1PRF1PREN67.5963.0485.6257.1769.5444.3862.0367.1760.25没有一（零射击）DE66.6562.4082.9072.5173.0972.7576.9375.7879.37EN+DE 66.5961.7887.1271.4473.5965.5071.5670.5375.13EN67.0659.4188.7532.6548.4810036.7649.2298.75数值DE60.6957.7256.7656.7656.3297.5067.0961.6394.37EN+DE 65.4660.6790.6255.2455.1696,8853.9054.7098.12EN68.2563.3884.3835.2249.0810060.2057.3692.50大多数DE64.7860.4485.0067.5362.1391.2571.2364.9172.50EN+DE 66.6561.7886.8872.4375.7464.3871.8666.8384.83EN70.5767.4076.2559.3056.6887.5068.4665.5673.75平衡DE68.5864.4779.3771.3466.8481.8778.2482.9670.00EN+DE 67.5262.6785.0075.0780.6265.0077.4679.4572.50甚至与使用75%或更多的可用德语训练数据时相比，性能更差根据[2]的研究结果，与mBERT和XLM-R的嵌入相比，LASER嵌入包含较少的语言特定信息，因此可以探索跨语言迁移以抵消因果关系检测的数据稀缺性WWW507图1：通过连接目标和源语言训练数据，LASER在利用额外的德国和瑞典数据方面可能更差。6结论我们探讨了跨语言的因果关系检测德语与英语作为源语言，以及瑞典语与英语和德语作为源语言。一个挑战是，现有的英语和德语数据集以及我们新的瑞典语数据集之间存在一些差异。特别是，FinCausal数据[22]的严格注释方案导致零射击场景中的缺点，然而，可以通过删除负面示例来消除这些缺点，暗示可能与不同注释指南有关的混淆。我们还需要平衡我们的小型瑞典语训练集，以便能够利用它。我们还将基于BiLSTM的LASER与基于Transformer的mBERT和XLM-R进行了比较。我们发现，LASER具有惊人的竞争力，特别是在英语的跨语言零射击设置中，它具有最好的性能。对于瑞典人来说，最好是用XLM-R和mBERT从德语转移，这给出了总体最佳结果，而激光的差异很小。这种对德语的偏好可以追溯到，一方面，相应数据集的相似注释指南和更平衡的数据集，但也可能是因为德语是跨语言迁移的更好的源语言[29]。[21]关于少量迁移的发现也适用于此，因为额外的目标语言数据导致mBERT和XLM-R的显然而，瑞典的几次实验的结果表明，对于阶级不平衡，建议谨慎行事即使是目标语言数据的小样本，倾向于一个类可能导致过度概括，这可能是因为模型将一些实际上语言特定的特征解释为与因果关系的决定相关到目前为止，我们只尝试跨语言迁移的因果关系检测之间的同一家庭的语言。因此，未来研究的一个可能路线可能是探索本研究中使用的多语言表征在距离较远的语言之间的迁移能力。另一个可能的研究方向，不仅与因果关系检测有关，而且通常与多语言NLP有关，是进一步探索观察到的过度概括现象，特别是它与mBERT和XLM-R学习到的信息的联系。致谢我们要感谢Luise Dürlich、Gustav Finnveden和Joakim Nivre的注释工作和富有洞察力的讨论，感谢瑞典国家金融管理局的Sven-Olof Junker和Martin Sparr 的宝贵讨论和提供因果对列表。这些计算是由乌普萨拉高级计算科学多学科中心的项目UPPMAX 2020/2-2中的资源实现的。 SaraStymne在Vinova的项目2019-02252中获得资助：公共部门成果的Datalab。引用[1] Mikel Artetxe和Holger Schwenk2019年。大规模多语言句子嵌入零镜头跨语言传输和超越。Transactions ofthe Association for ComputationalLinguistics 7（March 2019），597-610. http：//doi.org/10.1162/tacl_a_00288[2] Rochelle Choenni和Ekaterina Shutova2020年。语言不可知论是什么意思？探测多语言句子编码器的类型属性。arXiv：2009.12862[cs.CL][3] Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek 、 Francisco Guzmán 、 Edouard Grave 、 Myle Ott 、 LukeZettlemoyer和Veselin Stoyanov。2020年。无监督跨语言表征学习。在计算语言学协会第 58 届年会上。计算语言学协会，在线，8440https://doi.org/10.18653/v1/2020.acl-main.747[4] Tirthankar Dasgupta，Rupsa Saha，Lipika Dey和Abir Naskar。2018年使用语言信息深度神经网络从文本中自动提取因果关系。在第19届SIGdial年度会议上讨论和对话。计算语言学协会，墨尔本，澳大利亚， 306-316 。https://doi.org/10.18653/v1/W18-5035[5] Jacob Devlin ，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova.2019年。BERT：Deep Bidirectional Transformers for Language Understanding的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文）。计算语言学协会，明尼阿波利斯，明尼苏达州，4171-4186。https://doi.org/10.18653/v1/N19-1423[6] Stefanie Dipper，Thorsten Brants，Wolfgang Lezius，Oliver Plaehn，andGeorge Smith.2001年老虎树银行在树库和语言理论研讨会上，TLT'01。24-41[7] 杰西·杜涅茨，格雷格·伯纳姆，阿卡什·巴拉德瓦伊，欧文·兰博，詹妮弗·楚-卡罗尔，戴夫·费鲁奇.2020年。要测试机器理解力，首先要定义理解力。第58届计算语言学协会年会论文集。计算语言学协会在线，7839-7859。https://doi.org/10.18653/v1/2020.acl-main.701[8] 杰西·杜涅茨，洛丽·莱文，海梅·卡贝尔.2015年。利用构式语料库词典学标注因果语言。在第九届语言注释研讨会上。计算语言学协会，美国科罗拉多州丹佛，188-196。https://doi.org/10.3115/v1/W15-1622[9] Steffen Eger ， Johannes Daxenberger ， Christian Stab ， andIrynaGurevych.2018年跨语言论证挖掘：机器翻译（和一点投影）就是你所需要的！在第27届国际计算语言学会议上的会议记录。计算语言学协会，圣达菲，新墨西哥州，美国，831https://www.aclweb.org/anthology/C18-1071WWWSebastian Reimann和Sara Stymne508[10] 丹妮拉·加西亚一九九七年。COATIS是一个NLP系统，用于定位由因果关系链接连接的动作表达式。在知识获取，建模和管理，Enric Plaza和RichardBenjamins（编辑）。Springer Berlin Heidelberg，柏林，海德堡，347-352.[11] 丹·加勒特和杰森·鲍德里奇。2013年。从两个小时的注释中学习词性标注。在2013年计算语言学协会北美分会会议论文集：人类语言技术。计算语言学协会，亚特兰大，佐治亚州，138-147。https://www.aclweb.org/anthology/N13-1014[12] 罗克珊娜·吉尔朱2003年。问答系统中因果关系的自动检测在ACL 2003年多语言摘要和问题分类研讨会的会议记录中。计算语言学协会，札幌，日本，76https://doi.org/10.3115/1119312.1119322[13] Denis Gordeev，Adis Davletov，Alexey Rey，and Nikolay Arefiev.2020年。LIORI在FinCausal 2020共享任务中。在第一次金融叙述处理和MultiLing金融摘要联合研讨会的会议记录中。COLING，巴塞罗那，Spain（Online），45-49. https://www.aclweb.org/anthology/2020.fnp-1.6[14] 亚历克斯·格雷夫斯阿卜杜勒·拉赫曼穆罕默德和杰弗里·辛顿2013. 使用深度递归神经网络进行语音识别2013年IEEE声学、语音和信号处理国际会议论文集。温哥华，加拿大，6645-6649。 https://doi.org/10.1109/ICASSP.2013.6638947[15] Iris Hendrickx 、 Su Nam Kim 、 Zornitsa Kozareva 、 Preslav Nakov 、Diarmuid Séaghdha 、 Sebastian Padó 、 Marco Pennacchiotti 、 LorenzaRomano和Stan Szpakowicz。2010年。SemEval-2010任务8：名词对之间语义关系的多方式分类在第五届语义评估国际研讨会上。计算语言学协会，乌普

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

跨语言迁移以抵消因果关系检测

ORACLE数据库跨平台迁移

基于检测，跨模态迁移之后应该干什么

sybase跨版本迁移

跨模态迁移之后应该干什么

迁移学习时间序列异常检测

kafka跨集群迁移 执行kafka-mirror-maker.sh脚本跨集群迁移对源kafka有什么影响

ogg跨平台迁移oracle 11g

跨段迁移和协同是哪个鸿蒙特征的能力

跨端迁移和协同是哪个鸿蒙特征的能力？

目标检测迁移学习的原理和实现方法

迁移学习时间序列异常检测代码

迁移学习通常分为四类：基于实例的迁移学习、基于特征的迁移学习、基于参数的迁移学习和基于关系的迁移学习。

matlab中进行迁移成分分析

pgsql 跨库迁移schema

请写出一段用Python代码实现数据跨平台迁移

什么是迁移学习？如何在目标检测任务中应用迁移学习？

基于两阶段目标检测模型迁移方法

基于迁移学习的异常检测

YOLO和迁移学习的关系

Elasticsearch跨版本数据迁移

最新资源

kafka跨集群迁移执行kafka-mirror-maker.sh脚本跨集群迁移对源kafka有什么影响