NLP数据集的地理代表性与语言用户的需求对比研究

67 浏览量更新于2023-12-01 收藏 4.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文数据集地理：将语言数据映射到语言用户Fahim Faisal，Yinkai Wang，Antonios Anastasopoulos美国乔治梅森大学计算机科学系{ffaisal，ywang88，antonis}@gmu.edu摘要随着语言技术变得越来越普遍，人们越来越努力地扩大自然语言处理（NLP）系统的语言多样性和覆盖范围。可以说，影响现代NLP系统质量的最重要因素是数据可用性。在这项工作中，我们研究了NLP数据集的地理代表性，旨在量化NLP数据集是否以及在多大程度上符合语言使用者的预期需求。在此过程中，我们使用了实体识别和链接系统，还对它们的跨语言一致性进行了重要的观察，并为更可靠的评估提供了建议。最后，我们探讨了一些地理和经济因素，可以解释观察到的数据集分布。11介绍NLP研究、作者和出版物缺乏语言、类型学和地理多样性，这一点目前已得到广泛认可和记录（ Caines ， 2019; Ponti et al. ， 2019; Ben-der，2011; Adelani et al. ，2021年）。尽管如此，大规模多语言模型的出现为数百万目前语言技术服务不足的语言使用者带来了机会和希望。扩大NLP社区的研究范围，从少数几种语言扩展到世界上近7000种语言，这不是一件容易的事。为了使这一努力有效和成功，社区需要建立一些必要的基础。在开创性的工作中，Joshi et al. （2020）提供了一个清晰的概述，我们目前在世界语言的数据可用性方面的立场乔杜里和1 代码和数据可以在这里找到： https ： //github 。com/ffaisal93/dataset_geography.更多的可视化可在这里获得：https://nlp.cs.gmu.edu/project/地图/。图1：我们的方法为MasakhaNER的Kinyarwanda部分生成的数据集地图示例。尽管规模较小，但数据集通常代表了基尼亚卢旺达语使用者，包括来自卢旺达（近50%）和邻国的实体提及。Deshpande（2021）研究了多语言模型在语言学上的公平性，并基于经济学和社会选择理论中的公平原则，为评估多语言模型提供了一个nancy框架最后，Blasi et al.（2021）提供了一个框架，将NLP系统在基准数据集上的性能与其在全球范围内对用户的下游效用相关联这些工作提供了对当前数据可用性和估计效用的深入了解，这对取得进展至关重要，并为未来工作提供了评估然而，有一个缺失的构建块需要真正的进展：一种方法来估计我们的数据集对底层语言使用者的代表性任何评估-arXiv：2112.03497v1 [cs.CL] 2021年12+v：mala2277获取更多论文（|）（L1）|（正文）相反的条件句，他们需要的事实3单个实体可以与一组多个我们建立的评估框架和任何效用估计Gebru etal.（2021）和Bender and Friedman（2018）认识到这些信息的重要性，并分别将其纳入他们提出的“数据表”和“数据声明”指南中我们提出了一种方法，通过将数据集映射到语言使用者所占据的物理空间来估计数据集我们的贡献概述如下：• 我们提出了一种将NLP数据集映射到地理区域（在我们的例子中，是国家）的方法，并使用它来评估数据在多大程度上代表了语言的底层用户我们对我们创建的数据集地图我们发现，数据集的代表性在很大程度上与经济指标（GDP）相关，地理邻近性和人口是次要的。• 我们测试一个简单的策略，执行实体链接绕过命名实体识别的需要。我们在19种语言上评估了它的有效性，表明我们可以在85%的NER信息难以获得的模型内获得。• 我们强调需要评估命名实体识别和链接模型的并行数据，以确保跨语言的一致性。2将数据集映射到国家假设这项工作有两个假设：（a）数据局部性很重要，即，一种语言的使用者更有可能谈论或提及本地新闻、事件、实体等，而不是来自世界另一端的新闻、事件、实体等，以及（b）我们可以通过仅关注实体来捕捉该本地Kumar等人（2019）讨论了数据集中存在的这些主题相关性，2指出它们存在，并且L1语言识别模型倾向于选择它们，即。如果文本提到芬兰，L1语言模型可能会预测说话者是芬兰人，因为芬兰芬兰语的p值通常很高。在这项工作中， Kumar et al.（2019）做出明确的努力，以避免学习这种相关性，因为他们感兴趣的是建立模型的p（即，p（芬兰语|芬兰）），这样做证实了现实世界的文本具有这样的主题混淆。至于我们的第二个假设，即我们可以通过只查看实体来捕捉这些主题相关性，我们只需要看看Ku-mar等人的表2。（2019），其中列出了基于数据集中每种L1语言的对数概率得分的顶级主题混淆词：所有列表都包括与该语言使用国相关的实体（例如，“Merkel”，前总理的名字，德语）或主题形容词（例如，方法对于给定的数据集，我们的方法遵循一个简单的配方：1. 标识数据集中存在的命名实体。2. 执行实体链接到维基数据ID。3. 使用维基数据将实体链接到国家。我们在下面讨论每个步骤。实体识别步骤标准实体链接被视为两个主要任务的序列：实体识别和实体消歧。一种方法是首先处理文本以提取实体，然后将这些实体消歧为给定知识库的正确条目（例如，Wikipedia）.这种方法依赖于NER模型的质量。然而，要对跨越几种低资源语言的几个数据集进行分析正如我们在第4节中所展示的，如果我们容忍准确性的惩罚，我们可以绕过这一步。然而，我们在讨论跨语言一致性时会重新讨论NER（第5节）。实体链接步骤在此步骤中，我们将命名实体映射到它们各自的维基数据ID。我们将在第4节中进一步讨论这一步骤。从实体到国家我们制作地图来可视化我们研究的数据集的地理覆盖范围，讨论它们的属性和我们在第3节中的发现。为了将实体与国家联系起来，3我们依赖于Wiki-数据条目，具体取决于实体的类型：• 对于个人，我们记录他们的出生地（P19），死亡地（P20）和国籍国（P27）;• 对于位置，我们搜索其相关国家（P17）;• 对于组织，我们使用'located_at'（P276）和'headquarters_at'（P159）关系的链接。[2]参见他们论文的第2节。一个国家。+v：mala2277获取更多论文∀∀由于出生/死亡地点和总部不一定在国家一级，我们执行第二步，将这些地点与国家相关联。在结果与现代国家不相对应的情况下（就像历史人物经常发生的情况一样），我们不会试图将其与任何现代国家联系起来。例如，尼古拉斯·哥白尼的条目（Q619）列出他出生在Torunn'（Q47554），然后映射到波兰;他死在From- bork（Q497115），也映射到波兰;作为波兰王国的公民（Q1649871），没有映射到任何现代国家;所以他只与波兰有联系。阿尔伯特·爱因斯坦也同样被映射到德国和美国，因为他的出生地（乌尔姆）和死亡地（普林斯顿）。3资料集-国家地图我们将上述过程应用于几个数据集，主要是因为它们的语言和类型多样性。我们的过程不依赖于数据集或语言，4并且可以很容易地应用于任何NL数据集。我们简要描述了我们在下面的研究中包括的数据集，详细的统计数据见附录C。NER数据集我们研究WikiANN数据集（Pan etal. ，2017），通常用于评估多语言模型。我们还研究了MasakhaNER数据集（Ade-lanietal. ，2021），这是通过参与式设计（等。2020年），以专注于非洲语言。由于这些数据集已经使用命名实体进行了注释，因此我们只需要执行实体链接。我们研究了四个问题回答数据集（专注于问题而不是上下文），即 SQuAD （ Rajpurkaretal. ，2016）、MLQA（Lewis et al. ，2020）、TyDi-QA（Clark et al. ，2020）和自然问题（Kwiatkowski et al. ，2019年，NQ;），其具有独特的特征，可用于跨组织比较。 SQuAD是一个大型的仅限英语的数据集（尽管它已经通过类似于 XQuAD 的工具进行了翻译（Artetxe et al. ，2020））。MLQA是通过翻译英文数据集创建的一个覆盖7种语言的n路并行多语言数据集TyDi-QA是另一个涵盖11种语言的多语言数据集，但每个语言部分都是派生的。4尽管它确实依赖于一个质量不错的实体链接器，这是我们大多数语言所缺乏的。参见讨论。每一种语言都有，不需要翻译。最后，NQ是基于Google搜索引擎上的真实查询创建的英语QA数据集，注释者为其找到了相关的维基百科上下文，这与注释者在给定上下文的情况下形成问题而创建附加数据集虽然本文中没有进一步讨论，但更多数据集的附加可视化（例如，X-FACTR基准（Jiang et al. ，2020年），以及几个机器翻译基准）可在该项目的网页上获得https://nlp.cs.gmu.edu/3.1讨论我们在图 1 （ MasakhaNER 数据集的 Kin-yarwanda部分）和图2中显示了NQ、MLQA和TyDi- QA的两个部分我们在附录E中提供了所有其他数据集的其他地图。从图1的基尼亚卢旺达语例子开始，我们的方法的效用是显而易见的。通过可视化，研究人员可以快速确认数据集似乎反映了语言的用户：大多数实体确实对应于卢旺达，乌干达，布隆迪，以及在较小程度上刚果，坦桑尼亚和肯尼亚（所有邻国）。富裕或人口众多的国家，如美国，法国和印度，也有代表，正如人们所期望的那样。与此同时，可视化使研究人员能够识别差距：除了邻近的非洲国家之外，其他非洲国家以及中美洲或中亚/东南亚在数据集中明显代表不足。MasakhaNER数据集与WikiANN数据集的比较（见附录E）显示，前者更本地化（例如，Dholuo数据集中超过80%的已识别实体与肯尼亚有关），而后者包括来自大多数母语使用者居住的国家的较小部分（10%-20%），并且几乎总是包括几个非常以欧洲或西方为中心的条目参与式设计的效果（等。，2020）创建MasakhaNER数据集的方法，其中数据是从本地来源策划的，在数据集的所有语言部分都很清楚，数据高度代表了说话者。+v：mala2277获取更多论文自然问题MLQASQuAD TyDi-QA（英文版）图2：可视化数据集+v：mala2277获取更多论文在图6-图2允许直接比较不同的QA数据集（另请参见SQuAD地图图15和附录E中的其他TyDi-QA语言）。第一个值得注意的点与NQ有关，它是基于对Google搜索引擎的真实英语查询而构建的。由于这样的查询发生在世界各地有两类国家的代表性尤其突出：一是以英语为官方语言的国家（美国、英国、澳大利亚，还有印度、尼日利亚、南非和菲律宾）;二是富裕国家（欧洲、日本、中国等）。在我们看来，NQ是一个代表性数据集的范例，因为它不仅包括使用该语言的大多数国家的代表性（正如人们所期望的那样，这些实体的总和是总体多数），而且由于其规模，它还包括几乎所有国家的实体。另一方面，地理代表性-实用性的概念（偏向于西方的发言者，反对来自全球南方的发言者）;在MLQA上评估的系统将仅给出与在TyDi-QA上评估的系统一样好的估计，但仅限于英语部分。我们澄清，这并没有减少数据集本身作为比较模型和在NLP中取得进展的工具的效用：MLQA对于在完全相同的数据比较不同语言的模型非常有用，从而便于QA系统的跨语言能力的轻松但我们认为，MLQA不应该被用来评估潜在的效用QA系统为德语或泰卢固语的发言者。3.2社会经济相关因素在本节中，我们试图解释我们在前一节中的发现，将它们与社会经济因素联系起来。我们确定了社会经济因素φ，这些因素可用于解释我们研究的数据集中观察到的实体的地理分布。这些是：• 一个国家• 一个国家• 一个国家MLQA和TyDi-QA（它们的英语部分）都缺乏有效性。由于这些数据集try/ies在哪里说语言φgeo前两个因素是全局的和固定的。5的依赖维基百科条目进行创建，维基百科偏向于西方国家（ Greenstein 和 Zhu ， 2012;Hube 和Fetahu，2018），大多数实体来自欧洲，美国和中东。这两个数据集都不充分代表来自全球南部的英语国家（如肯尼亚、南非或尼日利亚）的英语使用者，因为几乎没有来自这些国家的实体。MLQA进一步低估了它所包含的所有其他语言的使用者，因为所有数据都是英语数据的翻译。与此形成对比的是TyDi-QA及其可视化的斯瓦希里语部分，尽管仍然以西方为中心，但在讲斯瓦希里语的国家（特别是肯尼亚和坦桑尼亚）中具有更高的代表性。这一讨论提出了在对这些数据集进行评估时，对有关系统实用性的声明保持谨慎人们可能会认为，在NQ上评估的QA系统确实对现实世界的效用进行了很好的估计;在TyDi-QA上评估的系统给出了扭曲的第三个是与数据集我们目前正在研究。例如，当我们关注mTREx数据集的约鲁巴语部分时，我们使用尼日利亚（讲约鲁巴语的地方）作为焦点，并计算到所有其他国家的距离这里的假设是说约鲁巴语的人更有可能使用或感兴趣的实体首先来自他们的祖国（尼日利亚），然后来自其邻国（喀麦隆，乍得，尼日尔，贝宁），而不太可能来自遥远的国家（例如尼日利亚）。阿根廷、加拿大或新西兰）。因此，我们假设概率与国家的距离成反比。对于宏语言或在多个国家广泛使用的语言，我们使用所有相关国家因素的人口加权组合。为了测量这些因素的影响，通常进行相关分析，其中测量数据集的观测地理位置与地理位置之间的斯皮尔曼[5]我们还测试了一个结合GDP和人口的因素：人均GDP。然而，它的预测能力明显低于单独使用这两个因素。+v：mala2277获取更多论文+++c=0。62（对于φ）。我们相信理想的GDPgeo→=-TyDi-QA（11）MLQA（1）SQUAD（1）NaturalQ.（一）因子φ实验变种Mae实验变种Mae实验变种Mae实验变种Mae流行0.2720.4310.3170.4010.2771.2300.3951.18GDP0.5070.3490.5610.3320.5161.0230.5351.069geo0.0750.4990.0400.4950.0621.3930.0301.561人口与国内生产总值0.4770.3520.5280.3360.4951.0340.5281.041pop+geo0.3040.4170.3600.3850.3471.1290.4331.137全球经济展望+国内生产总值0.5500.3330.5790.3210.5520.9320.5501.054人口普查+国内生产总值+地理0.5320.3370.5480.3260.5340.9400.5501.005表1：QA数据集上的因素的经验比较，在各自的语言上取平均值（括号中的数字）。我们报告了线性模型的五重交叉验证解释方差和平均绝对误差分布和因子φ。但值得注意的是，这些因素是潜在的协变量，特别是人口和GDP. 6因此，我们改为计算由线性回归模型解释的方差，其中因子φ作为输入，即，aφpopbφgdpcφgeod具有a、b、 c、 d学习的参数，被训练以预测国家的观察到的实体计数的对数。我们报告解释方差和平均绝对误差从五折交叉验证实验，以避免过度拟合。社会经济相关因素和讨论QA数据集的不同因素组合的结果列于表1中。[7]最好的单一预测因素是使用该语言的国家的GDP，这一点也许并不令人惊讶：所有数据集基本上都过度代表了富裕国家（例如美国或欧洲）。地理距离与GDP的结合解释了我们在所有数据集上观察到的大部分方差，这一观察结果证实了我们之前仅基于可视化讨论的直觉。重要的是，将人口统计数据纳入模型会降低其性能，这进一步证明了我们的数据集并不代表底层人口，也不与底层人口成比例。唯一一个通过包括流行来更好地解释的数据集是NQ数据集，我们已经论证过，由于其构建协议，NQ数据集呈现了代表性的范例。限制重要的是要注意，我们的假设也是我们分析中的限制因素将语言映射到国家本质上是有损的。例如，它忽略了分散在世界各地的数百万移民，他们的L1语言可能不同于他们居住地区的主要语言。另一个问题是，对于许多语言来说，6见前一脚注。7净入学率数据集见附录F，所有数据集按语言分列见附录G如果一个数据集不包括与巴斯克地区相关的任何实体，但包括了来自西班牙和法国的许多实体另一个障碍，以及我们避免提供具体代表性分数或类似内容的原因是，理想的因素组合可能是主观的。例如，可以说，地理上的接近本身就足够了，或者根本不重要。在任何情况下，我们共享NQ模型的系数，因为它是我们研究的数据集中最具代表性的数据集：a 0。9（对于φpop），b 1. 44（φgdp），不要紧（B） 0），人口和地理接近的组合是理想的。4用于实体链接的我们使用mGENRE（Cao et al. ，2021）用于多语言实体链接的任务，以自回归方式预测实体的序列到序列系统。它在零射击设置中工作得特别好，因为它将100多种目标语言视为潜在变量进行边缘化。通常，mGENRE的输入可以由NER模型提供，该模型提供源上的命名实体跨度例如，在意大利语句子“[START] Einstein [END] era un fisicotedesco.爱因斯坦是德国物理学家。）Einstein这个词被包含在实体跨度中。mGENRE被训练使用这些信息来返回最相关的维基数据条目。由于神经模型的可塑性和mGE-BRE的自回归令牌生成方式，我们发现，通过简单地将整个句子包含在跨度中也会产生有意义的特别地，对于先前讨论的意大利语句子，现在mGENRE的输入是“[START] Einstein era un fisicotedesco. [END]”。+v：mala2277获取更多论文1.00.80.60.40.20.0WiKiANN语言1.00.80.60.40.20.0MasakhaNER语言模特希腊语意大利语中文单语（SpaCy）8.6 3.1 14.1mBERT53.4 62.9 25.5表2：使用多语言NER模型导致在Eng-X数据上测试的显著更高的一致性图3：对于某些语言，NER-Relaxed模型在NER-Informed模型的60%以内。agreement@k：模型的top-k一致率。这种方法的优点是双重的。首先，不需要NER组件。其次，例如，由于绕过了NER组件，EL模型现在在其输出中的约束较少考虑的以下例如从TyDi-QA孟加拉语培训集：“Pragoitihasik[START] esiyar bhaugolik [END] ayaton kemonchilo？“8（'史前[START]亚洲[END]的[START]地理[END]区域是什么？' .我们的孟加拉语NER模型在WikiANN上训练，调整参数，将亚洲作为一个实体返回，而不是在给定的背景下，更合适的史前亚洲。因此，实体链接器无法将此短语链接到相应的WikiData条目（史前亚洲，ID：Q4164212）。当我们通过简单地传递“ [ S T A R T ]P r a g o i t i h a s i ke s i y a rb h a u g o l i ka y a t o nk e m o nc h i l o ？[ END]“连接到实体链接器，它链接到（亚洲，ID：Q48）和（史前亚洲，ID：Q4164212）。实验和结果我们进行实验，以量化如何不同的模型uninformed由NER模型（NER-Relaxed）相比，一个典型的管道（NER-Informed）将执行。给定两个模型在同一组句子上的输出，我们将比较它们的平均一致性@k，即当只关注它们的前k个输出时，两个模型的输出的交集的大小9我们在整个语料库的句子水平上对这些统计数据进行了我们专注于两个数据集，即8孟加拉语使用自己的（孟加拉语）脚本，而不是拉丁语。我们提出了一个手工创建的罗马化版本的例子的可读性。WikiANN和MasakhaNER，总结结果见图3。10比较这两个数据集之间的一般性能，很明显，普遍同意是体面的。在WikiANN的9种类型多样的语言中，有7种语言超过60%的top-1实体被两种模型链接来自MasakhaNER的非洲考虑到这些语言中的大多数都没有被包括在BART的预训练中（mGENRE模型是基于），我们预计使用AfriBERTa（Ogueji et al. ）或类似的模型，在未来的工作将产生改进。5NER/EL模型的跨语言一致性研究Bianchi et al. （2021）在并行工作中指出，需要关注语言不变属性（LIP）的一致性评估：不应通过语言转换模型改变的属性。他们建议LIP包括含义，主题，情感，说话者人口统计和逻辑蕴涵。我们提出了一个针对实体相关任务的定义：跨语言一致性是两种语言中的两个平行句子的理想属性，原则上应该使用相同的命名实体（因为它们是彼此的翻译），实际上标记有相同的命名实体。5.1NER实验我们研究了两个模型：SpaCy（Honnibal和Montani，2017）：一个最先进的单语语言库，支持几个核心NLP任务;以及一个基于mBERT 的NER 模型，使用 transformers 库在WikiANN 的数据集上训练（ Wolfet al. ，2020）。为了在NER任务上对基于mBERT的模型进行任务调整，我们使用WikiANN数据集，其中包含我们研究的四种语言的数据：希腊语（el），意大利语（it），中文（zh）和英语（en）。9两种模型通常输出1根据他们的可能性排序。10附录B中提供了一个详细的结果表。比较top-kk=1k=2k=3agreement@kBenhinestquejavrusturningcmnkinpcmyorwoliboswahaulugluoamh+v：mala2277获取更多论文评估为了评估跨语言一致性，理想情况下应该使用并行数据，其中两边都用命名实体进行注释由于据我们所知，这样的数据集并不存在，因此我们使用的是并行数据上的“银色”注释。我们从WikiMatrix 数据集（Schwenket al. ，2021年），我们在英语和另一种语言侧执行NER，使用每一侧的相应语言模型。在运行实验的过程中，我们在WikiMatrix数据集中识别了一些噪声源（例如，明显不是彼此翻译因此，我们计算了两个匹配句子之间的平均长度比，并丢弃了偏离平均比超过一个标准差的数据，以保留95%的原始数据，这些数据更有可能确实是彼此的翻译我们使用最先进的AWESOME对齐工具（Dou和Neubig，2021）在每个英语句子的单词与其相应的翻译之间创建单词级链接。使用这些对齐链接进行跨舌投影（Padó和Lapata，2009; Tiedemann，2014; Ni et al. ，2017，尤其是）允许我们计算跨语言的一致性，测量在投影之后一致的标签的部分。特别是，我们使用英语侧的跨语言投射作为反对他们结果对于我们研究的三种语言，单语SpaCy模型的跨语言一致性非常低，得分为8。6%的希腊英语，3。1%的意大利英语和14。1%为SpaCy模型是针对每种语言独立训练的，可以产生18个细粒度的NE标签，例如：将日期与时间区分开来，或将地点与地理政治实体区分开来。因此，没有对高跨语言一致性的先验然而，这些极低的分数揭示了更深层次的差异，例如跨语言的注释协议可能存在很大差异。11对于基于mBERT的模型，我们再次标记并行数据的两侧，但现在仅评估位置（位置），组织（ ORG ）和人员（ PER ）（WikiANN中存在的标签类型）。的语言一致性：在与上述相同的数据集上，我们获得53。4%的希腊语到英语，62。9%为意大利语到英语和25。5%用于汉语到英语。讨论为了进一步了解跨语言差异的来源，我们对400个希腊语-英语平行句子进行了手动分析，其中基于mBERT的模型[12]我们抽取了100个句子，其中英语投射的标签为0，而希腊语投射的标签为“位置”（location），英语投射的标签为“位置”（location），希腊语投射的标签为 0 ，而英语投射的标签为 “ 位置 ”（location）。我们使用以下模式执行注释：• 希腊语错误：仅英文侧投影标签正确• 英文错误：英文侧投影标签错误但希腊侧正确的情况• 两个都不正确：对于两侧标签不正确• 对齐错误：对于两个对齐的短语不是彼此的翻译的情况，所以我们不应该考虑投影的标签，也不应该与它们进行比较。• 全部正确：两侧以及对齐都被正确标记（假阴性）。令人鼓舞的是，在我们手动标记的平行句子中，实体对齐错误的不到10%。这意味着我们的结果相当稳健：10%的噪声水平不能解释希腊语-英语数据集上几乎50%的一致性缺乏。13因此，该系统肯定有改进的余地。第二个令人鼓舞的迹象是，只有不到2%的病例实际上是假阴性，即由于翻译的措辞，只有一个双方实际上包含一个实体。更进一步，我们发现错误因标签类型而异在大约75%的0-bytes情况下，是希腊端标签在输出bytes标签时出错。一个常见的模式（约占这些案例的35%）是希腊模式将月份标记为位置。在0-PER的情况下，62%的错误发生在英语一侧。一个常见的模式是英国方面的模式，mBERT模型具有显著更高的交叉-12其中一位作者能流利地讲两种语言。11我们注意到我们的评估只关注标签13它确实提供了一个在模型/语言之间共享的大约90%的潜在上限。我们应该找到的一致性。+v：mala2277获取更多论文比较top-kk=1k=3k=5计数（log）==20 10415103101025101语言（源-目标）图四：跨语言一致性的实体链接通常在语言之间很低，但特别是对于低资源语言对，如英语到因纽特语（iu），古吉拉特语（gu）或泰米尔语（ta）。当人是句子中的第一个标记时，即“Olga和她的丈夫[...]”中的第一个标记。附录I用更多的细节和例子扩展了这一讨论。上述观察提供了对NER模型我们认为，这证明了即使没有黄金NER注释，也评估NER模型对并行数据的实用性和重要性提高NER跨语言的一致性原则上也会导致更好的NER模型。潜在的解决方案可以使用基于后预训练的微调mBERT模型作为我们数据的编码器，或者将我们的跨语言一致性度量操作化为目标函数进行优化。145.2实体链接实验我们现在转向实体链接（ EL ），评估mGENRE数据集我们使用2014年至2020年WMT新闻翻译共享任务的平行语料库（ Bojar et al. ，2014，2015，2016，2017，2018;Barrault等人，2019年，2020年）。我们使用14个英语到目标语言对，平行句子数量在1- 5k左右。与我们的NER实验设置不同，我们不需要单词级别的对齐来计算跨语言的一致性。相反，我们可以比较源句子和目标句子的链接实体的集合。通过这种方式，我们计算并汇总了前k个链接实体（k为1， 3， 5）的业务级别得分在图4中，我们将该分数表示为百分比，将（源和目标句子输出的）交叉部分的大小除以源句子实体的数量详细[14]我们把这个问题留给以后的工作，因为它偏离了这项工作的主要目标（将数据集映射到语言用户并衡量其代表性）。实体类型图5：跨所有WMT语言对的链接实体类型的计数注意y轴的对数刻度：许多条目在非英语输入上的链接方式不同。所有14种语言对的结果也在附录D中报告。结果如图4所示，我们在所有14种语言对中获得了低一致性分数，范围从英语-罗马尼亚语的19.91%到英语-因纽特语的1.47%（k1）。因纽特语、古吉拉特语和泰米尔语等语言的得分特别低，可能反映了这些语言的mGENRE质量普遍较低，特别是因为它们使用非拉丁字母，这是文献中已经指出的问题（Muller et al. ，2021年）。所有语文的一致性分数百分比都很低，这表明mGENRE不会为不同语文的实体产生类似的实体链接。在未来的工作中，我们计划解决这一限制，潜在的权重，ING链接实体根据跨语言的一致性得分时，在多语言环境中执行实体disam- biguation。讨论我们进一步分析特定类型的实体是否在语言中被一致地识别和链接。我们使用SpaCy的英语NER模型对所有实体进行分类。图5显示了一个比较一致实体类别计数和仅源实体类别计数的可视化视图。更多讨论见附录D从图5中可以清楚地看出，地缘政治实体（GPE）是受跨语言一致性低影响最大的实体，英语和其他语言方面的实体数量较少。另一方面，人名（PER）似乎更容易联系。虽然最常见的实体类型是PERSON，ORG（即组织）和GPE（即地缘政治实体），但我们发现NER模型仍然无法正确地对实体进行分类，如（ Surat ， Q4629 ， ESTA ），（ Au-rangzeb ，Q485547 ， PER ）。然而，这些实体被 NER-Relaxed管道正确地链接起来，这表明了它的有用性。我们假设，并计划在未来的工作中进行测试，一个NER放松实体实体存在公共源浓度@k（%）恩罗恩菲恩普尔en-fr恩-特尔en-lt恩埃特延子EN-ZH恩吕恩-KK恩塔恩古恩尤+v：mala2277获取更多论文除非NER组件也显示出改进的跨语言一致性，否则朝着跨语言一致性进一步正则化将比NER-Informed流水线执行得更好。6结论我们提出了一个可视化NLP数据集相对于底层语言使用者的代表性的方法，我们分析了实体识别和链接系统，发现它们缺乏跨语言的一致性。我们计划进一步改进我们的工具，根据我们的观察，使NER/EL模型能够鲁棒地处理低资源语言我们还将扩大我们的数据集和任务覆盖范围，以更广泛地了解NLP系统的当前实用性。确认这项工作得到了NSF奖2040926和2125466的慷慨支持引用David Ifeoluwa Adelani，Jade Abbott，Graham Neu-big，Daniel D'souza，Julia Kreutzer，ConstantineLebes，Chester Palen-Michel，Happy Buzaaba，Shruti Rijhwani，Sebastian Ruder，Stephen May-hew ，Israel Abebe Azime ，Shamsudan Muham-mad，Chris Chinenye Emezue，Joyce Nakatumba-Nabalan ， Perez Ogayo ， Anuoluwapo Aremu ，Catherine Gitau，Derguene Mbaye，Jesujoba Al-abi，Seid Muhie Yimam，Tajudah Gwadabe，Ig-natius Ezeani ， Rubungo Andre Niyongabo ，Jonathan Mukiibi，Verrah Otibui，Iroro Orife，Davis David，Samba Ngom，Tosin Adewumi，Paul Rayson ， Mofetoluwa Adeyemi ， GeraldMuriuki，EmmanuelAnebi，ChiamakaChukwuneke ， NkirukaOdu ， EricPeterWairagala，Samuel Oyerinde，Clemencia Siro，Tobius Saul Bateesa，Temilola Oloyede，YvonneWambui，VictorAkinode，Deb-orahNabagereka ， MauriceKatusiime ， AyodeleAwokoya ， Mouhamadane MBOUP ， DiboraGebrey-ohannes ， HenokTilaye ， KelechiNwaike ， Degaga Wolde ， Abdoulaye Faye ，BlessingSibanda ， Ore-vaogheneAhia ，Bonaventure F. P. Dossou ， Kelechi Ogueji ，Thierno Akhima DIOP ， Abdoulaye Diallo ，Adewale Akinfaderin，Tendai Marengereke，andSa- lomey Osei.2021. Masakhaner：非洲语言。Mikel Artetxe Sebastian Ruder和Dani Yogatama 2020.论单语表征的跨语言迁移性。在计算语言学协会第58届年会的会议记录中，第4623-4637页，在线。计算语言学协会。Loïc Barrault ， Magdalena Biesialska ， Ond ZarrejBojar ， MartaR.Costa-jussà 、 ChristianFedermann、YvetteGraham、RomanGrundkiewicz、Barry Haddow、Matthias Huck、Eric Joanis 、 Tom Kocmi 、 PhilippKoehn 、 Chi-kiuLo、Nik olaLjubešic'、Christof Monz、MakotoMorishita、MasaakiNagata、Toshi-akiNakazawa 、Santanu Jakov 、Matt Post和 MarcosZampieri 。 2020. 2020 年机器翻译会议（WMT20）第五届机器翻译会议论文集，第1-55页，在线。计算语言学协会。Loïc Barrault ， Ond Zarrej Bojar， Marta R. Costa-jussà、Christian Federmann、Mark Fishel、YvetteGra- ham 、 Barry Haddow 、 Matthias Huck 、Philipp Koehn 、 Shervin Malmasi 、 ChristofMonz 、 Mathias Müller 、 Santanu Müller 、 MattPost和Marcos Zampieri。2019. 2019年机器翻译（WMT19）的结果。在第四届机器翻译会议论文集（第2卷：共享任务文件，第1天），第1计算语言学协会.Rachel Bawden 、 Giorgio Maria Di Nunzio 、 Cris-tian Grozea 、 Inigo Jauregi Unanue 、 AntonioJimeno Yepes 、 Nancy Mah 、 David Martinez 、Aurélie Névéol、Mariana Neves、Maite Oronoz、Olatz Perez- de Viñaspre 、 Massimo Piccardi 、Roland Roller 、 Amy Siu 、 Philippe Thomas 、Federica Vezzani、Maika Vi- cente Navarro、DinaWiemann和Lana Yeganova。2020. WMT 2020生物医学翻译共享任务的发现：巴斯克语，意大利语和俄语作为新的附加语言。第五届机器翻译会议论文集，第660-687页。计算语言学协会。艾米丽·M·本德2011.自然语言处理中语言独立性的实现与评价。语言技术中的语言问题， 6（3）：1艾米丽·M·本德和巴提亚·弗里德曼。2018.自然语言处理的数据语句：减轻系统偏见，实现更好的科学。 TransactionsoftheAssociationforComputational Linguistics，6：587费德里科·比安奇，黛博拉·诺扎，德克·霍维。2021年自然语言处理中的语言不变量。达米安·布拉西，安东尼奥斯·阿纳斯塔索普洛斯，

下载后可阅读完整内容，剩余1页未读，立即下载