识别和归一化外国名称拼写变体的方法及其在机器翻译和信息提取中的应用

200 浏览量更新于2024-01-14 收藏 684KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com面向信息抽取和机器翻译的Yuval Marton，ImedZitouni*Microsoft，Bellevue，WA，UnitedStates2014年10月12日在线提供摘要外国名称的音译通常包括多种拼写变体。这些变体导致数据稀疏和不一致问题，增加了词汇表外（OOV）率，并为机器翻译，信息提取和其他自然语言处理（NLP）任务。这项工作的目的是识别和集群名称拼写变体使用统计机器翻译方法：词对齐。变体通过与另一种语言（机器翻译设置中的源语言）中的相同“pivot”名称对齐来识别基于词到词的翻译和音译概率，以及字符串编辑距离度量，在目标语言中具有相似拼写的名称被聚类，然后被归一化为规范形式。通过这种方法，从阿拉伯语和英语（两种语言）的双语语料库中提取了数万个高精度的姓名音译拼写变体。当这些规范化的名称拼写变体应用于信息提取任务时，观察到强基线系统的改进。当应用于机器翻译任务时，显示出很大的改进潜力©2014制作和主办由Elsevier B.V.代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。1. 介绍外国名称在翻译或音译后通常有多种拼写变体（鉴于语言的声音和书写系统的差异，翻译旨在保留含义，而音译旨在保留声音）。这些拼写变体给许多人带来了挑战*通讯作者。沙特国王大学负责同行审查制作和主办：Elsevierhttp://dx.doi.org/10.1016/j.jksuci.2014.06.011自然语言处理（NLP）任务，因为它们增加了词汇量和词汇外（OOV）率，1加剧了数据稀疏问题，并可能引入不一致（在拼写或引用中作为多个实体）。当在一个文档中为同一个名称生成不同的拼写变体时，它会降低命名实体解析分数和机器翻译输出的可读性。本文解决了这个问题，用相应的规范形式替换每个拼写变体。这种文本规范化可能会使许多NLP任务受益，包括信息检索，信息提取，问答，语音识别和机器翻译。1OOV率：模型处理尚未训练的输入项的频率通常，模型在OOV术语上表现不佳，无论是机器翻译，解析，提及检测还是其他NLP模型。1319-1578© 2014制作和主办Elsevier B. V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/3.0/）。关键词阿拉伯文;命名实体识别;音译;名称规范化;信息抽取;机器翻译380Y.马顿岛Zitouni姓名拼写变体主要在信息检索（IR）研究中进行研究，特别是在查询扩展和跨语言IR中。Bhagat和Hovy（2007）提出了两种基于字母到音素映射和SoundEx算法（Knuth，1973）的（主要是英语）拼写变体生成方法。Raghavan和Allan（2005）提出了几种在自动语音识别（ASR）输出中对姓名进行分组的技术，并评估了它们在口语文档检索（SDR）中的有效性。这两种方法都使用命名实体提取系统来自动识别名称。对于多语言名称拼写变体，Linden（2006）提出使用具有加权FST的通用编辑距离度量来查找技术术语翻译（其被称为这些变体通常是在另一种语言中具有相似词干的翻译词。Toivonen及其同事（2005）提出了一种两步模糊翻译技术来解决类似的问题。 Al-Onaizan 和Knight （2002 ），Huang等人（2003 ），Ji和Grishman（2007）研究了一般名称实体翻译问题，特别是在机器翻译的背景下。所有这些方法都依赖于名称标记器和其他分类器来直接识别变体。然而，这项工作的目的是确定名称拼写变体使用跨语言信息，与应用程序的阿拉伯语和英语。我们不使用命名实体标记器直接识别名称及其从双语语料库中，我们收集词的共现统计数据，并计算词的翻译概率（包括翻译的词）。2对于每个源端单词，我们根据目标端字符串编辑距离将其目标端对齐的对应物分组为集群。然后，我们计算源词和每个目标端聚类之间的音译成本（见第3节）。具有小音译成本的词对被认为是名称变体。然后，我们将每个集群中的所有名称规范化为最常见的形式。请注意，拼写变化不一定源于音译或翻译，例如，● 辛迪和辛迪● Kacey和KC（朗读首字母）● Cl8n和Clayton（非正式沟通写作风格）● 方言差异（例如，我是一个很好的人（）然而，这些其他情况很可能不应该被聚类和规范化（除了，也许，非正式的写作风格），因为它们可能指的是不同的人/实体。这些案件不属于本工作的范围我们应用我们的方法来提取名称音译拼写变体从双语我们获得了数万个高精度的名称翻译对。我们进一步将这些拼写变体应用于机器翻译（ MT）和信息提取（IE）任务，并观察到统计学上的显着改善。2在本文中，我们有时会松散地使用“翻译”一词在IE任务上有很强的基线，在MT任务的一个小测试集上有接近在以阿拉伯语为重点的相关工作调查（第2节）之后，我们描述了我们在信息检索和统计机器翻译中的模型设置（第3节）。然后，我们详细介绍了我们过去和新的实验（第4节）。我们对结果进行了分析（第4节），并总结了未来可能的工作（第5节）。2. 相关工作除了我们前面提到的工作之外，在IE和MT中也有很多相关的工作。我们在这里专注于阿拉伯语（或阿拉伯语和英语）相关的工作。使用跨语言传播来提高性能的想法已经被一些研究人员应用。例如，Tackstromand等人（2012年）展示了如何使用跨语言单词集群来转移语言结构，从而提高系统性能。其他研究（如 Goldsmith ， 2001; McCallum 和 Nigram ，1998;Yarowsky，1995）报告了使用跨语言传播来提高不同系统的性能，即，形态分割，文本分类和分词。这些方法是基于单语数据。Rogati等人（2003）使用统计机器翻译（SMT）系统来构建阿拉伯语词干- mer。所得到的词干提取器的性能为87.5%。Ideet al.（2002）使用乔治·奥威尔的《一九八四》在七种语言中的对齐版本他们报告说，自动获得的标签至少与人类注释者创建的标签一样可靠。Zitouni等人（2005）试图通过使用英语提及检测系统来增强外语的提及检测模型。他们使用SMT系统（i）将文本翻译成英语，（ii）在翻译的文本上运行英语模型，以及（iii）将结果传播到原始文本。Das和Petrov（2011）尝试了类似的方法，但将其应用于POS标签。这两种方法都需要SMT系统。命名实体变体的检测（或生成）也在SMT中进行了探索和评估，通常作为释义生成任务的子集。在这种情况下，变体（paragraphs）用于增加缺少变体的翻译表，这与我们的工作不同，我们的工作使用它们来规范现有术语。在下文中，我们称这个术语为锚。Callison-Burch等人（2006）提出了一种通用的释义方法，通过“旋转“SMT表中的其他语言并返回到原始语言。该方法如下：对于每个锚点，在表中找到其翻译，并翻译回来。反译通常是很好的释义和潜在的好名字变体。我们的工作使用类似的旋转，但进一步集群的编辑距离和音译成本。有趣的是，Callison-Burch et al. （2006）从他们的实验中排除了命名实体，大概是因为在这个特定的子集问题中有更嘈杂的结果。Callison-Burch（2008）通过语法约束改进了该方法。许多出版物使用或扩展了旋转方法，其中一些我们在下面列出而音译规范化381表1给出了一个阿拉伯语的输入示例语言在翻译任务中，其他变体使用枢轴方法“|Alxrwb”, 哪里我们显示几种可能以解释目标语言，从而创建附加的（伪）参考翻译以改进参数估计并增加翻译覆盖率（Madnani等人，2007，2008; Madnani和Dorr，2013）。另一种释义方法是分布式释义。这种方法依赖于分布假设（Harris，1954; Firth，1957），该假设假设意义相似的单词保持相似的公司。分布释义已经应用于IR（Pasca和Dienes ， 2005;Bhagat 和 Ravichandran ， 2008 ）和 SMT（Marton等人，2009; Marton，2010，2013）。后一条工作线（Marton等人，2009; Marton，2010; 2013）引入了一个变体，可以在运行中解释任意长度的锚（而不必预先计算整个配置矩阵）。它包括命名实体的释义，指出了在命名实体的释义中枢轴和分布方法的弱点。一种混合的语义-分布方法生成双语释义（使用枢轴方法），然后使用分布相似性对释义候选者重新排序（Chan等人， 2011年）。第三种方法依赖于众包。 Denkowski等人（2010）使用众包平台Amazon Mechanical Turk为英语-阿拉伯语翻译任务生成释义。拼写变体被处理为从阿拉伯方言到英语的翻译的子集任务（Zbib等人，2012年，也是通过网络。Li et al.（2013）提出了一种他们还提出了一种加权的自动MT质量评分，对内容词和重要词（可能是名称）给予更多的权重。Abdel Fattah和Ren（2008）提出了几种方法，用于从阿拉伯语-英语平行语料库中提取音译专有名词对，这些方法所提出的技术的优势读者也可以参考Izwaini（2011）的书，了解更多的音译方法。如上所述，这些方法都没有像我们这样对名称变体进行聚类或使用它们进行名称规范化。这里提出的工作与Huang et al.（2008）有许多相似之处;在这项工作中，我们也从释义的角度看待这个问题。3. 音译名称实体变体我们的方法需要并行数据，其中源端语言中的每个单词（例如，阿拉伯语）与目标方语言中的一个或多个单词对齐（例如，英语）与翻译概率（包括音译情况）。可以通过类似于Vogel等人，1996; Ge，2004.翻译候选项（包括音译变体和英语单词），所有这些都是从我们的模型中提取的实际条目由于词汇翻译概率在这些变体之间分布，因此与所有翻译候选者相比因此，不正确的翻译，iqlim，被分配最高的概率，因此，它经常在机器翻译输出中被选择。为了解决这个问题，我们建议从所有翻译候选中识别和分组目标拼写变体，将它们转换为规范形式并合并它们的翻译分数。对于源语言中具有对齐的每个源单词或短语，我们使用组平均聚合 - 交互聚类算法（ Manning 和 Schütze ，1999）基于字符串编辑距离对其目标翻译/音译进行聚类。最初，每个目标单词或短语在单个聚类中。我们计算任意两个聚类之间的平均编辑距离，如果距离小于某个阈值，则合并它们重复该过程，直到任何两个聚类之间的最小距离在上面的例子中，alkharrub、al-kharub、al-khurub和al-kharroub被分组到一个单独的词簇中，其他每个词都保留在自己的单独的词簇中。请注意，源单词可能不是名称，而其翻译可能仍然具有相似的拼写。一个例子是阿拉伯语单词AElm，它与英语单词brief，briefing，briefed和briefings一致。为了检测源词是否是名称，我们计算源词与其目标翻译聚类之间的音译成本基于名称通常被音译的假设，其音译成本低于经验选择的阈值的源词被认为是名称，并且音译旨在根据定义保留声音。相反，具有高音译成本的源词被认为是非名称，假设只有名称将被音译，而其他词将被翻译（即，保留意义但不保留声音）。作为非名称，它们因此不用于连接目标语言的拼写变体。该方法利用双语人名音译对训练出的汉字音译模型计算源词和目标词之间的语音距离我们将源和目标名称分割成字符，然后对源和目标字符对运行HMM对齐（Vogel等人，1996; Ge，2004）。训练完成后，可以根据字符对齐的相关频率来估计字符的音译概率。假设源词f包含m个字符，f1，f2，.. . .. . ，en.对于j =1，2，. ，n，根据HMM对准器将字母ej对准到字符faj在字符对齐是独立的（简单）假设下，单词音译概率计算为：表1一个罗马化的阿拉伯名字Alxrandom的英语翻译与翻译概率。|阿尔克斯鲁吉亚Iqlim [0.22]al-kharrub [0.16] al-kharub [0.11]飞越[0.09] junbulat [0.05] al-khurub [0.05]小时[0.04] al-kharroub [0.03]382Y.马顿岛ZitouniYX2006年。给定源句，解码器试图找到具有最小翻译成本的翻译假设，定义为翻译模型代价、语言模型代价、失真代价和句子长度代价等不同特征函数的对数线性组合。翻译成本包括词（词汇）翻译概率和短语翻译概率。图1具有概率的学习A-E字符音译模型的示例nP e jfp e jj f a2：14.1.1. 更新翻译模型更新词汇翻译概率：给定目标侧名称拼写变体{t1，t2，. ..t m按它们的词汇翻译概率p（t1|s）Pp（t2|s）P. Pp（t m|s）。J第1页我们选择t1作为规范拼写，并添加到其概率-能力评分所有其他拼写变体其中p（e，j|f aj）是字符音译概率。注意在上述配置中，一个目标字符只能与一个源字符对齐，而一个源字符可以与多个目标字符对齐。注意，字符音译概率是语音相似度概率：Mpt1j S←第1页ptjjS：措施，即，其倒数（或对数倒数）是语音距离度量。图1中示出了经训练的阿拉伯语到英语字符音译模型的示例。阿拉伯字符（x）与发音最相似的英语字母（kh）对齐的概率很高。由于阿拉伯语单词的书写形式通常省略元音标记，因此英语元音也与阿拉伯语字符对齐（例如，x-kha给定这个模型，罗马化的阿拉伯名字中的字符和它的英文音译是对齐的，如图1所示。请注意，该模型不承诺任何特定的语言理论或表示，也不声称是100%正确的;它只是表示统计学上学习的字符对齐。阿拉伯语字母表包括28个字符（和双元音和元音变音符号），英语字母表包括52个字母（26个小写字母和26个小写字母）。4. 模型设置4.1. 机器翻译检测和规范化名称翻译拼写变体的一个重要应用是提高机器翻译系统的性能。鉴于名称拼写变体，我们更新了翻译模型（第4.1.1节）和语言模型（第4.1.2节），将变体的概率转换除了提高拼写的一致性，它还经常帮助正确的翻译（不管拼写变化）赢得其他翻译候选人。用于我们的基线的SMT解码器是基于短语的解码器，类似于Al-Onaizan和Papineni中的解码器这些其他（非典型）拼写变体然后概率为零。表 2 显示了 “ 的更新后的单词翻译概率|Alxrabel“。与图1相比，来自几个拼写变体的翻译概率被聚合并合并到规范形式al-kharrub中，它现在在新模型中具有最高的概率。更新短语翻译概率：短语翻译表包括源短语、它们的目标短语翻译和双语短语对对齐的频率。短语翻译概率是基于它们的对齐频率来计算的，这些对齐频率是从单词对齐的并行数据中收集的。为了更新短语翻译表，对于每个短语对，包括源短语中的名称和目标短语中的拼写变体，我们将目标端名称替换为其规范拼写。在映射之后，两个目标短语，仅在名称的拼写变体上不同，在标准化到规范形式之后可能最终相同，并且它们的对齐频率将被加在一起。短语翻译概率，然后重新估计更新的对齐频率。效果将类似于表2中所示的效果（除了每个翻译单元可能长于单个令牌之外）。4.1.2. 更新语言模型语言建模是SMT解码器提供格式良好的输出的关键组件之一。由于更新后的翻译模型只能产生一组拼写变体的规范形式，应该更新，以便所有包含拼写的m-gram（16m6N）变体的每个另一个是标准化的（以及它们的添加的计数），导致m-文法的标准形式表2一个阿拉伯名字的英文翻译|在第二行中显示更新的单词翻译模型分数。“赢家”翻译为粗体;非规范拼写变体为斜体。|阿尔克斯鲁吉亚原件：Iqlim [0.22][0.16] [0.11] 飞越[0.09] [0.05] [0.05] [0.03] 2016年12月26日星期四更新：Iqlim [0.22] 阿尔哈鲁卜[0.35] 阿尔哈鲁卜[0.0] 飞越[0.09] [0.05] 阿尔胡鲁卜[0.0]时间[0.04] 阿尔哈鲁卜[0.0]音译规范化383如果两个m-grams在相同的位置i包含单词ti，ti（ti-ti），则它们被认为是彼此的拼写变体也与词汇特征结合使用（例如，单词和词素在一个3字窗口，前缀和后缀的1 21 2m-gram，如果ti和ti属于相同的拼写变体，长度最多为4，阿拉伯语的词干为4字窗口）和syn-1 2组，如第3节所定义。实现这种更新的一种简单方法是将原始语言模型训练数据中的每个拼写变体替换为其对应的规范形式，然后重建语言模型。然而，因为我们不想替换不是名字的单词，所以我们需要有一个检测名字的机制。为了简单起见，在我们的实验中（使用英语语言模型），我们假设一个单词如果是大写的，那么它就是一个名字实验结果见第5节。4.2. 信息抽取信息抽取是理解文本的关键步骤，因为它识别了文本中重要的概念对象。我们在这里解决的一个重要的和基本的任务信息提取：提及检测。3我们将文本引用的实例称为对象提及，可以命名（例如，约翰·史密斯），名义上的（总统）或代词（e。例如，在一个实施例中，他，她）。例如，在句子中拉尼娅·阿卜杜拉王后说，她没有评论。有三个提到：女王，拉尼亚阿卜杜拉和她，所有这些都指同一个实体。与许多经典的NLP任务类似，我们通过为文本中的每个标记分配标签来将提及检测问题表述为分类问题，指示它是否开始特定提及，是否在特定提及内，或者是否在任何提及之外。许多自然语言处理任务中的良好表现已被证明在很大程度上取决于整合许多信息源（Florian等人，2004年）。我们选择一个指数分类器，最大熵（MaxEnt）分类器，它可以集成任意类型的信息，并使通过聚集可用于给定分类的所有信息的分类决定（Berger等人，1996年）。在本文中，MaxEnt模型使用顺序条件广义迭代缩放（SCGIS）技术（Goodman，2002）进行训练，并使用高斯先验进行正则化（ Chen 和Rosenfeld，2000）。在ACE中，有七种可能的提及类型：人员、组织、位置、设施、地缘政治实体（GPE）、武器和车辆。实验在阿拉伯语和英语上进行我们的基准系统在ACE 2007评估中取得了非常有竞争力的成绩。它使用了大量的特征，包括词汇和句法特征，以及其他信息提取模型的输出Zitouni和Florian（2008）以及Florian等人（2004）描述了这些特征，此处不再讨论。4.2.1. 名称拼写变体的规范形式作为特征在这里，我们专注于研究名称拼写变体在提高提及检测系统的有效性。为此，我们创建了一个新特性，其中对于每个输入令牌x，我们激发其战术特征（例如，POS标签、文本块）。4.2.2. 将提及作为特征信息抽取的另一种方法是通过将其从英语传播到阿拉伯语来研究提及检测和名称实体识别的有效性。我们的目标是不限于名称拼写变体，而是使用资源丰富的语言（在我们的情况下是英语）中的所有提及，以改善阿拉伯语信息提取。我们的方法需要单词对齐和一个经过英语训练的提及检测系统。第一步包括在英语训练数据上运行提及检测系统，从而生成标记文本。然后，我们在不同的字典中按类别对提及进行分组。在阿拉伯语文本的解码过程中，当我们遇到一个标记或一个标记序列是字典中的一个条目时，我们会触发它对应的类;只有当我们在文本和字典中5. 实验5.1. 名称拼写变体精度我们从LDC发布的句子对齐的平行语料库中提取了阿拉伯语到英语和英语到阿拉伯语的姓名翻译变体（包括音译）。4阿我们通过在并行数据上运行HMM对齐来训练单词翻译模型，将具有相似拼写的目标翻译分组，并根据公式（2.1）计算翻译集群中阿拉伯语单词和每个英语单词之间的平均音译成本。我们根据音译成本对人名翻译组进行排序，并在不同的排名位置选取300个样本进行评估（每个排名位置20个样本）。如下判断名称翻译变体的质量：对于每个可命名的名称翻译组{t1，t2，... ，t m|s}，如果源单词s是名称并且所有目标拼写变体都是正确的音译，则它接收信用1。如果s不是一个名字，则贷方为0。如果s是一个名字，但只有部分目标拼写变体是正确的，它将获得部分积分n/m，其中n是正确的目标翻译的数量。我们只评估了提取的拼写变体的精确度，5由熟练的阿拉伯语使用者判断。如图2所示，前22 K个阿拉伯语-英语名称翻译的准确率为96.9%。其中，98.5%的自动对齐的阿拉伯语单词是姓名。精度随着包含更多非名称阿拉伯语单词而降低平均而言，每个阿拉伯名字有2.47个英语拼写变体，尽管有些名字有10多个拼写变体。标准形式i（类标签）C（xi），它代表x的名称拼写变体i.此名称拼写变体功能3我们在此采用ACE（NIST，2007）命名法。4Linguistic Data Consortium，网址：https://www.ldc.upenn。[5]评价回忆需要人工查看所有可能的音译空间（数十万个条目），这是不切实际的。表4基线SMT系统和更新模型系统的英语翻译输出。来源Alm tmr AlAwl lAqlymAlxrandom AlErby AlmqAwm参考在伊克林·哈鲁布举行基线阿拉伯区域电阻阿拉伯海鲁卜第一次会议最新模型电阻384Y.马顿岛Zitouni图2阿拉伯语-英语（A-E）姓名拼写变体精度曲线。（（cid：129）不同排名位置评价样本的精度。较大的正方形表示截断点）。图3切换源语言和目标语言，我们获得了英语-阿拉伯语姓名拼写变体，即，一个英文名字加上多个阿拉伯拼法如图3所示，前20 K个英语-阿拉伯语名称对以高于87.9%的精度获得，并且每个英语名称平均具有3.3个阿拉伯语拼写。表3显示了一些5.2. 机器翻译我们将阿拉伯语到英语的姓名拼写变体应用于机器翻译任务。我们的基线系统使用5.6 M阿拉伯语-英语句子对进行训练，使用与用于提取阿拉伯语到英语拼写变体相同的训练数据。语言模型是一个五元语法模型，具有修改的3.5十亿字。在修剪（使用计数截止）之后，该模型总共包含9.35亿个N元语法。然后，我们更新了翻译模型和语言模型，名称拼写规范形式，并相应地更新它们的概率和分数。表4显示了一个罗马化的阿拉伯语句子，来自基线系统的翻译输出和来自更新模型的输出。在基线系统的输出中，阿拉伯名称这个错误在更新后的模型中得到了修复，在拼写变体规范化后，翻译和语言模型都为正确的翻译“al-kharroub“分配了更高的概率我们在一个测试集上评估了更新的SMT模型，该测试集包括70个文档：42个新闻专线文档和28个网络日志和新闻组文档。测试数据中有669个句子，16.3K阿拉伯语单词。使用BLEU（Papineni等人，2001）和毒性接触率（Snover等人，2006）scores.使用基线解码器和更新模型的结果如表5所示。应用更新的语言模型（ULM ）和翻译模型（UTM）导致TER的小幅降低。此外，将类似的名称拼写规范化应用于参考翻译，导致BLEU分数增加0.1分，TER减少近0.3点我们将在第5节中讨论缺乏显著收益的潜在原因。5.3. 信息提取类似于经典的 NLP 任务，如文本组块（ Ramshaw 和Marcus ， 1994 ）和命名实体识别（ Tjong Kim Sang ，2002），我们将提及检测公式化为一个序列分类问题，通过给文本中的每个标记分配一个标签，指示它是否开始一个特定的提及，是在一个特定的提及之内，还是在任何提及之外。对于阿拉伯语，空白分隔的单词由零个或多个前缀组成，后跟一个词干和零个或多个后缀。表3.阿拉伯文对英文和英文对阿拉伯文姓名拼写变体的例子。斜体字代表不同的人与相似的拼写名称。浪对源名称目标拼写变体阿拉伯语译成英语阿尔克斯米尼霍梅尼克鲁比卡鲁比gbryAl加布里埃尔·加布里埃尔·加布里亚尔·戈布里亚尔·吉布里亚尔英语译成阿拉伯语井里汶ybwnmbindambyndA mbyndA mbyndA AmbAndA mbynydANguyen宁宁宁尼琴·本杰温·温吉恩·恩圭音译规范化385表5更新TM和LM的MT评分。蓝色r1n4之三基线27.151.7基线+ULM+ UTM27.251.5参考文献正常化27.251.4每个前缀、词干或后缀都是一个标记，任何连续的标记序列都可以表示一个提及。我们决定将分割模型与Lee等人（2003）提出的模型相似，准确率为98%。利用围绕最大熵（MaxEnt）原理构建的统计方法来执行分类（Berger等人，1996），其具有在进行分类决策时组合任意类型的信息的优点。提及检测系统在句子x1，. ，xn，其中标签yi如下：● 如果它不是任何实体的一部分，yi=O（O表示如果它是实体的一部分，则它由指定它是开始提及（B-）还是在提及（I-）内的子标签例如，在一个实施例中，B-PERSON）。提及检测系统实验是在ACE 2007阿拉伯文和英文数据集上进行的（NIST，2007年）。有七种可能的类型：人，组织，地点，设施，地缘政治实体（GPE），武器和车辆。对于英语提及检测系统，使用单词形式作为分类的标记由于评估测试集不是公开的，我们将公开可用的训练语料库分成85%/15%的数据分割。为了便于将来与本文中的工作进行比较，并模拟现实场景，根据文章日期创建了拆分：测试数据按时间顺序选择为最新的15%数据。通过这种方式，训练和测试数据集中的文档在时间上不会重叠，并且测试数据的内容比训练数据更新。对于英语，我们使用499个文档进行培训，100个文档进行测试，而对于阿拉伯语，我们使用323个文档进行培训，56个文档进行测试。英语和阿拉伯语提及检测系统使用大范围的特征，包括词汇（例如，在3个单词的窗口中显示单词和变体，前缀和后缀的长度最多为4，在4个单词的窗口中显示阿拉伯语的词干）。Zitouni和Florian（2008年）以及Florian等人（2004年）更详细地描述了这些特征。我们的目标是研究名字拼写变体信息以及提及传播在提高提及检测系统性能方面的有效性表6中的结果表明，名称拼写变体（NSV）的使用确实提高了提及检测系统的性能。在召回方面获得了相当大的改进改善-在精度方面也获得了满意的结果，从而使系统在F测量方面具有更好的性能（82.4 vs.82.7英语和76.4与阿拉伯文的77.26相比）。就阿拉伯文而言，使用提及-传播来建立地名录（Gaz）功能进一步提高了性能。英文的情况并非如此，使用阿拉伯文的信息传播并没有改变性能。这是因为英语使用了更丰富的资源和更多的训练数据比阿拉伯语。因此，无法利用从阿拉伯文提取的地名录。另一方面，阿拉伯语系统只使用词汇特征，因此，它可以从具有更丰富资源的英语语言中受益于信息传播。当阿拉伯语系统使用更丰富的信息集时，包括句法信息（POS标签，文本块）和其他信息提取模型的输出，基线性能增加到81.6F（84.3精度和79.0召回）。在这种情况下，使用名称拼写变体导致精确度提高0.1，召回率提高0.1。为了衡量一种特定方法相对于另一种方法在认知方面的改善是否具有统计学显著性，我们使用了分层自助再抽样显著性检验（Noreen，1989）。该方法被用于CoNLL-2002命名实体识别共享任务中。6基于这种分层自助再抽样方法，性能的小幅改善具有统计学显著性。然而，根据前面所述的方法，阿拉伯语的小幅度改善在统计上并不显著。这一结果的一个假设是，阿拉伯名字拼写变化不够丰富，更好的调整对齐，需要分段评分来提高精度。6. 讨论根据我们的错误分析，在平行语料库中观察到的大量阿拉伯名字，其中许多它们中的一个没有出现在训练语料库中，显著地帮助MT和IE模型捕获这种新信息和/或纠正分配的类型。我们数据中的一些相关示例如下：（i）设施提及（mbnY blfwr- 喀布尔），和（三）人提到（AlbEvyyn -Baa- thists）。只有当我们使用我们的方法时，这些提及才被正确标记。换句话说，误差分析清楚地表明，一种可能的方法，以获得进一步的改善，是增加并行数据，从而增加（1）错误标记的名称和(2)在平行语料库中的目标语言名称第二个参数可以通过增加并行数据的大小来间接增加。然而，获得10或20次6http://www.cnts.ua.ac.be/conll2002/ner/。表6英文和阿拉伯文的成绩使用和不使用地名拼写变体（NSV）和地名录（Gaz）的地名系统。性能以下列术语表示：精确度（P），召回（R）和F-测量（F）。基线P84.481.8基线+NSV基线+GazRFP英语阿拉伯80.6 82.4 84.671.7 76.4 82.6R80.973.9F82.778.0P–R–F–82.3 72.8七十七点二六●386 Y.马顿岛Zitouni手工对齐的更多并行数据是昂贵的，并且需要几个月的人工/小时的工作。为此，可以选择通过选择自动对齐的并行语料库所有这些实验获得的结果有助于回答一个重要的问题：当试图改善资源贫乏语言中的提及检测系统时，我们应该投资于构建资源，还是应该使用资源丰富语言的传播来（至少）引导过程？符合成本效益的答案似乎是后者。话虽如此，我们还注意到，随着可用资源的增加，业绩的改善显示出收益递减。虽然这方面的证据并不确定，但这一趋势是可以预料的。虽然BLEU和TER评分不能完全代表正确名称翻译的重要性，7但我们仍然想了解为什么翻译质量的改善如此之小。经过进一步的错误分析，我们发现，在我们的测试集，大约2.5%的阿拉伯语单词的名称与英语拼写变体。其中，73%的姓名拼写错误可以通过第5.1节中获得的翻译拼写变体进行纠正。然而，由于SMT系统是在提取姓名拼写变体的相同双语数据上训练的，因此这些阿拉伯语姓名中的一些已经在基线系统中被正确翻译。因此，在这种情况下，改进的空间很小。我们随后进行了一个甲骨文实验，手动纠正前10个文档（89个句子，2545个单词）中的名称翻译错误。这只纠正了6个地名翻译我们认为这个结果支持了我们的假设，这种方法有可能产生更大的影响。7. 结论和今后的工作我们提出了一种方法来检测名称变体，重点是音译变体。我们的方法使用了一个旋转翻译：另一种（源）语言的名称，它与所有（目标语言）名称变体对齐。然后通过编辑距离和音译分数对这些变体进行最后，每个聚类被归一化为最频繁的我们将我们的方法应用于阿拉伯语和英语的信息提取我们在信息提取中观察到了超过强基线的显著收益。我们还看到了机器翻译的巨大在未来，我们打算将这项工作扩展到使用半监督和无监督方法，这些方法可以利用跨语言信息传播来提升信息提取和机器翻译的性能。我们还打算将我们的方法的适用性扩展到非翻译设置，其中有必要区分表示单独实体的拼写相似的名称（尽管编辑距离短或音译成本低）和表示同一实体的拼写变体的名称我们认为，研究界继续投资于建立更好的非英语资源是很重要的[7]这些分数将带有信息的单词（如姓名）与任何其他标记（如标点符号）一样对待。‘‘source 我们也相信，使用跨语言传播方法可以帮助引导这个过程。引用Abdel Fattah，M.，Ren，F.，2008.英语-阿拉伯语专有名词音译-对的创造。J. Am.社会信息科学Technol.59（10），1675-1687.http://dx.doi.org/10.1002/asi.20877网站。Al-Onaizan，Y.，Papineni，K.，2006.统计机器翻译的失真模型在：计算语言学协会第44届年会的会议记录澳大利亚悉尼Al-Onaizan，Y.，Knight，K.，2002.使用单语和双语资源翻译命名实体。在：第40届计算语言学协会年会的会议记录，费城，宾夕法尼亚州。伯杰，A.，Della Pietra，S.，德拉皮特拉，V.，1996.自然语言处理的最大熵方法。计算凌22（1），39-71。巴加特河，Hovy，E.，2007.用于生成拼写变体的语音模型。国际人工智能联合会议（IJCAI）。印度海得拉巴巴加特河，Ravichandran，D.，2008.大规模获取释义以学习表面模式。收录于：ACL 2008会议记录。pp. 674-682.Callison-Burch，C.，2008.从平行语料库中抽取释义的句法约束。参见：EMNLP会议记录。Callison-Burch，C.，Koehn，P.，奥斯本，M.，2006.改进了使用释义的统计机器翻译。见：NAACL-2006会议记录。Chan，T.P.，Callison-Burch，C.，Van Durme，B.，2011.使用单语分布相似度对双语提取的释义进行重新排序。2011年GEMS自然语言语义几何模型研讨会论文集。pp. 33比42陈淑仪，罗森菲尔德河，2000. ME模型的平滑技术综述。IEEETrans. 语音音频处理。达斯，D.，彼得罗夫，S.，2011.基于双语图形投影的无监督词性标注。第49届计算语言学协会年会论文集：人类语言技术。美国俄勒冈州波特兰。pp.600-609http://www.aclweb.org/anthology/P11-1061网站。Denkowski，M.，Al-Haj，H.，Lavie，A.，2010.用于英语-阿拉伯语机器翻译的Turker辅助para-phrasing。在：NAACL研讨会上使用亚马逊的Mechanical Turk创建语音和语言数据。66比70弗斯，J.R.，1957年语言学理论概要1930 《语言分析研究》（Studies in Linguistic Analysis）Philological Society，Oxford，pp. 1 -32（转载于F.R.）Palmer（ed.），J.R.论文集Firth1952 -1959，London：Longman（1968））.弗洛里安河，哈桑， H. ， Ittycheriah ， A. ， Jing ， H. ，Kambhatla，N.，Luo，X.，Nicolov，N.，鲁科斯美国，2004.多语言实体检测和跟踪的统计模型。在：计算语言学协会北美分会人类语言技术会议pp. 1-8号。Ge，N.，2004.改进单词对齐。在DARPA/TIDES NIST MT评估研讨会上发表演讲。Goldsmith ， J. ， 2001. 形态学和自然语言的无监督学习。Computational Linguistics 27（2），153-198.Goodman. J.，2002.序贯条件广义迭代尺度。在：第40届计算语言学协会年会的会议记录，费城，宾夕法尼亚州。哈里斯，Z.，一九五四年分布结构。 Word 10（23），146-162.Li，H.，郑杰，Ji，H.，李，Q.，王伟，2013年。名称感知机器翻译。在：计算语言学协会第51届年会的会议记录，索非亚，保加利亚。pp. 604-614.音译规范化387黄，F.，Emami，A.，齐图尼岛2008.跨语言名称拼写规范化，EMNLP'08。10月25日黄，F.，沃格尔，S.，Waibel，A.，2003.基于多特征代价最小化的在：ACL 2003年多语言和混合语言命名实体识别研讨会会议记录-ACL年会。计算语言学协会，莫里斯敦，新泽西州。Ide，N.，Erjavec，T.，Tufis，D.，2002.平行语料库的意义辨析。在：ACL-02词义消歧研讨会的会议记录：最近的成功和未来的方向。pp. 61- 66号。Izwaini，S. (ed.)、2011.阿拉伯名字的罗马化。阿布扎比：阿联酋文化、青年和社区发展部。ISBN 978-9948-15-988-9。Ji

下载后可阅读完整内容，剩余1页未读，立即下载