双语语料库中超函数的自动提取

127 浏览量更新于2023-12-12 收藏 716KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

理论计算机科学电子笔记225（2009）329-340www.elsevier.com/locate/entcs双语语料库中超函数的自动提取佐山学a，1，2富士仁a，b，3 黑岩慎吾a，4德岛大学工学部情报科学系德岛信息工程北京邮电大学北京100876摘要大型超函数的提取是实现基于超函数的机器翻译的关键之一。本文提出了一种从日英双语语料库中自动抽取SF的方法。抽取过程使用双语词典匹配双语语料库中每个双语句子中的日语名词和英语名词。实验结果表明，该方法能很好地自动提取机器翻译中的SF。然后，我们讨论了SF的机器翻译的问题，从使用提取SF的评价实验的结果保留字：Super-Function，翻译，自动提取1引言越来越多地，当在互联网上搜索信息时，所需的信息是用外语写的。当互联网用户从搜索引擎，他们需要更长的时间来理解的文件比一个本地文件。因此，机器翻译对于阅读外国文件是必不可少的。然而，目前的机器翻译系统存在许多问题。几乎没有用户对当前的机器翻译系统感到满意，因为翻译的准确性和质量还没有达到满足用户需求的水平。1本研究得到日本文部科学省科学研究补助金（B）19300029、17300065、探索性研究17656128的部分资助。2电子邮件地址：sasayama@is.tokushima-u.ac.jp3电子邮件地址：ren@is.tokushima-u.ac.jp4电子邮件地址：kuroiwa@is.tokushima-u.ac.jp1571-0661/© 2008 Elsevier B. V.根据CC BY-NC-ND许可证开放访问。doi：10.1016/j.entcs.2008.12.084330M. Sasayama等人理论计算机科学电子笔记225（2009）329如果用户想要翻译的句子存在于一个示例性的双语语料库中，他们可以得到一个很好的翻译只执行搜索。但是，由于仅使用双语语料库，用户输入句子的覆盖范围受到限制。因此，我们正在继续进行试验，通过将双语语料库[3]、[7]。功能化是通过引入超-功能（SF）的概念，为每个双语句子的语料库，和功能语料库用于翻译。使用SF进行翻译比直接使用双语语料库具有覆盖面广、灵活性高的优点。然而，有一个问题是，这个过程是手动的，我们只能创建有限数量的SF，我们还没有澄清SF创建一个实用系统的问题。针对这一问题，本文提出了一种从日英双语语料库中自动抽取SF的方法。特别地，在检查句子的结构时，我们注意双语语料库中每个双语句子中包含的名词，从而通过使用词典将共同名词与源语言和目标语言进行匹配来自动提取SF我们使用从大量双语语料库中提取的SF进行了翻译实验，并阐明了使用SF进行翻译的有效性和存在的问题。在下一节中，我们描述了这项研究的目的。在第3节中，我们解释了关于基于SF的机器翻译的SF的定义和结构。第四节介绍了从双语语料库中自动抽取SF的方法。在第五节中，我们通过翻译实验证明了该方法的有效性，并考虑了实验结果。最后在第六节中我们给出了结论和未来的工作。2目的目前许多商业机器翻译系统进行句法分析，语法和结构之间的转换规则是手工描述的（[1]，[2]）。由于输入的句子种类繁多，要进行大量灵活的翻译，就需要有详细的语法规则和转换规则手动描述涵盖许多句子的所有规则是非常困难的此外，即使输出是一个合乎语法的句子，翻译.为了解决这个问题，提出了一种使用大型双语语料库的翻译方法（[3][16]）。这些方法分为两类，基于实例的机器翻译（[3][7]，[9][16]）和基于统计的机器翻译（[8]）。使用双语语料库本身的优点是生成一个自然翻译，因为语言现象是有规律可循的。但由于语言现象的直接使用，覆盖面有限，可解释性不强.因此，为了实现高翻译的准确性和质量，需要大量的语料库基于SF的机器翻译是一种基于实例的机器翻译，它通过使用功能化的语料库来扩展覆盖范围并提高可扩展性。有基于模板的机器翻译（[15]，[16]），这是一种类似于基于SF的机器翻译方法该方法使用语法M. Sasayama等人理论计算机科学电子笔记225（2009）329331Fig. 1.日语句子（上）和英语句子（下）分析，以翻译SF为基础的机器翻译没有。机器翻译中的SF被定义为显示源文件的对应关系，目标语言（[3]，[4]）。基于SF的机器翻译不像大多数传统的MT系统那样使用句法分析来翻译。因此，该过程是简单的。因为SF是基于语料库的，所以生成了简洁的翻译。然而，以前SF是从语料库中手动提取的。因此，我们只能提取有限数量的SF。此外，创建一个实用系统的SF问题尚未澄清。本文提出了一种从双语语料库中自动提取SF的方法，该方法采用以下方法：(i) 每个双语句子的名词是使用名词分类规则确定的，句子是使用方向图表示的。(ii) 基于上述结果，在双语词典中匹配源语言和目标语言句子的名词(iii) SF由匹配的结果得到。此外，我们进行了翻译实验，使用提取SF，并显示适当的翻译是可能的。3基于Super-Function的机器翻译SF是一个函数，显示源语言和目标语言句子对之间的某些定义关系。我们假设一个句子是由一些固定和可变的部分。通过替换可变部分，可以得到大量不同的句子。在本文中，我们只关注名词作为变量的翻译。SF由两个架构组成。一个是方向图。另一个是转换表。有向图由节点和边组成。在SF中的有向图中，节点表示恒定部分，边表示变量零件.图1示出了方向图的示例。图中上部是日语句子的方向图，下部是英语句子的方向图。第一个圆的值φ是空字符。空字符用于当没有对应于第一个字符的单词转换表由节点表和边表组成。节点表为源语言和目标语言的对应表。边缘表表示源语言的变量在目标语言中的顺序。边表描述了名词的条件，以区分名词是否是代词。表1显示了节点表和边缘表的示例左边是节点表，332M. Sasayama等人理论计算机科学电子笔记225（2009）329表1节点表（左）和边表（右）JEJE条件φφ111pha花了23一制成到32的尼诺塔.---表2 Unite表日本节点Z：ha：made：ninotta名词顺序一比三比二名词条件1P：A：The英文节点Z：take：to：.右边是边桌。表1中的条件表示条件我们使用这两个表的统一统一的表称为Unite Table。表2显示了Unite表。当我们获得日语节点时，我们使用表2'Z'表示空字符。3.1翻译过程下面是使用SF进行机器翻译的流程。(i) 日语句子通过使用ChaSen [17]的形态分析分为名词（边缘）和常量（节点）。(ii) 将常量（日语句子的节点）与SF数据库中的NTB匹配，并且获得英语节点、位置和条件。然而，在某些情况下，SF具有多个英文节点和边。部分3.2 描述了这些案例。(iii) 所有名词都使用双语词典翻译。(iv) 根据ETB中名词的顺序，英语节点内的名词发生重新排列。最后给出一个翻译句子.3.2多个目标语言节点表3中示出了具有多个英语节点和边的日语节点的示例。在这种情况下，我们通过匹配选择一个英文节点和边M. Sasayama等人理论计算机科学电子笔记225（2009）329333表3多个目标语言节点日本节点Z：ha：made：ninotta名词的顺序1一比三比二名词的条件11P：A：The英文node1Z：take：to：.noun2的顺序一比三比二noun2的条件1P：A：The英文node2Z：rode：to：.英语中的名词与日语中的名词处于边缘状态。使用该条件不能消除英文节点和边的歧义的情况是必须解决的问题。然而，这个问题的频率是未知的，因为大量的SF不是手动获得的。在本文中，我们计算频率的SF，其中有两个或两个以上的英语节点和边缘使用大量的SF，这是使用所提出的方法创建的。4从语料库从双语语料库中自动提取SF的方法如图2所示。首先，日语和英语句子通过形态分析被分离为名词和常量（图 2（1））。其次，我们通过使用双语词典进行匹配来获得日语和英语名词之间的位置关系（图2（2））。这个过程被称为名词匹配，我们将在4.2节中介绍。第三，如果没有对应的名词，那么它就是孤立名词。在这种情况下，我们执行孤立名词处理，这将在4.3节中详细介绍。节点表和边表从这些过程中创建。最后，我们合并提取的SF与日本节点。4.1形态分析这一步将语素分类为名词或其他常量。这一步需要一个名词分类规则来识别名词。有两套名词分类规则。一个是日语名词分类，另一个是英语分类。两者都存储了分类词素是否是名词的规则（表4）。要做到这一点，下一个词素也被检查。例如，如果Sahen的下一个语素是Noun，则Sahen被归类为名词。日语名词分类规则集有32条规则，英语名词分类规则集有40条规则。334M. Sasayama等人理论计算机科学电子笔记225（2009）329图二. 提取工艺概述当一个意想不到的规则出现在一个句子对，我们不提取SF从句子对，以防止提取坏SF。4.2名词匹配该步骤将日语名词与英语名词进行匹配，以获得日语名词在英语句子中的位置。名词匹配的流程如下。(i) 我们通过使用双语词典将英语名词翻译成日语来获得一些日语名词。(ii) 我们搜索与其中一个翻译对应的日语名词。(iii) 通过第二步的匹配，我们得到了英语名词（翻译成日语）的位置和条件当匹配的名词是代词时，冠词总是存储为条件，代词存储为条件。(iv) 在步骤i中，当英语名词的所有翻译都与日语名词不匹配时，该英语名词成为孤立名词。当这种情况发生时，执行孤立名词处理（第4.3节）。(v) 我们对所有英语名词重复步骤i）到iv）。M. Sasayama等人理论计算机科学电子笔记225（2009）329335表4分类规则的一部分规则例如sahen varb + varb →varb边京苏鲁sahen varb + except→ varb名词边桥河sahen varb +名词→名词边教纪馆名词+名词性形容词→名词世界平和名词性形容词+名词→名词久游安肯图三. 将处理插入到节点(vi) 最后，日语名词如果与英语名词不对应，就成为孤立名词。4.3孤立名词处理在本节中，我们将解释孤立名词的处理。这个过程有两种情况：1）孤立名词是日语名词，2）孤立名词是英语名词。当孤立名词是英语名词时（过程iv），英语名词变成节点而不是边，并且执行对节点的接纳处理（图3）。利用这一过程，我们可以有效地处理省略名词。接下来，当孤立名词是日语名词时，将日语名词登记到SF中作为该名词作为孤立名词的条件。这是因为日语名词不一定是英语名词。示例如图4所示。netukikyu的翻译通常是“热气球”。然而，在这个例子中，因为它是5SF的自动提取及实验评价我们从一个日英双语语料库中自动提取SF，我们比较了自动和手动提取，以验证一个自动执行的SF和手动提取的SF是相同的而且为了336M. Sasayama等人理论计算机科学电子笔记225（2009）329见图4。 SF的结构表5提取的SF数量的节点众多SF合计（%）1节点7,4304.62节点32,28620.43节点57,72636.44节点41,78226.35节点14,5509.16节点3,4882.27节点以上1,3720.8总158,634100为了检查使用所提取的SF是否可以进行适当的翻译，使用从中提取SF的双语语料库进行翻译实验（下文中称为封闭测试）。5.1SF的自动提取5.1.1实验条件我们使用了日英双语语料库中的202，597个双语句子[19]。单词词典是根据EDR的英日双语词典创建的[20]。我们使用ChaSen [17]进行日本形态分析，并使用Brill标记器[18]英语。5.1.2实验结果该方法能够从194，689个句子中提取SF。除重叠SF外，已提取158，634 SF。有7，908个判决失败。表5显示了按节点分类的提取结果根据表5，99%M. Sasayama等人理论计算机科学电子笔记225（2009）329337图五. 超级功能的SF由少于六个节点形成相比之下，具有七个或更多节点的SF非常图5中示出了提取的SF的示例。5.1.3与手动提取的比较我们比较了自动和手动提取，以验证自动提取的SF和手动提取的SF是相同的首先，我们随机选择200个双语句子从双语句子对，可以有SF提取。接下来，我们从200个样本中自动和手动提取SF。最后，我们比较了自动提取的SF和手动提取的SF。结果，184名SF（92%）符合要求。 16个不对应的句子中的差异原因是形态分析错误和缺乏名词分类规则。这里有一些不匹配的例子。• 形态分析对应于“Kanojo ha Kanazuti douzen oyogenai”的自动提取的SF。"她不会游泳，就像一把锤子一样。“ were我的朋友。|kana|本|1 |1q|扎：我不会游泳，就像锤子不会游泳一样。|Z:canno more swim than a hammer can.’人工提取的SF为“Z：ha：douzen oyogenai”。|Z|本|1q：Z|一比二|扎：我不会游泳，就像锤子不会游泳一样。|Z:can nomore swim than a hammer can.’ 自动和手动前处理由于‘金珠’的形态分析不能自动提取，牵引力不同• 缺乏名词分类规则自动提取对应于“Inu wo kautameno ki- hontekina rule ha”的SF南苏卡和'什么是的基本规则为保持一狗？”是‘Z:wo |kihonteki：nani|过去|的|the基本：a|三比一|什么是：保持：？” 手动提取的SF为我的意思是，我的意思是，我的意思是。|纳尼|过去|基本：a|三比一|扎：我不会游泳，就像锤子不会游泳一样。|Z:can no more swim than a hammer can.’在这种情况下，一个分类规则的'名词（kihon）名词性形容词动词（teki）助动词（na）5.1.4讨论SF的自动提取是成功的，因为92%的手动提取的SF与自动提取的SF一致。此外，由于自动提取成功率为96%，因此手动提取的SF变为总数的88%。许多无法提取的句子源于短缺338M. Sasayama等人理论计算机科学电子笔记225（2009）329表6SF有很多候选人一些候选人SF日本结284扎：哈：当然。229扎：哈：是的。197扎：哈：不：是的。164扎：哈：不，是的。131扎：当然。表7封闭试验成功失败165 145句(84.1%）29 199个判决(15.9%）名词的分类规则。这是通过添加更多的名词分类规则来解决的。11%的SF具有多个English节点和边。有一些SF具有许多英文节点和边。（表6）。该表显示，具有两个或更多候选项的SF具有许多基本结构的句子。我们将在下一节（封闭测试）中进一步讨论这一点。5.2封闭测试5.2.1实验条件194，689个提取了SF的句子被用作测试集。第5.1节中提取的所有SF（158，634）均用于实验。该实验的成功条件是，当翻译结果在原句中时，任何其他都被认为是失败的。5.2.2实验结果实验结果如表 7 所示。有 165 ， 145 （ 84.1% ）个判决成功，有 29 ， 199（15.9%）个判决失败84.1%的成功率证明了自动抽取的语义特征具有足够的能力。5.2.3讨论我们考虑一个失败的句子，失败的原因和解决方案。失败句子的示例如表8所示。因为它是一个封闭的测试，从句子中自动提取的英语节点肯定包含在SF中作为候选，也是关于失败的句子。但是，M. Sasayama等人理论计算机科学电子笔记225（2009）329339表8错误句子日语句子KanojohaUma ninotta.英语句子她骑着马。相应SF扎：哈：尼诺塔。|Z|过去|1q：a|一比二|Z：rode：. |Z:rode:.|Z|过去|1P：The|一比二|Z：上车了。|Z:goton:.|Z|过去|1Q：The|一比二|Z：进去了。|Z:gotin:.|根土吉久|过去|1p |1|扎：在热空气中骑行。|Z:rode in a hot air.这个SF。有时候，候选人的缩小范围没有完成，因为第一个候选人被选中了。表8的示例是动词根据名词而变化的情况。在英语中，因为这些都是不规则的，所以他们很难缩小候选人的范围。解决这个问题的一种方法是使用概念词典将名词的概念添加到SF6结论提出了一种从语料库中自动抽取SF的方法。特别是在考察句子结构时，我们关注双语语料库中每个双语句子所包含的名词SF是通过使用字典匹配源语言和目标语言共有的名词来我们使用提取的SF进行了封闭测试，并表明它可以通过自动提取的SF进行翻译。由于存在两个或多个翻译候选的SF，这证明我们需要缩小候选SF。在未来，我们将研究一种方法来缩小翻译候选人。引用[1]H. Nomura ， Gengo-shori to Kikai honyaku （ Language processing and machine translation ），Kodansha Scienti fic（日文），1991[2] H.田中四善源吾庄里（自然语言处理），电子信息通信工程师学会，1999年[3] F.任正非，基于超函数的机器翻译，语言工程，北京：清华大学出版社，第305 -312页。一九九七年。[4] F.任，基于超函数的机器翻译，COLIPS通信，pp.83-100。一九九九年。[5] M. Sasayama，F. Ren，S. Kuroiwa，X.赵文，基于超函数的日英机器翻译系统，2002年国际信息会议，信息与管理科学丛书，第3卷，第366 - 371页，2002年[6] M. Sasayama，F. Ren，S.李文，基于超函数的日英机器翻译，北京大学计算机科学与工程学院，2003340M. Sasayama等人理论计算机科学电子笔记225（2009）329[7]M. Sasayama，F. Ren，S.王文，基于超函数的日英机器翻译实验与评价，第三届国际信息会议论文集，2004年，第195 - 198页[8] P.F.作者：Brown，J. Cocke，S.A.D. Pietra，V.J.D. Pietra，F. J.D. Jelinek拉斯特里亚河Mercer和P.S.机器翻译的统计方法，计算语言学，1990[9] K. McTAIT，使用翻译模式的基于记忆的翻译，UMIST，2001年[10] T. 李明，机器翻译的基本原理与方法，国立成功大学计算机科学研究所硕士论文，2001年7月，[11]H. Echizenya，K. Araki，Y. Momouchi，K. Tochinai，使用基于翻译实例的递归链-链接型学习的机器翻译，电子信息和通信工程师协会，第J85-D-2卷第12期，第1840 -1852页，2002年7月，[12] M.北村湾，巴西-地李明，翻译规则的自动获取，北京大学出版社，1996，[13] C. Brockett，T. Aikawa，A. Aue，A.梅内塞斯角Quirk和H.铃木英日基于实例的机器翻译使用抽象语言表示，COLING，2002年[14] E.荒牧，黑桥贞夫，Kashioka Hideki和Naoto Kato，基于实例的机器翻译概率模型，MT Summit X，2005[15] H. 渡边，S.Kurohashi和E.黄文生，基于语料库的英汉翻译研究，北京大学出版社，2000年[16] H. Kaji，Y. Kida和Y.林文，《从双语文本中学习翻译模板》，北京翻译出版社[17] ChaSen 1.0版于1997年2月19日由计算语言学实验室正式发布奈良科学技术大学院情报科学研究科[18] E.布里尔，布里尔泰格，http://www.cs.jhu.edu/www.example.com~brill/home.html[19] 的田中语料库，http://www.csse.monash.edu.au/www.example.com~jwb/tanakacorpus.html[20] EDR电子词典规格指南，日本电子词典研究所

下载后可阅读完整内容，剩余1页未读，立即下载