沙特国王大学学报：泰卢固语依赖解析器的性能分析

71 浏览量更新于2024-01-14 收藏 598KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.comJournal of King Saud University使用不同统计分析器B. Venkata Seshu Kumaria，*，Ramisetty Rajeshwara Raob，1aJNTUH，Hyderabad，Telangana，印度b印度安得拉邦JNTU Kakinada计算机科学接收日期：2014年9月14日;修订日期：2014年11月21日;接受日期：2014年2015年11月3日在线发布摘要在本文中，我们探讨了不同的统计依赖解析器解析泰卢固语。我们考虑五种流行的依赖解析器，即MaltParser，MSTParser，TurboParser，ZPar和Easy-First Parser。我们使用不同的解析器和功能设置进行实验，并显示不同设置的影响。我们还提供了一个详细的分析所有的解析器的主要依赖标签的性能。我们报告我们的测试数据的泰卢固语依赖树库中提供的ICON 2010年的印度语言依赖解析工具竞赛的结果。我们获得了91.8%的未标记的附件得分和70.0%的标记的附件得分的最先进的性能。到据我们所知，我们是唯一一个探索了所有五个流行的依赖解析器并比较了泰卢固语在不同功能设置下的性能的工作。©2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍依存分析是揭示句子的依存树的任务，依存树由表示词之间依存关系的标记链接组成。解析在主要的NLP应用程序中很有用，如机器翻译，对话系统，提问等。这导致了语法驱动、数据驱动和混合解析器的发展。由于*通讯作者。联系电话：+91 9989308242。电子邮件地址：venkataseshukumari@gmail.com（B.V.S.Kumari），rajaraob4u@gmail.com（R.R. Rao）。1电话：+91 9959559456。沙特国王大学负责同行审查注释语料库的可用性近年来，数据驱动解析已经取得了相当大的成功。英语短语结构树库的可用性（Marcus等人，1993年）已经看到了许多有效的解析器的发展。与英语不同，许多印度语（印地语，孟加拉语，泰卢固语等）语言的词序是自由的，而且在形态上也是丰富的。有人建议，自由词序语言可以更好地处理使用依赖为基础的框架比选区为基础的一个Bharati等人（1995）。由于依赖树库的可用性，最近有几种构建依赖解析器的尝试。两个CoNLL共享任务（Buchholz和Marsi，2006; Nivre等人，2007年a），旨在为不同的语言构建最先进的依赖分析器。最近在两个ICON工具竞赛中（Husain，2009; Husain等人，2010）和Coling 2012印地语解析共享任务（Bharati等人，2012），基于规则的，基于约束的，统计和混合的方法进行了探索，以建立三个印度的依赖解析器http://dx.doi.org/10.1016/j.jksuci.2014.12.0061319-1578© 2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词依存句法分析;泰卢固语;MSTParser;MaltParser;TurboParser; ZPar使用不同统计分析器的泰卢固语依存分析135泰卢固语、印地语和孟加拉语。在所有这些努力中，通过流行的数据驱动解析器即MaltParser（Nivre等人，2007b）和MSTParser（McDonald，2006）。在印度语言中，虽然在印地语的依存关系解析方面有大量的工作，但在泰卢固语的解析方面却ICON 2010泰卢固语解析工具竞赛中的大部分工作都使用了MaltParser。在本文中，我们考虑五个流行的依赖分析器，MaltParser，MSTParser，TurboParser，ZPar和Easy-First Parser。我们在第2节中提供了相关的工作，在第3节中提供了依赖解析、泰卢固语和泰卢固语依赖树库的细节。在第4节中，我们使用不同的解析器和特征设置进行实验，并展示不同设置的影响第5节详细分析了所有解析器在主要依赖标签上的性能我们在第6节中总结了未来可能的方向。我们获得了91.8%的未标记的附件得分和70.0%的标记的附件得分的最先进的性能。据我们所知，我们是唯一的工作，探讨了所有五个流行的依赖关系解析器，并比较了泰卢固语不同功能设置下的性能。2. 相关工作在最近的过去，有大量的依赖关系解析的工作。虽然大多数工作是在英语语言上完成的，但对其他语言的语法分析越来越感兴趣。CoNLL 2006和2007共享任务（Buchholz和Marsi，2006; Nivre等人，2007年a）引入了多语言依赖解析的任务。在这两个共享任务中，我们探索了不同的方法来解析18种不同的语言：阿拉伯语、巴斯克语、加泰罗尼亚语、汉语、捷克语、丹麦语、荷兰语、英语、德语、希腊语、匈牙利语、意大利语、日语、葡萄牙语、斯洛文尼亚语、西班牙语、瑞典语和土耳其语。采用标记依恋评分（LAS）、非标记依恋评分（UAS）和标记准确性（LA）三个指标进行评价。LAS是具有正确的依赖项头部和正确的依赖项标签的标记的百分比。UAS是具有正确依赖项头部的标记的百分比探索了不同的技术，如数据驱动在所有这些努力中，MaltParser（Nivre等人，2007 b），一个基于转换的解析器和MSTParser（McDonald，2006），一个基于图的解析器。在 CoNLL 共享任务之后，有两个 ICON 工具竞赛（Husain，2009; Husain等人，2010）旨在解析三种印度语言：印地语，泰卢固语和孟加拉语。不同的基于规则的，基于约束的，统计和混合的方法进行了探索，以建立依赖分析器。Kesidi等人（2010）使用了一种基于约束的方法。用于对基本解析器进行排名的评分函数受到基于图的解析模型和标记的启发。Nivre（2009）、Ambati et al.（2009）和Komaju et al.（2010）使用MaltParser，并探索了局部形态语法特征、组块特征和自动语义信息的有效性。还探讨了不同算法和功能方面的解析器设置。Ambati等人（2009年）探索了MSTParser用于解析印度语言的实用性。Zeman（2009）通过使用投票方法组合了各种众所周知的依赖解析器，形成了一个超级解析器最近，在Coling 2012印度语言机器翻译和解析研讨会上，印地语解析共享任务与最新的印地语依赖树库（Bharatiet al.，2012年）。在这个共同的任务中，除了对单个解析器进行试验之外，还努力将不同的解析器组合在一起。McDonald 和Nivre （2007 ）指出，Mal- tParser 和MSTParser会产生不同类型的错误，将这两种解析器结合起来可以获得更好的解析性能。遵循这个想法，Kumari和Rao（2012）以直观的方式结合了MaltParser和MSTParser的输出，以提取两个解析器的优点。 Kukkadapu 等人（2012）探索了使用MaltParser、MSTParser和TurboParser解析印地语的投票和混合技术。在这项工作中，我们探讨了五个流行的依赖解析器，即MaltParser （ Nivre 等人， 2007b ）、 MSTParser（McDonald，2006）、TurboParser（Martins等人，ZPar（ ZhangandClark ， 2011 ）和 Easy-FirstParser（Goldbergand Elhadad，2010）。MaltParser是一个基于转换的解析器，而 MSTParser 是一个基于图的解析器。TurboParser也是一个基于图的解析器，但使用整数线性规划技术进行解析，而MSTParser使用最大生成树算法。Zpar是一个类似于MaltParser的移位-归约解析器，但它使用的是波束搜索，而不是MaltParser使用的贪婪搜索。MaltParser 和Zpar 从左到右解析句子。但是，Easy-FirstParser使用非定向策略进行解析，首先解决较容易的依赖关系，并将其用作特征，同时解决较难的依赖关系。除了标准的英国宾州树库数据（Marcus et al.，1993年），所有这些解析器的CoNLL共享任务数据进行了探索。虽然测试数据中的平均令牌数约为5000个令牌，但训练数据中的令牌数从约3万个令牌（斯洛伐克）到120万个令牌（捷克）不等。除了大量的训练数据，形态的丰富性和自由的词序性质给解析器带来了更大的挑战。已经观察到，对于形态丰富和/或自由词序的语言，如阿拉伯语、土耳其语等，解析性能最低（Buchholz和Marsi，2006; Nivre等人，2007年a）。MaltParser和MSTParser是依赖分析文献中广泛研究的两个分析器。虽然在ICON共享任务中，MaltParser被广泛地用于泰卢固语，但在泰卢固语中使用MSTParser的试验工作很少。Kukkadapu等人（2012）将TurboParser改编为印地语，但没有将其改编为泰卢固语。已经有一些工作在探索Zpar和Easy-First Parser用于英语以外的语言（Zhang和Nivre，2012;Goldberg和Elhadad，2010）。目前还没有针对印度语言，特别是泰卢固语调整这些解析器的工作。因此，我们是第一个探索 TurboParser ， Zpar 和 Easy-FirstParser 的工作。此外，大多数论文比较了 MaltParser ，MSTParser和TurboParser或Zpar或Easy-First解析器中的一个，但不是全部。据我们所知，我们是唯一的工作，探讨了所有五个流行的依赖关系解析器，并比较其性能的任何语言一般，特别是泰卢固语。136BVS库马里河饶3. 依存语法依存语法（DG）通过依存图描述句子的句法结构。依赖图使用有向边表示单词及其与句法修饰语的关系。这些边可以用语法关系如主语、宾语等来标记依赖树可以是投射的也可以是非投射的.由于英语是一种固定语序的语言，因此英语句子大多可以用投射树来分析.但是，在自由词序语言中，如捷克语，印地语，泰卢固语等。非投射依赖性更常见。丰富的屈折系统减少了对词序的要求，导致非投射依赖（McDonald，2006）。图1示出了示例泰卢固语句子的依存关系树在下面的部分中，我们首先描述泰卢固语的形态和句法特征。然后，我们提供了泰卢固语依存关系树库的细节。3.1. 泰卢固语泰卢固语是印度的官方语言之一，也是世界上第13大语言，有超过7400万人使用。2.它是一种形态丰富、语序自由的语言。它也是一种黏着语言，形态信息是作为后缀的话，而不是一个单独的词汇项目。图图2显示了描述泰卢固语的自由词序性质和形态丰富性的不同泰卢固语句子。句子1是一个简单的过去句动词tinnadu（ate）的后缀在第二句中，当主语的性别变为阴性（Sita）时，动词的后缀变为动词的后缀可以随着时态的变化而变化。例如，在第三个句子中，当时态变为现在进行时，动词的后缀相应地变为动词的后缀取决于不同的因素，如时态、体、情态和主语的性别，名词的后缀表示格或介词。例如，在句子4中，“Ram gave a fruit to Sita in the school”，“sithaki”（toSita）的后缀“ki”是与格标记，“patashalalo”（in School）的后缀“lo”是介词“in”的标记。句子5给出了泰卢固语中自由词序性质的例子。虽然主语-宾语-动词是首选的语序，但泰卢固语中可能有不同的语序，如句子5中的宾语-主语-动词顺序。3.2. 泰卢固语依存关系树库泰卢固语依赖树库在ICON 2010工具竞赛中发布（Husain等人，2010年，在我们的工作中。使用词性（POS）标记、组块和依赖性注释指南（Bharati等人，2006;Bharati等人，2009年）。该树库包括词根、粗词性标记、性别、数、人称、格标记、后缀和TAM（时态、体和情态标记）、词性、语块和依存关系信息。依赖性注释遵循可以追溯到Paninian语法的方案（Bharati等人，（2009）已知非常适合现代印度语言。的依赖性2http://www.ethnologue.com/statistics/size。图1泰卢固语句子的依赖树标签在本质上是同义语义的（Bharati等人，1995;Bharati等人，2009年）。例如，同样，为了提高可读性，本文中使用了树库依赖标签（k1，k2，nmodadj分别为SUBJ，OBJ，DEM），而不是原来的树库树库在SSF中可用（Bharati等人，2007年）和CoNLL3格式。我们在本文中使用CoNLL格式。在这种格式中，单词、词根、位置标记、组块标记和形态特征分别在FORM、LEMMA、POSTAG和CPOSTAG以及FEATS列中可用。发布的数据具有细粒度和粗粒度版本的依赖标签。我们在实验中使用了细粒度版本。表1显示了泰卢固语依赖性树库的训练、开发和测试数据集的细节。本表提供了句数、字数和平均句长4. 实验和结果我们探索MaltParser ，MSTParser ，TurboParser ， ZPar 和Easy-First Parser解析泰卢固语。探索不同的特征和解析器设置，我们为每个解析器构建最佳模型。由于训练数据量很小，我们合并了训练和开发数据，并进行了10次交叉验证，以调整解析器的参数和特征选择。使用交叉验证数据获得的最佳设置应用于测试集。我们使用标准的未标记依恋评分（UAS）、标记依恋评分（LAS）和标记评分（LS）进行评估。4.1. MaltParserMaltParser 是 Nivre 等人描述的解析模型的免费实现。（2007年b）。4.它是一个基于分类器使用MaltParser，解析可以在投影依赖树的线性时间和任意（可能是非投影）树的二次时间内执行。MaltParser提供了九种确定性解析算法的选项：Nivre arc-eager、Nivre arc-standard、Covingtonprojective 、 Covington non-projective 、 Stack projective 、Stack swap-eager、Stack swap-lazy、Planar和2-planar。它还提供了libsvm和liblinear学习算法的选项。对于泰卢固语依存句法分析，liblinear学习器和arc-eager句法分析算法一致给出了更好的性能。3 http://nextens.uvt.nl/depparse-wiki/DataFormat网站。4http://www.maltparser.org/。使用不同统计分析器的泰卢固语依存分析137图2描述自由词序性质和形态丰富性的泰卢固语例句表1泰卢固语树库统计。类型发送计数字数Avg. 发送长度火车140076025.43Devel1508395.59测试1508365.57我们做了一步一步的分析不同的功能解析泰卢固语的影响。表2提供了这些实验的结果。在实验一中，我们提供了词的形式和当前词的POSTAG作为特征，在UAS和LAS中的准确率分别为74.1%和48.1% 。添加上下文单词的FORM 和POSTAG （实验2 ）使UAS 和 LAS 都提高了约12%，这表明了上下文在解析中的重要性。添加LEMMA和CPOSTAG功能（实验3和实验4）使UAS和LAS分别轻微改善了1.6%和2%。在实验5中，我们添加了包含形态信息的FEATS，这使得UAS提高了1%，LAS提高了5.4%。由于泰卢固语是一种形态丰富的语言，因此可以预期形态信息在句法分析中起着至关重要的作用，特别是在识别正确的依存标签方面。在实验6中，我们提供了部分形成的树的依赖关系（DEPREL），在UAS中提高了1.8%，在LAS中提高了1.5%。添加部分树（实验7）和二元语法（实验8）功能，在UAS中进一步提高了1.3%，在LAS中提高了1.7%。在所有这些实验之后，我们在UAS和LAS中分别实现了91.8%和70.0%的性能。4.2. MSTParserMSTParser是McDonald（2006）中描述的解析模型的免费实现。它是一个基于图的语法分析系统，其中语法分析算法等同于从稠密图中找到有向最大生成树5http://mstparser.sourceforge.net/。的判决。MSTParser使用Chu-Liu-Edmonds最大生成树算法进行非投射分析，使用Reynner算法进行投射分析。它使用在线大幅度学习作为学习算法（McDonald等人，2005年）。它还提供了一阶和二阶功能的选项。一阶特征是从属弧中父项和子项上的特征。这些包括父节点和子节点的不同的一元、二元特征。但是，二阶特征包括更多的全局特征，如祖父母、孙子和兄弟特征。例如，父节点和子节点的postag是第一阶特征，而孙子节点和父节点的postag是第二阶特征。对于泰卢固语，二阶特征和非投影算法给出了90.0%UAS和62.6%LAS的最佳结果（表3，MSTParser：基线）。使用MSTParser进行功能调整是很困难的我们不得不修改MSTParser的代码来添加新功能。MSTParser的标记模块未使用FEATS列。表2中的实验5清楚地表明，在泰卢固语的情况下，我们探索了不同的功能，表2不同特性对使用MaltParser解析泰卢固语的影响。特征UASLasLS（%）（%）（%）实验1：当前表格，POSTAG74.148.151.1实验2：实验1+上下文形式，86.159.461.1POSTAG实验3：实验2 + LEMMA86.361.363.3实验4：实验3 + CPOSTAG87.761.462.8Exp5：Exp4+ FEATS88.766.869.1实验6：实验5 + DEPREL90.568.370.5Exp7：Exp6+部分树特性90.769.671.8Exp 8：Exp 7 + Bi-gram功能91.870.072.3138BVS库马里河饶FEATS列，并选择在10倍交叉验证中给出最佳结果的设置。这使得LAS比基线模型（表3中的MSTParser：扩展）提高了4.5%。通过这种调整，我们在UAS和LAS中分别实现了90.0%和67.1%4.3. TurboParserTurboParser是Martins等人（2009）中描述的解析模型的免费实现。它是一个基于图的解析器，使用整数线性规划技术进行解析。在默认设置下，我们得到了90.5%的UAS和67.5%的LAS。由于数据量小，平均句子长度小，使用标准模型，只考虑一阶特征，得到了更好的结果。最终我们可以获得的最佳结果是91.2% 的UAS 和68.8% 的LAS 。TurboParser也不像MaltParser那样提供添加新特性的灵活性。此外，由于代码针对速度和性能进行了高度优化，因此在代码中添加任何新功能也要困难得多。因此，我们只能探索解析器设置，但4.4. ZParZPar是Zhang和Clark（2011）中描述的解析模型的免费实现。7.我们使用ZPar的类属依赖分析模块进行实验。除了来自堆栈和输入中节点的本地特征之外，它还使用更高阶的特征，如价信息，孙子和祖父信息（Zhang和Nivre，2011）。它使用弧渴望算法与波束搜索进行解析。平均感知器（Collins，2002）用于学习。在默认设置下，我们得到了90.0%的UAS和68.0%的LAS。由于这些特性是硬编码的，我们修改了代码并添加了部分树特性等特性，类似于我们使用MaltParser进行的实验。在这些特征消融研究后，我们获得的最终最佳结果是90.7%的UAS和68.5%的LAS。4.5. 简单优先解析器Easy-First Parser是Goldberg和Elhadad（2010）中描述的解析模型的免费实现。8解析算法是一种移位-归约风格的算法。但是，代替传统的从左到右的句法分析，他们采用无方向的句法分析策略。结构化感知器（Collins，2002）的变体用于学习。这个解析器只给出未标记的依赖项。在默认设置下，我们得到了86.8%的UAS。这个解析器从一个输入文件中获取特征模板，类似于MaltParser。因此，添加新功能相对容易。与我们使用MaltParser的实验类似，我们做了特征消融实验。因为这只是一个未标记的依赖解析器，所以我们不能研究依赖标记特性的影响。我们最终取得的最好成绩是88.8%的无人机。(see表46http://www.ark.cs.cmu.edu/TurboParser/。7http://sourceforge.net/projects/zpar/。8http://www.cs.bgu.ac.il/yoavg/software/easyfirst/。5. 分析使用MaltParser，我们在UAS中实现了91.8%的最先进性能，在LAS中实现了70.0%的最先进性能。据观察，基于转换的解析器（如MaltParaser）擅长短距离依赖，而基于图的解析器（如MSTParser）擅长长距离依赖（McDonald和Nivre，2007）。由于泰卢固语树库中的大多数依赖都是短距离的，因此MaltParser优于其他解析器，因为它擅长短距离依赖。如表2所示，特性在解析中起着至关重要的作用，对于MaltPasser，我们可以在文件中提供特性模板，解析器的输入。MaltParser的这种灵活性有助于提供不同的复杂特性，从而提高了解析器的性能。由于其他解析器（不包括Easy-First Parser）的功能是硬编码的，因此探索不同功能设置的影响并不容易。这表明了在为新语言或树库调整解析器的同时，灵活地为解析器提供特性的重要性。我们认为，由于树库由更大的短距离依赖关系组成，基于图的解析器（如MSTPar- ser，TurboPrser）或波束搜索解析器（如ZPar）并没有比MaltParser更好的改进。之前已经观察到，并且我们在使用Mal- tParser的实验中也观察到，提供部分形成的树的依赖标签在UAS和LAS中都得到了大约1.5-2.0%的巨大改进由于Easy-First Parser只进行无标签解析，因此我们虽然MSTParser和TurboParser是基于图的解析器，但TurboParser通过整数线性编程技术，有效地结合了语言约束，如动词应该只有一个主语，连词的子元素应该具有相似的类型。这可能是TurboParser给出第二好结果的原因。ZPar使用全局学习和波束搜索，更适合学习长距离依赖关系。由于可用的长距离依赖的数量较少，全局学习并没有比MaltParser的贪婪局部学习有任何改进。由于训练数据非常低，而且泰卢固语是黏着语，因此所有系统的LAS都非常低。虽然我们可以实现91.8%的UAS，但我们只能实现70.0%的LAS。有了更多的训练数据和处理泰卢固语等黏着语言的专门技术，我们可以在LAS中取得更好的结果表8给出了Telugu dependency treebank中前六个依赖项的各个解析器的性能概述。MAIN、SUBJ、OBJ、COORD、TIME和VMOD是句子根、主语、宾语、协调、时间表达和动词修饰语的依存标签。MaltParser在MAIN、COORD和TIME依赖标签上表现更好。对于SUBJ和VMOD标签，TurboParser表现更好，对于OBJ标签，MSTParser表现更好表3使用MSTParser解析泰卢固语时不同特性的影响。特征UAS（%）LAS（%）LS（%）MSTParser：基线90.062.663.9MSTParser：扩展90.067.168.6使用不同统计分析器的泰卢固语依存分析139即MaltParser、MSTParser、TurboParser、ZPar和Easy-FirstParser。我们研究了不同的功能解析泰卢固语的影响。我们还详细分析了所有解析器在主要依赖标签上的性能。对于像泰卢固语这样形态丰富的语言，我们的实验表明，提供形态特征可以显着提高解析性能。我们获得了91.8%的未标记附件评分和70.0%的标记附件评分的最新性能。我们的实验指出了在创建带注释的数据和构建解析器时应该考虑的两件重要事情。数据集应该代表该语言的真实世界句子。真实世界的泰卢固语句子将具有短距离和长距离依赖的良好混合，而不仅仅包含短距离依赖。从工程的角度来看，在开发解析器时，最好提供添加或删除特性的灵活性。这将有助于使解析器适应新的数据集。对形态丰富的语言进行句法分析的兴趣越来越大。在形态丰富语言的统计解析（SPMRL）研讨会（Seddah等人，2010; Seddah 等人， 2 0 1 1 ; Apidianaki 等人， 2012;Goldberg等人，2 0 1 3 ;Goldberg等人，2014年）。大量的工作是在将形态学特征整合到不同类型的语法分析器中。已经有一些关于使用自我训练和共同训练技术探索大型未注释数据的有用性的工作（Goutam和Ambati，2012; Cahill等人，2014）和使用词向量（Seddah等人，2014年）。虽然泰卢固语树库的大小很小，但有很多未注释的泰卢固语文本可用。这将是一个有趣的方向，探索这些技术的泰卢固语。也有一些有趣的工作正在改进贪婪解析器，如MaltParser，通过合并来自其他语法框架的更好的功能（Ambati 等人，2014）和探索更好的学习和解析算法（Sartorio等人，2013; Goldberg和Nivre，2013）。我们希望看到这种方法对解析泰卢固语的影响。引用好多了TurboParser可以更好地处理语言约束，这可能是更好地处理主语（SUBJ）和动词修饰语（VMOD）标签的原因。由于MaltParser是一个基于贪婪转换的解析器，因此容易出现错误传播。但是MSTParser6. 结论和今后的工作通过对不同设置的实验，我们使用五种流行的依赖解析器为泰卢固语Ambati，B.R.，Deoskar，T.，Steedman，M.，2014.使用组合范畴文法改进依赖性分析器。在：计算语言学协会欧洲分会第14次会议的论文集，第2卷，短文。瑞典哥德堡，1999年。159-163.Ambati，B.R.，Gadde，P.，Jindal，K.，2009.印度语言依存分析实验。在：ICON 09 NLP工具竞赛的会议记录：印度语言依赖解析。pp. 32比37Apidianaki，M.，达根岛，福斯特，J.，Marton，Y.，Seddah，D.，察尔法蒂河（编），2012. ACL 2012 Joint Workshop onStatistical Parsing and Semantic Processing of MorphologicallyRich Languages（ACL 2012）济州，大韩民国Bharati，A.，Chaitanya ，V.，桑加尔河1995.自然语言处理：Paninian观点。Prentice-Hall of India，65-106.Bharati，A.，Mannem，P.，Sharma，D. M.，2012.印地语解析共享任务。在：Coling机器翻译和解析印度语言研讨会论文集Kharagpur，印度.Bharati，A.，桑加尔河Sharma，D. M.，2007. SSF：shakti标准格式指南。见：技术报告（TR-LTRC-33），LTRC，IIIT-Hyderabad。表6不同特征对使用Easy-First Parser解析泰卢固语的影响。特点UAS（%）LAS LS表4使用TurboParser解析泰卢固语时不同特性的影响。特征UAS（%）LAS（%）LS（%）TurboParser：Baseline90.567.569.0TurboParser：扩展91.268.870.1表5使用ZPar解析泰卢固语时不同特征的影响。特征UAS（%）LAS（%）LS（%）ZPar：基线90.068.069.5ZPar：扩展90.768.570.3ZPar：基线86.8–ZPar：扩展88.8–表7不同解析器对泰卢固语依赖树库测试数据的性能。解析器UAS（%）LAS（%）LS（%）MaltParser91.870.072.3MSTParser90.067.168.6TurboParser91.268.870.1ZPar90.768.570.3先易后难88.8––最佳解析器结果用粗体标记。表8不同方法在前六个依赖标签上的性能。标签MaltParserMSTParserTurboParserZPar主要97.095.396.395.3SUBJ63.059.464.163.0OBJ58.862.759.961.1COORD83.174.477.677.5时间61.260.557.846.5VMOD62.765.166.763.3最佳解析器结果用粗体标记。140BVS库马里河饶Bharati ， A. ，桑加尔河 Sharma ， D. M. ，巴伊湖， 2006.AnnCorra：为印度语言的词性和组块注释注释语料库指南见：技术报告（TR-LTRC-31），LTRC，IIIT-Hyderabad。Bharati，A.，Sharma，D. M.，Husain，S.，巴伊湖，贝古姆河，桑加尔河2009. AnnCorra：印度语言树库，注释印地语树库指南（2.0版）。Buchholz，S.，Marsi，E.，2006年。CoNLL-X多语言依赖解析的共享任务第十届计算自然语言学习会议论文集。NewYork City，New York，pp.149-164。Cahill，A.，Gyawali，B.，Bruno，J.，2014.学习者文本分析的自我训练。在：第一次联合研讨会上的统计分析形态丰富的语言和语法分析的非规范语言。都柏林城市大学，都柏林，爱尔兰，pp.六十六比七十三Collins，M.，2002.隐马尔可夫模型的判别训练方法：理论与感知器算法实验。自然语言处理经验方法会议论文集。EMNLP'02。pp. 1-8号。Goldberg，Y.，Elhadad，M.，2010年a。现代希伯来语的简单第一依赖解析。在：NAACL HLT 2010年第一次研讨会上的形态丰富语言的统计解析会议记录。SPMRL '10。计算语言学协会，Stroudsburg，PA，美国，pp。103-107.Goldberg，Y.，Elhadad，M.，2010年b。一个简单优先无方向依存句法分析的有效算法。在：人类语言技术：2010年计算语言学协会北美分会年会。洛杉矶，加利福尼亚。Goldberg，Y.，Marton，Y.，阿贝因岛，Versley，Y.（编），2013.第四届形态丰富语言的统计分析研讨会论文集。西雅图，华盛顿，美国.Goldberg，Y.，Marton，Y.，阿贝因岛，Versley，Y.，OüzlemCetinoglu，泰特罗特，J.，（编），2014.第一届联合研讨会论文集：形态丰富语言的统计分析和非规范语言的句法分析。爱尔兰都柏林Goldberg，Y.，Nivre，J.，2013.用非确定性预言机训练确定性分析器。在：交易协会为计算语言学。古塔姆河，Ambati，B.，2012年。探索依存句法分析的自训练和第13届智能文本处理和计算语言学国际会议论文集印度新德里Husain，S.，2009.印度语言的依赖分析器。在：ICON 09 NLP工具竞赛的会议记录：印度语言依赖解析。印度Husain，S.，Mannem，P.，Ambati，B.R.，Gadde，P.，2010.ICON- 2010印度语言依赖解析工具竞赛。在：ICON-2010年印度语言依赖解析工具竞赛的会议记录。Kharagpur，印度.Kesidi，S.R.，Komagaju，P.，Vijay，M.，Husain，S.，2010.一个基于两阶段约束的泰卢固语混合依赖分析器。在：ICON-2010印度语言依赖解析工具竞赛的会议记录。Komagaju，P.，Kesidi，S.R.，Ainavolu，V.B.R.，Kukkadapu，P.，2010.印度语言依存分析实验。在：Proceedings的ICON-2010年工具大赛上印度语言依赖分析.Kukkadapu，P.，Malladi，D.，Dara，A.，2012.集成各种依赖解析器：采用涡轮解析器的印度语言。在：Coling 2012年研讨会上的MT和印度语言解析。Kumari，B.V.S.，Rao，R. R.，2012.使用Malt和MST组合模型的印地语依赖分析。在：Coling 2012年研讨会上的MT和印度语言解析马库斯议员圣托里尼湾，Marcinkiewicz，文学硕士，1993.建立一个大型的英语注释语料库：宾州树库。Comput. 语言学家19（2），313-330。Martins，A.，史密斯，N.，Xing，E.，2009.简洁的整数线性规划公式的依赖分析。在：ACL第47届年会和AFNLP第4届自然语言处理国际联合会议的会议记录。新加坡国立大学342- 350麦克唐纳河，2006.判别学习和生成树算法的依赖分析（博士。thesis），Philadelphia，PA，USA.麦克唐纳河，克拉默，K.，Pereira，F.，2005.依赖解析器的在线大幅度训练第43 届计算语言学协会年会论文集AnnArbor，Michigan，pp. 91比98麦克唐纳河，Nivre，J.，2007.描述数据驱动依赖分析模型的错误.自然语言处理和自然语言学习中的经验方法会议录。Nivre，J.，2009.用MaltParser解析印度语言在：ICON 09 NLP工具竞赛的会议记录：印度语言依赖解析。Nivre，J.，Hall，J.， Kuübler，S.，麦克唐纳河，尼尔森，J.，Riedel，S.，Yuret，D.，2007年a。CoNLL 2007共享了依赖解析的任务。见：EMNLP-CoNLL 2007年CoNLL共享任务会议记录。布拉格，捷克共和国915-932Nivre，J.，Hall，J.，尼尔森，J.，Chanev，A.，Eryigit，G.，Kuübler ， S. ， Marinov ， S. ， Marsi ， E. ， 2007 年 b 。Maltparser：一个独立于语言的数据驱动依赖解析系统。Nat.Lang. Eng. 13（2），95Sartorio，F.，Satta，G.，Nivre，J.，2013.使用动态解析策略的基于转换的依赖解析器。在：计算语言学协会第51届年会的会议记录（卷。1：长文件）。保加利亚，保加利亚地图135-144。Seddah，D.，Koebler，S.，Tsarfaty河，（编），2010. 2010年NAACL HLT第一次形态丰富语言的统计解析研讨会论文集。关闭CT，USA.S

下载后可阅读完整内容，剩余1页未读，立即下载