阿拉伯语树库转换为组合范畴语法库的实验和算法分析

148 浏览量更新于2024-01-14 收藏 902KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com从阿拉伯树库中艾哈迈德岛El-tahera，*， Hitahm M.Abo Bakra， Ibrahim Zidana， KhaledShaalanba埃及Asharkia Zagazig Zagazig大学工程学院计算机和系统工程博士b阿拉伯联合酋长国2014年9月28日在线发布摘要将树库转换为组合范畴语法库，为组合范畴语法（CCG）开发的复杂工具打开了各自语言的大门，丰富了跨语言发展转换主要分为三个步骤：确定成分类型、二值化和类别转换。通常，该过程涉及对所选择的树库的预处理步骤，用于针对在手动注释期间引入的任何改变来校正括号和标准化标记，以及提取确定成分类型所必需的形态句法信息。在本文中，我们描述了阿拉伯语树库所需的预处理步骤，以及如何确定阿拉伯语成分的类型。我们进行了一个实验的第1部分和第2部分的宾夕法尼亚州阿拉伯语树库（PATB），旨在将PATB转换成阿拉伯语CCGbank。我们的算法应用于ATB 1v2.0时的性能&ATB 2v2.0对头节点的识别率为99%，对Treebank数据的覆盖率为100%©2014沙特国王大学。制作和主办：Elsevier B.V.All rights reserved.1. 介绍最近，阿拉伯语的自然语言处理有了巨大的增长，特别是自2001年9月11日美国遭受恐怖袭击（称为9/11）以来。阿拉伯语自然语言处理的研究一直受到语言特性的挑战*通讯作者：Houd-Nagih，Hehia，Asharkia，Egypt.联系电话：+20 1115739309。电子邮件地址：aieltaher@yahoo.com（A.I. El-taher）。沙特国王大学负责同行审查。抽搐，缺乏严格的书面文本标准，以及目前阿拉伯语NLP资源和工具的最新水平（Shaalan，2014）。此外，大量的标记文档、语料库和树库是开发和测试阿拉伯语NLP工具或系统性能时所需的优秀资源。为了使这些语言资源有用，它们应该包括不受稀疏性影响的语言表达的无偏分布和代表性数量。不幸的是，用于进行可靠的阿拉伯语NLP研究的可用阿拉伯语语言资源通常是昂贵的创建或许可。其原因是它们需要大量的人工注释和验证。这些语料库中很少有出于研究目的而免费和公开提供的，而其他语料库，如Treebanks，则可以使用，但需要许可协议。树库是一种语言资源，它由大量人工注释和验证的句法数据组成。http://dx.doi.org/10.1016/j.jksuci.2014.06.0051319-1578© 2014沙特国王大学。制作和主办Elsevier B.V.保留所有权利。制作和主办：Elsevier关键词阿拉伯语;CCGbank;Treebanknnn442A.I. El-taher等人对经过仔细准确注释的句子的分析。这些注释对于各种应用的开发非常有用，诸如标记化、变音符号化、词性（POS）标记、形态消歧义、基本短语分块、命名实体识别和语义角色标记（Othman等人， 2004年）。一个高度表达的形式主义，如组合范畴语法（CCG），可以捕捉许多语法现象，如长范围的依赖关系，其中更简单的形式主义不能，如哈桑（2009）和斯蒂德曼（1996，2000）证明。此外，CCG有各种各样的高质量NLP工具，一个阿拉伯语的CCG银行将首次向阿拉伯语提供这项技术。阿拉伯语CCG库将是宾夕法尼亚阿拉伯语树库到CCG派生语料库的转换。因此，一个阿拉伯语的CCG银行将是一个非常有益的语言资源，适合阿拉伯语的固有特征。关于阿拉伯语，有两个重要的树库工作：宾夕法尼亚阿拉伯语树库（PATB）（Maamouri等人， 2004）和布拉格阿拉伯语部门树库（PADT）（Smrzetal.， 200 8）。这两种努力都采用了复杂而非常丰富的语言表示，需要大量的人类训练。这些陈述中详细说明的细节数量令人印象深刻。PATB不仅提供了标记化、复杂的POS标记和句法结构，而且还提供了空范畴、变音符号、词元选择和各种语义标记。这些信息允许在阿拉伯语NLP应用程序的重要研究。因此，我们决定在构建阿拉伯语CCGbank的方法中使用PATB1。在这篇文章中，我们描述了我们尝试使用Hockenmaier和Steedman（2005，2007）为创建英语CCGbank而设计的规则来创建阿拉伯语CCGbank。本研究的重点是确定阿拉伯成分这一步骤被发现对于处理阿拉伯树库的选择是有用的，以纠正括号和规范化标记，用于在手工注释期间引入的任何更改，在创建PATB期间，以及用于提取有用的信息以确定成分第2节描述了为英语以外的语言创建CCG库所做的相关工作。第三部分简要介绍了CCG.第四部分介绍了阿拉伯语树库的预处理。第五部分介绍了阿拉伯语成分类型的确定过程。第6节描述了在PATB上应用的实验，并讨论了所获得的结果。第7节提供了结论和今后工作的方向2. 相关工作在英文CCGbank2开发成功后，人们又进行了各种努力，将其它语言的树库转换成CCGbank。一个例子是将德国Tiger3 语料库转换为德国 CCGbank （ Hockenmaier ，2006）。另一个例子是转换1 http://catalog.ldc.upenn.edu/LDC2003T06网站。图1POS标签与超级标签。将土耳其属地树库转化为土耳其CCGbank（Cakıc，2005）。最近，Tse和Curran（2010）从宾州中文树库中设计了一个中文CCG库.Bos等人（2009年）从都灵大学树库中推导出意大利语CCGbank4，而Sandillon-Rezer和Moot（2011年）从巴黎七世树库中设计出法语CCGbank。就阿拉伯语而言，值得注意的是， Boxwell 和 Brew（2010年）在其旨在将PATB转换为阿拉伯语CCG银行的试点项目中进行了唯一的尝试。最终的项目成果包括确定了97.99%的头节点和95.06%的参数和补充节点，对树库中52.7%的树的覆盖率为100%。我们将表明，我们的阿拉伯语CCG算法的性能优于Boxwel和Brew的阿拉伯语CCG算法的性能3. 组合范畴语法组合范畴语法5（CCG）是一种词汇化语法，它直接捕获了树库构建中涉及的非局部依赖关系，包括控制和提升;参见Steedman （ 1996 ， 2000 ）， Hockenmaier and Steedman（2005，2007）和Hassan（2009）。范畴不仅编码关于给定词的句法、语音和语义方面的信息，而且编码关于它可以与之组合的范畴以及组合的结果的信息。CCG在表层语法和底层语义表示之间有一个透明的接口。类别，有时称为类型，有两种形式：原始（原子）和复杂。基元类型包括成分，如N、NP、PP和S，并且它们可以进一步通过特征来区分。复杂类型表示函数类型，其是基元类别的组合，更具体地是从一个类别（基元或函数）到另一个类别的函数S/NP和（S/NP）/（S/NP）。函数指定其参数的类型和方向以及结果的类型。正斜杠表示参数应该出现在右边，而反斜杠表示参数应该出现在左边。例如，S NP是一个不及物动词，例如，'' run '，因为它正在寻找一个NP（向左）来形成一个S。在这些符号中，及物动词，例如，“固定”用（S NP）/NP表示，而双及物动词，例如，“给出”表示为（（S NP）/NP）/ NP。因此，复杂类别能够对子分类信息进行编码（参见图 1 ）。Steedman，2000年）。CCG使用新的语法类型Supertags，它可以捕获扩展的词汇信息，从语法到词典，不像在Treebanks中使用的词性标签（POS标签）。为了进行比较，图1显示了句子2 http://catalog.ldc.upenn.edu/LDC2005T13网站。3http://www.ims.unistuttgart.de/forschung/ressourcen/korpora/tiger.html。4http://www.di.unito.it/~tutreeb/CCG-TUT/。5http://groups.inf.ed.ac.uk/ccg/。nn-确定成分类型的阿拉伯语CCG方法443图2一个简单的CCG推导。标签和POS标签。超类型表示这些词项的类型，其中及物动词在一个动词短语（S[dcl] NP）中，当引入到其左边的NP时，会导致陈述句S[dcl]“。组合运算符描述了将范畴与其参数组合以产生结果派生的规则，如下所示：前向应用：X= YY）XN>后向应用YXn Y）“规则组合了单词”“car“和”“yesterday”的CCG标签，它们分别是“N/N“”N”，从而产生CCG标签“N”&。对于反向应用规则<"“，它将短语”" S [dcl] n NP”与单词“”I”组合，从而产生CCG标记“”S [dcl]“"。CCG有几个PATB不支持的强大属性，包括：CCG要求识别每个成分的词首。● 互补标签被清楚地区分; PATB使用功能标签（例如，SBJ，S.A. . ）来支持此属性，但许多节点未标记。CCG需要二进制分支，而PATB使用多分支结构，其中任何非终结节点都可以在同一级别上拥有任何数量的子节点4. 阿拉伯树库预处理Hockenmaier和Steedman（2005）所述的预处理步骤基本上是为了纠正在Penn英语树库中发现的标记和括号错误，这在阿拉伯语树库中基本上是避免的，因为PATB更新得多（PATB于2003年首次发布，而英语树库-3于1999年发布）。词素这些语素包括所有格、代词和话语连接词（Zitouni，2014）。PATB介绍了与阿拉伯语分词有关的问题。分割绑定词素减少了词汇稀疏性，简化了句法分析。分词是自然语言处理（NLP）中形态丰富的语言（如阿拉伯语）的必要步骤。它有助于提高阿拉伯语NLP应用程序的质量，例如机器翻译，其中一些英语单词仅对应于阿拉伯语单词中的语素（子串）（Abdel Monem et al.，2008年）。例如，考虑英语句子“孩子正在玩汽车”，它由七个单词组成。它的阿拉伯语翻译“孩子在玩”和“和车在一起”由三个词组成，分别对应于以下几个部分：“孩子在玩”和“和车在一起”。英语句子中的单词与阿拉伯语词素（片段）相关。PATB注释器除了词性（POS）标记之外还添加了形态分析标记，该标记包含了标准Penn树库标记中未处理的新标记。这些标签需要被标准化以符合CCG分析。在下面的小节中，我们描述了我们使用来自Kulick等人的技术对PATB进行预处理的努力。（2006），即改进标点处理，以及Maamouri等人（2008）指定的那些，以便可以开始转换过程。4.1. 树分析传统上，Penn Treebanks的文件是以每行一棵树的格式显示的文本文件，用括号分隔树段。然而，PATB并不严格遵循每行一棵树的规则，如果将行作为一个整体，这可能导致虚假的分析。因此，我们设计了一个预处理步骤，根据括号的平衡分析每一行在这一步中，我们处理括号丢失的情况，而不是丢弃整个树。此步骤对分析过程的质量有重大影响。例如，PATB的第1部分由4519行组成（大概有4519棵树）。然而，当我们检查并纠正缺失的括号时，它会产生5845棵独立的树。一旦识别出各个树，就对每个树进行分析，以从每个节点提取以下信息：节点的特征：标记，字（用于终端节点），跟踪（e。例如，在一个实施例中， *T*）、共同参考（例如，1）和间隙参考（例如，=1）。节点在此步骤中，我们通过将Sang和Buchholz（2000）6提出的算法应用于PATB的第1部分来识别节点的标签，但我们发现一些节点未标记的情况，即，它们被给予临时标签“NOTAG”。例如，考虑在PATB中出现如下的名词短语 “ （ NP （ NOUN_PROP Huzayo- rAn ）（ _ ）（NOUN_PROP yuwniyuw））"，其中节点”（_）“被改变为”（NOTAG _）"。作为闪米特语言的一员，阿拉伯语是基于根和模板形态与丰富的结合6http://ilk.uvt.nl/team/sabine/.●●●●444A.I. El-taher等人S01名副总统4563NP-SBJNP-OBJPP.VERB_PERFECT+PVSUFF_SUBJ：3FS图3部分树分析及其实现。我们用Perl实现了我们的软件，我们使用哈希对象来存储不同节点的特征。我们使用散列，因为它们在以“键-值“对的形式存储和检索数据时是有效的没有搜索）。在分析步骤中，我们的实现为每个节点提供了一个识别number（开始从零在根节点）作为钥匙图3示出分析句子7的上面三个级别的结果：ﺣﺮﺑﻬﻤﺎﻓﻰﺟﺪﻳﺪﺓﺧﻄﻮﺓﻭﺑﺮﻳﻄﺎﻧﻴﺎﺍﻟﻤﺘﺤﺪﺓﺍﻟﻮﻻﻳﺎﺕﺧﻄﺖ，"xaT+atAl+wilAy + At + uAl + mut ~ aHid + ap + uwa--briyTAniyAxaTow+ap+Fjadiyd+ap+FfiyHarob + i--himA. “的(The美国和英国在战争中迈出了新的一步。下图显示了每个节点的分析树和键分配。在我们的实现中，这个树由两个表表示：Tags和Parents。Tags表的条目是分配的键及其节点。Parents表的条目是键及其父节点。例如，“标记”（Tags）表格中的键完整的树分析如图所示。四、4.2. 标签转换和更正阿拉伯语注释者已经将形态分析信息增加到PATB的标签中，但是这些标签与通常用于注释Penn树库的标签集不同。因此，PATB标签应该规范化。在PATB的3.1版本中最多668个标签）到Penn Treebank的标准标签集中的48个。幸运的是，PATB文档包括映射指南。我们使用Ann Bies8，Bikel（2002，2004）9和Habash等人（2009 a）描述的方法来构建覆盖PATB所有部分并实现唯一映射的查找表。特别是有两个表：一个用于3.0版和更早版本，另一个用于3.1版和更高版本。未映射的标记主要是由PATB中的标记“Patient“指示的标点标准的 Penn Treebank 标记集除了表示符号标记 &（“+“，"=“，"“，. . 等）。因此，我们遵循标准的标点符号标记实践，在映射标点符号时在每个节点使用真正的单词（标记）表1显示了标点符号到12个标签中每一个的映射例如，问号“？"，映射到标记“"。我们发现了介词“ 从 ” 被错误地标记为 “ 从 ” 的情况，我们将其纠正为预期的介词标记 “ 在 ” 。然而，以下标签需要特殊处理：如果父标记是VP标记，则NEG_PART+PVSUFF_SUBJ ： 3MS 标记模式映射到VBP（不完全动词）标记。否则，它被映射到RP标记（ RPb ）。如果当前单词是 “” （ w ），则NO_Functional标记映射到CC另外，我们检查标记是否作为标点标记来执行标点映射;如果不是，则将其映射到NNP（专有名词）标记。检查NON_ALPHABETIC和NON_ARABIC标记是否用作标点标记以执行标点映射。如果不是，我们检查它们是否是要映射到CD（基数）标签的数字。否则，它们将映射到外来词（FW）标记。前面在4.1节中讨论的临时NOTAG标记被映射到12个标点标记之一。图5中示出了图4所示的树上的标签归一化的应用。例如，动词 ' ' x a T+a t “ （ t a k e ）被标记为' ' V E R B _ PERFECT+ PVSUFF_SUBJ：3FS“（完成动词，带第三人称单数阴性主语后缀）在PATB中。此标记转换为此图还显示了“."的标点映射。4.3. 分段限定词在PATB中，附加在词上的限定词（标记为DET或DEM）不会从它们各自的词中去除，因为它们不影响被分析句子的结构。但这并不适用于CCGbank。然而，映射数百个标签（达到8Bieshttp://www.ldc.upenn.edu/Catalog/docs/的映射：www.example.com LDC2003T06/arabic-POS tags-collapse-to-PennPOS tags.txt。7The 句话是提取从的文件名：PATB第2部分中的“ARB_20020120-a.0006.tree9 比克尔的映射：http://www.ldc.upenn.edu/Catalog/docs/LDC2005T02/taglist-conversion-to-PennPOS.lisp.2●●●●确定成分类型445~图4从PATB提取的全树分析● 它是名称的一部分;它的相邻词标记为● 是独生子女，或● 它的相邻词是标点符号。从附加的单词（解析树中的叶/终端节点）中分离限定词将被一个新的子树替换。它的子节点是限定符（带有标签DT）和分割限定符后保留的分段（带有原始节点标签的兄弟节点）。根的标记新的子树的长度由原单词的标签决定，如表2所示。例如，如果原始单词标签是JJ（形容词），则子树根的标签是ADJP（形容词短语）。图6示出了分离限定符对图6所示结构的影响。五、因为限定词被认为是从名词短语到名词的功能。因此，为了抓住这种关系，我们应该将限定词分次化。这也具有减少数据稀疏的优点。为了准确地将限定词从它们所附的词中分割出来，我们依赖于PATB的diacritized Treebank版本，因为词音节由"+“符号明确地界定为了正确处理标记为“NNP”或“NNPS”的单词4.4. 去除元音PATB使用&“a，i，o u“元音字母和"“来表示阿拉伯语的变音符号。我们的目标是处理现代标准阿拉伯语（MSA）。常规书写MSA的正字法不需要包括短元音;参见（Abo Bakr等人，2008）（Shaalan等人，2009年）。因此，我们决定放弃元音字母。唯一的例外是在非阿拉伯语（外国）的话，这是annotated与FW或拉丁标签的情况下。表1标签SYM-LRB--RRB-编号$.、：0000NNCDPunctuation映射到Penn Treebank标记集。标点&@=-加-*-LRB- -LCB-（左栏）-RRB--RCB-（右栏）#（井号）$（美元符号）.？！(Sent最后一个点）（逗号）;：_.. . （mid sent punc）‘‘ ‘ (left”%446A.I. El-taher等人图5标记转换。导出新的拓扑学，其中头节点是使用其在组成部分中的位置确定的;也参见Magerman（1994）和Collins（1999）。5.2. 补充和附属节点的识别5. 确定成分此步骤标识树的段中每个节点的类型。在这个阶段中处理的成分5.1. 头节点识别对于每个非终端节点，使用 Hockenmaier 和 Steedman（2005）中描述的规则导出的算法来识别头节点。我们成功地实现了99%的识别头节点的非终端节点的PATB。其余节点未能遵守设计的语法，主要是因为PATB注释器在非终端节点上应用了共同索引，而不是在终端上应用共同索引的惯例。这种共索引方案导致成分只有一个孩子的痕迹或两个或更多孩子的非常规成分结构，这是正常的分类学无法处理的。因此，我们处理此案的方式是在确定头节点之后，剩余的节点要么是补集要么是补集。当与头节点组合时，补充节点包括完整的CCG分析，而附属节点不影响分析。以下其中一种方法将确定类型：明确检查节点是否用作完成标记（例如，SBJ或OBJ）或附属标签（例如， ADV或ADV），检查异常（例如，NP-TPC是互补的，如果它是共索引的），并确定类型，对于任何其他节点，使用其组成短语的语法来确定其补语，或者● 将剩余的节点视为节点。Hockenmaier和Steedman（2005）的语法分析没有处理有两个宾语的动词，因为PATB用状语标记“BNF”表示其中一个宾语，导致了一个附加分析。然而，使用Bieset al.（1995）的分析方法，我们成功地对该对象进行了互补分析。图图7说明了将我们的算法应用于图1所示的树的结果。 6确定成分类型。在该图中，用VBD标记的动词“take”是动词短语（VP）的首节点（h），而介词短语（PP）是一个附加词（a）。表2父节点标记的分配原始单词标签父JJ，JJR ADJPRB ADVPUH INTJNN、NNS、NNP、NNPS NP在PPRP PRTCD QP●●●确定成分类型447图6分隔限定词。图7确定类型（h：中心语，c：补语，a：补语）448A.I. El-taher等人受益于Habash等人设计的阿拉伯语NLP工具。（2009年b）、Diab（2009年）、Clark和Curran（2007年）以及Curran等人（2007）处理翻译系统的训练数据的阿拉伯语方面。此外，我们计划使用Koehn等人（2007）设计的工具，使用Hassan（2009），Koehn和Hoang（2007）和Birch等人的技术来训练翻译系统。（2007年）。引用6. 实验和结果我们在版本2.0的第1部分和第2部分（表示为ATB 1v2.0和ATB 2v2.0）上测试了我们的算法，其中它们具有以下特征：ATB 1v2.0（LDC2003T06）。它包括734个故事，从法国新闻社（法新社）新闻专线，代表140 265字。ATB 2v2.0（LDC2004T02）。它包括来自伊斯兰阿拉伯语新闻文本的501个故事，代表144，199个单词。每个树库的元音部分合并，以方便处理。结果见表3。对于未识别的头节点，我们采用了Magerman（1994）和Collins（1999）的规则，这样我们就可以捕获这些头节点，从而捕获它们的补集。7. 结论和今后的工作本文报道了一个正在进行的研究项目，旨在开发一个新的阿拉伯语CCGbank，将首次引入阿拉伯语NLP为CCG开发的复杂工具。我们决定使用PATB，它已经成为阿拉伯语NLP任务中广泛使用的事实上的标准语言资源。阿拉伯语的特点和特殊性通常需要预处理步骤。这是规范化PATB并使其适合和准确地转换为CCG组所必需的。此外，在预处理阶段，我们通过限定词的格化，成功地丰富了PATB的词典，引入了词典中没有的新词，充分地捕捉了限定词对词典的影响我们开发了一个完整的阶段，用于确定成分我们的算法的性能时，应用到ATB 1v2.0和ATB 2v2.0是99%的头节点的识别和100%的覆盖率的树库数据。我们正在努力完成创建阿拉伯语CCGbank的剩余阶段，即二进制化和类别转换。最终，我们将为阿拉伯语NLP研究社区免费提供CCGbank工具。在完全开发阿拉伯语CCGbank之后，我们将使用它来训练英语到阿拉伯语的翻译系统。我们计划Abdel Monem ， Azza ， Shaalan ， Khaled ， Rafea ， Ahmed ，Baraka，Huda，2008.在多语言语音机器翻译框架中生成阿拉伯语文本。马赫Transl. 20（4），205-258，Springer，荷兰。Abo Bakr，Hitham，Shaalan，Khaled，Ziedan，Ibrahim，2008.一种将书面埃及口语方言转换为变音阿拉伯语的混合方法。在：INFOS2008会议记录，自然语言处理的特殊轨道，3月27日Bies ， Ann ， Ferguson ， Mark ， Katz ， Karen ， MacIntyre ，Robert，1995. Treebank II StylePenn Treebank Project的括号指南技术报告，最不发达国家。Bikel，Daniel M.，2002.多语言并行统计分析引擎的设计。见：HLT 2002会议记录，加利福尼亚州圣地亚哥。Bikel，Daniel M.，2004.柯林斯解析模型的复杂性。Comput.凌30（4），479-511.Birch，Alexandra，Osborne，Miles，Koehn，Philipp，2007. CCG超级标签在因子统计机器翻译。在：ACL的诉讼。Bos，Johan，Bosco，Cristina，Mazzei，Alessandro，2009.将依存关系树库转换为分类语法树库。In：Proceedings of TLT 8，米兰，意大利.Boxwell，Stephen A.，Brew，Chris，2010.一个阿拉伯语CCGbank的试点。载于：LREC-10会议记录，瓦莱塔，马耳他。C.Ruken，2005年。土耳其语CCG文法的自动归纳。在：ACL学生研究研讨会的会议记录pp. 73-78.Clark，Stephen，Curran，James R.，2007.使用CCG和对数线性模型进行广泛覆盖的高效统计分析。Comput.凌 33（4）.Collins，Michael，1999. Head Driven Statistical Models for NaturalLanguage Parsing （英语： Head Driven Statistical Models forNatural Language Parsing）thesis）。宾夕法尼亚大学计算机与信息科学系Curran，James R.，Clark，Stephen，Bos，Johan，2007.语言动机的大规模NLP与C C和拳击手。在：ACL演示程序。pp. 33比36Diab，Mona T.，2009.用于阿拉伯语处理的第二代AMIRA工具：快速而强大的标记化，POS标记和基本短语分块。第二届阿拉伯语资源和工具国际会议论文集。Habash，Nizar，Faraj，Reem，Roth，Ryan，2009.哥伦比亚阿拉伯树库中的句法见：埃及开罗MEDAR会议记录。哈巴什，尼扎尔，兰博，欧文罗斯瑞恩 2009. Mada+ TOKAN：一个用于阿拉伯语标记化、变音符号化、形态消歧、词性标注、词干提取和词形化的工具包。见：埃及开罗MEDAR会议记录。Hassan，Hany，2009.统计机器翻译的词法分析（Ph.D. thesis）。都柏林城市大学Hockenmaier，Julia，2006.为德语创建一个CCG库和一个广泛覆盖的CCG词典。见：ACL会议记录，第44卷。第505页。Hockenmaier，Julia，Steedman，Mark，2005. CCGbank：User'sManual.技术报告MS-CIS-05-09。Department of Computer和信息科学，宾夕法尼亚大学。Hockenmaier，Julia.，Steedman，Mark. 2007. CCGbank：从PennTreebank中提取的CCG派生和依赖结构的语料库。Comput.凌33（3），355-396。●●表3结果。PATB1v2.0PATB2v2.0行数45192591株数58454302非终端节点198,849214,470未定义的头16681930发现的头部（%）99.1699.1补充和辅助所有补体和补体均为确定，前提是确定了确定成分类型449Koehn ， Philipp ， Hoang ， Hieu ， 2007 年。翻译模型。 In ：Proceedings of EMNLP，Prague，Czech Republic.Koehn ， Philipp ， Hoang ， Hieu ， Birch ， Alexandra ， Callison-Burch ， Chris ， Federico ， Marcello ， Bertoldi ， Nicola ，Cowan，Brooke ，Shen ，Wade，Moran ， Christine ，Zens，Richard ， Dyer ， Chris ， Bojar ， Ondrej ， Constantin ，Alexandra，Herbst，Evan，2007.摩西：统计机器翻译的开源工具包。 In ： Proceedings of ACL ， Demonstration Session ，Prague，Czech Republic.Kulick，Seth，Gabbard，Ryan，Marcus，Mitchell，2006.解析阿拉伯语树库：分析和改进。 In ： Proceedings of TLT 6 ，Prague，Czech Republic.Maamouri，Mohamed，Bies，Ann，Buckwalter，Tim，Mekki，Wigdan，2004 a.宾夕法尼亚大学阿拉伯语树库：建立一个大规模的注释阿拉伯语语料库。在：NEMLAR的会议记录pp. 102比109Maamouri，Mohamed，Bies，Ann，Kulick，Seth，2008.增强阿拉伯树库：新注释指南的合作努力。载于：LREC'08会议记录Magerman，David M.，1994.自然语言解析作为统计模式识别（Ph.D. thesis）。斯坦福大学计算机科学系。Othman，Eman，Shaalan，Khaled，Rafea，Ahmed，2004年。解决阿拉伯语句子理解中的歧义问题。载于：阿拉伯语资源和工具国际会议筹备会议，9月22日至23日，2004年，埃及。pp. 118比122Sandillon-Rez er，Noe'mie-Fle ur，Moot，Richard，2011. 使用树转换器进行语法推理。LACL 2011。LNAI 6736，235-250。Sang ， Erik Tjong Kim ， Buchholz ， Sabine ， 2000.介绍 CoNLL-2000共享任务：组块。在：CONLL的程序，pp。127比132Shaalan，Khaled，2014.阿拉伯命名实体识别与分类研究综述。Comput. 凌40，2，MIT Press.Shaalan，Khaled，Abo Bakr，Hitham，Ziedan，Ibrahim，2009.一种混合的阿拉伯语变音符号生成方法。In：Proceedings ofEACL 2009 ， Workshop on Computational Approaches toSemiticLanguages，AssociationforComputationalLinguistics，Athens，Greece，31 March，2009.pp. 27比35Smrz，Otakar，Bielicky'，Viktor，Kourilova'，Iveta，Kra'cmar，Jakub，Hajic，Jan，Zema'nek，Petr， 2008.布拉格阿拉伯语dependencytreebank：一个字的百万字。2008年LREC会议记录pp. 16-23Steedman，Mark，1996年。表面结构和解释。麻省理工学院出版社，马萨诸塞州剑桥。Steedman，Mark，2000.语法过程。麻省理工学院出版社，马萨诸塞州剑桥。Tse Daniel，Curran，James R.，2010.中文CCGbank：从Penn中文树库中提取CCG派生词。在：Coling 2010的诉讼。pp. 1083-1091.Zitouni，Imed，2014.闪米特语的自然语言处理。自然语言处理的理论与应用斯普林格海德堡

下载后可阅读完整内容，剩余1页未读，立即下载