阿拉伯语语料库arTenTen：2012年收集的沙特国王大学学报开放使用

56 浏览量更新于2024-01-14 收藏 3.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.comarTenTen：阿拉伯语语料库和单词草图Tressy Artsa，Yonatan Belinkovb，Nizar Habashc，*，Adam KilgarriBaglid，Vit Suchomele，da联合王国牛津阿拉伯语词典主编b美国麻省理工学院阿拉伯联合酋长国dLexical Computing Ltd，英国e马萨里克大学，捷克共和国2014年10月7日在线发布摘要我们提出了arTenTen，一个网络抓取的阿拉伯语语料库，收集在2012年。arten由58亿字组成。它的一部分已经被词元化，并使用MADA工具标记了词性（POS），随后加载到Sketch Engine，一个领先的语料库查询工具，在那里它对所有人开放使用。我们还创建了“单词草图”：一页纸，自动，语料库派生的单词语法和搭配行为的摘要。我们用例子来展示语料库可以告诉我们关于阿拉伯语单词和短语，以及如何支持lexi- cography和通知语言学研究。文章还详细介绍了©2014制作和主办由Elsevier B.V.代表沙特国王大学1. 介绍没有数据，什么都没有。语料库是许多语言研究的重要资源，尤其是在语法和词汇层面。在这篇文章中，我们介绍了arTenTen，一个2012年收集的阿拉伯语网络爬行语料库，以及一个*通讯作者。电子邮件地址：tressy. gmail.com（T.Arts），belinkov@mit. edu（Y.Belinkov），nizar.nyu.edu（N.Habash），adam@lexmasterclass.com（A. Kilgarriff），xsuchom2@fi.muni.cz（V. Suchomel）。沙特国王大学负责同行审查制作和主办：Elsevierhttp://dx.doi.org/10.1016/j.jksuci.2014.06.00910 个语料库家族的成员（ JakubBückenek等人， 2013年）。 artT-enten包含58亿个单词。自2003年以来，阿拉伯语的主要资源一直是阿拉伯语Gigaword。1它只包含新闻专线文本。 arTenTen在Gigaword的基础上进行了改进，用于词典编辑和相关目的，覆盖了更多类型的文本。一个1.15亿个单词块已经被标记化，词形化，并使用领先的阿拉伯语处理工具集 MADA 标记词性（Habash和Rambow2005; Habash等人， 2009），并安装在草图引擎（Kilgarriff等人， 2004），一个领先的语料库查询工具，在那里它是供所有的调查。2在创建大量现代标准的过程中，还有其他重要的努力。1阿拉伯语Gigaword由语言数据联合会创建和分发（Graff，2003年）。它定期更新，现在是第五版。2http://www.sketchengine.co.uk。1319-1578© 2014制作和主办Elsevier B. V.代表沙特国王大学关键词语料库;词典编纂;词法;索引;阿拉伯语358 T. Arts et al.阿拉伯语文本，如当代阿拉伯语语料库（ al-Sulaiti 和Atwell，2006年），国际阿拉伯语语料库（Alansary等人，2007）和莱比锡大学阿拉伯语集合（Eckart等人，2014年）。Zaghouani（2014）还对几个免费提供的语料库进行了调查。这些不同的语料库有不同的大小，但它们都小于artTenTen。草图引擎的一个有趣的功能是“单词草图”，这是一个单页的，自动导出的单词语法和搭配行为的摘要。自1999年以来，单词草图一直用于英语词典编纂（Kilgarriff 和Rundell，2002年），现在可用于20种语言。在第2节中，我们描述了如何使用单词草图（以及两个相关的报告;同义词库和3为了提供单词草图，我们必须使用外部解析器或SketchEngine内置的浅层解析器解析语料库，如下所示。在这个过程中，我们需要一个第4节描述了如何为Sketch Engine创建和准备arTenTen。在第5节中，我们总结并简要讨论了未来的工作。2. 在Sketch Engine中使用arTenTen进行语言研究Sketch Engine被英国五家词典出版商中的四家（牛津大学出版社、剑桥大学出版社、柯林斯和麦克米伦）用于词典编纂，被保加利亚语、捷克语、荷兰语、4爱沙尼亚语、爱尔兰语、5和斯洛伐克语国家研究所用于词典编纂，并被全球200多所大学用于一系列教学和研究目的。在讨论我们如何构建arTenTen语料库并对其进行注释的细节之前，我们提供了几个在语言研究背景下实用的例子，例如，用于词典学。本节围绕语言学家使用草图引擎在其上下文中研究阿拉伯语单词的不同功能进行组织。2.1. 简单的索引查询功能2.2. 频率函数Sketch Engine界面提供了对用于可视化词频的不同方面的工具的轻松访问（参见图1和图2）。第3和第4段）。左侧菜单上的频率节点6表单功能（图3）显示了哪些返回的表单最频繁。p/n链接用于正例和反例。点击p给出单词形式的索引，而点击n给出除了单词形式之外的整个索引频率文本类型函数显示哪个顶级域最频繁（图1）。4）.命中计数和归一化的数字都是为了说明来自不同领域的不同数量的材料。如果该词在所有域中的出现频率相同（每百万词），则第四列中的数字都将是100%。条形图基于标准化数字（条形图的高度与数据量相对应）。我们可以看到，在.edu网站上经常会出现这种情况该工具在研究区域差异时很有用。例如，为私有化（私有化）制作频率列表，我们看到（图5）它几乎只在摩洛哥和阿尔及利亚的报纸中使用。2.3. 单词列表功能单词列表功能允许用户制作多种频率列表。图6（A）2.4. 词的速写与搭配的整合功能单词sketch函数对于查找搭配非常有用。单词sketch（绿色，图7）表示预期的搭配，如黄色（和黄色）和黄色（颜色），但也表示习惯用法的绿色和干燥（字面意思是“ 绿色和干燥 ” ）。点击搭配后的数字给出了一个组合的一致性（图。 7）。在这个索引中，我们看到这种组合通常与（图7中20行中的10行）或表示破坏的动词一起出现，例如第1行的破坏（摧毁）一个简单的索引查询显示了这个词在不同语言中的用法5、11和17;ﺣﺮﻕ（燃烧）10号线因此，我们建议，语料库中的文本图 1显示查询框，图 2显示其输出。一个简单的词搜索查询，如child（孩子），会搜索词元和字符串;因此，字符串child（+孩子），child（孩子+他们的），child（孩子+他们的），child（孩子），child（孩子）等，都被找回了3这里所描述的方法和途径类似于《牛津阿拉伯语词典》（Arts et al.，2014年）。4荷兰语是荷兰和比利时的官方语言从上下文中我们可以推断出“毁灭一切“和成语"毁灭一切”的含义。此外，在单词Sketch中，我们看到形容词“光”的一个顶级搭配名词是“光”（light）。绿光并不是一种常见的现象，它可以解释这一点，所以我们再一次看看一致性（图1）。 8）。在这些句子中，我们可以看到绿灯的用法与英语中的“togive/get the greenlight”（在那里也被称为佛兰芒语），该研究所（INL）是一个一是两国联合。5Sketch Engine的大部分开发工作是根据Foras na Gaeilge（爱尔兰语官方机构）的合同进行的，为创建新的英语-爱尔兰语词典做准备（http://www.focloir.ie）。爱尔兰语在爱尔兰共和国和北爱尔兰（英国的一部分）都有使用，Forasna Gaeilge是两国的联合研究所6节点是一致性结果，即来自语料库的匹配一致性查询的所有标记。7变音符号和变音符号化通常被称为元音，发音，因为阿拉伯变音符号最常见的用途是表示短元音。我们在这里使用更通用的术语来解释非元音变音标记，例如辅音重叠标记，shadda。阿拉伯语语料库和单词草图359图1简单的一致性查询。图2所得到的一致性线。2.5. 双语单词速写功能单词草图的一个新功能是双语单词草图，它允许用户并排查看两个单词的单词草图。图图9显示了红宝石和红宝石之间的比较。一些相同的东西在阿拉伯语和英语中是红色的;因此，我们找到了匹配的配对：肉/肉，地毯/地毯，和胡椒/胡椒。这三个词在某种程度上都是地道的，在两种语言中具有相同的地道意义。阿拉伯媒体对红十字会和红新月会的讨论多于英文媒体，这反映了当今几个阿拉伯语国家的不幸现实。相比之下，葡萄酒在英语中排名很高，但在阿拉伯语中却没有。2.6. 分布式词库功能草图引擎还提供了一个分布式词库，其中，对于输入的单词，单词“共享”最多的collo- cates。图10显示了与导出（ export ）相似度最高的条目。最上面的结果是（import）。点击这个词会把我们带到一个“sketch diff”，这是一个报告，显示了图中两个词之间的异同。 10个。搭配词后的第一个数字显示了这个搭配词与的出现次数，第二个数字显示了这个搭配词与的出现次数。从绿色到红色的颜色尺度使分布可视化。360吨Arts et al.图3节型频率。图4含有恶意软件的网站的域名扩展频率列表。2.7. 搭配与词典编纂研究：两个案例研究Sketch Engine报告中的信息对词典编纂者特别有用。它介绍了搭配，习语，介词通常出现在动词，等等。它还提供了对单词使用的洞察力，经常帮助词典编纂者找到新单词的定义，例如，自闭症（自闭症），如图所示。十一岁立即儿童和病人的上下文表明，这个词可能是一个形容词的疾病。它也偶尔揭示新的意义的话。例如，传统上已知单词“顺序/方式”是指“顺序/方式”，如图所示。 12个。然而，看看上面的形容词搭配词“递增”的一致性，我们发现这些句子似乎不是指“递增顺序”，而是指一是“ 加快步伐”。阿拉伯语语料库和单词草图361图5含有各种形式的垃圾邮件的网站频率列表。图6（进一步研究这个词，我们发现“步伐 ”是一个共同的当代意义的词。在展示了草图引擎的功能及其例如，2004年）。它是单词sketch的基础，是用语料库查询语言（CQL）编写的。设计了一种专门用于识别中心词和依存词对的阿拉伯语的功能，我们现在将详细介绍的话（e. 例如，在一个实施例中，ﺗﺼﺎﻋﺪﻱ，）在特定语法的开发语料库并将其部署到草图引擎中。3. 阿拉伯语语法略sketch语法是基于词性标记上的正则表达式的语言语法（参见Kilgarriff关系（这里是形容词修饰语），这样从属关系就可以被输入到中心词的单词草图中在这里描述的工作之前，只有一个阿拉伯语的草图语法，在牛津大学出版社（OUP）开发，作为牛津阿拉伯语词典开发阶段的一部分（Arts等人，2014年）。它（和这个词）362T. Arts et al.图7（A）Word草图结果显示为“编辑”（左）。（B）与搭配词“”（右）结合的“”的索引行图8.联合使用抗抑郁药和抗抑郁药的一致性线。草图），只有在安排与OUP。草图语法是构建单词草图所需的两个组件之一。语法在语料库上运行以识别语料库中的所有单词1、语法关系、单词2>三元组。另一个是统计数据。对于出现在单词1槽（节点单词）中的每个词元和每个语法关系，我们计算每个不同的词元在单词2或“搭配”槽中出现我们使用这些数字来计算节点词和搭配词之间的关联得分8。联想得分最高的搭配词进入单词sketch.概略文法包含一组文法关系的定义.一个简单的语法关系定义就是：[8]目前使用的关联得分是Dice系数的一个变体;完整细节见Rychly'（2008）阿拉伯语语料库和单词草图363tag被简单地称为tag，在上面的公式中，这被设置为默认值。一个非速记版本是*双=形容词/形容词-of1：[tag=对一个单词（或者，从技术上讲，一个标记：标记通常是单词或标点符号）的所有约束都放在方括号内，每个方括号内的项目都与序列中的一个标记相关。现在，语言学家会立即注意到，在许多情况下，形容词碰巧跟在名词后面，但不是它们的修饰语。上面的定义是不够的约束，并会导致许多误报。我们要添加的一个约束是，形容词和名词在格和状态上要一致。这将在下一个版本中强制执行*双=adjective/adjective-of1：[tag =&“nou n“] 2：[tag=“ad j“] 1.state = 2. 国家1.case = 2.case&现在，只有当由1：索引的标记的状态值与由2：索引的标记的状态值相同时，形容词后跟名词才匹配，对于case也是如此。10这是更好的，不会包括许多假阳性。然而，我们也应该警惕形容词修饰名词的有效情况，这是上面的定义所遗漏的。一种情况是两个形容词连续修饰一个名词，例如，在一个实施例中，ﺍﻟﺴﻌﻮﺩﻳﺔﺍﻟﻌﺮﺑﻴﺔﺍﻟﻤﻤﻠﻜﺔ（点亮：的沙特阿拉伯王国）。图9阿拉伯语双语单词草图的形容词结果英国红葡萄酒=形容词1：这个定义是说，如果我们有一个带有词性标记名词的词，后面跟着一个带有词性标记adj的词，那么语法关系adjective在节点词（名词）和搭配词（形容词）之间成立。1：将名词确定为语法关系的第一个论元，2：将形容词确定为第二个论元。当形容词是节词时，我们也要把名词确定为搭配词。为了做到这一点，我们告诉系统，关系是对偶的，并给逆关系一个名字在这里，形容词，如下。*双=adjective/adjective-of1：这里有一些速记。可能存在与单词相关联的许多不同的信息字段，其中词性标签只是一个字段。在arTenTen中，有许多字段，包括单词形式本身、词元（带和不带变音符号）、大小写和状态。第九章词性9另见第4.3节。只有与名词最接近的形容词才被上面的从句抓住。为了抓住另一个形容词，我们在定义中添加另一个子句：1 ： [tag=&“nou n“] [tag =“adj“] 2 ： [tag=“ad j“pref1tag ！=“&&prep”] 1.state = 2.state 1. 案例= 2.case这个版本允许在名词和它的搭配形容词之间插入一个形容词，这个形容词不能有一个预先固定的介词。草图引擎支持草图语法的开发过程，因为CQL查询可以直接提交给语料库，使用concor- dance表单中的“CQL”选项。因此，上面的字符串可以被剪切并粘贴到CQL框中（图14），开发人员可以立即看到所有的命中（图15）。15）。通常，这将包括误报，然后开发人员可以添加约束来排除它们。他们还应该考虑他们遗漏的情况（在这个例子中，两个形容词的情况），并需要瞄准尽可能大的命中群体，而不会有太多的误报。用信息论的术语来说，他们需要注意回忆– 应该找到的缺失项-以及精度-避免误报。召回往往是一个更难的问题，因为工具无法显示未找到的项目阿拉伯语草图语法旨在确定主要的语法关系，同时确保高质量的结果。它涵盖的语法模式是：[10]性别和数字似乎是这个草图语法的很好的候选特征。然而，由于MADA使用了Habash（2010）所称的基于形式的性别和数量，并且考虑到偏转协议的普遍性（非理性复数名词使用女性单数形容词），这些特征不是名词-形容词一致性的良好指标更多关于阿拉伯协议的问题，见Alkuhlani和Habash（2011）。364 T. Arts et al.图10（A）显示与“导出”（export）类似的条目的叙词表搜索（左）。(B)比较“”和“”搭配的草图差异（进出口）（右）。图11.关于药物治疗的一致性。主语，主语-of：这些关系捕捉动词和它们的主语之间的关系。名词必须出现在主格中，并且不能有前缀介词或连词。短语“下雨了”产生了两种语法关系。当“落”为节词时，它与“落”之间的语法关系主语成立。与rain（雨）搭配。相反地，如果“”是节点词，那么它与“”的语法关系是主语-of。形容词，形容词-of：这两个关系捕获名词-形容词对。我们在状态（有限期/无限期）和情况下执行协议。在性别和数量上强制执行一致性并不是微不足道的，并留给未来的版本。●●阿拉伯语语料库和单词草图365图12Wehr's Dictionary of Modern WrittenArabic 4th ed. 1979年和al-mu 'jam al-wasit（开罗阿拉伯语学院）。条目见almaany.com，2014年2月图13.与其他研究结果的一致性。图14在一致性搜索表单中使用CQL（使用标签作为默认属性）。图15与名词-形容词-形容词序列的一致性12366 T. Arts et al.表1语料库准备各阶段的数据量。数据统计文件（网页;百万）判刑（百万）（百万字数据大小已发出的HTTP请求87.8–––收到的网页58.8––2015 GB已清理文本，无完全重复21.546317,500152 GB最后文本，无重复11.5177579058.0 GB使用MADA0.234.51151.32 GBaa带注释的语料库的大小为1.32 GB（不含形态标记）和23.6 GB（含完整MADA形态注释）。在短语“科学研究”中，名词"科学研究“用形容词“不”来代替“不”，而“不”本身就是形容词“-of”。construct-state：捕获两个名词之间的构造状态（idafa）关系。第一个名词必须处于构式状态，第二个名词必须处于属格状态，没有前缀介词或连词。在短语"学校校长“中，节词”校长“与搭配词”学校校长“之间存在构式-状态语法关系。和/或：这种关系捕捉了名词、形容词和动词对的连接结构。我们在两个词之间的某些语法特征上强制一致：对于名词和形容词，我们在格和状态上强制一致;对于动词。在方面。这个关系被声明为sym- metric，它告诉系统这两个词可以依次作为头节点。形容词对的例子包括：大的我们使用阿拉伯语维基百科和其他阿拉伯语网页的文本来构建我们需要的特定语言模型(a) 一种用于语言识别的字符三元组模型，(b) 一种用于字符编码检测的字节三元组模型(c) 最常见的阿拉伯语单词，用于播种抓取和区分句子与列表和标题，以及（d）样板清理工具的参数我们使用SpiderLing（Pomikalek和Suchomel，2012）抓取阿拉伯语网络，这是一个专门为准备语言语料库而设计的爬虫。抓取的种子是通过从阿拉伯语维基百科中提取前1000个单词，随机组合成三元组，并使用三元组作为雅虎查询来生成的。雅虎的搜索结果给出了4583个网址，这些网址被用作抓取的起点。我们使用jusText（Pomikalek，2011）删除非文本材料和样板。JusText使用的工作定义是，我们只需要页眉和页脚）。该算法在语言学上是知情的，拒绝不具有作为语言的语法词的标记的高比例的材料;因此，在数据清理的过程中，大多数材料，这不是在所需的语言中，被删除。和小）和ﺻﻐﻴﺮﺃﻭﻛﺒﻴﺮ（大或小）。在这些● 我们使用Onion（Pomikalek，2011）进行重复数据删除，例如，单词“大”（large）在语法关系中几乎重复的段落我们在数据库中删除重复数据和/或ﺻﻐﻴﺮ（小）反之亦然。同样我们因为对于许多语言学目的，一个句子获得名词对（例如，女性和男性）和动词（例如，（笑或哭）。语法集中于每个语法关系的最高置信度模式。有很多建筑它还没有覆盖。不同关系的识别质量取决于自动消歧组件的正确性。由于自动预测案例的准确性在80%左右，因此我们可以预期相当数量的失败匹配，例如，动宾对分析为动宾对。未来的版本将增加当前关系的覆盖范围，并添加额外的关系，如参见附录A获取完整的语法，参见Sketch Engine文档11获取形式主义的完整说明。4. 创建和准备语料库4.1. 爬行和文本准备下面描述用于创建语料库的处理链。是一个很小的单位，但一个完整的网页（这可能会欺骗-tains大块oflarge大块of quoted引用material材料）is too large大.这些工具专为提高速度而设计，安装在服务器集群上。对于一种有大量可用材料的语言来说，我们每天可以收集、清理和删除10亿个ArTenTen在14天内收集。表1列出了来自arTenTen的各种统计数据。4.2. 组合物在语料库中表现最好的顶级域名是。com、.net、.org、.info、.ps（巴勒斯坦）、.sa（沙特阿拉伯）、.sy（叙利亚）、.eg（埃及）和.ae（阿拉伯联合酋长国），如表2所示。存在由至少一个文档表示的116，000个web域，以及由至少10个文档表示的43，000个web域（参见表 3 ），这表明与诸如阿拉伯语 Gigaword 或KSUCCA（Alrabiah等人，2013年），这是建立在少数来源。表4给出了贡献最多文档的20个域。11http://www.sketchengine.co.uk/documentation。12http://nlp.fi.muni.cz/trac/spiderling。●●●●●阿拉伯语语料库和单词草图367它是一种基于词形分析的阿拉伯语建模方法，可以预测一个词在上下文中的所有形态特征。MADA已被许多阿拉伯语NLP项目成功使用：在2012年NIST Open机器翻译评估中，12个阿拉伯语-英语翻译团队中有9个使用了MADA。在本文所述工作的先驱中，牛津大学出版社使用MADA准备用于创建牛津阿拉伯语词典的语料库材料（Arts等人，2014年）。在通过MADA进行阿拉伯语处理的框架内（Habash和Rambow，2005年; Habash等人，2009），我们需要区分两个概念：形态分析和形态消歧。形态分析是指对一个特定的词确定其所有可能的形态分析的过程。这个词，对于MADA来说，是正字法词，定义为由空格和标点符号分隔的字母序列。在阿拉伯语中，这个词可能包括各种各样的连接词，如定冠词、介词、连词和代词。每个单一分析（在许多分析中）包括对具有多个维度的形态学信息的单词的单一选择或阅读：单词的完整变音符号化、词元、词干、词性（ POS ） ; 完整的 BuckwalterAnalyzer标签（Buckwalter，2002）、四个可能的亲格槽的值和POS标签;八个变形特征的值-人称、体貌、语音、语气、性别、数字、状态和格;词素值和词性标记;英语注释;以及该词是否具有拼写的变化表5示出了示例词“wbfkrp”的MADA特征，假设对应于英语阿拉伯语单词非常模糊，主要是因为dia-critical标记通常被省略。一个好的分析器会在上下文之外为一个特定的词产生完整的选择集例如，单词including：ﺑﻴﻦbyn 可以有很多分析，变音符号化bay~an+abay~an+~ a比因Buckwalter POS标签英文光泽PV+PVSUFF_SUBJ：3MS他证明了PV+PVSUFF_SUBJ：3FPNOUN_PROP所有案例结尾为简单起见）间隔~in（下降调整他们证明(f.p)本·克利PREP之间，之间词法消歧是指在语境中选择合适的词法分析方法。比较以下内容-ing 两句子，这都包含ﺑﻴﻦbyn. 一个好消歧模型将选择（1）的专有名词阅读和（2）的介词阅读ﻫﻞﺳﻴﻨﺠﺢﺑﻴﻦﺃﻓﻠﻴﻚﻓﻲﺩﻭﺭﺑﺎﺗﻤﺎﻥ؟(1)本·阿弗莱克会是一个好蝙蝠侠吗ﻛﻴﺮﻱﻳﺤﺎﻭﻝﻣﺠﺪﺩﺍﺍﻧﻘﺎﺫﺍﻟﻤﻔﺎﻭﺿﺎﺕﺑﻴﻦﻓﻠﺴﻄﻴﻦﻭﺍﺳﺮﺍﺋﻴﻞ(2)4.3. 使用MADA我们选择使用MADA工具进行阿拉伯语处理，因为它在阿拉伯语消歧方面具有最先进的效果克里再次试图挽救巴以谈判。英语的形态消歧的任务被称为POS标记，因为对于英语，很大一部分挑战是确定名词、动词或形容词是什么（例如，对于诸如promise的基本形式，诸如表2TLD.com网站.net网络按顶级域（top-level domain，简写为Domain）分类的文档（网页）。%54.4520.8610.321.69注意通用商业网络.ae.cc.uk语言.cn.jo0.600.430.410.410.400.380.35阿拉伯联合酋长国Cocos Islands/genericUK摩洛哥表3按网站分发文件。>=1文档116，029网站>=10个文件43，282个网站>=100个文件11 242个网站>=1，000份文件2，264个网站>=10 000份文件112个网站.lb0.30黎巴嫩.il0.28以色列.商业0.26通用业务.ws0.26萨摩亚/通用.ir0.25伊朗其他4.03表4提供最多文件的网站。aawsat.com28,689maghress.com24,925masress.com23,818sawt-alahrar.net22,669burnews.com21,474humum.net21,084chelseafarms.com20,216nabanews.net19,490sarayanews.com17,534algomhoriah.net17,090anhri.net16,718tayyarcanada.org16,315arabic.xinhuanet.com15,879alsahafa.sd15,774m.islamweb.net15,600digital.ahram.org.eg15,487arabtimes.com15,339rosaonline.net15,266alwasatnews.com15,210elbiladonline.net14,934.ps1.55巴勒斯坦.sa1.41沙特阿拉伯.sy0.76叙利亚.eg0.61埃及表5MADA法分析的最优解。368 T. Arts et al.promises ， ing-forms 比如 promising 和 ed-forms 比如promised。）.标准的英语POS标签集，虽然只包括46个标签，完全消除歧义英语形态。在阿拉伯语中，相应的标签集包含数千个标签，因此任务相当困难。减少标签集已被提出阿拉伯语中的某些形态差异合并，使形态消歧任务更容易。术语POS标记通常用于阿拉伯语中一些较小的标记集（Habash，2010）。MADA基于标准阿拉伯语形态分析器（SAMA）（Graff 例如， 2009年）。它还使用了一组不同的分类器，这些分类器对上下文中的分析表单中的特定特征的值进行分类，例如词元或性别。这些特征在Penn ArabicTreebank（Maamouri et al.，2004年）。将两组信息（上下文外分析和上下文内分类特征）结合起来，以选择上下文中的适当分析（Habash和Rambow，2005年; Roth等人，2008年）。使用MADA处理了arTenTen的1.15亿个单词子集。每个单词的单一首选分析被输出并用作下一个过程的输入。MADA的工作已经扩展到处理阿拉伯语方言，特别是埃及阿拉伯语（Habash等人， 2013年）。然而在这个工作，我们只使用MADA为MSA。4.4. 进入草图引擎将arTenTen加载到草图引擎中需要将MADA输出转换为草图引擎。Sketch Engine输入格式，通常称为“ 垂直 ” 或“ 每行一词 ” ，是在 2 0 世纪 9 0 年代由斯图加特大学定义的，并广泛用于语料库语言学社区。每个令牌（例如，单词或标点符号）在单独的行上，并且在存在诸如词元、POS标签和形态特征的相关联转换脚本将所有MADA生成的特征提取到字段中，并合并附加字段以便于在草图引擎中搜索，例如，阿拉伯语脚本，变音和非变音版本的引理（从Buckwalter音译回译（Habash等人，2007））。结构信息，如文档的开头和结尾、句子和段落标记以及任何可用的元数据，都以类似XML的形式在单独的行上呈现。对于Web语料库，可用的元数据有限;收集日期和可以从中导出域和顶级域的URL是有用的。垂直文件的示例见附录B。在Sketch Engine中，每个语料库都有一个语料库配置文件，该文件指定了语料库包含的信息字段以及如何显示它们的各个方面。语料库准备的下一阶段是开发arTenTen语料库配置文件。例如，我们需要在这里指定单词sketch属性是该词元的阿拉伯语形式，以方便用户使用阿拉伯语进行搜索。这是有问题的：不清楚这是否应该是有或没有变音符号的词元版本。无变音符号的选择是可取的，因为这是阿拉伯语使用者通常的书写方式。如果我们不允许~~~阿拉伯语语料库和单词草图369没有变音符号输入，初学者用户将不会获得任何结果，并将推迟。然而，如果不写变音符号，歧义的程度就会相当高，可以看到一个单词草图为没收，没有噪音造成的（外出），因为这两个都是写为没收，当没有变音。因此，专家用户更喜欢单词速写应该以变音符号的形式来计算。专业的解决方案是两个版本的语料库：一个是为那些知道他们需要使用变音符号形式来获得单词草图的用户提供的，另一个是为那些不知道的用户提供的。我们目前正在构建一个界面选项，允许用户使用非音符化的表单，同时保留音符化的表单作为高级用户的选项。这里我们必须注意，系统输出的质量很大程度上取决于输入，即，标签和词形化的质量。词形化和标记中的错误不会被忽视，并可能导致词典编纂者意想不到的结果。通常有一个合乎逻辑的解释，但可能需要更仔细地查看标记和词形化完全理解输出。一个普遍的困难是专有名词的形式与另一个词有歧义。例如，姓名Huyay是一个常见的名字在宗教文本中。然而，MADA通常将其标记为一个形容词，意思是“谦虚”，这是一个错误，因为MADA主要是为了处理现代标准阿拉伯语（MSA）文本而构建的，而这个名字并不常见。它也被分配了错误的引理：（Hayiy）而不是（Huyay）。因此，当词典编纂者想要搜索对于可能被读作专有名词或形容词的单词，他们必须意识到歧义，要么使用错误的词元，要么只使用简单的字符串进行搜索在结果页面上，索引默认显示在上下文关键字（KWIC）视图中，如图2所示。使用视图选项，可以将索引视图更改为多个备选视图。一种是查看附加属性，如POS标签或每个单词旁边的词元。这对于找出为什么意外的语料库行匹配查询是有用的，例如，因为一个不正确的POS标签或引理。通过选择参考文献列中的字段，用户可以决定在索引行的左端以蓝色5. 总结和未来计划我们介绍了arTenTen，一个非常大的当代阿拉伯语网络爬行语料库。我们还详细介绍了MADA工具处理的语料库子集：它是如何建立和编码的，以及我们如何为阿拉伯语制作单词草图，并充分说明所使用的草图语法。我们讨论了如何利用MADA处理后的语料库进行词典编辑和相关的语言学研究，包括如何利用MADA处理后的语料库查找搭配、成语、新词、新义，以及如何通过同义词词典查找同义词和相关词。我们已经介绍了草图差异，它显示了如何比较和对比近义词。我们当然希望将MADA应用于整个ArTenTen。到目前为止，由于程序的速度，这还不可能。最近，MADAMIRA（Pasha等人，2014年），一个新的和改进的版本的MADA结合AMIRA（Diab，2009年），是数量级快于MADA，并具有可比的质量输出。arTenTen的编纂方法旨在建立一个多样化的语料库，包括来自多个领域和体裁的文本。阿拉伯语系的性质也意味着网络文本可能会出现在许多语言变体中：现代标准阿拉伯语（MSA），古典阿拉伯语，古兰经阿拉伯语和各种方言。因此，识别每个文本（或子文本单元）的语言多样性既是一个挑战，也是一个机遇：这是一项不平凡的任务，尽管标准的语言识别方法在识别阿拉伯方言方面效果很好（Zaidan和Callison-Burch，2013）。确定语言变体的机会将有助于对特定变体的词典编纂工作和方言的比较研究。在初步实验中，我们建立了一个分类器，以区分MSA，古典阿拉伯语，埃及，约旦和沙特方言。我们根据已发布的语料库为这些品种中的每一种训练了一个五克字符级别的语言模型，并在MSA，古典阿拉伯语和埃及阿拉伯语中手动选择的一小部分arTenTen文本上测试了其性能，在这个三智分类任务中达到了93%的准确率。然后，我们训练了一个基于埃及，约旦和沙特文本的组合方言模型，并处理了大量的arTenTen文本（40 k）。我们注意到，大多数文本其中80%被确定为MSA，其余被确定为古典或方言阿拉伯语。这表明文本中不可忽略的部分是非MSA。在未来的工作中，我们打算使用基于语料库的方法和资源，如Buckwalter和Parkinson我们还将考虑子文本单元的识别（Elfardy和Diab，2013），这对混合文本很重要。arTenTen成立于2012年，现在已经两年了。对于每一个TenTen语料库，都计划了一个重新抓取的程序，从而定期添加材料，既保持语料库的最新状态，也使经验方法可以应用于发现新词和新义。我们打算收集报纸提要和博客提要，以便我们有准确的时间戳的额外材料我们相信，arTenTen与MADA/MAD-AMIRA和草图引擎相结合，对改进阿拉伯语语言描述和词典编纂具有相当大的优势。致谢这项工作得到了捷克共和国教育部在LINDAT-Clarin项目 LM 2010013 内和捷克共和国内政部在项目 VF20102014003内的部分支持Nizar Habash在哥伦比亚大学计算学习系统中心工作时完成了# arTenTen Sketch Grammar，version 0.1（7/20/2013）*结构限制*默认属性标签*固定顺序主语/形容词主语/形容词结构状态和/或*双=subject/subject-of1：“prep“conj”]*双=adjective/adjective-of1：&“名词”2：[tag=“adj”pref1 tag！=“&prep”pref2tag！=“&&1.caseconj”]1.state=2.statewww.example.com=2.case1：&“名词”[tag=“adj”pref 1 tag！=“&prep”pref2tag！=“&conj”] 2：[tag=“adj”pref1tag！= [&&1.case2.case英语泛读材料名词-形容词对;在州和案中强制执行协议=construct-state1：[tag=&&“noun“state=“c”] 2：[tag=“noun“case=“g“pref1tag！&=“prep“pref2tag！&=“conj”] #简单兼并#1：[tag=&&&“noun“state=“c”] [tag=“noun“case=“g“state=“c“pref1tag！&=“prep“pref2tag！&=“&conj”]+ [tag=“名词“case=“g“pref 1 tag！&=“&prep“pref2tag！=“conj”]#更复杂的兼并=和/或*对称1：“名词”[transs=">w”|transs =">m”|英语&&1.case2.case&&&1.case中的“名词”是一个名词，意思是“名词”2.case#名词1：“adj”[transs=">w”|transs =">m”|[&&1.case2.case&&&1.case商务英语词汇]国家的，州的，州2.case#adjective1：“动词”[transs=">w”|transs =">m”|英语&&&中的动词是动词的一种，它的意思是“动词”。370吨Arts et al.附录A.阿拉伯草图语法附录B.示例arTenTen XML与选定的属性的形态学注释的MADA。有两个段落（

），每个段落有一个意义-在一个文档（doc>）中使用tence（s>）。文档的源和其他元数据存储在结构的属性中（例如，url=http://www.alsabar-mag.com/ar/“www.example.comarticle 419

下载后可阅读完整内容，剩余1页未读，立即下载