没有合适的资源?快使用搜索试试~ 我知道了~
Journal of King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com社论介绍阿拉伯语NLP特刊:现状和未来的挑战条款概述与英语和其他语言的工作相比,阿拉伯语自然语言处理(NLP)仍处于初级阶段。NLP是由许多学科的合作,包括计算机科学,语言学,数学,心理学和人工智能。其结果对机器翻译、信息检索、信息抽取、文本摘要和问题表示等应用都有很大的意义。这期《沙特国王大学学报-计算机与信息科学(CIS)》特刊综合了阿拉伯语NLP领域的当前研究。共收到56份意见书,其中11份最终被接纳为这期特刊。每一篇被录取的论文都经过三轮评审,每轮有两到三名评审员。这本特刊的内容涵盖不同的主题,如:方言阿拉伯语形态,阿拉伯语语料库,音译,注释,话语关系,情感词汇,阿拉伯命名实体,阿拉伯语树库,文本摘要,本体关系和作者归属。以下是本期主要文章Nizar Habash等人的“arTenTen:Arabic Corpus and WordSketches”展示了一个网络抓取的阿拉伯语语料库,于2012年收集。arTenTen包含58亿个单词。它的一部分已经用MADA 工具进行了词元化和POS 标记,然后被加载到Sketch Engine(一个领先的语料库查询工具)中,在那里它对所有人开放使用。我们还创建了“单词草图”:一页纸的、自动的、语料库派生的单词语法和搭配规则的摘要。我们展示,与例子,语料库可以告诉我们关于阿拉伯语单词和短语,以及如何支持词典编纂和通知语言学研究。本文还详细介绍了沙特国王大学负责同行审查制作和主办:Elsevier语料库,并认为在阿拉伯语的进一步研究语料库的作用。亚当:由Wael Salloum和Nizar Habash编写的“阿拉伯方言 形 态 分 析 仪” 提 出 了 ADAM ( 阿 拉 伯 方 言 形 态 分析仪),这是一个穷人的解决方案,可以快速开发阿拉伯方言形态分析仪。ADAM具有最先进的MSA分析器的大约一半的词汇外率,并且在其召回率方面与埃及方言形态分析器相当,该分析器花费了数年时间和昂贵的资源来构建。Yuval Marton和Imed Zito的“Transliteration Normalizationfor Information Extraction and Machine Translation”-使用统计机器翻译方法识别和聚类名称拼写变体:单词对齐。变体通过与另一种语言(机器翻译设置中的源语言)中的相同“pivot”名称对齐来识别。基于词到词的翻译和音译概率,以及字符串编辑距离度量,具有相似拼写的目标语言名称被聚类。然后,它们被规范化为规范形式。通过这种方法,从阿拉伯语和英语(两种语言)的句子对齐双语语料库中提取了数万个高精度的姓名音译拼写变体。当这些规范化的名称拼写变体应用于信息提取任务时,观察到强基线系统的改进。当应用于机器翻译任务时,显示出很大的改进潜力Alghamdi等人提出的“Arabic Web Pages Clustering andAnnotation Using Semantic Class Questions”提出了一种系统,该系统借助Web内容挖掘技术来检索机器可理解的数据,以检测这些数据中的隐藏知识。他们提出了一种方法来实现聚类与语义相似性。该方法包括将k-means文档聚类与语义特征提取和文档矢量化相结合,以便根据语义相似性对阿拉伯语网页进行分组,然后显示语义注释。文档矢量化有助于将文本文档转换为语义类概率分布或语义类密度。为了达到语义相似性,该方法提取的语义类特征,并将它们集成到相似性加权模式。对聚类结果的质量进行了评价http://dx.doi.org/10.1016/j.jksuci.2014.10.0011319-1578? 2014制作和主办Elsevier B. V.代表沙特国王大学这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。356篇社论使用纯度和平均聚类内距离(MICD)评估措施。他们还评价了一套共同阿拉伯文新闻网页的拟议办法。‘‘Learning他们使用的是Dis- course Arabic Treebank语料库(D-ATB),该语料库由从句法注释的Arabic Treebankv3.2 part 3中提取的报纸文档组成,其中每个文档都根据分段话语表征理论(SDRT)的认知原则与完整的话语图相关联他们的话语关系列表由24个关系组成的三级层次结构组成,分为4个顶级类。为了自动学习它们,他们使用了最先进的功能,这些功能的有效性已被经验证明。他们调查了每个特征对学习过程的贡献。然后,他们报告了他们在识别细粒度话语关系、中级类和顶级类方面的实验。最后,他们将他们的方法与基于最频繁关系、话语连接和Al-Saif和Markert使用的特征的三条基线进行了比较。所获得的结果非常令人鼓舞,并且优于所有基线,F分数为78.1%,准确率为80.6%。‘‘Building an Arabic Sentiment Lexicon Using从一个小的积极和消极单词的种子列表开始,他们使用半监督学习通过利用同义词集关系来提高阿拉伯语WordNet上的分数他们的算法为阿拉伯语WordNet中超过800个单词分配了积极情感得分,超过600个单词分配了消极得分,超过6000个单词分配了中性得分该词典通过将其纳入基于机器学习的分类器进行评估实验在几个阿拉伯语句子语料库上进行,分类准确率达到96%‘‘A hybrid method for extracting relations between Arabicnamed 提出了一种混合的方法来提取阿拉伯命名实体之间的关系鉴于阿拉伯语是一种形态丰富的语言,他们建立了语言学和学习模型来预测表达语义关系的单词在从句中的位置其主要思想是采用语言模块,以改善从基于机器学习的方法获得的结果。他们的实验结果表明,当应用于AnerCorp语料库时,混合方法优于基于规则和基于ML的方法。El-taher 等 人 的 “AnArabicCCGApproachforDetermining Constituent Types from Arabic Treebank”描述了树库所需的预处理步骤以及如何确定阿拉伯语成分的类型。他们对Penn Arabic Treebank的第1部分和第2部分进行了一项实验,旨在将Treebank转换为阿拉伯语CCGbank。该算法在ATB1v2.0和ATB2v2.0上的性能达到了99%的头节点识别率“最小冗余度和最大相关性的单一和多文档阿拉伯语文本提出了一种新的阿拉伯语文本统计文摘系统他们的系统使用了聚类算法和适应性判别分析方法:mRMR(最小冗余和最大相关性)来对术语进行评分。通过mRMR分析,根据其判别力和覆盖力对术语进行排名。其次,他们提出了一个一种新的句子抽取算法,选择具有最高排名和最大多样性的句子他们的系统使用了最少的语言依赖处理:句子分割,标记化和根提取。在EASC和TAC 2011 MultiLingual数据集上的实验结果表明,他们提出的方法与最先进的系统相比具有竞争力Mohammed Al-Zamil和Qasem Al-Radaideh的“从阿拉伯语文本中自动提取本体关系他们的研究目标是:提取阿拉伯语文本的语义特征,提出概念之间关系的句法模式,并提出一个提取本体关系的形式化模型。所提出的方法已被设计成根据一组特征使用阿拉伯语的词汇语义模式来分析阿拉伯语文本其次,特征已经被抽象和丰富的形式化描述的目的,概括所产生的规则。这些规则,然后制定了一个分类器,它接受阿拉伯语文本,分析它,然后显示用其指定关系标记的相关概念。此外,为了解决同音异义词的歧义他们进行了广泛的实验来衡量所提出的工具的有效性。结果表明,他们提出的方法是有前途的自动化过程的提取-本体论关系。最后,Alaa Altheneyan 和 Mohamed El Bachir Menai的“用于阿拉伯语文本作者归属的朴素贝叶斯分类器”研究了朴素贝叶斯分类器在阿拉伯语作者归属中的使用,考虑了不同的事件模型,即简单朴素贝叶斯(NB),多项朴素 贝 叶 斯 ( MNB ) , 多 变 量 Bernoulli 朴 素 贝 叶 斯(MBNB)和多变量泊松朴素贝叶斯(MPNB)。他们在从10位不同作者的书籍中提取的大型阿拉伯语数据集上评估了它们的性能,并将它们与其他现有方法进行了比较。实验结果表明,MBNB提供了最好的结果,并能够属性的作者的文本的准确率为97.43%。与相关方法的比较结果表明,MBNB和MNB是合适的作者归属。致谢没有许多人的贡献,这期特刊是不可能出版的我们要感谢我们的精英客座编辑:来自利兹大学工程学院计算学院I-AIBS人工智能和生物系统研究所教授开罗大学计算机 信 息 学 院 的 Khaled Shaalan ( 借 调 至 迪 拜 英 国 大学),以及Imed Zitouni博士-我们还要感谢作者为这期特刊提交了他们的作品,感谢所有裁判的专业知识和奉献精神,提供了宝贵的反馈和建议。亨德湾沙特阿拉伯沙特国王大学计算机和信息科学学院Al-Khalifa信息技术系
下载后可阅读完整内容,剩余1页未读,立即下载
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![tgz](https://img-home.csdnimg.cn/images/20210720083646.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![-](https://csdnimg.cn/download_wenku/file_type_lunwen.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)