没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报阿拉伯语自然语言处理:模型、系统与应用目前,语言技术对数以百万计的人来说是一种工具,他们每天都在使用它们,但几乎没有意识到它们的存在和作用。流行的机器翻译系统或网络搜索引擎越来越依赖于使用语言技术的批处理工具自动覆盖的语言信息水平。这一发展不仅对我们的日常生活产生了巨大的影响,而且也深刻地影响了我们将语言视为科学探究对象的方式。JKSU目前的特刊旨在探索计算语言模型对更好地理解阿拉伯语言和文化的语言学、心理语言学、社会语言学和文学问题的贡献。这里提供的广泛的贡献,从文本变音到阿拉伯语词汇组织的心理计算建模,见证了该领域的成熟,并强调了我们可以从目前的阿拉伯语自然语言处理研究中学到的一些一般性经验教训。语言的计算模型主要是语言使用的模型。他们专注于语言表现的那些方面,涉及但不限于语言习得,词汇访问,语音和光学字符识别,文本翻译,文本阅读,文本理解,知识和本体提取,情感分析。所有这些任务的共同之处在于,它们都将语言作为传达信息的手段,以满足特定的交际需求和目标。处理语言表现最终需要把语言的多样性和主观性带到主体间的不变性中,带到其内容和结构的共同表征中。从这个角度来看,情感的暗示、风格的变化、速度、音高、笔迹、话题或方言都是额外的信号复杂化,但这些都与语言表现密不可分。反思一下,在真正的基于语言的交流中,噪音并不是简单地覆盖在信息上,而是信息的一部分。当听到说话者的声音或阅读文本时,人们可以从演讲者/作者的性别、年龄、身体特征、文化水平、社会地位、个人态度、政治偏见甚至种族等方面获得大量信息阿拉伯语处理恰好将所有这些与性能相关的方面都抛到了突出的位置。第一个,显著的变化水平已经可以在拼写中找到,在那里未被指定(即。(非变音)书面文字适用于各种各样的语言。沙特国王大学负责同行审查完整拼写形式的集合与许多语言相反,在这些语言中,将拼写解码成声音的过程通常先于文本理解,在阿拉伯语中,如果没有事先的理解,几乎就没有阅读这对高度资源化语言的接收语言处理架构提出了新的挑战,其中从词法(词级)到同义词(短语级)和语义的语言分析的级别以严格的串行方式被经典地处理,其中一个级别馈送下一个级别。在阿拉伯语中,这种方法是无可救药的不准确和低效,由于三个因素的独特组合:未指定的拼写,丰富的屈折变化和富有成效的派生。因此,毫不奇怪,阿拉伯语自然语言处理的相当大的努力目前集中在适当的处理形态处理,并评估其对语言分析的进一步水平的影响本卷所载的捐款也不例外。在“AlKhalil Morpho Sys 2:A robust Arabic morpho-syntacticanalyzer”中改进涉及词汇覆盖率(百分比分析的单词),准确性(每个分析的单词的形态句法和形态词汇信息输出量),以及在某些条件下,执行时间在加工装配线的正确时间分配语言信息似乎使NLP系统更有效和鲁棒。方言的多样性为标准现代阿拉伯语的形态句法消歧增加了进一步的复杂性。‘‘Morphological首先对口语语料进行转录,并自动检测句子边界。由此产生的文本,然后分析一个通用的标准阿拉伯语形态句法分析。最后,一个基于命题规则的学习者被训练为从上一步输出的整个解决方案范围中为每个单词挑选结果与其他两个机器学习分类器,分别基于决策树和支持向量机。总体表现非常令人鼓舞,为进一步改进突尼斯语和其他阿拉伯语方言提供了一个重要的起点在AmineChennoufi和AzzeddineMazroui撰写的“Morphological , syntax anddiacritics rules for automaticdiacritization of Arabic sentences”中AlKhalil的输出经过进一步的混合处理步骤,其中基于规则的约束与统计马尔可夫模型合并http://dx.doi.org/10.1016/j.jksuci.2017.04.0041319-1578/©2017由Elsevier B. V.代表沙特国王大学制作和主办。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA2社论/沙特国王大学学报-计算机与信息科学29(2017)A1-A3与其他可比系统相比,报告的准确性提高不仅为阿拉伯语NLP技术定义了一个新的基准,而且还为阅读阿拉伯语非变音文本的任务的复杂性提供了算法评估。对系统开发中的技术改进进行评估需要一致的输入/输出表示、系统可比性和事实上的基准。这是NLP社区的一个活跃的研究问题,也是任何技术领域进步的先决条件。阿拉伯语工具的开发者越来越意识到共享基准资源、标准表示格式和既定评估实践的必要性。在“使用资源和基准工具增强阿拉伯语词干处理过程”中,Younes Jaafar和同事通过对形态分析仪的评估提出有趣的建议来处理这个问题。他们的评估方法允许系统准确性和效率的平衡评估,作为系统旨在服务的特定应用的函数。他们的建议建立了严格的实践,希望在其他领域以及其他语言中得到遵循。在 “Towards a standard part of speech tagset for the Arabiclanguage”中,Imad Zeroual及其同事提出了一种新的阿拉伯语自然语言处理的分类本体,并在原则和实验上研究了其含义。作者提出的主要观点是,阿拉伯语pos标记的语言学上合理的标记集必然会影响NLP系统的性能。事实上,更好的类别最终更容易在上下文中处理。虽然我们同意,语言特有的问题可能需要对传统的语言类别进行实质性的重新思考,而且不同的标记集可能最终会以不同的方式来划分语言概括,但应该付出更多的努力来尝试发现后置标记的基本普遍原则。最后,阿拉伯语NLP需要一个并行处理架构的想法,在这个架构中,可以调用更多层次的信息,并尽可能早地进行交互,这与语言神经生物学的最新成果是一致的,模糊了词汇资源和语法规则之间的传统界限。时间自组织地图能够学习复杂的屈折系统,如阿拉伯语的共轭,在克劳迪娅·马兹及其同事的“通过自适应记忆自组织策略进行阿拉伯语单词处理和形态学归纳”中得到了说明。基于赫布学习原理,该网络将阿拉伯语单词形式记忆为符号时间序列,并将其组织起来。作为形态学冗余度的梯度水平的函数。训练后,该图显示出对词频和结构规则性的加工敏感性,并显示出非连接形态学效应,作为聚合相关的完全存储形式之间的共激活模式。文本分类包括为文档存储库中的每个项目分配主题类别(例如,健康、经济或教育)。该任务是按内容索引和访问文档过程中的一个重要的初步步骤。在“使用余弦相似性和潜在语义索引增强阿拉伯语文本分类”中,Fawaz S. Al-Anzi和Dia AbuZeina探索了潜在语义索引的使用,这是一种将单词的含义表示为目标词通常在真实上下文中共同出现的内容词的频率分布的技术,用于文本分类。该算法不是将包含相同单词的文档分组,而是将倾向于包含语义相似单词的文档聚类在一起。作者展示了依赖“潜在”语义信息的有效性将web搜索结果(片段)聚类到有意义的主题类中也有利于浏览web,因为它提供了一个有原则的人 类 用 户 从 噪 声 中 分 辨 相 关 结 果 的 方 法 在 “Formal ConceptAnalysis for Arabic Web Search Results Clustering”中该算法基于这样的直觉,即通过查看片段碰巧共享的“概念”(名义根)的数量,可以将片段分组为自然类最相关的根被用作聚类的概念标签,聚类是分层排列的,层次结构中的每个子概念包含其上概念中的片段的子集。最终结果看起来像一个文本分类任务,重要的区别是,在这里,类节点和关系可能会随着查询词和检索到的片段的函数而变化概念信息与文本理解和信息提取的相关性首先提出了获取这些信息的问题。术语提取和语义标记是完全自动构建本体的初步步骤。Viviana Cotik及其同事的“在多语言框架中使用远程学习的阿拉伯医学实体标记”说明了机器学习驱动的医学术语标记的一个有趣应用,基于多语言医学资源和大规模训练。像阿拉伯语这样资源不足的语言可以从在线相互链接的多语种术语资源中受益匪浅,这些资源越来越多地用于英语或西班牙语等语言。在 Imen Bouaziz Mezghanni 和 Faiez Garzani 的 “Derivingontological semantic relations between Arabic compound nounsconcepts”中描述了一种基于模式的法律本体获取方法本文重点关注法律领域中的复杂名词性称谓(称为该方法基于对复杂名词的内部语言结构及其在法律文本中的位置(例如,它们碰巧出现的具体条款)的分析作者采用了形式概念分析的关系变体,即复杂名词之间的分类(ISA)关系被其名词成分之间的横向语义关系所增强(例如,警察是属于警察的官员)。通过正式的扩充分类法表示获得的知识,为法律文本检索提供了灵活查询这些知识的好处。最后但并非最不重要的是,本体论也可以帮助理解人们的态度和倾向,如Samir Tartir和Ibrahim Abdul-Nabi的“阿拉伯社交媒体中的语义情感分析”所示。在这里,为现代阿拉伯语的约旦变体开发的情感本体论通过它们所表达的情感对单词进行分类,从而为探索现代标准阿拉伯语和方言通过社交媒体传达的主观倾向提供了一把钥匙。在过去的几十年里,语言处理的计算模型已经大大改变了我们将言语交流视为科学研究对象的方式。二十世纪的语言能力作为一个有意义的积木组合系统,其形式属性的研究独立于他们在真实的交际环境中的使用,已经让位于越来越多的意识,语言是关于传达信息。用维特根斯坦的话来说,当“语言去度假”时,人们对语言几乎无法理解。这期关于阿拉伯语自然语言处理的特刊提醒我们,语言传达了大量可用的非结构化信息,对于大多数语言来说,这些信息仍然有待挖掘,并通过共享的表示结构开放访问。我们不知道需要多长时间才能规避与语言和方言特性/特质有关的相当大的挑战,以及信息的高度主观性和目标导向性社论/沙特国王大学学报演讲者/作者传达的内容我们所知道的是,任何将语言内容转换为共享的、可访问的代表的尝试都将需要高度跨学科的努力,每个专家都可以从或多或少相邻学科领域的其他科学家的见解中受益。从这个角度来看,自然语言处理的未来将在很大程度上取决于它作为一个真正的接口领域的能力,促进电气和电子工程,计算机科学,人类神经生理学,心理学,认知科学和语言学之间的融合确认本卷的原始动力来自第一届阿拉伯自然语言处理国际研讨会,于2014年秋季在得土安(摩洛哥)召开,在第三届国际IEEE信息科学与技术研讨会上,由IEEE摩洛哥分部和IEEE摩洛哥计算机通信联合分会共同赞助。感谢学术讨论会感谢主办讲习班,特别是感谢大会总主席Mohammed El Mohajir的不断支持和鼓励。我们感谢所有入选论文的作者提交他们的工作并经历了漫长的审查过程,并感谢所有裁判提供宝贵的反馈和建议。 我们还要感谢JKSU的主编-计算机和信息科学的毅力,支持和坚定的指导。意大利比萨国家研究委员会维托·皮雷利计算语言学研究所,意大利阿尔萨拉内·扎尔吉利Sidi Mohamed Ben Abdellah大学科学和技术学院,非斯,摩洛哥
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建Cadence PSpice仿真模型库教程
- VMware 10.0安装指南:步骤详解与网络、文件共享解决方案
- 中国互联网20周年必读:影响行业的100本经典书籍
- SQL Server 2000 Analysis Services的经典MDX查询示例
- VC6.0 MFC操作Excel教程:亲测Win7下的应用与保存技巧
- 使用Python NetworkX处理网络图
- 科技驱动:计算机控制技术的革新与应用
- MF-1型机器人硬件与robobasic编程详解
- ADC性能指标解析:超越位数、SNR和谐波
- 通用示波器改造为逻辑分析仪:0-1字符显示与电路设计
- C++实现TCP控制台客户端
- SOA架构下ESB在卷烟厂的信息整合与决策支持
- 三维人脸识别:技术进展与应用解析
- 单张人脸图像的眼镜边框自动去除方法
- C语言绘制图形:余弦曲线与正弦函数示例
- Matlab 文件操作入门:fopen、fclose、fprintf、fscanf 等函数使用详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功