没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报阿拉伯语复合名词概念Imen Bouaziz MezghanniMr.,Faiez GarbaniMIR@CL实验室,Sfax大学,突尼斯阿提奇莱因福奥文章历史记录:2016年11月6日收到2017年2月27日修订2017年3月1日接受在线提供2017年保留字:语义关系推导阿拉伯语复合名词复合结构游戏化FCARCAA B S T R A C T法律本体在法律信息的表示、处理和检索方面发挥着越来越重要的作用通过使用这些本体以概念和关系的形式建模的知识,可以对法律文档的语义内容进行推理。支持(半)自动地从文本中开发本体通常被称为从文本中进行本体学习。学习过程包括对构成本体的概念的学习和对它们之间的语义关系的学习。本文提出了一种新的阿拉伯复合名词概念间语义关系的表达方法。这项工作的独创性是双重的。首先,推断关系的技术其次,我们利用二元(结构位置)和关系属性(推导关系)描述的复合词集,采用“关系概念分析”(RCA)技术,作为“形式概念分析”(FCA)的一种改进,构造互连格,并将其转换为本体概念以及可以是分类的或横向的关系。在阿拉伯语法律数据集上进行的实验表明,该方法具有较高的查准率和查全率,达到了令人满意的效果这一性能对基于强大本体的法律文档的检索结果产生了积极的影响,这是我们的主要目标。©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着信息技术的发展和互联网的普及,大量的法律文献以电子方式传播,使得法律信息检索变得越来越复杂。如今,搜索引擎是访问Web上可用数据的主要工具。然而,大多数搜索引擎使用关键字进行文本查询和检索,这往往会导致与用户查询完全无关的命中率,搜索引擎的弱点可以通过使用*通讯作者。电子邮件地址:imen_bouaziz_miracl@yahoo.com(I.B. Mezghanni)。沙特国王大学负责同行审查制作和主办:Elsevier被认为是下一代的语义网技术实际的网络。语义网是一个本体的网络,它允许通过对该领域的相关概念进行建模来分析该领域的知识。本体使语义互操作性,涉及的信息的理解被精确地描述和机器很好地理解。因此,搜索不再基于关键字匹配,而是基于概念匹配。在这种情况下,搜索结果变得更加相关,从而提高了准确率和召回率。然而,手工构建本体是一项耗时和劳动密集型的任务。本体学习(Maedche andStaab,2004)旨在为本体生成提供自动和半自动的方法,可以克服知识获取的瓶颈。学习过程包括对构成本体的概念的学习和对它们之间的语义关系的学习。本文介绍了一种新的方法来明确阿拉伯语复合名词概念之间的语义关系。为了进一步解释拟议的办法,有必要界定以下术语:http://dx.doi.org/10.1016/j.jksuci.2017.03.0011319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comI.B. Mezghanni,F.Garbani/ Journal of King Saud University213“术语是由一个或多个词组成的词汇单位,表示域中的概念”(deBessé et al.,1997年)。“概念是一个抽象单位,它由许多具体或抽象对象的特征组成,这些对象是根据适合于某个领域的特定科学或传统标准选择的”(deBessé等人, 1997年)。‘‘A 它的语义取决于它所描述的概念的知识领域,并且不能直接从其组件的语义组成中单独推断出来”(Sag等人, 2002年)。“term = concept”的关联是错误的。事实上,一个术语可以代表许多概念。例如,术语“草稿”可以指进入封闭空间的气流,也可以指文件、计划或图纸的第一版。然而,一个概念可以由许多术语表示。因此,术语被认为是语言的单位,而概念是概念模型的元素。无论复合词是用什么样的文本和语言写成的,它们通常被认为是相关的,因为它们在名词概念的封装和表达中起着重要的作用。复合词在各种文本类型中也很常见,这使得它们的提取成为一项关键任务。在概念模型中,考虑复合概念而不考虑连接它们的预定义关系并不是很重要,因为这可能导致它们被丢弃。确定概念之间的语义关系是捕捉文本中思想的基础。此外,部分与整体、因果等关系,编码关于不同实体之间的关系的关键信息。因此,人们对这一研究领域给予了很大的关注,最近对不同的语言进行了几项工作,例如英语(Ta和Thi,2016年; Joseph等人,2016)和中国(Miao et al.,例如,Vela和Declerck(2009)在本体构建过程中解决了从复合名词中提取语义的问题。依靠基于模式的方法,化合物首先检测和分析,以建议候选本体类和关系。然后,通过一组模式对文本中的复合词进行释义检测和分析,以过滤和验证所获得的候选类和关系列表在第一步。在他们的方法中,只有名词-名词复合词被考虑在内。Kawtrakul等人(2004)基于短语组块技术,对句子进行分析并生成复合名词作为候选词,以实现泰语本体的自动构建。使用基于色谱的技术,对化合物进行分析,以将头部和改性剂彼此分离。该方法通过学习复合词中心词和修饰词的共同祖先概念,利用启发式规则和专家判断提取复合词的语义关系Sruti Rallapalli(2012)探索了识别语义关系的范围。因此,他解释复合名词使用索引语义本体结合名词相似性测量技术。这里的问题是,语义相似性仅限于作为主要信息源的本体本身。因此,需要在任何应用领域创建标准语料库。从复合名词中提取语义关系也可以基于框架语义方法(Lakhfif和Laskri,2016)。后者的基本思想是,目的、构成和代理及其实现等意义 , 可 以 被 看 作 是 一 个 广 义 的 和 词 汇 化 的 方 面 质 结 构 的 定 义Pustejovsky(1991).在这种情况下,挑战在于有能力组织关系的可能性分层一致-这是指复合词的潜在语义和识别不同但相关的关系可能性之间的含义结构的能力。然而,尽管阿拉伯语的重要性,很少有研究调查的过程中提取的阿拉伯语文本中的语义关系,由于这项任务的复杂性。这种复杂性源于阿拉伯语的独特特征,即粘合和双形化,导致了主要的形态和句法歧义。本文提出了一种结合聚类方法和规则方法优点的混合方法来处理阿拉伯语复合名词之间语义关系的推导根据复合词的不同结构定义了一 组 模 式 规 则 , 从 复 合 词 中 提 取 两 种 隐 含 关 系 ( is-a 关 系 和objectProperty关系)。为了指定产生的object-Property关系,我们采用介词来描述通过游戏化机制存在于复合词中的隐藏关系。游戏化是指“在非游戏环境中使用游戏特有的设计元素”(Deterding etal.,2011年)。随后由专家进行验证步骤,以验证所选关系的准确性和所提出规则的可靠性。本文介绍了本体构建的一部分,其目标是支持法律文档的检索,其中我们专注于概念出现在文档中的结构位置。该位置通过参考文件的在法律代码中,我们考虑了一个结构位置,即概念所属的条款编号(Mezghanni和Garnovi,2015)。因此,一个概念是由它所写的例如,概念第10条和第11条对调查法官的职责作了规定。本体概念连同其相关联的位置通过FCA的关联矩阵来定义(Ganter和Wille,1997; Ganter等人,2005),这是一种用于数据分析的图解方法,提供了用于推导被称为“概念格”的概念层次结构的严格框架。为了处理概念(这个概念(调查法官)是一个(法官)),我们依靠RCA(Huchard等人,2007年,2003年)作为FCA的扩展,包括进一步的关系结构。实际上,RCA除了考虑对象的特性(提供有关系的对象-属性数据换句话说,对象由属性及其与其他对象的关系来描述RCA包括使用关系数据迭代地应用FCA算法在给定步骤中发现的概念沿着关系传播,导致在下一次迭代中发现新概念。本文的其余部分组织如下:第2节讨论了最近的作品在阿拉伯语文本的语义关系提取领域。然后,我们回顾了第三节中本体论的基本概念,FCA和RCA。所采用的方法见第4节。第5节显示了第6节中评价的实验和所得结果。文章最后给出了结论和未来的研究方向2. 相关工作在文献中,进行了几项研究,以调查在不同的应用程序中的阿拉伯语本体学习的过程。这些本体属于不同的领域,并以不同的方式构建。Mezghanni和Garnagi(2015)提出的调查总结了最近从阿拉伯语文本资源中进行本体学习的作品。●●●214I.B. Mezghanni,F.Garbani/ Journal of King Saud University此外,关系的自动提取无论是本体论的还是非本体论的,都吸引了许多不同语言如英语的研究人员(Xiang et al.,2016; Devisree等人,2016年)。然而,很少有人注意到阿拉伯语。在一般情况下,这些工作基本上可以分为四个主要类别:基于规则的方法,基于聚类的方法,基于机器学习的方法和混合方法。2.1. 基于规则的方法这些方法是基于嵌入所有潜在相关的语言序列的模式,通常以正则表达式或有限状态转换器的形式实现。Sadek和Meziane(2016)基于模式识别器模型提取了阿拉伯语文本中明确表达该模型包含了一组约700种语言模式,可以区分代表原因和结果的句子部分模式生成的基础上不同的句法特征集,通过分析一个大型的无标签的阿拉伯语语料库。尽管这样的方法对于受限的领域是非常有趣的并且具有良好的分析质量,但是它们不能很好地执行,特别是手动手工制作模式的过程在时间和精力方面太昂贵。因此,通过应用这些方法,很难处理大量数据。2.2. 基于知识的方法在基于聚类的方法中,实体对的每个聚类两个实体之间的关系是由它们的上下文来定义的,上下文包括一组特征,这些特征从实体语义信息到所有实体共现中的词汇和句法特征这些上下文特征可以表示实体对之间的关系。因此,用于描述实体之间的关系的标签是从聚类过程的结果中提取的。例如,FCA是一种流行的概念聚类方法,用于层次关系提取。事实上,这种技术尚未应用于阿拉伯文本。为了完全自动化关系提取任务,一些研究采用了机器学习方法,包括无监督,半监督和监督技术。2.3. 机器学习方法在无监督方法中,一种常见的方法是建立表达相同关系的模式簇并将其泛化。然而,由于关系模式的语义表示和对大数据的可扩展性,它具有挑战性为了获得一组可靠的模式(Takase等人,2015年)。尽管这些方法可以处理非常大量的数据,但是将结果关系映射到本体是相当困难的。据我们所知,没有工作处理阿拉伯关系提取使用无监督技术。为了克服无监督方法遇到的问题,最近的研究依赖于半监督技术或自举方法,这些方法只需要一小组种子而不是训练集。这些种子可以被描述为语言模式的样本或一些目标关系实例,以获得更多的基础知识,直到以迭代的方式找到所有的目标关系。自举方法的缺点很大程度上取决于所选择的初始种子必须准确地反映语料库中呈现的否则,提取物的质量可能较低。因此,即使这些方法的结果是非常有前途的,它们遭受由不正确的或太普遍使用的图案引起由于半监督方法需要多次迭代,因此这些方法容易出现语义漂移(例如不必要的含义偏移)。 这意味着这些方法需要一定量的人工努力来最初创建种子,并帮助保持系统“在轨道上”,以防止它们发生语义漂移(Augenstein等人, 2014年)。事实上,Al-Yahya et al. (2016)在开发“Badea系统”时遇到了这个问题,该系统旨在半自动丰富本体词典。他们使用了一种基于模式的方法,使用由一小部分反义词对组成的种子本体,从给定的语料库中提取具有反义词语义关系的单词对。然后,使用发现的对来增强本体。为了避免这个问题并提高精度分数,Al-Yahya et al. (2014)通过采用LogDice分数并基于其共现计算每个模式的分 数来扩展他们的上述工作。AlZamil和Al-Radaideh(2014)改进了Hearst算法(Hearst,1992),提出通过构建知识的词汇模式来自动检测下义词。为了克服该算法的主要缺点,即它的主要缺点在于它的大人为干预的创建模式从实际的例子,进行增强过程中,通过生成一种系统,设计用于根据一组用于提取本体关系的特征,使用词汇语义模式来分析阿拉伯语文本。但是,他们的方法的主要问题是,频繁的分类错误的检测会对所提出的技术的整体性能产生负面影响。第三种方法依赖于二元分类任务,其中使用特定语义关系的一组否定或肯定示例来训练分类器。由于它需要一个大的完全标记的语料库,在不同的领域使用这样的方法需要更多的人工努力。Boujelben等人(2014 b)提出了一个名为“RelANE”的关系提取系统,该系统发现了阿拉伯命名实体之间的语义二元关系。在他们的系统中,对于句子中的每个词,使用一组实体类型的形态、上下文和语义特征。然而,RelANE有两个主要缺点。首先,由于不正确的POS标签和命名实体的解密,许多关系没有被提取。此外,评估是在手动构建的数据集语料库上进行的,而不是其他可用的数据集,例如作为免费的ANERCorp,1商业ACE2和ALTEC。3一年后,Falih和Omar(2015)提出了一种阿拉伯语语法关系提取方法。其主要目的是用相应的语法关系(主语、宾语或谓语)标记每个阿拉伯语单词。该方法所获得的评分优于RelANE系统。然而,它的缺点也是在评估阶段,因为它是在这种情况下(Boujelben等人,2014b),因为使用了一个只有80个句子的小型手动创建的语料库,这可能会导致不公平的评价。2.4. 混合方法最近,许多研究人员试图将这些方法结合在所谓的混合方法中,以获得更好的结果。事实上,为了提高所提出的方法的性能,最好将基于模式的方法和基于机器学习的方法结合起来,而不是单独使用每种方法。1http://users.dsic.upv.es/~ybenajiba/。2http://catalog.ldc.upenn.edu/LDC2006T06。3http://www.altec-center.org/Repository_65.html。I.B. Mezghanni,F.Garbani/ Journal of King Saud University215速度。例如,仅从基于模式的算法中受益是非常困难的,因为这些算法通常需要引导或初始聚类,这可以通过机器学习方法来完成。此外,基于机器学习的方法可以与基于模式的方法相结合,以防止由于缺乏知识和缺乏精度而导致的不良结果。Boujelben等人(2014 a)采用了一种混合方法来提取阿拉伯命名实体之间的关系。作者建立了一个语言学和学习模型来预测表达语义关系的词在小句中的位置。该方法采用语言模块来改善使用基于机器学习的方法提供的结果。取得的成绩令人鼓舞。实验结果表明,当应用于同一标准测试数据集ANERCorp时,混合方法虽然它有一个有前途的perfor-mance,该过程不能提取一些词之间的关系,不接近命名实体2.5. 动机以往的研究大多只捕捉词与词之间的显性语义关系,而忽略了词与词之间的隐性语义关系,这相对影响了评价的准确性。本文提出了一种新的显式和隐式语义关系推导方法这项工作适合从应用于法律领域的阿拉伯语文本的本体论建设的背景下构建过程的第一步是通过结合基于模式的方法和学习算法的混合方法提取相关概念(简单和复合)。在本文中,我们并不像Mezghanni和Garzghani(2015)那样对概念是如何提取的真正感兴趣。然而,我们对这一过程作了简短的概述。事实上,这一步主要基于NooJ平台4,我们通过它详细阐述了三种不同类型的语法。本文建立了一种用于阿拉伯语黏着词分解的形态一个曲折/派生语法的开发,以产生不同的元音形式的字典条目,以及语法变体的同一个词。两种语法也被创造出来。第一种方法用于提取文献的逻辑结构,第二种方法用于提取所有相关的派生形式和粘合形式。该语法由19个子图组成;每个子图都包含对特定语法类别的适当处理。这些语法在语料库上的投影导致注释文档被视为学习算法的输入,该算法依赖于分类为结构、内容和语义的各种特征来保持相关概念。第二步,本文件的重点,是连接已经提取的概念的关系的与现有的关系提取方法不同,我们的方法遵循以下步骤:基于根据复合概念的内部结构定义的规则的一般关系的推断,通过游戏化机制找到最可能用于描述复合表达式的介词意义的具体关系的推断,分类以及横向(非分类)关系的表示提取使用FCA和RCA技术以前没有应用在阿拉伯语的研究。4http://www.nooj4nlp.net。3. 背景3.1. 本体论的背景在人工智能中,根据Tom Gruber的说法,本体是“根据这个定义,本体是一组精确指定的概念和关系,用于创建一个商定的词汇表和语义结构,用于交换有关该领域的信息。概念表示领域内的一组或一类实体描述概念之间相互作用的关系可以分为两大类:分类关系和非分类关系。前者将概念组织成层次树结构,例如通常称为“是一种”关系的专门化关系然而,后者将概念跨树结构联系起来,如方位(空间和时间)和使役关系。本体在现代知识系统中扮演着越来越重要的角色,因为它们构成了支持自然语言处理、信息检索和文本挖掘本体学习已经在文献中得到了广泛的研究,因此基于不同的标准,如自动化程度和输入知识资源的类型,根据上一条标准,对非结构化数据(如文本文档、半结构化数据、网页和词典)以及结构化数据(如面向对象数据或知识模型)进行了几项研究(Kumova,2015)。由于不同领域文本的可访问性和可用性,从非结构化文本中进行本体学习是最普遍的过程此外,文本是稳定和共享知识的良好载体我们举例说明了从文本中进行本体学习的过程,这些文本通常按照不同的步骤进行分解,并基于Mezghanni和Garzghani(2014)中学到的本体元素。3.2. FCA/RCA背景FCA是一种数学理论,用于识别具有共同属性的所有可能的分组。如图1所示,FCA的主要概念是形式上下文、形式概念和概念格。一个三元组= O,A,R是一个(形式)上下文,如果● O是一组对象;● A是一组属性,● R是一个二元关系(OxA),称为形式背景通常由交叉表(或关联矩阵)描述,其中行和列分别表示背景的对象和属性。在g行的m列中的叉表示R =没有十字意味着R =表1中示出了表示由4个属性描述的5个对象的形式上下文的这样的表的示例。因此,在该表中,对象o5具有属性a1,但它不具有属性a2。从形式背景中,我们计算出描述为一对C = E,I的形式概念,其中E是共享公共属性I(称为意图)的对象(称为范围)的最大集合。表2中的红细胞的整个集合表示形式概念C6(E1,I1)=(o1,o2,o3,o4,a3,a4)。值得注意的是,还有更多的形式概念。●●●216I.B. Mezghanni,F.Garbani/ Journal of King Saud UniversityÞ表1Fig. 1. FCA的基本要素。(范围和意图)(Bouhriz等人, 2015年)。图2中描绘了使用Galicia平台5设计的对应概念格L(CK),其中我们可以看到上述概念C6。RCA(Huchard等人, 2007)是FCA的一个扩展,是一种从二元和关系属性描述的数据集中提取形式概念,对这些链接进行建模,然后推断语义类似于本体中角色的形式概念之间的关系的原始方法。RCA通过关系上下文族(RCF)来表示,关系上下文族涉及描述不同类别的实体及其之间关系的上下文集合。如 Mezghanni 和 Garzani ( 2014 )正式描述的, RCF 是一对(K,R),其中K是一组形式(对象-属性)上下文Ki=(Oi;Ai;Ii),R是一组关系(对象-对象)上下文rij=OixOj,其中Oi(rij的域)和Oj(rij的范围)是描述正式上下文的交叉表。RA1A2A3A4O1XXXXO2XXXO3XXX氧4氧5XXXX表2一个正式的概念C6。R a1 a2 a3 a4o 1 X X氧气X氧三X氧4 Xo5 X图二. 概念格L(CK.从所有概念的集合出发,我们可以在一个称为概念格或伽罗瓦格L(CK)的完备格结构中导出一个概念层次,以说明群之间的层次关系分别是上下文Ki和KjRCF在迭代过程中用于在每一步产生一组概念格。首先,概念格的构建完全基于形式背景。在基于缩放机制的后续步骤中,对象之间的所有链接都被转换为传统的FCA属性。一个集合的格,其概念是由关系,推导。重复这些步骤,直到达到格的稳定性,不再产生新的概念RCA工艺的更多详细信息见第5节。4. 方法我们的策略遵循一个共同的声明,表明一些语言结构可靠地传达相同类型的知识,如语义或本体关系(Aguado de Cea et al.,2009年)。事实上,我们的方法背后的主要思想是利用内部结构的化合物被认为是最有意义的实体破译语义关系。考虑到Mezghanni和Garnagi(2016)中总结的阿拉伯语特性的重要性,以及使用自然语言处理任务(在我们的情况下是概念提取)获得的语言知识的可能性,我们采用了基于规则的方法。它依赖于一个坚实的语言知识的核心,通常提供高度准确的结果。之后,应用第54.1. 一般关系解密在我们的研究中,我们主要关注具有表3所示内部结构的阿拉伯语复合名词(2-gram到5-gram)。这些结构是使用NooJ平台我们区分不同类型的化合物:形容词(),介词()、兼并()等。在本表中,N代表名词,ADJ代表形容词,ADV代表介词,PREP代表介词,PREF对应定冠词(/al)。这些例子是提供与他们的英语翻译和音译使用Xerox Morphol-ogy系统。6一个复合名词通常包含两个部分。在阿拉伯语中,第一部分是必不可少的,因为它代表了头部识别一个物体或一个人。然而,第二部分修饰或描述了所讨论的对象或人。根据第二部分的句法范畴,我们构造了一套12条规则5http://www.iro.umontreal.ca www.example.com/g~alicia/。6https://open.xerox.com/Services/arabic-morphology/Consume/形态学-校准%20分析-218I.B. Mezghanni,F.Garbani/ Journal of King Saud University217产生许多关系。应该指出的是,阿拉伯语语法规则是这些推论的背后。我们认识到两种类型的语义关系:具体和一般。前者是分层的,由表示复合物与其第二个元素之间关系的子类关系(is-a关系)表示示例:B的子类,其中A和B分别指特定实体类型和通用实体类型(即,经理子类员工)。然而,后者是横向的,并表示由一个objectProperty关系表示可能的语义联系的元素之间的复合。例如:A objectProperty B表示A和B之间存在关系。在下面的部分中,我们将展示Compound [Pattern]指定由模式元素组成的复合,Cons表示施加了约束。规则1指出,在复合词和复合词的名词N之间存在子类关系。这种关系是通过定义引导特殊--的形容词名词来推导的。名词与形容词的化关系()因为形容词名词从一般名词引出更具体的名词。例如,从化合物、我们导出关系:subClassOf(),在英语中指定公共行为是一个subClassOf行为。我们对规则添加了一个限制,以检查N是否表示来自领域语料库的概念。否则,这个推导过程就没有意思了。在上面的例子中,我们必须检查动作在我们的语料库中是否是一个概念在这种情况下,action()是一个域概念,它表示在法律术语中,我们区分之间民事诉讼()和公共行动()中选择。这一区别证实了上述规则。规则2指出,在名-名复合词中,第一个名词和复合词之间存在subClas-sOf关系。这种关系的动机是定义限定复合词,在复合词和它的第二个词名词为举例来说,从的化合物导出的translation:translation(翻译成英文意味着调查法官是法官的一个亚类。,我们),其218I.B. Mezghanni,F.Garbani/ Journal of King Saud University表3不同的词性模式用于提取复合词,并附有实例。另一方面,这个复合词表达了两个相关名词之间的附加关系。但是,这种关系在语言学上并不明确。将这一规则应用于同一化合物(调查法官),我们将有一个关系(调查法官)和(调查)之间的关系的例如表示一占有关系。但是,我们不能把这种情况视为一般情况。事实上,名名复合词并不像少女比如女孩例如从(上诉法院)我们不能说上诉拥有法院;而我们可以理解上诉是在法院进行I.B. Mezghanni,F.Garbani/ Journal of King Saud University219所有其他关于n> 2的n-gram复合词的规则都是基于(n-1)-gram的规则。220I.B. Mezghanni,F.Garbani/ Journal of King Saud University!!例如,规则4中的3-gram复合词[N1 + N2 + ADJ],如果我们将(N2 + ADJ)视为一个实体N2,则可以视为复合词[N1 + N2]。也就是说:(司法警察-官员)N2 - N1规则2。其中N2 = N + ADJ第1条.对于规则7中所示的复合词[N1 + PREP + N2],我们关注的是我们的核心中最常见的介词。脓:。此外,如果我们将(N1 + N2 + N3)视为一个实体N2,则规则10中呈现的4-gram复合词[N1 + N2 + N3 + N4]可以被视为复合词[N1 +N2]。也就是说:(人民代表大会的附着力N2-N1第2条.N2 = N + N + N!第5条.此外,本发明还的5克化合物[N1+ N2 + PREP + N3+ ADJ],如规则11所示,可视为化合物[N1+ PREP + N2],如果我们将(N1 + N2)视为一个实体N2,并且(N3+ 1、作为一个实体N1。也就是说:(粘附力-人民N2准备N1第7条.N2= N + ADJ!第1条.I.B. Mezghanni,F.Garbani/ Journal of King Saud University221为了推广这些规则,我们实现了一个Java程序,它接受一个生成的复合物列表作为输入,并接受一个结果关系列表作为输出。对于每种化合物,程序都应用相应的规则。每个推导的关系进行了验证。 如果没有推导出,它将自动添加到由此产生的关系。否则,它将被删除。4.2. 通用对象属性关系规范显然,派生的object-Property关系是非常通用的。这种关系仅仅存在是不够的,而且会导致歧义。为了充分精确它们,我们采用了数据驱动的策略来找到最有可能用于指定“objectProperty(X,Y)”表达式的介词。所选介词的语义被认为是特定的关系。根据定义,介词是一个词或一组词,通常在名词或代词之前,并表达与从句中另一个词或元素的关系(Litkowski,2002)。因此,介词表达了它所涉及的成分之间的许多语义关系。本文的任务是充分说明构成复合名词的名词之间的一般认知关系。我们使用表4中总结的介词所表达的关系来完成这项任务。在这种情况下,我们开发了一个简单的用户界面,称为参与者被要求通过选择最合适的介词来投票,这些介词可以加入复合词的成分。为了使投票更容易,我们为每个介词的使用给出了例子,这也有助于我们非常具体和精确,如图所示。3.第三章。的确,没有选择意味着没有选择能够表达关系的意义我们采用这种策略,因为它非常简单,直接和有用,特别是没有语言训练。一旦收集了判断,我们就得到了一个二进制矩阵,行中是化合物,列中是R1到R12基于这个矩阵,玩家之间的协议得分,定义为类似的判断的数量,计算。出于这个原因,考虑出现更频繁的对当出现平局时,将任意选择其中一对。最后,5. 实验结果正如我们前面所指出的,这项工作是从文本中构建本体的过程的一部分。该文集包括从突尼斯官方门户网站收集的《刑事诉讼法》的50条和最高上诉法院的20项刑法裁决。[7]在本文中,我们考虑立法文件我们还将文章作为叶子标签(没有子节点的节点为了深入解释实验,随后的步骤在图1中图示。 四、因此,我们在这个实验中重点关注以下两个最重要的使用人票猜测机制的关系推导,在考虑第一点所提供的结果的基础上,实现FCA/RCA技术表4介词语义学7www.e-justice.tn●●222I.B. Mezghanni,F.Garbani/ Journal of King Saud University图三. GUESS接口。见图4。 语义关系提取过程。5.1. GUESS解释我们实验该方法的不同化合物的数量为56。30名参与者从12个介词的不同语义中选择一个,并举例说明。Ri的分布见表5,其中第二列显示总次数,给定的Ri是玩家亲手挑选的。对结果的分析揭示了不同的解释。出乎意料的是,所有的介词都被选中了。一方面,有41种不同的化合物(73%)在不同的玩家中获得了一致的投票。这主要可以解释为:I.B. Mezghanni,F.Garbani/ Journal of King Saud University223表5通过猜测选择RiRiPickedR146R210R365R477R530R646R712R8298R951R1007R1133R1211最高分用于选择具有位置意义的普通介词,因为它是在以下情况中:(判断调查),(共和国检察官),(警察局)。这种观点的广泛趋同显示了使用介词语义来揭示关系的优势以及在GUESS中具体化给定选择的效果。我们认为这项协议令人鼓舞。另一方面,也有一些复合词有一个以上的介词。似乎准确的是,(committal to prison)都表示空间关系,而且两个介词都可能是正确的。此外,很明显,并非所有介词的使用频率都相同。最不常用的介词是。所有的答案都放在一起,然后介绍给两名语言和法律领域的专家评估员。的作用然后,语言学家和律师将验证并准确地验证所选关系的准确性。语言学家和领域专家之间的合作确保了技术信息的语言质量和可靠性。专家们根据他们对GUESS结果的一致性独立地分配二进制值。该协议达到84%,证实了所追求的战略的性能。在这个阶段,我们只是收集了所有非诉讼案件,我们没有决定如何解决其余的案件。5.2. FCA的实施为了使结果更具可读性和可解释性,我们只考虑了有限数量的概念,生成的关系列表已经过专家验证。然而,必须强调的是,这一结构是局部的。因此,它还必须考虑其他类型的关系。这些概念最初被建模为一个正式的上下文。对象对应于概念,而属性是概念出现的结构位置(文章标签),它对应于本文所处理的法律文献语料库的实际关系。概念的形式化由形式背景给出A=(A,B,C,D),其中A是一组概念((公共诉讼)、(调查法官)等),A是文档的一组文章标签(例如文章1、文章2等)。这意味着概念o在结构上的特点是它出现在文章a中。表6说明了形式上下文概念。在本表中,由于空间不足,我们用列中的数字表示文章编号。此外,我们用字母来代替概念。表6概念的形式背景224I.B. Mezghanni,F.Garbani/ Journal of King Saud University表8语境间关系(subClassOf)。一BCd e f g h i j k l m nabcdefghiJXXKLMXXn X图五. Lattice L(CKConcepts; 6KConcepts).图5示出了对应于由下式给出的概念KConcepts的形式上下文的概念格L(CK Concepts; 6KConcepts):表6.该格由Hasse图表示,其中节点是概念,边是通过Galicia平台的专门化/泛化的链接。5.3. RCA的实施如前所述,通过RCA建模的关系不仅是(对象x对象),而且是(属性x属性)。我们目前正在研究第一类关系,它表达了我们的多词术语概念之间的联系第二类是条文间的相互参照,这在法典中得到了高度的从上下文和上下文间关系的集合中,RCA构建了RCF。这个族是构造关系格族过程的起点,关系格族的概念通过关系连接在上述示例中,从化合物生成不同的关系。在表7中,我们给出了一个与许多概念相关的这些关系(has-a)的例子。然而,在表8中,我们提出了关系(subClassOf)。这种关系的实例称为表7显示(g)由下列各项产生:化合物(1)。这两种关系与上下文概念一起形成了我们的RCF样本:● 上下文:K概念(概念X文章)。● 相关性:(has-a)ConceptsXConcepts(subClassOf)新概念XConceptsRCA中涉及的主要步骤是基于多FCA方法,从而产生一组称为概念格族(CLF )的格图 6概述了多FCA 方法( Falih 和Omar ,2015),该方法描述了从初始RCF逐步构建固定点解决方案。这种技术的迭代逻辑在每一步生成一组概念格。它由Dolques et al. (2013年)如下:第0步:– 对来自K的上下文应用FCA以构建格。步骤>0:– 通过一种关系缩放机制将链接转换为传统的上下文属性,利用前一步的格和关系上下文– 对每个扩展的上下文应用FCA,得到新的格,其概念通过关系连接;– 当获得固定点时停止:格在两个连续步骤之间是同构的,并且保持不变的概念范围。表7语境间关系(has-a Bc d eFGHijkLmnabcdefG X高XI Xjklmn图六、 RCA方法(Huchard等人, 2011年)。I.B. Mezghanni,F.Garbani/ Journal of King Saud University225因此,在我们的示例中,第一步是根据FCA的原理从二进制构建概念格,如表6所示。在缩放(has-a)关系,对象g被链接到属于图1所示的初始格中的概念C 0和C2的范围的c。在图5中,h被链接到属于概念C0、C1和C7的范围的a,而i被链接到属于概念C0和C3的范围的d。因此,关系信息被合并到上下文的缩放版本例如,关系属性。●:C0和:C2被分配给对象g(最终网格中的C5),●:C0,并且:C1和:C7被分配给对象h(最终晶格中的C13),●:C0和:C3被分配给对象i(最终晶格中的C14)。这种合并导致对象之间共享额外的属性通过将新属性分解为概念意图,对象链接被提升到概念级别,这产生了概念之间的关系,并使图11所示的最终网格中所示的扩展合理化。7.第一次会议。同样的过程也适用于( subClassOf)关系,其中f链接到b,j链接到f,k链接到d,l链接到c,n链接到a,这导致创建新属性:C0,:C1,:C2,:C3,:C4,:C7。概念C10代表属于同一条款10和11的概念h、i、l、m和n。在最后的格子中:● C10 分 为 C11 和 C15 , 以 考 虑 两 个 关 系 ( has-a ) 和(subClassOf)。● C11被关系属性C0丰富,这基本上意味着这些概念也与其他概念相关● C15由关系属性C0丰富,基本上意味着这些概念也与其他概念有关6. 评价和讨论与文献中提出的作品不同(Al-Yahya等人,2016;Al Zamil和Al-Radaideh,2014)为了评估我们的方法,我们将RCA构建体翻译为相应的将目标本体与我们实验室内本体领域的研究人员手动创建的手工制作的本体进行比较。6.1. 本体推导最终的格可以被认为是知识模型,我们可以从该知识模型构建本体(Bendaoud等人,2008; Bendaoud等人, 2007年)。为了表示格的形式概念,我们必须选择基于描述逻辑(DL)形式主义的知识表示语言。所考虑的目标 DL 是 LFE 。 这种形式主义包括构造器T (顶部
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功