阿拉伯命名实体关系提取及其在自然语言处理中的应用

91 浏览量更新于2024-01-14 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journal of King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com一种提取阿拉伯命名实体Ines Boujelben*，Salma Jamoussi，Abdelmajid Ben Hamadou突尼斯斯法克斯大学Miracl实验室2014年9月28日在线发布摘要关系抽取在自动文摘、问答等自然语言处理应用中是一个非常有用的任务。在本文中，我们提出了我们的混合方法来提取阿拉伯命名实体之间的关系阿拉伯语是一种丰富的形态语言，我们建立了一个语言学和学习模型来预测表达语义关系的词在小句中的位置。其主要思想是采用语言模块来改善从基于机器学习的方法中获得的结果。我们的方法取得了令人鼓舞的业绩。实证结果表明，混合方法在F分数方面优于基于规则的系统（12%）和基于机器学习的方法（9%），当应用于相同的标准测试数据集ANERCorp时，达到75.2%。2014年沙特国王大学。制作和主办：Elsevier B.V.All rights reserved.1. 介绍鉴于阿拉伯文电子文本数量巨大，我们注意到，没有任何链接信息的命名实体（NE）的频率很高。这些实体的识别是构建语义分析和信息提取系统的首要任务。第二个任务包括提取实体之间的语义关系，这对更好地理解人类语言是有用的*通讯作者。电子邮件地址：Boujelben_ines@yahoo.fr（I.Boujelben），gmail.com（S.Jamoussi），本哈玛杜（benhamadou）@ isimsf.rnu.tn。Ben Hamadou）。沙特国王大学负责同行审查制作和主办：Elsevier因此，第二项任务是向自然语言处理（NLP）应用迈出的关键一步。这种类型的信息使得能够从文本的内容中发现两个实体之间的有用关系或交互的任务成为可能。这种方法已经得到了大量的关注，因为它被用于许多自然语言处理应用，如自动摘要，Web挖掘和如果我们以“塔哈·侯赛因在哪里出生”为例，预期的答案是诺拉特关系三元组是path-in（Person，Location），其中人员和位置是NE。因此，在英语、法语和汉语等多种语言中，已经进行了一些关于NE识别的研究。此外，许多NE识别系统已经建立了阿拉伯语。在文献中，已经提出了三种类型的方法，阿拉伯NE识别系统。一些提议的系统依赖于手工制作的http://dx.doi.org/10.1016/j.jksuci.2014.06.0041319-1578年< $2014年沙特国王大学。制作和主办：Elsevier B.V.All rights reserved.关键词混合方法;关系抽取;命名实体;机器学习;遗传算法;规则方法426I. Boujelben等人规则，即基于规则的方法（Mesfar，2007）和（Fehri etal.，2011年）。其他研究使用基于机器学习（ML）的方法。它们利用从注释语料库中提取的一组特征。在这种情况下，（Benajiba和Rosso，2008年）和（Abdul-Hamid和Darwidh ， 2010 年）使用了条件随机场序列标记。（Benajiba和Rosso，2008年）报告的地点、组织和人员的F- 指标分别为 90% 、 66% 和 73% 。（ Abdul-Hamid 和Darwidh ，2010 年）的F- 测量值比（Benajiba 和Rosso ，2008年）的测量值分别提高了9分和2分最后，在阿拉伯语NE 识别的一些研究中使用了混合方法。我们提到（Shaalan和Oudah，2014），他们专注于混合方法。由于他们结合了基于规则和基于ML的方法，这些作者实现了90%的F-测量。当应用于ANERCorp1标准数据集时，他们的系统在准确性方面优于阿拉伯语NER的最新技术然而，在NE关系提取任务中报告的结果不如在NE识别任务中实现的那些。对于这项任务，只有少数研究涉及阿拉伯语。我们注意到（Ben Hamadou et al.，2010a），其方法基于在语言平台NooJ内重写为本地语法的模式。他们的目的是提取人与组织之间的功能关系。此外，（Alotayq，2013）采用学习类分解器MaxEnt来提取各种NE之间的关系。据我们所知，没有研究表明，采用了一种混合的方法来发现在阿拉伯语中NE之间的关系。因此，采用这种方法来提取阿拉伯语中NE之间的关系是值得探讨的。在本文中，阿拉伯语NE之间的关系，通过开发一个混合系统，结合ML和规则为基础的方法的解释来解决。主要是，ML方法，其次是后处理基于规则的方法，试图提高ML系统的整体性能。我们的目标是预测的触发词，表达从阿拉伯语文本中的NE之间的语义关系，依赖于一组规则。首先，我们的系统是基于ML算法，使用决策树技术和Apriori算法提取规则。然后，使用遗传算法（GA）来提取和生成最重要和最有趣的规则。在应用ML方法之后，我们添加了手工制作的规则来处理无效的示例和不可见的关系。本文的其余部分组织如下：首先，我们调查以前的研究关系提取。第二部分介绍了东北民族关系的背景.然后，我们解释关系提取任务以及不同的挑战。第四部分说明了我们的混合过程的架构，在其中我们详细介绍了我们提出的方法的主要步骤。之后，我们提出了不同的实验，我们讨论了报告的结果。2. 相关研究今天，涉及NE的关系提取被视为迈向更结构化的文本意义模型的一步。已经提出了几种方法来提取语义关系1见http://www1.ccls.columbia.edu/~ybenajiba/downloads.html。之间。这些方法基本上可以分为三大类：基于规则的方法，基于ML的方法和混合方法。2.1. 基于规则的方法在第一种方法中，规则通常以正则表达式或有限状态转换器的形式实现。从在阿拉伯语中进行的研究中，我们提到（Ben Hamadou等人，2010 a）和（Boujelben et al.，这些作者从训练语料库中提取了一组语言模式。随后，他们使用特定的本地语法将这些模式重写为语言平台NooJ中的有限状态转换器。[3]这种方法通过转换器来表示语言规则（Ben Hamadou等人，2010 a）报告F-评分为70%，而（Boujelben et al.， 2012年）达到了60%的F-分数。这一结果很重要，因为（Ben Hamadou et al.，2010 a）仅限于NE对（PERS-ORG）之间的函数关系。因此，他们只专注于一个NE对，这使他们能够构建更精确和简洁的规则。相比之下，（Boujelben等人，2012）有兴趣提取五对NE之间的更多关系（PERS-1，PERS-PERS，PERS-ORG，ORG-100 和，）。为了提取这些NE对之间的关系，作者详细阐述了五个子语法。每种语法都包含每对之间的关系模式。系统在验证网元是否关联时，考虑关联触发器的性别和数量特征。由于这些NooJ语法，它们的过程使得能够提取通过出现在NE之前、之间或之后的一个或多个单词形式预测的语义关系。基于规则的方法为每个NE及其与其他NE的关系提供了重要的背景分析。然而，阿拉伯语句子的复杂性和所用表达的高度可变性使得检测NE之间的一些关系变得复杂。为了实现这一目标，需要做出切实的努力来写下发现NE之间关系的所有规则。为了克服这个手动步骤，一些研究，例如（Ezzat，2010），面向一种半自动方法，用于自动产生识别语法，用于NE之间的关系检测。这些语法表示由算法提供的一组模式。该算法依赖于概括包含相关关系的句子这些森-时态由语言学家或领域专家收集2.2. 机器学习方法为了完全自动化关系提取任务，一些研究已经面向ML方法，包括无监督，半监督和监督学习技术。无监督方法利用大量的未标记文本，并且几乎完全基于聚类2可查阅http://www.nooj4nlp.net。3NooJ本地语法通常用于描述表示有意义的单位或实体的单词序列。事实上，这些语法可以用来定位感兴趣的句法结构，例如包含某些语法单词或句法结构的句子。一种提取阿拉伯命名实体间关系的混合方法427技术和特征或上下文词之间的相似性。例如，（Hasegawa等人，2004）集中于根据介入NE之间的上下文词的相似性对NE对进行聚类。这些作者没有考虑到在NE之前和之后的上下文词。然而，这两种语境可以为发现网元之间的语义关系提供有用的信息。此外，作者认为，其上下文是相同类型的关系。在同一背景下，（Zhang et al.，2005）计算两个解析树之间的相似性，使用层次聚类模型对它们进行聚类。对每个得到的簇进行标记，丢弃NE对数目在预定阈值以下的坏簇。在这些研究中，作者报告了90%的准确率和84%的召回率。此外，（Hassan和Emam，2006年）仅依赖于冗余来选择用于提取信息的信息模式。这种方法需要高频率的NE对被有效地构造，这对于在运行文本中定义为了解决无监督学习方法的问题，一些研究已经转向半监督学习方法或自举方法。这种方法依赖于一小部分初始种子。可以使用语言模式的样本或一些目标关系实例来获取更多的基本关系，直到发现所有的目标关系，例如在（Zhou et al.， 2009）和（Zhang，2004）。ML技术下的最后一种方法是监督方法，它依赖于完全标记的语料库。这种方法将关系提取视为一项分类任务。在最常用的监督技术中，我们提到支持向量机（SVM），条件随机场（CRF），决策树和最大熵（MaxEnt）。最近，Alotayq（2013）尝试提取阿拉伯语NE之间的关系，他使用了基于MaxEnt的分类器。该系统仅基于词法和词性信息，在ACE4语料库上取得了令人满意的结果。其他研究是基于监督技术的组合。事实上，（Celli，2009）已经结合了两种监督技术，即简单决策树和PART决策列表算法，以提取NE之间的三种语义关系（角色，社交和位置）。这些作者仅依赖于两个实体之前和之间的上下文的POS，而不考虑NE之后的上下文。当应用于I-CAB5数据时，他们报告的F-评分为81.2%。最后，其他一些研究已经基于关联技术从文本数据中发现模式。基于由句法分析生成的依赖图，（ Kramdi 等人， 2009 ）采用了由（Ciravegna和Wilks，2003）提出的学习模式算法LP 2来生成注释规则。他们获得了50%的F-分数。通过这种方法产生的所得图案通常具有低精度。采用学习规则方法的另一项研究由（Boujelben等人，这些作者试图使用关联规则算法Apriori（Agrawal等人，4 http://www.ldc.upenn.edu/projects/ACE/网站。5意大利内容注释库：一个意大利语语料库，由525个新闻文件组成，来自一家名为“LAdige”的当地报纸1993年）。这个挖掘规则模型旨在从数据库中找到满足最小支持度和最小置信度值的所有规则（见5.2节）。为了覆盖训练数据集的更多实例，他们进一步使用了决策树技术C4.5（Quinlan，1993）。虽然他们结合了这两种挖掘技术，但他们增加了四个选择级别，包括过滤和丰富所获得的规则，以提取更有趣的规则，并且他们获得了较低的召回率。作为继续，（Boujelben等人，2013a）提出了一个遗传过程，目的是提取最佳规则集。这些规则要么由学习方法提供，要么由遗传算子（如交叉和变异）产生（见5.2节）。有监督关系网元系统的主要优点是可以应用于其他领域和语言。此外，在有足够的数据库的情况下，它们的更新以最少的时间和精力进行。2.3. 混合方法上述两类方法可以结合起来，以获得混合方法。最近，研究已经面向混合方法的使用，因为这样的方法实现了比单独的基于规则的方法或基于ML的方法更好的增强的性能。已经进行了一些研究，一个特定的领域，如生物医学领域。作为示例，（ Ben Abacha 和 Zweigenbaum ，2011）提出了一种混合方法来提取疾病和治疗之间的关系。这些作者将监督学习方法与基于规则的技术相结合。对于语言学方法，从训练语料库和其他MEDLINE6语料库手动构建一组模式;在该组中，权重与每个模式相关联。该权重用于在混合方法中的多个提取候选者的情况下选择更方便的模式。对于ML方法，作者研究了SVM分类器，使用词汇，形态语法和语义特征。这种混合方法的结果显示了对ML和模式为基础的方法的增强。最近，（A。Kadir和Bokharaeian，2013）结合了三种方法，即共现法、基于规则的方法和核方法，以提取生物医学领域中的简单和复杂关系。作者使用基于核的算法将数据映射到高维特征空间。此外，它们依赖于文本中两个NE一起使用混合方法所取得的研究是在英语和一些欧洲语言中进行的。然而，没有以阿拉伯语编写的研究报告。从这些方法的主要思想的启发，我们提出了我们的新的过程，这是基于混合的方法，旨在检测阿拉伯语NEs之间的关系。我们的方法是不同的混合提出的方法，因为我们没有利用整个基于规则的方法。我们只添加了一些手工制作的规则或语言约束到ML技术为两个主要目标生成的规则中。我们通过添加一些语法约束来排除模糊和不明确的关系，来处理所提出的ML模型产生的安静实例或噪声。此外，我们计划提高系统输出的质量和准确性。用时间表达式和4个命名实体类型（人，组织、位置和地缘政治实体）。6http://mbr.nlm.nih.gov/Download/。428I. Boujelben等人3. 阿拉伯命名实体关系挑战相对于英语或一些欧洲语言的重要成就，阿拉伯语关系发现的研究进展相对有限。这一限制可能是由于阿拉伯语的性质以及缺乏可用的语言资源。事实上，可及语料库没有用NE注释，并且关系不包括足够数量的注释示例可用于学习方法。阿拉伯语是一种闪米特语言，存在有趣的形态学和正字法挑战，可能会使NE之间关系的提取复杂化。除了与阿拉伯NE识别有关的问题之外（Ben Hamadou等人，2010b），并引用在（Abdul-Hamid and Darwidh，2010）和（Mesfar，2007）中，关系提取任务提出了一些具体的挑战。这些挑战中的一些列在（Ben Hamadou et al.，2010年a）。我们提出了进一步的目标，总结在表1中。应该考虑上面列出的挑战，以实现用于提取NE内的关系的有效系统4. 背景首先，NE关系提取被认为是（MUC-6）中的信息提取任务。7然后，在（MUC-7）中提出了仅基于三个关系的模板关系任务。随后，自动内容提取（ACE）引入了关系提取作为关系检测和表征任务（RDC）。在这项任务中，提出了五种一般关系类型，共产生24种类型/子类型的关系。在我们的例子中，关系被定义为作为网元之间的语义交互与一些先前的研究认为关系可以通过动词来识别是理所当然的相反，我们假设关系可以通过具有不同词性标记的上下文词来表达。此外，网元之间的关系既可以通过上下文中的词直接引入，也可以通过上下文或句子的挖掘隐含地表达。此外，与先前的研究如（Zelenkoet al.，2003）和（Hasegawa等人，2004），其仅占NE之间的单词，阿拉伯语关系可以在第一个NE之前、NE之间或第二个NE之后被检测到。例如，考虑以下情况：Hmd HlmyAlYAlsEwdyp. 艾哈迈德·赫尔米前往沙特阿拉伯。在这里，关系由位于两个NE之间的第一个单词中的动词"/traveled“给出‘‘这个短语可以改写为（一）/艾哈迈德海尔米想要去沙特阿拉伯旅行），在这里，关系可以是通过名词"/travel“来预测在第一个NE之后的第二个单词中。的相同例如可以被重写作为的以下子句：（/End*hAb>Hmd Hlmy lY AlsEwdyp，AltqY bSdyqh/当他旅行到沙特阿拉伯时，Ahmed Helmi遇到了他的朋友）。因此，关系可以采取各种类别和位置，句子中的单词。另一方面，阿拉伯语NE之间的语义关系太多，无法解释。出于这些原因，我们决定首先通过提取它们在给定句子中的相应位置来提取关系词或触发词。我们的目标是预测哪个词定义自动识别的NE之间的语义关系。对于我们的案例，我们专注于提取二元关系，并且通过句子中的单词预测关系。例如，在匹兹堡的塔·侯赛因（TahHussein ）和沙特阿拉伯的艾哈迈德 · 赫尔米（ AhmedHelmi）。我们的方法的主要目标是提供丰富的阿拉伯语文本的语义注释。因此，除了每个词的形态句法注释和Arabic NE的语义注释之外，我们计划识别句子中的触发词，这些触发词可以预测句子中涉及给定NE对的语义关系。5. 该方法虽然最近的关系提取的研究集中在语义关系类发生在一个句子，我们的主要目标是提取的词，表达NE之间的语义关系的位置。为了提高ML方法的整体性能，我们将ML方法与基于GA的规则自动提取算法和一些语言模块相结合所提出的混合方法的动机是由阿拉伯语的特殊性。为了我们的方法的简单性和清晰性，我们限制我们的讨论，两个NE（PERS，ORG和ORG）之间的二元关系。所提出的方法如下图所示图1显示了我们的方法第一级涉及产生训练数据集的预处理步骤。第二个层次涉及规则挖掘过程，在这个过程中，我们将学习算法应用于训练数据。这些规则表示GA的初始种群，用于提取最佳规则集。之后，在第三层，我们引入了进一步的语言模型，这些语言模型被呈现为手工制作的规则和语言约束，这些语言约束将用从GA生成的规则来处理，以提高捕获的关系触发器的一致性和准确性。5.1. 第一层：构建训练数据很少有公开的注释语料库包含所需信息，特别是阿拉伯语。事实上，许多可用的语料库既没有用NE注释，也没有包括足够数量的相关NE。这种阿拉伯语言资源的缺乏使得ML技术，特别是监督模型，难以使用。据我们所知，唯一有阿拉伯语关系的注释语料库是ACE语料库。8然而，这一语料库尚未提供。因此，我们使用阿拉伯语的可用工具来构建和注释我们自己的语料库。我们从不同的资源中构建了我们的语料库，以获得具有代表性的7第六次信息理解会议。8http://projects.ldc.upenn.edu/ace/。一种提取阿拉伯命名实体间关系的混合方法429表1阿拉伯国家之间的东北关系的挑战。一a本文中的所有例子都是阿拉伯文的，并附有英文译文和使用Buckwalter1.1的音译430I. Boujelben等人第1级：构建训练数据条款分割器NE识别器形态句法分析器<每秒V V PREPPERSLOCPREPLOC标记子句<每秒钟however，.NPVP语料库子句语言模块：数据集的划分。提取特征NPVP级别2：生成有趣的规则训练数据集一代没AprioriC4.5测是最佳种群级别3：添加语言模块+构建NooJ语法。为负关系5. 更换生成的规则1. 初始化2.Selection最终规则4. 突变3. 交叉图1我们的混合方法的架构一些例子。我们的训练语料库是从各种来源的阿拉伯语电子报纸，如9.语料库由1465篇文本、5930段段落、17702句句子、90105个词、9760个网元(2200 2430 ORG和1843 PERS，其他类别为3287）。作为第一步，我们只提取包含至少两个NE的句子，因为我们的目标是发现它们之间的二元关系。因此，我们利用了（Mesfar，2007）详细阐述的NE识别的阿拉伯语工具。本文研究了Person（PERS）、Location（location）和Patience（ORG）中的几个网元之间的可能关系。这三种类型的网元的选择是由这三种类型的重要性和高频率在两个电子文本。结果，我们获得了2450个短语。当研究这些短语时，我们观察到一些尽管在同一句子中存在但不相关的NE（参见示例[1]表1）。这样的例子可以不必要地将歧义传播到我们的关系提取任务的后续处理中。因此，通过排除这些例子来避免这个问题是合理的。事实上，阿拉伯语文本的特点是句子的长度和复杂的句法。为了缓解这个问题，（Riedel等人，2010）使用因子图来验证两个NE是否相关。在这个图中，他们为每一对创建了一个关系变量的NEs。这些实体必须在至少一句话中一起提到。对于每一对，他们创建一个关系提及9http://www.wikipedia.org/。变量，并将其连接到相应的关系变量。在我们的例子中，我们把句子分成从句。从句是由一组包含主语和谓语的词组成的。因此，一个从句也可以作为一个句子。这种提取需要阿拉伯语分句分离器以及阿拉伯语NE识别工具。我们使用由（Keskes et al.，2012年），它根据NooJ平台内的本地语法级联将阿拉伯语句子分割成子句。由于这个模块，我们可以部分地解决不相关NE的问题，并确保在一个给定的子句NE关系的存在。例如，如果我们考虑将短语拆分为子句后的example [1]（/qAl阿尔西德mAt/MrMaat说）（/>n）Alywnskw kAnt tEml ElY tEzyz wsA}l AlAElAm AlmHlyp/教科文组织旨在加强土著媒体。因为这些子句不包含两个NE，所以它们将从我们的训练数据集中排除。由这个阿拉伯语拆分器生成的结果子句包含至少两个NE，然后进行注释以提取相关特征。这些特征如表2所示。如表1所述，我们编制了三种类型的特征来描述数据集：– 在NE之前、之间和之后引入单词数量的数字特征。– 表示每个上下文中三个词我们又增加了一个一种提取阿拉伯命名实体间关系的混合方法431表2使用的功能。类型特征描述值语义NE1第一个命名实体标记PERS、ORG、ORGNE2第二个命名实体标记PERS、ORG、ORG对NE的出现顺序PERS–LOC, LOC–PERS,PERS–ORG, ORG–PERS,PERS、数字N-W-C1NE1之前的项数NumberN-W-C2网元之间的项数NumberN-W-C3NE2之后的项数Number形态句法分句结构从句结构名词性从句和动词性从句（VC）C1POS-W1-C1第一个词动词（V），名词（N），形容词（A），NE1之前限定词（DET），介词（PREP），POS-W2-C1第二个词标点符号（PONCT），阴性NE1之前助词（NEG），副词（ADV），代词POS-W3-C1第三个词的词性标记（PRON）、伪动词（PSV）和NENE1之前C2POS-W1-C2第一个词动词（V），名词（N），形容词（A），NE1之间限定词（DET），介词（PREP），POS-W2-C2第二个词标点符号（PONCT），阴性在ne助词（NEG），副词（ADV），代词POS-W3-C2第三个词的词性标记（PRON）、伪动词（PSV）和NE在neC3POS-W1-C3第一个词动词（V），名词（N），形容词（A），在第二个NE限定词（DET），介词（PREP），POS-W2-C3第二个词标点符号（PONCT），阴性在第二个NE助词（NEG），副词（ADV），代词POS-W3-C3第三个词的词性标记（PRON）、伪动词（PSV）和NE在第二个NE句法特征，即小句结构。这一特征决定了从句是动词性的还是名词性的。此功能的实用性将在评估部分进行说明。– 语义特征，包括名词的语义类型和名词对的类型在通过阿拉伯语NE识别器（Mesfar，2007）及其修订版识别所有NE 之后，我们基于不同的阿拉伯语资源（Mesfar，2006）（词典和本地语法）获得POS标签。在这里，我们添加了一个NooJ语法，将POS标签简化为12个类别，如表2所示。所有的数字，形态句法和语义特征自动提取的注释条款之间的关系除外。事实上，这种关系是由三位阿拉伯语言专家人工注释的。我们向他们提供了我们的关系提取任务的详细描述以及我们的主要目标。他们被要求用于预测哪个词可以定义子句中NE之间的语义关系。计算了注释者间的一致性，从中我们获得了 79% 的有希望的 Cohenkappa。主要的分歧来自于一些例子，其中的关系不能直接预测的话，即隐含的关系。此外，当一个句子在同一个NE对之间呈现多个关系时，会产生一些歧义。最后，一些关系是通过一个以上的词来表达的，这在我们的语言注释者之间几乎没有分歧。然后，构建数据集文件并将其转换为XML格式。因此，我们有一个半自动标记的语料库。一旦这些特征被分配，我们就可以构建我们的数据库，它以一组对（属性或特征及其相应的值）和类标签的形式呈现。我们建立了训练数据库，它由一组实例组成。每个实例呈现一组对（属性或特征及其对应的值）和一个类标签。我们称每一对（属性和它的值）为一个项集。如果一个句子或分句包含两个以上的名词，我们复制这样的句子，使其具有多个分句，这些分句仅由一个关系位置词和一对关系位置词注释的NEs。下面的例子说明了这一点我的意思是，我的意思是委内瑞拉总统乌戈·查武今天将抵达白俄罗斯。如该示例所示，存在三个不同的NE：两个锁定NE的PERS在我们的训练语料中，这句话将被重复以获得两个实例：第一个实例表示"/Hugo Chavu“和"/fnzwylA /Venezuela”之间的关系432I. Boujelben等人5.2. 第二层：自动规则提取规则被定义为一个条件语句，它可以很容易地被人类理解，也可以很容易地在数据库中用来识别一组记录。因此，我们依靠自动提取的规则来发现预测NE之间的关系的触发词。基本上，一个规则呈现了描述一组目标子句的规则表达式，这些目标子句在或多或少特定的词汇上下文中的特定位置包含阿拉伯语实体。每个规则都由一系列项集（一个特征及其对应的值）组成，这些项集必须被验证为符合方便类。让我们考虑以下规则：规则1：如果NE 1 =PERS且NE 2 = N且pos-w1-w1=V且 nb-w-C1>=1 且 pos-w1-c2=PREP 且 nb-w-c2=1 ，则class= W1 C1这个规则可以应用于第[1]和[9]条：5004003002001000关系位Hmd Hlmy AlY AlsEwdyp Alywm.也许艾哈迈德·赫尔米今天会去沙特阿拉伯。当把这个规则（规则1）应用于例子（[3]和[4]）时，我们推断一个关系位于第一个上下文的第一个词（W1C1）中。这一发现意味着单词图2每个类的引用实例数。通过 “” 表示/ 到达 “” 之间 “”/HugoChavu“和"/rwsyAAlbyDA”/Belarus“。从我们最初的语料库中，我们只获得了8345个句子(from 17702个句子），包含至少两个NE。在将这些句子分割成子句之后，我们只有3302个NE是相关的。因为我们只对类型（PERS、ORG和ORG）的NE感兴趣，所以我们至少有1200个NE（ORG）、880个NE（ORG）和1222个NE（PERS）。作为一个骗子序列，我们的数据由1651个实例组成我们在下表中列出了每个类可用的实例数。如前所述，我们的类呈现了给定子句中NE之间关系的位置。类标签由两部分组成（Wn Cm）：Wm设计单词在上下文中的位置，Cm表示上下文（如果上下文在第一个NE之前，m如果上下文在第二NE之后）。例如，示例[1]的类标签是W1C2。该标签意味着该关系通过第二上下文（C2）的第一个词（W1）来指示，该词指的是词如图2和表3所示，W1C1，W1C2，W1C2和W2C2类在我们的数据中最常见。有一些类具有少量的实例，例如W4C1和W3C3。因此，对应于这些类的少量示例不允许有效的学习驱动提取。因为这一步是基于一个从句而不是整个句子，所以我们把重点放在了最多由10个单词组成的短句上。因此，预测类被减少到六个关系位置：W1C1，W2C1，W1C2，W2C2，W3C2和W1C3。我们将效率度量与每个规则相关联，即信心和支持。置信度显示了规则头在包含规则体的所有组中出现的频率。支持度表示规则适用的实例数，而不管它是正确的还是错误的。5.2.1. 使用ML算法生成规则为了提取这样的规则，我们研究了Apriori算法（Agrawal等人，1993）来生成类关联规则。Apriori技术的目标是找到数据库中存在的满足某些最小支持度（minSup）和最小置信度（minConf）约束的所有规则。除了Apriori算法，我们还探索了决策树技术，以产生更多的异构规则。决策树C4.5 算法（Quinlan，1993）是preconized的，因为它可以匹配其他实例，这些实例没有被训练数据覆盖，也不能由Apriori提供。此外，正如一些研究所述，决策树是最强大和最流行的分类器之一（Jantan等人，2010; Tso和Yau，2007）。（Celli，2009）证明了它在提取意大利语NE之间的语义关系方面的有效性，因为当应用于I-CAB数据时，它获得了81.2%的F-分数。决策树算法选择属性以最大化类之间的分离（使用信息增益标准）。该算法生成表示为决策树的分类器。与关联规则类似，我们可以从决策树中导出规则。结果可以转换为一组规则，其形式为然后，通过运行这些学习，电子数表3每个类的实例数。关系位实例数W1C1381W2C1265W3C142W4C122W1C2414W2C2236W3C260W4C212W1C355W2C326W3C33别人24总1540一种提取阿拉伯命名实体间关系的混合方法433-如果NE 1 =PERS且NE 2 = PRED且pos-w1-c1=V且pos-w1-c2=N且pos-w2-c2=PREP，则 class= W1 C2child 1：NE 2 = 0且pos-w1-c1=V且pos-w1-c2=N且pos-w2-c2= pre然后， class= W1 C2child2： NE 1 =PERS和pos-w1-c1=V和pos-w1-c2=N和pos-w2-c2=prep然后，class= W1 C2child3： NE 1 =PERS和NE 2 = PERS和pos-w1-c2= N和pos-w2-C2=prep然后， class= W1 C2child4： NE 1 =PERS和NE 2 = PERS和pos-w1-c1=V和pos-w2-C2= pre然后， class= W1 C2child5： NE 1 =PERS且NE 2 = N且pos-w1-c2=N且 pos-w1-c1 =V则class= W1 C2R1：如果NE 1 =PERS且NE 2 = PERS且pos-w1-c1=V，则 class= W1 C1R2：如果NE 1 =ORG且 NE 2 = N且pos-w1-c1=N且pos-w1-c2=V，则class= W1 C1Child 1：如果NE 1 =PERS且NE 2 = N且pos-w1-c1=N且pos-w1-c2=V，则class= W1 C1Child 2：如果NE 1 =ORG且NE 2 = ORG且pos-w1-c1=V，则 class= W1 C1图3单点交叉算子的图示。图4变异操作符的说明。然而，这些算法的应用产生了大量的规则，这些规则在某种意义上可能是有趣的，也可能不是。因此，必须使用过滤模块来过滤这些多个规则。为了完全解决这个问题，我们试图将遗传操作应用于这些规则，以覆盖更多的实例并提高我们的过程的精度5.2.2. 使用遗传算法发现最佳规则集鉴于遗传算法（Holland，1970）已被广泛地应用于许多研究优化和ML问题，最近，许多研究已使用进化算法进行规则挖掘。受ASGARD 10 系统的启发（Rumdan等人，2002），我们采用这个过程来自动提取更有趣的规则。在我们的遗传过程中，我们使用了密歇根方法。[11]这种方法将一个单独的规则视为一个染色体或一个个体。其主要思想是通过构造新的过滤规则来逐步提高初始规则的质量，直到找到高质量的规则或没有进一步的改进记录。在（Boujelben et al.，2013年b）;可归纳为以下步骤：– 从置信度、支持度和大小方面评估群体中每条染色体的适合性。选定的规则将参与生成下一代。– 通过重复以下步骤创建新填充，直到完成新填充：Crossover操作符：我们随机选择两个具有相同类的父类。考虑到这些，我们使用经典的单点交叉：在每个交叉点中随机选择一个位置10关联规则发现的自适应稳态遗传算法。[11] GA有两种主要的方法：密歇根方法，其中一个单独的规则被作为一个个体来处理，以及匹兹堡方法，其中每个规则集被作为一个个体来处理父母，父母的两个相应部分交换形成两个孩子。该遗传算子如图所示。3 .第三章。变异算子（见图4）：根据变异概率（Pmut（R）=（1置信度（R））/10），生成一个新的后代。对于每个规则，我们移除一项（属性及其值），并保留规则的其余部分以获得派生规则。此过程适用于每个项目。然后在关系提取任务中从最具体到最一般地使用规则这两个遗传算子似乎是互补的，因为第一个算子使我们能够探索新的领域，而第二个算子通过遗传获得的规则覆盖了我们数据集的更多实例。– 更换操作员：我们将每个源规则与其后代进行比较，以满足两个主要假设：（i）每个派生规则的置信度值大于指定阈值，并且获得的支持度高于顶级规则的支持度。(ii)在在所有导出规则具有低于阈值的置信度值的情况下，我们将仅保留目标规则并消除所有导出规则。– 然后，我们将这些后代规则重新插入到初始种群中，以创建新的种群。GA运行产生的解决方案在连续的generations，直到找到有趣的规则或人口否则，将达到固定的最大代数。因此，GA生成的种群最终具有高质量的规则。为每一代生成的规则将根据置信度和支持度进行排序。如果我们有这些措施之间的相似性，我们选择较长的规则项集的数量，以获得更准确的规则。在下一节中，我们将解释集成到基于GA的ML过程中的不同模块，以产生更简洁和精确的规则。434I. Boujelben等人5.3. 第三层次：增强模型为了克服表1中列出的上述问题，这些问题无法通过学习算法提供的自动规则来解决，我们提出了一些可以集成在ML模型中的吉祥模块，以提高ML过程的整体性能。5.3.1. 将数据集划分为动词和名词性句子因为我们的目标是提取两个阿拉伯语NE之间的关系，我们专注于如何收集有用的信息，是与这个任务。除了上下文词的POS标记之外，关系词的位置可以取决于阿拉伯语中的小句结构。这种方法可以提供更简洁和准确的结果。Haddad，2003）等研究证明了用短语结构表示文本内容的有效性，可以提高信息抽取过程的效率。因此，子句结构提供了更复杂的表示。同样地，（Smeaton，1995）证明了专注于句子可以直接索引到词汇表中。他表明，使用句子作为基础足以提取文本的含义，而不需要参考其单词集。根据他的发现，短语的集合比单词或词义的集合更丰富。从这个主要思想出发，我们有动机将小句结构添加到我们的学习特征中。此外，与仅以名词性短语为特征的英语不同，阿拉伯语的特征在于存在其他句子结构。因此，我们可以从阿拉伯语的这种特性中受益。事实上，阿拉伯语的句子通常分为名词性句子或动词性句子。动词句被定义为以动词开头并具有顺序（动词-主语-宾语）的从句，而名词性短语以名词开头。名词性短语由两部分组成：主语（阿拉伯语称为每个部分都有许多案例。主语可以是名词、代词、指示词、复合名词或其他实体。每个句子，无论是名词性的还是动词性的，都可以在前面加上一个连词（“/wa/and”、"/thomma/then“）、副词（”/EndmA/when“）、否定助词（”/ ln，lA，lm/not“）或组合（”/ wEndmA/ andwhen“）。同样，一个句子可以是简单的，也可以是复合的。基于这些原因，我们认为句子结构可以增强结果。再举例 [1] ，再回忆例 [9] 和 [10] ，通过"/sAfr/trans-vel“检测到的NE对（PERS-1）和关系都是>Hmd HlmysAfr AlyAlsEwdyp. 艾哈迈德·赫尔米前往沙特阿拉伯。在第一个动词短语[1]中，关系位于第一个上下文W1C1的第一个词中。然而，相同的关系位于名词短语的第二上下文W1C2的第一个词中[9]。因此，小句结构改变了单词的顺序，这反过

下载后可阅读完整内容，剩余1页未读，立即下载