依赖性解析与顺序模式挖掘的超级学习：哈马德·伊萨·阿拉·阿尔丁的硕士论文

188 浏览量更新于2023-12-18 收藏 2.67MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于依赖性解析和顺序模式挖掘的超哈马德·伊萨·阿拉·阿尔丁引用此版本：哈马德·伊萨·阿拉·阿尔丁。对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献。人工智能[CS.AI]。南布列塔尼大学，2020年。英语。NNT：2020LORIS575。电话：03260151HAL ID：电话：03260151https://theses.hal.science/tel-03260151提交日期：2021年HAL是一个多学科的开放存取档案馆，用于存放和传播科学研究论文，无论它们是否被公开。论文可以来自法国或国外的教学和研究机构，也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire博士学位的论文L’UNIVERSITE BRETAGNE SUDL’UNIVERSITE第601章：你是谁？数学与信息与通信科学与技术专业：计算机科学通过艾哈迈德·伊萨·阿拉·奥尔丁基于依赖性解析和顺序模式挖掘的超2020年12月15日在Vannes提交并答辩论文研究单位：IRISA论文编号：575答辩前的报告员：M. Matthieu Roche HDR研究员，UMR TETIS，CIRAD夫人。Nada Matta特鲁瓦理工大学大学教授评审团组成：主席：M.Fabrice Guillet南特大学教授考试员：M.Ahmad Faour黎巴嫩大学高级讲师Dir. 论文：M.Giuseppe Berio南布列塔尼大学大学教授M. Mohamed Dbouk，黎巴嫩大学大学教授，联合主任。论文：女士。MouniraHarzallah南特大学高级讲师（HDR）M. Nicolas Bechet南布列塔尼大学高级讲师客人夫人。Haifa Zargayouna巴黎第13对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020一个知识分子永远，我感谢上帝给我力量和能力来完成这篇论文，这篇论文得到了许多人的指导和支持。首先，我衷心感谢法国的导师Giuseppe BERIO教授、Mounira HARZALLAH博士和Nicolas BECHET博士，感谢他们允许我在他们的监督下进行本论文，感谢他们在本论文的所有阶段给予的指导、支持和辛勤工作。他们在工作领域的大量知识和他们的想法对论文的改进做出同样，我要感谢我在黎巴嫩的导师Mohamed DBOUK教授和Dr. Ahmad Faour允许我在他们的监督下进行这篇论文，并感谢他们在整个论文过程中的大力支持。他们的一般建议和不断的鼓励极大地帮助我提高了我的研究和沟通技能。我要感谢记者Nada Matta教授和Mathieu Roche博士愿意审查这篇论文，并感谢他们宝贵的意见和讨论，大大提高了我的知识。我想感谢论文委员会的成员。Fabrice Guillet和博士海法。感谢ZARGAYOUNA在整个论文中提出的宝贵建议，这些建议对论文的改进也做出了巨大贡献。我还要感谢没有他们的宝贵支持，就不可能进行这项研究。最后，我要感谢我在法国和黎巴嫩的家人和朋友，感谢他们的鼓励，感谢我们在一起度过的美好时光，感谢他们在博士学位的艰难时期帮助我摆脱压力，提升了我的情绪。旅程。3对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020TABLE 来自C组导言13研究背景13动机17捐款18论文结构201文献综述211.1超名关系提取的211.1.1基于模式的方法221.1.2分布方法331.1.3结构性方法381.1.4评估过程401.1.5讨论451.2使用顺序模式挖掘的模式学习491.2.1顺序模式挖掘（SPM）491.2.2使用SPM51学习语义关系的方法1.3摘要522依赖性模式552.1导言552.2依赖性赫斯特2.2.1依赖关系解析和关系592.2.2DHPs配方工艺592.2.3使用DHPs61提取姓氏2.2.4使用DHPs65的超名提取工具2.3实验设置662.3.1公司和数据集662.3.2语料库标记692.3.3评估方案715对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020内容表2.4结果和分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...722.4.1结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...722.4.2定性分析。 . . . . . . . . . . . . . . . . . . . . . . . . . ...742.4.3错误分析。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...752.5摘要763序列超名模式793.1导言793.2三阶段方法823.2.1阶段1：挖掘与种子模式相关的顺序模式823.2.2第2阶段：发现新的顺序模式823.2.3阶段3：抗hypernym序列模式833.2.4顺序Hypernym模式学习工作流833.2.5句子的顺序表示873.2.6通过序列超名模式名903.3实验903.3.1公司和数据集913.3.2设置工作流配置913.3.3第1阶段：SHPS学习成果943.3.4第2阶段：SHyPs学习成果953.3.5第3阶段：SHPS-学习成果993.3.6阶段3：SHyPs-学习成果1013.4评估步骤：结果和分析1023.4.1评估步骤：定量结果1023.4.2步骤评估：学习模式1033.4.3评估步骤：学习模式分析的一般性3.4.4间隙约束在匹配序列模式3.5摘要1074使用我们的模式检测超名的方法1114.1引言1114.2超名检测的无监督方法1124.2.1我们的基于模式的无监督高眼球运动检测1124.2.2实验和结果113对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 20204.3催眠检测的监督方法1146内容表4.3.1我们的基于模式的监督方法用于Hypernym检测1154.3.2实验和结果1164.3.3基于模式的方法和分布方法的1174.3.4基于模式和分布监督模型的通用性。1184.4摘要119结论和展望121参考书目125A扩展的赫斯特模式集B学习的序列模式143对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 20207对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020IST F.伊古尔斯1来自文本资源的本体开发层蛋糕2本体学习过程153来自ho-hr对的161.1从复合名词中识别出的超名关系示例其结构391.2评估过程。................................................................................................................401.3[71，20，11]52中提出的序列表示的示例2.1显示依赖模式可以替换多个词典-语法模式的示例2.2增强型依赖树60的示例2.3增强型依赖树60的示例2.4预处理后标记句子的示例622.5句子结构树632.6将DHP与解析句子进行匹配的示例652.7使用DHPs66进行姓氏关系提取的UI工具2.8使用工具67提取的超名关系3.1顺序模式学习的工作流。........................................................................................843.2句子的序列表示示例893.3使用3阶段方法的顺序模式学习。..........................................................................923.4在三个身体上执行学习的顺序模式......................................................................1063.5M-精密度、M-回忆、f-评分随最大间隙变化的变化使用音乐语料库的价值。......................................................................................1073.6M-精密度、M-回忆、f-评分随最大间隙变化的变化使用英语-1语料库进行评估。.............................................................................. 1083.7M-精密度、M-回忆、f-评分随最大间隙变化的变化使用英语-2语料库进行评估。.............................................................................. 1098对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020IST T型台1.1赫斯特的... ...231.2词汇-句法模式及其精确性见[87]。........................................................................251.3[44]中从现有模式中引入的新模式261.4[75]27中提取的词汇-句法模式1.5[79]28中使用的姓氏和姓氏模式1.6[81]30中给出的三种测量的平均准确度结果1.7[92]第32话1.8在[88]32中发现了新的超名和代名词模式1.9上下文表示示例331.10 语法表示示例341.11 使用术语嵌入比较监督方法中不同表征的结果，如[103]37所示1.12 比较两个数据集上的各种监督分类器的结果如[60]中所示。.............................381.13 根据实际和预测标签计算的TP、FP、FN和TN1.14 用于超名发现评估的数据集大小。........................................................................451.15 属名关系提取方法的综合表。................................................................................471.16 将综合方法的性能与其他方法进行比较。............................................................481.17 序列数据库502.1词汇-句法和依赖关系信息。.................................................................................. 572.2从过去文献中收集的一些模式示例。....................................................................572.3赫斯特的两种模式及其扩展模式预计将被两种依赖模式所取代。..................... 582.4赫斯特2.5增强的依赖关系642.6贴标签前后的句子数722.7音乐语料库中的模式比较........................................................................................732.8英语中的模式比较-1语料库739对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020表列表2.9英语中的模式比较-2语料库732.10 音乐语料库的所有模式比较742.11 英语的所有模式比较-1语料库742.12 英语的所有模式比较-2语料库742.13 音乐和英语语料库上的所有模式计算时间。........................................................753.1语料库标记结果。....................................................................................................913.2阶段1：每个DHP94的TM、FM、TS和VS编号3.3阶段1：通过选择的每个子步骤选择的TS、FCSP和模式的数量。....................953.4阶段1：已学习SHPs的代表性样本。.....................................................................963.5阶段2：每个选择子步骤的TS、FCSP和所选模式的数量....................................973.6第2阶段：从三家公司学到的所有973.7阶段3：对应于1个DHP100的3.8阶段3：通过选择的每个子步骤选择的TS、FCSP和模式的数量。..................1003.9第3阶段：已学习SHPs-101的代表性样本3.10 阶段3：每个SHyP102的TM、FM、TS和VS数量3.11 音乐语料库的评价结果..........................................................................................1033.12 英语-1语料库的评估结果...................................................................................... 1033.13 英语-2语料库的评估结果...................................................................................... 1033.14 学习序列模式性1054.1数据集大小。..........................................................................................................1134.2使用四个数据集和三个数据集将DHPs和学习到的序列模式与现有模式和无监督方法进行比较的平均精度结果三个军团。..............................................................................................................1154.3基于学习的序列模式的监督方法的特征空间。..................................................1154.4结果比较了我们基于提取的顺序模式的监督方法与其他使用四个数据集和三个语料库的监督方法。1174.5通常和专门检测到的性欲亢进夫妇的百分比方法类型11810对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020表列表4.6使用模式作为特征和嵌入在分类器的不同数据集上的性能。..........................118A.1 [87] 139中提出的59种词汇-句法...........................................................................模式B.1所有不同的SHPs都是从三个军团中学习到的。.................................................143B.2所有不同的SHyP都是从三个军团学到的。........................................................ 157B.3所有不同的SHPs都是从三个军团中学习的。...........................................................15811对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020一、引言超名关系是一个特定术语（超名）和它的属术语（超名）之间的语义关系。例如，"乐器"是"钢琴"的同义词。超名词关系在构建分类法（即与概念相关的语义层次，表达分类）中起着核心作用，被认为是构建任何本体的主干。此外，它们对于解决一些开放研究问题和应用（如信息检索和问题回答）极其重要。研究背景本体论一词最早出现在哲学中，它代表了对存在的研究和对存在的系统解释，涉及现实的性质和结构。在过去的几十年里，本体论在计算机科学领域得到了广泛的应用。1993年，Gru-ber[36]最初将本体定义为"概念化的显式规范"。1997年，Borst将本体定义为“共享概念化的正式规范”1998年，Studer et al.[95]将这两个定义合并为一个定义：形式上指的是本体论必须是机器可读的这一事实。显式是指明确定义了所使用的概念类型及其使用的约束。共享意味着本体论应该捕获被社区接受的知识。概念化是一种通过同一性对现象进行抽象的模型--使这些现象的相关概念成为现实。换句话说，本体是以这样一种方式表示的丰富的知识库，即包括人工专家系统的信息系统能够使用它们。本体论的主要组成部分是概念、分类关系、特别关系、公理和实例。一个概念（也称为类），指的是世界上抽象或具体的事物（即个体、实例、对象），具有相同的属性。一个概念也可以被定义为一组与之相关的术语。两个概念之间的语义联系。分类学关系是最常用的，它表达了一个概念概括（即范畴）另一个概念。公理允许完成概念和关系的定义。13对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020简介本体的手动构建是一项艰巨而乏味的任务，需要该领域的知识工程师和专家。因此，人类语言文本（为某些目的而写或专门作为本体要求文档而写）可以被认为是构建本体所需的主要知识来源。自然语言处理、机器学习、深度学习和数据挖掘的显著进步为从文本中进行本体学习开辟了道路，使这种工作方式成为热门和有前途的，并为手动任务提供了有效的支持。术语本体学习指的是本体的自动或半自动开发--即使完全自动化可能永远不可能。Buitelaar和。al [16]认为，本体学习过程是由图1所示的类-科学本体层蛋糕之后的越来越复杂的子任务组成的。因此，该过程从文本中提取相关术语开始。同义词术语聚集在同义词集中。为具有唯一含义的每个synset选择一个标签。此标签将是表示此synset的概念术语。概念税-构建本体，使其成为对本体推理的最小支持。这一步是通过识别概念之间的分类关系来完成的。它通常包括超名关系提取和分类关系归纳。确定了概念之间的特殊（非分类）关系。提取了包括概念、分类学和非分类学关系在内的公理，以使所表示的知识边缘更加精确。在群体本体中，提取概念和关系的实例。图1：来自文本资源的本体开发层蛋糕图2提供了本体学习过程的明确视图，用提出并用于完成本体学习的各种子任务的七种技术来修饰[7，104，13]。这些技术分为三大类，即基于语言的统计-14对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020简介基于逻辑和基于逻辑。语言学技巧被用来预处理正文。术语、概念和关系是通过语言学和统计学技术提取的。逻辑技术被用来识别公理。图2：本体学习过程— 语言学技术：主要用于预处理阶段，其中语音标记[14，62]、解析[57，56，91，48]和词源化等技术应用于文本。为了提取术语和概念，使用了诸如句法分析[41]、子范畴化框架[33]和种子词[42]等技术语言学。为了表达语篇关系，使用了依赖分析[93]和词汇句法模式[40]等语言学技巧。— 统计技术：主要来源于信息检索、机器学习、15对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020简介和数据挖掘。它们用于提取术语、概念和关系。对于术语和概念提取，使用诸如聚类[105，47]、潜在语义分析[50，97]、共现分析[15]、对比分析[70，99]和C/NC值[32]等技术。对于分类关系提取，使用诸如术语包容[31]、分类[92]、分层聚类[109，23]和关联规则挖掘[94]等技术。分类和关联规则挖掘也用于自组织关系提取。- 逻辑技术：主要用于使用知识表示和机器学习推理来提取公理。归纳逻辑规划[54，58]和逻辑推理是根据文献综述提取公理的两种主要逻辑技术。在过去的二十年里，已经开发了各种支持本体论学习的工具。这些工具将非结构化文本作为输入，并通过自动或半自动过程构建本体。其中一些工具是：ASIUM [27，28]、TextStorm/Clouds [72]、OntoLearn [65，99，98]、Text 2 Onto [21]、CRCTOL[45]和OntoGain [24]。然而，当前的工具和技术对于分类学提取仍然是不令人满意的一个原因是，发现和使用的超名关系的质量仍然不能满足目的。另一个原因是分类学提取不是一项容易的任务，因为必须解决几个问题。让我们考虑图3，它显示了动物领域中分类学的一个例子，其中每个节点指的是一个概念，每个边指的是一个分类关系。图3：ho-hr对的首先，由于术语的偏性，超名词关系不一定满足传递性，而传递性在分类学中是基本的。例如，事实16对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020简介"鼠标"并不意味着"计算机组件"是"金老鼠"的昵称。第二，hy-pernym关系在不必要的概念之间保持，而分类学关系应该在分类学中的概念之间保持。例如，第三，多个超名关系可以共享同义词超名或超名术语，而同义词术语应该在分类学中合并在一起。例如，"Animal"是"Bird"的超名，"Brute"是"Bird"的超名，但由于"Animal"和"Brute"是同义词，因此它们合并在一个节点中（见图3）。然而，在我们的工作中，我们将专注于从给定文本中提取的超名关系的质量，试图实现这些关系的更好的完整性和正确性。动机最新的分析表明，已经提出了两种主要类型的方法来提取超名关系：分布和基于模式。尽管对分配方法有很高的兴趣，但我们的研究重点是基于模式的方法。我们选择的主要原因如下所示。在处理本体构建时，模式是有趣的，因为它们很容易被标准化，并且与文本中最明确但非正式表达的知识直接相关;相反，分配方法在概念上面向隐藏的知识边缘，自然地补充了文本中发现的明确这是一个很好的理由，假设基于模式和分布的方法不是替代的，而是互补的。因此，在本文中，我们将尝试通过对使用通用语料库和基准训练数据集可以实现的模式和最新分布方法进行有见地的比较，使这一补充假设变得明显。对模式的兴趣也与其潜在的普遍性密切相关。模式适用于各种各样的身体，即使它们是使用监督学习从一个语料库中学习的。相比之下，使用超目标学习的最新和高效的分布方法往往高度依赖于训练数据，因此需要时间来学习新的模型。因此，通过本文，我们将试图证实学习模式的普遍性和监督分配方法对训练数据的高度依赖性。模式在构建本体（甚至设计本体）方面有着悠久且公认的传统。17对基于依赖性解析和顺序模式挖掘的Hypernym模式表示和学习的贡献Hamad Issa Alaa Aldine 2020简介信息系统大背景下的相互模型），特别是在使用特定需求文档作为源文本时。不幸的是，当前基于模式的方法的召回率较低（在第1.1.5节中有更好的理由），在不降低准确性的情况下增加召回率并不是一项容易的任务。通过本文，我们建议通过分析和实验三个关键的模式相关方面：模式识别、模式学习和反模式学习，来理解和证明如何在不降低准确性的情况下提高回忆。根据现有技术，模式表示的范围从词汇-句法表示到语法依赖性表示。语法依赖性表示在语义上比词汇-句法表示丰富。他们似乎更感兴趣的是提取超名词，因为他们是根据它们的语法关系来链接术语，而不考虑它们在句子中的位置，就像使用词汇句法模式一样。无论如何，使用依赖项都需要计算工作，与词典-句法表示所需的工作相比，这是相当大的。因此，与词典-句法表示相比，需要仔细研究哪些扩展依赖性在提高回忆和/或准确性方面是有用的对现有技术的分析表明，遵循任何模式学习方法都是令人困惑的，因为回忆可以系统地增加（有足够丰富的语料库）。然而，如果不加以控制，精度可能会下降。因此，需要开发一种学习过程，使准确性和回忆都在控制之下。因此，学习过程应致力于发现模式，以提高准确性和回忆。然而，如果回忆急剧增加，则可能无法保持准确性。一些参考和评论的作品提出了使用反模式来过滤虚假的超同义词关系。例如，反模式是表示两个相关术语描述复合事物的主名模式。更一般地，反模式可以被定义为超名关系的模式。我们认为这是掌握准确性和回忆性之间权衡的有效方法。因此，需要解决反模式（即在学习过程中捕捉超名关系的模式贡献在下文中，我们简要描述了表演作品对本文所作的贡献，以解决上述动机。1. 赫斯特的模式18

下载后可阅读完整内容，剩余1页未读，立即下载