持续管理的知识库系统：索邦大学计算机科学博士论文

47 浏览量更新于2024-02-04 收藏 3.94MB PDF 举报

知识库系统

学术论文

身份认证购VIP最低享 7 折!

30元优惠券

知识库系统纳赛尔·艾哈迈迪引用此版本：纳赛尔·艾哈迈迪知识库系统持续管理的框架计算机科学中的逻辑学索邦大学，2021年。英语NNT：2021SORUS320。电话：03560070HAL Id：tel-03560070https://theses.hal.science/tel-035600702022年2月7日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire教授教授德国汉诺威莱布尼茨大学Raphael TRONCYEURECOM，法国论文导师教授保罗·帕波蒂EURECOM，法国知识库系统论文提交索邦大学在哲学博士学位的要求部分履行著者：Naser AHMADI定于2021年12月8日在一个委员会面前进行辩护，该委员会由以下人员组成评论家教授法比安·苏查内克法国巴黎电信教授考官Serena VILLATA法国尼斯大学Sophia Antipolis教授教授德国汉诺威莱布尼茨大学Raphael TRONCYEURECOM，法国论文导师教授保罗·帕波蒂EURECOM，法国Un cadre pour la curation continue泰塞苏厄尼亚索邦大学pour提交人：Naser AHMADI在2021年12月8日由报告员组成的陪审团面前，教授FabianSUCHANEKTelecom巴黎，法国教授SerenaVILLATA尼斯大学Sophia Antipolis，法国考官到尼卢法尔i摘要以实体为中心的知识图（KG）越来越流行于收集关于实体的信息。知识库的模式语义丰富，有许多不同的类型和谓词来定义实体及其关系。这些幼儿园所包含的知识需要了解幼儿园它们丰富的数据结构可以表达具有语义类型和关系的实体，通常是特定于领域的，必须明确和理解这些实体才能最大限度地利用数据。虽然不同的应用程序可以从这种丰富的结构中受益，但这是有代价的。幼儿园面临的一个重大挑战是其数据的质量如果没有高质量的数据，应用程序就无法使用KG。然而，由于KG的自动创建和更新，其中存在大量噪声和不一致的数据，并且由于KG中的大量三元组，手动验证是不可能的。事实上，KG的创建和维护是一个永无止境的过程，需要半自动化的策展技术来向KG添加新的事实并消除噪音和不一致性。计算方法可以用于创建和管理幼儿园。深度学习技术是可以用于通过匹配KG中的实体来寻找新关系的这种计算方法之一挖掘系统是另一种可以帮助用户提高幼儿园质量的计算方法在这一行的工作中，逻辑规则被用来表达KG中实体之间的依赖关系。它们在诸如查询回答、数据策展和自动推理等任务中很有用，但它们不包括在KG中这些规则必须手动定义或使用规则挖掘技术发现在这篇论文中，我们提出了不同的工具，可以利用在不断创造和策展的过程中的幼儿园。我们首先提出了一种方法，旨在创建一个KG在会计领域匹配的实体。该方法首先从审计文档中提取实体，然后找到相关实体之间的联系这尤其具有挑战性，因为审计实体可以具有不同的粒度，例如活动、分类和主题。然后，我们介绍的方法，连续策展的幼儿园。我们提出了一个算法的条件规则挖掘，并将其应用于大型图。我们的研究结果表明，条件规则可以帮助人类管理员为特定类型的实体找到更准确的规则。接下来，我们描述了RuleHub，一个可扩展的语料库的规则为公共KG提供功能的档案和检索的规则。RuleHub定义了不同的度量来捕获每个规则的置信度和质量。我们还报告了在两个不同应用中使用逻辑规则的方法：将软规则教授给预训练的语言模型（RuleBert）和可解释的事实检查（ExpClaim）。ii摘要iii阿布雷热这些图表（KG）集中于人口普查，以收集人口普查信息。KG的schémas sont complex，avec de nombreux types et prédicats définir les schémas et leurs relations.KG拥有一个领域的专业知识，但为了最大限度地利用这些知识，必须了解KG的结构和方案。Leursdonnées comprennent des pestes et leurs types sémantiques pour un domaine spécifique.在外面，所有权和所有权之间的关系都是固定的。由于新生儿和残疾人的出现和残疾人的存在，幼儿园的建立和维持是一个没有结果的过程这些规则逻辑上有一个可能被使用的工具，用于目前正在使用的幼儿园，其中有新的事实，也有残疾人的补充Les règleslogiques sont employées pour exprimer les dependances entre les schools dans les KG.它们可用于提问-回答系统、数据库和自动化的理由等方面，但它们不包括在幼儿园内。Cesrègles doivent être definies manuellement ou découvertes à在此，我们向贵公司提出了一项在审计领域内建立一个合作伙伴关系的建议，并对各种文件进行了相应的审查。建议引渡审计文件的附件，并查明附件中的留置权。审计文件通常包括词语、术语、段落或文件。我们将为幼儿园的持续管理提供整套方法。我们提出了一个算法，用于解决大型幼儿园的条件规则和应用问题Nos resultatsmontrent que laes règles conditionnelles peuvent nous aider à trouver des règles plus précisespour un type spécifiqueEnsuite，nous décrivons RuleHub，un corpus extensible de règlespour les KG publiques qui fournit des fonctionnalités pourRuleHub定义了不同的测量方法，以获取信任和规则质量。我们建议采用两种不同的应用程序开发逻辑规则的方法：将规则应用于高级语言模式（RuleBert）和可解释的事实验证阿布雷ivv确认首先，我要衷心感谢我的导师Paolo Papotti教授为我提供了加入他的团队的机会，并感谢他对我的研究的崇高指导和不断支持。如果没有他在过去几年中的巨大理解和鼓励，我不可能完成我的学业。除了我的导师，我还要感谢我的论文评审委员会的所有成员，感谢他们慷慨地付出了时间，感谢他们鼓励的话语和周到的意见和建议。FabianSuchanek，Prof. Serena Villata，Prof. Ziawasch Abedjan，and Prof. Raphael Troncy.我要感谢我的研究小组成员的反馈和合作，特别是穆罕默德，感谢我们一起工作的所有时刻。感谢我在毕马威的队友，很高兴与他们合作：Hansjorg，Hendrik和Florian。在EURECOM工作的这些年里，我有机会结交了很多令人惊叹的朋友。我要感谢他们所有人，感谢我们在一起度过的时光，特别感谢伊斯梅尔的支持和我们度过的所有有趣的时刻。谢谢你，我的Yaar，Niloufar，我很幸运有你在我的生活中。感谢您的鼓励，无条件的支持和无尽的耐心。如果没有你，这篇论文就不可能完成。最后但并非最不重要的是，我深深感谢我的父母，他们给了我巨大的爱，巨大的支持和希望。我特别感谢我的兄弟姐妹Fahime，Zahra，Yaser和Reza，他们总是在我身边，给了我力量。尼斯，2021年12月Naser确认vivii内容抽象。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .我Abrégé [Français]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .III致谢。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .v内容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .VII图表列表。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .X表的列表。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIII缩写词。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .XV符号 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .11引言11.1审计信息的知识图。 . . . . . . . . . . . . . . . . . .21.1.1构建和管理审计知识图谱 . . . . . . . . . . .41.2数据质量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .51.3论文大纲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62知识图谱92.1知识图谱 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .92.1.1知识图谱架构。 . . . . . . . . . . . . . . . . . . . .102.1.2知识图谱构建 . . . . . . . . . . . . . . . . . . . . .112.2知识图谱策展。 . . . . . . . . . . . . . . . . . . . . . . . . . . .132.3摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .153节点和关系标识173.1节点识别。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .173.1.1相关工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .173.1.2寻找代表性实体。 . . . . . . . . . . . . . . . . . . . .183.1.3创建实体族 . . . . . . . . . . . . . . . . . . . . . . . . .193.1.4评价。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223.2匹配文本和数据。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .233.2.1相关工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .263.2.2异构语料库图 . . . . . . . . . . . . . . . . . .263.2.3图的扩展和压缩 . . . . . . . . . . . . . . . . . . .31内容viii3.2.4匹配文本和结构化数据353.2.5第35代嵌入3.2.6实验353.3总结434在知识图454.1相关工作464.2规则挖掘474.2.1逻辑规则474.2.2规则覆盖范围484.3噪声知识图494.3.1权重函数504.3.2问题定义514.4规则和示例514.4.1规则生成514.4.2第53章反例4.5发现算法554.5.1一种基于边际权重55的贪婪算法4.5.2图形Traffic withATraffic Search554.5.3算法分析584.6条件规则584.6.1类型条件594.6.2实体条件604.7实验614.7.1RuDiK61发现的通用规则的质量4.7.2条件规则634.8摘要645第67条规则的公共语料库5.1Rulehub675.1.1规则信心685.1.2第71章规则5.1.3实验735.2从Wikidata79中提取逻辑规则5.2.1搜索逻辑规则805.2.2实验815.3向语言模型825.3.1数据集生成845.3.2教PLM理性86ix5.3.3实验86内容5.4摘要886使用逻辑规则进行916.1第92章6.2相关工作946.3框架956.3.1规则生成956.3.2证据生成966.3.3事实核查的推理976.4实验986.5摘要1007结论和今后的工作1037.1未来的工作104附录107A 文本到数据匹配：更多实验结果109A.1消融研究109A.1.1参数的影响109A.1.2改进图形生成111BRulehub：更多实验结果113B.1其他同品种器械置信度结果113B.2用于评估的规则示例113B.3质量评价措施实验114B.4计算规则置信度116B.5RuleHub网页117B.5.1增加新的规则117B.5.2评估规则119C ExpClaim：更多实验结果121C.1推理121C.1.1答案集编程ASP121C.1.2LPMLN121C.2规则发现123D RuleBERT：更多关于软规则125D.1规则支持126D.2更多实验细节126内容xD.3消融126D.3.1第127章榜样D.4数据生成示例128xi图目录1.1知识三元组的例子来自于百科知识和常识知识组[1]。21.2KPMG的文档示例（左）和账户分类（右）。. .31.3具有一种节点类型和两种关系的泛型KG。. . . . . . . . .31.4KPMG. . . . . . . . . . . . . . . . . . . . . .42.1KG构建过程从数据源开始，包含三个模块。KG创建后，由于应用程序无法使用KG，高质量的数据，需要持续的管理。........................................................................112.2维基数据中违反约束的例子[2]。........................................................................... 143.1帐户和关联标题（叶，斜体）的分类节点示例。................................................193.2ConceptNet中实体“审计”的边缘............................................................................. 213.3文本和数据：段落p1匹配元组t2。.........................................................................233.4结构化文本：第1段匹配第4个节点............................................................................243.5提出的框架：（1）文本和结构化数据文档在图中联合建模，（ii）为数据和元数据节点（表示文本，分类节点，元组）生成嵌入，（iii）元数据节点在无人监督的方法。....................................................................................................243.6示例229的节点示例图3.7示例3的节点示例图303.8实施例1的放大图......................................................................................................324.1图表示中的四个DBpedia事实..................................................................................524.2两个积极的例子。....................................................................................................555.1RuleHub68的架构5.2DBpedia同品种器械配偶的置信度结果745.3DBpedia同品种器械foundedBy74的置信度结果5.4对所有谓词的规则的平均计算和人工置信度........................................................755.5（a）不同κ值的置信度。(b)计算置信度的平均执行时间。................................755.6计算的置信误差率w.r.t.对于不同的κ值，在有和没有手动清洁三元组的情况下的人的质量。............................................................................................................78xii图目录5.7规则原子数对质量评估注释的影响.......................................................................795.8人工和计算机置信度比较。....................................................................................825.9需要使用事实进行推理的假设示例，软规则（括号中显示的规则ID和置信度................................................................836.1我们的事实检查框架EXP CLAIM94A.1随着行走长度的增加，比赛质量也随之提高。..................................................109A.2增加每个节点的随机游走次数。..........................................................................110A.3平均精密度（相对于一个术语中的标记数..........................................................110A.4图形尺寸w.r.t.一个术语中的标记数。..................................................................110A.5数据节点筛选的影响。..........................................................................................111A.6我们的方法结合SentenceBERT112B.1DBpedia规则的置信度测量：配偶。...................................................................113B.2DBpedia规则的置信度度量：foundedBy114B.3DBpedia：relative和DBpedia：publisher规则的置信度度量（两个规则集的联合）。......................................................................................................................114B.4质量评估（主观值在1和5之间）与人类置信度（来自三重注释）。.............116B.5原子数对计算置信度w.r.t.误差率的影响。人的信心。.....................................117B.6RuleHub门户网站的屏幕截图-搜索规则。.......................................................... 118B.7RuleHub门户网站截图-添加规则。...................................................................... 118B.8RuleHub门户网站-规则管理的屏幕截图。.......................................................... 119B.9RuleHub门户网站-规则评估的屏幕截图。.......................................................... 120D.1支持重叠规则。......................................................................................................126D.2在第二节的实验中，用于微调RULEBERT20的一组规则第5.3.3条（看不见的规则）。..............................................................................128D.3训练数据大小的影响。..........................................................................................1297.4本文提出的基本框架是：（1）文本和文本结构的文件是在文字中结合的模式，（2）文本和文本结构的嵌入是文本、分类和元组的产物，（3）文本结构的嵌入是在文字中结合的模式，（4）文本结构的嵌入是在文本中结合的模式，（5）文本结构的嵌入是在文本中结合的模式，（6）文本结构的嵌入是在文本中结合的模式，（7）文本结构的嵌入是在文本中结合的模式，（8）文本结构的嵌入是在文本中结合的模式，（9）文本结构的嵌入是在文本中结合的模式，（10）文本结构的嵌入是在文本中结合的模式，（11）文本结构的嵌入是在文本中结合的模式，（12）文本结构的嵌入是在文本中结合的模式，（13）文本结构的嵌入是在文本中结合的模式，（14）文本结构的嵌入是在文本中结合的模式，（15）文本结构的嵌入是在文本中结合的模式，（16）文本结构的在一个不受监督的地方通信..................................................................................1357.5Architecturedu RuleHub1377.6EXP CLAIM139xiii表的列表3.1单词家族的例子........................................................................................................203.2生成的图元族的质量评估。....................................................................................223.3IMDb场景的匹配质量结果...................................................................................... 373.4CoronaCheck场景的匹配质量结果..........................................................................383.5结构化文本匹配的精确和节点分数。....................................................................403.6Politifact方案的匹配结果质量................................................................................. 413.7Snopes场景的匹配结果质量.....................................................................................413.8训练和测试执行时间（秒）。................................................................................423.9压缩性能：比较的图节点数（#N）和边数（#E）与质量相匹配的MRR。........................................................................................... 424.1数据集特征。............................................................................................................614.2RuDiK规则精度。.................................................................................................... 624.3DBPEDIA63中发现的规则示例4.4条件规则和一般规则之间的比较。........................................................................645.1r2、r3、r 4的支持度、Counter_Support、置信度得分715.2负规则信息：规则#，从三重符号获得的人类置信度（100.00）。Conf.），缺失事实数（MF）和错误事实数（IF）、原始（C_S1）和更新的反支持（C_S2）、计算的置信度（Conf. 1）和后精炼反支持（会议。 2），通过仅添加缺失事实（Conf.MF）和仅删除不正确事实计算置信度（Conf. IF）。......................................................................................................... 775.3维基数据上挖掘的规则示例。我们在方括号中报告，标签（例如，配偶）的维基百科条目ID（例如，P26）有利于可读性805.4翻译成维基数据的DBpedia规则示例。..................................................................815.5维基数据中的每个规则都检测到缺失（顶部）和不正确（底部）语句的规则示例。............................................................................................................................825.6单规则模型的评估结果............................................................................................875.7看不见的规则的准确性结果第一组包含的规则带有RULEBERT在微调中使用的20条规则中看到的谓词，而第二组包含的规则带有R ULE BERT在微调中使用的谓词。有带不可见谓词的规则。........................................................................................88

下载后可阅读完整内容，剩余1页未读，立即下载