从Web服务中获取常识和隐藏的知识：巴黎综合理工学院博士论文

191 浏览量更新于2024-02-06 收藏 3.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

从Web服务朱利安·罗梅罗引用此版本：朱利安·罗梅罗从web服务中获取常识和隐藏的知识人工智能。巴黎综合理工学院，2020年。英语NNT：2020IPPAT032。电话：02979523HAL Id：tel-02979523https://theses.hal.science/tel-029795232020年10月27日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire626从Web服务获取常识和隐藏知识巴黎综合理工学院博士论文巴黎电信筹备巴黎综合理工学院博士学位学校（巴黎教育Spécialité de doctorat：计算，数据和人工智能Thèse présentée et soutenue à Palaiseau，le 5 April 2020，par朱利·恩·罗梅罗评审团组成：皮埃尔·塞内拉尔巴黎高等师范学院教授托娃·米洛特拉维夫大学教授特别报告员卡佳软管奥尔堡大学教授特别报告员迈克尔·贝内迪克特牛津大学教授安德烈亚·卡尔霍恩伦敦大学伯克贝克学院教授梅根·比恩韦努法国国家科学研究中心全职研究员，波尔多大学（LaBRI）考官法比安·苏查内克巴黎电信局教授尼古莱塔·普雷达凡尔赛大学副教授安托万·阿马里利巴黎邀请电信副教授NNT：II从Web服务中获取常识和隐藏知识Julien Romero5月2020阿尔蒙大父亲摘要iii在这篇论文中，我们从网上资源中收获了两种不同类型的知识第一种是常识性知识，即大多数人的直觉，比如“天是蓝的我们通过精心设计的问题模式，从查询日志和问答网站中提取突出的陈述。接下来，我们通过查询其他网络资源（如Wikipedia、Google Books或Flickr的图像标签）来验证我们的声明。我们汇总这些信号，为每个陈述创建一个最终得分。我们获得了一个知识库，Quasimodo，与它的竞争对手相比，它具有更好的精度，并捕捉到更突出的事实。我们研究的另一种知识是隐藏的知识，即。不是由数据提供者直接提供的知识。更具体地说，一些Web服务只允许通过预定义的访问函数访问数据。为了回答用户查询，我们必须组合不同的此类访问功能，即，我们必须根据函数重写我们研究了两种不同的情况：在第一种情况下，访问函数具有路径的形状，知识库尊重被称为“一元包含约束”的约束，并且查询是原子的我们证明了该问题在多项式时间内是可判定的，并提供了一个算法的理论依据。在第二个场景中，我们删除了约束，并创建了一个新的相关计划，称为我们表明，它是可判定的，找到这些计划，我们提供了一个算法。ivv雷默西芒我们从未有过这样的时刻，让那些曾经关心我们、帮助我们前行的人们感到怜悯一个简单的感谢我parapratropordinaire，但nul其他mot nesquassez堡。所有这些人都有我们的行动和选择的意义：他们的重要性在于我在这本书的第一页上的数字。当然，他不可能让我和尼可莱塔、法比安两个人直接对话，除非他们不我的生活已经完全改变了。他们不允许我自由，我觉得我是一个简单的我非常感谢报告员 Tova Milo 和 Katja Hose ，因为陪审团成员 PierreSenellart、Michael Benedikt、Andrea Caldarin和Meghyn Bienvenu。我在没有我的家人，我从来没有来过这里凯瑟琳我妈要你帮我解决我们遇到的问题。我知道的都对她很好她让我了解了音乐我不想让你后悔。我的外祖母也为我做了很多事。今天又来了我记得是她给我的钱J’ai passé denombreuses heures devant我和我的祖父母菲尔曼和莫妮克在海边度过了很多时光。他们一直都在帮我，因为我是个商人，我希望还有托马斯和梅拉妮，我的兄弟和我的姐妹们和我一起去看孩子们的旅行，我的好父亲雅克，他们是为了我的家人和孩子们而生的，我不知道劳伦斯和我的叔叔扬，他们一直在追求我的好奇心最后，当我开始这样做的时候，我会给我的家人一个更我最喜欢的名字叫瓦娜我希望能和她一起度过余生她一直在我的身边学习这三年的课程，帮我克服所有的我感觉viqu’à我也想到了我能见到的所有朋友，以及我过去的美好时光我不告诉你们这个名字，但我提到了迪迪埃和我们的一些项目，杰瑞米和丹尼尔，他们在我和维克多的房间里，他们没有离开母亲在一个房间里，研究是不可能完成的。我非常感谢您对我的支持，我也非常感谢您对我们的支持：阿尔贝、阿尔芒、阿尔诺、卡米尔、艾蒂安、法维亚、雅各布、让-贝努埃、让-路易、乔纳森、朱利安、利胡、路易、马克（感谢您在项目中对我的帮助）、玛丽、马鲁阿、毛罗、迈克尔、米耶、穆斯塔法、内森、内德、尼古拉、皮埃尔-亚历山大、昆廷、昆廷、萨梅德、塔勒、托马斯（厨师）、托马斯（医生大兄弟）、托马斯（医生大兄弟，他对我的问题有很好的回答我特别感谢安托万能帮他做些好事。也感谢所有的电信工程师和我的学生，他们都不想把我的知识传给别人vii内容1介绍11.1动机11.1.1信息丛林11.1.2知识库结构信息21.1.3知识库简史1.1.4应用51.1.5通过Web服务建立知识库71.2捐款71.2.1自动收集常识知识71.2.2可判定、多项式和等价查询重写82第11章2.1知识库112.1.1知识表示112.1.2知识基础上的推理2.1.3定义知识库182.2网络服务182.2.1定义与定义182.2.2Web服务架构193Quasimodo：常识知识库213.1一.导言. 213.1.1动机和目标213.1.2技术现状和局限性223.1.3方法和挑战233.1.4捐款243.2相关工作253.2.1常识知识库（CSKB3.2.2CSK26的使用案例3.2.3从查询数据库中3.3系统概述263.3.1候选人聚会273.3.2确证273.3.3排名273.3.427岁3.4候选人聚会28内容viii内容3.4.1数据源。. . . . . . . . . . . . . . . . . . . . . . . . . .283.4.2提问模式。. . . . . . . . . . . . . . . . . . . . . . . .293.4.3从提问到断言. . . . . . . . . . . . . . . . .303.4.4输出标准化。. . . . . . . . . . . . . . . . . . . . .303.4.5新课题的产生。. . . . . . . . . . . . . . . . . .313.5确证。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .323.5.1维基百科和简易维基百科。. . . . . . . . . . . . . . .323.5.2来自搜索引擎的答案片段。 . . . . . . . . . . . . .323.5.3 Google Books.. . . . . . . . . . . . . . . . . . . . . . . . . .323.5.4来自OpenImages和Flickr的图像标签。. . . . . . . . . . .323.5.5标题来自Google . . .333.5.6什么问题. . . . . . . . . . . . . . . . . . . . . . . . .333.5.7分类器训练和应用。. . . . . . . . . . . . . .333.6排名。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .353.6.1似然性-典型性-显著性方法。. . . . . . . .353.6.2平滑似然性-典型性-显著性方法。. .363.7磅. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .373.7.1软联合聚类。. . . . . . . . . . . . . . . . . . . . . . .373.7.2 SO-P矩阵的三因子分解。 . . . . . . . . . . . . . . .383.8实验评价. . . . . . . . . . . . . . . . . . . . . . . .403.8.1实施。. . . . . . . . . . . . . . . . . . . . . . . . .403.8.2内在评价. . . . . . . . . . . . . . . . . . . . . . .413.8.3外部评估。. . . . . . . . . . . . . . . . . . . . . .443.9结论。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .464卡西莫多内幕474.1导言。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .474.2以前的工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . .484.3Quasimodo Web门户架构。 . . . . . . . . . . . . . . . . .484.4示范经验。. . . . . . . . . . . . . . . . . . . . . . .504.4.1探索和搜索常识知识。 . . . . .504.4.2开采管道可视化。. . . . . . . . . . . . . . .504.4.3 SPARQL终点。. . . . . . . . . . . . . . . . . . . . . . .514.4.4玩禁忌。. . . . . . . . . . . . . . . . . . . . . . . . . . .524.4.5代号。. . . . . . . . . . . . . . . . . . . . . . . . . . .534.4.6多项选择题的分类。. . . . . . . . . . . . .544.5结论。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .555等效查询重写575.1导言。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .585.2相关工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .595.2.1具有绑定模式的视图。. . . . . . . . . . . . . . . . .595.2.2等效重写。. . . . . . . . . . . . . . . . . . . . .605.2.3最大限度地包含重写。 . . . . . . . . . . . . . . .605.2.4 Web服务演示。. . . . . . . . . . . . . . . . . . .615.2.5联邦数据库。. . . . . . . . . . . . . . . . . . . . . .615.2.6Web服务。. . . . . . . . . . . . . . . . . . . . . . . . . .61内容5.3第62章5.3.1全局模式625.3.2包容性教育625.3.362岁5.3.4查询遏制635.3.5职能. 635.3.6执行计划635.3.7原子查询重写645.4问题陈述和主要结果645.4.1非冗余计划655.4.2结果说明675.5算法685.5.1定义前向-后向路径的上下文无关语法695.5.2定义可能计划的正则表达式5.5.3定义算法705.5.4示例725.6捕捉语言735.6.1最小过滤计划735.6.2路径转换745.6.3捕捉语言775.6.4第77章真实的计划5.7实验785.7.1设置785.7.2综合功能785.7.3真实世界的Web服务805.8可视化演示825.9结论836没有完整性约束的查询重写856.1一、导言. 856.2秘书处876.3定义智能计划886.3.1介绍性意见.886.3.2智能计划定义906.3.3与Susie90的比较6.3.4与等效重写的比较906.3.5亚智能定义916.4智能计划的特点6.4.1Web服务功能916.4.2为什么我们可以限制到路径926.4.3初步定义946.4.4弱智能计划的特征956.4.5智能计划的特点6.4.6弱次智能计划的特征986.4.7子智能计划的特征目录.ix内容x内容6.5生成智能计划1016.5.1最小智能计划1016.5.2苏茜1026.5.3限制弱智能计划1036.5.4生成弱智能计划1046.5.5生成智能计划1096.5.6生成弱次智能计划1096.5.7生成子智能计划1106.6实验1106.6.1合成函数1126.6.2真实世界的网络服务1136.7讨论1156.8结论1167Pyformlang1177.1导言. 1177.2以前的工作1187.3Pyformlang1197.3.1正则表达式7.3.2状态自动机1217.3.3固态传感器1227.3.4上下文无关语法1237.3.5下推自动机1267.3.6索引语法1277.4结论1318结论1338.1摘要1338.2展望134一 Résumé enfrançais137A.1 导言. 137A.2 卡西莫多138A.3 Réécriture derequêtes139A.4 Pyformlang141A.5 结论141B 附加证明143B.1第5.6节的证明B.1.1定理5.6.2的证明B.1.2财产证明5.6.9147B.1.3定理5.6.11149B.1.4定理5.6.13152B.2第5.4节和第5.5节的证明B.2.1定理5.4.7的证明B.2.2第5.4.8章证明图目录1.1知识库历史的时间轴2.1 Web服务返回的XML示例3.1Quasimodo系统概述253.2搜索引擎查询日志一瞥293.3特征与被标记为正确的陈述的相关性3.4比较抽样的质量3.5水平取样质量3.6召回评估433.7猜词游戏454.1门户网站架构494.2大象的顶级Quasimodo语句4.3提取管道可视化的顶层视图4.4SPARQL查询示例524.5玩禁忌！接口534.6代号接口544.7应答接口545.1一个等效的执行计划（蓝色）和一个最大包含重写-ing（绿色）在数据库上执行（黑色）585.2具有不同数量关系的已回答查询的百分比5.3功能数量不同的查询得到答复的百分比5.4具有不同数量存在变量的回答查询的百分比815.5我们演示的屏幕截图左图：我们的玩具示例，上面是函数，下面是正在构建的计划灰色箭头指示动画。右图：为实际Web服务functions职能836.1一个等效的执行计划（蓝色）和一个最大包含重写-ing（橙色）在数据库上执行（黑色）866.2查询电话的非智能执行计划（Anna，x）。Top：计划回答查询的数据库。底部：一个数据库，其中未过滤的计划有结果，但过滤的计划不回答查询89XII图目录图目录6.3查询jobTitle的智能计划（Anna，？（x）苏茜不会找到916.4有界平面936.5前向路径可以过滤解决方案996.6答复的查询百分比1126.7答复的查询百分比1137.1有限状态自动机的可视化7.2有限状态换能器1237.3解析树1257.4下推自动机的可视化XIII表的列表3.1候选人收集的问题模式3.2问题和陈述的例子3.3来源的候选三元组比例3.4分类器排名比较353.5垂直域SO簇和P簇的统计量占领393.6来自ver-novel的耦合SO团簇和P团簇的轶事例子动物和职业393.7不同完整知识库的统计数据413.8不同知识库上的动物和职业的两个切片的统计。413.9Selephant（上）和Sdoctor（下）的轶事示例（PO）443.10 问题回答中答案选择的准确性5.1Web服务和结果815.2实函数的例子5.3示例计划836.1我们的网络服务1136.2实函数示例（MusicBrainz的3个，ISBNdb的1个，LibraryThing的1个）1146.3使用智能计划的查询百分比6.4示例计划（MusicBrainz的2个，ABEBooks的XIV表的列表表的列表第1章绪论信息不是知识。阿尔伯特·爱因斯坦1.1动机1.1.1信息丛林上个世纪，人类进入了信息时代[29]。这个历史时期始于晶体管和第一台计算机的发明然而，正是70年代互联网的出现，尤其是1991年的万维网[17]，将人类推入了信息丛林。2000年1月，万维网由大约1000万个唯一域名组成2010年1月，这一数字达到1亿，2020年1月达到13亿（https://news.netcraft.com/archives/category/web-server-survey/）。这种指数增长是随着计算能力和存储容量的发展而出现的。互联网实时统计（https://www.internetlivestats.com/）提供的见解表明，互联网已经变得多么重要。目前，有：• 超过45亿人连接到互联网• 每秒发送近300万封电子邮件（其中67%是垃圾邮件）• YouTube上每秒观看约85，000个视频• 每秒超过80，000次Google查询• 大约每秒9,000条推文• 每秒约97，000 GB的互联网流量不过，这些数字只是冰山的可见部分许多互联网应用程序没有被搜索引擎索引，形成了我们所说的深层网络[16]。在这些应用中，我们发现，例如，网络邮件，银行应用，1第1章介绍21.1. 动机访问受限的网站（如Netflix、Facebook或某些报纸）或具有私有域名的应用（如传统DNS中未索引的IP或主机名互联网上有两种用户：人类和机器。机器在它们之间交换结构化信息或提供服务：这些就是我们所说的Web服务。人们使用互联网的两个主要目的是娱乐和寻找信息。在第一种情况下，他们通常花时间在社交媒体平台上（超过38亿人在Facebook，Twitter或Reddit等社交媒体上）或观看视频（例如YouTube或Netflix）。在第二种情况下，他们通常使用搜索引擎来过滤Web的复杂性然而，即使在使用搜索引擎时，人们也不太容易将大量的信息转化为知识。有些网站专门收集知识. 最突出的例子是维基百科，它包含大约600万个主题的文章。然而，在这一“安全区”之外，知识就会消失在相互冲突和复杂的信息海洋中。这个问题有几个原因首先，专业知识是罕见的。即使在问答论坛上被明确要求，人们有时也会对问题提供错误的答案。一些网站聚集了专家，并允许社区对解决方案进行分级，以防止潜在的错误。Stack Exchange Network中的技术问题和问答论坛（如Quora或Reddit）上的更一般的问题然而，观察到错误的内容是很常见的，特别是在没有专家的不流行的主题上。第二，人们可能愿意把错误的信息放在互联网上。在新闻领域，这就是我们所说的假新闻（柯林斯词典2017年年度词汇）。这种行为背后有多重目的有些人只是想传播他们的思想。然而，也有吸引力促使传播的情况：虚假和有争议的新闻比正确的新闻产生更多的访问前记者保罗·霍纳（Paul Horner）[118]因创建许多这样的网站而闻名，这些网站只发布假新闻，通过广告赚钱一些滑稽模仿网站专门报道有趣的新闻（如法国的Gorgue [71]可悲的后果是，一些政客传播这样的滑稽新闻，好像它们是真的。假新闻的问题也存在于主流媒体中[86]。在许多情况下，文章的作者并不关心真相：目标是制作能引起读者兴趣的内容。哲学家Harry Frankfurt称之为“胡说八道”，并将其与谎言区分开来，Sébastien Dieguez [42]将这一概念应用于我们当前的情况，并解释了“Bullshit”是如何1.1.2知识库结构信息互联网完美地说明了信息和知识之间的二分法一方面，信息有多种形式，是嘈杂的，可以是真的或假的，是丰富的。另一方面，知识是结构化的，精确的，专注于第1章介绍1.1. 动机3真理是有限度的。然而，两者协同工作，相辅相成。例如，先验知识有助于理解信息，因为许多事情是隐含的，不完整的和潜在的不正确的。例如，让我们考虑一下BBC的标题：敬-我们需要更多的知识：• 纽约因新型冠状病毒肺炎被封锁• 纽约是美国的一个大城市。• COVID-19是一场导致许多人死亡的大流行病• COVID-19正在消失• 纽约的重新开放意味着人们可以走出家门去工作和购物• 人们需要工作和购物• 封锁是一段艰难的时期• ...有了这些知识，大多数人都可以对标题进行推理并得出结论。如果我们想让计算机做同样的事情，我们必须通过知识库以计算机可读的形式提供这些背景知识，即一种收集“知识”的技术。1.1.3知识库简史在我们继续之前，有必要确定两种知识。第一个是我们在学校学到的基础知识例如，在学习地理时，我们知道法国的首都是巴黎。另一类是常识性知识，我们一生都在凭直觉学习. 例如，我们都知道，如果我们放下一个物体，它就会掉下来。但没有人教我们。这最后一种知识是很难得到一台电脑，因为人们普遍分享它，从来没有提到它，但使用它的所有时间。有时候，百科知识和常识之间的界限是模糊的，特别是当它们在文化背景下混合时。例如，每个法国人都知道开瓶器可以打开一瓶葡萄酒。然而，在一些不喝酒的国家，知道这一点的人可能要少得多。知识库随着80年代人工智能的诞生而出现有趣的是，第一个主要系统集中在常识知识上，这似乎是打破人类智能的关键第一个值得注意的工作是Cyc [79]。这个长期项目始于1984年，由微电子和计算机技术公司的Douglas Lenat指导。目标是收集尽可能多的知识，然后其他专家系统可以使用。Cyc在很大程度上依赖于专门的人力，目前开放的OpenCyc4.0版本包含200万个事实。此外，Cyc还带有一个推理引擎，允许在知识库上进行推理。

下载后可阅读完整内容，剩余1页未读，立即下载