没有合适的资源?快使用搜索试试~ 我知道了~
0HAL Id: tel-015086020https://theses.hal.science/tel-01508602v30于2017年10月19日提交0HAL是一个多学科开放存取档案,用于存储和传播科学研究文献,无论它们是否发表。这些文献可以来自法国或国外的教育和研究机构,也可以来自公共或私人研究中心。0HAL多学科开放存取档案旨在存储和传播法国或国外教育和研究机构以及公共或私人实验室发表或未发表的研究级科学文献。0在数据网络中整合异构数据源0Franck Michel0引用此版本:0Franck Michel. 在数据网络中整合异构数据源. 其他[cs.OH]. Côte d'Azur大学, 2017. 英文. �NNT:2017AZUR4002�. �tel-01508602v3� 0本作品根据许可证的条款提供0知识共享署名-相同方式共享4.0国际许可证0STIC博士学院:0信息与通信技术0研究单位:0I3S实验室,UMR 7271 CNRS Côte d'Azur大学,SPARKS团队0博士学位论文0为了获得0计算机博士0Côte d'Azur大学0由0Franck Michel0整合异构数据源0在数据网络中0由Johan M ONTAGNAT研究主任,CNRS指导0并由Catherine F ARON -Z UCKER,讲师,Côte d'Azur大学共同指导0于2017年3月3日支持0由以下委员会组成0评审人:Oscar C ORCHO教授,Facultad de Informática Boadilla del Monte0Marie-Christine R OUSSET教授,格勒诺布尔大学0导师:Johan M ONTAGNAT研究主任,CNRS0共同导师:Catherine F ARON -Z UCKER讲师,Côte d'Azur大学0主席:Fabien G ANDON研究主任,Inria0审查人:Cécile C ALLOU讲师,法国国立自然历史博物馆0Pascal M OLLI教授,南特大学0Pascal N EVEU研究工程师,法国国家农业研究所2 0摘要0在数据网络中整合异构数据源0在很大程度上,基于RDF的数据集成以及数据网络依赖于能够访问数据孤岛中的遗留数据,这些数据在网络上是不可见的。在过去的15年中,各种工作已经解决了将结构化数据转换为资源描述框架(RDF)的问题,从关系数据库(RDB),电子表格到XML数据格式。与此同时,NoSQL数据库的巨大成功使数据库领域变得比以往更加多样化。然而,到目前为止,这些数据库仍然无法被基于RDF的数据集成系统访问,尽管它们托管的数据可能对大众有兴趣,但它们对于数据网络仍然是不可见的。因此,为了利用NoSQL数据库的潜力以及更一般的非RDF数据源,本论文的目标是实现异构数据库上的基于RDF的数据集成,特别是弥合语义网络和NoSQL数据库之间的差距。0首先,我们提出了一种通用的映射语言xR2RML,能够描述多种类型数据库到任意RDF表示的映射。该语言依赖并扩展了先前关于将关系型数据库、CSV和XML转换为RDF的工作。其次,我们提出使用这样的xR2RML映射来实现RDF数据或者在本地数据库上动态评估SPARQL查询。为了推动遗留数据库上的SPARQL接口的开发,我们提出了一个两步骤的方法。第一步将SPARQL查询根据目标数据库到RDF的xR2RML映射转换为一个抽象的中间查询。在第二步中,将抽象查询转换为具体查询,考虑到数据库查询语言的特定性。我们非常关注抽象和具体层面上的查询优化机会。为了证明我们方法的有效性,我们开发了一个针对流行的NoSQL文档存储MongoDB的原型实现。我们使用数字人文领域中的一个真实用例验证了该方法。0关键词:数据集成,遗留数据,数据网络,虚拟RDF存储,xR2RML,SPARQL,MongoDB3 0摘要0将异构数据源集成到数据网络中0在很大程度上,基于RDF(资源描述框架)格式的数据集成以及数据网络的成功,取决于我们能否访问存储在数据孤岛中的数据,这些数据对于网络来说是不可见的。在过去的十五年里,许多工作致力于将结构化数据转换为RDF格式,包括关系型数据库和CSV、TSV和XML格式的数据。与此同时,数据库市场变得非常异构,特别是NoSQL数据库的大规模成功。然而,到目前为止,这些数据库对基于RDF的数据集成系统来说仍然是不可访问的。此外,尽管它们托管的数据可能对广大用户感兴趣,但这些数据在数据网络上仍然是不可见的。因此,为了利用NoSQL数据库和非RDF源的潜力,本论文的目标是基于RDF格式实现异构数据源的集成,特别是在语义网络和NoSQL数据库之间建立桥梁。0首先,我们提出了一种通用的映射语言xR2RML,用于描述将各种类型的数据源映射到任意的RDF表示。该语言扩展了先前关于将关系型、CSV和XML数据转换为RDF的工作。然后,我们提出使用这样的xR2RML描述来实现RDF数据,或者在本地数据库上动态评估SPARQL查询。为了促进对遗留数据库的SPARQL接口的开发,我们提出了一个两步骤的方法。第一步将SPARQL查询转换为基于目标数据库到RDF的xR2RML映射的抽象查询。在第二步中,将抽象查询转换为具体查询,考虑到数据库查询语言的特定性。在抽象和具体层面上都非常重视查询优化的机会。为了证明我们的方法的有效性,我们开发了一个针对流行的NoSQL文档存储MongoDB的原型实现。我们在数字人文领域中使用了一个真实的用例来验证该方法。0关键词:数据集成,历史数据,数据网络,虚拟RDF存储,xR2RML,SPARQL,MongoDB4 0内容0目录01.1 动机 ........................................................................................................................... 1101.2 目标 ............................................................................................................................. 1301.3 论文概述和出版物 ............................................................................................. 1401.4 约定 .......................................................................................................................... 1502.1 从公共领域到开放数据 ................................................................................... 1602.2 开放数据 ............................................................................................................................. 1702.2.1 开放政府数据 ................................................................................................................. 1802.2.2 开放科学和开放研究数据 .......................................................................................... 1902.3 关联数据和数据网络 .......................................................................................... 2002.4 NoSQL数据库 .................................................................................................................. 2402.4.1 简史 ............................................................................................................................... 2402.4.2 架构 ................................................................................................................................. 2503.1 数据集成原则 .................................................................................................... 2903.1.1 全局即视图 ............................................................................................................................... 2903.1.2 本地即视图 ................................................................................................................................. 3003.1.3 全局和本地即视图 ............................................................................................................... 3103.1.4 基于RDF的数据集成系统 .............................................................................................. 3203.2 基于本体的数据访问 ................................................................................................. 3203.3 将异构数据映射到RDF.................................................................................... 3503.3.1 将XML数据映射到RDF.............................................................................................................. 3603.3.2 将JSON数据映射到RDF ............................................................................................................ 3703.3.3 将CSV、TSV和电子表格映射到RDF ................................................................................... 3703.3.4 多格式映射工具和RDF集成框架 ...................................................... 3803.3.5 将关系数据库映射到RDF ............................................................................................ 3903.4 结论............................................................................................................................. 4204.1 引言 .......................................................................................................................... 4304.2 通用映射语言的要求 ................................................................. 435 0内容04.2.1 数据模型 ................................................................................................................................... 4304.2.2 查询语言 ............................................................................................................................ 4504.2.3 集合 ..................................................................................................................................... 4604.2.4 交叉引用 ............................................................................................................................ 4704.2.5 自定义函数 ........................................................................................................................... 4804.2.6 使用命名图组织RDF数据集 .................................................................................. 4904.3 用最新技术支持通用映射语言 ................................................................................ 4904.4 R2RML和RML .................................................................................................................... 5204.4.1 R2RML:RDB到RDF的映射 ......................................................................................................... 5204.4.2 R2RML的RML扩展 ......................................................................................................... 5404.4.3 讨论 ...................................................................................................................................... 5504.5 结论............................................................................................................................. 5605.1 引言 .......................................................................................................................... 5805.2 运行示例 ................................................................................................................... 6005.3 初步定义 .......................................................................................................... 6005.4 三元组映射和逻辑源:从R2RML/RML到xR2RML ........................................... 6105.4.1 R2RML逻辑表与RML逻辑源的比较 ................................................................................... 6105.4.2 xR2RML三元组映射和逻辑源 ......................................................................................... 6105.4.3 引用公式 ................................................................................................................... 6205.4.4 三元组映射迭代模型 ........................................................................................................... 6205.4.5 唯一标识文档 ..................................................................................................... 6405.5 从查询结果中选择数据元素 ......................................................................... 6405.5.1 数据元素引用 ............................................................................................................... 6405.5.2 使用自定义函数实现领域逻辑 ............................................................................ 6505.6 生成RDF术语和(嵌套的)RDF集合/容器 ............................................ 6605.7 交叉引用的逻辑源 .......................................................................................... 6905.7.1 具有多值数据元素引用的连接查询 .................................................................... 6905.7.2 从一对多关系到RDF集合/容器 ................................................. 7105.8 视角 .......................................................................................................................... 7205.9 结论............................................................................................................................. 7406.1 引言 .......................................................................................................................... 7806.1.1 xR2RML映射的规范化 ............................................................................................... 7906.1.2 运行示例 ........................................................................................................................... 8006.2 与SPARQL重写相关的先前工作 ........................................................................ 8106.3 将SPARQL查询重写为在规范化的xR2RML映射下的抽象查询 ............................................................... 8306.4 将SPARQL图模式重写为抽象查询语言 ................................... 8406.4.1 SPARQL过滤器的管理....................................................................................................... 8606.4.2 LIMIT子句的管理 ................................................................................................... 8806.5 将xR2RML三元组映射绑定到三元组模式 .................................................................... 8906.5.1 RDF集合和容器的情况 .......................................................................................... 906 0内容06.5.2 术语映射,三元组模式术语和SPARQL过滤器的兼容性 ............................................ 9106.5.3 绑定的减少..................................................................................................................... 9306.6 将SPARQL三元组模式转换为原子抽象查询 .................................... 9606.6.1 函数 transTP m 的算法...................................................................................................... 9706.6.2 计算原子抽象查询 ............................................................................................... 9906.7 抽象查询优化............................................................................................... 10306.7.1 过滤器优化 ....................................................................................................................... 10306.7.2 过滤器推送............................................................................................................................... 10406.7.3 自连接消除 ..................................................................................................................... 10406.7.4 自连接消除.................................................................................................................. 10606.7.5 常量投影 ...................................................................................................................... 10706.7.6 过滤器传播 ........................................................................................................................ 10706.8 综合运行示例 ........................................................................................... 10806.9 结论和展望 ............................................................................................... 11007.1 引言 ........................................................................................................................ 11207.2 MongoDB查询语言 ........................................................................................... 11307.2.1 MongoDB Find 查询方法 ...................................................................................................... 11407.2.2 语义歧义 ................................................................................................................. 11607.2.3 MongoDB查询的抽象表示 ............................................................................. 11707.3 JSONPath语言 ...................................................................................................... 11807.4 抽象查询转化为MongoDB查询 ..................................................... 12007.4.1 投影的转化 ............................................................................................................. 12307.4.2 条件的转化 ............................................................................................................. 12707.4.3 优化和转化为具体的MongoDB查询 .................................................................................... 13407.5 完整的查询转化和评估算法................................................................. 14307.6 讨论和展望 ................................................................................................ 14407.7 结论........................................................................................................................... 14708.1 引言 ........................................................................................................................ 14908.2 Morph-xR2RML原型实现 .................................................................. 15008.3 构建一个SKOS动植物参考词库 ................................ 15208.3.1 TAXREF: 保护生物学中的分类参考 ........................................................... 15308.3.2 基于TAXREF的SKOS词库的建模 .............................................................................. 15408.4 图材料化 ......................................................................................................... 15808.4.1 基于TAXREF的SKOS词库的xR2RML映射 ............................................................................. 15808.4.2 图材料化处理 ................................................................................................. 16008.4.3 视角 ................................................................................................................................. 16108.5 SPARQL到MongoDB查询转换 ............................................................................. 16308.5.1 实验环境 ...................................................................................................... 16508.5.2 处理简单的基本图模式 .................................................................................. 16508.5.3 连接、并集和查询优化 ...........................................................................
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功