没有合适的资源?快使用搜索试试~ 我知道了~
用于集成弱结构和不确定数据的可视化平台法国拉贝莱斯旅游大学MIPTIS博士学校计算机科学实验室EA6300论文提交人:保罗·达席尔瓦·卡瓦略支持日期:2017年12月19日获得学位:弗朗索瓦-拉伯雷图尔大学博士学科/专业:计算机科学论文指导人:VenturiniGilles教授,图尔弗朗索瓦-拉伯雷大学里尔大学BoualiFatma教授报告员:BENBERNOUSalima教授,巴黎笛卡尔大学,LipadeDe RUNZCyril兰斯香槟-阿登大学HDR讲师, CRESTIC陪审团:BENBERNOUSalima教授,巴黎笛卡尔大学,Lipade里尔大学BoualiFatma教授De RUNZCyril兰斯香槟-阿登大学HDR讲师, CRESTICOTJACQUESBenoît博士卢森堡科学与技术研究所单位负责人技术VenturiniGilles教授,图尔弗朗索瓦-拉伯雷大学ZIGHEDDjamel里昂大学教授,评审团主席3谢谢你我要感谢我的妻子安娜·卡塔琳娜,她毫无疑问,这是尽管如此,我认为我已经成功地接受了这一挑战。这个论文项目也是献给我的孩子,亚历克斯和马克斯(按字母顺序,没有偏好顺序),他们比我的论文项目开始时小得多这样,当他们长大后,他们就会明白,一个人永远不会太老,不能开始学习新知识或获得新技能-- "生活是一个不断学习的过程--明智的通过或多或少当然,我也要感谢我的导师。我要感谢我的论文导师和共同导师,图尔弗朗索瓦-拉伯雷大 学教 授Gilles Venturini、 里尔 大 学教 授 Fatma Bouali 和 卢森 堡 科学 技 术研 究 所(LIST)高级研究员Patrik Hitzelberger,感谢他们在过去三年中通过大量的工作、会议和讨论给予我的支持和帮助在我看来,我们在这段时间里进行的各种思想交流非常感谢他们所做的工作和投入的时间。最后,非常感谢即使考虑到这些困难,我们也成功地完成了这一雄心勃勃的项目4谢谢你5摘要我们听到很多关于大数据、开放数据、社交数据、科学数据等的消息。 本论文中介绍的工作涉及数据的理解、评估、纠正/修改、管理,最后是数据的整合,以使其能够被我们的研究专门研究开放数据(DO),更具体地说,研究表格格式(CSV)的数据。开放数据一词最早出现于1995年。全球变化数据和信息系统(GCDIS)小组(美国)使用它来鼓励具有相同利益和关切的实体共享其数据(Data and System,1995年)。由于开放数据运动是最近才出现的,这是一个目前正在迅速发展的领域。它的重要性目前非常强烈。L’encouragement donné par les gouvernements et institutions publiques à ceque leurs每天都有大量这些数据集由多个部门的实体和组织发布(例如:金融、文化、交通、环境、卫生、教育)。由于已发表数据的数量和多样性,在社会和经济层面利用和再利用这些数据的潜力很大。然而,一些现有的约束并不总是有助于DO的重用。有时,数据是由不具备有效发布数据集所需技术知识的人员提供的这可能是发布数据时可能没有元数据,而元数据对于实现重用至关重要:如果没有元数据,搜索和检索数据集将是一项非常复杂的任务,如果不是不可能的话在DO领域,数据集由不同的实体和组织发布。可以使用不同的发布策略分析此数据的用户必须首先能够找到要分析的相关数据,然后才能了解每个数据集的组织结构。能够检测和区分数据集中的相关数据以及可能存在的任何问题是至关重要的在其他情况下摘要6可能会发现不完整的数据集或具有可疑质量值的如果当使用错误的数据可能导致意外和不希望的结果时,使用质量可疑的数据有什么意义有必要为用户提供有效和直观的方法只有这样,数据才能最终被利用。另一个重要问题与DO部门发布的信息量有关。每天都有新的数据集发布并可供使用。Être ca- pable 当我们谈论海量数据时,能够同时处理大量数据以减少分析数据所需的时间是至关重要的需要同时处理多个数据集所提出的工作提出了一个解决方案,适合于不同配置文件的用户使用,无论他们是否有技术背景或数据可视化方面的专业知识这第一步允许这些操作可以应用于单个数据集或一组数据集。这些不同的可能性可以帮助加速DO的重用,并相应地可视化解决方案是利用数据可视化的优势及其高效表示大量信息的能力的首选解决方案使用现有的可视化技术然而,我们通过创建一种新的技术来可视化以表格格式组织的信息(Stacktab图),将挑战推得更远这一级别的现有解决方案该原型是使用以下开源技术开发的:Java、JavaScript、PHP、CSS以及AngularJS和D3.js JavaScript库用于构建DO目录的数据库管理系统是MySQL系统关键词:数据质量,数据可视化,数据集成,开放数据,表格数据,CSV,元数据7摘要摘要89摘要我们听到了很多关于大数据、开放数据、社会数据、科学数据等的消息。目前,数据的重要性通常非常高。我们生活在大数据时代。如果目标是成功地从中提取价值,以便使用这些数据,则对这些数据进行分析是很重要的本论文项目的工作涉及数据的理解、评估、纠正/修改、管理和最终整合,以允许其各自的利用和再利用。我们的研究完全集中在开放数据上,更具体地说,是以表格形式组织的开放数据(CSV是开放数据领域中使用最广泛的格式之一"开放数据"一词首次出现是在1995年,当时全球变化数据和信息系统(GCDIS)小组(来自美国)使用这一术语鼓励具有相同利益和关切的实体共享其数据[DataandSystem,1995]。然而,开放数据运动只是最近才急剧增长。它已经成为全世界流行的现象。作为最近的开放数据运动,它是一个正在发展的领域,其重要性非常强。鼓励政府和公共机构公开发布其数据在这方面发挥着重要作用。现在和每天都有大量的新信息向公众提供和获取。这些数据集由属于不同部门的实体和组织发布。例如:金融、文化、交通、环境、卫生、教育。由于已发表数据的数量和多样性,这些数据在社会和经济上的利用和再利用潜力很大永远存在着几个限制,这导致了DO的再利用并不总是容易或可能的。数据有时是由没有有效发布数据集所需的先进技术知识的人提供的。这可能会导致一些错误或问题。如果目标是允许数据重用,则发布数据时可能没有元数据,这一点至关重要:没有元数据,查找和检索数据集可能会变得非常复杂,甚至不可能完成任务。首先,为了能够使用互联网上发布的开放数据,必须了解它们。每个数据集都可以在单独的结构下组织。在开放数据领域,数据集由不同的实体和组织发布,每个实体和组织都有自己的发布政策。至关重要的是,分析此数据的用户首先能够找到要分析的相关数据,然后了解每个数据的结构。摘要10数据集已组织。必须能够检测和区分数据集中的现有相关数据以及数据可能包含的潜在问题。在其他情况下,TT也可能找到不完整的数据集或具有可疑质量值的如果目标是在全球范围内重新使用开放数据,那么就必须能够解决或解决这些问题。当使用错误数据可能导致意外和不希望的结果时,我们为什么要使用质量可疑的数据?有必要为用户提供有效和直观的手段,使他们能够解释、分析和有效地处理高质量的开放数据只有这样,数据才能最终得到有效利用另一个需要考虑的重要问题是开放数据部门发布的信息量。目前,每天发布大量数据集,并可供使用。可访问数据集的数量正在增加。能够单独分析数据集非常重要。但这是必要的有手段。当我们谈论大量数据时,能够同时处理大量数据以减少分析数据所需的时间是至关重要的。需要同时处理多个数据集。我们在本论文项目中所做的工作提出了一个解决方案,该解决方案适用于所有配置文件的用户--无论是否有技术背景,无论是否有数据可视化方面的专业知识--以便能够在前端理解CSV格式的开放数据集的结构,能够评估其质量,在需要时清理它们(这意味着正确或完成它们),并最终实现所需数据到单个集中式数据存储库的集成。这些操作可以应用于单个数据集,但也可以在数据集组上运行。这有助于加快开放数据的再利用,也有助于确保创新的技术飞跃。可视化解决方案旨在利用数据可视化的优势及其以有效和可理解的方式表示大量信息的能力。使用现有的可视化技术然而,我们通过创建一种新的技术来可视化以表格形式组织的信息,从而将挑战进一步提升,因为这一级别的现有解决方案无法满足我们的所有需求。该原型是使用以下开源技术开发的:Java、Ja-vaScript、PHP、CSS以及AngularJS和D3.js JavaScript库。选择用于构建开放数据存储库的数据库管理系统是MySQL系统。关键词:数据质量、数据可视化、数据集成、开放数据、表格数据、CSV、元数据11目录1引言、问题和最新技术水平251.1论文的。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...251.2论文。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...281.3手稿的组织。 . . . . . . . . . . . . . . . . . . . . . . . . . . ...291.4出版物。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...302背景和问题312.1开放数据。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ...322.1.1原则。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ...322.1.2参与者。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .332.1.3门户网站和其他举措 . . . . . . . . . . . . . . . . . . . . . . ...332.1.3.1澳大利亚。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ...342.1.3.2加拿大。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ...342.1.3.3美国人. . . . . . . . . . . . . . . . . . . . . . . . . . ...342.1.3.4欧洲. . . . . . . . . . . . . . . . . . . . . . . . . . . . ...352.1.3.5苏格兰。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...352.1.3.6联合王国。 . . . . . . . . . . . . . . . . . . . . . . . . ...352.1.4格式. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...35摘要122.1.5品种和数量 . . . . . . . . . . . . . . . . . . . . . . . . . . . .382.1.6价值。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ...382.1.7我们的工作。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...382.2论文中讨论的问题。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...382.2.1元数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...392.2CSV。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...412.2.3数据量。 . . . . . . . . . . . . . . . . . . . . . . . . . . ...432.2.4数据质量和清理 . . . . . . . . . . . . . . . . . . . ...462.3现有解决方案。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .462.3.1元数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...47材料表122.3.2数据的质量和清理472.3.2.1DataSplash482.3.2.2OpenRefine482.3.2.3数据管理员482.3.2.4InfoZoom502.3.2.5JMP512.3.2.6桌面透镜512.3.2.7表格图图形512.3.2.8Tablevision512.3.2.9Talend522.3.2.10 其他方法522.4我们的解决方案522.4.1元数据522.4.2数据的质量和清理533Vue d’ensemble et premières étapes (téléchargement des JDOs, gestion3.1为什么要进行数据可视化?....................................................................................... 563.2数据集的下载583.2.1CKAN583.2.2数据集下载模块583.3元数据管理593.3.1模块60的行为/使用3.4数据集的选择623.5一些例子633.5.1数据下载模块633.5.2元数据管理643.5.3数据集的选择644集合的分组、理解和管理模块数据694.1所采用的策略和算法724.2L’analyse et l’importance des typesde données4.3建造心脏结构724.4心脏结构的表示:stacktab74图4.5颜色代码和数据764.6与心脏结构76134.7心脏结构的性质和视觉表现78材料表4.8缺失值的检测794.9识别潜在问题794.10 统计数据804.11 实验805错误更正5.1脚本的交互式编辑865.1.1编辑875.1.2失踪89人5.1.3替换905.1.4更换所有915.1.5将所有空值替换为915.1.6将所有内容替换为空915.1.7删除第92行5.1.8删除列935.2JDO94核心结构之间的距离5.3对以前情景955.4脚本的测试和验证955.5其他操作的一些示例5.6实验1005.6.1消除操作5.6.2编辑操作5.6.3全球更换业务1066实验结果1116.1用户研究1116.2使用多个JDO1146.3完整案例研究6.3.1数据下载、元数据管理和选择。1156.3.2数据集的分组、理解和管理。1196.3.3错误更正材料表147一般结论和今后的工作1257.1工作总结1257.2设想的前景127材料表14附件135原型的整体架构135A.1 数据库管理系统- MySQL。 . . . . . . . . . . . . ... 136A.1.1数据模型。... ... ... ... ... ... ... ... ... ... ... ... ... ... . . . . . . . . . . . . ... 136A.1.2表 . . . . . . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . ... 13715图片列表1.1原型模块(图A.1.. . . . . . . . . . . . . . . . . . . . . . .282.1打开数据的规则。. . . . . . . . . . . . . . . . . . . . . . . . ...322.2可从三个主要DO门户获得的文件格式类型(2016年4月11日)。(1)https://www.data.gouv.fr/fr/(2)https://data.gov.uk/(3)https://www.data.gov/。 . . . . . . . . . .372.3在3个不同的OD(开放数据)门户网站上进行搜索时获得的元数据(MDT=下载的元数据)。(*)值473表示在www.example.com上搜索术语"environment"data.gov.au返回473个JDO(JDO = Open Data Set)。我们将搜索范围限制为前50个结果。(**)在前50个结果中,有15个已下载(仅CSV格式)。(*)153个元数据(键-值)与数据集一起下载,(*)对应于11个不同的键。... . . . . . . . . . . . . . . . . . . . . . . ...392.4通过在属于不同国家的三个OD门户网站上执行相同类型的搜索而获得的元数据的关键字列表。... . . . . . ...402.5截 至 2017 年 4 月 , 三 个 主 要 的 JDO 门 户 网 站 上 的 JDO 业 务 线 。 (1)https://www.data.gouv.fr/fr/ ( 2 ) https://data.gov 。 uk/ ( 3 )https://www.data.gov/。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ...446.1获得的回报 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1147.1体系结构的模块。 . . . . . . . . . . . . . . . . . . . . . . . . . . . ...1277.2每个模块的演示。... . . . . . . . . . . . . . . . . . . . . . . . ...131A.1 原型在不同级别使用的数据库表的列表。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ...137表的列表16
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功