没有合适的资源?快使用搜索试试~ 我知道了~
15230搜索、过滤、分叉和链接开放数据0ADEQUATe平台:数据和社区驱动的质量改进0Sebastian Neumaier维也纳经济与商业大学sebastian.neumaier@wu.ac.at0Lőrinc ThurnayDonau大学克雷姆斯分校loerinc.thurnay@donau-uni.ac.at0Thomas J. LampoltshammerDonau大学克雷姆斯分校thomas.lampoltshammer@donau-uni.ac.at0Tomáš Knap语义Web公司tomas.knap@semantic-web.com0摘要0本文描述了ADEQUATe平台:一个监测(政府)开放数据目录质量、重新发布改进和链接版本的数据集及其相应元数据描述,并将社区纳入质量改进过程的框架。通过链接和(元数据)改进步骤获得的信息随后被集成到语义搜索引擎中。在本文中,我们首先描述了平台的要求,这些要求基于焦点小组访谈和基于Web的调查。其次,我们使用这些要求来制定目标,并展示整个平台的架构,第三,我们通过描述探索系统的示例用户旅程来展示平台的潜力和相关性。该平台可在以下网址获得:https://www.adequate.at/0ACM参考格式:Sebastian Neumaier,Lőrinc Thurnay,Thomas J.Lampoltshammer和TomášKnap。2018年。搜索、过滤、分叉和链接开放数据:ADEQUATe平台:数据和社区驱动的质量改进。在WWW '18Companion:2018年Web会议伴侣,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,4页。https://doi.org/10.1145/3184558.319160201 引言0开放数据越来越成为我们社会的社会资本和企业以及工业领域的经济因素[1]。特别是在过去几年中,开放政府数据不断增加,公开可用数据集的数量也在稳步增长。然而,低数据质量是阻碍开放数据更广泛采用的普遍认可的因素。数据发布者通常缺乏专业知识和资源,无法确保以最佳方式发布数据,完全符合标准并具有完整的元数据。这种潜在的不完整和异构的元数据以及数据源之间的互操作性不足,阻碍了对数据集的更复杂搜索功能的利用,从而利用了数据集的语义。实际上,当前对开放数据的搜索0本文发表在知识共享署名4.0国际(CC BY4.0)许可下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW'18 Companion,2018年4月23日至27日,法国里昂©2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31916020政府数据目录(例如项目的用例门户data.gv.at)仅限于特定的方面,即仅限于元数据字段,忽略了实际数据集中的嵌入语义。此外,这些目录中当前可用的元数据描述不包含任何外部知识库、现有本体或其他数据集和数据目录的链接。缺乏外部引用意味着可能出现数据孤岛而不是连接和互联的数据门户。奥地利开放政府数据倡议在支持ADEQUATe研究项目时已经认识到了这些问题:分析和数据增强以提高开放数据的质量。该项目现在处于最后阶段,旨在提供一个编程框架,帮助(1)数据发布者以自动化、直观和高效的方式改进数据和元数据的质量,以及(2)数据使用者更好地搜索、判断数据的有用性并重复使用数据。在本文中,我们重点关注以下具体贡献:通过进行焦点小组访谈和调查(参见第2节)来确定开放数据使用者的主要挑战/需求,通过构建ADEQUATe平台来解决这些问题(在第3节中概述),并通过在第4节中描绘不同用户旅程的方式展示其基本使用场景。02 动机和要求0作为项目的初始步骤,为了明确目标和成果,我们进行了焦点小组访谈,并进行了关于奥地利开放数据门户当前数据质量问题的在线调查[2]。焦点小组访谈在2015年12月至2016年2月的四个不同事件中进行(即维也纳开放数据聚会、维也纳政府营地、格拉茨开放数据平台会议和萨尔茨堡IRIS会议),面向不同的利益相关者群体,包括普通人、对开放数据感兴趣的个人、平台提供商和科学家。总共有106人参加了焦点小组会议。我们使用预先定义的一组引导性问题来启动小组内的讨论过程,并随时接受新出现的额外方面。讨论过程被记录并转录,随后进行了定性分析,包括对回答进行编码,然后推导出类别和子类别。然后,根据这些类别对参与者的陈述(总共184项)进行了汇总,结果为01 http://adequate.at0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, France3https://www.poolparty.biz/4http://gitlab.com15240从四个主要方面来看,即'社区'、'质量'、'搜索'和'版本控制'。其中最突出的两个方面是'质量'(84项)和'搜索'(53项)。基于这些发现,我们为ADEQUATe平台制定了一套要求[3]。以下是我们总结的最重要的几点,并按照四个方面进行分组:质量报告、质量改进、链接和搜索、合作。20质量报告。用户希望: •知道数据在内容上的完整程度(例如,元数据中是否真的包含了2018年的所有条目)。 •使用结构一致的数据(例如,在给定的CSV文件中,逗号是否用作分隔符)。 • 知道数据集的描述是否完整和正确。 •知道数据的更新程度(例如,对于关键/实时应用程序)。 •对于可用的数据集,清楚了解法律方面的问题(例如,许可证信息)。质量改进。用户希望: •查看特定数据集的问题(例如,报告的错误或缺失)。 •查看数据集的变化,以确定潜在的质量改进(例如,社区成员建议对已识别的错误进行更正)。 •查看特定数据集随时间的发展(即,社区在特定问题或数据集上的活动率)。链接和搜索。用户希望: •在搜索特定实体(例如维也纳市)时,查看所有资源(CSV文件)。 •能够创建和修改搜索结果的过滤器(例如,单个关键字、时间、格式)。 • 有良好索引的数据集,以改进搜索结果。 •具有超越纯关键字搜索的灵活搜索功能。这意味着例如能够:1)根据包含的概念类型(在CSV文件的列类型方面)搜索数据集;2)考虑概念类型的层次结构进行搜索。合作。用户希望: •讨论和合作处理特定数据集。 •能够分叉特定数据集,以独立处理某些想法/问题。总的来说,我们可以得出结论,数据质量和搜索是研讨会和调查中讨论最多的主题。参与者报告称,许多数据集存在非标准编码或编码与数据集的实际编码不一致等问题。除了质量方面,用户还希望在给定的平台上改进搜索过程和提供的搜索功能。他们声称,如果用户不使用确切的搜索词,很难找到特定的数据集。02 我们已经过滤掉了超出我们控制范围的要求,例如用户希望将公共数据标记为正确。03 ADEQUATE平台0图1显示了ADEQUATe平台的总体架构。数据监视组件(参见图底部的块)构建在Open Data PortalWatch框架[4]之上。它从两个奥地利开放数据门户data.gv.at和opendataportal.at中收集数据集和相关元数据描述。它由编排组件触发,该组件为数据集安排每周的获取、归档、注释、质量评估和改进流水线。ADEQUATe平台以ADEQUATe知识库为中心,该知识库包含奥地利开放数据门户中可用的实体、类和关系。ADEQUATe知识库用于(半)自动地将输入数据中的术语链接到链接数据实体,并在数据集搜索期间自动构建搜索分面。ADEQUATe知识库可以通过“PoolParty词库管理器”(来自PoolParty语义套件3)进行维护。0图1:ADEQUATe平台的总体架构。0该平台由以下组件组成:质量评估。质量评估和报告组件计算[4]中开放数据指标。例如,它显示质量指标,如资源的可用性和数据集许可证的开放数据合规性。质量改进。质量改进组件侧重于元数据描述和表格资源(即CSV文件):我们使用Schema.org和DCAT[5]元数据标准对描述进行映射和归一化,并使用文件大小和文件格式等信息自动完成元数据,详细描述在[6]中。关于CSV文件,对于每个文件,我们规范化编码(UTF-8)和分隔符(“,”),并提供单个标题行(如果缺少/多个标题行)。改进后的元数据和“清理”后的CSV文件在构建在Gitlab 4之上的社区门户上重新发布。0Track: PROFILES & Data Search: International Workshop on Profiling and Searching Data on the Web WWW 2018, April 23-27,2018, Lyon, France15250链接和搜索。链接组件基于Odalic[7],这是一个用于语义解释输入表格数据(CSV文件)并将其发布为链接数据的工具。用户可以在输入表格上运行Odalic,并获得表格注释的建议 -我们区分不同类型的注释:(1)列的分类,(2)单元格值的消歧,以及(3)列之间的发现关系。Odalic基于ADEQUATe知识库(以及可选的基于外部SPARQL知识库,如DBpedia的知识库)提供注释,其内部语义表解释算法以及用户反馈 -用户可以进一步微调建议的注释,例如将某些消歧标记为错误,手动设置列分类或提出新的关系。最后,语义解释的数据可以导出为RDF/链接数据,保存回ADEQUATe平台,并且还可以进一步改进搜索引擎。图1中的编排器确保从其原始位置收集的所有数据集也使用ADEQUATe知识库中的实体进行注释。对于那些自动注释,我们使用“PoolParty提取器”准备了UnifiedViews[8]流水线,这是一种用于自动注释非结构化数据的工具。0为了解决用户对数据集搜索的要求,使用“PoolPartyGraphSearch” 6实现的搜索引擎允许用户不仅通过全文搜索,还通过基于ADEQUATe知识库中的类和实体的分面进行搜索。在平台的最终版本中,搜索引擎还将使用社区生成的Odalic注释;然而,这个功能尚未完全集成。社区门户。平台的社区门户基于Gitlab7:一个基于Web的Git存储库管理器,具有多个协作功能。对于每个数据集,在我们的ADEQUATeGitlab实例中都有一个专用项目,我们在其中重新发布改进版本的这些数据集和元数据描述,以使它们对社区可用。此外,我们为所有数据集提供一个着陆页,显示质量评估结果、资源的改进版本,并为用户提供与数据集交互的方式,例如使用Odalic将CSV文件转换为链接数据(参见链接)。为了使社区能够处理数据集,用户可以在门户上分叉和发布改进/更改版本的数据集。04 平台上的示例用户旅程0在本节中,我们提供了三个用户旅程——一个经验不足的新手,一个中级用户和一个专业用户——以示范在ADEQUATe平台上查找和处理数据集的过程。这些用户旅程代表了初始焦点小组成员(见第2节)的要求和技能水平如何反映在ADEQUATe平台的开发功能上。05Odalic和“PoolParty提取器”之间的主要区别在于Odalic按需运行,通过采用独特的语义表解释算法考虑表结构,结合用户反馈,并允许定制的链接数据导出。6https://www.poolparty.biz/poolparty-semantic-graph-search-server/ 7https://about.gitlab.com/0用户旅程1:新手见面迈克尔,他精通日常工作中的表格数据(例如CSV、Excel),但对开放数据一无所知。因此,他对潜在的缺点、开放数据的维护、责任限制或相关的质量和格式问题一无所知。此外,迈克尔以前从未听说过开放数据门户及其功能。在某个时间点,迈克尔意识到为了能够继续他的项目,他必须获取额外的数据。迈克尔首先要做的是在线搜索数据。此时,迈克尔可能通过两种替代方案与ADEQUATe平台取得联系。在第一种情况下,迈克尔在开放数据门户(即opendataportal.at)上找到了他正在寻找的数据。在查看数据集时,他发现了“ADEQUATe按钮”,8表明有这个数据集的另一种版本可用。该按钮将迈克尔引导到ADEQUATe平台上关于该数据集的详细页面。第二种情况是迈克尔通过搜索引擎结果直接进入ADEQUATe平台。从这里9开始搜索有趣的数据,通过底层使用语义技术和链接数据方法提供了改进的搜索体验,包括高级搜索选项,如面向方面的搜索。这两种情况都为迈克尔提供了对感兴趣的数据集属性的基本概述,包括所有相关信息,如数据集的一般描述(例如发布日期、最后更新时间、相关关键字、数据集内的实体等)。此外,他还可以看到数据集的所有可用分发(即数据以CSV文件、Shapefiles等形式可用),以及数据和相关元数据的评估质量属性列表,包括改进现有缺点的建议。下载列表还包括ADEQUATe平台自动生成的改进版本。改进包括格式和CSV标准化问题(例如标准化不一致的分隔符)。此外,迈克尔还可以看到社区在讨论和改进这个特定数据集方面的活动。在仔细查看数据集时,迈克尔发现描述只有德语版本。由于数据集包含可能对国际受众感兴趣的资产,迈克尔希望请求一个英文版本的描述。为了提交请求,他点击数据集页面上的讨论部分,在ADEQUATe平台上免费注册一个账户,并立即能够提交他的请求,供社区成员,包括数据集的所有者,接收。0用户旅程2:中级与此同时,玛格丽塔正在进行她的数据项目。她在处理不同类型的数据时有经验,包括开放数据。由于她项目的设置,玛格丽塔对她所处理的数据的格式有特定的要求和期望,包括源自技术相关兼容性问题的必需品。在工作的某个时刻,她意识到0参见http://data.opendataportal.at/dataset/kunstler-der-sammlung-des-mumok上的“ADEQUATe Checked”按钮0主题:PROFILES和数据搜索:国际研讨会上的数据分析和搜索WWW 2018,2018年4月23日至27日,法国里昂15260她最近从opendataportal.at下载的数据集缺少应该存在的条目,这些条目基于数据集的描述和元数据。因此,她返回到门户的下载页面,以联系数据集的作者/所有者。在下载页面上,她看到了“ADEQUATe按钮”,表明这个数据集有一个可替代版本可用。她点击按钮,进入ADEQUATe平台上关于数据集的详细页面。在浏览页面时,她发现了平台上的讨论部分。在免费注册ADEQUATe平台的帐户后,她立即参与到讨论中。她首先遇到的评论之一是Michael关于英文描述的请求,她回复说这是一个好主意,因为她也认为这对国际受众有附加价值。在接下来的讨论中,她了解到关于她最初来到这里的确切问题的讨论,即数据集中缺少的条目。似乎这个问题已经报告了一段时间,并且ADEQUATe用户提供了一个修复版本的数据集。她跟随链接到新版本,并发现ADEQUATe的版本历史,显示了在平台上导致这个改进版本的发展路径,包括历史线上的所有先前版本。此外,ADEQUATe平台允许她查看已对数据集进行的确切更改,通知她关于新条目的信息,这些条目符合她的请求。0用户旅程3:专业人士最后,有Kate,一位经验丰富的数据科学家,具有处理各种数据的实际经验,从封闭的专有数据到标准化的政府开放数据。Kate目前的项目包括使用RDF数据集的LinkedData工作。不幸的是,她最近从opendataportal.at直接下载的数据集没有包含任何语义注释。然而,她知道ADEQUATe平台,她过去成功地在项目中使用过该平台,包括其提供的用于语义丰富的附加工具。她直接进入平台,并通过ADEQUATe的增强搜索功能搜索数据集。她很快找到了数据集,并进入概览页面。从那里开始,她检查ADEQUATe上可用的版本,并意识到尚未提供丰富的版本。因此,她启动了ADEQUATe集成的工具Odalic,该工具提供语义丰富功能。在她细化Odalic建议的类和实体后,Kate导出了丰富的CSV文件,以及数据的RDF版本。她对结果很满意,并决定将丰富的版本提供给社区。通过ADEQUATe的版本控制功能,Kate分叉数据集,添加了新的丰富版本,并向数据集所有者提交了一个pull-request,以便将新版本添加到存储库中。此外,她还决定在讨论主题上发布有关新版本的消息。当她在那里时,她看到了一个名为Michael的用户关于相同数据集的英文描述的请求。由于第二个名为Margarita的用户也支持这个请求,她决定快速翻译描述并提交第二个pull-request以获得这个新版本。0结论50根据焦点小组访谈和调查,我们确定了开放数据消费者面临的三个主要挑战/需求:首先,参与者报告了元数据和数据本身的整体质量问题;其次,数据源之间缺乏互操作性;第三,数据门户的搜索功能有限。ADEQUATe平台结合了数据和社区驱动的方法来解决这些问题。它包括一个框架,该框架:1)根据全面的质量指标列表持续评估数据集的质量;2)应用一组启发式算法来改进已识别的质量问题;3)使用语义Web技术、语义表解释工具Odalic和ADEQUATe知识库,通过检测底层实体、类和关系,将传统的开放数据源(CSV文件)转换为链接数据,并在这些注释上进行语义搜索;4)它允许社区协作,通过在平台上分叉和重新发布数据集。为了展示具有不同技术/数据处理知识的用户如何与平台进行交互,我们提供了三个用户旅程。作为未来的工作,我们计划集成更多工具,例如Open-Refine,并通过使用Odalic生成的注释来改进搜索结果。为了确保ADEQUATe项目成果的高度利用和延续,我们计划接管与奥地利CommuniData项目有实质关联的现有平台的几个部分。CommuniData项目的目标是提高非专家用户的可用性和可访问性,因此它与ADEQUATe的成果是互补的:可用性和社区参与方面将是现有平台的理想延续和扩展。0致谢0ADEQUATe项目由奥地利联邦交通、创新和技术部(BMVIT)在“未来ICT”计划(资助号849982)下资助,时间为2015年10月至2018年6月。0参考文献0[1] Thomas J Lampoltshammer和Johannes Scholz.《数字社会中的开放数据作为社会资本》,第137-150页。剑桥学者出版社,纽卡斯尔,2017年。[2] Martin Beno,Kathrin Figl,Jürgen Umbrich和Axel Polleres.对使用和发布开放数据的主要障碍的认知。JeDEM-eDemocracy和OpenGovernment杂志,9(2):134-165,2017年。[3] ThomasLampoltshammer和Johann Höchtl.需求规范。技术报告,ADEQUATe交付物D1.2,2016年。https://www.adequate.at/wp-content/uploads/2016/07/D1.2RequirementsSpecification_del.pdf。[4] SebastianNeumaier,Jürgen Umbrich和Axel Polleres.跨开放数据门户的自动化元数据质量评估。《数据和信息质量杂志(JDIQ)》,8(1):2,2016年。[5] Fadi Maali和John Erickson.数据目录词汇(DCAT)。http://www.w3.org/TR/vocab-dcat/,2014年1月。[6]Sebastian Neumaier,Jürgen Umbrich和Axel Polleres.将数据门户提升到数据网络。在WWW2017Web上的链接数据研讨会(LDOW2017),澳大利亚珀斯,2017年4月3日至7日,2017年。[7] Tomáš Knap.在ADEQUATe项目中用于语义表格解释的Odalic工具的发展。在第5届国际信息提取链接数据研讨会上的论文集与第16届国际语义Web会议(ISWC2017)同时举办,维也纳,奥地利,2017年10月22日。第26-37页,2017年。[8] TomášKnap等人。UnifiedViews:RDF数据管理的ETL工具。语义Web杂志,2018年(即将出版)。http://www.semantic-web-journal.net/content/unifiedviews-etl-tool-rdf-data-management-0。010 http://openrefine.org/ 11https://www.communidata.at/0研讨会: 2018年4月23日至27日,法国里昂,国际网络数据概况和搜索数据研讨会
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功