数据质量管理可视化分析：复杂性挑战及解决方法

173 浏览量更新于2024-01-24 收藏 737KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学2（2018）191通过可视化分析控制数据质量：复杂性挑战刘世霞a，刘晓波，根纳季·安德里延科b，c，吴英才d，曹南e，刘江a，石聪磊f，王玉顺g，洪锡熙ha清华大学，中国b德国圣奥古斯丁弗劳恩霍夫研究所c英国伦敦大学城市学院d浙江大学，中国中国上海同济大学fAirbnb，San Francisco，CA，USAg国立交通大学，台湾h悉尼大学，悉尼，澳大利亚ar t i cl e i nf o文章历史记录：2018年11月20日收到2018年12月11日接受2018年12月22日在线提供MSC：00-0199-00保留字：数据质量管理可视化分析数据清理a b st ra ct数据质量管理，特别是数据清洗，在数据管理和可视化分析领域已经被广泛研究了很多年本文首先从数据管理、可视化分析和人机交互三个方面对相关研究进行了回顾和探讨。然后针对多媒体数据、文本数据、轨迹数据和图形数据等不同类型的数据，总结了在不同分析阶段利用数据清洗技术提高数据质量的常用方法基于深入的分析，我们提出了一个通用的可视化分析框架，交互式清洗数据。最后，在数据和人类的背景下分析和讨论了挑战和机遇2018浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 1912.相关工作1923.数据类型及其关系1934.不同数据类型1935.分析管道1946.研究的挑战和机会1956.1.数据复杂性1956.2.人类的复杂性1967.结论196致谢196参考文献1961. 介绍随着以数据为中心的方法在商业、科学和工程问题中的日益占主导地位，数据及其质量变得越来越重要（Fan和Geberg，2012;Liu等人，2013）。，2019; McCurdy et al. ，2019; Song andSzafir，2019）.*通讯作者。电子邮件地址： shixia@tsinghua.edu.cn（美国）Liu）.同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2018.12.001然而，在数据收集和处理阶段，一些不完整、不一致、重复、不准确或不可逆转的变化（例如，为了保护隐私而消毒（Amiri，2007; Do-madiya 和 Rao ， 2013; Modi et al. ， 2010;Oliveira 和Zaïane，2003））数据可以被融合，这通常会影响数据的进一步使用（例如，降低学习模型的准确性），并可能导致消费者信任和收入的损失因此，在大数据时代，准备和处理数据的一个关键问题是确保数据的质量和可用性（数据质量管理），包括检测、删除和纠正数据中的错误和2468- 502 X/©2018浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinf192S. Liu，G.安德里延科Wu等人/视觉信息学2（2018）191数据质量管理在数据库和数据管理领域已经研究了很多年（Liuet al. ，2019; Kwonet al. ，2014年）。它的主要目标是有效地检测和纠正数据中的错误。作为数据驱动分析的重要组成部分，数据质量管理占用了30%大多数成熟的作品都集中在表格数据上，例如评估数据质量（ Kandel et al. ， 2012 ）、交互式数据清理（ Raman 和Hellerstein，2001）和数据管理员（Kandel et al. ，2011 a）。然而，由于数据的复杂性增加（例如，多媒体数据、文本、图形、序列和轨迹等）通过各种方式收集，有效和准确地提高数据质量越来越具有挑战性。在大多数情况下，专家的领域知识对于指导数据质量管理算法的更好性能非常重要（ El Bekri和Peinsipp-Byma ，2016）。因此，近年来人们越来越关注如何在分析过程中更好地将用户引导方法与系统引导方法相结合，其中信息可视化和可视化分析是实现这一目标的重要部分（McCurdy et al. ，2019; Song andSzafir，2019; Liu et al. ，2017; Choo and Liu，2018; Gschwandtneret al. ，2012）。数据清洗是一种广泛使用的有效数据质量管理实践因此，大多数现有的数据质量管理工作都集中在数据清理上。在本文中，我们首先报告了不同研究领域的相关工作，包括数据管理，可视化分析和人机交互。然后针对不同类型的数据，总结了在不同阶段利用数据清洗技术提高数据质量此外，需要对设计用于数据清洗的可视化分析系统的框架进行高层抽象，作为该方向研究的一般指导方针。因此，受到Van den Broeck等人提出的管道的启发。（2005），我们开发了一个可视化分析框架，专注于迭代和逐步提高从筛选阶段到诊断阶段和纠正阶段的数据质量。最后，我们探讨了研究的挑战和机遇，并将其与我们的可视化分析框架相结合，我们希望这可以更好地指导未来的可视化分析研究数据清洗。2. 相关工作在过去的二十年里，研究人员一直在广泛研究各种数据清洗技术，以提高数据质量。大多数工作主要来自两个研究领域：数据管理和可视化分析。在数据管理领域，研究人员已经开发了许多方法来检查、修复和纠正数据中的不一致和错误。现有的努力可以分为三类：基于规则的检测方法，用于通过一组规则来清理数据（Abedjan etal. ，2015; Fan et al. ，2012; Gegeland et al. ，2014; Khayyat etal. ，2015），用于发现和解决数据中的异常值和故障的定量错误检测方法（Dasu和Loh，2012 ; Prokoshyna等人，2015），用于发现和解决数据中的异常值和故障的定量错误检测方法（Dasu和Loh，2012; Prokoshyna等人，2015）。，2015; Vartak等人，2015; Wu和Madden，2013），以及用于检测重复数据项的记录链接和去重复方法（Elma-garmidet al. ，2007; Stonebraker etal. ，2013）。最近，Abedjanet al. （2016）进行了全面的评估，以分析现有算法对四种常见类型的数据错误的性能，包括离群值，重复，违反规则和违反模式。这些错误类型是相对通用的，可以应用于表格数据之外。然而，这些工作并没有提供端到端的数据清洗管道。为了能够有效和高效地进行数据清理，已经制定了若干框架。例如，Florescand将清理应用程序建模为基于图形的数据转换，可以应用于基于SQL的数据库（Florescand，2000）。吉尔和李开发了一个专门针对数据流的分布式数据清理框架（Gill和Lee，2015）。由于使用范围有限，这些框架不能应用于一般的数据清理应用程序。Broeck等人，提出了一个三阶段的数据清理框架，可以是手动的，也可以是自动的。该框架将整个过程分为三个阶段，筛查阶段，诊断阶段和纠正阶段（Van den Broeck et al. ，2005）。对于每个阶段，确定了关键问题这个框架的主要特点是它涵盖了整个分析工作流程，从原始数据的探索，以实际的错误纠正。在大多数现实情况下，由于错误的模糊性和需要人类知识来验证清洗结果，数据清洗过程不能完全自动完成。为了有效地将人类循环到数据清理过程中，可视化分析研究人员已经开发了几项专注于交互式数据清理的工作在大多数情况下，这些工作旨在解决某些类型的数据，主要是结构化的表表示的一些特定的任务。Krishnan等人（2016）设计了ActiveClean来交互式地清理统计建模的数据Profiler（Kandel et al. ，2012）被设计为交互式地检测和视觉地总结来自数据的离群值。 von Zernichow和Roman（2017）提出了一个用于可视化数据分析的原型系统，重点是发现和纠正表格数据中的缺失值和离群值 Wrangler（Kandel etal. ，2011 b）的目标是交互式地创建数据转换脚本。Guo等人（2011）后来通过集成主动推荐模型将Wrangler扩展为混合主动系统，该模型向用户建议适用的数据转换，以便对转换空间进行更有指导的这两个工具（Profiler和Wrangler）都只支持表格数据清理。除了这些工作，Kandel等人（2011 a）进一步总结了可视化和交互技术如何帮助数据争论的研究方向。上述工作极大地证明了可视化分析技术在帮助提高数据质量方面的有用性和有效性，然而，将这些技术应用于其他类型的数据或不同的清理任务并不容易。虽然表格数据是数据清理的主要焦点通过研究人员，我们还注意到在视觉上清理面向时间的数据方面所做的一些努力。Gschwandtner等人（2012）导出了具有时间导向数据的质量问题的分类，并设想了用于分析具有人在回路中的质量问题的可视化工具的需求。根据这一路线，他们后来提出了TimeCleanser（Gschwandtner et al. ，2014年），一个交互式的方法，专门用于清理面向时间的数据。该方法包括表格数据常见的几种语法检查，包括时间检查（有效时间范围、一致的间隔长度、缺失的时间点或间隔）、面向时间的值检查（例如，识别长时间不变的值），以及多个数据集的一致性（相同的虽然TimeCleanser证明了它在纠正数据方面的有效性，但它在支持对检测到的质量问题的根本原因的推理方面不太灵活。有鉴于此，Arbesser et al. （2017）设计了Visplause，这是一个交互式可视化系统，用于检查多个时间序列的质量。特别是，该系统主要整合数据的Meta信息，以提供一个分层的概览，汇总不同详细级别的数据质量检查结果这使得能够对数据质量进行灵活的语义推理。Gschwandtner和Erhart（2018）提出了与先前的工作相比，他们更充分地根据数据的时间导向特征（例如，提供时间上下文）。我们还注意到最近的一些工作，专注于清理面向时间的数据，具有专门的特点，在一些特定的应用领域。例如，Schulz etal. （2015）提出了一种针对低水平眼动跟踪数据的视觉清理工具。Dianjinet al. （2018）开发一种交互式方法，专门用于纠正流程日志中的事件顺序。S. Liu，G.安德里延科Wu等人/视觉信息学2（2018）1911933. 数据类型及其关系大多数现有的数据清理工具都集中在结构化表数据上。“结构化”一词表数据表示假定每列中的分别地，数据清理过程检查数据类型、格式化，并且帮助用户执行基本数据清理操作，诸如修复打字错误（例如，通过检查文本值的拼写或确保在数字值中使用小数点和逗号的一致性），修改日期和时间的表示，计算数字值的统计，识别和交互式检查异常值，解析编码规则（例如，999forno_data）等。存在特殊方法来检测缺失值并将其替换为考虑其他表列中的值的Tableau等现代工具支持清理多个相关表。例如，可以检查两个表的连接列中的值的一致性，如果某些值不匹配，则可以交互地修改它们。非表数据需要考虑数据类型的特殊性的特殊清理方法例如，文本数据的删除需要语言检测、删除太短的文档、检测重复的内容、修复拼写错误的单词和不正确的标点符号，仅举几例。重要的是有可能对数据的子集执行快速计算在不同文档中使用的词汇表的大小或评估总体情感），以便从不同的视角查看数据集，从而选择适当的文档进行分析。对于更复杂的数据，有必要利用它们的结构来开发适当的数据处理工具。例如，空间事件数据（Andrienko和Andrienko，2005）可以被认为是一种特殊类型的表数据，包括具有时间和空间参考的列。每个事件描述如下：其类型（事件规模、参与者等）。事件类型和属性可以被视为常规列，应用传统方法来验证它们的质量。事件的空间和时间参考可用于附加附加数据源（描述位置和时间），以检查事件在给定位置和时间是否合理。例如，交通事件预计将发生在道路上，而不是在湖泊中，并且访问餐馆事件极不可能发生在夜间。另一个代表性示例是图形数据。通常，可以使用描述图顶点和边的两个连接的表来表示图。顶点和边都可以通过它们的属性来此外，可以从图的拓扑结构计算顶点和边的附加属性图的中心性度量可以用来识别孤立子图和不连通子图.相应地，用于图的数据清理工具需要考虑图数据的结构以及可以从图数据导出的潜在有用的附加信息理解数据的细节和结构对于设计适当的数据转换至关重要让我们考虑移动对象的轨迹的示例（Andrienko et al. ，2013）。每个位置都是一个空间事件，可以通过引用移动对象id、时间戳t、其坐标x和y以及可能的属性：id、t、x、y、attributes来描述。同一个运动物体的事件序列可以被整合到一个轨迹中（图1）。①的人。这种整合允许计算导出的属性，例如位移、时间差、速度估计等。这些导出的属性可以用于从轨迹中提取次级事件（例如，停止）并将轨迹划分为更小的子集（例如，站之间的行程轨迹和事件都可以按地区和地区之间的联系进行汇总，分别创建涉及地点和地点之间联系的空间时间序列其他事件（例如，极值）可以从这样导出的空间时间序列中提取。这个例子演示了数据结构如何定义可能的和潜在有用的转换。这种转换可以用于从不同的角度查看数据，从而促进数据清理过程，识别并最终修复数据问题。4. 不同数据类型在本节中，我们将考虑常规数据表之外的不同类型数据的数据质量控制细节多媒体等多媒体涵盖了许多不同类型的数据，在照相机和录音机发明后，多媒体被广泛用于通信在这项研究中，我们专注于图像，音频和视频，因为它们是最受欢迎的。通常，图像中的一个像素代表一个小区域的颜色。虽然许多像素被排列以形成描述大区域的外观的图像，但它们可以用于传达视觉信息。与图像相比，视频具有附加的时间坐标，其中每个时间跨度包含图像。因此，视频可以显示随时间的动态视觉变化。在音频方面，时间跨度中的每个样本描述了人类听到的能量的频率和幅度。请注意，上述数据的最重要特征是每个样本/像素都是无意义的，而它们的积分则不是。因此，在多媒体数据中不存在点异常，而是上下文和集体异常对异常多媒体数据的净化需要语义的支持，并且只能通过复杂的算法和人工指导来实现文本数据。文本数据由句子、段落、文档和主题形式的词袋表示组成。典型的例子，如新闻文章，采访，电子邮件，现场笔记，以及来自提要和社交媒体来源的文本描述，对于传达有关人员，事件和活动的信息，在社区内分享发现，知识和最佳实践，以及连接人员和推动组织前进至关重要（Liu et al. ，2012）。在大数据时代，随着文档语料库的规模不断增加，在许多情况下，人们根本不可能从如此大量的文本数据中快速定位关键信息或获得见解。文本分析任务通常包括信息检索、聚类/主题分析、自然语言处理、分类、离群点分析等。（Liu et al. ，2018年）。为了更好地执行上述任务，必须保证文本数据的质量文本数据的质量问题的示例是故意改写的重复文档、诸如新闻文章中的广告之类的不相关内容、具有难以针对特定应用进行整理的混合主题的文档信息检索）、多语言文档，以及具有不同文档长度、不同书写风格和不同书写质量的不一致文档新闻文章和推文）。移动物体的轨迹。轨迹数据是对应于记录的移动对象的时间参考位置的事件序列（Andrienko et al. ，2013）。虽然每个特定记录的价值有限，但许多应用程序需要考虑大量此类位置记录的集合。然而，由于数据的复杂结构，即使是像重复检测这样的简单任务也变得困难。对于位置记录，副本是移动对象标识和时间参考的重复组合如果位置和属性是相等的，这是需要消除的重复记录如果职位或194S. Liu，G.安德里延科Wu等人/视觉信息学2（2018）191=→→Fig. 1. 轨迹数据的潜在可能变换。属性不同，需要复杂的冲突解决程序。论文（Andrienko et al. ，2016）详细分析了轨迹数据的性质（移动对象、空间和时间的性质）和数据收集过程的相关性质。这些属性用于识别可能出现在轨迹数据集中的潜在问题，这些数据集被考虑到数据结构的所有组成部分（移动对象，空间和时间）。此外，派生属性（例如，速度或加速度）和可能的变换（例如，将轨迹聚合为访问区域的占用指示符和区域之间的移动计数）使得能够从不同的角度查看数据（见图11）。①的人。图表数据。图G（V，E）由一个顶点集V和一个边集E组成，其中一个顶点表示一个实体，两个顶点之间的边表示它们之间的关系。顶点和边都可以有多个属性，如数字、文本、分类数据和图像。边集定义了图的拓扑结构，对于给定的顶点集，可以有多个边集，它们表示实体之间的多个关系例如，顶点v可以表示学生，其中v具有多个属性，例如学生id号、注册学位、年份、家庭地址、电话号码和照片id。类似地，边e可以具有数字，例如权重、文本、时间戳和方向。对于更复杂的数据，边集合E可以随时间变化，即，更改其属性的值以及图形的拓扑。学生组可以有多个关系，例如 Facebook 好友、Instagram好友和网球好友等。因此，图数据的数据清理需要考虑顶点和边的这些属性，以及由边集定义的图例如，基于图的顶点和边的属性的类型（例如数字、文本和图像）和图的拓扑结构，需要使用各种技术来处理图数据的质量问题共同的问题。除了不同数据类型的独特质量问题外，各种数据也有共同的质量问题。例如，缺失和不准确的价值观是普遍存在的问题。它不可避免地在数据转换和分析过程中引入了不确定性。解决这些问题的常用方法包括删除缺失记录、插值和不确定性建模。数据中通常也存在异常值它们反映了不寻常的数据模式，这往往妨碍了数据主要趋势的提取。为了处理这个问题，许多离群值检测方法（例如，基于密度的方法）已经在不同数据类型的上下文中被提出我们还发现，重复和冲突是经常遇到的问题，在数据质量管理。通常，它们会导致不正确的数据错误地给予某些特定数据更多权重，并导致从数据生成的知识不一致的此外，可扩展性是一个重要的和常见的问题，在引导数据质量。几乎所有提高数据质量的方法在扩展到大量数据时都变得不那么有效5. 分析流水线基于筛选诊断校正框架（Van den Broeck et al. ，2005），我们提出了一个可视化的分析框架，用于分析和提高数据质量。所提出的框架的目标是帮助用户（例如，分析器）发现要分析/可视化的数据的潜在问题，并提供有效和方便的方法，以在用户的监督下通过他们的领域知识和经验来为了实现这一目标，我们的框架，如图所示。2，设计为三层/模块结构，（1）顶部显示的数据层和（2）底部显示的可视化层，由中间显示的交互层连接这些模块分别设计用于（1）发现数据洞察（用于解决数据复杂性）;（2）直观的数据表示和解释（用于解决数据复杂性）;以及（3）在人的循环中轻松进行数据探索和分析（用于解决人类复杂性）。具体地，数据层采用各种类型的数据（例如，原始数据、元数据或分析结果）作为输入从不同来源收集然后，它对输入数据进行预处理或分析，以检索数据样本、发现数据不确定性、揭示隐藏模式或发现异常值。根据预处理结果，依次设计了筛选、诊断和校正三个交互通过筛选，用户能够选择概括和说明概述、统计特征和数据模式（例如，趋势和聚类）。之后，用户可以进一步对数据进行诊断，以找出潜在的问题（例如，缺失值、重复、模式/约束违反、不一致）。最后，用户可以交互地纠正数据中检测到的问题在上述分析过程中，可视化在支持数据解释和决策方面起着在该框架中，需要两种类型的可视化设计(1)设计用于说明和概括数据的可视化，其目的是显示数据的概况、模式、分布和约束，从而处理与数据相关联的复杂性;（2）设计用于数据纠错的可视化，其目的是识别丢失的数据、异常值、重复、模式/约束违反和数据不一致，其目的是处理与人有关的各种复杂性S. Liu，G.安德里延科Wu等人/视觉信息学2（2018）191195图二、用于指导数据质量的可视化分析框架，该框架基于Van den Broeck等人开发的数据清理框架。 2005年（筛选→）诊断→纠正）。6. 研究的挑战和机遇6.1. 数据复杂度多媒体等多媒体的质量管理是一项艰巨的任务。用户必须应用不同的方法来处理图像、录音和视频，因为它们具有不同的性质。此外，由于不同的原因，这些介质的异常可以分为低级别和高级别类别。一方面，低电平异常通常由数据传输、压缩或机器故障引起这些异常，如空白图像，白噪声音频，视频中的重复帧，可以通过简单的规则检测。然而，另一方面，由于需要语义，高级异常难以检测。具体地说，多媒体数据的每一小段，如图像中的一个像素或音频中的一个样本，都是无意义的，但它们的集成却不是。为了确定图像或视频是否异常，用户必须应用图像处理方法来评估视觉质量，或应用对象检测技术来获得语义。否则，无法检测到异常，如过度曝光、欠曝光和严重的对象遮挡类似地，语音识别和情感识别通常用于理解音频中的语义，并且信号处理技术用于识别低质量音频，诸如包含负载但不相关的背景语音。文本数据。虽然文本数据广泛应用于许多工作领域，但这种类型的非结构化数据的数据质量问题在很大程度上仍未得到解决。这是因为，由于文本文档的非结构化性质，文本数据的质量管理首先，文本数据通常包含多个数据字段，并将有用信息与不相关的信息混合在一起。因此，一个关键的挑战是如何交互地检索有用的内容和删除噪声信息。例如，网页通常是许多类型的信息的混合，诸如主要文本内容、广告面板、导航栏、版权块、图像等。在现实世界的应用程序中，只有部分信息，通常是主要的文本内容，是有用的，其余的被视为噪音。因此，如何去除图像中的不相关信息，一直是该领域的研究热点信息检索。第二，文本语料库可能包含不同分布的文本串，例如不同长度和语言用法。例如，新闻文章和正式出版物通常很长，由具有语法规则的句子组成这使得使用统一的文本挖掘模型来一起分析它们变得不切实际。因此，另一个挑战是如何有效地提高文本语料库的质量与不一致的数据分布。弹道数据。轨迹的质量管理是一项挑战。用户需要了解数据的性质和它们所代表的现象，以便正确评估数据质量，并随后正确验证数据关于这种现象，有必要区分不同的运动模式（例如，将步行与骑自行车或使用公共交通分开，然后使用关于运动物理学的不同约束：速度、加速度、惯性）并考虑运动的上下文（例如，道路上的多辆汽车必须遵循共同的方向）。关于数据，必须考虑到数据收集程序（例如，在直线运动期间，通过执行某些活动（例如打电话），每分钟、每20米收集一次位置）有必要了解被检查数据集的覆盖属性，以确保其与分析任务相对应通常数据集在空间范围上是有限的，导致完整的轨迹或其部分在数据中缺失有时数据收集在特定条件下是不可能的（例如，定位装置在隧道或室内不起作用适当的时间覆盖也很重要另一个需要考虑的覆盖面方面是人口：例如，根据来自主要由年轻人进行的社交媒体活动的位置的数据得出关于老年人流动性的结论是危险的。另一个在车辆交通方面的例子：将公共汽车的流动模式投射到个别汽车上是值得怀疑的。图表数据。与其他数据类型类似，由于数据的复杂性，图形数据的质量管理具有挑战性。除了各种类型的属性的挑战之外，图的拓扑结构增加了更多的挑战。用户需要应用各种技术来处理缺失值、重复值，196S. Liu，G.安德里延科Wu等人/视觉信息学2（2018）191−−不确定性和离群点检测，以处理不同类型的属性（如数字，文本和图像）和图的拓扑结构此外，多个关系随时间改变（即，动态图）增加了更多的挑战。例如，用户可能需要计算关于图的拓扑的统计，诸如密度、直径、聚类系数、连通性和平均邻居度，以及关于图的拓扑结构的属性测试，诸如测试给定图是否是树（即，无循环），平面图（即，可以在没有边交叉的平面中绘制），或有向无环图（DAG）。除了基于属性的离群点检测之外，用户还需要执行基于拓扑的模式检测。例子包括找到高频模式，如图案，一个小的子图由三个或四个顶点组成，小的循环模式，如三元组（即，三角形），以及其他特殊的子图，如路径，树，星和完全子图。寻找这种特殊的拓扑模式的算法是复杂的，具有高的运行时复杂度。用户可能需要分析基于拓扑的约束。例如，一棵树有n1条边，而一个平面图最多有3n 6条边，其中n是顶点数其他包括特定领域的限制;例如，家谱不应该有一个代表血缘婚姻的循环共同的挑战和机遇。除了上述特定数据类型的研究挑战和机遇之外，还有一些共同的挑战和机遇。首先，现有的可视化数据清洗方法不能扩展到大规模数据集。处理大规模数据集的一个潜在解决方案是仅对整个训练集的一小部分这里的挑战是如何开发有效的采样方法，既可以保持数据密度，又可以保留重要数据，如影响点，离群值和异常。其次，缺乏有效的质量度量来衡量不同类型数据的质量，例如文本数据，图像，视频，图形数据和轨迹数据。因此，一个潜在的研究机会是从数据内容中开发质量指标，并在特定的用户背景下对其进行评估。在实际应用中，分析人员经常需要检查多种类型的数据并纠正其中的错误。因此，第三个挑战是设计一个集成界面，以直观地说明不同类型数据的分布6.2. 人类复杂性当人类智能集成到自动数据清洗管道中时，将出现一些挑战。我们将这些挑战分为三类，并确定相关的机会如下。缺乏领域知识。更好地整合人类领域知识在指导数据质量方面发挥着重要作用。然而，关于新类型数据或新数据集的足够知识或专业知识为了克服这样的挑战，重要的是探索如何解决不足或不完整的知识和专业知识的整合和校准。一个重要的方向是设计能够实现众包的渐进式或协作式视觉界面，使得没有足够知识的用户可以逐渐获得更多知识或寻求具有足够知识的其他用户的支持。创建一个可视化的自动化机制来提供必要的数据清理自动化，特别是当用户缺乏领域知识时，这也是很有趣的。感知/认知的局限性。先前的心理学研究已经揭示了视觉感知和认知的局限性，例如感知中的视野受限（Creem-Regehr etal. ，2005）和认知中的有限工作记忆（Baddeley，2003）。这些局限性会直接影响人类感知和理解世界的方式。对于复杂类型的数据，设计可视化分析系统同时将系统的复杂性保持在限制内是具有挑战性的。一个值得研究的方向是探索一种混合的主动机制，无缝集成系统的主动指导和用户的主动指导，以更好的人机智能，这样可以在很大程度上解决用户的感知或认知限制。理解不确定性及其含义的困难。不确定性可能出现在数据清理过程的任何阶段，并在后续阶段传播（Wu et al. ，2012）。对不确定性及其影响的误解将导致错误的决定和低质量的数据。然而，如果没有适当的视觉指导，通常很难理解不确定性及其影响。为了解决这个问题，非常有必要对数据清洗中的不确定性进行建模和可视化，以便用户在数据清洗过程中做出明智的决策。7. 结论数据质量对于各种各样的实际应用来说是至关重要的.在本文中，我们回顾和总结了引导数据质量的研究工作，重点是数据清洗，一个广泛使用的有效的数据质量管理技术。本文首先从数据管理、可视化分析和人机交互等不同研究领域对相关工作进行了总结。然后，针对不同类型的数据，我们讨论了利用数据清洗技术提高数据质量的常用方法。建立在Van den Broeck等人的现有数据清洗分析管道的基础上。（2005），我们进一步提出了一个可视化的分析框架，从筛选，诊断和纠正阶段迭代和逐步提高数据质量。最后，我们分析了研究的挑战和机遇的背景下，数据和人类的复杂性，我们认为这是至关重要的未来研究可视化数据清洗。确认本研究由国家重点&研发计划（编号SQ 2018 YFB 100002）、国家自然科学基金（编号61761136020、61672308）、微软亚洲研究院、欧盟Fraunhofer“认知互联网技术”卓越集群通过项目TrackKnow& 资助（资助协议 780754 ），自然科学基金（61761136020），国家证监会-浙江省工业化和信息化融合联合基金浙江省自然科学基金项目（LR 18F 020001），国家自然科学基金资助项目61602306，中央高校基础研究基金。作者要感谢匿名评论者的周到评论。引用Abedjan，Z.，Akcora，C.G.，Ouzzani，M.，Papotti，P.，Stonebraker，M.，2015年。web数据清洗中的时态规则发现。Proc. Very Large Database Endow. 9（4），336-347.Abedjan，Z.，Chu，X.，Deng，D.，Fernandez，R.C.，Ilyas，I.F.，Ouzzani，M.，Papotti，P.，Stonebraker，M.，Tang，N.，2016.检测数据错误：我们在哪里，需要做什么？Proc. Very Large Database Endow. 9（12），993-1004。Amiri，A.，2007.敢于分享：通过数据清理保护敏感知识。德西斯Support System.43（1），181-191.···S. Liu，G.安德里延科Wu等人/视觉信息学2（2018）191197Andrienko，N.，Andrienko，G.，2005.空间和时间数据的探索性分析：系统方法。施普林格出版社，柏林，海德堡。Andrienko，G.，Andrienko，N.，Bak，P.，Keim，D.，Wrobel，S.，2013年。运动的视觉分析。出版社：Springer Publishing Company，IncorporatedAndrienko，G.，Andrienko，N.，Fuchs，G.，2016年。了解运动数据质量。J.Locat.基于服务10（1），31-46.Arbesser，C.，Spechtenhauser，F.，Mühlbacher，T.，Piringer，H.，2017年。Visplause：使用可扩展性检查对许多时间序列进行可视化数据质量评估。IEEETrans. Vis. Comput. Graphics 23（1），641-650.Baddeley，A.，2003.工作记忆：回顾和展望。Nat. Rev.Neurosci. 4，829839.Vanden Broeck，J.，Cunningham，S.A.，Eeckels，R.，Herbst，K.，2005.数据清理：检测、诊断和编辑数据异常。公共图书馆Sci. 2（10），e267.朱，J。，Liu，S.，2018.可视化分析用于可解释的深度学习。IEEE计算Graph. Appl. 38（4），84Creem-Regehr ， S.H. ， Willemsen ， P. ，古奇， AA ，汤普森， W.B. ， Creem-Regehr，S.H.，Willemsen，P.，古奇，AA，汤普森，W.B.，2005年限制观看条件对自我中心距离感知的影响：对真实和虚拟室内环境的影响。Perception 34（2），191-204.Dasu，T.，罗，J.M.，2012年。统计失真：数据清洗的后果Proc.超大型数据库赋予。捐赠。5（11），1674下午，Suriadi，S.，安德鲁斯河，韦恩，麻省理工学院，ter Hofstede，A.H.，Buijs，J.C.， van derAalst，W.M.，2018.进程日志中事件排序缺陷的检测与交互修复。在：先进信息系统工程国际会议。施普林格，pp. 274-290。新罕布什尔州多马迪亚，拉奥，UP，2013.在数据库中隐藏敏感关联规则以维护隐私和数据质量。IEEE International Conference on Advance Computing（IEEE国际先进计算会议）pp. 1306-1310。ElBekri，N.，Peinsipp-Byma，E.，2016.通过将用户置于循环中来确保数据质量。在：计算科学和计算智能国际会议。pp. 468-471Elmagarmid，A.K.，Ipeirotis，P.G.，Verykios，V.S.，2007年重复记录检测：一项调查。IEEE Trans. Knowledge Data Eng. 19（1），1-16.范， W. ， Gegeland ， F. ， 2012. 数据质量管理的基础。出版社：Morgan&ClaypoolPublishers范，W.，李杰，妈妈，S.，Tang，N.，余伟，2012年。对编辑规则和主数据进行某些修复。Very Large Database J. 21（2），213-238.Florecavand，D.，2000.一个可扩展的数据清理框架。在：IEEE国际数据工程会议。312-312Gegeland ， F. ，麦加湾， Papotti ， P. ， Santoro ， D. ， 2014. 测绘和清理。IEEEInternational Conference on Data Engineering（IEEE国际数据工程会议）pp. 232-243。吉尔，S.，李，B.，2015年。一个分布式数据流清洗的框架程序计算Sci. 52，1186-1191。Gschwandtner，T.，Aigner，W.，Miksch，S.，Gärtner，J.，Kriglstein，S.，波尔，M.，Suchy，N.，2014年。TimeCleanser：一种可视化分析方法，用于对面向时间的数据进行数据清理.在：知识技术和数据驱动的业务国际会议。18：1-18：8。Gschwandtner，T.，Erhart，O.，2018年了解你的敌人：识别时间序列数据的质量问题。在：IEEE太平洋可视化研讨会。pp. 205-214Gschwandtner，T.，Gärtner，J.，Aigner，W.，Miksch，S.，2012.面向时间的脏数据的分类。可用性、可靠性和安全性国际会议。pp. 58比72Guo，P.J.，坎德尔，S.，Hellerstein，J.M.，Heer，J.，2011.主动的争论：混合主动的数据转换脚本的最终用户编程。在：ACM Sym-2005用户界面软件和技术. pp.六十五比七十四坎德尔，S.，Heer，J.，Plaisant，C.，肯尼迪，J.，van Ham，F.，新罕布什尔州里奇，韦弗角，澳-地李，B.，Brodbeck，D.，Buono，P.，2011年a。数据争论的研究方向：可用和可信数据的可视化和转换。Inf. Vis. 10（4），271-288.坎德尔，S.，Paepcke，A.，Hellerstein，J.，Heer，J.，2011年b。Wrangler：数据转换脚本的交互式可视化规范。 ACM Special Interest Group onComputerHuman Interaction计算机人机交互特别兴趣小组pp. 3363-3372。坎德尔， S. ，帕里克河 Paepcke ， A.， Hellerstein， J.M.， Heer， J.， 2012 年。Profiler：集成的统计分析和可视化，用于数据质量评估。在：先进的视觉界面国际工作会议的会议记录。pp. 547 -554Khayyat，Z.，Ilyas，I.F.，Jindal，A.，Madden，S.，Ouzzani，M.，Papotti，P.，Quiané-Ruiz，J.A.，Tang，N.，Yin，S.，2015. Bigdansing：一个大数据清洗系统。ACM数据管理特别兴趣小组（ACMSpecialInterest Group on Management ofData）pp. 1215-1230。Krishnan，S.，王杰

下载后可阅读完整内容，剩余1页未读，立即下载