没有合适的资源?快使用搜索试试~ 我知道了~
*视觉信息学2(2018)111地理坐标平行坐标:环境数据分析Maha El Meseery,Orland Hoeber*加拿大里贾纳大学ar t i cl e i nf o文章历史记录:接收16六月2017收到修订版2017年12月20日接受2018年2018年3月15日在线提供保留字:异构数据可视化高维数据可视化田间试验评价a b st ra ct近年来社会面临的大量环境问题驱使研究人员收集和研究大量数据,以了解人与我们生活的环境之间存在的复杂关系。这些数据集通常是高维和异构的,具有复杂的地理空间关系。分析这些数据可能具有挑战性,特别是在研究非空间属性时需要保持空间意识。地理坐标平行坐标(GCPC)是一种地理视觉分析方法,旨在支持复杂地理空间环境数据的探索和分析。平行坐标与地理空间表示和调查散点图紧密耦合,所有这些都可用于显示,重组,过滤和突出数据的高维,异构和地理空间方面。与专家数据分析师进行了两组现场试验,以验证研究环境数据的方法。这些评价的结果是积极的,提供了现实世界的证据和新的见解,说明在研究非空间要素时,需要了解数据的地理空间方面时,使用全球气候产品中心在环境数据集中进行探索的价值。2018浙江大学出版社版权所有由爱思唯尔公司出版这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍为了满足人类快速发展的需求,我们正在广泛地改变和紧张我们的环境中可用的资源我们对环境的持续和大量需求正在造成许多环境问题和生物多样性的丧失(千年生态系统评估,2005年)。为了解决这些问题,研究人员研究环境和生物多样性的变化如何受到人类的影响,以及人类如何受到环境变化的影响了解关键因素对环境现状的影响是改善环境决策的一个基本方面(千年生态系统评估,2005年; Swet-nam等人, 2011年)。然而,必须考虑许多生物、生态、经济和社会因素,以及这些因素之间的关系和相互依存关系。研究这些因素及其相互影响的复杂性使得理解和管理环境通讯作者。电子邮件地址:elmeseem@uregina.ca(M. El Meseery),orland. uregina.ca(O. Hoeber)。同行评议由浙江大学和浙江大学出版社负责https://doi.org/10.1016/j.visinf.2018.02.001系统是一个具有挑战性的问题。使问题进一步复杂化的是,通常必须考虑数据的重要地理空间方面(Bhaduri等人, 2009年;Komenda和Schwarz,2013年)。由于环境数据的维度众多且性质各异,分析和理解此类数据的过程这样做需要研究人员选择一个子集的维度进行研究,考虑这些感兴趣的各种因素的值,探索这些维度之间的关系,并综合大量的信息。在这些探索和分析任务期间,研究人员还必须保持对数据的地理空间方面的认识虽然研究人员是各自研究领域的专家,但由于缺乏对高级工具的认识,或者不愿意学习服务于单一目的的专业工具虽然环境研究人员通常使用电子表格和简单的绘图工具进行分析,但这样做限制了他们在数据中探索的能力在之前的研究中,我们发现,当分析任务由于需要比较多个软件系统之间的数据而耗时且认知繁重时,研究人员可能会将其任务限制在确认已知的内容上(Hoeber和Ul Hasan,2017)。为了发现新知识,研究人员2468- 502 X/©2018浙江大学和浙江大学出版社。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinf112M. El Meseery,O.Hoeber/视觉信息学2(2018)111需要软件工具,这些软件工具被设计为以多种有意义的表示来显示数据,并支持复杂数据的探索和分析。地理视觉分析是一种越来越多地用于支持地理空间数据的探索性数据分析的方法(Andrienko等人, 2003; Keim等人, 2008年)。通过结合信息可视化、数据处理、数据挖掘和交互界面,分析师能够探索、分析、推理和理解高度复杂的数据(Keim等人, 2008年)。这种分析的以人为本的性质使分析人员能够确认已知的情况,确定新的调查路线,提出和检验假设,确定模式,并从所显示的情况中得出新的见解。有了这些优势,各个领域的决策支持系统越来越多地采用地理视觉分析方法(Komenda和Schwarz,2013; Sips等人, 2012年)。在所有这些支持探索性数据分析的新地理视觉分析方法的开发中,很少有研究对这些方法的支持、有用性和易用性进行评估。我们研究的主要目标是设计,开发和研究地理视觉分析方法,使高维异构地理空间数据的分析和理解。考虑到平行坐标表示大量维度的能力,以及地理可视化显示空间关系的价值,我们开发了一个将这两种方法紧密耦合的系统,称为地理坐标平行坐标(GCPC)。通过将这些视图相互协调,并使用调查散点图,分析人员能够显示、重新组织、过滤和突出显示他们调查中感兴趣的数据的各个方面。为了研究和评估该方法的益处,与两个不同环境研究小组的成员进行了实地试验评估。这些评价的目的是评估专家如何利用该系统在其具体领域内探索和分析环境数据。本文的其余部分组织如下。第2节提供了一个关键文献的审查,为这项研究提供了信息,包括高维数据可视化,地理可视化分析和环境数据的可视化分析的第3节概述了GCPC的设计和主要特点。第4节提供了一个案例研究,说明了全球产品竞争力对数据分析的价值。田间试验研究设计和程序见第5节,随后在第6节中对两项评价的结果进行了详细分析。本文最后讨论的主要结果,主要贡献的摘要,评估的局限性,并概述了未来的工作。2. 相关工作2.1. 高维数据可视化由于二维显示的限制,可视化具有大量维度的数据是具有挑战性的。在可视化研究文献中已经探索了许多不同的方法,包括降维、小多点图、多点图和平行坐标(Grinstein等人,2001; Ward等人,2015年)。虽然每种方法都以自己的方式解决了显示高维数据特征的挑战,但它们也有特定的局限性(Ward等人, 2015年)。降维方法使用计算技术将高维数据变换到低维空间,同时保持数据点之间的相对接近度(Choi等人,2010年b)。诸如主成分分析(PCA)(Jolliffe,1986)、多维标度(MDS)(Choi等人,2010 a)和自组织映射(SOM)(Guoetal., 2006年,它被用于这一目的。一般的做法是,或者将数据从高维空间映射到2D或3D空间,然后使用传统的可视化方法将数据点显示在它们的新位置。虽然将定位相似的数据点,但是在新的坐标空间和数据的实际维度之间可能没有明显的关系,从而在探索和寻求理解数据的含义时引入不确定性(Choi等人,2010年b)。另一种常见的方法是使用小倍数的简单可视化方法,如散点图,显示数据维度子集的组合。这种方法的好处是,如果维度的子集被仔细选择并适当可视化,用户就能够在数据的不同视图之间进行比较(Tufte,1990)。例如,散点图矩阵可用于显示数据内的所有成对关系(Wilkinson等人, 2006年)。不幸的是,这种方法不能很好地扩展到大量的维度,并且即使只有中等数量的维度,用户可能考虑的数据的视图数量也可能是压倒性的。图的使用扩展了传统的二维散点图,能够显示更多的维度。该图将多个维度编码为字形中的图形参数,然后将这些参数定位在2D图中(Grinstein等人, 2001年)。一种非常有用的简单方法是将色调(表示定性维度)和大小(表示定量维度)分配给散点图中的每个元素,从而在2D空间中实现4D可视化不幸的是,在它们变得不可理解之前,可以使用字形表示的维度的数量是有限的(Chung等人, 2015年)。一个根本不同的方法来解决这个问题是离开使用正交坐标空间,而是使用一个坐标空间,组织平行的维度(In-selberg,1985)。对于平行坐标,每个数据点都表示为一条线,该线与每个轴在特定尺寸上的值的适当位置相交。使用平行坐标可视化高维数据的主要优点是它们能够在大量维度上提供数据的单个视图,可以轻松比较相邻维度上的数据,由于其灵活性,平行坐标已被集成到许多数据分析系统中( Guo 等 人 ,2006; Lundblad 等 人 ,2008 年 ; Takatsuka 和Gahegan,2002年)。不幸的是,还存在参数坐标的许多限制,包括当数据点经过给定维度上的相同值时引入模糊性,在远距离维度上比较数据的困难,以及当数据集中存在大量数据点时的过度绘制问题。近年来已经引入了对 平 行 坐 标 的 许 多 交 互 式 扩 展 来 解 决 这 些 问 题 ( Heinrich 和Weiskopf,2013; Zhou等人,2008),使平行坐标可视化高维数据的良好基础。2.2. 地理空间数据可视化虽然已经提出了许多方法来支持地理空间数据的交互式可视化分析,但主要机制仍然是在地图上表示数据。地理信息系统(GIS)是完善的,并且通常用于可视化地理空间数据(Sánchez-Lozano等人, 2013; Zhang和Gruen-wald,2008)。一般的方法是允许用户向地图添加图层,以显示数据各个方面的空间分布然而,利用地理信息系统来识别和研究数据中的关系是一个具有挑战性的过程,因为它涉及视觉上的M. El Meseery,O.Hoeber/视觉信息学2(2018)111113合并和比较多个层(Zhang和Gruenwald,2008)。当有大量的维度需要分析时,选择层和直观地比较数据的过程是低效的,并且在认知上是繁重的。2.3. 环境数据的地理视觉分析随着人们对环境决策支持系统的兴趣日益增长,研究人员已经研究了使用各种多准则决策框架来支持环境数据的分析。这些框架使用多个绩效指标和分析方法来指导情景的创建,以探索不同的决策方案(Ananda和Herath,2009年; Kasprzyk等人,2013年)。目标是研究不同因素的变化如何影响生成的备选方案。然而,这些方法一般不提供探索和分析实际环境数据的工具,在需要了解数据之间的关系时,其价值受到限制。虽然地理信息系统方法在分析环境系统方面也很常见(Sánchez-Lozano等人, 2013; Swetnam 等人,2011;Zhang和Gruenwald,2008),他们通常专注于显示已知关系或模式存在的维度的一小部分。最近,一些研究人员提出了针对环境问题的决策支持系统,该系统通过采用地理视觉分析方法,专注于使决策者参与分析过程(Kasprzyk等人,2013; Luo和MacEachren,2014; Sips等人,2012; Xiao等人, 2007年)。特别重要的是地理空间数据的整合和 这 种 方 法 的 互 动 性 质 ( Andrienko 等 人 ,2016;RothandMaceachren,2016)。有些人使用地理视觉分析来探索物种分布及其与环境数据的关系,方法是使用分类查看器和多 变 量 表 格 可 视 化 来 扩 展 传 统 GIS ( Zhang 和 Gruenwald ,2008)。其他人已经创建了交互式小的多地图,显示何时何地重要的环境措施发生了变化(Hoeber等人,2011年)。这些系统的主要特征是通过自动数据处理、机器学习和交互式可视化来扩展当前的环境分析工具,以支持对数据的探索和其他人已经开发了类似的方法来支持在环境数据中进行探索,但重点是特定的环境问题或领域(Komenda和Schwarz,2013年;Sips等人, 2012年)。提出了一个地理视觉分析系统,以探索和分析沿海环境随时间的海拔变化(Tateosian等人, 2011年)。另一个系统使用多个协调视图来探索沿海环境的流体动力学模拟(George等人, 2014年)。这些方法使研究人员能够探索和理解特定的复杂环境数据,但它们缺乏对其他类型数据或环境领域的概括性3. 地理坐标平行坐标GCPC是一种集成多种可视化和直观交互的方法,以支持对环境数据的探索和推理(Meseery和Hoeber,2015)。使用多个协调视图来显示、检查和探索高维异构地理空间数据,GCPC旨在实现Keim的可视化分析咒语中描述的交互式分析活动:“首先分析;显示重要内容;缩放、过滤和进一步分析;按需提供详细信息”(Keim等人, 2008年)。该系统的核心由三个紧密集成的视图组成:平行坐标,地理可视化和调查散点图。平行坐标提供了大量维度的紧凑表示微观可视化在每个坐标上方提供每个维度的统计特征。地理可视化使用点图或聚合六边形图显示数据的空间方面。调查散点图提供了一个小的维度子集的可视化,支持数据内相关性的研究。这些视图在多个协调视图框架中链接在一起(Roberts,2007),这样一个视图中的任何交互都会自动反映在其他视图中。GCPC界面的屏幕截图如图1所示,详细信息将在以下小节中进行说明。请注意,虽然在许多其他人的工作中已经探索了平行坐标和地理 可 视 化 的 集 成 ( Dykes , 1997; Maceachren 等 人 , 1999;Andrienko和Andrienko,2001; Edsall,2003; Guo等人, 2005;Ge等人, 2009年; Opach和Rød,2014年),我们在这项研究中的目标是实现一种方法,该方法可以很好地扩展大量的维度,支持各种异构数据类型,支持从平行坐标视图以及地理可视化的交互过滤,集成了可用于进一步过滤数据的调查散点图,并添加了一种新的微观可视化方法来显示数据在每个平行坐标维度上的分布。GCPC的这种实现使我们能够进行现场试验评估的方法,使验证这些交互式的数据视图的紧密耦合是否可以支持专家环境研究人员在探索和详细的数据分析,是有用的,他们的数据分析任务,提供信息丰富的意见,并易于使用。GCPC是作为一个基于Web的应用程序实现的,在服务器端使用PHP和MongoDB,在浏览器端使用HTML、CSS和JavaScript。可视化界面使用数据驱动文档(D3)库(Bostock等人,2011年,作为核心。使用并扩展了平行坐标(Chang,2012)和地理可视化(Aga-fonkin,2010)插件,以添加新颖的视觉和交互功能。3.1. 平行坐标GCPC的一个基本要求是在潜在的大量异构维度中进行可视化和平行坐标非常适合这项任务,因为它们能够同时显示许多维度 , 并 支 持 广 泛 的 数 据 类 型 ( 即 , 定 量 、 有 序 和 分 类 )(Heinrich和Weiskopf,2013)。当查看大量维度时,平行坐标提供了数据中一般趋势和关系的概述(见图1)。 1,中间)。通过支持操作显示内容的交互式功能,平行坐标可以成为一种强大的分析工具。平行坐标的主要优点之一是能够轻松解释相邻维度之间的数据关系虽然静态平行坐标依赖于这些维度的适当选择和排序,但GCPC包括允许维度的动态重新排序和过滤的交互式功能重新排序是通过对维度标签的简单拖放操作完成的,从而自动重新配置数据。从平行坐标中删除尺寸是在单独的控制面板中完成使用平行坐标的缺点之一是难以比较非相邻维度上的数据,这是由于当数据点经过用户可能想要比较的两个维度之间的其他维度时引入了模糊性。为了能够识别远距离维度上的可能关系,GCPC允许使用色标在用户指定的维度上对数据进行可视这样做允许通过观察相关性来直观地比较该维度上的数据与其他非相邻维度上的数据114M. El Meseery,O.Hoeber/视觉信息学2(2018)111图1.一、GP P C 的主视图包括平行坐标、每个维度统计属性的微观可视化、用于配置可视化的交互式控件、数据地理空间分布的地理可视化以及调查散点图。在这里,数据被过滤为中年和中等收入,根据教育水平着色,散点图显示了农业收入和水资源收入之间的关系。颜色和其他感兴趣维度例如图 1(中间),教育维度上的每个彩色类别都可以在其他维度中直观地识别。为了确保正确解释颜色编码,不同的颜色尺度用于不同的数据类型。定量数据用连续和感知有序的色标编码;有序数据用离散和感知有序的色标编码;定性数据用一组永久不同的颜色编码。考虑到Opponent Process Theory of Colour(Hering,1964)和人类对颜 色的 解释 ( Ware , 2013 ) ,选择这些配色方案,并使 用ColorBrewer(Brewer等人, 2003)作为具体颜色选择的起点。此外,用于有序尺度的基色被选择为在色调上与GCPC内的环境色(例如,平行坐标和调查散点图内的白色和黑色;地图中的蓝色、黄色、绿色和白色此外,为了避免好或坏的解释,红色和绿色被避免。最后的选择是使用紫色用于此目的。对于定性色标,由于可合理识别为独特的颜色数量有限,因此未进行颜色排除。当大量数据点显示在paral中时,在Lel坐标中,许多数据点可能通过一个或多个维度的小区域这可能会导致很大程度的过度绘制和遮挡,从而难以从集合中隔离单个数据点为了解决这个问题,GCPC允许放大到一个或多个特定的维度。这是通过选择感兴趣的尺寸下的缩放控件,然后在尺寸上刷动以选择要显示的范围来完成的。这样做可以过滤所有维度上的数据,仅显示此范围内的数据,并将数据重新映射到可用的完整垂直空间对于这个维度。可以通过取消选择此尺寸的缩放控件来删除缩放虽然缩放可以用来过滤指定范围内的数据,但用作探索性工具相当麻烦。更有效的方法是使用交互式选择功能的GCPC。在任何维度的特定范围上刷动将在此范围上绘制边界框,并使边界框之外的所有数据点变暗。这样的选择框可以在任意数量的维度上绘制。此外,每个选择框都可以在范围内上下动态拖动,交互式地更改哪些数据点被过滤和变暗。3.2. 统计描述符使用平行坐标分析数据的一个挑战是,难以评估数据在各个方面的分布情况。当数据偏斜时,或者当有大量数据点经过相同的值时,这尤其成问题在这些情况下,数据的重叠使得很难识别数据是如何分布的。为了帮助理解每个维度上数据的统计特性,在每个维度上提供了微观可视化提供数据的统计描述符的方法取决于数据类型。Tukey箱形图(Tufte,2001)是常见的统计视觉编码,提供了一组定量值分布的紧凑表示第75、第50和第25个格子被绘制为框,并且条延伸到第95和第5个格子。这样的可视化可以清楚地描述分布的偏斜,以及数据围绕中位数分组的紧密对于离散数据(例如,顺序和定性),无法识别四分位数,因此无法使用Tukey箱形图相反,小垂直直方图M. El Meseery,O.Hoeber/视觉信息学2(2018)111115的数据来描述每个类别中的值。这些微观可视化的示例可以在图1(顶部)中看到,在每个平行坐标维度标签上方。虽然统计信息的初始计算提供了数据分布的概览,但是这种分布可能由于对维度的过滤操作而改变。因此,每当发生这种过滤时,统计特性被重新计算并且统计描述符被更新。这允许观察分布如何由于数据的过滤而改变3.3. 地理可视化为了便于观察和解释数据的空间分布,提供了地理可视化,以便在地图上显示数据。这是GCPC的重要组成部分,允许探索数据维度与相应地理空间方面之间的关系(见图1,左下)。地理可视化和平行坐标是紧密集成的,这样一个中的任何操作都会自动反映在另一个中。例如,缩放维度将从平行坐标视图中过滤数据点,同时从地图中删除这些数据点。同样地,在平行坐标中的过滤将使过滤范围之外的数据变暗,在平行坐标上的其他维度中以及在地图中。相应的缩放和选择操作也存在于地图中。当缩放导致数据点不再出现在视野中时,这些数据点也会用平行坐标隐藏。当在地图上绘制选区时,这些数据点将成为焦点,而所有其他数据点在两个显示中均变虽然在地图上绘制选区的简单方法是使用边界框,但考虑到地理区域的自然不规则性,这并不是特别有用相反,GCPC允许在地图上绘制任意形状,并将自动关闭形状,以便将点分类为区域内部或外部。默认情况下,GCPC将数据的地理空间属性呈现为点图。平行坐标下的设置允许在地理可视化中操纵两个视觉变量在地理可视化中使用的色标与在平行坐标中使用的色标相同(即,根据数据类型的不同颜色标度大小选项将选定尺寸中的值范围映射到圆面积的特定值范围这样做提供了一种灵活的机制,无论原始数据的绝对值如何,它都能同样良好地使用大小对地图上的数据进行编码仅适用于定量属性。在某些情况下,在地图上显示单个数据点可能会在这些情况下,聚合数据并表示每个组的计算值 为此,GCPC采用六边形分箱方法,该方法将数据分组在六边形空间区域中,并将聚合值表示为六边形形状(Carr等人, 1992; Ramakrishna等人, 2013年)。六边形的大小表示在区域内聚合的数据点的数量,并且颜色用于对聚合数据的组合值进行编码(Carr等人, 1992年)。随着地图的缩放因此调整了六边形区域的粒度。如果为颜色编码选择的维度是定量的,则在六边形区间内编码的值将是空间区域内所有数据点的平均值。如果维度是定性的,则显示最常见情况的值。 点图和六边形分箱方法的例子可以在图中看到。二、3.4. 调查散点图研究不同因素之间的相关性对于理解环境数据中的复杂关系至关重要虽然可以操纵平行坐标中维度的顺序来观察数据中的模式,但能够以更流畅和互动的方式更详细地研究可能的关系是有价值的散点图是一种强大的技术,用于调查数据维度对之间的直接和间接关系(Kanjanabose,2014; Ward等人, 2015年),并纳入GCPC(见图。 1,右下角)。在动态选择平行坐标下的维度以映射到散点图的x和y由于进行这种选择的交互性和实时性,用户可以简单地通过改变x和y维度的设置来容易地调查维度对之间为了确保可以清楚地确定此处数据点与平行坐标和地理可视化内数据点之间的联系,在这些要素内按大小和颜色编码作出的任何选择都反映在调查散点图中。此外,在其他显示中对数据的任何过滤或选择也反映在该散点图中。与地理可视化一样,提供了一个选择运算符,允许在调查散点图上绘制任意形状,在所有显示中隔离这些数据点,并使不在所选区域内的所有数据点变暗。3.5. 数据检查在探索数据时,重要的是要保持向下钻取原始数据的能力,以便查看详细信息。该检查可用于确认已经通过GCPC的三个主要视图内的过滤器和选择运算符隔离的数据的特征。这样的细节提供了查看数据的上下文并研究与数据细节相关的视觉表示的特征的能力该系统提供了各种方法来检查和查看原始数据。第一个是一个工具提示,当鼠标悬停在任何视图上的一个点上时会出现。通过单击任何视图中的单个点,还提供了一个数据检查工具,用于提取与三个GCPC视图中的特定过滤部分相匹配的所有数据点的表此表允许浏览此数据子集,导出用于其他系统中的分析4. 为例为了说明GCPC的潜在价值,我们提出了一个案例研究,展示了如何使用该方法来探索和理解一个大型多维异构地理空间数据集。在这种情况下,数据由2703个数据点组成,包括32个维度以及地理空间维度。这些数据来自对东南亚湄公河沿岸居民的家庭调查数据分析的目标是探索和研究性别,渔业,教育和收入之间的关系,沿湄公河北部河段,并考虑这些信息与环境脆弱性。为了研究这些数据中的模式和关系,以便发现关于数据的新见解,第一步是选择分析人员想要研究的数据维度,并将这些维度放入有意义的顺序中。图3(a)显示了这一初始步骤之后的GCPC屏幕截图。在这里,我们可以看到,由于数据量大,116M. El Meseery,O.Hoeber/视觉信息学2(2018)111(a)点阵图,定量数据。(b)点图,定性数据。(c)半球形面元图,定量数据。(d)纬向分箱图,定性数据。图二. 点图和六边形合并图的示例。在平行坐标系中有大量的过度绘制。统计属性的微观可视化使分析人员能够理解每个维度上的分布假设分析师感兴趣的是捕鱼的女性如何分布在地理空间区域和其他属性上。通过在性别维度的“女性”范围和钓鱼维度的“是”范围上拖动过滤器 根据脆弱性衡量标准对数据进行着色并放大到柬埔寨地区,可以发现该地区的女渔民很少,而那些现有的女渔民在脆弱性衡量标准中排名很高(见图1)。3(b))。缩小后,分析师可以在地图的北部区域绘制任意形状,以进一步过滤数据,将数据集减少到95个点。在这一区域内,分析人员不妨考虑妇女的教育水平。考虑到上面的教育直方图,显示大多数人受过小学教育,一些人没有受过教育,少数人受过中学或高等教育。 使用这个维度作为颜色编码揭示了这方面的数据的空间分布(见图1)。3(c))。分析的最后一步是考虑家庭收入与教育水平之间的关系。这可以通过两种方式来完成,交互式地,分析师可以在收入上放置一个小过滤器,并上下拖动它以查看它如何改变教育维度和地图上显示的为了提供一个更稳定的观点,这种关系,调查散点图可以使用(见图)。3(d))。这揭示了两件事:(1)该地区的妇女在数据集中只占受过中等或更高教育的(2)受过小学教育的人士,家庭收入一般较未受过教育的人士为高本案例研究说明了基于一般直觉和预期的数据探索性分析。对这些数据的真实分析可能会从这样的探索开始,但总是会这些研究问题将促使分析人员决定显示哪些维度,如何对它们进行排序,以及在平行坐标、地理可视化和调查散点图上放置什么样的过滤器。最后一步是查看以这种方式隔离的数据的详细信息,以支持对发现内容的确认。5. 评价为了评估将平行坐标、地理可视化和调查散点图(如在全球气候中心实施的)相结合的价值虽然已经广泛地研究了将平行坐标与地理可视化紧密耦合的总体方法(Dykes,1997; Maceachren等人, 1999; Andrienko和Andrienko,2001; Edsall,2003; Guo等人, 2005; Ge等人, 2009年; Opach和Rød,2014年),以前的研究中缺少的是在真实世界数据分析环境中的评估。现场试验方法侧重于收集专家如何在现实世界条件下使用系统的经验证据,使 用 现 实 世 界 数 据 并 解 决 现 实 世 界 问 题 ( Scholtz ,2006;Carpendale,2008)。这里的目标不是要证明我们的实现比其他人的好M. El Meseery,O.Hoeber/视觉信息学2(2018)111117(a)尺寸选择和排序。(b)维度过滤、空间缩放和颜色编码,脆弱性。(c)根据教育进行空间过滤和颜色编码(d)2000年和2002年女性渔民的教育和收入比较调查散点图图3.第三章。 使用GCPC的特性进行探索性数据分析的案例研究。本报告的目的是介绍这一领域的工作,而是说明这一方法的一般效用,特别侧重于环境数据分析中在全球气候保护中心的研究中,实地试验侧重于对环境数据进行不限成员名额的分析,使专家们能够在类似于其常规数据分析工作的环境中探索和分析数据由于数据灵活性是主要设计目标,因此确保GCPC能够处理多个不同的环境数据集和广泛的分析活动非常为了确认该方法推广到不同环境领域的能力,使用不同的数据集和不同的环境数据分析专家组第一项研究是用沿海复原力领域的数据集进行的;第二项数据集侧重于小规模渔业领域。这两个数据集都包括与该领域相关的各种经济、社会、生态和环境因素专家环境研究人员的目标是参加实地试验。5.1. 研究问题为指导对全球产品竞争中心的评价,提出了五个研究问题。这些措施包括:RQ1:GCPC在多大程度上支持环境数据的探索RQ2:全球产品中心在多大程度上支持环境数据的详细分析RQ3:全球气候保护中心对环境数据分析有多大用处建议问题4:全球产品中心是否提供数据信息?RQ5:GCPC是否易于使用?5.2. 研究设计田间试验评价旨在提供可用于回答研究问题的经验证据。为了保证所收集数据的可靠性,采用了混合方法。在程序上,每项研究分为6个结构化阶段:(1)知情同意,(2)研究前问卷调查,118M. El Meseery,O.Hoeber/视觉信息学2(2018)111(3)(4)自我指导使用GCPC分析数据,(5)研究后问卷调查,(6)讨论/访谈。研究前调查问卷用于收集参与者的人口统计学信息,以及他们之前使用数据领域的经验,他们使用信息可视化方法的经验,他们使用地理信息系统的经验以及他们使用其他数据分析软件的信息这些信息被用来确定参与者是否在该领域和数据分析活动中有足够的经验,被认为是专家。为了使所有与会者对分析环境数据集的困难有一个基本的了解,会上作了一次专题介绍,概述了在地理空间、异质和高维数据中寻找模式和关系的核心问题。使用一个样本数据集解释和展示了全球消费者保护中心的具体特征。在演示了该系统后,与会者被邀请自由使用该系统来探索为其领域提供的特定环境他们被要求在他们选择的开放式分析中探索数据,类似于他们在日常工作中可能做的事情参与者为了确保分析工作做得好,没有压力要求迅速进行数据分析,也没有对这项活动规定时间限制。当参与者自我报告他们完成使用GCPC时,他们被要求完成一份问卷,旨在测量他们对GCPC的探索和分析功能的印象,以及该系统主要功能的有用性和易用性具体的调查表项目是根据现有的研究工具改编的特别地,关注探索和分析数据的能力的项目是由评估信息可视化系统的研究激发的(Lam等人,2012; Mazza和Berre,2007);侧重于系统有用性和易用性的项目改编自技术接受模型2(TAM 2)(Venkatesh和Davis,2000)。所有项目均以陈述的形式呈现,参与者可以在5分Likert量表(非常不同意、不同意、中立、同意和非常同意)上表明其同意程度。在研究的最后一步,进行了访谈,让参与者有机会解释他们喜欢和不喜欢使用GCPC,他们认为GCPC如何支持环境数据的分析,以及他们如何能够将该系统整合到他们目前的工作中。这些定性数据用于支持问卷的定量回答,详细解释了参与者对该方法的价值和有用性的5.3. 数据分析由于采用混合方法收集数据,如何分析数据取决于数据的类型。就定量数据而言,由于每个参与者的活动不同,因此汇总所有参与者的答复没有意义。然而,由于问卷包括多个项目来衡量更高层次的结构(例如,有用性,易用性),在构建水平上为每个参与者聚集数据对每个结构和参与者的每个响应水平的频率研究期间的录像和研究结束时的访谈对这些数据进行了分析使用先验编码策略(即,积极回应,消极回应和功能建议),从而对所做的不同类型的陈述进行分类(Creswell,2013)。该数据以分析活动和GCPC使用的叙述形式呈现5.4. 设置田间试验在两种不同的环境数据分析环境中独立进行。因此,在如何操作这项研究方面以及在参加者的人数及其在环境数据分析方面的经验。下面将针对每个设置对此进行说明。5.4.1. 沿海复原力实地试验第一组现场试验是在一个跨学科的环境研究小组的研究会议上进 行 的 , 使 用 Pollnac 等 人 在 沿 海 恢 复 力 领 域 收 集 的 数 据(Pollnac和Seara,2011; Pollnac等人,2001年)。由于研究会议的性质和参与者时间的限制,研究作为小组活动进行每个参与者轮流担任全球气候变化中心的操作员,投影仪上的显示是镜像的,以便所有参与者都能跟踪分析,并就探索和研究的内容提供投入和建议。调查问卷收集了关于探索和分析功能的实用性的个人意见,以及软件的实用性,输出质量和易用性。研究结束时的访谈是作为焦点小组进行的。该数据集收集自菲律宾海洋保护区(MPA)附近的45个社区(Pollnac和Seara,2011年; Pollnac等人, 2001年),重点是经济,社会,生态和环境因素。数据中总共有250个维度,包括地理空间、定量、定性和有序数据类型。考虑到该数据集中的大量维度,选择哪些变量与数据探索目标相关的初始分析步骤至关重要。本研究共有5名参与者由于他们是从一个跨学科性质的研究小组招募的,与会者报告了广泛的经验与地理信息系统,环境数据的可视化然而,他们都报告了中等到高水平的环境数据经验,使用可视化方法的经验水平相似,以及他们首选的数据分析工具的一致高水平的专业知识。5.4.2. 小规模渔业实地试验第二组实地试验是与一组学术研究人员和一所大学的研究生一起进行的,使用的是关于世界各地小规模渔业的范围和影响的数据集这些田间试验对每名参与者单独进行这些实地试验的数据集由TBTI研究项目提供,该项目侧重于研究小规模渔业的全球重要性(Gasalla等人, 2013年)。这些数据是在小规模渔业信息系统(ISSF)(太大而不能忽视,2014年)中收集的,这是一个众包网站,收集和管理全球小规模渔业概况库。ISSF允许研究人员贡献,编辑和输出有关他们进行研究的小规模渔业社区的关键特征的实地试验中使用的数据包括81个不同国家的概况,每个国家包含19个维度,包括定量、定性、有序和地理空间属性。数据的主要重点是每个国家小规模捕捞的程度及其与环境和人类发展的关系M. El Meseery,O.Hoeber/视觉信息学2(2018)111119由于该数据的众包性质,有许多数据行并不是每个维度都有值。本研究共有7名参与者虽然每一位与会者都是小型渔业领域的专家,但他们报告说,他们在环境数据分析和地理信息系统的使用方面具有广泛的经验在环境数据可视化方面,与会者报告说,他们以前的经验水平一般,几乎没有使用平行坐标的经验即使在他们喜欢的数据分析工具中,参与者也报告了广泛的先前经验,这表明这组参与者的研究培训和经验6. 结果6.1. 支持数据探索(RQ1)指导评估的第一个研究问题集中在GCPC支持环境数据探索的程度上。在任务后问卷中,提供了关于GCPC用于探索性数据分析的效用的五个陈述(即,一般地探索数据、探索子集、理解数据、检测模式、找到相关信息)。每个参与者的汇总响应见图。四、图4(a)表明,虽然有一些中立的意见,但沿海复原力实地试验的参与者普遍同意或强烈同意,GCPC是探索环境数据的宝贵工具。 在小规模渔业现场试验中,该模式非常相似,如图所示。4(b),只有一名与会者持中立意见。总的来说,参与者对全球产品总分类在数据探索方面的效用的答复表明,他们看到了在这一活动中使用该系统的好处。参与者能够交互式地调查和探索其数据的不同方面和子集,不同视图之间的协调使他们能够调查模式并识别相关信息。因此,我们得出结论,GCPC支持环境数据的探索在很大程度上。6.2. 支持详细的数据分析(RQ2)第二个研究问题试图确定全球产品竞争中心在多大程度上支持对数据的详细分析在研究后调查问卷中提供了关于GCPC在此类分析中的效用的9个状态特别是,这些陈述集中在参与者是否认为他们能够理解关系和分布,识别已知和未知,区分数据点,比较数据点和维度,并识别关系和相关性。每个参与者的汇总响应见图。 五、在沿海恢复力实地试验的参与者中,反应总体上是积极的,尽管如图5(a)所示,存在一些中立性和轻微的分歧。值得注意的是,第一次报告和第五次报告虽然总体上作出了肯定的答复,但都不同意其中一项关于全球产品总分类用于详细数据分析的说法由于在这一现场试验环境中使用GCPC的小组活动,以及需要轮流操作软件,这两名参与者可能没有像其他人那样花那么多时间进行详细的分析活动对于小规模渔业现场试验,除了一个中立的反应,与会者都同意使用GCPC进行详细的数据分析,如图所示。5(b).虽然结果是积极的,但沿海复原力实地试验参与者的消极反应需要进一步讨论。由于他们的专业统计经验,(a) 沿海恢复力实地试验。(b) 小规模渔业现场试验。图四、 GPCP在数据探索中的感知效用(五项措施)。软件,他们对GCPC有很高的期望。与会者表示,专业分析工具更适合于对数据进行详细的统计分析,但也指出,全球产品总分类对于数据的初步探索和初步分析很有价值这在小规模渔业现场试验中没有出现,可能是因为大多数参与者是研究生,他们对专业分析工具的经验较少我们的结论是,GCPC提供了良好的支持,详细的数据分析环境数据,与告诫,这种分析更适合于数据分析的初始阶段,并导出到专用的地理信息系统和统计分析工具的数据可能是必要的。6.3. 总体有用性(RQ3)第三个研究问题集中在整个环境数据分析过程
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功