需要软件工具,这些软件工具被设计为以多种有意义的表示来显
示数据,并支持复杂数据的探索和分析。
地理视觉分析是一种越来越多地用于支持地理空间数据的探索
性数据分析的方法(
Andrienko
等人,
2003; Keim
等人,
2008
年)。通过结合信息可视化、数据处理、数据挖掘和交互界面,
分析师能够探索、分析、推理和理解高度复杂的数据(Keim等
人, 2008年)。这种分析的以人为本的性质使分析人员能够确认
已知的情况,确定新的调查路线,提出和检验假设,确定模式,
并从所显示的情况中得出新的见解。有了这些优势,各个领域的
决策支持系统越来越多地采用地理视觉分析方法(Komenda和
Schwarz,2013; Sips等人, 2012年)。
在所有这些支持探索性数据分析的新地理视觉分析方法的开发
中,很少有研究对这些方法的支持、有用性和易用性进行评估。我
们研究的主要目标是设计,开发和研究地理视觉分析方法,使高维
异构地理空间数据的分析和理解。考虑到平行坐标表示大量维度的
能力,以及地理可视化显示空间关系的价值,我们开发了一个将这
两种方法紧密耦合的系统,称为地理坐标平行坐标(
GCPC
)。通过
将这些视图相互协调,并使用调查散点图,分析人员能够显示、重
新组织、过滤和突出显示他们调查中感兴趣的数据的各个方面。为
了研究和评估该方法的益处,与两个不同环境研究小组的成员进行
了实地试验评估。这些评价的目的是评估专家如何利用该系统在其
具体领域内探索和分析环境数据。
本文的其余部分组织如下。第2节提供了一个关键文献的审
查,为这项研究提供了信息
,包括高维数据可视化,
地理可视化分
析和环境数据的可视化分析的第3节概述了GCPC的设计和主要特
点。第4节提供了一个案例研究,说明了全球产品竞争力对数据分
析的价值。田间试验研究设计和程序见第5节,随后在第6节中对
两项评价的结果进行了详细分析。本文最后讨论的主要结果,主
要贡献的摘要,评估的局限性,并概述了未来的工作。
2.
相关工作
2.1.
高维数据可视化
由于二维显示的限制,可视化具有大量维度的数据是具有挑战
性的。在可视化研究文献中已经探索了许多不同的方法,包括降
维、小多点图、多点图和平行坐标(
Grinstein
等人,
2001; Ward
等人,2015年)。虽然每种方法都以自己的方式解决了显示高维
数据特征的挑战,但它们也有特定的局限性(
Ward
等人,
2015
年)。
降维方法使用计算技术将高维数据变换到低维空间,同时保持
数据点之间的相对接近度(
Choi
等人,
2010
年
b
)。诸如主成分分
析(
PCA
)(
Jolliffe
,
1986
)、多维标度(
MDS
)(
Choi
等人,
2010 a)和自组织映射(SOM)(Guoetal., 2006年,它被用于
这一目的。一般的做法是,
或者将数据从高维空间映射到2D或3D空间,然后使用传统的可视
化方法将数据点显示在它们的新位置。虽然将定位相似的数据
点,但是在新的坐标空间和数据的实际维度之间可能没有明显的关
系,从而在探索和寻求理解数据的含义时引入不确定性(Choi等
人,2010年b)。
另一种常见的方法是使用小倍数的简单可视化方法,如散点
图,显示数据维度子集的组合。这种方法的好处是,如果维度的
子集被仔细选择并适当可视化,用户就能够在数据的不同视图之
间进行比较(
Tufte
,
1990
)。例如,散点图矩阵可用于显示数据
内的所有成对关系(
Wilkinson
等人,
2006
年)。不幸的是,这
种方法不能很好地扩展到大量的维度,并且即使只有中等数量的
维度,用户可能考虑的数据的视图数量也可能是压倒性的。
图的使用扩展了传统的二维散点图,能够显示更多的维度。该
图将多个维度编码为字形中的图形参数,然后将这些参数定位在2D
图中(Grinstein等人, 2001年)。一种非常有用的简单方法是将
色调(表示定性维度)和大小(表示定量维度)分配给散点图中
的每个元素,从而在
2D
空间中实现
4D
可视化不幸的是,在它们变
得不 可理解之前,可以使用字形表示的 维度 的数 量是有 限的
(Chung等人, 2015年)。
一个根本不同的方法来解决这个问题是离开使用正交坐标空间,
而是使用一个坐标空间,组织平行的维度(
In-selberg
,
1985
)。对
于平行坐标,每个数据点都表示为一条线,该线与每个轴在特定尺寸
上的值的适当位置相交。使用平行坐标可视化高维数据的主要优点是
它们能够在大量维度上提供数据的单个视图,可以轻松比较相邻维度
上的数据,由于其灵活性,平行坐标已被集成到许多数据分析系统中
(
Guo
等 人 ,
2006; Lundblad
等 人 ,
2008
年
; Takatsuka
和
Gahegan
,
2002
年)。
不幸的是,还存在参数坐标的许多限制,包括当数据点经过给定
维度上的相同值时引入模糊性,在远距离维度上比较数据的困难,以
及当数据集中存在大量数据点时的过度绘制问题。近年来已经引入了
对 平 行 坐 标 的 许 多 交 互 式 扩 展 来 解 决 这 些 问 题 (
Heinrich
和
Weiskopf
,
2013; Zhou
等人,
2008
),使平行坐标可视化高维数据
的良好基础。
2.2.
地理空间数据可视化
虽然已经提出了许多方法来支持地理空间数据的交互式可视化
分析 ,但 主要 机制仍然是在地图上 表示 数据 。地 理信息 系统
(GIS)是完善的,并且通常用于可视化地理空间数据(Sánchez-
Lozano等人, 2013; Zhang和Gruen-wald,2008)。一般的方法
是允许用户向地图添加图层,以显示数据各个方面的空间分布然
而,利用地理信息系统来识别和研究数据中的关系是一个具有挑
战性的过程,因为它涉及视觉上的