交互式双变量地理数据地图报告

31 浏览量更新于2024-01-24 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学3（2019）27汇总二元地理数据的交互式地图报告ShahidBaghf，Fabian Beck杜伊斯堡-埃森大学ar t i cl e i nf o文章历史记录：2018年12月10日收到收到修订版，2019年2月8日，2019年保留字：地理可视化自然语言生成交互式文档a b st ra ct双变量映射可视化使用不同的编码来可视化两个变量，但在多个编码之间进行比较是具有挑战性的。与单变量可视化相比，来解读区域差异并发现地理异常值。特别是针对没有经验的可视化用户，我们提倡使用自然语言文本来增强地图可视化以及理解两个地质统计变量之间的关系。我们提出了一种方法，从数据分析中选择有趣的发现，生成相应的文本和可视化，并将两者集成到一个文档中。生成的报告以交互方式链接可视化与文本叙述。用户可以获得更多的解释，并能够比较不同的地区。文本生成过程是灵活的，并适应各种地理和上下文设置的基础上小套参数。我们通过一些应用示例来展示这种灵活性。2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍两个变量的相互作用揭示了一个实体如何潜在地影响另一个实体。在地理背景下，这种影响可能取决于该地区的地理位置。例如，风暴可能会在人口稠密地区造成更多的死亡。标准的地图可视化，如热图，choropleths和cartograms，旨在一次可视化一个数值变量。在地图上显示两个地质统计变量更具挑战性。为了同时可视化两个变量，可以叠加两个单变量图的组合，例如，第一变量被示出为choropleth图，第二变量以叠加形状的大小编码;可替代地，可以使用单独的视图。然而，特别是没有经验的用户可能会面临正确和有效地解释双变量可视化的问题具有低可视化素养的用户可能在理解相应的可视化方面存在即使是经验丰富的用户也可能发现很难检测空间模式和发现异常值。因此，有必要使双变量地理统计可视化更加自我解释，并通过数据分析指导用户。当一个可视化不能完全自我解释时，我们可以以标题和注释的形式向它添加文本。此外，为了描述数据分析的结果，文本表示可以很容易地∗通讯作者。电子邮件地址：shahid. paluno.uni-due.de（S.fabian.paluno.uni-due.de（F.Beck）。同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2019.03.004引导读者了解重要的发现。因此，我们认为，用文本报告增强二元映射可视化并交互式地链接两者可以显着提高用户理解数据的能力。使用自然语言生成技术，我们可以很容易地为特定类型的应用程序（例如，死亡报告）。然而，我们希望找到更普遍的解决方案，可以处理各种类型的地质统计变量（例如，死亡率、货币、人口）。尽管可视化通常已经可以推广到不同的场景，但自动生成的文本严重依赖于领域词汇和上下文。相比之下，我们提出了一个文本生成过程，是灵活的，适应不同的变量类型和地理环境。这种灵活性是通过一组提供元数据和上下文的参数来实现的。这些参数也影响视觉编码。文本和可视化最终以链接的交互式表示形式呈现在一起。我们开发了交互式地图报告（iMR），一个基于Web的自动生成叙述和可视化以描述双变量地统计数据的分析结果的工具。图中所示的样品。1解释了2017年美国风暴事件造成的死亡人数。这些报告总结了变量之间值得注意的模式和关系。此外，它们还提供了对选定区域的解释，并能够根据需要合并任何两个感兴趣的区域文本中变量的颜色和在两个代表中的各自区域。为了生成报告，我们将数据分析技术与自然语言生成和交互式可视化相结合。我们的主要科学贡献是：2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinf28S. Zerof和F. 贝克/视觉信息学3（2019）27Fig. 1. 一份地图报告描述了2017年美国因风暴造成的生命损失。地图可视化使用两种不同的编码来可视化焦点和上下文变量。叙述（右列）提供了数据分析的概述。文本中的图形有助于建立两种表示之间的联系。用户可以获得有关选定区域或两个选定区域（虚线矩形）的比较的其他详细信息从双变量地质统计数据中自动检测和选择相关信息（第3节），一种通用的基于模板的文本生成技术，用于生成适应不同上下文场景的叙述（第4节），一种适应性强的方法，用于为各种地理区域和粒度生成地图报告，包括交互式链接的叙述和可视化（第5节），以及该方法在各种应用场景中的通用性演示（第6节）。互动系统（iMR）可在https：//vis-tools上找到。paluno.uni-due.de/imr，并且补充材料包含具有附加示例的交互式附录。2. 相关工作我们从两个不同的角度探索现有的文献--在地图上可视化二元统计数据的技术和使用文本和可视化相结合的方法来传达分析结果。专题地图用于显示一个跨越地理空间的变量。该变量主要编码为颜色（Brewer et al. ，1997年），地理区域的大小和形状（地图），或覆盖在地图顶部的特定符号（Flannery，1971年）。虽然大多数专题地图用于可视化单个变量（例如，choropleths ，热图），存在概括该概念的技术双变量（Howard和MacEachren，1996; Brewer和Camp-bell，1998）和多变量数据（Kim et al. ，2013）。二元映射类型的分类可以在Elmer的工作中找到这种分类基于视觉变量的各种组合，并改编自Nelson（2000），MacEachren（2004）的工作。根据（Elmer，2012），尽管有超过11种不同类型的二元地图（从六本制图书籍中识别出（Elmer，2012，表2.1）），类型，只有两种（双变量choropleths和choropleths与重叠的分级符号）已在以前的文献中普遍使用。通过构造，双变量地图可视化与其单变量对应物相比在视觉上更复杂且更难以理解。为了便于分析地理环境中变量之间的关系，Monmonier（1990）将空间表示与视觉统计摘要（散点图矩阵）相结合。相比之下，我们提倡文本解释，使可视化自我解释，并提供一个锚点，以探索信息，特别是缺乏可视化素养的用户。从数据和其他抽象信息自动生成书面叙述属于自然语言生成（NLG）的范围（Deemter et al. ，2005; Reiter et al. ，2000;Gattand Krahmer，2018）。诸如Wordsmith和Arria NLG Studio之类的商业工具允许构建用于文本生成的可定制模板，并使用高级语法模型来执行语法相关任务（例如，主谓一致）。然而，在这些系统中，用户必须为每个应用程序或数据集构建模板。相比之下，我们的目标是通过使用一组最小的参数，将基于模板的文本生成方法推广到不同的上下文。大多数现有的方法为非地理数据生成自然语言文本;只有少数解决了地理数据。其中，Dale等人（2005）生成了从地理信息系统数据集构建的路径的路线描述。Ramos-Soto等人（2015）制作天气预报报告。Thomas和Sripada（2007）提供了（音频）摘要地理参考数据的收集，以便更好地向视障人群传达信息。Turner等人（2008）通过考虑诸如海拔、方向、人口等地理特征来呈现道路结冰天气预报。，2018年），提供驾驶员驾驶风格的文本反馈，以改善驾驶习惯。Molina et al. （2015年）与我们的接近，因为它们产生地理分布的水文传感器数据的····S. Zerof和F. 贝克/视觉信息学3（2019）2729=−旁边有一张地图虽然他们的系统包括一个地理地图，有可能得到时间分布的个别传感器读数，文本和图形表示没有交互式链接。此外，这些方法的主要焦点是NLG和文本生成过程是数据依赖的，这使得它们很难推广到其他数据集。在许多其他现有的文本生成方法（Gatt和Krahmer，2018）中，只有少数讨论了文本与可视化相结合。它们分布在许多不同的领域，例如，简单机器的说明书的生成（Wahlster et al. ，1993），医疗保健数据报告（Jain和Keller，2015; Hunter et al. ，2008）、虚拟学习环境中参与者的个人分析（Ramos-Soto et al. ，2017年），水肺潜水员的剖析（Sripada和Gao，2007年），以及程序执行行为的描述（Beck et al. ，2017年）。其他方法已经讨论了已经生成的图形内容的自动技术摘要（ Mittal et al. ， 1995; Demir et al. ， 2012;Hullman et al. ，2013）。这些系统侧重于数据分析的解释方面，并没有提供太多的可探索性。最近的方法表明，文本和可视化的相互链接可以方便用户对数据进行可视化探索。例如，Voder（Srinivasan et al. ，2019）使用自动生成的关于可视化数据的文本描述作为交互链接来建议其他相关类型的可视化以更好地理解。Kwon等人（2014）建议动画化可视化的相应部分（例如，平行坐标）与相关文本交互。但这里的文字是这样写的由人类专家完成，而不是自动生成的。VIS作者简介（Becaif和Beck，2019）将生成的文本和可视化结合在一个交互式文档中，提供了数据分析的解释性和探索性方面。然而，VIS作者配置文件和其他讨论的方法的重点是狭窄的，它们是针对特定的应用程序，并不容易被推广到不同的上下文和数据集。相比之下，我们的重点是更广泛的和所提出的方法概括到不同的上下文设置。除了文本和可视化的交互式链接之外，还建议使用单词大小的图形或 sparklines （ Tufte ， 2006 ）来更好地整合文本和视觉内容（Beck和Weiskopf，2017; Goffin等人）。，2014年）。在本文中，我们使用填充圆与文本对齐，以更好地将其与地图可视化连接起来，如图所示。1.一、3. 内容选择任何自然语言的生成都始于内容确定，内容确定决定了要传递什么信息（Reiter et al. ，2000年）。在深入研究数据分析的细节之前，我们首先介绍我们的目标数据集和探索性研究的结果，旨在获得可能内容的初步概述。3.1. 二元地统计数据我们的重点是分析双变量地质统计数据-测量两个数字变量的地理区域。特别相关的是其中一个变量可能影响另一个变量的那些场景。例如，预期寿命可能取决于卫生支出的数额。同样，风暴的强度和次数也会影响生命损失的数量。在下文中，我们将可能依赖于另一个的变量称为焦点变量，将另一个称为上下文变量。如果可以假设因果关系（例如，因为它是显而易见的，或者存在合理的解释），它指出从上下文到焦点变量。在我们的分析中，我们使用了三个层次的地理，即地区（例如，美国）、分区域集团（例如，国家集团）和次区域（例如，个别国家）。我们使用风暴死亡数据集作为我们的3.2. 探索性研究为了初步了解在描述双变量地质统计数据时应考虑哪些方面，我们对两名参与者（P1，P2）进行了探索性研究。两人都是博士。学生在可视化领域工作，但没有参与这个项目。向他们展示了一个如图2所示的二元映射可视化的交互式版本，类似于我们的交互式系统中后来使用的版本。在这些可视化中，焦点变量被编码在填充圆的半径中，该填充圆被放置在示出上下文变量的choropleth图的顶部。要求参与者总结可视化（任务I），描述一个特定的子区域（任务II），并提供对两个特定次区域的比较看法（任务三）。他们有可能写尽可能多的文本，因为他们想要的，没有时间限制。任务I-总结：两名参与者都从描述焦点变量的最小值和最大值的子区域开始，然后解释外围区域。P1包括变量之间可能相关性的信息。P2描述了上下文变量的空间趋势。最后，两个参与者都注意到并描述了相邻子区域之间的值的突然变化任务II-区域特定描述：P1描述了给定子区域的两个变量的值，然后命名显示类似行为的其他区域，而P2提供了与平均值的比较。此外，P2还突出显示了与其直接邻居相比具有更高上下文任务III-比较：两名参与者比较了两个地区的每个变量的值，并用一句话描述它们。P1包括了关于一个次区域的更多细节，因为提交给他进行比较的一个次区域是一个离群值。结果表明，突出的方面是离群值（单变量和双变量）的报告，区域与其邻居的比较，变量值在空间上的变化，以及子区域表现出相似的行为。此外，不同次区域层面的价值观的确定和变化（例如，欧洲部分地区）可能揭示有趣的模式，值得报告。例如，在Fig. 2（左），相关性为在南方各州（ρ= 0）更强。753）与该国的总体相关性（ρ= 0.400）。3.3. 数据分析接下来，我们将讨论统计方法来自动识别将成为我们叙述一部分的内容。与变量值的范围、变量之间的相关性和极值等基本信息相比，单变量离群值、双变量离群值和区域差异的检测需要更复杂的数据分析方法。3.3.1. 单变量离群值数据集中极值（最小值和最大值）的重要性取决于变量的分布。Tukey箱形图（Tukey，1977）使用的测量指标包括第一个四分位数（Q1）、中位数（Q2）、第三个四分位数（Q3）和四分位距（IQR年q3Q1）描述一个单变量分布-第 Hoaglin等人0 4 T h e D o g （2000）30S. Zerof和F. 贝克/视觉信息学3（2019）27]√=-p==−=-·+·[−· +·图二. 探索性研究中使用的二元映射可视化。(Left P1）美国各州风暴造成的死亡人数。（右，P2）平均预期寿命以及整个欧洲的医疗支出比Q11。5 IQR或大于Q 3 1。5IQR作为离群值的潜在可能性。虽然有些武断，但这个检测离群值的阈值基于他们对许多数据集的经验而工作得很好。我们单独分析每个变量并识别单变量离群值，即，位于Q11 .一、5 IQR，Q3 1. 5IQR范围。图图3示出了与我们的示例性数据集中的两个变量中的每一个相对应的分布和离群值。3.3.2. 双变量离群值我们还对与其他子区域相比表现出不同行为的子区域感兴趣这两个变量的值。这种双变量离群值可以不一定是两个单变量中的离群值。例如，虽然内华达州和佛罗里达州在图。 3（用红点标记）不是变量风暴中的异常值，它们是二元异常值，如图3中的袋状图所示。四、袋状图（Bagseeuw et al. ，1999）是箱形图的双变量推广，并可视化了两个变量的分布、扩散和离群值。袋状图的三个主要组成部分是：包含50%的观察值的袋，通常通过将袋膨胀3倍将内点与离群点分开而获得的围栏，以及环，即位于袋和围栏之间的点的凸包。双变量离群值的检测取决于数据的形状或分布，其通常由协方差矩阵表征。为了识别离群值，我们使用一个众所周知的距离度量，马氏距离，它考虑了协方差矩阵，并被定义为观测值和多变量分布之间的距离。数学上，该距离被指定为：D=TS−1（x−µ）（1）其中x（x1，x2）是变量向量，µ（µ1，µ2）是均值向量，S是二维对称协方差矩阵。结果值d表示点x与分布均值µ的马氏对于d的恒定值，Eq. （1）定义了一个以μ为中心的二维椭球。椭球体的概率服从χ2分布，自由度为p（Härdle和Simar，2007）。因此，椭圆体满足（x−µ）TS−1（x−µ）≤χ2（α）（2）概率为1α。因此，对于p2（双变量情况）和α 0。5 ×25。99. 当量（2）指出任何观测值都被视为二元离群值，其平方马氏距离大于5.99。3.3.3. 地理空间趋势任何统计变量的行为都可能因地理次区域的不同而有很大差异。例如图1显示，美国沿海各州经历了更多的风暴，因此，更多的伤亡。为了识别这种行为，我们对所考虑的整个所示地理区域联合国（1999年）将世界各国划分为不同的组别。例如，欧洲国家分为东部、西部、北部和南部国家。类似地，美国的区域划分也分为西部、中西部、东北部和南部.使用这个分组（或其他外部提供的分组），我们可以查找这些组之间的差异。特别是，我们检测在这些组中的一个或多个组中焦点和上下文变量之间是否存在强的正相关或负相关。除了双变量离群值之外，对与相邻子区域显示不同行为一致性的子区域的识别可能是感兴趣的。例如图1显示内华达州与其邻近的州亚利桑那州，加利福尼亚州，爱达荷州，俄勒冈州和犹他州相比，在这两个变量方面为此，我们将每个子区域的每个变量的值与其相邻区域进行比较，以确定显示不同统计数据的区域。4. 文本生成与基于语法模型或机器学习的高级文本生成方法（Gatt和Krahmer，2018）相比，我们使用基于模板的文本生成方法，因为它具有良好的适用性和足够的灵活性。Deemter等人（2005年）对生成方法进行了深入的比较。4.1. 叙事模板选定内容后，下一步是将这些信息转换为书面叙述，由包含相互关联的句子的段落组成。为此，我们使用类似的方法来控制生成的短语和句子的顺序，如方法执行报告（Beck等人，2017年）和VIS作者简介（Beck和Beck，2019年）。有向非循环决策图指导生成流程，并从预先编写的模板生成文本。图5显示了负责生成地图报告主要部分的决策图。该过程从Start节点开始，并遵循确定性路径，直到到达Stop节点。决策节点（圆角矩形）根据值引导路径S. Zerof和F. 贝克/视觉信息学3（2019）2731←←←←图三. 箱形图显示了 2 0 1 7 年美国风暴造成的死亡分布。数据集包含两个变量的单变量离群值见图4。2017年美国风暴造成死亡的袋状图。袋子（蓝色）包含近50%的数据点，循环（浅蓝色）包括袋子外但在围栏内的点。双变量离群值标记为红点。(For为了解释该图图例中对颜色的引用，读者可以参考这篇文章的网络版本的决策变量。文本节点（矩形）负责句子的创建，当访问时，向叙述中添加新的从开始到停止节点的任何遍历都会产生有意义的叙述。4.2. 适应性模板为了实现叙述的灵活性并使模板适应不同的数据集，我们利用用户定义的参数来描述有关场景的Meta数据通过这些参数，我们添加了无法从原始数据中自动检测到的语义和特定于领域的词汇。参数列表以及简短描述和可能的值如表1所示。参数“区域”和“子区域级别”分别定义区域的名称和区域详细级别的名称。参数Focus和Context Type定义了两个变量的类型，可以从预定义值列表中选择。形容词、量词和动词的选择取决于这些变量类型。例如，对于伤亡类型，可能的短语是：类似地，对于变量类型monetary，可能的短语可以是根据变量类型，我们从同义动词列表中选择动词，使文本更有趣。除了量词和动词外，副词的选择（例如，更好，最坏）取决于所考虑的背景或情况。我们描述了三种可能的情况：正：需要更高的焦点变量值的情况。例如，较高的平均预期寿命值通常被认为是可取的。负面：有利于较低焦点变量例如，报告道路交通事故死亡人数较少的城市将被视为较好。中性：不明显倾向于焦点变量的小值或大值的情况。例如，仅根据一个国家老龄化社会或年轻人失业），更低或更高的出生率是可取的。将变量类型与情境相结合，我们现在可以使用更有表现力和更具体的短语来描述结果。对于焦点类型人口统计指标和情况积极，可能的短语可以是：同样，上下文类型事件，但情况阴性可能导致;“X是最安全的子区域由于事故数量最少”。另一个考虑因素是存在强相关性，这可能被错误地解释为因果关系。然而，因果关系并不意味着因果关系，并且不可能从数值数据中自动提取因果关系。参数因果关系有助于避免基于相关性值对因果关系的错误解释···32S. Zerof和F. 贝克/视觉信息学3（2019）27→→→图五. 显示文本生成过程的决策图。圆形-矩形决策节点控制路径，而矩形文本节点添加文本片段当访问。绿色路径标志着图 1 中示例的叙事生成。1 .一、表1用于配置映射报告的用户定义参数。参数描述值区域显示地图的区域的名称字符串值，例如，世界，欧洲，德国次区域一级地图细分区域类型的名称字符串值，例如，国家、州、城市焦点/上下文类型根据预定义类别的事件、伤亡、人口统计指标、数量、百分比、货币或指标情况与焦点变量有关的情况类型正、负或中性因果关系如果因果关系可以假设从上下文到焦点变量是或否4.3. 长长的项目在分析过程中，我们需要处理长列表次区域，例如，大量的单变量离群值。列表中的每个成员都与所附变量的数值相关联。由于我们的最终输出是自然语言文本，因此包含长列表会使文本变得冗长而乏味to read.因此，我们限制这些列表的大小。然而，我们并没有将列表切割成固定大小，而是使用了一种动态选择方法，该方法将列表切片，以使列表中的项目处于给定的范围内（Beclaf和Beck，2019，第4.4节）。列表在与下面的值的差异相当大的点处被剪切5. 交互式地图报告为了实现我们的方法，我们开发了交互式地图报告（iMR），一个基于Web的系统，生成分析报告的双变量地质统计数据。图1显示了界面我们的工具和生成的报告的组成部分。左侧的映射可视化使用两种不同的编码来可视化两个变量。右栏显示所生成的叙述，其中包括所选次区域的概况和其他细节，或任何两个所选次区域的比较（为节省空间，显示在图1地图下方）。小的信息图标指示其他说明的可用性，例如，包含其各自变量值的区域的完整列表或用于对相应句子进行短语化的分析方法的详细信息。在文本中使用小图形（圆圈表示焦点，颜色编码表示上下文变量）支持在阅读文本时快速比较各个区域，也更容易在地图上找到相应的子区域子区域名称以粗体字符显示，并且可以单击-单击时，系统会在地图上突出显示相应的子区域。当鼠标悬停在子区域上时，工具提示会显示这两个变量5.1. 二维地图可视化为了在地理地图上可视化双变量地质统计数据，我们采用了一种标准技术，该技术在比较不同双变量地图可视化的用户研究中表现良好（Elmer，2012）。它使用两种不同的编码，每个变量一种。上下文变量被可视化为基于单色线性亮度梯度的choropleth图。焦点变量的值被编码在填充圆的半径这些圆位于相应子区域的质心处。用于编码焦点变量的颜色的选择取决于指定的情况，即，正绿色、负红色和中性橙色。这一选择是基于这样一个事实，即绿色通常与积极和安全的情况相关联，而红色被认为是警告或危险的标志。然而，中性情况下选择橙色有点随意，选择橙色是为了更好的可见性，因为它必须覆盖在黑色和灰色的顶部。对于上下文变量，我们总是使用相同的中性渐变（浅灰色到深灰色），而不管情况如何只在焦点变量上。5.2. 分析摘要生成的叙述的第一部分是概述，总结了数据分析的结果本节分为S. Zerof和F. 贝克/视觉信息学3（2019）2733见图6。一份交互式地图报告描述了 2 0 1 8 年欧洲的平均预期寿命和医疗支出。分成三段。段落的结构和顺序是固定的，但句子会根据数据集和场景发生很大变化。在图1中，概览是通过遍历图1的决策图中的绿色路径生成的。五、开头段落由一句话组成，通过内嵌图例介绍了数据集和可视化编码第二段总结了焦点变量的单变量分析结果。它首先声明焦点变量的平均值，然后是其值的范围，并伴有子区域名称（文本节点Vis. desc. ）.如果多个子区域具有相同的最小（或最大）值，则以一个子区域为例。将鼠标悬停在信息图标上可以查看这些区域的完整列表下一句列出了根据焦点变量（文本节点Uni.离群值描述）.根据动态选择方法（第4.3节），此子区域列表和所有其他类似的子区域列表仅限于显示2至4个子区域，并可按需查看完整接下来，在第二段中，文本节点Outlier among the neighborsdesc. 负责描述与其相邻子区域相比表现出显著不同值的区域。我们使用第3.3.1节Tukey的围栏中描述的方法如果相邻子区域的数量更大（例如，密苏里州、内华达州、德克萨斯州和威斯康星州）。然而，在几个相邻子区域（例如，佛罗里达州只有两个相邻的州），无法检测到有意义的离群值。对于这种特殊情况，即使是狄克逊由于这些情况更难识别，我们采取保守的决定，并从分析中排除所有少于三个邻居的子区域。第二段的最后一句详细介绍了两个变量值的区域差异（文本节点Reg. differences desc. ）.根据所考虑的地理区域的区域分类，我们描述与其他群体相比表现出不同行为的次区域群体。例如图1描述了与其他州相比，南部各州在风暴中丧生的人数更多。同一个文本节点产生了图2中这个句子的另一个变体。6指出，虽然西欧国家在保健方面的支出较多，但南欧国家的平均预期寿命较高。最后一段强调了上下文的关系到焦点变量，然后是双变量异常值的描述。它首先描述变量之间的正相关或负相关（文本节点Pos./neg.相关性）。在因果关系设置为是的情况下，使用不同的措辞和词汇来暗示因果关系。例如图第一，第三段，它说，选择“由于”一词这一段的第一句话在图中是不可用的。 1，因为相关性的整体值低于阈值（如图1所示）。 5）; Fig. 6给出了这句话的一个例子。下一句着重指出一个或多个次区域集团之间存在着强有力的正相关或负相关（正文节点Reg. corr. desc. ）.然后描述显示双变量离群值的区域。例如图1强调德克萨斯州和内华达州是bivari-吃离群值-得克萨斯州有最大值的两个变量，而内华达州遭受了非常高的伤亡人数在一个相对较少的风暴。5.3. 按需解释概览部分提供了分析的高级别摘要，但不包括对每个次区域的说明。因此，除了显示焦点和上下文变量值的工具提示外，我们还对每个子区域进行了额外的描述。用户可以单击任何子区域以获取更多详细信息，这些详细信息显示在概述部分下方，如图所示。1.一、按需解释的生成过程遵循与图1所示的决策图类似的决策图。 5;生成的文本由单个段落组成。34S. Zerof和F. 贝克/视觉信息学3（2019）27←表2所示示例的参数配置。图标题区域分地区级焦点类型上下文类型焦点名称上下文名称情况因果关系1风暴造成的死亡人数，美国，2017美国国伤亡事件死亡风暴负是的62018年欧洲平均预期寿命和医疗支出欧洲国家人口指标货币平均预期寿命卫生支出积极没有72015年世界青少年生育率和互联网使用情况世界国家人口指标百分比青少年生育率互联网用户中性没有82010年世界肥胖和酒精消费情况世界国家百分比指示器肥胖者饮酒负没有第一句将选定次区域的重点和背景变量值与所有次区域的相应平均值进行比较。如果所选子区域属于极端情况之一，则使用最高、最低、最多等量词进行说明。例如，在德克萨斯州的情况下，这句话是：“ 德克萨斯州在美利坚合众国所有州中死亡人数最多（ 1 8 4 人），风暴次数最多（ 3 6 2 1 次） ” 。下一句说明选定次区域在重点变量方面的统计排名。的最后一句提供了所选子区域与其相邻区域的比较，以突出显示相似或不相似的统计数据。例如，犹他州是唯一一个没有伤亡报告的邻国除了对一个子区域的解释外，还可以通过同时选择任意两个子区域来进行比较。在这里，生成的文本由一个句子组成，该句子根据两个变量的值对两个区域进行对比。例如图图7和图8呈现了两个不同的比较文本实例。6. 结果我们提出了一些例子来证明我们的方法的实用性，并支持我们的主张，iMR(i)可靠地检测各种数据集的离群值、区域差异和突出模式，（ii）产生关于分析结果的有意义的文本除了本节介绍的示例外，读者还可以通过在任何现代Web浏览器中运行iMR系统来探索更多示例在下文中，我们展示了三个不同区域的地图报告：世界（图1和图2）。 7和8），大陆（图。 6），和国家（图。1）和两个不同的次区域层面：国家和州。表2显示了示例中用户定义的参数值。在世界一级，该报告描述了表现出不同行为的国家集团。例如，与世界其他地区相比，欧洲国家的互联网用户人数较多，青少年生育率较低。在大陆一级，图6显示了欧洲不同地区之间的差异-南欧国家尽管在卫生方面的支出较少，但平均预期寿命较长。在国家一级，除了描述该国各州之间的差异外，该报告还强调了与相邻州相比表现出不同行为的州。例如图1显示，密苏里州，内华达州和威斯康星州的死亡人数比他们的邻居多得多为了展示生成的文本对各种情况的适应性，我们展示了每种情况的示例。图 7强调了青少年生育率（15-19岁妇女每年的活产数）与上网人数之间的关系。青少年出生率（焦点）既不明显是正数，也不明显是负数，本报告是根据中性情况生成的图1和图2所示的地图报告。 1和8是用情境的负值产生的。例如，短语虽然这两个例子共享相同的情况下的价值，叙事相当不同的变量类型和相关性的存在。前一个例子强调了南方各州之间存在正相关，而整个美国并没有相当大的相关性。相比之下，图中没有关于变量之间相关性的段落。8、价值不够大。图6显示了平均预期寿命和每户用于保健的资金。在这里，较高的预期寿命值是有利的，因此情况是积极的。“预期寿命更长”这句话大多数情况下，量词和动词的选择取决于变量类型。例如图1使用伤亡人数作为焦点变量的类型，因此使用了短语“数量”。类似的是图中的变量类型百分比的情况。 7（“互联网用户的百分比”）和图。 8（“肥胖人口的百分比”）。参照图6、变量卫生费用的量词“价值”的选择然而，变量类型人口统计指标不需要任何短语，如图1B的示例中所示。 6和图 7（“非洲国家青少年生育率较高”）。图1、动词“遭受”、“经历”、“面对”对应焦点型伤亡。7. 讨论和结论我们展示了一种创建双变量地理统计数据分析报告的方法，该报告由伴随地图可视化的生成叙述组成。这些报告指导分析结果，并为解释数据提供额外的解释通过大量的例子，我们展示了我们方法的灵活性，它可以为不同的变量类型、地理区域和场景生成有意义的交互式报告我们的工作范围仅限于双变量地质统计（即，数值）数据，其中一个变量可能影响另一个变量。虽然我们选择了一个特定的地理可视化来编码二元数据，但用一个不同的可视化来替换它甚至使其可定制相对容易。实现它的一个选项可以是使用全面的声明性模型来产生可视化，如Jo等人所描述的。（2019年）。我们涵盖了许多变量类型，但不能声称每个变量都可以归类为上述类别之一然而，通用类别的定量结果是一个不太有针对性的，但仍然有意义的叙述。有趣的未来工作包括将该方法扩展到分类变量，多变量数据（即，两个以上变量），以及S. Zerof和F. 贝克/视觉信息学3（2019）2735见图7。显示世界各国青少年生育率与互联网用户百分比之间可能存在的关系的交互式地图报告2015年见图8。一份互动地图报告，描述了 2 0 1 0 年世界肥胖人口和酒精消费的百分比。36S. Zerof和F. 贝克/视觉信息学3（2019）27时空信息虽然第一个扩展估计只需要较小的更改，但后两个场景可能需要完全不同的数据分析、叙述和可视化技术。与大多数以前的系统，生成相结合的视觉和文本描述，我们的重点是比较广泛的，涵盖不同的场景。使用一个小的参数集提供了足够的灵活性，以适应不同的数据集相同的文本生成过程。因此，我们的方法可以被认为是介于完全自动化的文本生成系统（针对狭窄的场景）和允许构建完全可定制模板的工具但是，我们的方法不支持手动细化或扩展报告，超出了可以通过参数指定的配置。由于我们的地图报告包含文本和可视化，作为报告的两个不同部分，有人可能会认为这引入了注意力分散效应。然而，这对于包括多个视图的任何数据表示都是正确的。我们的报告中的可用交互通过提供一种更容易和更快的交叉引用两种表示的方法来抵消这种影响。此外，使用单词大小的图形也有助于更好地整合文本和视觉信息（Beck和Weiskopf，2017）。像我们这样的自动生成报告的一个问题是，不能排除生成错误信息的可能性。有人可能会说，上述问题在某种程度上也危及可视化，特别是当数据和视觉元素之间的映射很复杂时。然而，自动生成的文本的问题更严重，因为它更明确。像任何复杂的软件系统一样，一种可能的对策是应用彻底的测试。目前，我们的报告是根据预定义的设置生成考虑探索历史，甚至相对的用户特征（如Toker等人的研究中所发现的）将是有趣的。的工作（Toker et al. ，2018））。除了按需的文本解释之外，使用Monmonier（1990）所讨论的摘要可视化来揭示子选择区域上的变量之间的关系虽然可视化和文本数据去重都有各自的优点，但是哪种信息在哪种模态中更好地表示仍然是一个很大程度上开放的研究问题一些现有的工作已经提供了证据，双峰（即，文本和可视化）表示可以有益于理解和解释信息。Gkatzia等人（2017）使用基于任务的研究证明了在不确定性下更好的决策。同样，Sripada和Gao（2007）声称，潜水员在判断深潜的安全性时发现双峰表示更全面。然而，他们的结果是基于特定的数据集，不能一概而论。我们的方法假设，一个二元地图可视化，叙述只伴随着视觉表示，但不被认为是生活没有可视化。作为下一步，进行用户研究以调查特别是对可视化缺乏经验的用户是否会像预期的那样从额外的文本中受益确认Fabian Beck感谢巴登-符腾堡基金会在博士后奖学金中为该研究项目提供的资金支持。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.visinf.2019.03.004上找到。引用Beck，F.，Siddiqui，H.A.，Bergel，A.，Weiskopf，D.，2017.方法执行报告：生成文本和可视化来描述程序行为。第五届IEEE软件可视化工作会议论文集。IEEE，第1-10. http://dx.doi.org/10.1109/VISSOFT.2017.11网站。Beck，F.，Weiskopf，D.，2017.用于科学文本的字大小图形。IEEE Trans. Vis.Comput. Graphics 23（6），1576 http://dx.doi.org/10.1109/TVCG。2017.2674958。Braun，D.，Reiter，E.，Siddharthan，A.，2018. Saferdrive：基于NLG的驾驶员行为改变支持系统。Nat.Lang.Eng.1-38.http://dx.doi.org/10.1017/S1351324918000050.Brewer，C.，坎贝尔，A.J.，1998年超越分度圆：在地图上表示定量数据的各种点Cartogr。透视。(29)，6-25。http://dx.doi.org/10.14714/CP29.672网站。布鲁尔，CA，MacEachren，上午，皮克尔，L. W.，Herrmann，D.，1997.绘制死亡率：评估分区图的配色方案。美国安协会 Geogr.87 （ 3 ）， 411-438.http://dx.doi.org/10.1111/1467-8306.00061网站。戴尔河，Geldof，S.，普罗斯特，J. - P.，2005.自然语言生成在路径自动描述中的应用。J. Res. Pract. INF. Technol. 37（1），89.迪恩，RB Dixon，W.，1951.少量观测的简化统计。Anal. 23（4），636-638中所述。http://dx.doi.org/10.1021/ac60052a025.Deemter，K.V.，Theune，M.，Krahmer，E.，2005.真实与基于模板的自然语言生成：一个错误的对立？ Comput. 语言学家 31 （ 1 ）， 15-24 。http://dx.doi.org/10.1162/0891201053630291网站。Demir ， S.， Carberry ， S. ， McCoy ， K.F.

下载后可阅读完整内容，剩余1页未读，立即下载