基于学习的高效可视化构造方法与大数据可视化指数神经网络的交互式探索

134 浏览量更新于2024-01-24 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学6（2022）14一种基于学习的高效可视化构造方法孙永健a，李洁a，陈思明b，根纳季·安德里延科c，d，娜塔莉亚·安德里延科c，d，康章娥a中国天津大学智能与计算学院b中国复旦大学数据科学学院c德国弗劳恩霍夫研究所英国伦敦城市大学北京师范大学-香港浸会大学联合国际学院ar t i cl e i nf o文章历史记录：2021年12月18日收到2022年1月20日收到修订版2022年1月20日接受2022年1月31日在线提供保留字：学习指数神经网络可视化指数交互式探索时空可视化a b st ra ct我们提出了一种方法来支持交互式可视化探索的大数据量的训练学习可视化指数（LVI）。预先知道数据、用于可视化的聚合函数、可视化编码以及用于数据选择的可用交互操作，LVI允许避免响应用户交互的耗时的数据检索和原始数据处理相反，LVI直接预测用户数据选择的兴趣聚集。我们证明了所提出的方法在应用程序中的效率在不同尺度的时空数据的两个用例。版权所有©2022作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍索引是优化数据检索的常用技术。通过将数据内容映射到内存地址，索引可以通过避免遍历存储空间来快速获得查询键的结果。最先进的观点是，索引可以被视为AI模型。这种方法被称为学习指数（LI）（Kraska et al. ，2018年）。例如，B树是一种回归树，它将键映射到键排序集合内的位置，并保证该位置处的记录的键是等于或高于查找键的第一个键。同时，布隆过滤器是一个二元分类器，它预测一个键是否存在于一个集合中。使用这些模型的一个直接优点此外，索引质量可以大大提高，因为每个模型都是针对数据集进行专门训练的，因此可以有效地捕获数据集的固有特征。受此启发，我们提出了学习可视化指数（LVI），这是一种基于神经网络的模型，可以通过收集大量数据子集的样本和相应的视觉特征值来训练。LVI可以直接输出数据选择后的视觉特征值，避免了数据检索和视觉特征计算，*通讯作者。电子邮件地址：jie.litju.edu.cn（J. Li）。https://doi.org/10.1016/j.visinf.2022.01.001这是耗时的，尤其是对于大型数据集。使用图中的LVI#1。图1作为示例，其中用户选择地图上的直角区域以生成示出在一周中的每一天发布的推文的数量的直方图。在接收到选定区域后，LVI直接输出七个条形图的像素高度，而不必多次遍历数据集来计算聚合度量。LVI固有的AI特性带来了许多独特的优势。首先，LCI可以通过跳过数据检索进行实时交互式探索来应对大数据的挑战。其次，LVI的大小取决于神经网络相对较小的内部因此，我们可以在计算和存储资源有限的环境中应用LVI。此外，LVI方法支持用户查询任意属性，以解释不同类别的数据模式。例如，我们可以选择一个空间范围来生成一个可视化，显示数据在时间上的分布（图1）。 1（b-c）），探索指定时间间隔内的空间模式（图1（a）），并进行跨空间，时间和多属性的组合查询，以实现更全面的分析目标，如图1（a）。8.第八条。由于以下三个方面，为给定数据集定义、训练和优化LVI具有挑战性可视化的信息丰富度（C1）。可视化通常集成多个可视化特征，而基于查询多个连续属性区间的数据选择包含的信息较少AI模型本来就很难基于低维的2468- 502 X/©2022作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfY. 孙，J.Li，S.Chen等人视觉信息学6（2022）1415Fig. 1. 通过使用五个LVIs（#1-5）对Twitter推文进行视觉分析。每个LVI都是一个基于神经网络的模型，它将用户分析师在地图上刷出（#1-2）一个矩形，以查看在所选区域中发布的tweet的时间模式在星期（b）和小时（c）上，（#3）选择两个时间间隔来观察所发布的推文的空间模式（a），以及（#4-5）将地图缩放（d）和平移（e）到不同的尺度和区域。图二. 传统（上图）和基于LVI（下图）的可视化模式。传统模式下的三个耗时过程用下划线标记将数据选择编码为输入。如何快速、准确地输出多个视觉特征的值是LVI设计面临的一个巨大挑战。数据分布的不规则性（C2）。预测视觉特征的值可以被视为学习可视化度量的分布的任务。这样的分布在顶层视图中看起来可能非常平滑，但实际上在放大到单个记录时是不规则的，如图1所示。3.第三章。众所周知，神经网络更有效地近似累积数据分布（CDF）的一般形状，但在单个数据实例级别上准确性有问题（Kraskaet al. ，2018年）。因此，即使对于单个视觉特征，也很难大量的训练样本（C3）。与训练集从现实世界中收集并由大量人类手动标记的人工智能模型（例如图像分类器）不同，LVI的训练集是通过对目标数据集执行查询来生成的。分别通过设置不同的查询阈值，容易得到大量的训练样本。细化这些样本以使训练时间达到可接受的水平是确保我们的方法。为了解决这些挑战，我们将可视化分解为多个视觉特征，为每个特征训练神经网络视觉功能分开，并设计一个框架，使多个神经网络并行执行（C1）。为了避免学习不规则的数据分布，我们训练神经网络输出视觉特征值而不是属性值（C2）。我们利用一个汇总面积表（SAT）为基础的查询采样，以减少查询样本的数量，同时保持高精度（C3）。概括起来，本文的主要贡献如下：基于AI模型操作的数据探索模式，用于近似视觉特征值，取代耗时的数据检索。这种模式可以在低内存需求和高查询效率的情况下实现探索灵活性。输出视觉特征值而不是数据度量的策略。LVI本质上是学习高层次的趋势，而不是数据测量的不规则分布。我们的方法符合神经网络的性质，从而确保结果的准确性（C2）。LVI的实现，它集成了基于SAT的查询采样以减少训练的大小集合（C3）、用于将可视化改变为多个可预测的视觉特征集合的分解机制（C1）、以及使多个单独训练的神经网络能够并行执行的张量结构框架（C1）。对两个不同尺度的数据集进行评估，其中训练了具有不同输入和输出的多个LVIs，以分析其在不同应用场景中的性能。本文件的结构如下。在介绍了问题陈述（第2节）之后，我们回顾了相关工作（第3节），介绍了我们的方法（第4节），并描述了两个案例研究（第5节），随后在第6节进行了讨论，在第7节中得出了结论。····Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）1416==∈==∈={个：→={个={个联系我们={个2. 问题陈述我们的目标是设计和实现LVI，并展示其在创建交互式可视化系统中的实用性，该系统集成了多个视图和丰富的交互技术，为从不同角度发现数据模式提供了综合分析工具2.1. 概念界定为了引入LVI，我们正式定义了以下概念：定义1. 我们将q定义为可视化查询。不失一般性，q可以被视为属性的连续值范围的集合q（r（a1），r（a2），. . .，r（a m）），其中r（）是范围操作，r（a i）将返回属性a i的值范围的连续区间。定义2. 定义Q（q1，q2，. . .，q n）作为查询模板，该查询模板由关于属性A（Q）a1，a2，. . .、a m.从几何角度来看，Q是一个高维查询空间，每个维度对应A（Q）的一个属性。每个查询q可以被看作是Q的一个子空间，它对一个维度（属性）进行范围操作Q中涉及的最大查询次数等于A（Q）的属性可以采用的值区间组合的数量。定义3. 假设V是一个可视化对象，在不损失一般性的情况下，它可以被分解成几个视觉特征集，记为VVF1，VF2，. . . ，VF k，其中VF iv f i1，vfi2，. . .，v，f，ij是由多个视觉特征组成的视觉特征集合。例如，直方图只有一组视觉特征，其中视觉特征以像素为单位编码条形图的高度，如图1所示。 1（b-c）.定义4. 对于视觉特征集VFvf1，vf2，. . .，vf k，我们用vf（q）来表示一个视觉特征的量化值vf VF对应于查询q，而VF（q）是由属于VF的所有视觉特征的值组成的向量。定义5. 我们定义e（）作为一个嵌入函数，用于将查询q转换为一个低维实值向量，即e（q）∈Rm，其中m表示向量的长度定义6. 给定查询模板Q（q1，q2，. . .，q n）和视觉特征集VF，如果我们可以使用训练数据D（（e（q1），VF（q1）），（e（q2），VF（q2）），.. . .，（e（q n），VF（q n）.我们调用V是可预测的，如果对于任何VF V都有查询模板否则V是不可预测的定义7. 设V VF1，VF2，. . .，Vfk是一个可预测的可视化，V的LVI是一组模型LVI（V）f1，f2，. . .，f k.每个模型fi负责预测视觉特征集VFi，即， f i其中Q i是可以预测VF i的查询模板。我们分别为各个视觉特征集训练模型，因为它们依赖于不同的查询模板，因此模型的结构不同，无法集成在一起。图三. 预测条形图像素高度的两种策略的比较。(a)为了准确预测测量值，需要学习不规则的数据分布。(b)LVI仅确保预测值被正确地转换为像素高度，从而允许预测值与真实值之间存在一定的偏差。2.2. 一般考虑在设计LVI之前，应该讨论几个重要方面。第一个方面是为什么我们期望神经网络能够准确地预测视觉特征的值。让我们考虑一个只有一个条形的直方图作为例子。为了确定条形图的高度，一个简单的想法是训练一个神经网络来预测可视化度量的值，然后使用一个简单的线性变换来计算像素高度，如图3（a）所示。实现该目标是困难的，因为测量的分布可能是不规则的，而神经网络仅适合于学习数据分布的整体形状，并且不擅长实现所需的最后一英里精度（Kraska等人，2018年）。但是，绘制条形图时，不需要知道精确的测量值。为了解释这一点，让hmax是条的最大像素高度。这意味着可视化测量的值范围被划分为hmax区间。为了计算以像素为单位的条形图的高度，有必要将值调整到间隔。换句话说，LVI应该做的是确保预测值可以落入与实际值相同的区间。这允许预测值有一定的偏差。我们本质上需要学习测度分布的高级平滑趋势，如图10所示。3（b）款。这个目标可以通过结构相对简单的神经网络另一个需要解释的重要方面是LVI 和学习指数LI 之间的关系（Kraska et al. ，2018年）。虽然LVI的灵感来自LI，但它们本质上是两个不同的-耳鼻喉科技术。特别地，LI对于构建可视化不是最佳的。虽然LI有效地预测哪些数据记录满足给定的查询，但需要进一步耗时的聚合和处理来将预测值映射到视觉基元。另一个方面是准确性。由于LI是一种优化数据库检索的方法，因此必须严格保证其准确性，而LVI根据其定义允许输出中存在一些偏差。分别地，LVI不需要复杂的结构，例如LI用于提高准确度的递归结构和混合训练。当LI逐个处理属性以预测数据记录选择时，因此需要进一步处理以映射到视觉特征，我们设计了一种同时处理多属性查询的方式，直接产生离散视觉特征的值而不是连续属性的原始值。这应该能够响应于对不同可视化的查询而3. 相关工作目前的趋势是通过应用数据立方体，人工智能方法以及最近的学习索引来优化大数据量的可视化探索。Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）14173.1. 数据立方体现有的大部分工作依赖于大型数据集的交互式探索，依赖于设计特定的数据结构。数据立方体可以被看作是最经典的联机分析处理（OLAP）（Chaudhuri和Dayal，1997）模型，它允许实时检索任何属性组合上的聚合度量。OLAP已成功应用于许多领域，如社交媒体（Cao et al. ，2015; Li et al. ，2018 b），交通（Shekharet al. ，2002; Chen et al. ，2017）、图形分析（Tian etal. ，2008; Zhuet al. ，2020; Han等人，2021）、散点图分析（Xieet al. ，2021; Ma et al. Data Cube的主要问题是属性值的组合爆炸可能导致不可接受的存储成本，严重影响其可用性。Liu等人（2013）提出了imMens，其通过将待查询的属性的最大数量限制为4来解决时空探索的这一挑战。Lins等人等人（2013）提出了一种基于四叉树的数据结构，称为Nanocubes，它支持对任意范围的空间，时间和属性的实时时空探索。Pahins等人（2016）提出了HashedCubes，它使用更好的空间效率结构实现了类似的功能。Miranda等人（2018）提出了一种用于分析长时间序列的结构。Mei等人（2019）提出了一种基于R树的空间分区方案，以在表格数据集的探索中实现灵活的分箱策略。这些技术的核心是设计一个统一的数据结构，其中预先计算的聚合度量值存储在一个层次结构，以确保访问效率。数据结构的大小通常非常大，即使是简单的可视化。相反，LVI是专门为可视化训练的AI模型，其尺寸要小得多。有几种基于数据立方体的技术是为特定目的而设计的。Li等人（2018a）设计语义时空立方体，用于探索具有空间和时间信息的非结构化文本。Wang等人（2017）提出了高斯立方体，用于生成涉及复杂机器学习算法的可视化，例如PCA和线性回归。 Li等人（2018c）提出了用于绘制基于边界的聚类图的凹面立方体。Miranda等人（2017）提出TopKube用于探索排名结果。然而，这些方法用于生成特定类型的可视化。我们的方法是不同的，通过将它们分解为多个可预测的视觉特征集并为它们训练单独的模型，我们的LVI方法不同于现有的基于数据立方体的技术（Lins etal. ，2013; Pahins et al. ，2016）在查询方案和内存要求中。对于基于数据立方体的技术，层次聚合应用于维度，并且根据查询方案预先计算对应的聚合度量并问题是双重的。首先，查询方案是固定的，主要是因为数据结构中每个度量的坐标都与查询条件相对应，数据结构生成后不能改变。其次，数据结构总是消耗大量的存储空间（从数百MB到数十GB），这取决于目标数据集的大小和查询条件（数据结构中的坐标）的数量。即使对于只包含一些视觉特征的简单可视化，数据结构的大小也无法减少。与它们不同的是，LVI是专门为给定的可视化而训练的。LVI的大小取决于其内部重量结构，其通常非常小，范围从几十KB到几MB。小尺寸使得可以训练具有不同查询方案的多个LVIs，以实现全面的可视化分析系统。3.2. 可视化中的AI将可视化与传统的机器学习技术相结合，以构建“人在回路”的分析管道，这一直是可视化分析的核心目标（ Amershi et al. ，2014），具有以下代表性的作品（Sacha et al. ，2018; Elas-sadyetal. ，2018; Zhao et al. ，2019年）和概念框架”[10]《易经》云：“道者，道也。，2018; Xia et al. ，2021; Collins等人，2018年）。有一种趋势是使用术语AI+VIS专门用于神经网络及其衍生物（例如卷积神经网络CNN，递归神经网络RNN，图形神经网络GNN）在可视化中的应用。人工智能模型的Visualization for AI Explainability（TzengandMa，2005）.已经提出了许多可视化技术来揭示各种AI模型的不同方面，例如Tree Boosting Methods（Liu et al. ，2018 b），卷积神经网络（Liu et al. ，2017; Bilal et al. ，2018），Recurrent NeuralNetworks（Ming et al. ，2017）、生成广告网络（Kahng et al. ，2019），Deep-Q Learning（Wang等人，2019）和深度生成模型（Liu et al. ，2018 a）。2篇文献综述（Choo和Liu，2018; Hohman等人，，2018）给对当前研究的全面了解。这些作品可以被称为AI的VIS，因为它们基本上利用可视化技术来优化AI模型。相反，LVI将通过利用人工智能模型优化大数据量的交互式可视化，在AI forVIS虽然没有在任何研究论文中正式提出，但许多领域专家认为VIS的AI概念是可视化领域的一个富有成果的方向。在Kwon等人的代表性作品中，（2018），机器学习技术用于实现对大型图形的美学度量的快速估计，由于计算复杂度高，这对于传统算法来说是不实用的这项研究进一步推动了将图形与机器学习技术相结合的工作（Chenet al. ，2019; Xia et al. ，2020年）。这一类别的另一个重要应用是利用AI模型来评估可视化的可用性（Sedlmair和Aupetit，2015; Battle et al. ，2018; Xia et al. ，2022）。分类器可以在大量的用于预测可视化的质量度量的现有可视化技术然而，这些工作与我们的方法不同，我们的方法旨在训练用于预测视觉特征值的模型。3.3. 学习索引用经过训练的人工智能模型代替传统的索引来加速数据检索是数据库研究的一个趋势。与传统的索引技术相比，能够大大减少存储空间，同时将假阳性率（FPR）和假阴性率（FNR）保持在可接受的水平内（Richter et al. ，2015）。许多现有技术集中于局部敏感哈希（LSH）（Wang et al. ，2016年;郭和李，2015年），它本质上是一个分类器，在高维空间内实现最近邻搜索我们的LVI方法受到最近提出的学习指数的启发（Kraska etal. ，2018），它设计了AI模型和传统数据库索引的混合结构，以实现三种常见的数据库索引类型：范围索引，点索引和存在索引。在一个后续文件（Kraska et al. ，2019年），学习索引用于指导算法选择，以优化数据库访问方法和查询计划。如2.2节所讨论的，我们的方法和学习索引之间的区别如下：1）LI一次查询单个属性，而LVI支持多个属性的组合查询。Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）1418⟨⟩=−= − −+图四、培训LVI的工作流程。属性; 2）LI返回对象列表，而LVI直接预测对象之间的聚合视觉特征值; 3）LI应满足严格的准确性要求，而LVI输出多个视觉特征值，并保证视觉编码是正确的。4. 我们的方法在本节中，我们将介绍我们的方法的总体框架，并提供每个阶段的技术细节。4.1. 工作流图4给出了LVI培训的三阶段工作流程。首先，我们需要定义可视化的配置（图1）。（4）（a）将对LVI进行培训。具体来说，我们需要选择可视化的类型，识别与每个视觉特征相关的度量，并确定结果中允许的偏差。在第二阶段，通过查询数据集来生成训练集（图1）。4（b））。我们将可视化分解为几个可预测的视觉特征集，每个特征集由一个集合组成显示相同类别信息的视觉特征（定义3）。因此，我们可以为它们中的每一个训练一个模型（定义7）。此阶段的另一个关键步骤是适当的查询采样，旨在减少训练集中查询空间中的实例数量。最后，使用生成的训练集来训练LVI（图1）。 4（c））。针对不同视觉特征的神经网络分别进行训练，然后组合在单个张量结构中，使它们能够并行运行。4.2. 总体设计每个LVI都是针对特定的可视化进行训练的，因此在模型训练之前应该完全确定可视化配置。具体来说，为了指导训练集的生成，我们需要选择一种可视化类型，分配一个数据度量，到可视特征，并指定如何从原始数据集的属性重要的是确定目标可视化的适当精度。在图3（b）中的示例中，hmax对可视化测量的最大值进行编码，从而将测量的值范围划分为对应于像素的多个间隔。根据分配给视觉特征的像素数量，可以定义所需的LVI精度水平由于视觉特征的分辨率有限，许多可视化的精度要求不是很严格。如果直方图的h max（图1（b））是200像素，每日推文的最大数量约为700，000，3500 = 700，000/200的偏差导致像素的正确高度。另一个例子是热图（图。 1（a）），它通常包含有限数量的颜色（Harrower和Brewer，2003），因为人眼无法区分地图上太多的颜色（Haroz和Whitney，2012），因此导致更宽松的精度要求。视觉表示的离散性使LVI能够达到足够的精度。图五. 属性离散化使范围查询的统一表示标记为灰色矩形。4.3. 训练集生成为了训练LVI，我们通过执行数据查询序列来生成训练集。4.3.1. 查询抽样在查询空间中通常存在大量查询实例（定义2）。如果我们将所有这些都包括在训练集中，这将使训练时间不可接受。因此，我们利用查询抽样过程，以减少训练样本，以提高LVI的可用性。查询采样的前提是保证LVI对任何查询都能返回正确的结果。因此，既不允许局部采样也不允许随机采样，因为它们可能排除查询空间的一部分，其中可视化度量的数据分布不足以进行预测。因此，我们首先将每个查询属性的值范围离散化到几个bin中，并利用基于求和面积表（SAT）的采样来减少训练样本的数量。属性离散化首先是为了减少查询所能覆盖的范围运算结果的数量，其次是为了为各种属性（如空间、时间以及数值或分类属性）提供一种统一的表示方法。图图5显示了属性离散化的三种情况，它将属性的值范围转换为一小组bin。为了提高查询粒度，通常将属性的值范围划分为大量的bin，从而生成大量的训练样本。由于我们的方法支持多个属性的组合查询，这个问题变得更加严重。因此，我们利用面积和表（SAT）（Crow，1984）来解决这个问题。考虑图中的一个例子。在图6（a）中，用户训练用于预测属性的值范围s，e中的对象的计数的模型，表示为N（s，e）。通过使用SAT，我们可以通过从range（o， e）的值中减去range（o， S）的值来获得所需的值，其中o表示属性的值范围的下限：N（s， e） N（o， e） N（o，s）（图6（a））。类似地，我们可以使用等式N（lb， rt）计算查询对两个属性的度量。N（o， rt）N（o， lt）N（o，rb）N（o，lb），如图11所示。 6（b）. 符号N（）表示由两个端点的对角线确定的二维矩形内的度量值，并且o指的是由两个属性的值范围的下边界组成的2D坐标SAT也可以用于三个查询（见图1）。6（c））或更多属性。使用SAT的优点是显而易见的：我们只需要访问每个bin一次就可以生成训练集。换句Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）1419+∏|||∈|∈−||=见图6。在（a）一维、（b）二维和（c）三维查询空间中采样的基于SAT的查询。每个绿色区域表示一个查询，而符号在顶点上标记的或-指示在顶点上执行的操作，获得所述绿色区域的测量值也就是说，训练集只需要包括起点为原点o的查询。应该包括在训练集中的查询的最小数量是A（Q）a，其中a是属性a的bin的数量。这允许在大多数情况下将训练样本的数量保持在可接受的水平。为了使用SAT在n维空间中获得度量值，我们需要在由目标空间的o点和边界点通过这些查询结果的线性组合，可以计算出目标空间的度量值。获取查询模板Q的度量值的操作数为2 |A（Q）|，其中A（Q）表示Q中的属性的数量。对于图中的三种情况。6，数字分别是2、4和8。通过优化模型结构以实现多个堆叠神经网络的并行执行（第4.4.2节），这样的过程的时间开销非常低，不会影响响应用户交互的可视化的实时更新。应当指出，SAT的适用性是有限的。只有在查询空间中没有新出现和消失的对象时才能应用它。使用图1作为一个例子，地理标记的tweets（对象）在Twitter数据分布在世界各地（查询空间），因此，我们可以利用SAT快速得到的tweets在世界上任何地区的聚合措施。作为一个反例，我们不能通过方程人口（1980， 1990）人口（1970，1990）人口（1970， 1980）得到一个国家在1980年到1990年这段时间内的平均人口，因为有新生儿和死亡的人，导致人口在这段时间内一直在变化。4.3.2. 可视化分解可视化分解的目的是将信息丰富的可视化转化为信息量更少、形式更一致的多个视觉特征集。根据定义3，可预测的可视化可以分解为一个或多个特征集。例如，直方图包含单个视觉特征集，其中每个视觉特征编码条形图的高度，如图1所示。7（a）.同样，一个linechart（图。图7（b））和热图（图7（c））也有一个视觉特征集，而散点图可以分解为三个视觉特征集，表示x和y坐标以及点大小，如图7所示。 7（d）. 可以得出结论，视觉特征集的数量等于定义可视化所需的信息类别的数量，而不管可视化中的视觉元素的数量。包含数万个视觉元素的可视化可能只有一个视觉特征集，例如包含许多彩色分格的热图（图1 ）。1（a）），而具有几个视觉元素的可视化可能具有相对的见图7。四种经典可视化技术的可视化分解，其中（更多的视觉特征集，例如9（c）中的散点图，它有三个视觉特征集，但只有145个点（视觉元素）。我们将每个视觉特征集表示为一个向量，其中每个值对应于一个视觉特征。在将可视化分解为多个视觉特征集之后，我们需要定义一个查询模板来预测它们（定义6）。查询模板由一组查询实例组成在相同的属性（定义2）上，每个属性产生对应的视觉特征集（定义4）的度量向量。一些视觉特征，如对象名称或配色方案，不需要是可预测的（定义6）。它们由可视化环境定义。4.4. 索引建立假设VF是视觉特征集（定义3），相应的模型将采用输入查询q并产生输出向量VF（q）（定义4）。使用图1（b）作为示例，7个条的高度是独立的视觉特征，因为在一天发布的推文不能出现在其他日子。训练单个模型来预测多个独立的输出是不可取的，因为模型可能会捕捉到偶然的关系。相反，我们提出了一个可视化索引框架（VIF），它可以分别为VF的每个视觉特征训练神经网络，如图所示。 8（b），然后将来自单独模型的权重集成到张量结构中，以允许神经网络的并行执行（图8）。8（c））。VIF的目的是平衡准确性和时间效率。接下来的部分描述了针对单个视觉特征的神经网络训练（第4.4.1节）和多个模型的集成以构建VIF（第4.4.2节）。4.4.1. 神经网络训练神经网络负责预测视觉特征。一般培训工作流程（图。（8）（b）如下：将查询编码为向量可以更容易地捕获输入和输出之间的关系编码的因为训练集必须只包含Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）1420见图8。可视化索引框架被用来构建一个具有7个条形的直方图。(a)用户交互地在地图上刷一个矩形，以生成一周中不同日子矩形内对象计数的直方图。(b)七个神经网络，每个预测一个酒吧的高度。(c)一个张量模型集成了7个神经网络，并行执行，输出所有钢筋的高度目标范围从原点o开始（第4.3.1节），我们可以省略o并将查询向量表示为查询空间中的bin坐标。例如，坐标（x， y）对应于地图上的一个矩形，该矩形具有连接o（左下边界点）和（x， y）的对角线（图8（b））。因此，我们只需要考虑如何将每个bin坐标表示为唯一向量。我们使用one-hot编码或嵌入矩阵来编码查询。 One-hot（Wang et al. ，2018）编码是对查询进行编码的最常见和最有效的方式。当属性具有较少的bin时，使用one-hot编码查询可以形成具有较少维度的向量。例如，从图11中的Day-of-Week视图编码查询。5将形成7维向量：[0，0，1，1，0，0]，因为选择了Wed、Thu和Fri但是当属性被分成太多的bin时，独热编码将导致长向量。这导致输入层中包含太多的神经元，从而降低了神经网络的执行效率。因此，我们需要将每个属性表示为一个低维减少了信息损失量，但会增加神经网络的参数数量。如果使用嵌入矩阵，则需要进行多次试验以找到满足精度要求的最小长度神经网络设置涉及大量控制训练收敛方向的参数。这里我们只报告几个关键参数。我们利用简单且全连接的神经网络，最多有三个隐藏层，通常一个就足够了，以及ReLU激活函数来实现模型。epoch的数量设置为1500。当神经网络的历元数达到1500或神经网络的预测准确率达到100%时，神经网络的训练将停止，并在每个历元内进行测试。我们将批量大小设置为64。学习率初始化为0.001，每300个epoch的衰减率为50%。损失函数可以写为：J=J0+λ1∑|W|+λ2∑w2，（1）实值向量为了实现这一目的，我们构建了一个w w嵌入矩阵的每个属性，并把它们放在前面的神经网络，其输出顺序连接并馈入神经网络作为输入。使用图 8（b）作为示例，我们对两个属性使用两个嵌入矩阵，即，经度和纬度。嵌入矩阵的初始值是随机分配的，它们将与神经网络的权重这种结构的优点有两个方面。首先，嵌入向量的结构是低维的，从而大大减少了神经网络所需参数的数量。第二，将嵌入矩阵与神经网络连接起来，一起进行更新，使最终的嵌入向量在一定程度上反映了预测结果，从而更好地适应神经网络的计算任务。请注意，选择编码没有明确的规则。通常，当存在大量仓（例如，超过100个）的属性。相反，当箱的数量较小时（例如，小于20），则使用一次加热更有效。输入层中的神经元数量由查询的编码向量的长度。一个长向量可以其中λ1和λ2加权L1和L2正则化项的贡献，这是避免过度拟合的常用方法，并且J0表示将根据神经网络的实现神经网络的实现有两种主要类型首先，我们可以使神经网络用于预测视觉特征的单个值，即将神经网络实现为数据拟合任务，其中J0可以设置为均方误差（MSE）。其次，我们可以将视觉特征可以获取的每个值视为标签，并将神经网络实现为多标签分类器，其中可以使用二进制交叉熵（BCE）。虽然第二种结构需要更多的神经网络参数（考虑到第一种结构的输出层只有一个神经元），但它可以降低训练难度。这主要是因为预测对象的标签只需要比较对象与不同标签的概率，而不是学习不规则的数据分布。因此，第二种结构可以在大多数情况下使用，特别是当查询向量和数据分布之间存在弱可预测关系时。对于简单Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）1421×训练任务，例如如果视觉特征由于值的数量少而允许大的偏差，则我们可以利用第一结构来降低存储成本。4.4.2. 用于索引并行化的由于视觉特征集是独立的，VIF架构允许并行执行多个神经网络（图1）。 8（c））。VIF可以看作是一个张量结构的神经网络。给定一组具有相同结构的神经网络，VIF自动提取它们在相应层的权重和嵌入矩阵，并将它们组合成一个张量。这将多个矩阵操作转换为流经层的数据的单个张量操作。根据张量规范，分别对不同神经网络的堆叠矩阵进行操作，产生与单独执行神经网络相同的结果。与单独执行多个神经网络相比，VIF有两个优点。首先，VIF只需要记录神经网络的权重和嵌入度量，从而避免了人工智能训练框架（如Tensorflow）引入的不必要开销和干扰（Abadi et al. ，2016）和Pytorch（Paszke et al. ，2017），用于管理大型模型（Kraska etal. ，2018年）。其次，通过现代AI硬件的多线程机制，例如GPU或TPU，通常包含数千个核心，可以更容易地优化紧凑的张量运算。通过张量操作获得输出在理论上比基于数据立方体的技术慢，基于数据立方体的技术仅需要访问高速缓存存储器中的地址以获得预先计算的测量。然而，VIF允许同时获得多个值。换句话说，获得单个视觉特征的单个值所需的时间几乎等于预测由多个视觉特征组成的视觉特征集注意，可以集成的神经网络应该具有相同的结构，即，每一层都有相同数量的神经元由于用于预测视觉特征集中的视觉特征的神经网络依赖于相同的查询模板并且具有相似类型的输出，因此将它们设计为具有相同的结构是很自然的，从而使它们的集成成为可能。每个神经网络都应该有一个独立的输入。为此，输入向量还应转换为张量通过多次堆叠自身（每层将输入到神经网络），例如图1中张量结构的（x，y）坐标。8（c）.这可以通过许多深度学习框架中集成的广播机制轻松实现。4.5. 索引训练和使用我们可以使用任何AI框架，如Tensorflow或Py- torch，来训练神经网络。在训练过程之后，神经网络的权重和嵌入度量被提取出来，堆叠成几个张量结构，并存储在独立的文件中。也就是说，python仅用于训练LVI，我们使用任何执行效率更高的语言来实现张量操作。在本文中，我们实现了张量操作使用CUDA和C++。我们设计了一个优化器，它可以自动将张量操作划分为大量的小矩阵操作，并在专用GPU内核上执行每个操作，从而大大提高了总体性能（参见LVI可视化在客户端-服务器体系结构中实现，并在Web浏览器中工作。服务器接收来自客户端的查询请求，并将预测结果发送回客户端。我们的可视化组件是用JavaScript实现的表1第一个案子的受害者#查询模板可视化1经度（360），纬度（180）直方图（7）2经度（360），纬度（180）直方图（24）3星期（7），小时（24）热图（60000）4星期（7），小时（24）热图（64800）5星期（7），小时（24）热图（45000）在浏览器中工作，将预测的视觉特征映射到适当的视觉变量，通过为每个视觉特征分配特定的值来处理不可预测的视觉特征（定义6），并支持交互活动，例如平移和缩放，多视图的协调，以及用于深入到感兴趣的模式的数据选择5. 评价5.1. 社交媒体签到该数据集包含从2008年4月到2010年10月收集的全球58K用户的约450万社交媒体该数据集已被广泛用于许多论文（例如， Lins等人（ 2013 ）， Pahins et al.（ 2016 ）， Wang et al.（2018））。我们训练了五个LVIs，以生成不同尺度和区域的两个直方图和三个密度图（热图），如图所示。1.一、具体地，分析者可以选择空间区域来生成两个直方图，分别示出了一周中的一天（#1）和一天中的一小时（#2）的推文分布她还可以在两个直方图上选择两个时间间隔以生成热图，用于观察在所选时间期间发布的消息的空间分布（#3-5）。我们已经训练了几个LVIs，以支持更有效地生成不同尺度的密度图。因此，全局映射使用全局LVI（#4），1分辨率（360 180），而美国（#3）和欧盟地图（#5）使用以更精细的分辨率（0. 25分）。表1列出了针对该用例培训的所有LVI。括号中的数字显示属性的条柱数在查询模板和相应的可视化的分辨率。5.2. 人口统计数据第二个用例基于38年（1971- 2008）期间145个国家的年度统计记录的收集（Li et al. ，2018 b）。该数据集包含空间（国家的纬度和纬度）和时间（年）参考以及三个经济标准：人均收入，预期寿命和人口计数。虽然这个数据集很小，但当处理不同尺度的数据集时，比较LVI的性能是有趣的（见图1）。 2）的情况。我们在这个数据集上训练了七个LVIs，以形成一个多视图可视化（图1）。 9）。具体地，当分析者选择时间点“1999 "（#11）时，直方图（#6-8）呈现三个属性的值的分布（图1中的”人口“）。 9d，“人均收入”在图。 9 E，和“预期寿命”在图。9f）适用于所有国家。散点图（#9）根据国家他们的此外，一个不可预测的属性对地图上的空间区域的进一步分析员选择三个属性的感兴趣的区间（#12）以查看查询结果的时空聚合。在示例中，3个属性中只有一个受查询影响，因此Y. 孙，J.Li，S.Chen等人视觉信息学6（2022）1422||||| ||||| |||| |||| ||见图9。可视化分析系统，集成了六个视图（该系统基于七个LVI（#6-12）构建，其输入和输出用相应的视觉变量（大小、位置、色

下载后可阅读完整内容，剩余1页未读，立即下载