没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学3(2019)140通过专题子轨迹对滑行轨迹数据进行可视化分析刘欢,金思辰,严玉玉,陶玉波,林海浙江大学CAD CG国家重点实验室ar t i clei n f o文章历史记录:收到2019年2019年10月6日接受在线预订2019年保留字:轨迹模式挖掘轨迹可视化可视化分析主题模型a b s tra c t基于GPS的出租车轨迹包含有关交通和城市规划的运动模式的宝贵知识。主题建模是从出租车轨迹数据中提取语义信息的有效工具。然而,先前的方法通常忽略了在运动模式的分析中重要的轨迹方向。在本文中,我们采用二元主题模型,而不是传统的主题模型来分析文本化轨迹,并考虑到轨迹的方向信息。我们进一步提出了一种改进的Apriori算法来提取主题子轨迹,并使用它们来表示每个主题。最后,我们设计了一个可视化的分析系统与几个链接的意见,以方便用户交互式地探索运动模式的主题和主题的子轨迹。以成都市出租车轨迹数据为例,验证了该系统的有效性。2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍先进的位置获取和移动计算技术产生了大量的人类和车辆轨迹数据目前,出租车上的GPS设备可以记录出租车轨迹数据,如时间、速度、地理位置(即,纬度和经度),以及滑行状态(即,占用或空闲)。大量出租车轨迹数据包含有关城市交通状况和运动模式的重要信息它的公民,这是广泛使用的城市计算(郑等。,2014),如探索旅行行为(Lu et al. ,2015),选择广告牌位置(Liu et al. ,2016),和发现城市中心(Huang et al. ,2015)。上述迁移模式有助于城市规划,以改善居民生活。然而,有效地提取基本模式仍然是一个挑战。主题建模是一种有效的语义从文本中提取主题/模式,并成功地应用于出租车轨迹数据。 Chu等 (2014)通过将GPS坐标映射到街道名称来将每个轨迹视为文档,并采用潜在Dirichlet分配(LDA)来提取出租车主题。类似地,Tang et al. (2018)还采用LDA从大量出租车轨迹数据中提取主题,将每个轨迹视为一个文档。他们把市区划分成网格并对网格id进行编码*通讯作者。电子邮件地址:21721064@zju.edu.cn(H. Liu),3150104297@zju.edu.cn(S.Jin),yanyuyu001@gmail.com(Y.Yan),taoyubo@cad.zju.edu.cn(Y.Tao),lin@cad.zju.edu.cn(H.Lin)。同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2019.10.002和时间信息作为一个词。鉴于LDA是在不考虑词序的“词袋”假设下推断的,先前的研究忽略了轨迹方向(例如,道路的顺序)在主题建模中。轨迹的方向信息对于探索和理解运动模式是相当重要的。例如,交通拥堵通常发生在早上进城(上班)和晚上出城(回家)的路上。虽然我们可以通过出租车主题推断出拥堵的道路,但由于缺乏轨迹方向,无法直接获得它们是进城还是出城。为了充分利用轨迹的方向信息,提出了一种基于二元主题模型的可视化分析系统。我们首先将每个轨迹根据滑行状态划分为几个行程。每次行程都包含了乘客乘坐出租车从上车到下车的轨迹信息。其次,我们将每次行程转换为一系列道路名称,以文本化出租车轨迹数据。在此之后,我们应用二元主题模型的文本化数据,包括方向信息在主题建模。与以前的方法不同,我们定义的子轨迹(道路名称的序列)来表示每个主题,因为单个道路名称不传达方向信息。通过改进的Apri-ori算法提取子轨迹。最后,我们开发了一个可视化分析系统,以可视化的主题和子轨迹的交互式探索,包括主题视图和子轨迹视图。总之,我们的工作有三个主要贡献首先,我们考虑轨迹方向,并采用二元主题模型提取出租车轨迹数据的主题。其次,我们定义了子轨迹而不是单个道路名称来表示每个主题,因此它更有意义和可解释性。2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinfH. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140141第三,我们介绍了一个可视化分析系统,通过利用轨迹挖掘算法和可视化技术,以支持互动的出租车轨迹数据的探索。通过对成都出租车轨迹数据的实例分析,对该系统的有效性进行了评估。本文是我们以前的论文(金等)的扩展版本。,2019)。主要扩展包括:轨迹挖掘算法的详细描述,包括二元组主题模型(第4.2节)和修改的Apri- ori算法(第4.3节)。修改地图视图,以更好地表示子轨迹的方向(第5.1节)。增强的热图,用于显示不同速度和距离的出行分布(第5.3节)。更详细的案例研究,以说明所提出的系统探索出租车轨迹数据的有效性(第6节)。2. 相关工作我们的工作与挖掘(Zheng和Zhou,2011; Zheng,2015;Mazimpaka 和 Timpf , 2016 ) 和 可 视 化 分 析 ( Andrienko 和Andrienko,2013; Chen等人,2016)有关。,2015)的轨迹数据。在本节中,我们从两个角度回顾相关工作,即轨迹挖掘和轨迹可视化。2.1. 轨迹开采将相似的轨迹聚类是发现运动中的行为或模式的常用方法Gaffney和Smyth(1999)提出了一种聚类算法,用回归混合模型表示轨迹,用期望最大化算法确定聚类成员。考虑到一些子轨迹可能表现出共同的行为,而整个轨迹不表现出共同的行为,Lee etal. (2007)指出,聚类轨迹作为一个整体不能检测到相似的子轨迹。因此,他们设计了一个新的分区和分组框架,将轨迹划分为一组线段,然后对相似的线段进行分组。由于子轨迹在轨迹聚类算法上的优势,其他研究也考虑了出现在子轨迹中的模式(如集群、车队和群集)(Zheng和Zhou,2011)。虽然上述方法考虑空间位置和距离来发现各种模式,但是它们忽略了位置的语义信息,这使得模式难以理解并且没有意义。因此,越来越多的研究集中在语义轨迹的挖掘。例如,Alvares等人(2007)将地理信息集成到轨迹样本点中,以创建语义轨迹,从而提取轨迹的最重要部分(停止和移动)。停止(类似于停留点)表示GPS关闭和打开之间的轨迹间隙,而移动对应于由轨迹中的两个连续停止限定的子轨迹。此外,Ying et al. (2010)测量用户轨迹之间的语义相似性,以向用户推荐潜在的朋友。他们还根据地理和语义轨迹的特征(Ying et al. ,2011年)。除了使用地理特征,主题建模也是一种流行的方法来处理语义轨迹,特别是出租车轨迹数据。 潜在的Dirichlet分配(LDA)提出的Blei等人。(2003)被广泛用于从文本集合中提取语义主题。 几项研究通过纹理化轨迹将LDA应用于滑行轨迹数据(Chu etal. ,2014年;Tang等人,2018年)。Zhang等人(2016)通过在应用LDA之前添加语义信息来分析人类移动模式的空间相似性,以确保每个位置的唯一性。Liu等人(2019)采用LDA通过考虑每个笔划(即,自然街道)作为单词,每个移动路径作为文档。然而,由于LDA的“词袋”假设忽略了词序,上述研究未能考虑词的轨迹方向。因此,具有相同位置而相反方向的轨迹可以被建模为主题,即使它们表示不同的模式。与以往方法不同的是,我们采用二元主题模型来将路径方向集成到主题中。此外,我们表示每个主题通过频繁的子轨迹,以促进更好地理解语义信息。2.2. 轨迹可视化可视化越来越多地用于支持对轨迹数据的理解和解释。通常,轨迹数据包含多个变量,其中时间和空间是两个最重要的特征。许多可视化技术是专门为时间、空间和时空信息设计的。就时间信息而言,折线图是表示随时间变化的变量的最简单的表示。Ferreira et al.(2013)在折线图中显示了每次旅行次数和每次票价/英里。每一条特定颜色的线代表一个区域。我们可以很容易地通过折线图比较不同时间和地区的变量。然而,折线图适用于连续变量,而不适用于离散变量。在大多数情况下,轨迹数据的离散变量表现出周期性(例如,一周/一天/一小时)。 Pu等人 (2012)采用了基于环形地图的放射状布局设计,以显示密度或速度的24小时概览分布,其中每个环形代表一天,环形中的每个扇区代表一小时。该设计也用于他们的其他工作,即T-观察者(Pu et al. ,2013)。此外,堆叠图还可以用于可视化时间信息 , 例 如 TripVista ( Guo et al. , 2011 年 ) 和 颜 色 编 码 带(Tominski等人,2012)。在空间信息方面,几种方法利用位置属性来显示轨迹。Andrienko等人(2000)应用有向线段来基于在任何选定时刻的位置呈现移动对象的路线。Hurter等人(2009)通过将经度与视图的x轴和纬度与视图的y轴连接来描述不同维度由于大量的轨迹会导致视觉混乱,Andrienko和Andrienko(2010)将轨迹转换为区域之间的聚合流以简化轨迹。基于从轨迹中提取的此外,边缘捆绑是减少视觉混乱的另一种常用技术(Cui et al. ,2008; Ersoyet al. ,2011年)。虽然上述可视化可以帮助用户在时间或空间上探索轨迹数据,但是需要一些任务来组合时间和空间信息以进行分析。为了显示时空属性,时空立方体(STC)(Kraak,2003)将经度映射到x轴,纬度映射到y轴,时间变量映射到z轴。鉴于STC的优势,许多研究( Andrienko 和 Andrienko , 2008; Demšar 和 Virrantaus , 2010;Tominski et al. ,2012)将其他可视化手段集成到STC中以解决不同的问题。与Andrienko等人(2000)的工作类似,我们使用有向线来表示各个方向的轨迹。每条线由几段组成,只有一个箭头,因为····142H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140Fig. 1. 系 统 概述。数据分析模块首先清理异常行程,将轨迹文本化为文档,通过二元组主题模型生成主题,提取频繁的子轨迹。视觉设计模块基于多个链接视图显示主题及其主题子轨迹,以便于理解运动模式。过多数量的箭头导致视觉混乱。此外,我们设计了一个新的视觉组件的基础上的放射状布局在蒲等。(2012),以显示24小时的距离和速度分布。3. 概述为我们的系统制定任务是至关重要的,彻底探索出租车轨迹数据。根据与交通工程师和城市规划专业人士的讨论,我们发现轨迹方向在确定特定方向是否被阻挡等决策中很重要。因此,所提出的系统的目的是分析在滑行轨迹数据的方向性的运动模式。我们采用子轨迹(道路名称序列)来代表一个主题,而不是在以前的研究中的个别道路名称。因此,方向信息由道路名称的顺序表示。此外,为了帮助用户更好地分析当前的城市交通和辅助未来的城市规划,我们可视化提取的主题和子轨迹的交互式和可视化的探索。根据需求,我们为系统提出以下任务(T)T1:支持从轨迹及其方向需要一个合适的模型来从出租车轨迹数据中提取主题/模式。该模型应基于轨迹的语义和方向。T2:增强的图案检查与局部子轨迹为了更好地表达主题的意义,需要从出租车列表中提取频繁子轨迹。子轨迹进一步与主题相关联作为主题子轨迹。T3:使用户能够交互式地探索模式及其相关的子轨迹为了便于理解潜在的语义,tic信息,我们通过多个链接视图从空间、时间和其他维度可视化提取的主题及其关联的子轨迹。我们的系统包括两个主要模块,即数据分析(第4节)和可视化设计(第5节),如图所示。1.一、数据分析模块首先从出租车轨迹数据中清除异常轨迹,然后将轨迹文本化为具有道路名称序列的文档。在此基础上,采用二元主题模型自动生成潜在主题/模式(T1),并采用改进的Apriori算法从文本化文档中提取频繁子轨迹(T2)。给定主题和子轨迹,视觉设计模块提供多个链接视图以帮助用户交互地理解和探索运动模式(T3)。4. 数据分析本节描述如何预处理出租车轨迹,通过主题建模构建模式,并提取频繁子轨迹。4.1. 轨迹预处理一般来说,出租车一天载很多乘客。因此,我们认为,它的轨迹包含不同用户的活动信息。我们首先通过出租车状态将出租车的轨迹分割成几个行程,即,已占用(有客户)或空置(无客户)状态。每次旅行都对应于从接送到下车的出租车有时,GPS位置可能严重偏离实际位置,使得轨迹包括一些异常行程。异常跳闸对模式提取有负面我们根据与先前位置的距离计算每个GPS位置的速度。如果速度超过300 km/h,我们将从数据集中删除行程。为了使轨迹具体化,我们应用道路匹配算法(Chuet al. ,2014)以确定每个GPS位置的最近道路。之后,GPS位置序列被转换成可读的道路名称序列。4.2. 轨迹话题结构主题建模(如LDA)通常基于“词袋”假设,忽略了单词的顺序。基于LDA的轨迹主题提取研究没有考虑方向信息。然而,轨迹方向对于理解运动模式是相当重要的。比如多数H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140143=−我=⋃←←−联系我们−9:k k1我我−[:− ] ∈[:− ] ∈图二. bigram主题模型的图形表示。红色箭头表示与LDA的主要区别,即主题建模过程中包括单词的顺序。汽车早上进城上班,晚上回家。如果忽略轨迹方向,则可以将这两种不同的模式建模为主题。在自然语言处理(NLP)中,n-gram语言模型根据先前的n1个单词预测当前单词。当n =2时,n-gram语言模型可以简化为bigram语言模型。Wallach(2006)将二元语言模型与主题建模相结合,提出了包含词序的二元主题图中二元组主题模型的生成过程。 2描述如下:(1) 从每个主题z和每个单词w的Dirichlet先验δ中绘制离散分布σzw;(2) 对于每个文档d,根据Dirichlet先验α绘制离散分布θ(d);(3) 那么对于文档d中的每个单词w(d)短 语 ) 来 描 述 主 题 ( Liu et al. , 2010;Teneva and Cheng ,2017).同样,我们使用道路名称序列(定义为子轨迹),而不是单一的道路名称来表示主题。如果子轨迹频繁出现,我们称之为频繁子轨迹,就像NLP中的关键短语一样。NLP中的许多方法主要通过词性标记从文本中提取名词短语。然而,它们不适合没有句法结构的轨迹数据。因此,我们提出了一种改进的Apriori算法(Agrawal et al. ,1994)来提取频繁子轨迹,如算法1所示。算法1改进的Apriori算法输入:D:滑行轨迹数据集;输出:L:频繁子轨迹集合1:L1={D中所有道路名称}2:k←2第三章: 当Lk−1=φdo4:Ck先验根(Lk−1)5:如果Ckφ,则6:休息7:如果结束8:L k← {c∈C k|count[c] ≥}10:结束时K11:L LkI=2在上述算法中,应用函数apriori-gen通过Lk1生成候选频繁子轨迹集Ck。算法2中候选集的生成方法与原Apriori算法不同。我们通过使用与子轨迹中的第一个或最后一个道路名称在地理上相邻的道路名称来扩展子轨迹,这些道路名称由函数Neighbor提取。每个相邻道路名称p仅被添加到子轨迹的前面或末端。如果扩展子轨迹cext也在Lk1中,则将cext添加到Ck。函数count用于计算子轨迹的支持度,其等于包含子轨迹的轨迹的数量除以轨迹的总数。(a) 从离散分布θ(d)中绘制z(d);(b) 画i(d)wi从离散分布σz(d)w(d).算法2候选集Ck生成算法i i−11:先天性功能(L)σzw是词关于主题z和词w的多项二元分布,θ(d)是多项二元分布2:Ck←φk−1在文档d中的主题中,w(d)表示文档中的第i个标记3:对于所有c在Lk−1中,4:对于所有p在邻居(c)中[0])dod,并且z(d)表示与文档d中的第i个令牌相关联的主题z。在bigram主题模型中,我们假设每个文本的开头都有一个单词w0每个词的主题通过前一个词wi1和当前词wi来预测。因此,我们采用二元组主题模型从出租车轨迹数据中提取主题。与文档中的文字不同,轨迹的位置在空间上是连续的二元组主题模型考虑先前位置和当前位置来预测轨迹中的每个位置的主题,使得每个主题携带轨迹的方向信息4.3. 局部子轨迹提取二元组主题模型在主题的词上生成几个分布,并且得分最高的词通常用于表示主题。单个单词很难传达“数据”和“挖掘”等主题的含义。然而,我们可以很容易地从短语“数据挖掘”中推断出主题含义。因此,几项研究提取了得分最高的短语(即,关键5:c ext← {p,c[0],c[1],. . . ,c[k − 2]}6:如果cext0k2Lk−1,则7:将cext添加到Ck8:如果结束9:结束10:对于邻居(c[k−2])中的所有p,11:c ext← {c[0],c[1],. . . ,c[k − 2],p}12:如果cext1k1Lk−1,则13:将cext添加到Ck14:如果结束15:结束16:结束17:返回Ck18:结束功能根据算法1,每个频繁子轨迹的子轨迹也在L中,并且这使得频繁子轨迹对于可视化是冗余的。我们进一步聚合频繁的子轨迹,以减少冗余,并鼓励在视觉探索的多样性。Apriori算法可以144H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140→→||提取具有高置信度的强规则,该高置信度指示规则被观察为真的频率。因此,我们可以使用置信度来识别冗余的频繁子轨迹。如果X是Y的子轨迹,并且置信度(XY)超过最小置信度阈值,则我们从L中移除频繁子轨迹X。置信度(XY)等于Y的支撑除以X的支撑。我们可以根据二元组主题模型计算道路名称w在每个主题z上的概率分布p(wz)。假设频繁子轨迹s由多个道路名称组成,我们用道路名称概率分布的乘积来表示每个主题z上的频繁子轨迹概率分布p(sz).使用概率超过最小主题阈值t的频繁子轨迹来表示主题,并将其称为主题子轨迹。5. 视觉设计基于提取的主题和主题的子轨迹,我们设计了一个可视化的分析系统,以帮助用户交互式地探索出租车轨迹的运动模式。针对上述任务,我们推导出四个设计要求(R)来指导我们的设计,如下所示:R1:概述主题及其主题子轨迹系统应显示每个主题的旅行次数,这可以帮助用户筛选和选择感兴趣的主题进行进一步探索。类似地,系统还应展示所有子轨迹以供概览和选择。R2:显示主题的空间分布有必要通过主题子轨迹来可视化主题的空间分布,以便用户探索移动模式。R3:显示局部子轨迹方向话题子轨迹有助于理解话题的潜在语义信息,尤其是方向信息,这对于发现和分析运动模式的多样性也很重要。R4:显示单个子轨迹的细节该系统应提供子轨迹的详细信息,如时间、速度、行驶距离和原始行程信息。对细节的分析可以揭示主题/模式之间差异的原因。图图1显示了我们的系统有七个视图,可以分为三个部分:主题视图,子轨迹视图和细节视图。在小节中,我们讨论了拟议的系统从三个部分的设计要求。5.1. 主题视图根据二元组主题模型,我们还可以得到每个主题上的旅行概率分布每次旅行都属于概率最高的主题。主题栏视图(图 1(b))通过相关行程的次数(R1)提供了主题概述。每个条形图都对应一个主题,具有独特且一致的颜色。用户可以交互式地选择一个主题,以详细分析其主题子轨迹。许多研究利用路线图来探索轨迹数据(Chu et al. ,2014;Wang et al. , 2014; Lu et al. , 2015; Al-Dohuki et al. ,2016年),这可以提供直观的 见解,图三. 在我们之前的工作中,堆叠条形图(左)显示了时间和距离之间的行程分布,圆形热图(右)显示了时间和速度之间的行程分布轨迹因此,我们还在地图上显示主题,以支持更好的探索。地图视图(图)1(d))经由主题子轨迹(R2)显示主题的空间分布,并支持缩放和拖动交互。每个子轨迹表示为其GPS位置的经度和纬度的一个坐标。该图由几条线段组成为了可视化子轨迹方向,我们在以前的工作中为每个路径动画添加了一个从起点到终点的动态箭头。但是,动画效果会产生许多箭头,并导致视觉混乱。在本文中,我们只增加了一个静态箭头在最长的线段,每个子轨迹(R3)的方向是很容易识别的。此外,我们采用颜色不透明度编码的支持度值和每个字符串表现出相同的宽度。5.2. 子轨迹视图为了呈现所有主题的概述,我们考虑每个子轨迹的主题分布作为特征向量。子轨迹嵌入视图(图1(c))通过基于特征向量(R1)的t-SNE(Maaten和Hinton,2008)揭示了它们每个圆圈表示一个主题子轨迹,其中圆圈大小对其支持值进行编码,并且颜色与其主题相同。将鼠标悬停在它和地图视图同时突出显示相应的子轨迹。这可以允许用户查看主题子轨迹的地理信息。类似地,在地图视图中选择的子轨迹在该视图中突出显示子轨迹列表视图(图1(e))详细呈现了主题子轨迹(R4),包括道路名称序列、主题分布、支持值和行驶距离。在提取主题和主题子轨迹时,我们将长路分成若干段,并将它们文本化为不同的单词,以提高分析的空间粒度。在有限的屏幕空间下,我们将同一条道路的路段合并,以简化道路名称序列。此外,水平堆叠条表示子轨迹的主题分布,另外两个条形图显示其支持值和行驶距离。为了帮助用户快速查询具体的子轨迹,列表视图支持基于属性的排序和搜索,例如道路名称、支持值和行驶距离。5.3. 详图视图除了关于主题的语义信息,我们还可以从出租车轨迹数据中提取与主题子轨迹相关的其他重要信息。特别是与时间相关的信息有利于分析交通状况(例如,交通拥堵)。时间热图视图(图1(f))将时间和速度以及时间和距离之间的行程分布可视化,H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140145见图4。 主题1具有三个子轨迹聚类(d)。组团1:二环路南段、西段(a)附近。第二组:南三环五段至北三环一段(b)。第3组:从东北地区到西南地区(c)。它们在时间和速度以及时间和距离之间的行程分布分别显示在(e)一天一个局部子轨迹(R4)。在我们之前的工作中,我们采用了两个视图来分别说明速度相关(圆形热图)和距离相关(堆叠条形图)的分布,如图所示。3.第三章。然而,单独的视图不便于从同一时间段的两个分布中发现关系由于这两个视图都与时间相关,我们将两个分布合并为一个视图,并设计时间热图视图。时间环将两个分布的可视化分开,其中内部部分显示速度-时间分布,外部部分显示距离-时间分布。我们定义了七个速度范围,即,039 km/h、40关于内部部分,每个环对应于速度范围,当半径增加时速度增加10 km/h,并且环中的每个扇区表示一小时,当角度增加时时间增加小时。扇区的颜色将行程数量从多(深绿色)映射到少(浅绿色),其中灰色扇区表示在此期间没有数据至于外部,每个圆形堆叠条显示了三小时内不同驾驶距离的旅行次数。从浅红色(较少)到深红色(较多)的四种颜色编码四个距离范围,即,0-10公里 ,10-20公里,20-30公里>30公里/小时在探测过程中,用户必须检索原始滑行轨迹数据。这可以验证诸如子轨迹方向的分析结果。我们在行程列表视图中提供详细的行程信息(图1)。1(g)),包括出租车ID、上车位置、下车位置、上车时间、下车时间、平均速度、最大速度、最小速度和行驶距离。5.4. 相互作用我们的系统提供了丰富的交互,以支持在主题子轨迹提取,通过子轨迹的主题探索,和主题子轨迹的详细分析中调整参数。在参数视图中(图1(a)),可以根据需要改变用于主题子轨迹提取的多个参数,包括最小子轨迹长度、最小支持度、最小置信度和主题阈值。当用户改变参数时,不满足条件的子轨迹被过滤。选择并突出主题。地图视图显示主题的空间分布大量的主题子轨迹使得对主题的分析变得困难。用户可以点击主题栏视图中的栏,在地图和子轨迹视图中突出显示主题及其子轨迹。刷和查询主题子轨迹。地图视图和子轨迹嵌入视图提供了选择若干局部子轨迹的刷洗操作。选择的子轨迹以列表视图呈现,这允许用户通过排序和搜索来查询特定的子轨迹。当点击一个子轨迹时,时间热图视图和行程列表视图会显示详细信息以供分析。6. 案例研究我们的案例研究探讨了2014年8月22日的出租车轨迹数据。经过数据清洗,从原始数据中提取出419,410次行程。当主题数量增加时,移动模式的分析粒度提高。然而,很难可视化和分析过多的主题。在实验中,我们设置主题数为8,子轨迹的最小序列长度为3,最小支持度值为0.002,最小置信度值为0.6,主题阈值为0.4,以提取主题和主题子轨迹。6.1. 主题分析我们首先从空间、时间和其他维度探索主题及其主题子轨迹。如图 1(b),每个主题的旅行次数大致相同,其中主题7与其他主题相比较少。为了更深入地理解主题,我们比较了主题内和主题间的区别。146H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140→图五. 四个主题的主题子轨迹,其中主题3(a)与主题8(b)具有相反的方向,主题2(c)与主题4(d)也是如此。黑色虚线中的子轨迹与机场快线有关6.1.1. 一个主题根据图1中的子轨迹嵌入视图,4(d),我们发现主题1的主题子轨迹可以近似地分为三个集群。从地图上看,图4(a)中的第一组位于二环路南段和西段附近,图4(b)中的第二组位于二环路南段和西段附近。 4(b)是南三环五段至北三环一段。两者都表现为顺时针方向。与前两个集群不同,图中的集群3。 4(c)是从东北地区到西南地区。我们进一步研究了三个集群的行程分布。在时间热图视图中(图(4),它们的出行时间和距离分布相当相似。早上9时后,班次明显增加,其后则稍有变动。此外,大多数行程都在10公里以内,只有少数超过20公里公里.然而,他们的时间和速度之间的行程分布表现出差异。关于组1(e)和组2(f),在下午五时前后,每个车速范围内的行车次数大致维持不变,但在第三组(g)中,车速在每小时20至29公里范围内的行车次数在下午五时后迅速减少,而在晚上七时后则该示例显示了我们的系统在可视化子轨迹之间的相似性方面的有用性,这可以帮助用户发现主题中的不同运动模式。6.1.2. 主题之间的比较为了验证轨迹方向的重要性,我们分析了主题之间的方向差异。图图5示出了主题3(a)和主题8(b)在几条相同道路上具有相反方向专题3的方向是由北向南,其子轨迹主要集中在西二环、人民南路和科华路。它还包含从市中心到成都双流国际机场(黑色虚线)的子轨迹。相反,主题8的方向是从南到北。次轨迹主要集中在东二环、人民南路、科华路。其机场相关的子轨迹为成都双流国际机场至市区。此外,我们还发现了另外两个方向相反的主题,其中主题2(c)是从西北到西南,主题4(d)是从西南到西北。在上述探索过程中,我们发现与三环路相关的主题子轨迹表现出较长的距离我们通过搜索在子轨迹列表视图中过滤这些子轨迹。 它们主要分布在Topic 1、Topic 5和Topic 8中,其中Topic 8的几个子轨迹(红色箭头)与Topic 5的子轨迹相似,如图所示。第6(a)段。我们进一步研究每个主题中的子轨迹的详细信息。在地图视图中(图6),主题1(b)的子轨迹呈现顺时针方向,而主题5(c)和主题8(d)的子轨迹呈现逆时针方向。此外,话题5和话题8之间的相似子轨迹在南三环五段具有空间连续性如子轨迹列表视图中的主题栏中所示,主题5和主题8的子轨迹在它们两者上展现出相对大的概率,但是主题8的子轨迹在它们两者上展现出相对大的概率。1没有主题分布。这解释了为什么主题5和主题8之间的一些子轨迹是相似的。上述分析揭示了轨迹方向的重要性,并表明我们的方法可以有效地区分不同方向的轨迹。6.2. 子弹道分析在这个案例研究中,我们详细探索了不同主题的主题子轨迹,以发现多样性。6.2.1. 单向勘探为了分析各环路的交通状况,选取清江东路(一环路与二环路之间)和成文高架(二环路与三环路之间)进行详细分析。我们首先过滤所有包含“清江东路成文高架路”的子轨迹。它们对应于主题4的主题子轨迹,如图所示。7(a).子轨迹的时间热图视图显示,晚上8点后出行次数迅速增加,其平均速度在30 km/h以内我们在主题4中进一步过滤“成文高架路”的子轨迹如图第7(b)段所述,平均行车速度超过每小时60公里,是因为高架道路的限制速度较一般道路为高然而,部分行程在晚上8点后表现出20-29公里/小时的速度。由此推断,晚上8点以后,清江东路至成温高架出现出行高峰,成温高架入口处出现轻微拥堵一般来说,交通拥堵发生在上午个人上班和下午下班的但周五(2014年8月22日)晚上可能会出现拥堵,因为许多人可能会在周末外出。6.2.2. 反向勘探第6.1节中有两种移动模式,即从机场到市中心和从市中心到机场。为了比较和理解它们的差异,我们探索相关子轨迹的详细信息。从机场到市中心。我们首先在子轨迹列表视图中搜索主题8中包含“airport express”的子轨迹.如图8(a)中,六个子轨迹与列表中的机场快线相关。我们选择距离最远的一个。出租车在机场南二路接客,途经机场东路、火车南站西路、机场快线(黑色虚线)前往市区。如时间热图视图所示,行程数量在上午9点后迅速增加平均出行距离在20公里至30公里之间,超过30公里的出行上午6时至8时,下午3时至5时,及晚上9时至11时。由于机场高速公路,平均速度超过60公里/小时从市区到机场。类似地,我们通过在主题3中搜索H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140147见图6。 三环路上的主题子轨迹主要分布在三个主题上。主题1(b)的方向是从南到北,与主题5(c)相反。主题8(d)的方向是由南向东。见图7。交通拥堵分析。清江东路至成温高架(a)平均车速在20 km/h以内,而成温高架(b)后平均车速超过60 km/h。图1中的子轨迹列表视图第8(b)段。它们的方向与主题8中与机场快线相关的子轨迹相反,尽管在同一条道路上(黑色虚线)。我们选择列表中距离较小的子轨迹进行详细分析。如时间热图视图所示,从市区到机场的子轨迹与从机场到市区的子轨迹之间的行程分布存在很大差异。首先,平均行车距离在10公里至20公里之间,很少有行程超过30公里。相反,从市中心到机场的距离更短。第二,大多数行程发生在早上6点到8点和下午12点到5点。因此,我们确定一个一部分在早上(从市区到机场),另一部分在晚上(从机场到市区)。第三,车速超过60 km/h的出行大多发生在上午,这与出行高峰相似。子轨迹的案例研究意味着我们的系统可以促进各种运动模式的有效探索。因此,从出租车轨迹数据(例如,交通挤塞及出行高峰)对城市规划有帮助。见图8。与机场快线相关的两个主题子轨迹,其中一个是从机场到市中心(a),另一个是从市中心到机场(b)。地图视图中的黑色虚线代表机场路长乐段、火车南站西路和机场快线。7. 讨论对比以前的研究(Chu et al. ,2014; Zhang et al. ,2016; Tanget al. ,2018; Liu et al. ,2019年)采用LDA提取轨迹主题,不考虑单词的顺序。因此,它们无法区分同一道路上不同方向的轨迹。在本文中,我们应用二元主题模型在建模过程中,利用轨迹方向。图9显示LDA在148H. Liu,S.Jin,Y.Yan等/视觉信息学3(2019)140图9.第九条。 对成都市出租车轨迹数据进行LDA分析。相同的滑行轨迹数据虽然LDA充分地分离了地理空间中的子轨迹,但是不同方向上的子轨迹被分组在同一主题中。与我们的方法相比,用户无法从相反方向的轨迹中确定不同的模式(第6.2节)。此外,我们提出了主题子轨迹来表示主题的含义。与用于模式探索的单个道路名称相比,子轨迹更具可读性和可理解性参数分析。关于子轨迹提取,我们将最小长度设置为3,最小支持度值设置为0.002,最小置信度值设置为0.6,最小主题阈值设置为0.4。聚合后,我们得到1633个局部子轨迹。我们找到最小的支持,可以忽略最不重要的子轨迹,并保持有意义的子轨迹。此外,低的最小置信度可以聚合类似的子轨迹。关于最小主题阈值,较高的值过滤掉过多数量的子轨迹,而较低的值引入与主题不相关联的若干子轨迹。算法可扩展性。 在实验中,我们的算法只需要几秒钟就能生成主题并提取419,410次旅行的主题子轨迹。随着旅行次数的增加,在预处理中需要更多的时间进行主题建模为了解决这个问题,我们可以利用GPU的计算能力来加速主题建模和主题子轨迹提取算法。此外,其他先进的算法可以集成到系统中,以有效地探索大型轨迹数据。可视化可扩展性。系统中的大多数视图都能支持大数据量轨迹的可视化。我们通过t-SNE将所有主题子轨迹投影到子轨迹嵌入视图中。然而,随着子轨迹的增加,它可能不够快。我们可以选择其他改进的方法(Van Der Maaten,2014; Linderman et al. ,2017)以加速t-SNE。局限性。所提出的系统表现出一些局限性。首先,系统不会自动推荐子轨迹嵌入视图中的聚类,因此很难供用户根据子轨迹簇来分析子轨迹。因此,最好首先分层地聚类子轨迹,并允许用户在探索期间基于他们的领域知识进行调整。第二,出租车只是城市交通的一种,其他很多运动行为可能无法在出租车轨迹数据中反映出来。我们打算结合不同的数据源,如共享单车数据和社交媒体数据,以全面提取运动模式。8. 结论在本文中,我们提出了一个可视化分析系统的出租车轨迹数据探索。通过地图匹配算法将每个出租车GPS位置转换为道路名称,并应用二元组主题模型提取轨迹中的隐藏主题。为了更好地表达轨迹的方向,我们提出了一种改进的Apriori算法来构建主题子轨迹。我们的案例研究表明,该系统可以有效地产生有意义的主题与方向信息,提取相关的主题子轨迹,并方便用户视觉探索各种运动模式。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢本工作得到了国家重点研究发展计划(2017YFB0202203)、国家自然科 学基金( 61472354 和 61672452 )和 广东省自然 科学基金(U1611263)的资助。引用阿格拉瓦尔河斯里坎特河例如,1994.关联规则挖掘的快速算法。输入:程序第20届国际Conf. 超大型数据库,VLDB,卷。第1215页487-499.Al-Dohuki,S.,吴,Y.,Kamw,F.,杨杰,Li,X.,赵玉,是的,X.,陈伟,马,C.,王福,2016. SemanticTraj:一种与大规模出租车轨迹交互的新方法。IEEETrans. Vis. Comput.图形23,11-20。阿尔瓦雷斯,L.O.,博戈尼,五,Kuijpers,B.,Moelans,B.,Fern,J.A.,马塞多,E. D.,帕尔马,AT,2007.语义轨迹知识发现。数据最小化知识发现12个。Andrienko,G.,Andrienko,N.,2008.用于运动视觉分析的时空聚合。2008年IEEE Symposium on Visual Analytics ScienceandTechnology。IEEE,第51比58Andrienko,N.,Andrienko,G.,2010.海量运动数据的空间综合与聚合。IEEETrans.目视Comput. Graphics 17,205Andrienko,N.,Andrienko,G.,2013.运动的视觉分析:方法、工具和程序概述。INF. 目视12,3Andrienko,N.,Andrienko,G.,Gatalsky,P.,2000.支持对象运动的视觉探索。在:先进的视觉界面工作会议的会议记录。ACM,pp.217-220Blei,D.M.,吴文耀
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功