没有合适的资源?快使用搜索试试~ 我知道了~
基于张量分解的航班延误曲线特征化
工程7(2021)465研究航空运输基于张量分解框架的航班延误曲线特征化张明远a,b,陈慎文a,b,孙丽君c,杜文波a,b,曹贤斌a,b,曹a北京航空航天大学电子与信息工程学院,北京100191b综合交通大数据应用技术国家工程实验室,北京100191c加拿大蒙特利尔麦吉尔大学土木工程与应用力学系,QC H3A 0C3阿提奇莱因福奥文章历史记录:收到2020年2020年7月21日修订2020年8月3日接受2021年3月19日网上发售保留字:空中交通管理航班延误潜在类模型张量分解A B S T R A C T在空中交通和机场管理方面,从过去的行动中获得的经验对于在面临新情况时制定适当的战略至关重要。因此,本文使用大量的时空飞行数据来识别相似的交通和延误模式,这对于更好地了解航空系统和相关决策至关重要然而,由于数据集意味着空间和时间之间的复杂依赖和高阶交互,因此检索重要的特征和模式可能非常具有挑战性。在本文中,我们提出了一个概率框架的高维历史飞行数据。我们应用了一个潜在类别模型,并使用2014-2017年中国224个机场的空中交通数据证明了该框架的有效性我们发现,每一个维度的配置文件可以清楚地分为各种模式,代表不同的定期操作。为了证明这些模式的有效性,我们然后创建一个估计模型,提供初步判断机场延误水平。本研究的结果可以帮助机场运营商和空中交通管理人员更好地了解空中交通和延误模式,根据从历史场景中获得的经验©2021 THE COUNTORS.Elsevier LTD代表中国工程院出版,高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。1. 介绍随着世界民航业的迅速发展,严重的航班延误仍然是一个主要问题和不便的原因。这样的延误不仅使乘客不愿意考虑航空运输或再次选择同一家航空公司[1此外,航班延误导致燃料消耗和二氧化碳排放量增加,对环境造成危害[6,7]。除了上面列出的直接影响外,航班延误对整体经济的各个方面都有负面影响[8]。总之,航班延误是一个严重而普遍的问题,具有重大的负面影响。许多因素导致这一问题的复杂性和棘手性。这些因素通常被概括为异常天气[9,10]和技术原因,包括空中交通管制[11],设施容量不足,调度不良[12],变化*通讯作者。电子邮件地址:wenbodu@buaa.edu.cn(W. Du),xbcao@buaa.edu.cn(X.Cao)。在程序[13]和有限的缓冲时间[14]。这些因素的多样性使得理解航班延误的基本模式和设计适当的策略变得困难[15]。最近,基于历史观测的数据驱动方法已被证明不受以前的约束,并符合潜在的动态特性[16]。因此,促进系统认知和决策的一种方法是充分利用和学习历史数据[17]。例如,当遇到恶劣天气时,可以查找过去具有类似天气条件的日子,并参考空中交通管制员在那些日子采取的行动。以前的几项研究[18Liu等人[19]介绍了一种半监督学习算法,可以将相似日期的组确定为不同的模式。第一步是测量每小时天气预报之间的距离,然后确定总距离较小的日子作者应用该方法在纽瓦克自由国际机场进行了两个案例研究,并证明了其有效性。Mukherjee等人[20]提出了一种基于恶劣天气条件影响的模式分类方法。作者使用天气指数作为输入,并应用因子分析,https://doi.org/10.1016/j.eng.2020.08.0242095-8099/©2021 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程杂志首页:www.elsevier.com/locate/engM. Zhang,S.陈湖,澳-地Sun等人工程7(2021)4654662fgþ2fg2fg2grK2F确定主要的天气模式。然后,他们使用沃德的最小方差方法对天数进行聚类。属于同一组的日子有着相似的天气模式。除了天气模式,一些研究试图从其他角度确定类似的日子。Grabbe等人[21]使用k-均值聚类算法来识别地面延迟程序中的相似日期作者应用期望最大化(EM)算法的开始和结束时间的地面延误计划和预定到达率数据。其他研究则集中在空中交通流量和航班延误上,以确定类似的模式[24]。Gorripaty等人。[17]测量了需求和容量数据中的主成分,但发现在对数据应用聚类分析后,需求或容量通过识别直达国内航班到达延误的周期性模式,Abdel-Aty等人。[25]发现一些模式没有被统计方法检测到。尽管之前做出了这些努力,但在了解航班延误模式方面仍存在差距。如上所述,一种有效的方法是在时空历史数据中找到聚类或模式[26,27]。然而,由于这些数据的高维性,很难在欧几里得空间中找到不同的模式,如以前的研究所述[28]。提出了用潜成分分析法揭示隐藏模式的方法不是直接挖掘模式,诸如潜在差异分析[29]、潜在特质分析(包括项目响应理论和Rasch模型)和隶属度分析等方法可以利用从张量因子化导出的签名来形成具有低得多的维度的投影子空间,这加强了时空交通动态模式的底层聚类结构[30]。这些方法在交通科学领域开辟了新的前沿[31],如城市流动性分析[32受上述方法的启发,本文的主要目标是利用大量的空中交通数据来了解潜在的空中交通和航班延误模式。在这项工作的第一部分,我们把飞行记录作为一个多变量的观察采样,一个普遍的分布,并采用Tucker-like的潜在类模型,以确定每个模式的主要模式。然后,我们提出了一个估计模型的基础上潜在的模式,以显示该框架的效率。本文的其余部分组织如下。在第2节中,我们介绍了建模框架。(xa1)、出发时间(xa2)、出发日期(xa3)、延迟等级(xa4)等。为了方便起见,我们将这些值映射为离散值 我们定义xab2f1;。 . ;wqg对于属性b(b = 1,. ,q)。b表示属性的索引w q是q维向量的离散值。 以出发机场为例,xa1= 1表示航班记录a的机场1。航班的起飞时间则由xa21;. . 24,每个值对应于一天中的1小时时段。然后,我们使用四年(2014-2017)的飞行记录数据提出了我们的方法,按出发日期排序的天数为xa31;... 一千四百六十一。由于到达延误与空中延误的关系更密切,这是很难分析的,我们考虑出发延误而不是到达延误来研究航班延误模式。离港延误能更好地反映目标机场的运行模式此外,对分离延迟的程度有明确的定义。 根据美国联邦航空管理局(FAA)的规定和相关研究,延误航班是指比预定时间晚15分钟以上起飞的航班。考虑到实际情况,也选择了比预定时间晚45和90min的次数作为划分阈值。因此,我们将每个航班的延误分为四个级别:① <15分钟,② 15 -45分钟,③45-90分钟,和③>90分钟。我们使用xa41;. 4分别表示“准时”、“轻微延误”、“中度延误”和“严重延误”。2.2. 非负Tucker分解已经表明,TD在各种情况下显示出许多优点,特别是当数据必须分解为加法分量的总和时[39]。TD最早由Tucker于1963年提出[40]。从那时起,NTD被提出[41,42]来处理自然非负和观测数据。NTD是一个强大的工具,用于从高维张量数据中提取基于非负部分和物理上有意义的潜在成分,同时保留数据的自然多线性结构[24]。在数学术语中,它将张量分解为一组矩阵和一个核心张量。给定一个阶张量v,其中K为张量维数。新台币寻求分解的一非负K-way张量v2RI1×I2×···×IK(R+为算术数空间,K为维数空间的大小,I为正交基之一)作为模非负核张量12R J1×J2×···×JK的乘积 (J是其中之一)第3节展示了一个案例研究,我们应用该模型第四部分给出了结论。正交基)和KA<$K<$RIK×JK:þþ非负因子矩阵2. 建模框架在本节中,我们将介绍在概率环境中对多路飞行数据进行建模的总体框架。其目的是从不同的维度和他们的联合互动的空中交通和航班延误的主要模式的特点。 在第2.1节中,我们介绍了我们的框架中使用的符号在第二节中,v21×1A1×2A2×3A 3×···×KAK1/2;A 1;A 2;... ;AK]1其中A1;A 2;A 3;. A_K_K_K_K是因子矩阵,可以看作是模式K的主成分。1的条目显示了不同组件之间的交互和连接的级别。在这种方法中,核张量和因子矩阵AK应该是元素非负的。从元素上看,它们如下:R1R2RK问题2.2,非负Tucker分解(NTD)方法是¼X X···X1r rrr@1111@12111···@阿Kð2Þ张量分解(tensor decomposition,TD)的一种方法。最后,描述了潜在类分析(LCA),g1;g2;:;gKr1¼1r1¼2rK¼112···Kg1r1g2r2gKrK第2.3节。在这里@KK是因子矩阵,RK是因子的大小r和g是2.1. 符号我们让xa1/4xa1;. ;xaqT因子矩阵中模式K的维数。然后将分解建模为优化问题:表示飞行记录a,其中q最小化1jj1×1A1 ×2A2 ×3A3×···×KAK -vjj表示维数,即单个行程记录中的属性数。为了表征航班的特征,每个元素xaω可以表示航班受1≥0;AK≥0 3影响其中F是矩阵范数。M. Zhang,S.陈湖,澳-地Sun等人工程7(2021)465467@P¼¼× ×···×ðÞð¼ ¼Þ×X XXh×××xarnn12···N一个人i1r1i2r2一个人2.3. 潜在类分析LCA是一种统计方法,用于从多变量分类数据中发现相关病例的亚型(潜在类别)[43,44]。潜在类模型如下所示:3. 为例3.1. 航班运行数据在此分析中,航班运行数据被用作航班本文分析的数据集T N纸由中国民用航空局提供Pi1;i2;:;iN 1/4XptYptl4(CAAC)。鉴于我们研究的目的是提供在用于空中交通和机场管理的决策支持中,航班延误条件是特别感兴趣的。此外,空中交通-其中P i1;i2;:;iN 是概率分布函数,i是维数-空间指数,N为各模式的主模式,T为类别数,t为类别指数,p t 是招募应该FIC流是延迟条件的基础。因此,选择空中交通流量和航班延误作为研究的主要对象选择出发延误,因为它们可以更好地反映求和为1,pt是条件概率,@和l是离港机场和空域的拥挤程度代理人-概率因素。LCA通过条件独立性准则定义潜在类。这意味着每个变量在统计上独立于每个潜在类中的其他变量。因此,概率张量中的每个元素可以计算为所有模式组合的总和。不飞行数据的标准值如表1所示。该数据库包含13 492 326个国内航班。所有航班连接224个机场,其中北京首都国际机场航班最多,占所有机场航班的6.3%。航班的起飞日期为2014年1月1日至2017年12月31日,起飞时间可以在一天内的任何一个小时。如可以可以看出,所有的航班可以分为四组,根据Pi i我 ¼Xpthð1Þ×·· ·×hðNÞð5Þ到起飞延误时间。四个航班中的百分比1;2;:;N不i1tIN t组分别为37%、38%、14%和11%。这些航班的平均起飞延误时间为31.08分钟。其中hN是表征每个模式N的主要模式的概率向量。在我们的研究中,我们应用了潜在类模型,该模型假设每个观察都是从底层类的混合中生成的,并且每个类都与唯一的概率分布相关联因此,联合分布被视为乘积多项式和观察航班的概率xa的混合。利用2.1节中的符号,所有的飞行记录x都可以总结出来成一个m路张量与尺寸/w1W2Wm和每个单元v1;v2;. . . ;v m(其中v代表-表示维度)是航班号的计数dxa1¼v 1;.. . ;xam¼v m。 d是二值指示函数。如果为真,则为1,否则为0。为了更好地理解互联网,在连接数据集之前,我们将这些收集的飞行记录放入概率张量中,每个单元表示属于该特定单元的飞行的概率。每个单元格的概率张量是飞行属于一个特定的小区pcxa1v1 ;.. . ;xamV M(其中P是特定小区的概率)。观察到飞行的概率xa(即,概率质量函数)可以通过Tucker分解以类似的方式重新公式化。在这项研究中被忽略了。2016年2月9日是航班数量最多的一天,为12419。2014年1月1日是航班数量最少的一天,为7009次。机场最繁忙的时间段是8:00至9:00,6%的航班在此期间起飞。3.2. 因式分解分析在我们的研究中,我们假设飞行记录是从普适分布中采样的多变量。13492326次航班被聚合到同一张量。每个观察包含四个变量,包括出发机场,四年中的一天的顺序总组合为224× 1461× 24× 4。在这里,我们使用一个小的3(分离机场,A)×4(四年内的天数,D)×5(天,H)4(延迟水平,L)核心张量p捕获相互作用,在不同的模式下。虽然较大的核张量可以包含更多的信息,并反映不同模式之间的全面关系,但这种小的核张量可以方便地解释结果。此外,现有的研究表明,不同大小的核张量的结果基本一致[48]。 在接下来的一段中,我们介绍了主要的R1R2RNPxajpr1r2···rNYNxanrnð6Þ结果基于核心张量大小[3 4 5 4]作为一个例子。小时、天、机场和延误级别因子矩阵使我们能够r1¼1r 2¼1rN¼1n1根据它的分布特征来核心张量p捕获不同模式之间的相互作用。hN是表征每个模式N的主模式的概率向量。概率张量中的每个元素可以计算为所有模式组合的总和Pxa1¼v1;.. . ;xam 1/4vmjh图1(a)描绘了五种模式的小时曲线。H1型占18.7%,从11:00开始逐渐上升,24:00达到高峰,然后下降,直至凌晨。模式H2显示出与高斯分布的相似性与H1和H2模式相比,H3和H5模式R1R2RN¼X X···Xp rr rr1¼1r 2¼1rN¼1Rh1h2·· ·hNð7ÞhN是表征每个模式的主要模式的概率向量。该模型等价于非负Tucker(NNT)分解[45,46],可以识别不同维度的普适模式,并通过核张量揭示相互作用。应用EM算法来有效地导出模型[47]。属性类别描述出发机场224出发机场1461年的顺序按日期排序一天的时间(h)240:00-1:00,1:00-2:00,.. . 时间:23:00延迟等级4① 15 min,②15最小值,最大值> 90 min@lN表1飞行数据的分类值。M. Zhang,S.陈湖,澳-地Sun等人工程7(2021)465468概率LjH66472375图1.一、不同模式下的主要模式(a)Y轴是小时因子矩阵Probability(H)中每个模式(列)的概率;(b)Y轴是一周中某一天的概率以及天因子矩阵Probability(W);(c)Y轴是概率以及天因子矩阵Probability(M)。更加集中。它们在早上显著增加,到中午突然下降模式H4在11:00达到峰值,然后在一天的其余时间内持续下降H3、H4和H5的比例分别为22.9%、22.2%和11.8%。日因子矩阵具有1461行和4列,其描述了原始日与日模式之间的对应关系我们分析了一年中不同月份和一周中不同日子的日模式。为此,我们总结了一周中不同月份和日期的每日流量概率,以确定流量如何与日期相互作用。图1(b)显示了一周中几天的模式。W是周线图,M是月线图。W1模式的交通观测主要集中在工作日,而W3模式的交通观测主要集中在双休日。有趣的是,我们发现模式W2和W4也表现出相反的趋势.W2主要集中在周一、周六、周日,而W4格局则集中在周三、周四、周五。 图 1(c)显示了不同月份的模式。我们可以观察到明显的季节多样性,因为没有任何模式是均匀分布在整个海子。模式M1主要集中在秋冬两季,而模式M2则集中在冬春两季。模式M3集中在春季,模式M4主要分布在夏季,是航空系统的出行高峰。即使估计过程中不考虑任何空间位置信息,我们发现,这些组件可以识别的机场的地理位置。作为中国的交通枢纽,北京首都国际机场是在模式A1和A2中明显突出。此外,模式A1型主要分布在东南部,而A2型主要分布在图二.延迟因子矩阵中每个模式(列)的延迟级别组成概率。1234567 89 10 11121314 1516 17 18 19沪ICP备15024450号-16 732019 - 04 - 19 00:00:00 00:00 00:00分布在西南部。A3格局主要由中西部的航空港组成.图2示出了延迟水平因子矩阵中的每个模式(列)的延迟水平的组成。L1、L2、L3和L4代表不同级别的航班,从“准点”到“严重延误”不等可以看出,与原始张量相比,延迟水平模式几乎保持相同,识别出不同延迟水平的航班。图2显示了每种延迟水平模式的组成,分别占总交通流量的40.7%、10.5%、29.1%和19.7%指出延误是空中交通拥挤的一种表现形式,延误水平与空中交通流的时空特性密切相关。为了进行进一步的分析,我们采用条件概率跨延迟水平模式和其他模式来调查的相互作用。我们计算条件概率dis-probability(L| H)的Bayes定理。给定小时模式,延迟水平模式的条件分布为沪ICP备15014445号-12019 - 05-19 00: 00: 00概率(L| H)显示了延迟水平模式如何与小时模式相互作用。可以看出,表示准点分量的模式L1为了描述延迟的规则,我们现在讨论不包括L1的延迟水平模式。H1表示全天呈上升趋势的交通模式,与延迟模式L2相关联,延迟模式L2对应于轻微延迟的航班。H2主要被小时模式L3和L4所ð8ÞM. Zhang,S.陈湖,澳-地Sun等人工程7(2021)465469覆盖,表明高级别延误与下午的交通量高度相关。H3、H4、H5主要由L3、L4覆盖。这可以解释为,由于大多数机场的航空交通繁忙,早上旅行高峰期的航班很可能会严重延误。M. Zhang,S.陈湖,澳-地Sun等人工程7(2021)465470ð ÞRFð ÞRF45425B2M1=W 16L1L 2L 3L 40: 37830: 34332019 - 06 -18 00:00: 007严重的延迟模式。其次,由于时空信息并不要求我们理解歌剧,ProbabilityLjMProbabilityLjWM2=W 20: 5889 0: 3195 0: 0780 0: 01356M3=W3 2019 - 01-15 00: 00ð9Þ如果我们能够详细了解飞机的起飞时间和起飞机场,就可以帮助我们作出初步评估M4=W 4 0: 22230: 20352019 - 01 - 15 00:00:00根据日型和延迟水平型的因子矩阵,我们发现准时型和轻微延迟型在M1/W1、M2/W2和M3/W3中出现的频率最高,而M4/W4型非常罕见。与周和月维度一起,M4/W4表明交通主要集中在工作日和夏季,并且往往与严重的延误相互作用。2L1L 2L 3L43延迟提前。第三,航空系统的高度动态性和复杂性使人们认为延误不能通过基本信息来估计因此,我们的框架产生的潜在模式的有效性也证明了如果实现准确的估计为了进一步探索,随机森林(RF)算法在此用于构建估计模型,因为其对该问题的适应性[50]。射频的优点包括:①它生成泛化的内部无偏估计10: 2369 0: 2015 0: 2830 0: 27837一ð10Þ错误,因为森林建设的进展;②它有效地运行,2019 - 01 - 18 00:00:00A30: 640209: 00- 14:00- 14:00如概率(L)中所示|A)机场模式也与延误水平模式相关。显而易见的是,模式A大型数据库;以及③它具有建模交互变量[51]。具体地,RF是系综树。 . . ;CBXg,哪里B是的number的树木和X1/4 X1;... ;xq是一 q维向量的描述符的主要包括:3个集成产生B输出y^1xC1X;· ··;y^BxCBX,L1,其可表示来自中西部的机场延误较少。与A3相比,A1和A2更容易出现严重延误。这可以解释为中西部机场相对较轻的交通流量和充足的空域资源。正如上面的分析所示,延迟受时间和空间的影响很大。为了进一步探索模式之间的相互作用,我们提出了沿时间和空间维度的分解分布。从图3中可以看出,(L2,H1)的值大于A1中其他单元格的值,表明下午或晚上的航班从东南机场起飞时,会伴随轻微的延误。我们还观察到大量的交通内在(L3,H3)的A2模式,而这种流量很少出现在A1和A3。这可以解释为,早高峰期间来自西南机场的航班往往会有适度的延误。如前所述,由于其过剩的能力,中西部机场(A3)有一个低的概率航班延误。这种现象与A3细胞(L1,H2-H4)一致数值算例表明,因子分解允许我们解释复杂的依赖关系和基于潜在因素的高阶相互作用。核心张量p以非常有效和信息丰富的方式表征了不同模式之间的相互作用。这个框架有助于我们理解和解释各部分之间潜在的相互作用和复杂的依赖关系,在大型数据集中搜索,增强我们对空中交通的理解其中,y^bx是第b个RF树的估计(b=1,. . . ,B)。所有树的输出被聚合以产生一个最终估计,y^Bx。对于分类问题,y^Bx是由大多数树估计的类培训程序如下:(1) 准备训练数据。我们准备了q维的训练数据样本及其类标签。(2) 选择参数。E:每棵树的最大深度;C:分裂内部节点所需的最小样本数;V:每次分裂时的变量;ML:叶节点所需的最小样本数(3) 生成分类树。对于b= 1到B,从训练数据中提取大小为(Sd)的自助样本Zω。使用大约三分之二的原始训练样本来生长分类树。将剩余的三分之一样品作为所谓的袋外(OOB)样品。(4) 种树。对于每个bootstrap样本,生长一棵树CbX,并进行以下修改。在每个节点上,选择最佳变量/分割点并将节点分割为两个节点,直到该节点的样本数小于C。树生长到最大尺寸E并且不修剪。重复上述步骤,直到B这样的树生长。(5) 成果产出。通过将树的估计与所有类似树的多数投票进行聚合来估计新数据,森林输出y^Bx1/4多数票fy^B阿克斯.rfb1公司简介管理在此基础上,又产生了另一个重大问题如果我们只考虑从时间和空间信息中提取的潜在模式信息,是否可以估计延迟水平虽然以前的研究表明,航班延误可以归因于许多复杂的因素[49],但这个问题可能具有重要意义。首先,基于历史信息的潜在模式是由各种延迟原因的集体效应产生的。例如,极端天气在夏季频繁发生,我们发现夏季之间的相互作用很强为了评估估计模型的性能,采用了四个指标,参考方程:(11)F1 macro是宏平均分数,并对所有类(1,.. . ,u)相等地,不管有多少样本Su属于给定类u。F1micro是微平均分数,对所有样本进行同等加权,从而有利于普通类的性能。Weighted score找到每个标签中的平均值,按每个类的真实实例数加权。准确度OOB是每个训练样本Zω的平均准确度,仅使用在其自举样本中没有Zω的树[52]。图三. 不同机场模式下延误等级与小时的相互作用。3M. Zhang,S.陈湖,澳-地Sun等人工程7(2021)46547111uTPP1FP11SPu2× P宏× R宏。1X选择为特征;即,{A1F1宏¼PmacroRmacroPmacro¼uu第1页精度u;ð11ÞM4}。每个特征的范围从0到1。树木的数量是最重要的变量。应当1 X!R宏¼u召回使用大到足以让RF的泛化误差收敛。在图4、我们发现准确性OOB从53.1%变为53.4%,其中Pmacro是宏平均精度,Rmacro是宏平均召回率,精度u是真阳性的数量除以类u的被标记为属于阳性类的元素的总数,并且召回率u被定义为真阳性的数量除以类u的实际属于阳性类的元素的总数。B从100增加到150,当B大于150时略有增加。这表明当B大于150时,RF分类器对B的增加几乎不敏感。为了得到更好的参数集,本文采用了网格搜索法其他参数的几种组合,试图确定该模型的最佳值。整体性能和单个类的准确性在图中给出。 五、正如先前的研究所指出的,延迟主要是2×P微× R微。P微微镜PuTPu1u比实际发生的时间早得多的判断。uuuTP微¼PuTPuTPuFNuΣð12Þ延迟[53,54]。我们的模型只考虑了潜在的模式通过基本航班信息显示,这些信息可能不会被乐观看待在这种情况下,RF实现了超过其中P 微是微平均精确度,R微是微平均召回率,TPu是类u的真阳性率,FPu是类u的假阳性率,FNu是类u的假阴性率。u××召回u50%,并实现了60.0%,46.0%,44.0%和65.0%的准确度,分别为个别类,这可能是一个非常积极的迹象。这意味着可以初步仅根据时间和机场信息。而且这加权分数¼1X2精密使用×Su 13应用程序支持潜在模式的有效性我们还可以看到,其中Su是类别u的样本数,S是样本数。由于其独特的特征,分类更准确。即使该算法在分类“轻微”准确度OOBTPOOB和TNOOBTPOOBFPOOBTNOOBFNOOBð14Þ其中TPOOB是OOB样本的真阳性率,FPOOB是OOB样本的假阳性率,FNOOB是OOB样本的假阴性率,TNOOB是OOB样本的真阴性率在这项研究中,潜在的时空模式的数据。分类问题涉及四个延迟级别(准时,轻微延迟,中度延迟和严重延迟)的识别为了评估模型在实际中的准确性,本文采用了五重交叉验证策略。一轮交叉验证涉及将所有记录划分为五个互补子集,对四个子集执行训练过程,然后在另一个测试集上验证分析。接下来,对五轮验证结果进行平均共使用了13492326条记录如上所述,每个模式中的飞行的概率值(潜在时空模式)见图4。 不同树数的模型性能。图五、分类结果。(a)不同指数的总体业绩;(b)混淆矩阵。u¼第1页F1微型RP微¼由动态操作因素决定。 不可能¼;1R精确度u召回率uM. Zhang,S.陈湖,澳-地Sun等人工程7(2021)465472延迟4. 结论在本文中,我们开发了一个概率因子分解框架,将大量的飞行记录数据转换成时空张量。我们的目的是研究空中交通和航班延误的时空动态模式。我们假设每个飞行观测值都是由一个普适联合分布生成的样本然后,我们用非负张量因式分解,这已被证明是一个有用的分析工具,为高维海量数据制定这个联合任务结果表明,在不同的模式下,明确的模式被识别。不同模式之间的相互作用也被表征在核张量中,它解释了延迟和时空模式之间的关系详细的分析清楚地表明,严重的延误与下午,工作日和夏季的交通密切相关。从中西部机场起飞的航班在一天中的任何时候延误的可能性都很低。该框架可以揭示航班延误的建模提供了一个了解航班的空间和时间维度。此外,潜在的模式已被证明显示延迟估计的一定效果。作为空间和时间信息的综合,潜在模式可以给出关于延迟水平的正估计结果。在高度动态的环境和延误的复杂性的背景下,这个输出给了我们一个新的理解空中交通和航班延误如何与时间和空间相互作用。该框架通过潜在类模型和概率因子分解方法,提供了对海量航空数据的深入理解。这项研究的结果可帮助机场运营商和航空交通管理人员更好地准备航空交通和机场安排,从历史情景中获得的经验。可以执行进一步的分析以应对理解涉及更多因素(例如天气和航线属性)的交互的挑战。确认作者感谢南佛罗里达大学的张玉和卡内基梅隆大学的张申奇的技术支持和建议,这对提高本工作的质量有很大帮助。本文得到了国家重点研 究 发 展 计 划 ( 2019YFF 0301400 ) 和 国 家 自 然 科 学 基 金(61671031、61722102、61961146005)的资助。遵守道德操守准则Mingyuan Zhang、Shenwen Chen、Lijun Sun、Wenbo Du和Xianbin Cao声明他们没有利益冲突或财务冲突需要披露。引用[1] Folkes VS,Koletsky S,GrahamJL. 因果推论与消费者反应之实地研究:来自机场的观点。 J Consum Res 1987;13(4):534-9.[2] Brito R,Dresner M,Voltes A.航班延误对乘客需求和社会福利的影响。运输研究E部分物流运输修订版2012;48(2):460-9。[3] Ferrer JC ,和Oliveira PR ,Parasuraman A. 反复航班延误的行为后果。J AirTranspp Manage 2012;20(3):35-8.[4] Vlachos I,Lin Z.航空公司忠诚度的驱动因素:来自中国商务旅客的证据。运输研究E部分物流运输修订版2014;71:1-17。[5] 库克AJ,坦纳G。欧洲航空公司延误成本参考值。次报告.伦敦:威斯敏斯特大学;2011年3月。[6] Pejovic T,Noland RB,Williams V,Toumi R.机场关闭影响的初步分析。 《航空运输管理杂志》2009;15(5):241-8.[7] Ryerson MS , Hansen M , Bonn J. Time to burn : flight delay , terminalefficiency,and fuel consumption in the National Airspace System.交通研究A部分政策实践2014;69:286-98。[8] Ball M,Barnhart C,Dresner M,Hansen M,Neels K,Odoni A,et al. Totaldelayimpact study : a comprehensive assessment of the costs and impacts offlightdelay in the United States.次报告.国家航空运营研究卓越中心; 2010年。[9] Abdelghany KF,Shah SS,Raina S,Abdelghany AF.在不规则操作条件下预测航班延误的模型。航空运输管理杂志2004;10(6):385-94.[10] 罗宾逊PJ。天气对亚特兰大哈茨菲尔德国际机场航班运行的影响。天气预报1989;4(4):461-8.[11] 作者声明:Dr.对欧洲机场容量和拥挤程度的评估。航空运输管理杂志1999;5(3):113-34.[12] 黄俊俊,李世升,吉灵沃特D.航班技术延误评估的优化模型。交通规划技术2002;25(2):121-53.[13] 作者:Mueller ER,Chatterji G.飞机到达和起飞延误特性分析。在:AIAA的飞机技术,集成和操作(ATIO)2002年技术论坛会议录; 2002年10月1日至3日;洛杉矶,加利福尼亚州,美国; 2002年。[14] 吴清航班时刻表的固有延误和运行可靠性。航空运输管理杂志2005;11(4):273-82.[15] Schaefer L,Millner D.使用详细的政策评估工具进行航班延误传播分析。2001年IEEE InternationalConference on Systems,Man and Cybernetics会议论文集。电子系统和电子人的控制论在网络空间; 2001年10月7日至10日;图森,亚利桑那州,美国; 2001年。[16] Han Y,Moutarde F.基于非负张量分解的城市交通网络大规模交通动力学分析。IntJ IntellTransp Syst Res 2016;14:36-49.[17] 吴晓波,李晓波.确定空中交通管理的类似日期。 J Air Transpp Manage 2017;65:144-55.[18] Hoffman B,Krozel J,Penny S,Roy A,Roth K.聚类分析对国家空域系统中的天数进行分类。收录于:AIAA制导、导航和控制会议论文集和展览; 2003年8月11日至14日;美国德克萨斯州奥斯汀; 2003年。[19] 刘Y,Seelhorst M,Pozdnukhov A,Hansen M,Ball MO.战略空中交通管理终端天气预报相似性评估。在:在航空运输研究第六届国际会议的会议记录; 2014年5月26日[20] Mukherjee A,Grabbe SR,Sridhar B.在国家空域系统中使用天气影响交通的天数分 类 。 In : Proceedings of the 2013 Aviation Technology , Integration , andOperations Conference; 2013 Aug 12[21] 放大图片作者:Grabbe SR,Sridhar B,Mukherjee A.机场天气状况相似的聚集日。在:第14届AIAA航空技术,集成和运营会议论文集; 2014年6月16日至20日;亚特兰大,GA,美国; 2014年。[22] Bloem M,Bambos N.基于行为克隆和反向强化学习的地面延迟程序分析在:第14届AIAA航空技术,集成和运营会议论文集;2014年6月16日至20日;亚特兰大,GA,美国; 2014年[23] [10]杨文,李文.基于频繁模式的巴西航班延误分析。运输研究E部分物流运输修订版2016;95:282-98。[24] Zhou G,Ciclanki A,Zhao Q,Xie S.有效非负塔克分解:算法与唯一性。IEEE Trans Image Process2015;24(12):4990-5003.[25] Abdel-Aty M,Lee C,Bai Y,Li X,Michalak M.检测到达延迟的周期性模式。《航空运输管理杂志》2007;13(6):355-61.[26] 周X,名单GF。交通起讫点需求估计应用之资讯论感测器定位模式。Transp Sci2010;44(2):254-73.[27] 黄J,莱文森D,王J,周J,王正杰.使用劳动力市场数据跟踪工作和住房动态。 ProcNatl Acad Sci USA 2018;115(50):12710-5.[28] 杜文波,张明扬,张毅,曹晓波,张杰。航空运输系统延误因果网络。Transp ResPart E Logist TransRev 2018;118:466-76。[29] 密斯利维估计潜在分布。Psychometrika1984;49(3):359-81.[30] Woodbury MA,Manton KG.抑郁症相关精神障碍的隶属度分析。社会学方法研究1989;18(1):126-63。[31] 孙良,阿克斯豪森KW,李德华,黄旭。了解大都市的日常遭遇模式。 Proc NatlAcad Sci USA 2013;110(34):13774-9.[32] Zhang F,Wilkie D,Zheng Y,Xie X.感知城市加油行为的脉搏。2013年ACM国际普适和普适计算联合会议论文集; 2013年9月8日至12日;苏黎世,瑞士; 2013年。p. 13比22[33] 袁军,郑毅,谢旭.利用人的流动性和兴趣点发现城市中不同功能的区域。第18届ACMSIGKDD知识发现和数据国际会议论文集采矿业;2012年8月12日p. 186比94[34] 马翔,吴永军,王勇,陈峰,刘军。基于智能卡的公交乘客出行模式挖掘。 TranspRes Part C Emerg Technol 2013;36:1-12.[35] Dauwels J,Aslam A,Asif MT,Zhao X,Vie NM,Ciclanki A,et al. Predictingtraffic speed in urban transportation subnetworks for multiple horizons.于:M. Zhang,S.陈湖,澳-地Sun等人工程7(2021)465473第13届控制自动化机器人视觉国际会议论文集; 2014年12月10日p. 547-52[36] Ran B,Tan H,Wu Y,Jin PJ.基于张量的时空相关缺失交通数据补齐。Physica AStat Mech Its
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功