公交车行程模拟：改进公共交通预测算法及数据质量机器学习深度学习

175 浏览量更新于2024-01-23 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软计算快报3（2021）100029公交车行程模拟开发公共交通预测算法Thilo Reicha，Marcin Budkaa，David Hulbertba伯恩茅斯大学计算和信息学系，Fern Barrow，Poole，BH 12 5BB，United Kingdomb乘客技术集团有限公司，65 Seamoor Road，伯恩茅斯，英国，BH 4 9AE，A R T I C L E I N F O保留字：公共交通到达时间预测数据模拟数据质量机器学习深度学习A B标准鼓励使用公共交通工具对于解决城市环境中的拥挤和污染问题至关重要。为了实现这一点，到达时间预测的可靠性应该得到提高，因为这是乘客经常要求改进的一个领域。准确预测算法的开发需要高质量的数据，而这些数据往往是不可用的。在这里，我们展示了一种方法来合成数据使用从非常有限的真实世界数据导出的参考曲线方法，而没有可靠的基础事实。这种方法允许受控地引入伪影和噪声，以模拟它们对预测精度的影响。为了说明这些影响，使用递归神经网络下一步预测来比较两个不同英国城市的不同情景。结果表明，一个现实的数据合成是可能的，允许控制测试的预测算法。它还强调了可靠的数据传输的重要性，以从现实世界的来源获得这些数据。我们的主要贡献是演示了一个用于公共交通数据的合成数据生成器，该数据生成器可用于补偿低数据质量。我们进一步表明，如果高质量的数据是有限的，通过混合合成和真实的数据，这个数据生成器可用于开发和增强预测算法的城市公交网络1. 介绍世界各地的城市都在试图将个人交通转移到公共交通，以减少拥堵和对环境的影响。这一战略的一个关键部分是使公共交通尽可能方便。公交乘客通常依赖公交车站、在线和移动应用程序中的实时乘客信息（RTPI）系统。这些RTPI系统可能不可靠[1]，这对乘客来说是不方便的。一般来说，乘客对公共交通的某些方面有不同的优先次序。可靠性和安全性被认为是最重要的两个[2]。与私家车相比，使公共汽车尽可能具有吸引力的重要性在历史统计记录中得到了强调。在英国，2018/19年度共进行了48亿次公交出行，占所有公共交通出行的58%[3]。这些行程总计274亿公里，节省了约9600万吨二氧化碳[4]。然而，自1985年以来，公共汽车旅行一直在稳步减少，总共减少了7亿人次。由于在大部分地区，其他公共交通工具，如火车，不能取代当地的巴士服务，这表明更大比例的乘客选择私家车。这反映在持续的上升趋势中英国公路上的汽车交通[3]。为了鼓励潜在乘客使用公共交通工具，尽可能使其具有吸引力至关重要扭转上述趋势，最终对全球经济产生积极影响环境以及城市环境中的拥堵程度。然而，上述数据均为疫情前的数据，因此目前无法预计疫情对公共交通其他研究也强调了准确的预计到达时间（ETA）预测对改善客户体验的重要性[5]。许多公共交通提供商开发了移动应用程序，可以提供车辆的“实时”位置。乘客可以使用这种技术来决定何时离开家去赶公共汽车，而不必在公共汽车站等待很长时间。然而，我们之前注意到，由于无线网络基础设施的延迟和事实上，在我们的业务领域的数据通过一些第三政党制度[6]。因此，RTPI系统可能会建议车辆比实际距离更远。这可能会导致乘客错过公共汽车，从而给他们带来不必要的不便。在伯恩茅斯，在本研究中用作示例的两个城市中，基于互联网的“实时位置”的等待时间大约为30-40秒。为了缓解这个问题，我们提出了一个短期预测，这将是有用的ETA和长期预测的进一步发展，并使“活”的位置更接近现实。通常部署的自动车辆定位（AVL）系统[7]可以为这种方法提供数据。为了比较任何潜在的模型，对其性能的评估至关重要，这必须以一种∗ 通讯作者。电子邮件地址：treich@bournemouth.ac.uk（T. Reich）。https://doi.org/10.1016/j.socl.2021.100029接收日期：2021年9月13日;接收日期：2021年11月8日;接受日期：2021年11月22日2021年12月5日在线发布2666-2221/©2021的自行发表通过ElsevierB.V.这是一个开放接入文章下的CCby-NC-ND 许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表软计算快报期刊主页：www.elsevier.com/locate/soclT. Reich等人软计算快报3（2021）1000292可以复制和比较结果。然而，这并不是在所有情况下都是可能的，因为一些作者报告了相对误差[8 无法区分所报告参数的一致性。所有机器学习算法的前提条件都应该是可验证的，皇家学会这一点在医疗保健领域也得到了认可，其中存在预测模型的开发和报告指南[12]。标准的差异可能是因为ETA预测不影响乘客的健康或安全，并且虚假算法最多可能造成不便而不是身体伤害。然而，对于运营公司来说，这可能会导致乘客量下降而导致收入损失，并且整个社会可能会遭受更多的拥堵，这可以通过提供准确的ETA预测来减少。此外，科学的原则是可复制性。再现性危机最突出的是心理学研究[13]，然而，由于其恶名，它已经得到了积极的解决[14]。它也被认为是生物医学[ 15 ]和人工智能[ 16 ]等“较硬”科学中的一个问题虽然从机器学习技术中获得的结果可能被认为是确凿的证据，因为最终模型是基于数学概念的，但它们经常遇到与心理学中类似的问题，因为心理学的研究往往是主观的给研究员。这两个领域的相似之处在于，由于“黑匣子”效应，这些发现通常无法解释。心理学领域现在已经开始从机器学习研究中看到的问题中吸取教训[14]。解决这些问题的一种建议方法是元科学，它可以揭示研究结果的真正准确性[17]。然而，这依赖于可比较的准确性测量，这在大部分公共交通文献中找不到。因此，在公交预测研究领域，迫切需要一个综合的报告标准.因此，这就提出了一个问题，即需要高质量的数据来开发良好的预测模型。我们和其他研究人员强调，数据质量问题需要在公共交通研究的背景下加以考虑[6，18因此，在这项研究中，我们展示了一种方法来合成巴士行程的基础上有限和低质量的数据。一方面，它可以产生一个混合数据集来开发模型。另一方面，它有可能被用来生成合成数据集，可用于基准，试图打击突出的公共交通研究所面临在我们的数据中，明显缺乏质量阻碍了发展预测算法。质量问题包括缺乏明确的旅程标识、对时间表的不确定性、记录中的空白等人为因素、错误报告的线路编号以及旅行方向（入境与出境）。这些质量问题使得不可能开发出准确的预测算法。不幸的是，记录高质量历史数据的最简单的解决方案是不可行的，第三方公司的封闭源数据收集。为了解决这个问题，本研究描述了一个基于参考曲线的合成数据生成器，其假设基于有限的真实数据。这允许在受控环境中测试算法，并将用户定义的伪影注入数据集中，以测试它们对预测质量的影响我们还表明，混合真实和合成数据提高了预测精度。2. 背景ETA预测方法可以包括简单的历史平均值或者基于统计模型。然而，由于ETA预测的复杂性，机器学习方法变得越来越流行[21]。近年来，人工神经网络（NN）已经彻底改变了许多其他领域。因此，神经网络应用于公交车预计到达时间预测问题时，应该有类似的潜力。一项专门调查NN在公共交通中应用的全面审查[22]发现，只有16%（12）ETA的公共汽车，而其余的研究应用该技术的其他交通方式。这表明，在公共交通研究的背景下，使用神经网络的公交车预计到达时间预测领域可能代表性不足。神经网络预测巴士ETA的相对缺乏是惊人的，因为神经网络已经彻底改变了数据科学的其他领域，如图像和语音识别[23，24]。所有机器学习方法的挑战是微调模型参数，一种解决方案是使用遗传算法[25]来优化受自然启发的机器学习算法。在最近的文献中已经证明了几种创新的变化，例如受马鹿种群交配启发的算法[26]，或者使用简化的元分析简化参数搜索[27]。同一作者还展示了适用于供应链管理的方法，使用田口方法优于传统的遗传算法[28]以及区块链算法在供应链管理中的潜在用途[29]，此外，他们还展示了预测光伏发电[30]以及生物修复[31]的应用。如今，大多数公交车都配备了车载AVL系统，该系统配备了GPS传感器，并以频繁的间隔（通常在20秒至60秒之间）传输公交车的位置。车辆位置的可用性是任何ETA预测的基础，并且可以通过AVL系统访问，并且不一定需要在静态传感器上进行任何额外的投资开发机器学习解决方案的最大障碍通常是难以获得足够的高质量数据来进行开发一个有用的算法。在某些领域，这导致了从医学[32]到物理学[33]的模拟数据的使用。关于公共交通出行模拟，文献很少。与总线数据模拟相关的一些示例包括总线排队[34]以及交通模拟[35]。然而，据我们所知，没有研究调查使用模拟数据来训练城市公交网络的下一步预测模型。在机器学习研究的许多领域，基准数据集是常见的[36]。这使得研究人员能够客观地比较算法。这在城市公交网络领域是缺失的。因此，所提出的数据生成器可以生成标准化的基准数据集，为公共交通的进一步研究奠定基础。3. 真实世界数据处理3.1. 数据收集数据可以通过我们合作者的基础设施访问，两个英国城市被选中，拥有最多的车辆和访问记录的旅行数据。AVL数据收集自Reading（英国）17号线和Bournemouth（英国）1号线的两个不同的公交运营商（图1）。①的人。每辆车大约每40秒发送一次其位置，由提供集成AVL系统的电子售票机（ETM）的公司记录。由于数据由几个独立的实体处理，只有有限的信息被传输。现有数据如下：• 时间戳• 位置（纬度和经度）• 行号• 方向（出站或入站）对于伯恩茅斯运营商来说，很明显，当车辆在运营运行期间改变其线路时，传输方向通常是不正确的，线路编号也是如此。Reading采集的数据完整性更好，传输方向可靠，简化了数据处理步骤。根据这一有限的信息，不可能将车辆与其当前服务的行程相对应的时间表相匹配。旅程是一个特定的旅行，T. Reich等人软计算快报3（2021）1000293Fig. 1. 两个示例城市的位置和用于所有实验的旅程形状。伯恩茅斯1号线显示为黄色，雷丁17号线显示为蓝色。(For对于图中颜色的解释，请读者参考本文的网络版本公交线路的时刻表，例如，上午9点出站服务1.相比之下，路线模式（也称为“形状”）是在道路上行进的路线，对于相同的公共汽车服务，其可以针对每个旅程略微变化。在伯恩茅斯的1号线的例子中，有几种模式可以包括沿着路线的不同起点，从而导致更短的总行程或略有不同的路线。在这两个城市，由于我们无法访问唯一的路线模式标识符，因此无法将车辆直接与特定的路线模式进行可靠的匹配。因此，每个城市任意选择一个路线模式并用于生成合成数据，这是一种可接受的方法，由于在选定的城市中，模式之间的差异可以忽略不计。3.2. 标识要过滤的伯恩茅斯使用的巴士路线是1号线，从市中心出发前往基督城（图。①的人。完整的路线形状包括较长的行程，因此需要截断。在阅读线17的第二个例子中，它可以有多达90个不同的路线模式，每个方向具有不同的运行时间和路线形状的微小变化（图17）。①的人。此外，一个复杂的因素是，路线遵循市中心的单向系统，这意味着路线根据服务方向而不同。因此，采用了双管齐下的办法。为了最初过滤距离形状太远的旅程，将两个方向的所有可用形状组合到模板形状中。排除了到模板形状的平均距离的半径为3μ m以外的任何行程。具有强制方向能力的最终过滤是使用从可用于覆盖路线的整个长度的每条线路的许多不同模式中任意选择的路线模式。在雷丁的情况下，这些路线模式大多相同，然而，在伯恩茅斯，模式可能非常不同。我们之前已经讨论过这些问题[6]。3.3. 确定个人行程由于缺乏明确的旅程标识，因此使用启发式方法来分离各个旅程，然后使用作为生成合成数据的基础伯恩茅斯运营商不能可靠地传输车辆当前服务的方向。然而，观察到的一个现象是，在行程结束时，车辆会在短时间内停止传输数据。因此，一旦它重新出现在数据流中，就可以检测到时间戳新的旅程被定义为一个时间超过15分钟的间隙。如果检测到这样的间隙，则假定新的旅程已经开始。读取操作员可靠地报告行程方向，使识别单个行程更容易。此外，车辆倾向于服务于同一条线路，并且在运行之间不改变线路，通过选择单个方向，可以观察到传输时间戳中的大间隙，使得行程的分离准确。3.4. 轨迹生成假设车辆遵循所识别的出站行程形状。这使我们能够将旅程表示为轨迹，是沿路径形状行驶的距离。利用这样的轨迹，旅程可以基于从旅程开始的行进距离和运行时间3.5. 额外的处理步骤为了确保数据集干净，在车辆没有移动超过10 m的开始处的重复被移除，并且一旦车辆移动超过该阈值，就假设行程开始。据推测，当它到达最大轨道时，旅程就结束了。4. 合成数据生成数据生成过程使用基于启发式数据的方法来生成合成旅程。此过程分为几个子步骤：• 由于报告的点沿管线分布不均匀，因此• 确定行程的正常运行时间是基于历史数据，这也允许识别延迟。• 基于概率的时延仿真。以上步骤将在以下小节中详细描述。4.1. 基于路径形状插值行程根据未来的时间表生成合成旅程。为了避免所有车辆在同一点启动，时间表的开始时间，它是一个介于0T. Reich等人软计算快报3（2021）10002940和40 s（传输间隔）。这将添加到计划的开始时间。然后通过将偏移乘以在真实世界数据中观察到的平均速度8 m/s（30 km/h）来计算应该偏移的距离。然后将时间戳内插到用户定义的间隔-在所呈现的示例中为40秒。通过计算路线段上两个后续停靠点之间的时间差，可以得到总体运行时间。这可以除以40 s的传输频率，以给出该路段上预期的传输次数。通过假设车辆以恒定速度行驶，可以估计沿着形状的进展，并且可以提取传输点处的形状的坐标。然而，参考行程模式的坐标不是等距的;连续报告的位置之间的距离在6米和100米之间。因此，仅基于形状的插值将根据道路形状给出非常不同的速度。通过基于沿沿线使用形状坐标的最近计算距离来计算插值坐标与形状坐标之间的差。如果该距离大于5 m，则使用形状上的两个相邻点来插值这两个坐标之间的位置，以使数据更真实。这并不能解释速度或地球曲率的变化，但由于距离最多为100米，这是一个合理的省略。此外，它似乎更宽的差距被发现在直线路段和曲折路段的频率增加，使所提出的方法是一个很好的妥协。4.2. 确定延迟由于到达巴士站的时间没有记录，因此无法确定车辆是否准时行驶或延误。另一个困难是，旅行时间各不相同，取决于一天中的时间和工作日。可扩展运行时中的这种变化4.2.2. 旅程生成为了生成行程，查询一周的时间表并将其用作模板。采用这种方法的原因是，虽然伯恩茅斯的时间表直到本日历年年底都可用，但雷丁的情况并非如此，那里只有一周的时间。由于时间表通常不会在同一年内大幅改变，这是一个合理的做法。随后，查询参考曲线并提取以下相关数据点• 平均参考轨迹。• 标准差以及95%置信区间。• 延迟或提前到达的概率相对于参考曲线（图1）。2）的情况。4.2.3. 延误基于参考曲线，可以计算行程延迟或提前的概率。行程是否被延迟是通过从正态分布中采样来决定的，对于参考表的每个条目，生成随机数 r 并将其存储在一个概率列表 {概率...��{\fnSimHei\bord1\shad1\pos（200 ，288）}这些参数兼作修改参数，以生成延迟或时间增益。为了去除概率列表的变化，应用具有7个窗口和3个多项式阶的基于平滑的概率列表来做出车辆是否将准时、提前或延迟的决定。一辆车会提前到达，如果你不小心的话。��如果车辆被延误，��如果这两个条件都不成立，则假定车辆是准时的。为了模拟所获得的时间变化，计算参考曲线的初始预期运行时间Δ t以及参考曲线的最后位置Δ t的差。根据参考曲线的置信区间计算预期变异比。��因此，在时间增益的影响下沿着轨迹的进展可以计算如下：��=（补偿预期的交通状况。定位技术公司TomTom记录了不同城市��=+−（��0×（（0.9 ×）× 1.25））��根据消费者的GPS数据。伯恩茅斯的数据表示在一天中的某个时间需要添加到旅程中的延迟百分比。伯恩茅斯的最大值出现在周三下午，预计旅行时间将增加71%（大流行前）[37]。一天中的大多数时候，时间表高估了旅行时间，而不是根据TomTom的数据预计的时间。然而，需要记住的是，车辆在伯恩茅斯和基督城之间行驶，数据仅占伯恩茅斯。在TomTom数据集中不考虑让乘客上车或下车的Fur-100站。这意味着时间表考虑了交通状况的预期变化，因此不能用于模拟车辆延误。探索的另一种途径是使用谷歌服务来预测基于消费者数据的延迟，这是不可能的，因为公共汽车在公共汽车专用道上行驶，使得路线与基于预测的路线非常不同。在谷歌地图上。4.2.1. 基于概率的延迟通过按工作日和一天中的小时数评估真实世界数据集中的所有行程，可以导出参考轨迹。这个参考轨迹仅仅是所有观察到的行程的平均轨迹（图1）。2（a））。因此，离群值被去除，参考曲线代表“正常”旅程的基线（图1A和1B）。2（b）和2（c））。这允许计算每个工作日的每个时间的旅程将延迟或提前的概率。使用居中移动3小时窗口生成参比曲线，但使用截断窗口的第一个和最后一个小时除外。这给出了以下优点：模拟了延迟的时间依赖性，这意味着跟随延迟的公共汽车的车辆很可能也会被延迟，从而近似沿着单条线路的延迟传播其中：=波动率，=参考，=头寸，=头寸预期时间��如果下一个位置将被延迟，则随机修改因子m通过从beta连续随机分布（β=1，β=2）中采样生成。之所以选择这种尾部分布，是因为它使得延迟的大幅减少不太可能，并且车辆在大多数情况下将不占用或占用很少的时间。延迟波动率定义为参考曲线标准差与参考曲线本身的比值乘以m。此外，前一步的延迟��计算并从当前延迟中减去Δk−1，以防止延迟呈指数增长。为了说明在实际数据中观察到的延迟或时间增益的“标准”之外的随机主要变化因此，具有模拟噪声的位置可以描述为：��=��=其中：=要添加的噪声，=波动率，=位置，=下一个位置如果公交车最有可能准时，则使用其准时的概率来生成对参考曲线的调整，如下所示：��=[��其中：=位置，=车辆准时的概率，=下一个位置��然后对生成的轨迹进行插值，以给出与记录数据的传输速率一致的40 s时间间隔内的位置。T. Reich等人软计算快报3（2021）1000295图二. （a）伯恩茅斯一天街区的历史轨迹（星期二上午9点至12点）。(b)沿轨迹与参考曲线的相对差异。旅程延迟超过60%的仓位以红色突出显示。(c)在轨迹上提前或延迟行进的概率。两个条件之和的差异代表准时到达的车辆比例。(c)与参比曲线的平均时间差，突出显示不确定度。(For参考文献的解释如欲在此图例中填上颜色，请参阅本文的网页版本4.3. 伪影注入原始数据受到车辆行为造成的伪影以及数据收集问题的影响。三个值得注意的人工制品已被纳入模拟的合成数据，并在下文中描述。4.3.1. GPS噪声GPS记录会受到噪音的影响，而噪音可能取决于周围的环境，例如高层建筑。在本研究中使用的城市中，建筑物往往较低，因此由于反射的影响， GPS信号不太可能，也没有被观察到。为了模拟GPS记录的不准确性，将从正态分布（平均值=0，平均值=7）采样的随机噪声添加到纬度和经度。4.3.2. 重复位置由于运作上的原因，行程设有预定的缓冲区，让车辆赶上时间表。这意味着车辆经常在旅程的开始或结束时重复发送相同的位置。在旅程开始时，83%的旅程具有重复的位置，而在67%的旅程中可以看到结束重复。重复的次数取决于车辆静止的时间。偏态正态分布[38]适用于开始和结束重复，并且该参考分布用于对旅程两端的重复次数进行采样。这个人工制品是可选的，并且理论上已经生成了具有和不具有的数据集，有可能仅收集旅程本身的旅程数据，而在两端没有缓冲时间4.3.3. 地理围栏文物采集的原始数据中含有特征性的圆形特征。我们之前经验性地证明了[6]，这种特征伪影的起源是一些AVL系统用于确定车辆是否到达公交车站的地理围栏方法[6]。除非公交车非常接近车站，否则AVL系统会将车辆的实际位置"捕捉"到半径为10米的圆形地理围栏边界。由于这是一个不寻常的人工制品，它是可选的。4.4. 数据生成对于这两个城市，在三种不同条件下生成了145天的数据集：• 一段只有GPS噪音的• 一段有GPS噪音和圆形文物的旅程，• 一段有GPS噪音的旅程，开始和结束重复。此外，还为雷丁市生成了一个包含5000个行程的混合数据集，其中50%是合成生成的，其余一半来自原始数据集。5. 预测方法5.1. 基准使用两种简单的基准算法来比较所有模型。平均速度：此方法使用车辆自当前行程开始以来的平均速度。因此，它不反映任何短期的速度变化.计算出的速度用于从接下来的40 s的行驶模式的轨迹内插车辆的位置。当前速度：该方法使用车辆的最后三个传输位置来计算其当前平均速度，从而计算临时速度变化。预测是通过从行程轨迹中插入接下来40s的位置来进行的T. Reich等人软计算快报3（2021）10002965.2. 目标表示通过将坐标投影到旅程的路线模式上，将目标表示为轨迹。这确保消除了定位偏离路线的车辆的不准确性。在实践中，该方法预测一个表示沿着轨迹的进度的数字，最大值为1，这是最终目的地。为了说明的模型，轨迹可以被解码成坐标，以允许计算预测位置和实际位置之间的半正矢距离，这比基于轨迹的损失更直观。使用了该目标表示的两种变体：a. 沿着轨迹的不受约束的进展，这可能导致车辆看起来向后移动，b. 在下一个时间间隔中行进的距离被添加到最后已知的位置，这强制执行前向预测。5.3. 输入要素包括的功能有：标准化为边界框的坐标，该边界框表示公交公司的运营区域、连续记录之间的时间增量、从开始经过的时间时间的流逝，如下图所示。对输入特征进行最5.4. 处理时间时间信息被分解成其组成部分，使算法能够学习周期性模式。为了实现这一点，时间戳被翻译成一天中的分钟、一天中的小时和一周中的一天。这些都被嵌入到一个多维空间中，详见架构描述5.6。5.5. 输入窗口每次旅行都有一个移动窗口。窗口大小最小为10个数据点，每次增长一个时间步长，直到旅程结束。这确保了如在真实世界应用中所观察到的那样对旅程5.6. 架构除了递归神经网络（RNN）模块[39]之外，使用了两个具有相同架构的神经网络，该模块是门控递归单元（GRU）[40]或长短期记忆（LSTM）网络[41]。时间嵌入是由网络在多维空间中学习的。选择的维度为每个嵌入变量可能值的一半。例如，一天中的小时被嵌入到12维中，因为最大小时数是24。这些共有52个维度的嵌入被馈送到线性层中，以将其维度减少到原始的基于时间的特征数量。线性层的输出与剩余的输入特征连接在一起，并依次输入到GRU或LSTM层，然后是1Dbatchnorm，线性层，leaky ReLU，第二个batchnorm和最终的线性层。为了确保输出有界，应用了S形函数5.7. 超参数为了允许模型之间的直接比较，两个城市之间的所有训练超参数都保持不变。应当理解，这可能并不总是产生最佳性能，但将说明对性能进行的修改的影响。使用的变量是根据[42]描述的建议通过实证探索选择的。每个模型使用单周期策略训练50个epoch，最大学习率为10−1（伯恩茅斯）和10−2（雷丁）。作为损失函数，使用平均误差（MAE）6. 结果和讨论使用几种不同的指标来比较预测算法以确保对结果的平衡解释至关重要。此外，必须记住的是，在所提出的例子中，两个城市是相当不同的。最显著的区别是关于旅程形状的实践。旅行形状背后的想法是，它给出了沿着某个旅程的确切路线。不过，巴士公司对此的处理方式则有所不同。在阅读的例子中，每个旅程都有一个单独的形状，90种形状一天它们大多非常相似或相同。在伯恩茅斯的示例中，使用了较少的形状，然而，这些形状在长度和路线上明显不同，突出了对公共交通数据标准化的需求。因此，只有伯恩茅斯的一部分旅程足够相似，可以用一种方法进行模拟，因此该数据集包含的旅程比为雷丁生成的数据集少（17，115 vs 7839次旅程）。必须牢记这些差异，这对于解释结果至关重要。与当前速度基准相比，Reading中平均速度基准的中值准确度在所有数据集中都较低，如图3所示。伯恩茅斯目前的速度基准与平均速度基准相当。在Reading的示例中，情况并非如此，与平均速度基准相比，当前速度基准遭受更高的预测误差（图3）。一个解释可能是雷丁的车辆更有可能短暂停车，这反映在与伯恩茅斯相比，行驶速度的标准差增加了13%。有趣的是，Reading基准测试的直方图显示，对于具有重复开始和结束的数据集，峰值约为80 m（图11）。4）.这可以通过基准测试方法来解释，该方法使用最后三个位置来估计平均速度。因此，车辆的速度可以在120秒内从静止变为移动，反之亦然。考虑到这个时间范围，80 m/120 s对应于24 km/h的平均速度，是一个现实的预测城市公交网络，并根据估计速度从平均速度基准（图3&（4））。6.1. 完美旅程第一组实验显示了“完美的”合成过程。这些是在没有任何所讨论的伪影的情况下生成的，因此应该代表最简单的预测问题。在Bournemouth数据集中可以观察到这两种架构的性能较差。这两种架构的性能几乎相同，平均误差为63.8 m（��=55 m）（图1）。5（a））。这是一个准确性可比到基准（当前速度：64.2米，平均速度：62.1米）。与Reading数据相比，数据集较小可以解释这种令人印象深刻的表现，然而，更可能的解释是伯恩茅斯的旅程形状和路线的可变性，这自然会导致不太现实的合成数据。因此，在一个实施例中，很难从原始数据中确定个别行程。此外，数据生成受到车辆不遵循一致路线这一事实的影响，这将导致不切实际的合成旅程。相比之下，对Reading的预测表现良好，GRU和LSTM的平均误差分别为41.5 m（��=46.5）和47.5 m（��=47.2）（图2）。5（a））。与基准相比，两种模型的误差都有显著改善（当前速度：68 m，平均速度50.7 m）。如前所述，此数据集每天包含更多行程，然而，最可能的解释是这种性能改进的一个重要原因是均匀的行程形状，这将减少数据生成中的错误T. Reich等人软计算快报3（2021）1000297图三. 箱形图说明了两个城市的两个 nïve基准算法的预测误差。见图4。箱形图说明了两个城市的两个 nïve基准算法的预测误差。6.2. 售票机人工制品将特征圆形伪影引入数据集中预计将使任何预测更加困难。这在伯恩茅斯的预测中确实观察到了这一点。GRU的平均性能与无人工制品的行程相比降低了2.5米。值得注意的是，LSTM的性能并没有显著下降，保持在63.9 m（图1）。5（a））。在雷丁也观察到类似的结果，其中GRU的平均误差增加了5米。有趣的是，LSTM的平均误差减少了2m。6.3. 在开始和结束在旅程开始和结束时引入重复确实对预测性能产生了强烈的影响。对于GRU和LSTM，伯恩茅斯的平均预测误差分别增加了5米和2米。在Reading中，GRU预测急剧恶化了24米，而LSTM没有受到影响，仍然保持在47.8米（图2）。5）。这是LSTM的直观反应，由于它能够忘记不相关的信息，因此能够专注于与下一步预测相关的数据6.4. 使用混合数据改进预测所描述的混合数据集用于证明可能的应用。作为一种直觉，人们认为，增加合成数据，这是更干净，不受不可控的文物，应改善整体预测。然而，当沿着轨迹使用无约束预测时，这不会被观察到，并且在纯合成或混合数据上训练的模型表现更差关于对真实数据的推断（图）5）。然而，如果如4.4节所述，预测被强制向前，情况就不是这样了。如果预测空间是有限的，则推理精度的提高在真实世界数据集上训练的网络的性能可以在纯合成和混合数据集中观察到。如果使用混合数据进行训练，则可以观察到最大的改进（图1）。5（b））。6.5. 结果讨论这项研究的结果表明，添加合成数据可以改善预测算法，这些算法存在数据质量问题。合成数据的使用在许多环境中使用[43]，例如医疗保健环境以保护隐私[44]，但也用于评估算法，例如特征选择方法，其中特征控制很重要[45]。一些作者还使用合成数据来估计预测算法的理论上限[46]。由真实数据和合成数据组成的混合数据集的生成不太常见，但存在计算机视觉[47]或严重不平衡数据的分类问题[48]。此外，一些研究使用合成数据来增强小型数据集，例如改进流行病数据集和相关的机器学习模型[49]。公共交通领域的例子很少，主要集中在优化交通网络，特别是公交线路，以尽量减少延误[50然而，一般来说，知识差距似乎阻止了模拟数据与机器学习算法的结合[53]，这可能有利于改善许多领域，特别是在公共交通研究中。这项研究证明了使用这种混合数据集来提高预测质量。此外，它突出了我们以前注意到的框架的缺乏[54]。由于类似的研究旨在解决不同的问题，因此不可能将本研究的预测准确性与更广泛的文献进行比较。其原因是，关于短期预测的研究重点集中在>5分钟的时间范围[55，56]或定义为距离，而不是[57 ]第57话时间。在文献中可以找到更短的预测范围，但其目的是预测不同的指标，例如速度[58]或消除总线聚束[59]。据作者所知，文献中没有预测城市公共汽车在超短预测范围内的位置的例子，因此无法与其他研究进行比较。此外，本研究并未声称预测优效性，但证明了使用混合T. Reich等人软计算快报3（2021）1000298图五. (a)两个城市以及每个数据集和网络架构组合的箱形图。很明显，阅读的表现要好得多，可以观察到随着伪影的引入而预期的恶化。（b）顶部：箱线图，显示无约束网络的误差范围（以米为单位），灰色框显示了一个以真实数据为参考训练的网络。红色框显示合成或混合数据集的保留部分的错误，橙色框显示推断真实数据集上的错误。（b）底部：箱形图显示了强制前向网络的误差范围（以米为单位），灰色框显示了在真实数据上训练的网络，参考深蓝色框显示合成或混合数据集的保留部分的错误，浅蓝色框显示真实数据集的推理错误。(For对于图中颜色的解释，请读者参考本文的网络版本数据可以提高预测精度。这些知识将是有价值的公共交通研究人员，可以应用于任何预测问题以及任何模型架构，以推动可用数据的限制。7. 结论使公共交通尽可能方便的重要性是不言而喻的，可以帮助增加乘客人数，减少城市拥挤和污染。对当前车辆位置和到达时间的可靠预测在这一努力中起着至关重要的作用。然而，由于缺乏可靠的数据，这使得任何这样的算法开发都很困难。因此，所描述的生成真实旅程的方法在低质量可记录数据和真实世界之间建立了桥梁。因此，它是一个在模拟和受控环境中开发算法的平台，这些算法可以在以后部署到真实世界的场景中。此外，该平台允许模拟用户指定的伪影，如通过重复位置或基于地理围栏的干扰所证明的。这项研究强调了城市公交网络数据的几个改进领域，以允许开发可靠的预测解决方案。最引人注目的观察是，伯恩茅斯的任何基于RNN的预测几乎都没有超过天真的基准。这是由于不同的路线形状和长度的同一条巴士线，使概括不可行。因此，从管理和软件开发的角度来看，可以建议线路形状应在线路之间标准化，或者线路基于其线路形状被细分。这将大大提高所收集数据的潜力，并有助于开发基于数据的软件解决方案。第二个观察结果是，如果数据尽可能干净，预测性能可以提高。这意味着技术提供商需要合作，以确保整体公共交通的最佳结果。虽然确定到达停靠站的地理围栏方法是有用的，但某些系统产生的伪影确实对测试的预测算法具有负面影响。此外，车辆是否已经开始或结束行程的指示将有助于整体预测的准确性。两个示例城市之间的差异突出表明，如果需要准确的预测，就需要一个国家标准，普遍防止需要为每个城市和运营线路从头开始开发预测系统。这将是实现移动性即服务的一大步，并将使所有公共交通运营商受益。这项研究的局限性在于，由于缺乏高质量的数据，地面实况只能近似。然而，这也是进一步推进本研究和任何其他依赖公共交通数据的研究的证明方法背后的驱动力，未来研究应考虑以下要点• 制定标准化框架，以传输和记录公共交通数据。• 标准化路由模式的使用，以确保它们可用于数据驱动的应用程序。• 为城市公交网络中的在此期间，直到这样的标准化成为现实，我们这里描述的数据生成方法是一个很好的近似现实和一个有用的工具，在模拟城市公交网络的影响T. Reich等人软计算快报3（2021）1000299竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认本研究未收到外部资金引用[1]M.M.萨尔瓦多，M。Budka，T. Quay，使用深度学习进行自动交通网络匹配，Transp.Res.Proc.31（2016）（2018）67https://linkinghub.elsevier.com/retrieve/pii/http://dx.doi.org/[2]G.- J. Peek，M.范哈根，创造协同作用和周围的车站：三个战略，增加价值，交通。Res.Rec.J.Transp.Res.Board1793 （1）（2002 ）1http://dx.doi.org/10.3141/1793-01http://trrjournalonline.trb。org/doi/10.3141/1793-01。[3]英国交通部交通统计局2019年英国交通统计数据显示，英国交通统计代表，2019年，第10个。[4]商务部能源&工业战略，温室气体报告：转换因子2019，研究和分析（2019）网址https://www.gov 。uk/government/publications/greenhouse-gas-reporting-conversion-factors-2019.[5]R.G. Mishalani，M.M.交通部公共汽车研究所，交通运输与公共汽车研究，2001。9（2）（2006）89-http://dx.doi.org/10.5038/[6]T. Reich，M. Budka，D. Hulbert，数据质量和目标表示的影响关于城市公交网络的预测，在：2020年IEEE计算智能研讨会系列，SSCI 2020，IEEE，2020年，pp. 2843dx.doi.org/10.1109/SSCI47803.2020.9308166，URLhttps://ieeexplore.ieee.org/document/9308166/。[7]M. Hickman，Bus automatic vehicle location（AVL）systems，in：Assessing theBenefits and Costs of ITS，Kluwer Academic Publishers，Boston，2006，pp. 59 -http://link.springer.com/10. 1007/1-4020-7874-9_5。[8]Z. Junyou，W.番禺、W.舒峰，支持向量机在公交行程时间预测中的应用，国际系统工程杂志， 2 （ 1 ）（ 2018 ） 21 http://dx.doi.org/10 。11648/j.ijse.20180201.15，URLhttps://www.tandfonline.com/doi/full/10.1080/21680566.2017.1353449。[9] J. Li，J. Gao，Y. Yang，H.魏，基于混合模型的公交车到站时间预测，中国交通。14（5）（2017）38 http://dx.doi.org/10.1109/CC。2

下载后可阅读完整内容，剩余1页未读，立即下载