没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报通过从合成数据Saleh Basalamaha,b,Sultan Daud Khanb,c,Emad Felembana,b,Atif Naseera,b,Faizan Ur Bazarmanb,d,a沙特阿拉伯麦加乌姆库拉大学b沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学巴基斯坦伊斯兰堡国立科技大学dFirstCity,沙特阿拉伯麦加阿提奇莱因福奥文章历史记录:2022年4月9日收到2022年10月10日修订2022年11月11日接受2022年11月23日在线提供关键词:拥塞检测综合轨迹域自适应人群分析A B S T R A C T公共场所的拥挤是公共交通系统中的主要问题之一,并导致通勤者的高度不适。传统上,过度拥挤是通过手动监测和分析来自监控摄像机的视频流来检测的,这可能由于有限的人类活动而导致错误。另一方面,当前用于自动拥塞检测的机器学习模型需要大量的标记数据来训练网络。这些模型存在过拟合问题,不能推广到新的场景。首先,我们提出了一种新的合成数据集的拥挤检测在公共场所,以解决这些问题。其次,我们提出了一个双向长短期记忆(Bi-LSTM)模型,该模型利用合成数据集来提高拥塞检测的性能。我们采用了一种域自适应策略,通过在合成数据集上预训练模型,然后在真实数据上微调模型,来弥合真实数据和合成数据之间的差距。从实验结果中,我们观察到,在合成数据集上训练后,所提出的框架在真实数据集上实现了显着的性能提升©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着城市地区人口的增加,大多数人乘火车上下班。火车站被认为是铁路运输系统的重要基础设施,因为它们提供了将乘客从一个地方转移到另一个地方的手段。过度拥挤导致人群拥挤,通常在火车站观察到(山崎和浅田,2006年)。造成火车站过度拥挤的因素包括站台的物理布局和尺寸、到达和离开的时间、乘客冲突区域、客流的快速增长以及系统延迟。过度拥挤导致乘客感到不适,与其他乘客接近引起的压力和焦虑有关。已经发现*通讯作者:FirstCity,麦加,沙特阿拉伯.电子邮件地址:f. firstcity.ai(F.U. Escherman)。沙特国王大学负责同行审查Handte等人(2014年)指出,许多乘客选择交通服务是基于舒适程度,而不是交通时间。此外,过度拥挤可能对公共安全构成严重威胁。例如,Yang等人(2016)的一项研究表明,在拥塞期间发生了不同的事件,包括技术故障、异常活动和其他安全崩溃。Guo等人(2019)等其他研究显示,在火车站疏散行人期间,由于几次人为或自然灾害,造成了许多伤亡。这是 因为 过度 拥 挤被 认为 是 公共 交通 服 务的 主要 问 题之 一(Lo 和Velastin,2001年)。因此,评价人群拥挤程度是城市轨道交通系统的关键。评估火车站的拥挤程度将使铁路管理部门能够制定相应的战略,以改善公共安全和安保,并为了解行人的分层水平提供支持。监控摄像头安装在不同的站台位置,以了解人群动态并检测火车站的拥挤情况。安全人员通过分析实时视频流和识别潜在威胁来监控火车站。对大量视频数据的这种人工分析是一项费力的工作。此外,由于人力资源https://doi.org/10.1016/j.jksuci.2022.11.0051319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS. 巴萨拉马汗,E。Felemban等人沙特国王大学学报103能够观看和分析不同的视频流超过十个小时(Lo和Velastin,2001年)。在文献中提出了几种模拟模型来理解火车站的拥挤和过度拥挤的动态(Yamazaki和Asada,2006; King等人,2014; Kabalan等人,2017年)。其他模型使用流行的社会力量模型和细胞自动机来理解微观层面的人群动态。最近,Yoo等人(2020)提出了一种通过控制乘客流量来控制过度拥挤的模型。该模型降低了自动售检票(AFC)闸机的速度,以限制站台上的乘客数量。虽然这些模拟模型有助于带来基础设施的变化,以方便行人,但这些模型存在以下两个局限性。(1)模拟模型基于实验数据,不包含实时数据。(2)这些模型总是需要根据实时数据进行适当的校准和验证。由于上述问题,这些模型不能用于实时测量拥塞或过度拥挤。由于模拟模型中存在上述问题,另一种方法是采用计算机视觉和深度学习技术来自动测量火车站的拥挤程度 为了评估拥堵,研究人员提出了不同的深度模型来估计人群密度(Zhang et al.,2020年;Zhu等人,2020; Ding等人,#20201;,人群中。然而,我们观察到,由于行人的不可预测的行为,火车站的拥堵不能仅仅使用人群计数来衡量。此 外 , 用 于 自 动 拥 塞 检 测 的 机 器 学 习 模 型 ( Khan , 2019;Felemban等人, 2021)需要大量高质量的标记数据来有效地训练模型。然而,这些模型不能推广到新的场景,因为这些模型是在有限的数据量上训练的。此外,在有限的数据上训练深度学习模型会导致过度拟合。收集描绘照明条件、纹理、外观和人群密度的变化的大量数据是一项艰巨且耗时的工作。本文首先提出了一种新的合成数据集在公共场所的拥堵检测解决上述问题。其次,我们提出了一个新的框架来衡量在火车站的拥挤程度该框架将视频序列作为输入,并将视频划分为多个重叠的时间段。然后,该框架从场景中提取点然后,我们提取区分特征,速度,长度和方向,以捕获每个轨迹的行为。然后,我们采用双向长短期记忆(LSTM)模型将每个轨迹分为两类,即,充血或正常。通过用轨迹的对应分类分数编码轨迹来生成分数图非最大值抑制方法抑制低分数轨迹并获得拥塞区域。拥塞区域的面积与总前景面积的比率给出拥塞水平。拟议工作的贡献如下:1. 与以前的方法,依赖于人群计数来衡量拥挤,所提出的方法使用运动信息来检测拥挤。2. 所提出的框架从轨迹中提取区分特征,并采用深度双向LSTM进行轨迹分类。3. 我们构建和创建自己的各种场景的合成数据集来训练网络。4. 我们在合成数据集上训练了模型,并通过实验表明,在真实数据上可以实现有希望的验证精度这进一步验证了所提出的合成数据集可以用于拥塞检测。论文的其余部分组织如下:相关工作在第2节中介绍。问题陈述在第3节中定义,第4节介绍了拥塞检测的建议方法。第5节讨论了实验取得的结果。最后,第6节结束了本文。2. 相关工作在本节中,我们将回顾人群中拥塞检测的自动化方法。我们将这些方法分为以下几类:2.1. 使用智能电话的智能手机变得越来越强大,在过去几年中,它们的使用量大大增加。大多数现有的方法使用智能手机来测量由于智能手机的功率和普及而导致的拥塞水平。例如,CrowdMeter(Elhamshary等人,2018年)使用智能手机数据自动测量火车站的拥堵程度。该方法跟踪站中的每个人,并利用所获取的传感器数据来测量实时拥塞。在Kannan等人(2012)中,提出了基于移动设备的人群计数系统。该方法使用来自移动设备的麦克风和扬声器的音频音调来估计人群 在KjJerrgaard et al. ( 2012),数据融合策略是亲,它将从多个传感器(如指南针、加速度计和WiFi)获得的数据结合起来,以检测行人群。类似地,Chon等人(2014)通过探测移动设备的帧来识别唯一MAC地址,从而使用WiFi信号来估计人群计数。Liu etal.(2017)提出了一个基于深度学习的框架WiCount,它可以推断使用WiFi信号的人数。不同的融合技术已在Zhang等人(2020)中成功应用,例如分割和对象检测(Chu等人,2018)的任务。基于智能手机的拥塞检测的局限性:虽然上述方法在低密度人群中工作良好,但是当应用于拥挤场景时,性能会下降。这可能归因于以下原因:(1)这些方法取决于活动的蓝牙和WiFi启用的移动设备的数量,并且不能将蓝牙和WiFi禁用的设备纳入最终计数中。(2)蓝牙技术的另一个问题是发现其他附近设备的时间延长,并且在行人在火车站连续移动的特定情况下可能损害系统的性能(Elhamshary等人, 2018年)。2.2. 基于计算机视觉的由于前面提到的使用移动传感器数据进行拥塞检测的问题,另一种最可行的解决方案是使用计算机视觉并采用深度学习技术来测量拥塞水平。Lo和Velastin(2001)提出了一种用于检测地下平台处的拥塞的自动系统,该系统使用多层前馈神经网络来对拥塞情况进行分类。类似地,在Krausz和Bauckhage(2011)中提出了一种基于光流计算的系统,其分析行人基于低级特征的类似系统,即,在Krausz和Bauckhage(2012)中提出了光流,用于人群中的自动拥塞检测。该方法首先计算输入视频序列的每两个连续帧之间的光流,然后计算方向和幅度计算的直方图为S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报104FG×FG在时间窗口上求平均,并计算幅度直方图的质心。基于定义的幅度阈值对拥塞进行分类。低幅度值表明人群停止移动,表示拥挤的情况。另一种方法(Huang等人,2010)使用速度熵特征来对拥塞进行分类。该方法首先通过使用Lucas-Kanade光流法跟踪后续帧来计算运动矢量(Bruhn等人,2005年)。然后,该方法通过测量运动矢量的大小和方向之间的离散度来对拥塞进行分类。Bek和Monari(2016)提出了另一种方法来检测视频中的拥塞。该方法使用KLT特征跟踪器(Zach等人,2008年)。然后,该方法使用轨道密度和局部惯性来检测拥塞。基于计算机视觉的拥塞检测的局限性:这些方法存在以下局限性:(1)只能对拥塞进行分类,不能对拥塞区域进行定位。(2)这些模型主要依赖于复杂手工特征的计算,不能学习拥塞的一般这些模型不能很好地表现在更复杂和多样化的情况。最近,Khan(2019)提出了一种新方法,通过从行人轨迹计算交通特征来检测复杂场景中的拥堵。该方法在不同场景下的拥挤位置识别中效果良好,但从轨迹中计算振荡特征是一个计算开销很大的过程。类似地,Felemban等人(2021)提出的另一种方法从视频片段中提取点轨迹,然后将每个轨迹转换为2-D图像。然后,作者使用轨迹图像训练CNN分类器,该分类器将输入图像分为两类,即,充血和正常。虽然该方法通过利用深度学习框架的潜力来对给定场景进行分类来解决了非线性模型的缺点,但该方法无法定位场景中的拥塞区域。从以上讨论中,我们得出结论,当前最先进的方法受到以下限制。1. 这些方法将数千个轨迹图像前馈到一个CNN来获得分类分数,导致高推理时间。2. 这些模型不能推广到不同的场景,因为模型是在有限的数据上训练的。3. 由于很少观察到拥塞情况,因此无法获取大量数据来训练深度神经网络。表1以汇总形式显示了文献综述3. 问题陈述和定义我们将视频中的拥塞检测问题描述为检测与正常模式显著不同的模式的任务(Agrawal和Agrawal,2015)。在这项工作中,我们证明了从拥挤的轨迹中提取的特征与正常轨迹有很大的不同,这是所提出的模型的基础。拥塞检测系统的目标是准确地识别和定位特定时间窗内的异常轨迹通常,拥塞检测的问题是在粗略的水平上理解视频,并过滤出与拥塞区域相对应的奇怪模式。在进入细节之前,必须正式定义原始和拥挤的定义1:(轨迹)。轨迹T = p1;p2;. 是点的序列(具有时间戳的空间位置)。 每个点pi由(x,y,t)表示,其中x和y是空间坐标在时间t沿着水平和垂直方向。 p1是初始值,p n 是弹道的最后位置。定义2:(拥挤的轨迹)。给定一组轨迹S =T1;T2;. 如果轨迹显著偏离训练数据中的正常轨迹,则将轨迹分类为拥塞轨迹。由于拥塞很少发生在现实生活中的视频,因此,所提出的方法通过双向长短期记忆网络(Bi-LSTM)学习轨迹之间的差异来检测拥塞。该方法从训练数据中学习正常和拥塞模式,并通过比较给定的轨迹,将给定的轨迹分类为拥塞/正常与学习到的模板轨迹进行比较4. 拟议方法本节讨论了一种通过分析从视频序列中提取的时空运动信息(以轨迹的形式)来进行视频拥塞检测的新方法一般来说,我们提出的方法遵循一个综合框架,包括以下步骤。拟议框架的概述如图1所示。(步骤-1)框架将视频作为输入,并将输入视频划分为几个大小相等的节奏段。通过粒子平流方法从每个时间段提取运动信息。(步骤2)针对在第一步骤期间获得的所有轨迹计算局部特征,例如形状、速度和距离。然后将这些局部特征连接成m n特征矩阵,其中m表示所使用的特征的数量,并且n表示每个特征的长度。(步骤3)训练双向长短期记忆(Bi-LSTM)模型以将轨迹分类为两个类别,即,充血/正常。(步骤-4)表1在人群拥塞检测中使用的方法作者拥塞检测方法应用方法Elhamshary等人(2018年)智能手机火车站传感器数据Kannan等人(2012年)智能手机巴士站麦克风和扬声器KjBerrgaard等人(2012年)智能手机多层建筑罗盘加速度计Chon等人(2014年)智能手机城市交通监控WiFi信号Liu & Lee(2017)智能手机房间里的人群深度学习03 The Dog(2001)计算机视觉地下平台多层前馈神经网络02 The Famous Women(2011)计算机视觉行人在人群光流05 The Dog(2012)计算机视觉行人在人群光流Huang等人(二零一零年)计算机视觉Love Parade灾难速度熵Bek和Monari(2016)计算机视觉户外人群航迹密度和局部惯性S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报105.ΣFig. 1.说明拟议框架的管道。该框架将原始轨迹作为输入,并计算方向,速度和长度等特征。然后,将特征集作为输入提供给由前向和后向LSTM层组成的双向LSTM网络。然后,这些层连接到一个公共激活层,然后是一个完全卷积和softmax层,以产生最终输出。然后用它们各自的分类分数对轨迹进行编码以获得分数图。非最大值抑制(NMS)被用来获得拥挤区域。我们讨论每个步骤的细节如下。4.1. 轨迹提取轨迹捕获局部运动信息,是表示视频的流行方式。这种视频表示在各种动作分类和识别任务中实现了最先进的性能可以通过多种方式从视频中提取轨迹,其中之一是使用点轮廓。点轨迹已被用于视频表示,并已成功地在各种动作识别任务,在最近几年。通常,点轨迹可以经由两种方法获得:(1)稀疏兴趣点(2)密集光流。在第一种方法中,显著特征,例如角点、边缘或SIFT描述符等,通过随后的视频序列帧被提取和跟踪。该方法可以在结构化人群中获得可靠和准确的轨迹。在结构化的人群中,许多人一致地朝着一个稳定的方向移动,并且方向不会随着时间而改变,例如参加马拉松比赛的人或朝圣者在朝觐期间进行Tawaf。然而,在这方面,在非结构化人群中获得的轨迹通常是不可靠的网格并跟踪后续帧中的点。理想情况下,网格x大小等于帧的输入大小。然而,我们观察到,这种密集的视频表示会导致很大的计算复杂性。因此,我们通过使用步长a来减小网格大小。具体来说,我们在步长a之后采样点。让表示帧t处的点。使用以下等式,我们跟踪下一帧t1中的点pt。pt1x;yvωM1其中Mf是中值滤波器,u和v分别表示水平和垂直位移。点pt使用等式(1)通过后续帧跟踪。1并连接以形成轨迹。 设xp<$p t;p t<$1;.. . 是通过n个帧跟踪的点轨迹。从实验研究中,我们观察到一些错误的轨迹也产生在跟踪过程中。这些轨迹属于游荡和其他随机飞行-行人的眼睛。这些轨迹通常很短,对拥塞检测过程没有贡献。为了修剪这些轨迹,我们通过计算初始位置和最终位置的欧几里得距离来计算所有轨迹的长度,如以下等式所示。1也不够 第二种方法通过以下方式获得密集轨迹:使用低级运动跟踪采样点信息,即,pt;pt nqxt-1-xtyt1-y t2ð2Þ光流场在光流场的相邻点之间施加全局光滑性约束,以获得可靠的光流场。通过这种方法获得的轨迹是鲁棒的,并提供了全场景覆盖,由于密集的样本点。为了获得密集的轨迹,我们首先使用Yang和Li(2015)中的方法计算时间段的每两个连续帧之间的光流。在计算光流之后,我们在时间段的初始帧上覆盖点的均匀网格x。然后,我们从然后,我们定义一个阈值k,并删除所有长度小于k的轨迹。在所有实验中,我们使用k=2。在跟踪过程中经常观察到的另一个问题是,两个不同流的边界处的轨迹从原始路径漂移,并成为其他运动轨迹的一部分。为了解决这个问题,我们将跟踪过程的持续时间限制为N帧。如果轨迹持续时间达到N帧,则停止跟踪过程。我们通过验证计算N的值,并将其值固定为10帧。--S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报1061/4fg.Σ.ΣP1/4fg^^^-1/4fg不t1不t1n-11/14.2. 特征提取给定在前一步骤中获得的轨迹的训练集,我们从轨迹中提取用于轨迹分类的低级特征。设Xx1; x2;. ; xk表示通过前一节中讨论的跟踪过程获得的轨迹。我们首先需要在轨迹分类问题中对类进行分类并标记轨迹来训练网络。基于轨迹的分析和分类已成功地应用于许多分类和识别任务中。例如,Dabiri等人(2020)提出了一种深度轨迹分类模型,用于基于GPS轨迹数据对车辆进行分类。Song等人(2018)使用递归神经网络(RNN)来检测异常轨迹。通常,轨迹分类方法包括两个步骤。(1)它从轨迹中提取可用于训练模型的区别特征。在大多数情况下,最具区分力的特征是平均速度、长度、持续时间、相位、熵等。然而,特征的区分力取决于预期的类类型。例如,如果类别类型是异常的,则轨迹的速度、长度和相位比熵、距离和持续时间具有更大的辨别力。(2)在从轨迹中提取特征之后,第二步是使用能够学习那些区分特征的适当分类模型。在这项研究中,我们从获得的轨迹中提取以下特征:1. 弹道瞬时方向如图3(a)所示,大量行人通过狭窄的路径。轨迹的长度和速度图如图3(b)和(c)所示。弹道的瞬时速度。 宏观变量,如速度、密度和流量,用于理解和评估行人设施的性能(Vanumu等人,2017年)。一般来说,这些宏观变量构成了基本图的基础,该基本图可用于理解速度、密度和流量之间的关系,以评估各种基础设施,如走廊、瓶颈、T型交叉口、楼梯和自动扶梯。行人步行速度是了解和评价步行设施通行能力的重要宏观变量。行人的速度主要受周围环境和人群密度的影响。例如,与拥堵区域相比,低密度情况下的行人以正常(期望)速度行走。在拥挤的地区,行人在一个限制的环境中相互靠近,降低了流速。在天津进行的一系列实验等人(2011)揭示了瓶颈情况通常导致车道形成现象。Zhang和Seyfried(2013)经验性地证明,长瓶颈与相对短的瓶颈相比,可降低流速。由于速度的鉴别能力,我们计算轨迹的瞬时速度如下:设xp¼p t;p t1;. ;pt-n是一个轨迹。让pt和pt1表示-发送了两个连续的轨迹点我们计算即时-2. 弹道瞬时速度3. 弹道长度瞬时速度sasqx-x2。你好,我是说,你好,我是说,你好。然后我们计算轨迹的瞬时方向高密度人群中的行人,密度水平达到每平方米11人(2014年),无法以正常速度行进一般来说,人群密度在以下情况下会增加(Khan,2019)。(1)当许多行人从狭窄的出口离开时。这种情况通常发生在火车站或参加活动后离开体育场的人身上(2)当一个障碍物阻碍了大量人员的移动时。在这些情况下,行人彼此非常接近,无法以所需的速度自由移动。这种情况导致拥塞。在拥堵期间,行人来回移动以保持平衡,从而产生相应轨迹的波动。在Liu等人(2009)中,这些波动被称为横向振荡。然而,在正常情况下,行人这种现象如图1B所示。 二、从该图中可以明显看出,观察到行人的平均运动方向有很大的变化为了对这些特征进行建模,我们使用圆形工具箱(Berens等人, 2009)来计算给定轨迹的平均方向Um。让 xp¼p t;p t1;. ;p t-n .我们第一计算轨迹x的每个点的瞬时运动方向i.设U1/4 h1; h2;.. . ; hn-1表示瞬时运动方向,其中h在两个连续点p t之间 p t1弹道计算为tan-1yt1-yt。我们计算出xt1-xt轨迹为1n-1 hi. 然后我们计算圆周距离瞬时速度F ss1;s2;. ;sn-1的轨迹。弹道长度。是了解拥挤区域动态的重要变量。人群的密度也会影响轨迹的长度。从实证研究中,我们观察到属于拥挤区域(高密度)的行人轨迹的长度由于在高密度的人群中,行人被困在人群中,找不到出路。因此,产生较短的轨迹。我们使用轨迹长度作为拥塞检测的特征之一轨迹xi的长度Fl被计算为每两个连续点之间的欧几里得距离,即,p t和轨迹的p-t 1。 让Fll1;l2;. ;ln-1表示n的归一化长度1给定轨迹的点。为了证明速度和轨迹长度的区分能力,我们计算所有轨迹的平均速度和长度。然后,我们在图6中使用其对应的平均速度和长度值对每个轨迹进行编码。图6(b)示出了长度图,其中根据不同的颜色对轨迹进行编码。平均长度。具有较大长度的轨迹更呈红色,代表正常的行人流量,而以蓝色编码的轨迹相对较短,属于拥挤区域。类似地,图6(c)示出了速度图,其中根据它们的平均速度以不同的颜色对射束进行编码。高速轨迹用红色编码,表示行人以期望的速度移动;用蓝色编码的轨迹相对较慢,因为行人被困在一个拥挤的区域,不能以他们想要的速度移动。无花果-在平均方向Um和瞬时运动方向轨迹的hi 这给出了特征向量Fh#1; #2;. ; #n-1,长度为n1,其从其平均运动方向编码给定轨迹的运动方向的分布。 我们观察到,拥塞轨迹中的数据传播显示出许多变化,而正常轨迹中的数据传播显示出均匀的趋势。图3示出了速度和长度特征的可视化,其中,结果表明,拥挤区域的轨迹长度比正常区域短。它验证了行人在拥挤的区域产生较短的轨迹,由于自由空间的不可用性。此外,它还说明了在拥挤的区域中的轨迹的速度低于在正常区域。我们以以下矩阵形式连接特征向量Fh;Fm;Fl我S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报107图二.说明行人在正常和拥堵情况下的行为。(a)表示正常的轨迹。(b)显示了正常轨迹的圆形直方图。(c)示出了拥塞轨迹的样本,以及(d)示出了拥塞轨迹的圆形直方图(a)中的正常轨迹显示了行人的均匀流动拥挤的轨迹遵循之字形路径,其中行人在拥挤期间来回移动,这也由圆形直方图中的任意方向来说明图三.说明速度和长度特征的可视化。(a)显示了模拟视频中的示例帧,其中大量行人通过狭窄的路径离开。用红色标记的区域表示拥挤区域,而用绿色标记的区域表示正常区域。(b)和(c)分别示出轨迹的长度和速度图S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报108不¼f1/4fg.0B1C#1a#2···#n-1s1s2···sn-1l1l2···ln-11/4B。..CB@CA其中X是用于训练的特征矩阵,包含m个样本。4.3. 双向LSTM长短期记忆(LSTM)是一种特殊类型的深度学习模型,已成功应用于各种分类和时间序列预测问题。最近,Irfan等人(2021)提出了长期学习技术,其中基于LCS和CNN提出了一种基于代码片段的终身学习模型,用于水下数据分类。同样。Irfan等人(2022)提出了一种基于卷积自动编码器的学习分类器系统,该系统使用代码片段和卷积自动编码器从彩色图像中提取非平凡的空间定位特征。Schuster和Paliwal(1997)提出了一种称为双向LSTM的LSTM改进版本,该版本提高了模型在序列数据的各种分类任务中的性能,例如,运输模型的分类(Liu和Lee,2017),ECG信号分类(Yildirim,2018),文本分类(Jang等人,2020)、Web服务分类(Ye等人,2019年)。Bi-LSTM的主要优点是模型学习长期时间依赖性,而不保留重复的上下文信息。Bi-LSTM的训练类似于单向LSTM,因为前向层和后向层的神经元彼此不连接。然而,在这方面,在反向传播阶段期间需要额外的处理,因为输入和输出层不是立即更新的。通常,Bi-LSTM的训练需要使用以下过程训练两个LSTM。Bi-LSTM以两种方式处理输入数据,(1)过去到未来,(2)未来到过去。让输入数据X对于时间段16t6T,提供作为Bi-LSTM网络同时实现Bi-LSTM的前向和后向层处理来自相反方向的输入数据,即,前向(对于时间t = 1至t = T)和反向(对于时间t = T至t = 1)(Ye等人,2019年)。然后,网络计算在时间步长t处的输出隐藏状态的总和,如等式2所示。1其中pi是轨迹i的地面实况标签,并且p^i是预测标签。5. 实验结果本节首先描述我们提出的用于训练网络的合成数据集然后,我们提出了一个全面的abla- tion研究看不见的真实和合成视频中的拥塞检测。最后,我们比较了所提出的框架与其他国家的最先进的方法的性能。5.1. 数据集和注释我们描述了我们的数据集生成的不同场景,以帮助在许多大规模聚集的事件,如奥运会,大壶节,朝觐的拥塞检测问题。奥运会和大壶节是一个月以上的活动,数百万游客参观,但不是同时进行。另一方面,朝觐是一年一度的活动,来自不同国家的数百万朝圣者聚集在沙特阿拉伯的麦加,进行时空仪式,即,在限定的时间和空间内。朝圣者停留五天的地区之一被称为米娜,被称为帐篷之城。在停留期间,数百万朝圣者需要进行石刑仪式,这需要使用火车或行人往返于Jamarat建筑。米纳的基础设施是帐篷和道路的组合,如图4所示。数以百万计的贫民使用这个复杂的米纳基础设施去火车站和贾马拉建筑。为了确保朝圣者的安全,沙特阿拉伯当局在这个复杂的道路网络中制定了流动计划,其中包括直线,曲线,Y形交叉口,T形交叉口,上坡,下坡以及不同大小的宽度和长度。由于这种复杂区域的真实数据集有限,因此训练模型或使用任何现有模型都具有挑战性。为了复制实际场景,我们生成了使用相同的Mina基础设施,包括帐篷门、多条走廊的道路的纹理、长度和宽度,开发不同的场景来帮助拥堵检测问题该数据集由5个不同的场景组成,每个场景都包含具有相应像素地面实况注释的照片级逼真帧。这些场景是从不同的相机视点捕捉的,具有额外的照明和纹理,考虑到mina道路网络的性质。这些场景是使用Revit Autodesk结构和建筑工具从虚拟环境中渲染的,以生成3D结构。!←True和Blender工具来生成附近的环境。然后我们ytw1ytw2ytb3其中w1和w2是前向和后向LSTM层的权重,yt 是前向LSTM层的输出,y←是后向LSTM层的输出,b是偏置。然后,网络的输出状态被级联并作为输入提供给全连接层(FC),如等式(1)所示。四、Fs Yy:Wb4其中Y y1;y2;.. . 是输出状态的向量,F是Sigmoid激活函数,s表示输出的大小,W是权重,b是偏置。 在FC层之后,softmax层被连接以生成轨迹的概率。 给定轨迹Xx1; x2;.的训练数据集。;xk,我们通过优化以下交叉熵损失方程来训练网络。5如Song et al. (2018年)。将文件(FXB格式)导入MassMotion Simulation工具1. MassMotion工具为火车站、购物中心、机场等建模提供了一个环境,行人在物理空间中移动,这有助于我们了解人们的行为。MassMotion由Arup内部开发,广泛用于人群和行人模拟。通常,在所有场景中,我们模拟10000个代理。我们简要描述每个sce- nario如下:1. 场景-1:直线走廊:场景-1使用15米宽、100米长的直线走廊进行记录,然后使用“质量运动”模拟场景。有七个来源的代理人来自哪里,并向走廊移动。该视频已被捕获与流动的10000代理人通过直走廊2. 场景2:平滑曲线道路:记录使用Revit Autodesk Structural和architectural工具。我们XK H.^L¼1/1[pilogp^i1-pilog1-pi]ð5Þ1https://www.arup.com/expertise/services/digital/massmotion。X... ..#m;1#m;2·· ·#m;n-1sm;1slm;1lm;2···m;2···sm;n-1lm;n-1S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报109N图四、Mina的基础设施可视化,包括帐篷和道路。设计了一条宽15米、长100米的平滑曲线走廊,然后使用群体运动仿真工具,将10000个智能体运行到其中,智能体从七个源出发,向走廊移动。该视频是在10000名特工通过一条光滑的弯曲走廊时拍摄的3. 场景3:开放-紧密-开放道路:场景3已被捕获,以考虑道路宽度在起点和终点大于中间部分的情况。当人们从一条主要街道走到另一条主要街道时,情况就是这样次要街道的宽度小于主要街道。我们设计了开放-导入3D文件到质量运动模拟工具后,我们已经运行了10000个代理。一共有七个来源,从那里代理人起源和移动到corridor。该视频已被捕获与流动的10000代理人通过一个开放-紧密-开放的走廊。4. 场景4:交叉口走廊:在场景4和场景5中,人们从各种次要街道并入主要街道。场景-5的设计宽度为10米,走廊总长度为150米,其中包括100米的直线走廊和50米与主走廊相连的走廊稍后,将3D文件导入到质量运动工具中,以运行10000个代理的模拟5. 场景5:多交叉点道路:场景5是主道路与两条不同长度的辅助道路连接它的设计宽度为15米,总长度为175米,包括100米的主走廊,25米和50米两个相连的副走廊。稍后,将3D文件导入到质量运动工具中,以运行10000个代理的模拟。不同场景的样本帧如图所示。 五、在生成上述场景的视频序列之后,下一步是注释用于训练网络的数据。为了全面分析所提出的框架的性能,我们从两个方面对网络进行评估。我们首先评估网络对给定轨迹集进行分类的准确性。在下一步中,我们评估网络如何定位拥塞位置。为此,我们执行两种类型的注释:(1)自动级注释和(2)逐像素注释。我们使用语义级注释来评估网络我们提供了每个注释策略的详细信息,如下所示:5.1.1. 轨迹级标注注释轨迹的经典方法是通过几个帧手动跟踪每个个体并分配标签。这种注释方式通常适用于包含有限数量人员的场景然而,这种注释在我们的情况下是不可能的或者,我们可以采用无监督聚类方法,根据相似性特征将轨迹分为不同的类别。这一策略已被Felemban等人采用。(2021年)。该策略显著地最小化了手动标记的成本;然而,它导致需要进一步改进的错误。我们的自动化水平注释策略与Felemban等人(2021)采用的策略不同,我们首先计算所有轨迹的振荡特征(Khan,2019),然后使用k均值聚类算法对相似轨迹进行聚类在我们的例子中,由于我们有两个类,即,正常和拥塞,因此,我们将k的值设置为2。聚类后,我们观察到一些正常的轨迹落入 拥挤 的 类。 为 了 解决 这个 问 题, 我 们 使用 t-SNE ( Van derMaaten andHinton,2008)来进一步细化注释。我们可以将高维数据投影到二维地图中,并更好地可视化低维空间中遥远的相似轨迹5.1.2. 逐像素注释在这种注释策略中,我们标记图像的每个像素。这种注释策略用于图像分割问题。通常,在我们的情况下,我们将视频的每个帧分割成两个片段,即,我们使用Ratsnake(Iakovidis等人, 2014)图像注释工具,因为它允许半自动分割并且可以注释图像序列。我们遵循Khan(2019)中采用的注释合成视频的策略。我们要求编码器手动分析每个合成图像序列,并使用Ratsnake工具注释每个视频序列在注释之后,我们通过所有编码器识别的注释区域的联合来生成初始我们观察到一个足够的水平的分歧之间的编码器在决定拥塞区域。因此,我们不是给每个像素分配一个固定的标签,而是给图像像素分配一个(编码器之间)一致性的平均令R是所有编码器标识的注释区域的并集。我们将R的平均值分配给每个像素,其中N是参与注释过程的编码器的总数然后,我们在为所有图像像素分配平均值后获得最终的注释图该图示出了注释图,其中红色像素越多表示编码器之间的一致性水平越高,而蓝色像素表示编码器之间的一致性水平越低。在生成注释数据之后,下一步是对正样本和负样本进行采样以训练网络。我们在训练过程中从单个图像中生成一小批拥挤和正常的轨迹。我们观察到,正常的轨迹是显着大于拥挤的轨迹在采样。这会导致类不平衡问题,使网络偏向正常轨迹而不是拥塞轨迹,从而导致网络的泛化能力差。我们解决这个问题,通过产生一个小批量的固定大小(500在我们的情况下),随机选择正常和拥挤的样本与平衡的比例为1:1。S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报110图五、来自合成数据集的不同样本帧的可视化第一行显示来自场景1的样本帧,第二行显示来自场景2的样本帧,而第三、第四和第五行分别显示来自场景3、场景4和场景5的样本帧接下来,我们使用Khan(2019)中的合成数据集和真实数据集来评估所提出的框架的性能,并使用相同的评估指标。与Khan(2019)类似,我们将评估过程分为两个步骤。在第一步中,我们评估所提出的框架的分类性能,并在第二阶段,我们评估的框架的本地化性能。对于分类性能,我们使用检测精度(DA)和错过率(MR)。为了评估定位精度,我们使用定位精度(LA)。5.2. 消融研究我们首先在合成数据集上评估所提出的方法以执行消融研究。我们在合成数据的标签上训练网络,并在测试集上测试训练好的模型换句话说,我们使用合成数据集作为我们的源和目标域。我们使用所有的合成视频序列来生成训练和测试数据。我们从每个合成视频序列中保留60%的数据用于训练,40%用于该实验的结果报告在表2中。该表显示,在合成数据集上训练的网络在分类S. 巴萨拉马汗,E。Felemban等人沙特国王大学学报111××X.XBbK见图6。轨迹和像素注释的可视化。(a)显示模拟视频中的示例帧。(b)显示轨迹注释的示例,其中红色表示拥塞轨迹,绿色表示正常轨迹。(c)它显示了一个逐像素注释的示例帧,其中更多的红色像素表示潜在的拥挤像素。表2建议的框架在合成数据集上的性能。分类性能本地化性能检测精度漏检率定位精度情景10.930.170.85情景20.850.220.79情景30.940.150.87情景40.870.240.81情景50.960.130.89情景60.920.200.86拥挤的和正常的轨道。该框架在大多数合成视频序列中平均达到90%的检测准确率。网络在对拥塞和正常轨迹进行分类时的高精度证明了我们提出的合成数据集。图7示出了来自合成视频序列的随机样本帧的可视化。该图表明,所提出的框架有效地定位了不同合成视频中的拥塞位置。由于这项工作旨在证明合成数据在改善现实世界中的拥塞检测方面的有效性,我们进行了另一组实验,首先在合成数据上训练网络,然后在Khan(2019)提出的真实数据集上测试网络。Khan(2019)中的数据集由15个视频序列组成我们进行了两组实验。在第一个实验中,我们采用了无域自适应策略,在那里我们在合成数据集上训练模型,然后直接在真实数据集上测试了模型。 在第二次实验中-这些特征和模式与真实世界的数据王等人(2019)。该实验在合成数据集上预先训练了设计,然后使用真实数据集对模型进行了微调。我们在表4中报告了该实验的结果。该实验表明,微调模型(在合成数据集上进行预训练)的性能优于仅在合成数据集上训练的模型。图8示出了不同真实世界视频中的拥塞检测的可视化。接下来,我们将所提出的框架与真实数据集上的其他最先进的方法进行比较。在这个实验中,为了公平比较,我们在真实数据集上从头开始训练网络,然后比较真实数据集上的性能。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功