大规模网络摄像机数据中的交通密度研究

18 浏览量更新于2023-10-16 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从大规模网络摄像机数据Shanghang Zhang<$，Zhou，GuanhangWu<$，JoaJingoP.科斯泰尔来了乔。F. Moura†美国宾夕法尼亚州匹兹堡卡内基梅隆大学ISISR-IST，Universidade de Lisboa，Lisboa，葡萄牙{shanghaz，guanhanw}@ andrew.cmu.edu，jpc@isr.ist.utl.pt，moura@andrew.cmu.edu摘要从大规模网络摄像头视频中了解交通密度是一个具有挑战性的问题，因为这类视频具有低空间和时间分辨率、高遮挡和大视角。为了深入了解流量密度，我们探索了基于优化和基于深度学习的方法。为了避免单个车辆检测或跟踪，这两种方法都将密集图像特征映射到车辆密度，一种基于秩约束回归，另一种基于全卷积网络（FCN）。基于回归的方法为图像的不同块学习不同的权重来嵌入道路几何形状，并显着减少由相机视角引起的误差。基于FCN的方法利用残差学习框架联合估计车辆密度和车辆计数，以执行端到端密集预测，允许任意图像分辨率，并适应不同的车辆尺度和视角。我们对这两种方法进行了分析和比较，并从基于优化的方法中获得了改进深度模型的见解由于现有的数据集并不能涵盖我们工作中的所有挑战，我们收集并标记了一个大规模的交通视频数据集，包含来自212个网络摄像头的6000万帧。这两种方法在不同的计数任务和数据集上进行了广泛的评估和比较在公共数据集TRAN- COS上，与最先进的基线相比，基于FCN的方法将平均绝对误差（MAE）从10.99显著降低到5.311. 介绍交通拥堵导致需要深入了解交通密度，交通密度与平均车速一起构成交通流分析的主要组成部分[27]。交通密度是指每单位长度道路上的车辆数量（例如，[19 ]第19话。针对低分辨率、低帧率、高遮挡、大视角的网络摄像头视频，研究了交通流密度估计问题。如图1所示，我们在视频流中选择一个感兴趣的区域（黄色虚线矩形），并计算该区域中的车辆数量，图1. 问题陈述每一帧然后，交通密度是由该数字除以区域长度计算。如今，许多城市都安装了监控摄像头。然而，由于网络带宽限制，缺乏持久存储和隐私问题[11]，这些视频提出了几个分析挑战（如图1所示）：（i）低帧速率。网络摄像头视频的两个连续帧之间的时间间隔通常在1s到3s的范围内，导致大的车辆位移。 (ii)低分辨率。网络的分辨率摄像头视频是352×240。一帧顶部的车辆可以小到5×5像素。图像压缩也会导致伪影。 (iii)高度闭塞。市区安装的摄影机十字路口通常捕获具有高交通拥堵的视频，尤其是在高峰时段。(iv)大视角。摄像头安装在高点，以捕捉更多的视频内容，从而产生具有大视角的视频。车辆的比例根据它们到相机的距离而变化很大。这些挑战使得现有的交通密度估计工作具有很大的局限性。1.1. 相关作品的限制文献中已经开发了几种流量密度估计技术，但由于上述挑战，它们在网络摄像头数据上的表现不太准确：基于检测的方法。这些方法[38，29]试图在每个帧中识别和定位车辆。它们在低分辨率和高遮挡视频中表现不佳。图158985899BΣΣ12B显示了Faster RCNN的检测结果[26]。即使在我们收集和注释的网络摄像头数据集上训练，它仍然表现出非常高的缺失率。基于运动的方法几种方法[8，9，23]使用车辆跟踪来估计交通流量。这些方法往往失败，由于低帧速率和缺乏运动信息。图1示出了车辆的大排量（黑色汽车）在连续的帧中由于低帧速率。有些车辆在视频中只出现一次，无法很好地估计它们的轨迹。整体方法。这些技术[33]对整个图像进行分析，从而避免对每个对象进行分割。[15]使用了一个动态纹理模型，时空Gabor滤波器用于将交通视频分类为不同的拥堵类型，但它不能提供准确的定量车辆密度。[30]将对象密度公式化为每个像素特征的线性变换，在整个图像上具有统一的权重当相机具有大视角时，其基于深度学习的方法。最近，已经开发了几种基于深度学习的方法用于对象计数[35，36，25，37，2]。[35]中的网络输出一个1D特征向量，并拟合一个岭回归量来执行最终密度估计，其不能执行逐像素预测并且丢失空间信息。估计图2. OPT-RC的直觉基于秩约束优化的车辆密度估计（OPT-RC）。受[30]的启发，将每个像素特征映射到具有统一权重的车辆密度，我们提出了一种回归模型来学习不同块的不同权重，以增加权重的自由度，并嵌入几何信息。它优于工作[30]，并在低质量的网络摄像头视频中获得高精度，特别是克服了大的前瞻性挑战。我们先将目标区域分成区块，提取每一区块的特徴，并减去背景.如图2所示，我们将每个块特征xb线性映射为车辆密度Den b=wxb。为了避免由大视角引起的大误差，我们为每个块构建一个具有不同权重wb的回归量，并学习最佳权重。所有的权重向量被堆叠成权重矩阵W=w;w;... w。去汉-[25]基于完全卷积网络，但输出密度图仍然比输入图像小得多，因为它没有反卷积或上采样层。[2]联合学习密度图和前景掩模用于对象计数，但它没有解决大视角和对象尺度变化问题。总而言之，基于检测和运动的方法往往在高拥塞、低分辨率和低帧速率视频中失败，因为它们对视频质量和环境条件敏感。整体方法在具有大视角和可变车辆尺度的视频此外，现有的大多数方法无法估计车辆的确切数量。[13、18、10、34]。1.2. 贡献为了深入了解流量密度并克服现实世界网络摄像头数据的挑战，我们探索了基于深度学习和基于优化的方法。基于优化的模型（OPT-RC）通过多个块回归器的秩约束嵌入场景几何，并激励深度学习模型FCN-MT。FCN-MT与OPT-RC一样，都采用了将局部特征映射到车辆密度的思想，而用全卷积网络代替了BG减法、特征提取器和块回归器。通过大量的实验，我们分析和比较了两种方法，并从基于优化的方法中获得了改进深度模型的见解该算法利用权矩阵W的高维性，捕捉不同块的权向量之间的相关性，并对权矩阵W施加秩约束。图2说明了这种处理背后的动机。由于视角大，A、C地块车辆规模不同，对应的车辆密度也不同。然而，A座和B座的车辆密度是相似的。因此，我们建立权重矩阵W来反映权重向量之间的多样性和相关性在估计车辆密度图之后，可以通过对车辆密度图进行积分来获得车辆计数。最后，交通密度是由车辆计数除以目标区域的长度。图3. FCN-MT框架基于FCN的车辆计数多任务学习（FCN-MT）。为了避免单个车辆的检测或跟踪，除了所提出的基于优化的模型，我们进一步提出了一个基于FCN的模型，以联合学习密度图不能与输入图像具有相同的大小。5900JJA（o）O∈O（p）车辆密度和车辆数量。框架如图3所示。为了制作密度图，具有与输入图像相同的大小，我们设计了一个全卷积网络[21]，通过密集前馈计算和反向传播来执行逐像素预测整个图像。我们不是应用简单的双线性插值进行上采样，而是在卷积层之上添加反卷积层，其参数可以在训练过程中学习。基于FCN的对象计数有两个挑战：（1）对象尺度变化，以及（2）降低特征分辨率[7]。为了避免大的误差引起的规模变化，我们共同执行全球计数回归和密度估计。单任务（密度估计）方法仅鼓励网络近似地面真实密度并直接将密度求和以获得计数，当存在极端遮挡或超大车辆时，该方法存在较大误差。然而，多任务框架是解释这种偏差的基础，使相关目标能够实现更好的局部最优，提高鲁棒性，并提供更多的监督信息。此外，我们开发了一个残差学习框架，将全局计数回归重新表示为参考每帧中密度之和的学习残差函数，而不是直接从最后一个特征图回归全局车辆这种设计避免了学习未引用的函数，简化了网络的训练。第二个挑战是由max- pooling和striding的重复组合引起的。为了解决这个问题，我们产生更密集的特征图，结合从浅层的外观特征和语义特征从深层。然后，我们在具有1x1内核的组合特征体积之后添加卷积层以执行特征重新加权。重新加权的特征更好地区分前景和背景。因此，整个网络能够准确地估计车辆密度，而无需前景分割。网络摄像头交通视频数据集（WebCamT）我们收集并标记了一个大规模的网络摄像头交通数据集，其中包含来自安装在城市关键十字路口的212个网络摄像头的6000万帧。此数据集标注了车辆边界框、方向、重识别、速度、类别、交通流向;天气和时间与现有的汽车数据集KITTI[14]和Detrac[32]不同，它们专注于车辆模型，我们的数据集强调大都市中的真实世界交通网络分析。这个数据集有三个好处：（i）它激发了对基于视觉的交通流分析的研究，对最先进的算法提出了新的挑战。(ii)通过各种街道场景，它可以作为迁移学习和领域适应的基准(iii)它具有大量的标记数据，为各种基于学习的模型提供训练集，特别是为基于深度学习的技术提供训练集。本文的贡献概括如下：1. 我们提出了一种基于优化的密度估计方法（OPT-RC），该方法将道路几何形状嵌入到权重矩阵中它避免了检测或跟踪单个车辆。2.我们提出了基于FCN的多任务学习，以联合估计车辆密度和计数与端到端密集预测。它允许任意输入图像分辨率，并适应不同的车辆比例和角度。3. 我们收集并标注了一个大规模的网络摄像头流量数据集，这对最先进的流量密度估计算法提出了新的挑战据我们所知，这是第一个也是最大的带有详细注释的网络摄像头流量数据集。4.通过对不同计数任务的大量实验，我们验证并比较了所提出的FCN-MT和OPT-RC，并为未来的研究提供了启示。论文的其余部分概述如下。第2节介绍了拟议的OPT-RC。第3节介绍了拟议的FCN-MT。第4节给出了实验结果，第5节比较了OPT-RC和FCN-MT。2. 基于秩约束的车辆密度优化估计为了克服现有工作的局限性，我们提出了一个带秩约束的块级回归模型。总体框架见第1.2节。我们首先执行基于GrabCut [3]的前景分割.为了使分割过程自动化，我们基于输入帧与纯背景图像之间的差异来初始化背景和前景，纯背景图像是通过使用在光交通时段拍摄的没有车辆的参考图像并通过亮度调整将其转移到其他时段来生成的。我们假设一个N流给出了图像I1，...，IN，我们选择感兴趣的区域并将其划分为J个块。块大小可以从16×16到1×1不等，具体取决于车道和最小车辆的长度。 B（i）块，每个图像Ii由特征向量x（i）∈RK表示。在实验部分中给出了特征的特定选择的示例。假设每个训练图像用一组2D边界框来注释，以像素Pi={Pi，...，Pc（i）}为中心，其中c（i）是第i个图像中的注释车辆的总数在我们的方法中的密度函数是像素网格上的实值函数，其在图像区域上的积分等于车辆。清洁也很重要。对于训练图像Ii，我们基于标记的边界框计算地面真值密度（如图4所示）。由一组边界框O（p）覆盖的像素p具有密度D（p），定义为：D（p）=101，（1）5901Σ⊤R6：tk+1←2（1+1 +4tk）连续的W到A。值得注意的是，这个优化问题不是2NJ√J3.1. 网络架构其中A（o）表示边界框o的面积。然后，我们将块的密度D（B j）定义为D（Bj）=D（p）。（二）p∈Bj给定一组训练图像及其背景，算法1加速投影次梯度下降输入：数据D，秩r，正则化参数α，β一曰：而不收敛2：计算梯度△Ak3：Ak←Ak−tk△Ak4：计算Ak的前r个奇异值和向量：U、V、V真值密度，对于每个块Bj，我们学习一个块特定的R r r5：Wk+1←UrrV线性回归模型预测块级密度1r2D^（Bj）gi通过以下等式来表示其特征表示xj：D^（Bj）=wjxj，（3）7：Ak+1←Ak8：结束时输出：W ←Wtk−1−1tk（Wk−Wk−1）其中，wj∈RK是针对块j要学习的线性回归模型的系数向量。我们为不同的块分配不同的权重为了抓住核心-不同块的回归权重向量之间的关系和共性，我们鼓励这些向量k+1在第 4-5 行中，我们将新获得的 Ak 投影到可行集{W|rank（W）≤r}，这相当于解决以下问题最小W<$Ak−W<$2共享一个低级结构。为了避免过度拟合，我们增加了102-FS.T.rank（W）≤r（七）正则化这些权重向量。为了鼓励稀疏的权重，施加了101 设W∈RK×J，其中第j个列向量wj表示重根据[12]，可以通过首先计算A的最大r个奇异值和奇异向量：U，V，V，然后将W设置为块j的回归系数向量。为此，我们-你是V星人。k r r r精细化以下正则化线性回归模型，低秩约束加速在第6-7行中，加速由上-根据以下规则确定步长的日期：t k+1←NJW2NJJ i=1j=1J1（1+1+4t2），并在F1min1<$<$x（w<$x（i）−D（B（i）））2+α<$W <$2+β|W |2KS.T.rank（W）≤r（四）凸的，APSD算法可能会导致局部最优。它有助于用不同的方法多次运行算法为了解决这个等级受限的问题，光滑的目标函数，我们开发了算法1中概述的加速投影次梯度下降（APSD）[20]算法，该算法迭代地执行次梯度下降，气味等级投射和加速度为了执行加速，保持两个变量序列{Ak}和{Wk}次梯度下降执行次梯度下降在变量Ak上。我们首先计算次梯度△Ak随机初始化。3. 基于FCN的多任务学习我们还提出了一个基于FCN的模型，以共同学习车辆密度和全球计数。车辆密度估计可以用公式表示为D（i）=F（Xi; Θ），其中Xi是输入图像，Θ是FCN-MT模型的参数集，并且D（i）是估计的车辆密度图NJ代表图像i。可以生成地面实况密度图的非光滑目标函数1<$x（a<$x（i）-以同样的方式节2。D（B（i）2+ α<$A12+ β|一|1，其中第一和第二J F项是光滑的，因此它们的次梯度是简单的梯度。第三任|一|1是非光滑的，其次梯度ΔA可以计算为受语义分割中使用的FCN的启发[21]，我们开发了FCN来估计车辆密度。在估计车辆密度图之后，可以通过对车辆密度图进行积分来获得车辆计数。怎么-i=1j=15902A=.+1，如果Aij≥0（五）我们曾经观察到，IJ−1ifAij0<将这三项的次梯度相加，我们得到总目标函数的次梯度△Ak则Ak更新为Ak←Ak−t k△ Ak。（六）直接积分时的误差。特别是，大近距离观察的公共汽车/卡车（超大型车辆）在计数结果中引起非常大的误差。为了解决这个问题，我们提出了一个基于FCN的深度多任务学习框架，以联合学习车辆密度图和车辆计数。代替直接从最后一个特征图或学习的密度图回归计数，我们开发了5903Σ2Σ残差学习框架，用于参考每帧中的密度之和将全局计数回归重新公式化为学习残差函数。我们提出的FCN-MT的整体结构如图3所示，其中包含卷积网络、反卷积网络、特征组合和选择以及多任务残差学习。卷积网络基于预先训练的ResNets[17]。逐像素密度估计需要高特征分辨率，然而池化和跨步重新显著降低特征分辨率为了解决这个问题，连接层，D（i，p）指示每个像素的密度图像i中的p。我们假设优化残差映射比优化原始的未引用映射更容易。考虑到某些帧的车辆计数可能具有非常大的值，我们采用Huber损失来衡量估计计数与地面真值计数之间的差异一帧的计数损失定义如下：.1（C（i）− C t（i））2 ，|C（i）− Ct（i）|≤ δ，我们重新调整并结合了2a，3a，4a层的特征，δ|C（i）−C t（i）|−2 δ否则，请执行以下操作。（十）的ResNets。然后，我们在卷积层之后添加一个卷积层。将特征体积与1 × 1内核组合以执行特征重新加权。通过学习这一层的参数，重新加权的特征可以更好地区分前景和背景像素。我们将组合特征体输入到反卷积网络中，该网络包含五个反卷积层。受深度VGG网络[28]的启发，我们在反卷积层中应用3x3的小内核。该特征通过反卷积层映射回图像大小，其参数可以从训练过程中学习[24]。去卷积层的缺点是，当内核大小不能被步幅整除时，它可能具有不均匀的重叠。我们添加了一个具有3x3内核的卷积层，以平滑棋盘伪影并缓解此问题。然后再添加一个具有1x1内核的卷积层，以将特征图映射到密度图。3.2. 多任务学习在网络的最后阶段，我们共同学习车辆密度和数量。车辆密度由特征图的最后一个卷积1x1层预测。采用欧氏距离来度量估计密度与地面真实值之间的差异。密度图估计的损失函数定义如下：其中，Ct（i）是帧i的地面实况车辆计数，C（i）是帧i的估计损失。δ是控制训练集中离群值的阈值。然后，网络的总损失函数定义为：1NL=LD+λNLδ（i），（11）i=1其中λ是计数损失的权重，并且被调整以实现最佳精度。通过同时学习两个相关的任务，每个任务可以用少得多的参数更好地训练。损失函数通过基于批量的Adam和反向传播进行优化。由于FCN-MT能适应不同的输入图像分辨率以及车辆比例和视角的变化，因此它对不同的场景具有鲁棒性。4. 实验我们在不同的数据集和计数任务上广泛评估了所提出的方法：（i）我们首先介绍我们收集和注释的网络摄像头流量数据集（WebCamT）。(ii)然后，我们评估并比较了所提出的方法与WebCamT数据集上的最先进的方法，并提出了一个有趣的应用程序来检测纽约市独立N.P. Day。（iii）我们在公众中评估我们建议的方法L（Θ）=1F（X（p））; Θ）−F（p））2，（8）数据集TRANCOS[25]。 (iv)我们评估我们的方法D2N我i=1p =1I2公共行人计数数据集UCSD [4]来验证我们的模型的鲁棒性和推广性。其中，N是训练图像的数量，Fi（p）是图像i中像素p的地面真值密度。对于第二个任务，全局计数回归，我们将其重新模拟为参考密度之和的学习残差函数，它由两部分组成：（i）基本点算：在整个图像上的密度图的整合;（ii）抵消计数：在去卷积网络的卷积3x 3层之后，由来自特征图的两个完全连接的层预测。我们将这两部分相加，以获得估计的车辆数量，如以下等式所示：PC（i）=G（D（i）;γ）+D（i，p），（9）p=1其中γ是两个完全一致的可学习参数4.1. 网络摄像头流量数据收集由于没有现有的标记现实世界的网络摄像头交通数据集，为了评估我们提出的方法，我们利用现有的交通网络摄像头收集连续流的街道图像和注释丰富的信息。与现有的交通数据集不同，网络摄像头数据具有帧速率低、分辨率低、遮挡率高、视角大等特点，我们选择了212个有代表性的网络摄像机，覆盖不同的位置，摄像机的角度，和交通状态。对于每台摄像机，我们每天下载四个时间间隔的视频（上午7点至上午8点，下午12点至下午1点;下午3点至下午4点;下午6点至下午7点）。这些摄像机有帧速率大约1帧/秒，分辨率为352×240。收集这些数据4周产生1.4 TB的视频数据Lδ（i）=125904图4. 注释实例。由六千万帧组成。据我们所知，WebCamT是迄今为止第一个也是最大的带注释的网络摄像头流量数据集。我们用以下信息注释60，000帧：（i）边界框：每个车辆周围的矩形。(ii)车型：出租车、黑色轿车、其他车、小货车、中货车、大货车、厢式货车、中巴车、大客车、其他车十种。(iii) 方向：每个车辆方向注释为四类：0、90、180和270度。(iv)车辆密度：每帧ROI区域中的车辆数量。(v)重新识别：我们在连续帧中匹配同一辆车。(vi)天气：有晴、多云、雨、雪、晴五种天气.两个连续帧的注释如图4所示。数据集分为训练集和测试集，分别有42，200和17，800帧。我们从培训视频中选择不同时间拍摄的测试视频WebCamT作为一个适当的数据集来评估我们提出的方法。它也激发了基于视觉的交通流分析的研究，为最先进的算法提出了新的挑战1。4.2. WebCamT的定量评价我们评估所提出的方法的测试集WebCamT，包含61个视频序列，从8个摄像机，并涵盖不同的场景，拥堵状态，摄像机的角度，天气和时间的一天。每个视频都有352×240分辨率，帧率约为1帧/秒。训练集具有相同的分辨率，但来自不同的-ent视频。评估采用三个指标：（i）平均绝对误差;（ii）均方误差;(iii)平均相对误差（ARE），是所有测试帧相对误差的平均值。对于OPT-RC，与基线方法相比，我们提取SIFT特征并学习每个块的视觉单词。街区大小由车道宽度和最小车辆长度决定。方程中的参数(4)通过交叉验证选择。对于FCN-MT，我们将训练数据分为两组：市中心和公园路在每组中，我们平衡了少于15辆车的训练架和多于15辆车的训练架。第3.1节中解释了网络架构，1如果您对数据集感兴趣，请给作者发电子邮件。参数见图3。在Eq.(11)是0.1。更多细节可以在发布的代码链接中找到：https://github.com/polltooh/traffic_video_analysis。基线方法。我们将我们的方法与两种方法进行比较：基线1：学习数数[30]。它映射将每个像素点的特征转化为具有统一权重的对象密度，用于整幅图像。为了比较，我们使用VLFeat [31]提取密集的SIFT特征[22]。基于每个标记的边界框的中心，将地面真实密度计算为归一化的2D高斯核。基线2：Hydra[25]。它学习多尺度回归网络，使用在多个尺度上提取的图像块的金字塔来执行最终的密度预测。我们在与FCN-MT相同的训练集上训练Hydra 3s模型。表1.WebCamT上的精度比较方法市中心ParkwayMae是Mae是基线15.910.51045.190.5248基线23.550.66133.640.6741OPT-RC4.560.61024.240.6281FCN-MT2.740.71752.520.784试验结果下面，我们比较了表1中所提出的方法和基线方法的误差。从这些结果中，我们得出结论，FCN-MT优于基线方法和OPT-RC的所有测量。由于测试数据涵盖了不同的拥塞状态、摄像机视角、天气条件和时间，这些结果验证了FCN-MT的通用性和鲁棒性OPT-RC优于基于非深度学习的基线1，并显示出与基线2相当的结果，但需要更少的训练数据。与FCN-MT相比，OPT-RC的推广性较差，但它能学习到光滑的、包含几何信息的密度图。图5显示了原始图像（a）、来自基线1的学习密度图（b）和来自OPT-RC的学习密度图（c）。我们看到，来自基线1的密度图不能反映视频中存在的图6显示了从FCN-MT学习的密度图。在没有前景分割的情况下，学习的密度图仍然可以估计车辆的区域，并且在晴朗和多云，密集和稀疏的场景中区分背景和前景。然而，由于去卷积层的不均匀重叠，在学习的密度图上产生棋盘伪影图7和图8分别显示了长时间序列和多个摄像机的OPT-RC和FCN-MT的估计流量每个摄像机的估计交通密度的MAE显示在每个图的右下角。结果表明，FCN-MT比OPT-RC具有更高的估计精度，但两种方法都有一定的局限性。5905了解交通密度的变化趋势。在一天中的同一时间，市中心摄像机的交通密度平均高于公园路摄像机的交通密度。对于同一个摄像机拍摄的地点，夜幕降临时（18：00-19：00）的交通密度特别是对于公园道路摄像机，与早晨和中午的交通密度相比，傍晚的交通密度显著增加当测试视频覆盖不同的位置、天气、摄像机视角和交通状态时，这些结果验证了所提出的方法的鲁棒性。图5.OPT-RC与基线1的比较图6. FCN-MT的密度图：市中心;（b）公园道。上面三排是多云的，下面三排是晴天的。图7. 三个摄像机的OPT-RC估计交通密度。（左）每个摄像机的估计交通密度曲线，其中X轴表示帧索引，Y轴表示交通密度。每条曲线的MAE显示在每张图的右下角。为了显示一天的时间序列，我们为每个时间间隔（上午、中午、下午和晚上）选择150帧。（右）每个摄像机的一个示例图像。特殊事件检测。交通密度估计的一个有趣的应用是检测交通量的变化图8. FCN-MT三个摄像头的估计交通密度。设置与图7相同。图9. 独立日交通密度检测。X轴：帧索引。Y轴：车辆计数。当城市发生特殊事件时，密度。为了验证我们的方法检测这种变化的能力，我们在两台相机和多天上测试了FCN-MT。从结果中我们发现7月4日18小时的交通密度与其他正常日的交通密度不同，如图9所示。对于市中心（3Ave@49st）的摄像头，7月4日的交通密度平均低于其他日期，并且交通可以周期性地非常稀疏。这与以下事实相对应：由于独立日的烟花表演，3Ave@49st周围的几条道路在下午3点后关闭，导致周围交通流量减少对于公园路上的摄像头（ FDRDr@79st），平均流量比周五少由于7月4日也是星期一，它应该有类似的交通5月2日。7月4日检测到的交通密度增加对应于68 St以下的FDR关闭的事实，导致68 St以上的FDR交通更加拥堵。所有这些观察结果都验证了我们的方法可以检测到流量密度变化时，发生特殊事件。4.3. TRANCOS的定量评价为了验证我们的方法的有效性，我们还评估并比较了所提出的方法与公共数据集TRANCOS[25]的基线。TRANCOS提供了一个收集的1244个不同的交通场景的图像，从真正的视频监控摄像头获得，共有46796注释的车辆。这些物体已经用点手工标注。它还提供了每个图像的感兴趣区域（ROI），定义了评估所考虑的区域该数据库提供了来自非常不同的场景的图像，并且没有提供透视图地面实况对象密度图是通过将高斯5906表2.TRANCOS数据集上的结果比较方法Mae是基线113.760.6412基线2-CCNN12.490.6743基线2-Hydra10.990.7129OPT-RC12.410.6674FCN-ST5.470.827FCN-MT5.310.856图10. 比较FCN-MT和基线2-Hydra。X轴：帧索引。Y轴：车辆计数。内核位于每个注释对象的中心[16]。我们将我们的方法与表2中的基线进行了比较。基线1和OPT-RC的设置与WebCamT中评估的设置相同。基线2-CCNN是[25]中网络的基本版本，基线2-Hydra通过学习多尺度非线性回归模型来增强性能。FCN-ST是用于消融分析的FCN-MT的单任务实现（仅基线2-CCNN、基线2-Hydra、FCN-ST和FCN-MT在823个图像上进行训练，并在[25]中分离后的421帧上进行测试。从结果中，我们看到FCN-MT显著降低了MAE，从10.99降至5.31与基线2-Hydra相比。FCN-MT还优于单任务方法FCN-ST，并验证了多任务学习的有效性。从图10中，我们还可以看出，FCN-MT的估计计数比基线2的估计计数更好地OPT-RC优于基线1，并获得与基线2相当的结果4.4. UCSD数据集的定量评价为了验证所提出的方法在不同计数任务上的通用性，我们在人群计数数据集UCSD上评估了所提出的方法[4]。该数据集包含从一个监控摄像机中选择的2000帧，帧大小158×238，帧速率10fps。每帧画面中的平均人数约为25人。表3. UCSD数据集方法MaeMSE核岭回归[1]2.167.45岭回归[6]2.257.82高斯过程回归[4]2.247.97累积属性回归[5]2.076.86跨场景DNN[35]1.63.31OPT-RC2.035.97FCN-MT1.673.41通过遵循与[4]相同的设置，我们使用601到1400帧作为训练数据，其余1200帧作为测试数据。OPT-RC的设置与WebCamT中评估的设置相同。在FCN-MT和OPT-RC中，ROI掩模用于输入图像和组合特征图表3显示了我们的方法和现有方法的结果。从结果中，我们可以看到OPT-RC优于基于非深度学习的方法，但不如[35]中基于深度学习的方法FCN-MT优于所有基于非深度学习的方法，并与[35]中基于深度学习的方法具有相当的准确性这些结果表明，尽管我们的方法是为了解决网络摄像头视频数据中的挑战而开发的，但它们对其他类型的计数任务也具有鲁棒性。5. OPT-RC和FCN-MT的比较从大量的实验中，我们强调了OPT-RC和FCN-MT之间的一些差异：（i）OPT-RC可以通过学习图像中不同块的不同权重来学习几何信息。(ii)由于手工制作的SIFT特征不足以区分背景和前景，OPT-RC严重依赖于背景减法。然而，FCN-MT提取了历史特征图。组合和重新加权的特征对于前景和背景是相当有区别的。因此，FCT-MT不需要背景减除。(iii)在某些情况下，FCN-MT的学习密度图遭受棋盘伪影。尽管存在这些差异，FCN-MT和OPT-RC仍然有很强的联系：这两种方法都能将图像映射为车辆密度图，并克服了网络摄像头视频数据的挑战。FCN-MT用全卷积网络取代了OPT-RC的BG减法、特征提取器和块回归器。这两种方法都避免了对单个车辆的检测或跟踪，并适应于不同的车辆规模。在未来的研究中，将探索领域迁移学习，使模型对多个摄像机更具鲁棒性。确认本研究部分得到了癌症和技术基金会（项目FCT[SFRH/BD/113729/2015] 和Carn e gieMellon-Portu g al 计划的资助）的支持。乔·奥·帕佐。Costeira部分由ANI资助的项目[Lx-01-0247-FEDER-017906]SmartCitySense提供支持5907引用[1] S. An，W.Liu和S.文卡特什基于核岭回归的人脸识别2007年IEEE计算机视觉和模式识别会议，第 1-7页IEEE，2007年。8[2] C. Arteta，V. Lempitsky，and A.齐瑟曼。在野外数数。欧洲计算机视觉会议，第483-498页。施普林格，2016年。2[3] A. B. C.罗瑟，V. Kolmogorov. Grabcut：使用迭代图切割的交互式前景提取在ACM SIG中-GRAPH，2004年。3[4] A. B. Chan，Z.-S. J. Liang和N.瓦斯康塞洛斯隐私保护人群监测：没有人模型或跟踪的情况下计算人数。在计算机视觉和模式识别，2008年。CVPR 2008。IEEE会议，第1-7页。IEEE，2008年。五、八[5] K. Chen，S.龚氏T. Xiang和C.换洛伊。用于年龄和人群密度估计的累积属性空间。在IEEE计算机视觉和模式识别会议论文集，第2467-2474页，2013年。8[6] K. Chen C.，马缨丹属C. Loy，S. Gong和T.翔用于局部人群计数的特征挖掘。在BMVC，第1卷，第3页，2012中。8[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv：1606.00915，2016。3[8] Y.-- L.陈伯，英-地F.吴，H- Y. Huang和C.- J. Fan。用于夜间车辆检测和交通监控的实时视觉系统 IEEETransactions on Industrial Electronics，2011。2[9] Z. Chen，T. Ellis和S. A.维拉斯汀城市交通中的车辆检测、跟踪与分类。在2012年第15届国际IEEE智能交通系统会议上。2[10] T. E. Choe，M.W. Lee和N.海林使用低帧率摄像机网络进行流量分析在IEEE计算机视觉和模式识别上，2010年。2[11] J. Du和Y.- C.吴基于置信传播的全网分布式载波频偏估计与补偿。IEEE Transactions on Signal Processing，61（23）：5868-5877，2013。1[12] C. Eckart和G.年轻一个矩阵与另一个低秩矩阵的近似。心理测量学，1936年。4[13] K. Garg，S. K.拉姆，T. Srikanthan和V.阿加瓦尔基于块方差的道路交通密度实时估计。在2016年IEEE计算机视觉应用冬季会议上。2[14] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议（CVPR），2012。3[15] W. N. Gon cal ves，B. B. Machado和O. M. 布鲁诺Spa-tiotemporal gabor滤波器：一种新的动态纹理识别方法。arXiv预印本arXiv：1201.3612，2012年。2[16] R. 格雷罗 -戈麦斯-奥尔梅多湾托雷-吉姆埃内兹河 Lo'pez-Sastre，S. Maldonado-Bas co′ n和D. 奥诺罗-鲁比奥重叠的车辆数量。在伊比利亚模式识别和图像分析会议上，第423施普林格，2015年。8[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第7705[18] S. Hua，J. Wua，and L. Xub.基于视频分析的实时交通拥堵检测。J. Inf. Comput. Sci，2012. 2[19] B. S.肯纳现代交通流理论与控制导论：通向三相交通理论的漫漫长路。2009. 1[20] H. Li和Z.是林书非凸规划的加速邻近梯度法神经信息处理系统的进展，第379-387页，2015年4[21] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页，2015年。三、四[22] D. G.洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志，60（2）：91-110，2004. 6[23] G. Mo和S.张某交通流中的车辆检测。 2010年第六届自然计算国际会议。2[24] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集，第1520- 1528页5[25] D.Onoro-Rubio和R.J.我是洛佩斯·萨斯特通过深度学习实现无视角对象计数。在欧洲计算机视觉会议上，第615施普林格，2016年。二五六七八[26] S. Ren，K.赫利河Girshick和J.太阳更快的R-CNN：用区域建议网络进行实时目标检测。神经信息处理系统的进展，2015年。2[27] R. Shirani，F. Hendessi和T. A.格列佛具有局部密度估计的车载自组织网络中的存储-携带-转发消息传播2009年IEEE第70届车辆技术会议。1[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。5[29] E. 托罗波夫湖Gui，S.Zhang，S.Kottur和J.M. F. 莫拉低帧率城市摄像机的交通流。 IEEEInternationalConference on Image Processing，2015。1[30] A. Z. V. Lempitsky学习计算图像中的物体。《神经信息处理系统进展》，2010年。二、六[31] A. Vedaldi和B.富尔克森VLFeat：计算机视觉算法的开放和便携6[32] L. Wen，D.杜，Z.蔡氏Z.雷，M。Chang，H. Qi，J. 林M. Yang和S.吕DETRAC：多目标检测和跟踪的新基准和arXiv CoRR，abs/1511.04136，2015。35908[33] F. Xia和S.张某图像中物体计数的块坐标弗兰克-沃尔夫在神经信息处理系统研讨会的进展，2016年。2[34] X.- D.尤湖Y. Duan和Q.田从mpeg视频中提取高速公路交通信息。2002年IEEE智能交通系统国际会议. 2[35] C. Zhang，

下载后可阅读完整内容，剩余1页未读，立即下载