反向透视网络：解决对象计数中尺度变化的挑战

113 浏览量更新于2023-10-20 收藏 3.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用于透视感知对象计数的反向透视网络杨一凡1，李国荣1，2，吴哲1，李苏1， 2，黄庆明1， 2， 3，Nicu Sebe41中国科学院大学计算机科学与技术学院2中国科学院大学大数据挖掘与知识管理重点实验室北京3中国科学院计算技术研究所智能信息处理重点实验室，北京4University of Trento，特伦托，意大利{yangyifan16，wuzhe14}@ mails.ucas.ac.cn，{liguorong，suli，qmhuang}@ucas.ac.cn，niculae. unitn.it摘要对象计数的关键挑战之一是由任意视角引入的戏剧性尺度变化。我们提出了一种反向透视网络来解决输入图像的尺度变化，而不是生成透视图来平滑最终输出。反向透视网络显式地评估透视失真，并通过均匀地扭曲输入图像来有效地校正失真。然后，所提出的网络将具有相似实例尺度的图像传递给回归器。因此，回归网络此外，为了进一步解决更拥挤的区域的规模问题，我们增强了与评估误差的地面实况的相应区域然后，我们迫使回归器通过对抗过程从增强的地面实况中学习。此外，为了验证所提出的模型，我们收集了一个基于无人机（UAV）的车辆计数数据集。所提出的数据集具有激烈的规模变化。在四个基准数据集上的大量实验结果表明，我们的方法对最先进的改进。1. 介绍由于其在许多领域的广泛应用，物体计数一直是计算机视觉领域的研究热点。计数任务最关键的挑战是规模变化。已经投入了大量的努力来解决这个问题[30，19，20，32，29，4，23，13]。这些方法采用检测框架[20，24]或回归框架[30，19，20]。几种方法[39，4，18，21]采用具有多尺度感受野的网络来适应各种*通讯作者。图1：为了减少尺度变化，我们均匀地扩展视界附近的空间，缩小透镜附近的空间。具有相似尺度的变形图像减轻了训练回归网络的负担。鳞片这些方法显著增加了学习内隐视角表征所带来的计算成本。然而，Li et al.[19]证明各种接收场提供类似的结果。其他几种方法[31，37，36，8]利用透视图来规范化最终密度图并实现精度改进。然而，这些方法从额外的注释或密度图中学习，以监督的方式生成透视图。此外，生成的透视图是高度噪声化的。因此，用这些透视图平滑输出不可避免地引入噪声。如图1、在原始图像中，存在由透视引起的显著尺度变化。由于网络在空间上共享卷积核，因此它们适应连续尺度是具有挑战性的。在-4374翘曲图像原始图像4375帧内尺度方差的分布1.2帧间比例尺分布1.21 10.80.60.40.200.80.60.40.20a图3：a）和b）分别是PACNN [31]和PGCNet [36]生成的透视图，它们具有高度噪声。拟议中的网络扭曲了一个统一的网格CARPK PUCPR+ Ours0-11.0-3.03.0-5.05.0-10.0CARPK PUCPR+ Ours0-2020-5050-100100-300图，以及c）是扭曲的图像。图2：与现有数据集相比，建议的数据集具有更显着的尺度变化。受名为反向透视[35]的绘制风格的启发，其中所有对象尽管位置不同但具有相似的比例，我们试图变换输入图像以获得相似的实例比例。在扭转这种观点的同时，关键是要保持当地的结构，以避免引入扭曲。因此，我们均匀地扭曲图像。如图1，变形图像具有相似的实例尺度。因此，与多分支方法不同[39，4，18，21]，回归网络从而有效地降低了模型的复杂度。在本文中，我们提出了一个反向透视网络，以减少输入图像的比例变化，在一个非监督的方式。具体地说，该网络由一个视角估计器和一个坐标变换器Transformer组成透视估计器首先评估透视失真的程度以获得透视因子。然后，在透视因子的指导下，坐标变换器对输入图像进行变形，以获得相似的实例比例。在这种转换之后，我们采用单分支全卷积网络来估计密度图。在训练回归变量之前，我们预先训练反向透视网络，以学习纠正透视失真。由于视角信息很少，我们提出了一个目标函数，以优化反向透视网络在无监督的方式。此外，由于反向透视网络是一个轻量级的网络，很容易过拟合，我们把透视校正问题看作是一个少镜头学习方法，并通过元学习训练提出的方法。反向透视网络在遇到严重拥挤的区域时仍然存在局限性。为了进一步解决这些领域的规模问题，我们用评估误差来加强地面实况。然后，所提出的框架迫使回归器通过对抗网络从增强的密度图中学习为了验证反向透视网络解决尺度变化的能力，我们收集了一个车辆计数命名为UAVVC，它比现有的数据集具有更显着的尺度变化（见图1）。2）。我们提出的方法实现了最先进的结果。我们的方法的主要贡献总结如下：• 我们提出了一个反向透视网络，以减少输入图像的规模变化，在一个无监督的方式。因此，我们有效地减少了模型的复杂性，回归网络的复杂性。• 为了提高更多拥挤区域的估计精度，我们通过评估误差加强地面实况，并通过以下方式强制回归器从中学习对抗性网络• 为了验证该方法处理尺度变化的能力，我们收集了一个基于无人机的车辆计数数据集，它具有显着的尺度变化。2. 相关工作我们将对象计数文献分为尺度感知方法和视角感知方法。在本节中，我们将分析这两种趋势中的方法。2.1. 规模感知方法大多数现有的方法解决规模的变化，采用不同的感受野网络。Zhang等人[39] Sam et al.[28]使用具有各种内核大小的多列网络，而Deb等人。[7]用不同的膨胀率对多柱网络进行了扩展。否则，其他几种方法利用起始块来获得不同的感受野[4，18，21]。这些算法显著增加了内隐视角表征的学习所带来的计算成本，并要求感受野自动匹配相应的尺度。然而，Li et al.[19]证明不同的感受野产生相似的结果。除了改变卷积核之外，深度网络还可以从其不同层获得各种感受野。许多计数方法使用与U-网类似的架构[27]统计人群，实现有希望的业绩数据集与戏剧性的规模变化1，基于无人机和通过对帧内尺度标准方差的估计，1为了减少场景间尺度变化的影响，同时评估-在每个帧中以最小的实例比例缩放。4376CxWxH1x宽x高1xKx1Kx1x12x宽x高透视平均池化FCFαactor坐标TransformerCxWxHConv前景估计网格输入要素采样器变形特征估计密度图反向透视网络回归离子网络编码器输入图像扭曲图像编码解码重建损失评价误差扭曲地面实况对抗性残差网络图4：所提出的方法的框架。反向透视网络估计输入图像的透视因子，并利用生成的采样网格对图像进行变形。然后，回归器估计变形图像中的人群计数。我们进一步提供估计结果，并加强对抗残差网络的地面实况反向透视网络通过无监督元学习进行预训练，而回归量则通过像素丢失和对抗网络进行训练[30、4、22、18]。此外，一些方法采用多代理来处理各种规模。[29]吴宗宪等。[32]训练一组回归量以匹配具有各种密度的图像块。Liu等人。[20]使用检测器和回归器来估计人群计数，并提出一个决策网络来合并两个代理的估计结果然而，与连续尺度相比，这些方法实现了有限的尺度多样性在这项工作中，我们统一变换的图像，以获得相似的尺度。扭曲的图像降低了模型的复杂性以及训练回归量以适应连续尺度的2.2. 透视感知方法已经提出了几种算法来处理透视信息的尺度变化。Shen et al. [30]，Sam et al.[29]和Cao et al.[4]将图像分割成几个补丁，并估计其中的人群计数。窄视角可以缓解目标尺度的变化，而粗场景分割策略对任意视角的影响有限。此外，一些方法使用透视图来归一化输出密度图。Liu等人[22]设计了一个分支，将透视图集成到密度图中。但是，透视图很少可用。Shi et al. [31]and Zhang et al.[37]生成带有额外注释的透视图。Yan等[36]从密度图生成透视图。然而，如图所示3、生成的透视图噪声很大。因此，用这些透视图平滑输出不可避免地引入噪声。与他们不同的是，我们评估的视角失真-以无监督的方式，并且一致地校正畸变以避免引入新的畸变。3. 方法我们提出的方法的框架如图所示。4.第一章我们采用一个单分支回归估计人群计数。在回归器之前，反向透视网络有效地减小了输入图像的尺度变化。因此，建议的网络减少了模型的复杂性，并释放的负担，训练回归适应连续尺度。具体而言，反向透视网络首先评估输入图像的透视失真，并生成用于采样的网格图。然后，该网络对原始图像进行采样以消除尺度变化，回归网络评估变形图像中的人群计数。然而，反向透视网络在遇到尺度变化严重的区域时仍然存在局限性。我们通过迫使回归器通过对抗网络从增强的地面实况中学习来进一步解决这个问题在这一部分中，我们首先阐述了反向透视网络和训练方法.在最后一节中，我们解释了对抗剩余学习方法。3.1. 反向透视网络如图4.反向透视网络由透视估计器和坐标变换器组成。这两个组件都是通过未监督的元学习进行端到端训练的一个关键的观察是，4377vv嵌入在分类网络的中间CNN特征中[3，6，9]。相应地，我们用前十个卷积提取的特征来评估预训练的VGG-16的初始层[33]。我们将特征表示为G（X;H）∈RCWH，其中H表示卷积层的参数，X是输入图像，C，W，H分别代表通道数，宽度和高度在训练时，反向透视网络扭曲提取的特征以估计空间容量。在a)b）、参考阶段，我们转移输入图像代替。由于视角信息很少可用，我们估计预测的空间容量c）、类不可知密度图d）、垂直密度视角透视估计器首先通过卷积网络从提取的特征回归类不可知的密度图密度图被公式化为：YCL=fd（G（X，λ），λ），（1）其中YCL∈R1WH，fd（·）表示扩张卷积运算，并且f d是卷积层的参数。由于YCL揭示的是空间容量而不是特定对象的数量，因此我们利用了其中的透视信息。图像通常是以接近水平的视点捕获的，因此空间容量在垂直方向上线性变换。因此，我们将图像的垂直容量嵌入到容量向量中，并采用自适应平均池化操作。容量向量定义为：cv=AdaptiveAveragePooling（YCL，K），（2）其中K是预定义的垂直尺寸。由于YCL的水平向量被合并为单个元素，cv∈R1K1。池化操作将具有任意分辨率的图像嵌入到尺度固定容量向量。然后，我们将向量转换为具有K个通道的容量特征，标记为cT∈RK11。然后，视角估计器采用全连接层来回归视角因子αo，如下所示：αo=fp（cT，η），（3）其中fp（·）是全连接运算，η表示参数。由于视角因素具有明显的几何意义，并指导坐标Transformer扭曲图像，我们将因子归一化为（0，1]的范围：α=exp （ −relu （ αo ）） +exp ，（4）其中，k是接近于零的常数。坐标Transformer由于实例的比例与其所属空间的容量有关，因此我们缩小镜头附近的空间以减少透视失真。一个玩具的例子与戏剧性的规模变化显示在图5：玩具示例的草图，它模拟了在坐标变换期间密度图的密度和容量的改变图5（a）.上部区域的密度较高表明实例尺度较小，而密度较低的下部区域包含相对较大的对象。当我们压缩图中的向下区域时。5（b），密度增加，并且尺度变化也减小。在校正透视畸变的同时，保持局部结构以避免引入新的畸变是至关重要的因此，我们采用坐标变换的方法来均匀压缩图像的垂直空间，并保持水平结构。值得注意的是，该变换方法将原始图像从椭圆坐标重建到直角坐标。在这里，我们首先解释椭圆坐标。在几何学中，椭圆坐标系是以共焦椭圆和双曲线为坐标线的二维正交坐标系。两个焦点是固定的，焦距用2c表示。椭圆曲线最常见的坐标系（μ，ν）定义为：x=ccosh（μ）cos（ν）y=csinh（μ）sin（v），（5）其中μ是非负实数，表示从像素到中心的距离，ν∈[0，2π]是相应的偏心角。当从椭圆坐标变换到直角坐标时，x轴附近的空间实际上保持不变，而远离x轴的空间实际上保持不变。x轴被压缩。透视因子作为一个调整项来指导透视校正，并被赋予焦距与像宽之比的几何意义。如图当半径一定时，共焦椭圆的曲率由透视因子决定换句话说，它决定了变形的强度，当透视因子越小，变形越剧烈。此外，我们将X坐标归一化为XE∈[0，π]，Y坐标为YE∈[0，1]。因此，我们认为，原始包裹43782JJ图6：不同视角因素对坐标转换的影响。该变换被公式化为：xCT=αcosh（xE）cos（yE）图7：两个示例图像，具有不同的视角。第一行是用SGD方法训练的网络的输出。而第二行是所提出的方法的输出，该方法使用元学习进行训练。2yCT=αsinh（xE）sin（yE），（六）帧中的分布因此，我们设计了一个无监督的其中（xCT，yCT）是扭曲图像的笛卡尔坐标。我们采用变换的方法来产生新的图像的网格地图，然后使用微分采样器，这是由Jaderberg等人提出的。[16]，以扭曲原始图像。理想情况下，反向透视网络可以与回归网络进行端到端的训练。然而，这样的策略忽略了透视图的内部结构，导致较差的结果。否则，我们扭曲的图像，而不是功能，以保持更深的功能的3.2. 训练方法无监督损失地面实况透视因子很少可用。因此，我们在本小节中提出了一个无监督的损失来训练反向透视网络，而无需额外的注释。当图像行被压缩时，激活的特征被约束到中心部分，并且激活区域的行密度也被改变在此基础上，我们利用扭曲特征的行密度来揭示全局密度分布。我们首先将平均行密度公式化为：回归损失约束的行密度向量扭曲的五官我们将目标函数公式化为：Lvd=V ar（D H）。（八）Meta学习希望采用标准训练过程，例如SGD方法来训练反向透视网络。然而，反向透视图是一个轻量级网络，很容易过拟合。如图在图7中，由SGD训练的反向透视网络生成相似的透视因子。为了解决上述问题，我们把视角校正作为一个短学习问题，并采用Meta学习算法来优化所提出的网络。元学习专注于从少量数据中学习在预训练阶段，我们将数据分成几个小任务，并采用Reptile [25]，这是一种有效的元学习算法，仅使用原始和未标记的观察值来训练我们的之后，我们对学习的元模型进行微调，以适应训练和参考阶段的每个图像。简而言之，Reptile对网络的几次更新这个策略保证学习一个有利于快速适应的初始化。爬行动物方法M（·）DH=1个W/CWJGwarped（i，j，k），（7）将训练数据集随机采样到p个任务Tp中。持续时间在训练中，M（·）输入一组任务Ti，并产生一个i=1k =1其中，G warped（i，j，k）代表变形特征，i，j，k分别是列、行、通道的索引。此外，DH是第j行的平均密度，并且w j学习过程SGD（L，θ，k）。学习程序对损失L执行k个梯度步骤，从θ开始，重新旋转最终的参数向量。关于单个任务τ的训练过程被公式化为：是该行中的有效像素数。因此，翘曲特征的行密度向量被定义为DH=[ DH，DH，· · ·，DH]。W=SGD（Lτ，θ，k）θ=θ+ η（ θ− W），其中，θ是更新后的参数，η是标量。（九）1 2W如图5、（b）和（d）是对应的，响应（a）和（c）的行密度向量。行密度矢量的较小变化表示更均匀的比例得益于样品和高效的爬行动物方法，我们获得了更敏感的元模型，该元模型在每个测试图像上被α= 0.3α= 0.6α= 0.8αα= 0.8α= 0.6α= 0.3透视系数：0.54透视系数：0.57透视系数：0.34透视系数：0.934379图9：具有不同视角的典型无人机框架，例如，高纬度，低纬度的前视图纬度、侧视图和俯视图。3.3. 对抗性剩余学习反向透视网络在遇到严重拥挤的区域时仍然存在局限性。因此，我们用评估来增强地面真实密度图TRANCOS_v3CARPKPUCPR+测量错误，突出显示拥挤区域。增强的地面实况被公式化为：YAug=Y+（Y-Y），（ 10）其中，Y是地面真实密度图，Y是评估输出，Y是标量。为了迫使回归器从增强的地面实况中学习，我们采用了一种名为对抗结构匹配（ASM）[14]的对抗结构来提取拥挤区域的结构。ASM采用自动编码器-解码器框架。编码器分析估计的和增强的密度图的结构，而解码器从隐藏的特征重建增强的密度图。在训练时，回归器被训练为最小化评估的隐藏特征与增强的地面实况之间的距离，而编码器被训练为扩大距离。对抗损失函数被公式化为：max minLar=EXY[|A（R（X））−A（Y Aug）|]、（11）图8：TRANCOS v3，CARPK，和PUCPR+，其视角有限。表1：现有相关数据集汇总。数据集决议帧查看-点场景天气符号TRANCOS640x480824固定432点CARPK1，280x7201,448固定71BoundingBoxPUCPR+1，280x720125固定13BoundingBox我们1，024x540738柔性505BoundingBox表2：上海科技数据集的评估结果上海科技A部上海科技B部分方法MaeMSEMaeMSEMCMM [39]110.2173.226.441.3SANet [4]67.0104.58.413.6CSRNet [19]68.2115.010.616.0[26]第二十六话72.5118.213.621.1TEDnet [18]64.2109.18.212.8[21]第二十一话63.298.98.215.7CG-DRCN [34]64.098.48.514.4ADMG [17]64.797.18.113.6ANF [2]63.999.48.313.2我们61.296.98.111.6高纬度、低纬度前视图、侧视图和顶视图。对于不受约束的视点，存在戏剧性的比例变化。这些帧也被收集在不同的-不同的天气条件，例如，晴天，雨天，雾，其中R（·）是回归网络，A（·）是编码r，并且X是输入图像。对抗性方法迫使回归网络更多地关注对象很容易被忽视4. 基于无人机的车辆计数数据集车辆计数任务的数据集有限。其中，TRANCOS v3[10]由固定摄像头采集，而CARPK [12]和PUCPR+ [1]包含由无人机捕获的图像。我们在图中显示了每个数据集的代表性框架。8.如图所示，它们仅呈现具有狭窄视角的受限交通环境，其具有有限的尺度变化，因此不适合于验证所提出的方法。为了填补这一空白，我们收集了一个基于无人机的数据集，其中包含50种不同的车辆计数场景，称为UAVVC。建议的数据集使用32，770个边界框手动注释，而不是传统的点注释。我们在图中显示了代表性的帧。9.第九条。所提出的数据集有四种视角，即，前视图夜，雨夜。所有这些拍摄条件增加了数据集的多样性，使其更接近真实的交通情况。更重要的是，剧烈的尺度变化可以用来验证我们提出的方法。我们提出的数据集和现有数据集的统计数据如表1所示。UAVVC更加多样化，并提供更精确的注释。此外，三个临界分布如图所示。二、如图所示，所提出的数据集具有更大的尺度变化，在所有标准中也比其他数据集更平衡。数据集和所有实验结果可在https://github.com/CrowdCounting上获得。5. 实验我们在四个数据集上评估我们的方法： Shang-haiTech [39]，WorldExpo 10 [15]，UCSD [5]，以及建议的UAVVC.在本节中，我们首先在这些数据集上评估并比较我们的方法与以前的最先进方法[39，4，26，21，19，18，34，17，2]。然后介绍了在上海科技大学开展的烧蚀研究结果4380表3：WorldExpo10数据集的MAE评价结果。方法场景1场景2第三节第四节第五节Avg.MCMM [39]3.420.612.913.08.111.6SANet [4]2.613.29.013.33.08.2CSRNet [19]2.911.58.616.63.48.6[26]第二十六话2.616.110.1520.27.611.3TEDnet [18]2.310.111.313.82.68.0[21]第二十一话1.615.811.010.93.28.5ADMG [17]4.018.17.212.35.79.5我们2.410.29.711.53.88.2A部分数量透视系数：0.486MAE：B部分数量透视系数：0。631MAE：图10：ShanghaiTech数据集中的示例。第一列是输入图像，第二列是变形图像，而第三列是估计的密度图。所提出的方法自适应地扭曲图像，并提供准确的估计。A部分数据集。在这些实验中，我们用MAE和MSE度量来评估性能。5.1. 实现细节我们使用CSRNet作为回归网络。所提出的方法中最耗时的操作是生成网格地图。在转换过程中，我们首先生成分辨率为10*10的初始网格地图，然后将其放大到所需的分辨率。因此，反向透视网络引入了有限的时间复杂度。反向透视网络分别在每个数据集的训练集对于元学习，我们将内部批量大小设置为5，内部迭代设置为20，学习率设置为1 e-6。在训练回归网络时，我们还使用生成的网格图来扭曲地面实况密度图。学习率被设置为1 e-7，并且k被设置为1 e-6，而K被设置为20。5.2. 评价和比较ShanghaiTech数据集[37]侧重于行人计数。有1，198张不同视角和分辨率的图像。该数据集有两个部分，分别命名为Part A和Part B。我们在表2中报告了我们的方法和最先进方法之间的比较。我们的方法在两个部分上都实现了最低的MAE（最高的精度）。图10示出了部分A和部分B的样品。可以看出，所提出的方法是很好的适应任意的角度。WorldExpo10数据集 [39]有3，980个注释帧。表4：UCSD数据集方法MaeMSEMCMM [39]1.071.35SANet [4]1.021.29CSRNet [19]1.161.47[21]第二十一话0.981.25我们1.321.23表5：UAVVC数据集上的评估结果，其中IFSV代表帧内尺度方差，第二至第五列是相应的MAE结果。方法IFSV∈ [0. 0，1。0个字符]IFSV∈ [1. 0，3。0个字符]IFSV∈ [3. 0，5。0个字符]IFSV∈ [5. 0，10。0个字符]总Mae总MSEMCMM [39]32.1446.3764.4861.2250.6385.46VGG-16 [38]51.3262.4180.3476.3167.12103.20CSRNet [19]13.1119.6128.0225.6518.3232.27我们12.9813.2621.0019.7013.2120.07我们将该数据集分为3，380帧的训练集和600帧的测试集。我们在表3中列出了MAE的结果比较，其中我们的方法相对于其他方法实现一些场景是稀疏的，并且MAE已经相当低，因此难以实现显著的改进。UCSD数据集[5]包含由监控摄像机捕获的2，000帧，并且帧具有相同的视角。最先进的人群计数方法和我们的方法之间的比较总结在表4中。我们的方法总体上表现出最好的出租率，但比其他方法好得多。这是因为UCSD数据集中的尺度变化有限，因此我们的方法实现了有限的改进。UAVVC是我们新提出的数据集，包含500和385张用于训练/测试的图像。表5显示了我们的方法与MCNN[39]，VGG-16 [33]和CSRNet [19]的比较，我们的方法取得了最佳结果。更重要的是，根据帧内尺度标准方差，我们将测试图像分为四组，并分别评估每一组的MAE度量。我们所提出的方法在每个组中实现了改进。特别是在大尺度变化的图像组上，我们的方法的性能改进更为显著。这些实验验证了所提出的算法处理戏剧性的规模变化的能力。我们在图中展示了三个例子。11，每一个都有一个独特的视角。在数据集中，我们不提供感兴趣的掩模区域。因此，这是具有挑战性的回归识别复杂的场景中的目标。如图所示，与基线[19]相比，我们的方法提供了更准确的结果，并且不太可能将背景识别为车辆。变形图像中相似的尺度有助于回归器区分车辆和背景。5.3. 消融研究在本节中，我们进行了几个实验来研究我们的方法的不同方面对上海科技A部分的影响，并在表6中显示了结果。基线我们的方法达到10. 准确度提高3%4381表6：ShanghaiTech A部分的消融研究结果其中RAN代表剩余对抗网络。方法基线我们W/O跑End-to-End训练经纱特征训练关于SGD新基线改性新基线Mae68.261.263.472.166.270.6109.694.3CSRNet我们数量MAE：MAE：CSRNet我们数量MAE：50.12MAE：8.93数量MAE：MAE：图11：UAVVC中的示例。在每一行中，第一个图像是输入图像，第二个是CSR-Net的输出，第三个是我们算法的输出。数量MAE：透视系数：0.632 MAE：20.92数量MAE：透视系数：0.872 MAE：32.22图12：我们在上海科技部分展示了两个示例A.第一列是输入图像，第二列是基线的输出，而第三列是变形图像，最后一列是所提出的方法的输出。与基线相比。我们在图中给出了基线和我们的方法之间的定性比较。12个。这两个拥挤的场景有不同的视角，我们的方法实现了更准确的估计结果。更重要的是，我们的密度图更亮了。这是因为我们减少了输入图像的尺度变化，并且所提出的方法的密度图具有更少的图像对比度。没有对抗网络虽然我们只使用反向透视网络，但MAE减少了7。0%，但它仍然不如我们的好。这是因为反向透视网络具有局限性，例如，在图1的第一示例12、最拥堵区域还不够舒展，规模变化依然剧烈。对抗性网络迫使回归者更多地关注这些领域。端到端训练我们用回归网络训练反向透视网络，性能下降5. 百分之七。这是因为这样的策略忽略了透视图的内部结构并导致较差的结果。我们预先训练反向透视网络，并利用它直接扭曲特征。这种策略花费的时间更少，但它只接收2。9%的业绩增长。这是因为扭曲特征破坏了深层特征的语义信息，使对象无法识别。传统的学习方法我们用SGD方法对反向透视网络进行预训练。因此，网络是过度拟合的，并且提供具有有限方差的相似视角因此，该方法获得3。每季度减少5%。这是因为简单地平均损失函数会磨损视角和场景的隐式信息。可扩展性为了评估所提出的框架的可扩展性，我们采用了一个具有不同感受野的新主干作为CSRNet的主干，这是ResNet-101的前十个卷积层[11]。新的基线分别用原始图像和变形图像训练。如表中所示。6，我们提出的方法减少MAE的14。与新基线相比，0%，但不如基于VGG的基线。此外，基于VGG的一个与扭曲的图像获得更好的性能比ResNet的一个与原始图像。这个实验证实了所提出的网络比各种感受野更有效。6. 结论在本文中，我们提出了一个反向透视网络，以减少规模的变化，同时估计人群密度。反向透视网络以无监督的方式估计透视失真，并扭曲原始图像以获得相似的尺度。为了进一步解决严重拥挤地区的规模问题，我们迫使回归器通过对抗网络从增强的地面实况中学习此外，为了验证所提出的框架，我们收集了一个基于无人机的车辆计数数据集，它具有戏剧性的场景内和场景间的尺度变化。大量的实验结果证明了我们的方法的最先进的性能。在未来的工作中，我们将研究具有连续视角和场景的视频的视角评价确认这工作是支持部分由意大利-中国合作项目TAL- ENT：2018 YFE 0118400，部分由中国国家自然科学基金：61620106009，61772494，61931008、U1636214、61836002和61976069，部分中国科学院前沿科学重点研究计划：QYZDJ-SSW-SYS 013，部分由中国科学院青年创新促进会负责，部分由中国科学院大学负责。4382引用[1] Paulo Almeida ， Luiz S Oliveira ， Alceu De SouzaBritto，Eu-nelson J Silva，and Alessandro L Koerich.用于停车场分类的强大数据集。 Expert Systems WithApplications，42（11）：4937-4949，2015. 6[2] 张安然、岳磊、沈嘉怡、朱凡、甄贤同、曹贤斌、邵凌。用于人群计数的注意神经场。IEEE InternationalConference on Computer Vision，2019。6[3] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。计算机视觉与模式识别，2017。4[4] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。计算机视觉和模式识别，第757- 773页，2018年。一二三六七[5] 安东尼·B·陈，张生·约翰·梁，努诺·瓦斯孔-塞洛斯。隐私保护人群监测：无需人员模型或跟踪即可计算人数。计算机视觉和模式识别，第1-7页，2008年。六、七[6] Edo Collins Radhakrishna Achanta和Sabine Susstrunk。用于概念发现的深度特征分解。欧洲计算机视觉会议，14：352-368，2018。4[7] 迪普托迪普·黛布和乔纳森·文图拉用于无透视计数的聚合多列扩张卷积网络。计算机视觉和模式识别，第195-204页，2018年。2[8] Junyu Gao，Qi Wang，and Xuelong Li. Pcc net：通过空间卷积网络进行透视人群计数IEEE Transactions onCircuitsandSystemsforVideoTechnology，abs/1905.10085，2019。1[9] 亚伯·冈萨雷斯加西亚，大卫·莫多洛，和维托里奥·法拉利。语义部分在卷积神经网络中出现了吗？国际计算机视觉杂志，126（5）：476-494，2018。4[10] Ricardo Guerrerogomezolmedo ， Beatriz Torrejimenez ，RobertoJavierLopezsastre，SaturninoMaldonadobascon，and Daniel Onororubio.车辆计数极其重叠。计算机视觉和模式识别，第423-431页，2015年。6[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。计算机视觉和模式识别，第770-778页，2016年。8[12] Meng-Ru Hsieh，Yen-Liang Lin，and Winston H. Hsu.通过空间正则化区域建议网络进行基于无人机的对象计数。2017年IEEE计算机视觉国际会议。6[13] Siyu Huang ， Xi Li ， Zhongfei Zhang ， Fei Wu ，Shenghua Gao，Rongrong Ji，and Junwei Han.身体结构感知深度人群计数。 IEEE Transactions on ImageProcessing，27（3）：1049-1059，2018。1[14] Jyhjing Hwang，Tsungwei Ke，Jianbo Shi，and Stella XYu.结构化预测任务的对抗结构匹配。计算机视觉和模式识别，第4056-4065页，2019年。6[15] Haroon Idrees、Imran Saleemi、Cody Seibert和MubarakShah。密集人群图像中的多源多尺度计数。计算机视觉和模式识别，第2547-2554页，2013年。6[16] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统，第2017-2025页，2015年。5[17] 万佳和陈安东尼。用于人群计数的自适应密度图生成。2019年IEEE计算机视觉国际会议。六、七[18] Xiaolong Jiang ， Zehao Xiao ， Baochang Zhang ，Xiantong Zhen ， Xianbin Cao ， David Doermann ， andLing Shao.利用格形编码器-解码器网络进行人群计数和密度估计。计算机视觉与模式识别，2019。一二三六七[19] 李玉红，张晓凡，陈德明。Csrnet：用于理解高度拥挤场景的扩展卷积神经网络。计算机视觉和模式识别，第1091-1100页，2018年。一、二、六、七[20] Jiang Liu，Chenqiang Gao，Deyu Meng，and AlexanderG Hauptmann. Decidenet：通过注意力引导检测和密度估计来计算不同密度的人群。计算机视觉和模式识别，第5197- 5206页，2018年。第1、3条[21] Ning Liu，Yongchao Long，Changing Zou，Qun Niu，Li Pan，and Hefeng Wu. Adcrowdnet：一个用于人群理解的注意力注入可变形卷积网络。计算机视觉和模式识别，第3220一、二、六、七[22] Weizhe Liu，Mathieu Salzmann，and Pascal Fua.情境感知的人群计数。计算机视觉和模式识别，第5094-5103页，2019年。3[23] Xialei Liu ， Joost Van De Weijer ， and Andrew DBagdanov.通过学习排名，利用未标记的数据进行人群计数。计算机视觉和模式识别，第7661-7669页，2018年。1[24] Yuting Liu，Miaojing Shi，Qijun Zhao，Xiaofang Wang.点入，框出：超越人群中的人数计算机视觉和模式识别，2019年。1[25] Alex Nichol和John Schulman爬虫：一个可扩展的学习算法。学习，2018年。5[26] Viresh Ranjan、Hieu Le和Minh Hoai。迭代人群计数。欧洲计算机视觉会议，第278-293页，2018年。六、七[27] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预，第234-241页，2015年。2[28] Deepak Babu Sam和R Venkatesh Babu。自顶向下的反馈用于人群计数卷积神经网络。国家人工智能会议，第7323- 7330页，2018年。2[29] Deepak Babu Sam、Neeraj Sajjan、R Venkatesh Babu和Mukundhan Srinivasan。分裂和成长：随着cnn不断增长，捕捉人群图像的巨大多样性。计算机视觉和模式识别，第3618- 3626页，2018年。第1、3条4383[30] Zan Shen，Yi Xu，Bingbing Ni，Minsi Wang，JianguoHu，and Xiaokang Yang.通过对抗性跨尺度一致性追求的群体计数。在计算机视觉和模式识别，第5245-5254页，2018年6月。第1、3条[31] 施妙静，杨朝晖，徐超，陈启军重新访问有效人群计数的透视信息。计算机视觉和模式识别，第7271一、二、三[32] Zenglin Shi ， Le Zhang ， Yun Liu ， Xiaofeng Cao ，Yangdong Ye，Mingming Cheng，and Guoyan Zheng.使用深度负相关学习的人群计数。计算机视觉和模式识别，第5382-5390页，2018年。第1、3条[33] Karen Simonyan和Andrew Zisserman用于大规模图像识别的深度卷积网络。国际学习表征会议，abs/1409.1556，2014。四、七[34] Sindagi Vishwan

下载后可阅读完整内容，剩余1页未读，立即下载