利用自我监督进行跨域人群计数

146 浏览量更新于2023-10-25 收藏 2.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5341利用自我监督进行跨域人群计数刘伟哲1Nikita Durasov2 Pascal Fua21腾讯人工智能实验室2CVLab，EPFL摘要用于在拥挤场景中计数人数的最先进方法虽然有效，但这些数据驱动的方法依赖于大量的数据注释来实现良好的性能，这阻止了这些模型在紧急情况下的部署，在紧急情况下，数据注释要么成本太高，要么不能足够快地获得。一种流行的解决方案是使用合成数据进行训练。不幸的是，由于域转移，所得到的模型在真实图像上概括性很差。我们通过使用合成图像及其相关标签和未标记的真实图像进行训练来弥补这一缺点。为此，我们迫使我们的网络学习透视感知功能，方法是训练它从常规图像中识别颠倒的真实图像，并将预测自身不确定性的能力纳入其中，以便它能够生成为了微调的目的，使用了有用的伪标签。这产生了一种算法，该算法始终优于最先进的跨域人群计数算法，而无需在推理时进行任何代码在https：//github上公开。com/weizheliu/Cross-Domain-Crowd-Counting.1. 介绍人群计数对于视频监控和交通控制等应用非常重要。例如，在当前COVID-19疫情期间，它在监控社交距离和减缓疾病传播方面发挥了作用。大多数最先进的方法依赖于回归器来估计个体图像中的局部人群密度，然后它们继续对图像的部分进行积分以产生人数。回归器通常使用随机森林[37]，高斯过程[4]或最近的深度网络[3，28，39，44，50，51，59，63，69-71，74，77，79，94，105，106，111 ]，现在大多数最先进的不幸的是，以传统的监督方式训练这样的深度网络需要大量的地面实况符号。这是昂贵和耗时的，(a)（b）第（1）款(c)（d）其他事项图1. 动机(a)：时间、费用和健壮性。标记密集的人群是非常耗时的。注释单个图像可能需要几个小时，而且这个过程容易出错。（b）准确性：对于远离相机的区域，其中人非常小并且聚集在一起，人类几乎（c）：隐私问题。真实的图像以真实的人为特征，关于他们的信息将暴露给注释者，这可能会产生道德问题。（d）：解决办法。所有这些问题都可以通过使用合成数据来解决。减缓了数据驱动方法的部署，如图1所示。解决这个难题的一个办法是是使用合成数据进行训练然而，通常有太多的域的变化，在真正的和合成的图像之间的静态属性的变化，以这种方式训练的网络表现良好。在本文中，我们通过使用合成图像及其相关标签和未标记的真实图像进行训练来弥补这一缺点。我们迫使我们的网络学习真实图像上的透视感知特征，并将这些特征用于预测使用集合方法的快速变体[14]来有效地使用伪标签进行微调。我们按如下方式训练它：1. 最初，我们使用合成图像，未标记的真实图像，以及后者的颠倒版本。我们训练网络不仅要对合成图像给出良好的结果，而且要识别真实图像5342是上下颠倒的这种简单的自我监督方法迫使网络学习真实图像上的透视感知特征。2. 在第一个训练阶段结束时，我们对真实图像进行图像智能自我监督，我们的网络是半训练的，它估计的人密度的不确定性有意义。我们利用它们来提供像素级的自我监督，方法是将网络确信的密度视为伪标签，我们将它们当作地面真实标签来重新训练网络。我们把这个过程进行到收敛。因此，我们的贡献是一种新的方法来自我监督跨域人群计数，依赖于随机密度图，也就是说，与不确定性的地图，附加到他们，而不是更传统的确定性密度图。此外，它明确地利用了人群计数问题的特异性，即透视失真影响密度计数的事实。我们将证明它始终优于最先进的跨域人群计数方法。2. 相关工作给定拥挤场景的单个图像，目前统计人数的主要方法是训练一个深度网络，以回归每个图像位置的人密度估计。然后对该密度进行积分以提供实际计数[29，40，42，43，45，47，52，58，75，87，95，100，107，112]。大多数方法都是从个人图像中计算人数[10，76，80，86，96，103，104]，而其他方法则是从个人图像中计算人数[10，76，80，86，96，103，104 ]。视频序列中时间一致性[15，46，48，49，94，108]。虽然有效，但这些方法需要用于训练目的的大型注释数据集，这在许多现实场景中很难获得。无监督域自适应试图解决这个困难。我们讨论了早期的approaches，首先在一个通用的上下文中，然后为人群计数的具体目的。无监督域自适应。无监督域自适应的目的是在源域中只给出带注释的数据的情况下对齐源域和目标域的特征分布一种流行的方法是通过对抗学习来学习域不变特征[8，9，11，12，17，23，24，26，33，55，56，68，83，84，93，109，110]，它利用一个额外的判别器网络来缩小两个不同域之间的差距另一种弥合域间隙的方法是定义一个特定的域偏移度量，然后在训练期间将其最小化[13，30，31，35，36，38，41，53，54，61，62，65，85，97其他广泛使用的方法包括生成逼真的合成图像[2，22，72，101，102]，进行自我训练[7，19，73，78]，转移模型权重不同域之间[66，67]，并使用特定域的批量归一化[5]。[82]的方法介绍了一种自监督的辅助任务，例如在未标记的目标域图像中检测图像旋转以进行跨域图像分类，并对我们起到启发作用。人群计数。上面描述的大多数技术旨在用于分类问题，并且很少已经被证明用于人群计数目的。一个例外是[18，90，91]的方法，该方法在合成图像上训练深度模型，然后通过使用CycleGAN [113]扩展来翻译合成图像以使它们看起来真实，然后在这些翻译的图像上重新训练模型来缩小do-main差距。这项工作的一个局限性是，翻译的图像，虽然比原来的合成更逼真，仍然不是真正的真实。另一个例外是[81]的方法。它使用由在合成图像上训练的网络生成的伪标签，就好像它们是地面真实标签一样。该方法依赖高斯过程来估计伪标记的方差并使其最小化，但没有估计或考虑伪标记的不确定性，当同时使用多幅合成图像时，计算量会变得非常大。[20]的方法使用对抗学习来对齐不同领域的特征。然而，它依赖于额外的鉴别器网络，这些网络复杂且难以训练。[25，64，92]利用一些目标标签来弥合域差距，因此需要额外的注释成本。最近的工作[6，21，57]主张通过利用从其他场景收集的真实数据集来弥合do-main差距。然而，与可以简单地渲染以特别适合目标域中的人员分布的合成数据在实践中，如果域间隙太大，添加更多来自另一个的真实数据甚至会降低性能[6]。在我们的消融研究中，我们将证明，用覆盖大范围人群分布的合成数据训练的模型可以优于用从不同场景收集的现有真实数据集训练的模型与这些方法相比，我们的方法明确地考虑了不确定性，并利用了人群计数问题的特殊性，即透视失真很重要。3. 方法我们提出了一种完全无监督的方法来微调已经在注释的合成数据上训练过的网络，这样它就可以在真实数据上有效地运行，尽管可能会有很大的域偏移。我们方法的核心是一个网络，它估计每个地点的人口密度，5343≫我我 i=1我i=1----掩模池化MLP密度图解码器0 1 11 0 11 1 0合成域丢失合成图像真实图像倒置实像编码器随机密度图估计实域丢失颠倒？辅助任务解码器地面实况密度图自我监督标签掩模合成域丢失合成图像随机密度图估计地面真实密度图实域丢失真实图像随机密度图估计伪密度图编码器密度图解码器图2. 两阶段方法。上图：在第一个训练阶段，我们使用合成图像、真实图像和后者的翻转版本。该网络被训练为输出合成图像的正确的人密度，并将真实图像分类为翻转或未翻转。下图：在第二个训练阶段，我们使用合成图像和真实图像。我们在真实图像上运行之前训练的网络，并将不确定性最小的人口密度估计值视为伪标签。然后，我们对这两种图像的网络进行微调，并对过程进行优化。结合深集合方法的变体[14]以提供关于这些的不确定性。成功的关键是首先预先训练这个网络，使这些不确定性有意义，然后利用它们递归地微调网络。因此，我们开发了一种两阶段的方法，首先依赖于真实图像和这些图像的颠倒版本，以提供一个图像明智的监督信号。我们使用它们来训练网络，不仅在合成图像上给出良好的结果，而且还识别真实图像是上下颠倒的。这产生了一个部分训练的网络，可以在真实图像上操作，并返回有意义的不确定性值以及密度值。因此，我们可以利用它们来提供逐像素的监督信号，将网络最有信心的人口密度估计值视为伪标签，将其视为地面实况并用于重新训练网络。我们重复这个过程，直到网络预测稳定下来。图2描述了我们的完整方法。3.1. 网络架构形式上，设Ds=（xs，ys）Ns是合成源域数据集，其中xs表示彩色合成图像，ys表示对应的人群密度图。目标域数据集被定义为D t=xtNt，没有地面实况人群密度标签，其中xt表示彩色真实图像。在大多数现实世界中，我们有Ns Nt。我们的目标是学习一个在目标域数据上表现良好的模型。为此，我们使用最先进的编码器/解码器架构进行人口密度估计[90]。我们之所以选择这个方法，是因为它已经被跨域人群计数方法所使用，因此可以实现公平的我们的方法与以前的方法的比较。令E和D是共同形成[90]的人密度估计网络F的编码器和解码器网络给定输入图像x作为输入，E返回D作为输入以返回密度图D（f）的深度特征f=E（x）。实现分类目的的自我监督的一种方法是使用部分训练的网络来预测标签深度特征深度特征0 1 11 0 11 1 05344.，ΣD∈FDΣFF点态输入向量矩阵权重所得载体(a)（b）第（1）款图3. 假面舞会接近。在训练期间，对于每个输入向量，从一组预生成的掩码中选择二进制掩码，并将其用于将对应的一组特征归零。使用不同的掩码多次执行推理，然后产生类似集成的行为。和相关的概率，将最可能的作为伪标签，可以用于训练目的，就好像它们是地面实况标签一样 [101 ，102]。这种策略被广泛用于提供像素级[115]和图像级[114]自我监督，以解决分类问题。如果概率度量是可靠的，并且允许丢弃潜在错误的标签，则重复该过程若干次会导致网络被渐进地细化，而不需要任何地面实况标签。要在我们的上下文中实现类似的机制，我们需要的不仅仅是图像级别的标签。我们需要估计估计密度图4. 上下颠倒。（a）原始图像。由于透视效果，人的表观尺寸在图像的顶部较小，并且人的密度似乎较大。（b）在颠倒的图像中，效果是相反的。为了使解码器能够区分这两种情况，编码器必须产生透视感知特征，即考虑透视失真的特征，并且这些特征对于准确的人群计数很重要。与Ensembles一样可靠，但无需训练多个网络，因此更快，更容易训练。形式上，我们写1My<$=MFm（x），（1）m=1地图可能是正确的，哪些不是。换句话说，我们需要一个随机的人群密度图，而不是现有方法产生的确定性图在所有可以用来把我们的网络F变成一个的方法中，Mu=m=1（Fm（x）−y<$）2，（2）返回这样的随机密度图，MC-Dropout [16][34]和Deep Ensembles [34]已经成为最受欢迎的两种。这两种方法都利用集合的概念来产生不确定性估计。深度集合被广泛认为可以产生更可靠的不确定性估计[1，60]。然而，它们需要训练网络的许多不同副本，这可能非常缓慢并且消耗内存。相反，我们依赖于Masksembles，这是一种最新的方法[14]，其基本原理与MC-Dropout相同。然而，它不是通过为每个观察到的样本丢弃不同的权重子集来实现随机性，而是依赖于一组预先计算的二进制掩码，这些掩码指定要丢弃的网络图3描绘了该过程。在实践中，我们将解码器的第一个卷积层与Masksembles层相关联。在训练期间对于一个批次中的每个样本，我们随机选择一个掩码，在Masksembles层中将相应的权重设置为1或0，这就像标准dropout一样丢弃了模型的相应部分。在推理过程中，我们多次运行模型，每个掩码一次，以获得一组预测，并最终获得不确定性估计。这证明提供的不确定性估计是al-其中x是输入图像，m是使用掩码m的修改后的网络。y和u是输入图像的相同大小，并且我们将uu的各个值视为逐像素的不确定性。3.2. 图像智能自我监督m可以使用合成训练集Ds以监督的方式训练，但是这不能保证它在真实图像上工作良好。因此，我们引入在图2的顶部示出的辅助任务解码器aux，其任务是将图像分类为从编码器产生的特征正常定向或倒置。为了训练得到的双分支网络，我们使用来自Ds的合成图像以及来自Dt的真实图像和这些图像的翻转版本，如图4所示。对于合成图像，输出应该最小化给定地面真实密度图的通常的L2损失，并且对于真实图像，输出应该最小化用于二进制分类的交叉熵损失，无论是颠倒的还是颠倒的。采样一组预生成的掩码0矩阵乘法110‚5345E DDD我我我ED（x∈D）DEXMS我我我我我我M我ui1k−1 （y<$k−1−Fk（xt））<$2，采用最先进的方法。最后，我们执行一个详细的消融研究。M程序FIRST STAGE（Ds和Dt）我从真实的图像，而不仅仅是从合成的图像。毛皮-M我5346MM我我M我ui

下载后可阅读完整内容，剩余1页未读，立即下载