学会计算一切：一个新的少数镜头回归任务的视觉计数方法

162 浏览量更新于2024-01-22 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3394学会计算一切Viresh Ranjan1 Udbhav Sharma1 Thu Nguyen2 Minh Hoai1，21美国石溪大学2VinAI Research，河内，越南摘要现有的视觉计数工作主要集中在一个特定的类别，如人，动物和细胞。在本文中，我们感兴趣的是计数每一件事，也就是说，计数对象从任何类别只给出了几个注释的实例，从该类别。为此，我们将计数作为一个少数镜头回归任务。为了解决这个问题，我们提出了一种新的方法，需要一个查询图像连同一些样本对象从查询图像和预测的密度图的存在下，所有感兴趣的对象在查询图像。我们还提出了一种新的自适应策略，使我们的网络在测试时适应任何新的视觉类别，只使用一些来自新类别的示例对象我们还介绍了一个包含147个对象类别的数据集，其中包含超过6000个图像，这些图像适合于少数镜头计数任务。这些图像被标注了两种类型的注释，点和边界框，它们可以用于开发少拍计数模型。在该数据集上的实验表明，我们的方法优于几种最先进的目标检测器和少拍计数方法。我们的代码和数据集可以在https://github.com/cvlab-stonybrook/LearningToCountEverything上找到。1. 介绍人类可以轻松地从大多数视觉对象类别中计数对象，而当前最先进的计数计算方法[29，48，55]只能处理有限数量的视觉类别。事实上，大多数计数神经网络[4，48]可以一次处理一个类别，例如人，汽车和细胞。有两个主要的挑战阻止了计算机视觉社区设计能够计算大量视觉类别的系统首先，大多数当代计数方法[4，48，55]将计数视为监督回归任务，需要数千个标记图像来学习将输入图像映射到其相应密度图的完全卷积回归器，通过对所有密度值求和来获得估计计数。这些网络需要点图1：我们工作的目标--少射计数。给定来自新类别的图像和来自由边界框描绘的相同图像的几个样本对象，目标是对图像中的新类别的对象的总数进行计数。在一些实施例中，对数千个训练图像上的数百万个对象进行注释，并且获得这种类型的注释是昂贵且费力的过程。因此，很难扩展这些当代计数方法来处理大量的视觉类别。第二，没有任何足够大的无约束计数数据集与许多视觉类别的发展，一个通用的计数方法。大多数流行的计数数据集[14在这项工作中，我们将解决上述两个挑战。为了应对第一个挑战，我们绕开了现有的计数方法，将计数视为典型的全监督回归任务，并将计数视为少数镜头回归任务，如图1所示。在这种少数镜头设置中，计数任务的输入是图像和来自感兴趣对象的同一图像的少数这些示例以感兴趣对象周围的边界框的形式提供。换句话说，我们的少数镜头计数任务处理图像内与来自同一图像的样本相似的计数实例。遵循少数分类任务的惯例[9，20，46]，测试时的类与训练期间看到的类完全不同。这使得少炮计数与典型的计数任务非常不同，在典型的计数任务中，训练和测试类是相同的。与典型的计数任务不同，在典型的计数任务中，有数百[55]或数千[16]个标记的示例可用于训练，少数计数方法需要推广到全新的类3395仅使用输入图像和一些样本。我们提出了一种新的架构称为FewShotA适应和匹配网络（FamNet），用于解决少数镜头计数任务。FamNet有两个关键组件：1）特征提取模块，2）密度预测模块。特征提取模块由能够处理大量视觉类别的通用特征提取器密度预测模块被设计成与视觉类别无关。从我们的实验中可以看出，特征提取器和密度预测模块都可以在测试时推广到新类别。我们进一步提高的per-sancture的FamNet开发一种新的少拍自适应计划在测试时。该自适应方案使用所提供的样本本身，并通过一些梯度下降更新使计数网络适应于它们，其中梯度是基于两个损失函数计算的，这两个损失函数被设计为最大程度地利用样本的位置。从经验上讲，这种适应方案提高了FamNet的性能。最后，为了解决缺乏用于开发和评估少数镜头计数方法性能的数据集的问题，我们引入了一个中等规模的数据集，该数据集由来自147个视觉类别的6000多幅图像组成。该数据集带有点和边界框注释，适用于少数镜头计数任务。我们将这个数据集命名为Few-ShotCounting-147（FSC-147）。总之，我们工作的主要贡献如下。首先，我们将计数作为一个少数镜头回归任务。其次，我们提出了一种新的架构，称为FamNet的处理少拍计数任务，在测试时的一个新的少拍适应计划。第三，我们提出了一个新的少数拍摄计数数据集称为FSC-147，包括超过6000张图像与147个视觉类别。2. 相关作品在这项工作中，我们感兴趣的是在一个给定的图像与一些标记的例子，从同一个图像中计数感兴趣的对象。大多数以前的计数方法是针对特定类型的对象，如人[2，5，6，23，26，27，29，32-[14][15][16][17][18][ 19][1这些方法通常需要训练具有数万甚至数百万注释对象实例的图像。其中一些作品[34]通过将在源域上训练的计数网络适应于任何目标域，仅使用来自目标域的少数信息样本的标签，在一定程度上解决了昂贵的注释成本问题然而，即使这些方法也需要源域中的大量标记数据。所提出的FamNet的工作原理是利用查询图像和图像中所提供的示例对象在某种程度上，这是一种...Shechtman和Irani [41]的十年之久的自相似性工作。Lu和Zisserman[28]最近的工作也与这个想法有关，他们提出了一个用于类不可知计数的通用匹配网络（GMN）。GMN是用跟踪视频数据进行预训练的，它有一个显式的自适应模块来使网络适应感兴趣的图像GMN已被证明工作良好，如果几十到几百个例子可用于adapta- tion。如果没有适应，GMN在新类上的表现不是很好，这将在我们的实验中看到。与少数镜头计数相关的是少数镜头检测任务（例如，[8，17]），其中目标是使用一些标记的示例来学习新类别的少炮计数与少炮检测的区别主要体现在两个方面。首先，少数拍摄计数需要点注释，而检测需要边界框注释。其次，少数镜头检测方法可能会受到严重遮挡的影响，而少数镜头计数是通过密度估计方法[22，55]来处理的，该方法比检测然后计数方法对遮挡更鲁棒，因为密度估计方法不必在早期阶段进行二值化决策密度估计方法的优点已在多个领域得到实证证明，特别是对于人群和细胞计数。与我们的工作相关的还有少镜头图像分类的任务[9，19，21，35，40，46]。少镜头分类任务处理在测试时从新类别中分类图像，给出来自这些新测试类别的一些训练示例基于模型不可知 Meta Learning（MAML）[9]的少镜头方法与我们的少镜头计数任务相关，它专注于学习参数，这些参数可以通过几个梯度下降步骤在测试时适应新的类。然而，MAML涉及在训练过程中计算二阶导数，这使得它昂贵，对于我们的论文中考虑的密度图预测的像素级预测任务更是如此从这些作品中汲取灵感，我们提出了一种新的适应方案，该方案利用了测试时可用的样本，不像MAML，我们的训练方案在训练时不需要高阶梯度。我们将我们的方法与MAML进行了比较，并根据经验表明，它可以带来更好的性能，并且训练速度也更快。3. 少镜头自适应匹配网络在本节中，我们将描述用于处理少数镜头计数任务的FamNet。3.1. 网络架构图2描述了FamNet的管道网络的输入是一幅图像X∈H×W×3和一个fewexample3396图2：少镜头自适应匹配网络将查询图像以及描述感兴趣对象的几个边界框作为输入，并预测密度图。计数通过对密度图中的所有像素值求和而获得。基于边界框信息计算自适应损失，并且来自该损失的梯度用于更新密度预测模块的参数。自适应损耗仅在测试期间使用。边界框描绘了来自同一图像的要计数的对象网络的输出是预测的密度mapZ∈H×W，并且通过对所有密度值求和来获得感兴趣对象的计数FamNet由两个关键模块组成：1）多尺度特征提取模块，2）密度预测模块。我们设计这两个模块，使他们能够在测试时处理新的类别。我们使用ImageNet预训练网络[12]进行特征提取，因为这样的网络可以处理广泛的视觉类别。密度预测模块被设计成与视觉类别无关。多尺度特征提取模块由来自预训练的ResNet-50主干的前四个块组成[12]（这些块的参数在训练期间被冻结）。我们通过第三和第四块的卷积特征图来表示图像。我们还通过对第三和第四个Resnet-50块的卷积特征图执行ROI池化来获得样本的多尺度特征。为了使密度预测模块对视觉类别不可知，我们不直接使用从特征提取模块获得的特征进行密度预测。相反，我们只使用样本特征和图像特征之间的相关图作为密度预测模块的输入为了说明不同尺度下的感兴趣对象，我们将样本特征缩放到不同尺度，并将缩放的样本特征与图像特征相关联以获得多个相关图，每个尺度一个相关图。对于我们所有的实验，我们使用0.9和1.1的尺度，以及原始尺度。将这些映射连接起来并输入密度预测模块。密度预测模块由五个卷积块和三个上采样层组成最后一层是1×1卷积层，它预测2D密度，材质贴图。预测密度图的大小与输入图像的大小相同。3.2. 培训我们使用数据集的训练图像来训练FamNet。每个训练图像包含多个感兴趣的对象，但只有样本对象用边界框注释，大多数对象只有点注释。然而，直接基于点标注定义训练损失，训练密度估计网络是困难大多数现有的视觉计数工作，特别是人群计数[55]，将点注释图与固定大小，通常为15×15，以生成用于训练密度估计网络的平滑目标我们的数据集由147个不同的类别组成，其中对象的大小存在巨大差异。因此，为了生成目标密度图，我们使用具有自适应窗口大小的高斯平滑。首先，我们使用点标记来估计对象的大小。给定点注释图，其中每个点都位于对象的近似中心，我们计算每个点与其最近邻居之间的距离该平均距离用作高斯窗口的大小以生成目标密度图。高斯的标准偏差被设置为窗口大小的四分之一为了训练FamNet，我们最小化预测密度图和地面真实密度图之间的均方误差。我们使用Adam优化器，学习率为10−5，批量大小为1。我们将每个图像的大小调整为384的固定高度，并相应地调整宽度以保持原始图像的纵横比。339723.3. 测试时间自适应扰动损失如下：由于FamNet的两个模块不依赖于任何对象类别，因此经过训练的FamNet已经可以用于对来自新类别的对象进行计数，L每Σ=||个zlbb∈B-Gh×w ||2.（二）范例在本节中，我们描述了一种新的方法来使该网络适应样本，进一步提高估计计数的准确性。关键思想是利用范例边界框的位置提供的信息。到目前为止，我们只使用样本的边界框来提取样本的外观特征，我们还没有充分利用它们的位置。令B表示所提供的示例边界框的集合。对于边界框b∈B，令Zb为位置b处密度图Z的裁剪。为了利用由边界框B的位置提供的额外信息，我们建议考虑以下两个损失。最小计数损失。对于每个示例边界框b，Zb内的密度值之和应至少为1。这是因为预测计数被视为预测密度值的总和，并且在由边界框b指定的位置处存在至少一个对象。然而，我们不能断言Zb内的密度值之和正好是1，因为b和其他附近感兴趣的物体这一观察导致不等式约束：||个zlb||1≥ 1，其中||个zlb||1表示Z b中所有值的和。根据预测的密度map和为示例提供的边界框集合，我们定义以下Min-Count损失来量化约束违反的量：Σ合并适应损失。用于测试时自适应的损失是最小计数损失和扰动损失的加权组合。最终的测试时间自适应损失如下所示：LAdapt=λ1LMinCount+λ 2LPer，（3）其中λ1和λ2是标量超参数。在测试时，我们对每个测试图像执行100个梯度下降步骤，并优化等式中的联合损失。（三）、我们使用学习率10−7。λ1和λ2的值分别为10−9和10−4学习率、梯度步数、λ1和λ2根据验证集上的性能进行调整λ1和λ2的值看起来很小，但这是使自适应损失与训练损失具有相似幅度所必需的即使训练损失不用于测试时间自适应，重要的是损失及其梯度具有相似的幅度。否则，自适应过程的梯度更新步骤将不做任何事情或远离在训练期间学习的参数。注意，自适应损耗仅在测试时使用。在FamNet的训练期间，这种损失是冗余的，因为基于在所有像素位置上计算的均方误差的所提出的训练损失已经提供了比自适应损失更强的监督信号。4. FSC-147数据集为了训练FamNet，我们需要一个适合的数据集，LMinCount=b∈Bmax（0，1 −||个zlb||①的人。（一）少数镜头计数任务，由许多视觉类别组成。不幸的是，现有的计数数据集大多专用于特定的对象类别，例如人，汽车，扰动损失我们的第二次失败是利用了-示例边界Boxes的灵感来自于基于相关滤波器的跟踪算法的成功[13，44，51]。给定要跟踪的对象的边界框，这些算法学习在边界框的确切位置处具有最高响应相关滤波器可以通过优化回归函数来学习，以从扰动位置映射到目标响应值，其中目标响应值随着扰动距离的增加而指数地减小，通常由高斯分布指定。在我们的情况下，预测密度图Z本质上是样本和图像之间的相关响应图。为此，样本位置周围的密度值应该理想地看起来像高斯分布。设Gh×w是尺寸为h×w的2D高斯窗。我们定义和细胞。同时，现有的多类数据集并不包含许多适合视觉计数的图像。例如，尽管来自COCO数据集[25]的一些图像包含来自同一对象类别的多个实例，但由于对象实例的数量较少或每个图像中对象实例的姿势和外观的巨大变化，由于没有足够大和多样化的数据集来满足我们的目的，我们自己收集和注释我们的数据集由6135张图像组成，涉及147个对象类别，从厨房用具和办公文具到车辆和动物。我们数据集中的对象数量变化很大，从7到3731个对象，平均每个图像56个对象。在每个图像中，每个对象实例在其近似中心处用点注释。此外，还选择了三个对象实例33982000175015001250注释类型数据集图像类别点边界框01-1010-2020-5050-100 100-300>300图像中的对象数量(c)与流行的计数数据集进行比较。(a) 图像类别和我们数据集中每个类别的图像数量。(b) 多个对象计数范围内的图像数图3：类别&编号每个类别的图像数量、对象计数以及与其他计数数据集的比较随机地作为范例实例;这些范例也用轴对齐的边界框来注释。在下面的小节中，我们将描述如何收集和注释数据我们还将报告详细的统计数据以及数据如何被划分为不相交的训练集、验证集和测试集。4.1. 图像采集为了获得我们数据集的6135张图像，我们从一组通过关键字搜索获得的候选图像开始。随后，我们执行手动检查以过滤掉不满足如下所述的预定义条件的图像图像检索。我们从对象类别列表开始，通过抓取网络为每个类别收集 300-3000 个候选图像。我们使用Flickr、Google和Bing搜索引擎以及开源的图片剪贴器[7，45]。我们在类别名称前面添加了许多、多个、很多和堆叠等形容词，以创建搜索查询关键字。手动验证和过滤。我们手动检查候选图像，仅保留符合以下标准的合适图像：1. 高图像质量：分辨率应该足够高，以便轻松区分对象。2. 足够大的对象数：感兴趣的对象数至少应为7。我们更感兴趣的是计数大量的对象，因为人类不需要帮助计数少量的对象。3. 外观相似性：我们选择的图像中，对象实例有一些相似的姿势，纹理和外观。4. 没有严重的遮挡：在大多数情况下，我们删除了严重遮挡阻止人类准确计数对象的可识别图像4.2. 图像标注数据集中的图像由一组标注员使用OpenCV图像和视频标注工具进行标注[1]。为每个图像收集两种类型的注释，点和边界框，如图4所示。对于包含多个类别的图像，我们只选择其中一个类别。图像中的每个对象实例都在其近似中心处标记有一个点。在遮挡的情况下，如果遮挡量小于90%，则仅对遮挡实例进行计数和注释。对于每个图像，我们任意选择三个对象作为exem- plar实例，并为这些实例绘制轴对齐的边界框4.3. 数据集分割我们将数据集划分为训练集、验证集和测试集，使它们不共享任何对象类别。我们为训练集随机选择了89个对象类别，为验证集和测试集分别选择了29个类别。训练集、验证集和测试集分别由3659、1286和1190幅图像组成4.4. 数据统计该数据集共包含6135张图像。图像的平均高度和宽度分别为774和938像素.平均每幅图像包含56个对象，对象总数为343，818个。一个图像的最小和最大对象数分别为7和3701。每张图片中物体数量最多的三个类别是：乐高（303个），Pills药丸，55数量的图像[15]第十五话501✓✗1000上海理工大学[55] 11981✓✗[16]第十六话15351✓✗750[49]第四十九话51091✓✗500[43]第四十三话43721✓ ✓[第14话]14481✓ ✓250提出6135147✓ ✓3399验证集测试集Val-COCO Set测试-COCO Set家庭网络（拟议）39.82 108.13 22.76 45.92FSOD少发探测器[8] 36.36 115.00 32.53 140.65表2：比较FamNet与预训练的对象去GMN [28]29.66 89.81124.57tectors，on counting计数objects对象from categories类别where there areMAML [9]25.54 79.44112.68美元预先训练的物体探测器FamNet（拟议）23.75 69.0722.08 99.54Meta参数，有助于更快地推广到新的表1：将FamNet与两个简单的基线（平均值，中位数）和四个更强的基线（特征重新加权（FR）少拍检测器，FSOD少拍检测器，GMN和MAML）进行比较，这些都是经过调整和训练用于计数的少拍方法。FamNet在val和test集上都具有图/图像）、Brick（271）和Marker（247）。每个图像具有最低数量的对象的三个类别是：超市货架（8个对象/图像）、肉串（8）和牡蛎（11）。图3b是对象计数的若干范围中的图像数目的直方图。5. 实验5.1. 绩效评估我们用平均绝对误差（ MAE ）和均方根误差（RMSE）来衡量计数方法的准确性MAE和RMSE是常用的方法，计算任务的rics[29，32，55]，和theey是de-e-y-e-y任务在测试时，只执行内部优化我们使用等式中定义的LAdapt（3）对于内部优化循环，以及对于外部优化循环，在整个点注释图上的MSE损失。从表1中可以看出，FamNet优于所有其他方法。令人惊讶的是，预训练的GMN并不工作得很好，即使它是一个类不可知的计数方法。在我们的训练数据上训练的GMN模型比它的预训练版本表现得更好;这证明了我们数据集的好处。最先进的少拍检测器[8，17]表现相对较差，即使在我们的数据集上进行训练。有了这些结果，我们是第一个显示的经验证据的检测，然后计数的方法相比，密度估计方法（GMN，MAML，FamNet）的通用对象计数的劣性。然而，这对于人群计数研究界来说并不新鲜，其中密度估计方法在最近的文献中占主导地位[55]，这要归功于其对遮挡的鲁棒性和不必在早期阶段进行二值化决策的自由度之间罚款如下MAE=1n|ci−ci|;RMSE=. Σni=1在各种竞争方法中，MAML是最好的方法。1Nni=1（ci-ci）2，其中n是测试图像的数量这可能是因为MAML是一种Meta学习方法而ci和cnci是基础事实和预测计数。5.2. 与少炮方法的比较我们比较了FamNet的性能与两个triv- ial基线和四个竞争的少数拍摄方法。两个平凡的基线方法是：（1）总是输出训练图像的平均对象计数;（2）总是输出训练图像的中值计数。我们还实施了更强大的方法进行比较，通过调整几个少数拍摄方法的计数任务，并在我们的训练数据上训练它们。具体来说，我们采用以下方法进行计数：最先进的少数检测器[8，17]，通用匹配网络（GMN）[28]和模型不可知Meta Learning（MAML）[9]。我们使用高级库[10]实现MAML，这是一个支持高阶优化的Meta学习库。MAML的训练过程包括一个内部优化循环和一个外部优化循环，内部优化循环使网络适应特定的测试类，外部优化循环学习它利用了FamNet架构的优势建筑作为其核心组成部分。MAML训练该网络的方式导致了比GMN更好的模型，但它仍然不如所提出的FamNet以及所提出的训练和自适应算法。就每个时期的训练时间而言，FamNet比MAML快三倍左右，因为它不需要像MAML那样的任何高阶5.3. 与物体探测器的比较计数的一种方法是使用检测器来检测对象，然后计数。这种方法只适用于某些类别的对象，其中有针对这些类别的检测器。通常，它需要数千个示例来训练对象检测器，因此这不是用于一般视觉计数的实用方法。然而，我们评估了FamNet在COCO数据集上具有预训练对象检测器的验证和测试集我们称这些方法MaeRMSE MAE RMSEFaster R-CNN52.79172.46 36.20 79.59RetinaNet63.57174.36 52.67 85.86Mask R-CNN52.51172.21 35.56 80.00方法MAE RMSE MAE RMSE是说53.38 124.53 147.67中值47.73 152.46[17]第十七话41.64 141.04[28]第二十八话60.56 137.78 159.673400图4：数据集中的几个带注释的图像。点和框注释分别以红色和蓝色显示。每个图像中的对象数量变化很大，有些图像包含十几个对象，而有些图像包含数千个对象。样本数量MaeRMSE126.5577.01224.0972.37323.7569.07表3：随着样本数量的增加，FamNet对验证数据的性能。FamNet可以提供一个合理的计数估计，即使是一个单一的样本，估计变得更准确与更多的样本。Val-COCO和Test-COCO子集，分别包括277和282幅图像。具体来说，我们将FamNet与FasterRCNN [37]，MaskRCNN [11]和RetinaNet [24]进行了比较。所有这些预先训练的探测器都可以在Detectron2库中使用[52]。表2显示了比较结果。可以看出，FamNet优于预先训练的检测器，即使在检测器已经用来自COCO数据集的数千个注释示例训练随着样本数量的增加，以及（2）FamNet不同组件的好处。在表3中，我们分析了FamNet的性能，因为样本的数量在FamNet的测试期间在一到三个之间变化。我们可以看到，FamNet甚至可以使用一个样本，并且它的性能优于表1中列出的所有计算方法，只需2个样本。毫不奇怪，FamNet的性能随着样本数量的增加而提高。这表明，我们的系统的用户可以获得一个合理的计数，即使有一个单一的样本，他们可以通过提供更多的样本获得更准确的在表4中，我们分析了FamNet关键组件的重要性：多尺度图像特征映射、多尺度样本特征和测试时间自适应。我们在FSC-147的训练集上训练没有这些组件的模型，并报告验证性能。我们注意到FamNet的所有组件都很重要，添加每个组件都会提高结果组件组合多尺度图像特征多尺度样本特征测试时间自适应✗✗✗C✗✗CC✗CcCMae32.7027.80 24.32 23.75RMSE104.31 93.53 70.94 69.07表4：分析FamNet的组成部分。 FamNet的每个组件都增加了性能。5.4. 消融研究我们对FSC- 147的验证集进行消融研究，以分析：（1）计数性能如何变化5.5. 计算类别特定对象FamNet被专门设计为通用的，能够计算只有几个样本的通用对象。因此，要求它对特定类别（例如计算汽车）非常有效可能不公平。汽车是出现在许多数据集中的流行对象，并且这类对象是许多网络调优的显式或隐式目标，因此如果我们的方法不如其他定制解决方案那么好，也就不足为奇了。话虽如此，我们仍然研究了使用FamNet从CARPK数据集[14]中计算汽车的适用性，该数据集由向下定向的无人机相机拍摄的停车场的头顶图像训练集和测试集由989个3401图像预测方法MaeRMSE[14，36]48.8957.55更快的RCNN [14，38]47.4557.39单视回归[14，30]59.4666.84更快的RCNN [14，38]（RPN-small）24.3237.62空间正则化RPN [14]23.8036.79GT计数：263预测数：280GMN [28]7.489.90FamNet-28.8444.47FamNet+（用CARPK数据训练） 18.1933.66表5：盘点汽车性能上CARPK数据集。FamNet-是一个FamNet模型，它是在没有任何CARPK图像或来自FSC-147汽车类别的图像的情况下训练的。其他方法使用整个CARPK训练集。预训练的FamNet-FamNet+，产生更好的性能。共459张图片数据集中有大约90，000辆汽车我们用FamNet的两个变体进行了实验：一个预先训练的模型和一个在CARPK数据集上训练的模型。预训练的FamNet模型被称为FamNet-，使用来自CARPK的训练数据训练的FamNet模型被称为FamNet+，它的训练过程如下。我们从训练集中随机抽取一组12个样本，并将其用作所有训练和测试图像的样本。我们在CARPK训练集上训练FamNet+。表5显示了几种方法对该CARPK数据集的结果。FamNet+优于除GMN之外的所有方法[28]。与所有其他方法不同，GMN使用来自ILSVRC视频数据集的额外训练数据也许这就是为什么GMN对CARPK特别有效的原因。5.6. 定性结果图5显示了一些图像和FamNet预测。前三个是成功案例，最后一个是失败案例。对于第四幅图像，FamNet将背景的部分混淆为前景，因为背景和感兴趣的对象之间的外观相似图图6示出了测试时间自适应通过降低密集区域中的密度值来改善初始计数的测试情况6. 结论在本文中，我们提出计数作为一个少数镜头回归任务。考虑到不存在用于少数镜头计数任务的合适数据集，我们收集了具有相对大量对象类别的视觉计数数据集，GT计数：77 Pred计数：77GT计数：47 Pred计数：46GT计数：77预测计数：192图5：预测密度图和FamNet。图像预适应适应后GT计数：240计数：356计数：286图6：测试时间自适应。所示为初始密度图（适应前）和适应后的最终密度图（适应后）。在过度计数的情况下，自适应降低密集位置处的密度值。实例.我们还提出了一种新的密度预测方法，适用于少镜头视觉计数任务。我们将我们的方法与几种最先进的检测器和几种镜头计数方法进行了比较，并表明我们的方法优于所有这些方法。鸣谢：该项目得到了MedPod、SUNY 2020基础设施运输安全中心和Stony Brook的NSF I/UCRC视觉和决策信息学中心的部分支持。3402引用[1] 计算机视觉注释工具。[2] Shahira Abousamra，Minh Hoai，Dimitris Samaras，andChao Chen.拓扑约束下的人群定位。在AAAI人工智能会议论文集，2021年。[3] Carlos Arteta，Victor Lempitsky，J Alison Noble和An-德鲁·泽瑟曼。利用极值区域树检测显微图像医学图像分析，27：3[4] 卡洛斯·阿尔特塔，维克多·伦皮茨基，安德鲁·齐瑟曼。在野外数数。在欧洲计算机视觉会议论文集，2016年。[5] Deepak Babu Sam、Neeraj N Sajjan、R Venkatesh Babu和穆昆丹·斯里尼瓦桑分而治之：用不断增长的cnn捕捉人群图像的巨大多样性。在IEEE计算机视觉和模式识别会议论文集，2018年。[6] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在2018年欧洲计算机视觉会议上[7] 德尔·里卡多·奇亚罗。python-flickr-image-downloader.[8] 祁凡，卓伟，唐志强，戴玉荣。基于注意力rpn和多关系检测器的少镜头目标检测。IEEE计算机视觉与模式识别会议论文集，2020年。[9] Chelsea Finn Pieter Abbeel和Sergey Levine 型号-不可知元学习，用于深度网络的快速适应。在2017年国际机器学习会议上[10] 爱德华格雷芬斯特布兰登艾莫斯丹尼斯·亚拉茨，Phu Mon Htut ， Artem Molchanov ， Franziska Meier ，Douwe Kiela，Kyunghyun Cho，and Soumith Chintala.广义内循环元学习。arXiv预印本arXiv：1910.01727，2019。[11] Kaim ing He，Geor gia Gkioxari，Piotr Dolla'r和Ross Gir-真恶心。屏蔽R-CNN。在2017年国际计算机视觉会议上[12] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。[13] J. F.恩里克斯河卡斯滕斯，P.马丁斯，和J.巴蒂斯塔。高-用核相关滤波器进行速度跟踪。IEEE Transactions onPattern Analysis and Machine Intelligence，37（3 ）：583[14] Meng-Ru Hsieh，Yen-Liang Lin，and Winston H Hsu.无人机-基于空间正则化区域投影网络的目标计数。在国际计算机视觉会议论文集，2017年。[15] Haroon Idrees，Imran Saleemi，Cody Seibert和MubarakShah.密集人群图像中的多源多尺度计数。IEEE计算机视觉与模式识别会议论文集，2013年。[16] Haroon Idrees ， Muhmmad Tayyab ， Kishan Athrey ，DongZhang ， Somaya Al-Maadeed ， Nasir Rajpoot ， andMubarak Shah.密集人群中计数、密度图估计和定位的成分损失。InProceedings of the2018年欧洲计算机视觉会议。[17] Bingyi Kang ， Zhuang Liu ， Xin Wang ， Fisher Yu ，Jiashi Feng，and Trevor Darrell.通过特征重新加权的少镜头目标检测。在2019年国际计算机视觉会议上[18] Aisha Khan，Stephen Gould，and Mathieu Salzmann. 深卷积神经网络用于人类胚胎细胞计数。在欧洲计算机视觉会议上。Springer，2016.[19] 格雷戈里·科赫理查德·泽梅尔和鲁斯兰·萨拉胡迪诺夫。用于单次图像识别的连体神经网络。在ICML深度学习研讨会，2015年。[20] 布兰登·M Lake，Ruslan Salakhutdinov和Joshua B.特南鲍姆通过概率程序归纳的人类水平概念学习。Science，350（6266）：1332[21] 布伦登M湖， Ruslan Salakhutdinov，关于Joshua B特南鲍姆通过概率程序归纳的人类水平概念学习。Science，350（6266）：1332-1338，2015.[22] 维克多·伦毕斯基和安德鲁·齐瑟曼学习数数图像中的对象。神经信息处理系统的进展，2010年。[23] Yuhong Li，Xiaofan Zhang，and Deming Chen. 中国新闻网：迪-卷积神经网络，用于理解高度拥挤的场景。在IEEE计算机视觉和模式识别会议集，2018年。[24] Tsung-Yi Lin，Priya Goyal，Ross Girshick，Kaiming He，and彼得·多尔·拉尔。用于密集目标检测的焦面损失。在2017年计算机视觉国际会议的开幕式[25] Tsung-Yi Lin，Michael Maire，Serge Belongie，Lubomir放大图片创作者：James Hays，Pietro Perona，DevaRamanan，C. 劳伦斯·齐特尼克和彼得·多尔·拉尔。MicrosoftCOCO：上下文中的通用对象。2014年欧洲计算机视觉会议论文集[26] Weizhe Liu，Mathieu Salzmann，and Pascal Fua. 背景-注意人群计数。在IEEE计算机视觉和模式识别会议论文集，2019年。[27] Xiaei Liu，Joost Van De Weijer，and Andrew D Bagdanov.通过学习排名，利用未标记的数据进行人群计数在IEEE计算机视觉和模式识别会议论文集，2018年。[28] Erika Lu，Weidi Xie，and Andrew Zisserman.阶级不可知论者数数2018年亚洲计算机视觉会议论文[29] 马志恒，魏兴，洪小鹏，龚义宏。点监督下人群计数估计的贝叶斯损失。在2019年国际计算机视觉会议上[30] T Nathan Mundhenk，Goran Konjevod，Wesam A Sakla，and科菲·博阿凯一个大型的上下文数据集，用于通过深度学习对汽车进行分类、检测和计数。在2016年欧洲计算机视觉会议上。[31] 玛丽亚姆·拉赫内穆尔和克莱·谢泼德深度计数：基于深度模拟学习的水果计数。传感器，17（4）：905，2017年。[32] 维雷什·兰詹、晓乐和明怀。迭代人群3403数数在2018年欧洲计算机视觉会议上[33] 维雷什穆巴拉克？兰詹 Shah和Minh Hoai阮。人群Transformer网络。arXiv预印本arXiv：1904.02774，2019。[34] 维雷什·兰詹，王伯玉，穆巴拉克沙阿，关于MinhHoai. 人群计数的不确定性估计与样本选择2020年亚洲计算机视觉会议论文[35] Sachin Ravi和Hugo Larochelle。优化模型for few-shot少数-shot射击learning学习. 2016年。[36] 约瑟夫·雷德蒙，桑托什·迪瓦拉，罗斯·吉希克，阿里·法哈迪。您只需查看一次：统一的实时物体检测。IEEE计算机视觉与模式识别会议论文集，2016年。[37] 任少卿，何开明，Ross Girshick，孙健。Faster R-CNN：Towards Real-time Object Detection withRegion Proposal Networks. 神经信息处理系统的进展。2015年。[38] 任少卿，何开明，Ross Girshick，孙健。更快的r-cnn：用区域建议网络实现实时目标检测。神经信息处理系统的进展，2015年。[39] Deepak Babu Sam，Shiv Surya和R Venkatesh Babu。用于人群计数的切换卷积神经网络IEEE计算机视觉与模式识别会议论文集，2017年。[40] Adam Santoro，Sergey Bartunov，Matthew Botvinick，Daan作者声明：John W.使用记忆增强神经网络的一次性学习。2016年。[41] 伊莱·谢赫特曼和米哈尔·伊拉尼匹配本地自-图像和视频之间的相似性。在IEEE计算机视觉和模式识别会议集，2007年。[42] 施妙静，杨朝晖，徐超，陈启军再-访问视角信息以进行有效的人群计数。在IEEE计算机视觉和模式识别会议论文集，2019年。[43] Vishwanath A Sindagi，Rajeev Yasarla和Vishal M Pa-电话Jhu-crowd++：大规模人群计数数据集和基准方法。arXiv预印本arXiv：2004.035

下载后可阅读完整内容，剩余1页未读，立即下载