类不可知计数：学习表示和相似性度量的相似性感知CAC方法

97 浏览量更新于2023-10-25 收藏 2.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9529表示、比较和学习：一个用于类无关计数的闵世浩陆晨峰程欣刘志国曹*图像处理与智能控制教育部重点实验室华中科技大学人工智能与自动化学院{闵石，胡璐，陈峰，刘春，曹志}@hust.edu. CN摘要类不可知计数（CAC）的目标是在给定少量样本的情况下对查询图像中的所有实例进行计数。标准的流水线是从样本中提取视觉特征，并将它们与查询图像进行匹配以推断对象计数。在这个管道中的两个重要组成部分是特征表示和相似性度量。现有的方法要么采用预先训练的网络来表示特征，要么学习一个新的，同时应用一个朴素的相似性度量与固定的内积。我们发现这种模式会导致嘈杂的相似性匹配，从而损害计数性能。在这项工作中，我们提出了一个相似性感知CAC框架，联合学习表示和相似性度量。我们首先实例化我们的框架与一个朴素的基线称为双线性匹配网络（BMNet），其关键组件是一个可学习的双线性相似性度量。为了进一步体现框架的核心，我们将BMNet扩展为BMNet+，从三个方面对相似性进行建模：1）通过自相似性表示实例，以增强对类内变化的特征鲁棒性; 2）动态比较相似性，以关注每个样本的关键模式; 3）从监督信号中学习在最近的CAC数据集FSC147上进行的广泛实验表明，我们的模型显著优于最先进的CAC方法。此外，我们还验证了BMNet和BMNet+在汽车计数数据集CARPK上的跨数据集通用性。代码是在tiny.one/BMNet1. 介绍对象计数旨在从图像中推断对象的数量大多数现有的方法集中于特定的类别，人群[42]，动物[2]或汽车[26]，同时需要大量的训练数据来学习一个好的模型。相反，如果只给出一个新类别的范例，一*通讯作者示例性查询图片FamNet BMNet+图1. 类不可知计数。与最先进的Fam-Net [29]相比，我们的模型（BMNet+）生成高保真结果。汽车，即使是一个孩子也可以轻松地捕捉其视觉属性，并在新的场景中计算汽车。最近，CAC（类不可知计数）[21，29，40]，它计数对象的任意类别的egories只给出了几个样本，提出了减少对训练数据的依赖CAC指出了对象计数的一个有希望的方向，即，从学习数数到学习数数的方法。通常，现有的CAC方法[21，29，40]在提取和匹配流水线中工作他们首先从样本中提取视觉特征，并将这些特征与查询图像的特征相匹配。然后，相似性匹配结果被用作中间表示来推断对象计数。其中，两个因素起着关键作用：特征表示和相似性度量.现有方法使用可学习的[21，40]或固定的特征提取器[29]，但应用具有一些预定义规则的相似性度量，例如。，在-9530··ner product [29，40].我们发现这可能会产生不满意的匹配结果。从图1中，通过检查最近的模型FamNet[29]，我们观察到背景上的明显噪声和目标位置上的弱响应。考虑到这种模糊性，所得到的密度图可能是错误的。在这项工作中，我们提出了一个通用的CAC相似性感知框架，它以端到端的方式联合学习表示我们的目标是寻求更好的相似性建模，可以推广到新的类别。首先，我们实例化一个双线性匹配网络（BMNet），它将固定内积扩展为可学习的双线性相似性度量，并且还允许通过反向传播进行可学习的表示。与固定内积不同，双线性相似性度量捕获特征通道之间的灵活交互以测量相似性。然后，我们将BMNet 扩展到BMNet+，从三个方面体现了我们框架的核心动机：通过自相似性表示实例，动态比较相似性，以及通过显式，相似性感知的监督进行学习特别是，我们应用自我注意力[43]来表示特征之间的自相似性，以减轻类内变化。它用来自其他类内实例的信息来增强每个实例的特征，这样就可以提供像尺度或视角这样的互补线索。动态相似性度量将特征选择模块应用于样本以找到关键模式，因此包含动态性和选择性。然后，受度量学习[25]的启发，相似性损失对中间相似性图施加了明确的监督，以将样本和目标拉近，但将样本和背景推开。在公共基准测试FSC147 [29]上的实验表明，我们的方法比以前的最佳方法有很大的优势，相对提高了+33。72%+33 在平均绝对误差方面，验证集和测试集的平均绝对误差为79%。根据图1，我们的方法输出更好的中间相似度结果，并提出了不同类别的通用性。消融研究验证了BMNet+中的三个主要组件我们进一步展示了我们的模型在汽车计数数据集CARPK上的跨数据集通用性[13]。我们的贡献是双重的：一个通用的CAC框架，包括现有的管道，并推广它与联合表示学习和相似性学习;BMNet和BMNet+：从我们的框架实例化的两个CAC模型，它们的模型具有相似性。2. 相关工作2.1. 类特定的对象计数根据计数问题的表述方式，现有的方法可以分为：检测[10]、回归[7，36，42，44]、分类[17]和定位[1，9，31]。研究最多的基于回归的方法将计数公式化为密集预测任务[22，23]，其学习预测密度图[15]。在这种范式下，大多数方法都专注于设计网络架构[44]，多尺度策略[32，39]或新的损失函数和学习目标[24，36]。最近，开发了新的范例，如强化学习[18]和本地化计数[1，9，31]。类特定计数和类不可知计数的关键区别在于后者需要更一般的表示和更有区别的相似性度量。2.2. 类不可知计数Lu等人。 [21]首先解决CAC并提出一个通用的匹配网络。共享一个卷积神经网络以提取查询图像和样本的特征图。然后将这些特征连接以回归对象计数。考虑到直接从连接的特征回归可能会导致过拟合，最近的方法开始显式地建模相似性。CFOCNet [40]使用样本的特征图作为2D内核来卷积查询特征图，遵循对象跟踪中Siamese网络的精神[4]。他们还设计了一个多尺度匹配框架，以提高鲁棒性。FamNet [29]还采用siamese方式对相似性进行建模，并进一步提出了给定测试样本的测试时间自适应为了缓解训练数据的短缺，Ranjan等人 [29]提出了第一个也是唯一一个CAC数据集FSC 147，它涵盖了遮挡和尺度变化等挑战。上述方法为CAC报告了有希望的结果然而，它们通常关注于多尺度策略、数据放大或测试时自适应，而忽略了一个基本问题在这项工作中，我们展示了相似性建模的重要性，并提出了一个通用的框架，共同学习表示和相似性度量。2.3. 度量学习度量学习旨在将数据嵌入到一个空间中，在这个空间中，相似的样本被拉近，不相似的样本被推开[25]。相似性以固定的[3，16]或学习的[33，37]方式测量。一种常见的方法是约束一对[11]或三重[38]中特征之间的相似性。另一种方式基于信噪比[30，34，41]添加约束，其中阳性样本对之间的相似性被认为是信号，而阴性样本对之间的相似性被认为是噪声。我们的想法是加强信号，削弱噪音。我们把这个想法重新应用到CAC中，拉近样本和目标实例之间的特征，同时推开样本和背景补丁之间的特征。在此基础上设计了一个相似度损失来监督相似度匹配结果。9531∈∈∈∈我们的框架特征相似度提取器度量相似性损失可学习可学习查询图像示例性示例性动态相似性度量相似性映射相似性每件样品的损失全局平均池化平均变平特征提取器级联分布计数器查询图像自相似模块估计密度图计数漏失图2.BMNet和BMNet+的管道。BMNet遵循提取然后匹配的范式，但以端到端的方式联合学习表示和相似性度量BMNet+是一个改进的版本，其与BMNet的差异以彩色块突出显示以前的框架特征提取器相似性度量固定/可学习固定查询图像示例性计数损失计数器图3. 我们的框架和以前的框架之间的比较。我们的算法可以同时学习表示和相似性度量，具有更大的灵活性和通用性。3. 一个相似性感知的类无关计数框架C类，CAC的目标是计算X中C类的所有实例。不失一般性，我们使用一个样本来解释我们的管道（我们还将注意如何使用多个样本进行操作）。特征提取器。特征提取器由卷积运算层组成，卷积运算层将输入映射为d通道特征. 对于查询X，它输出一个下采样特征图F（X）Rd×hx×wx。对于样本Z，利用全局平均池化进一步处理输出特征图以形成特征向量F（Z）∈Rd。学习双线性相似度量。以前的方法使用固定的内积来计算两个特征向量之间的相似性我们认为，这种固定的一对一的相互作用可能是不够的建模类不可知的相似性。受神经相似性学习[19]和双线性模型[28]的启发，我们提出将原始内积扩展为可学习的双线性相似性，从而在两个向量之间建立灵活的连接。具体地，设F ij（X） Rd是空间位置（i，j）处的信道特征。通过重新定义xij=Fij（X）和z=F（Z），可以通过下式获得相似性图S：本节介绍了我们的CAC框架，它最终联合学习表示和相似性度量Sij （x，z）=（Pxij+Bx ）T（Qz+bz），（1）端到端的方式（图）（3）第三章。我们首先实例化这个框架与一个天真的基线，称为双线性匹配网络（BMNet），然后提出了一个扩展的BMNet+，以举例说明我们的想法如何表示，动态化，并学习表示和相似性度量的相似性我们的方法的详细管道在图中。二、3.1. 双线性匹配网络不同于以往的CAC方法，BMNet允许同时优化的表示和相似性度量。BMNet的核心是双线性相似性度量，该度量捕获特征通道之间的灵活交互以建模相似性。给定查询图像X和任意的样本Z其中P，QRd×d是可学习的矩阵，bx，bzRd×1是可学习的偏差。初始双线性度量的形式为xTWz。我们将W分解为P，Q，分别特定于查询图像和样本。在实践中，我们发现这可以产生更好的性能（更多细节请参考补充材料）。给定n个样本，可以使用Eq. 1，以计算n个相似性图，然后输出它们的平均相似性作为最终相似性图S。柜台计数器接收查询特征图F（X）和相似性图S的按通道级联，然后预测密度图Dpr。最后的计数是D pr的积分。实际上，计数器由卷积和双线性上采样层组成。计数损失计数器95322××Σi∈posi范例索引相似性图中的(a)(b)（c）第（1）款图4. 来自相同和不同类别的前雇员的通道注意力权重的可视化。我们可视化了样本的注意力权重（每条垂直线），这些样本来自（a）相同的类别苹果，（b）视觉上相似的类别苹果与草莓，以及（c）不同的类别苹果与邮票。对于（b）和（c），红色短线将样本分为两类。通过关注水平线，我们可以观察到，相同或相似类别的样本的通道注意力权重（cf.(a)和（b））比不同类别的数据显示出更大的一致性（参见。(c)特别是在红盒子里）。最好放大细节。更多的可视化可以在补充材料中找到。监控信号。我们采用常规的102损耗作为计数损耗Lcou nt：图5. 如何计算相似性损失的示例。我们将样本与目标实例之间的相似性视为信号（正标签），而样本与背景之间的相似性视为噪声（负标签）。我们将学习到的动态注意力权重表示在图中。4.第一章对于同一类别的样本（参见图4（a）），所生成的动态注意力权重变得相似。在两个视觉上接近的类别中，可以观察到类似的现象图第四条（b）款）。这验证了我们的直觉，即动态相似性度量学会关注相似类别的相似视觉模式。相比之下，给定两个视觉上不同的类别（cf.图4（c）），我们的方法学习以清晰的区别提取不同的关键模式。请注意，无论是什么情况，不同类别之间都存在共同的模式这符合我们人类识别物体的方式：首先使用一般的视觉线索，如Lcou nt=||Dp r（X，Z）−Dg t（X，Z）||其中Dgt表示地面实况密度图。3.2. 学习动态相似度量在SEC中的双线性相似性。3.1增加了模型相似性的灵活性。然而，学习的相似性度量在训练后保持固定，并在推理过程中平等对待所有类别考虑到人类可以学习基于类别特定模式来识别类别，如果告诉某个东西是毛茸茸的，有四条腿和尖尖的耳朵，人们可能会认为它是一只猫。因此，我们认为最好是开发一个动态的相似性度量，可以自适应地学习集中在样本的关键模式。受这种直觉的启发，我们在样本上集成了一个特征选择模块，以生成一个特定于样本的度量。具体地说，我们把Qz+bz中的每个通道看作一个模式。类似于SENet [14]，我们学习以Qz+bz为条件的动态信道注意权重a，使得相似性可以计算形状和颜色，然后专注于特定类别的细节。3.3. 监督相似度图现有的CAC方法和我们的基线BMNet都只使用计数损失作为训练过程中的监督在实践中，我们发现直接监督相似性匹配结果有助于指导相似性建模。为此，我们首先提出了一个基本问题：什么使一个理想的相似性度量CAC？在我们看来，它应该输出相同类别的两个特征之间的高相似度和不同类别的低相似度。这符合度量学习的思想[25]。在这里，我们提出了一个简单的方法来实现这一点。假设S的大小是X的大小的1/r，即，相似图中的每个位置对应于查询图像内的R R对于S中的每个位置，如果其对应的r r块包含多个目标，则我们分配正标签，并且如果它不包含目标，则分配负1然后，我们推导出具有信噪比的相似性损失Lsim：Sexp（S）（四）Sij（x，z）=[（Pxij+bx）]T[a∈（Qz+bx）]，（3）Lsim=−logΩi∈pos exp（Si）+j∈neg.exp（Sj）其中◦表示Hadamard乘积。这里pos、neg表示S中的正位置和负位置。对象掩模‘Signal’ in the similarity210渠道关注权重9533××精化示例特征图像特征示例特征成品图像特征变平重塑Self-Attention图6. 自相似模块。查询点注意力图在计数损失Lcount和相似性损失Lsim，最终的训练损失可以写为L=Lcount（Dpr，Dgt）+α·Lsim（S），（5）式中α是两个损失项的平衡。3.4. 自相似模块我们的框架的核心还包括改进表示适合相似性匹配。在这里，我们提出了一个可行的方法来解决这个问题。与图7、在现实中，同一类别的实例经常出现在图7.使用自相似图的示例注意力图。在我们的方法中丢失了尺度信息：一个是样本的抽取，另一个是特征提取过程中的池化操作为了弥补这一损失，我们建议增加样本的功能与相应的我们将尺度空间离散为l个总水平。每个尺度级别被分配一个d维嵌入向量，产生一个基数等于l total的嵌入集。给定样本Z和查询图像X，我们首先通过下式导出ZI（Z）=min.l −1，π。hZ+wZ·l，不同的属性，如姿势和比例。这种类内变化给相似性匹配带来了很大的挑战。总2小时X2周X总（六）因此，我们建议增加每个实例的功能与互补信息，从其他实例的相同类别，但具有不同的属性。从技术上讲，我们首先从查询特征图中收集样本特征F（Z）和每个特征向量F ij（X）到特征集中。那么特征集中的每个向量都是通过自我注意机制更新[43]（图）。（六）。更新后的特征以可学习比率γ添加回原始特征。然后，将得到的特征集重新分割和重新成形，以获得最终的F（Z）和F（X）。我们注意到，[40]也将自我注意力应用于特征图类似于我们的工作;因此自相似性模块不构成我们的贡献。然而，在这里，我们试图解释自我注意力是如何在我们的任务中发挥作用的。我们首先可视化给定查询点的自我注意力地图，如图11所示。7 .第一次会议。可以观察到，每个查询点主要关注同一类别的实例。这与对象检测中的自我关注不同[5]，其中查询点主要集中在单个实例上。这表明，CAC中的自相似性模块倾向于聚集相同类别的信息，从而增强了对类内变化的鲁棒性表示。缩放嵌入。受Transformer [35]中位置嵌入的启发，我们想知道我们是否可以类似地请注意，有两个因素导致样本其中hZ、wZ、hX、wX表示图像的高度和宽度。然后，检索水平l（Z）的尺度嵌入向量并将其添加回原始特征。尺度嵌入集在训练过程中随机初始化和学习，在推理过程中保持固定。3.5. 实现细节为了进行公平的比较，我们对查询图像和特征提取器应用了与FamNet [29]相同的数据预处理。我们调整查询图像的大小，同时保持其纵横比，使其边长限制在[384，1584]内。样本在被馈送到特征提取器之前被调整大小为128 128。不应用数据扩充。在训练过程中，小批量中所有查询图像的大小通过零填充保持不变。网络架构。特征主干由ResNet-50 [12]的前4个块组成，它输出1024个通道的特征图。对于每个查询图像，使用11卷积将通道的数量减少到256。对于每个样本，首先用全局平均池化处理特征图，然后线性映射以获得256D特征向量。计数器由几个卷积和双线性上采样层组成，以回归与查询图像大小相同的密度图。当在BMNet+中计算通道注意力权重a时，我们应用9534方法Val MAE Val MSE Test MAE Test MSEGMN [21]29.6689.8126.52124.57[29]第二十九话24.3270.9422.56101.54[29]第二十九话23.7569.0722.0899.54[40]第四十话21.1961.4122.10112.71BMNet（我们的）19.0667.9516.71103.31BMNet+（我们的）15.7458.5314.6291.83表1. 与FSC147数据集上的最新技术水平进行比较。最佳性能以粗体显示。线性（128）-ReLU-线性（256）-Tanh结构，其中括号中的数字表示输出维度。更多详情请参考补充材料。培训详情。我们的模型是端到端训练的。主干通过SwAV初始化[6]。其他参数随机初始化。我们应用AdamW [20]作为优化器，批量大小为8。该模型以1e-5的固定学习率训练了300个epoch。公式中相似性损失的权重α。5被设置为5e-6，以便所有损失项目具有相同的数量级。Eq.根据经验将6设置为20。我们使用PyTorch[27]作为我们的实验平台。请注意，BMNet+在训练期间在单个GPU上消耗不到124. 实验在这里，我们首先展示了我们的模型相对于最先进的方法的优势然后，我们验证BMNet+中的每个组件。接下来，我们分析了exem-plar号的影响，并讨论了如何在将它们馈送到计数器之前集成特征。最后，我们展示了我们的方法在汽车计数数据集上的跨数据集通用性。4.1. 与艺术FSC147数据集。FSC 147 [29]是第一个用于类不可知计数的大规模数据集。它包括6135幅图像，来自147个类别，从动物，厨房用具，到车辆。给定一个查询图像，随机选择三个相同类别的实例作为样本。为了验证方法除非另有说明，否则所有比较方法。我们主要将我们的模型与两种可用的CAC方法进行比较：GMN（一般匹配网络[21]）和FamNet（少镜头适应和匹配网络[29]）。由于FamNet在测试期间执行微调，因此我们将微调版本表示为FamNet+。其他比较的方法不适用于微调。关于我们的模型，我们验证了两个变体：1)基准BMNet和2）BMNet+，实现所有核心部件，即，自相似性模块、动态相似性度量和对相似性图的直接监督。为了进行更多的比较，我们还测试了CFOCNet [40]，它应用了与我们的工作类似的自我注意力。我们复制CFOCNet，因为它的代码不可用，并保持与我们的方法相同的样本预处理和训练配置我们用CFOCNet* 表示。请注意，主要的比较集中在最先进的公共FamNet上。定量结果。如表1所示，BMNet表现出优于具有固定相似性度量的所有比较方法（FamNet、GMN和CFOCNet）的优势。与FamNet相比，BMNet的性能相对提高了21. 63%w.r.t. 验证MAE和25. 百分之九十三w.r.t.测试MAE。请注意，BMNet已经是一个强大的基础-这表明BMNet能够在没有任何相关先验信息的情况下表征新类别。还可以观察到BMNet+将验证MAE减少了18。23%，测试MAE为12。与BMNet相比，51%，这验证了我们提出的组件的有效性。定性分析如图8、BMNet和BMNet+在密集或稀疏场景下都能输出准确的密度图。具体而言，当计数热气球（第一行）时，FamNet+和BMNet将塔误认为计数目标，而BMNet+提供了目标和背景之间相对更好的区分。如果草莓表现出较大的类内变异（第二行），FamNet会失败，而我们的方法不会。这验证了我们的双线性相似性度量（BMNet）和BMNet+中的自相似性请参考补充材料以获得更多可视化效果。4.2. BMNet+上的消融研究在这里，我们证明了BMNet+中每个组件的有效性。我们从相似图上的监督开始测试，因为它直接影响自相似性和动态相似性度量的学习。监督相似性地图。通过比较表2中的B1和B2，我们可以观察到在相似性图上的直接监督带来了3的相对改进。88%和10。确认和测试集w.r.t.梅，你好。这表明相似性损失可以帮助学习通用的相似性度量。具有尺度嵌入的自相似性。比较表2中的B2与B4，我们可以观察到应用自相似模块和尺度嵌入将验证MAE提高了0。九十七然而，在测试集上的性能显示出相反的现象（参见。 B7与 B9）。一个合理的解释是，在特征提取器中的附加参数导致过拟合问题。请注意，B3与 B4和B8与 B9表明，尺度嵌入通常会改善表示。953593512924099190242675642590677284173177305466输入Ground Truth FamNet+ BMNet BMNet+图8. FSC147数据集的定性结果。左侧的样本表现出显著的类内变化，例如比例、姿势和照明条件。红框表示样本。计数值显示在右上角。我们的BMNet和BMNet+可以在密集和稀疏场景中预测准确的密度图。最好放大观看。动态相似性度量包含动态相似性度量进一步带来9的相对改进。28%的验证MAE和11. 29%的MAE测试（参见B4vs. B5和B9vs. B10）。节中3.2，我们认为动态相似性度量侧重于样本特定的模式来匹配相似性。定量结果进一步证明了动态模式选择机制可以改善朴素双线性相似性度量。4.3. 每个任务在这里，我们研究了每个任务的前雇员数量n（随机选择）的影响。由于FSC 147中每个查询图像的样本的给定最大数量为3，因此我们使用n=1，2，3进行实验，并在表3中报告其结果。可以预见，更多的样本会产生更好的结果，如表3所示。请注意，即使我们的方法与一个单一的样本超过其他方法与三个样本（cf。表1）。这表明，我们的方法只看到一个样本仍然可以捕获信息来描述相应的类别。再说了，食环署的冰毒-B2 × × × 18.32 64.01B3 × × 17.44 67.07B4无菌包装× 17.35 60.28B5电子邮件地址15.74 58.53号SLSSSEDSM测试MAE测试MSEB6××××16.71103.31B7 × × × 14.97 92.88B8 × × 16.53 103.69B9 × 16.48 96.85B10无菌包装袋14.62 91.83表2.自相似性（SS）、动态相似性度量（DSM）、相似性损失（SL）和尺度嵌入（SE）的消融研究ods可能会更容易受到样本较少的类内变化的影响，但我们发现自相似性模块在我们的方法中有明显的改进。号SLSSSEDSMVal MAEVal MSEB1××××19.0667.959536nVal MAEVal MSE试验MAE测试MSE117.8961.1216.8996.65216.0358.6516.1697.18315.7458.5314.6291.83表3. 样本数量的影响组合Val MAEVal MSE试验MAE测试MSES21.3669.0518.7692.44X+z19.2766.7518.2484.39x+z+S18.7161.8818.7188.23x+S（默认）19.0667.9516.53103.31表4. 集成计数器功能的方法。x和z分别代表查询和样本的特征，S代表相似性图，“+”代表通道级连接。纳里奥更多详情请参考补充材料。4.4. 如何为柜台整合功能？在这里，我们将讨论在将这些功能提供给计数器之前集成这些功能的可能方法。给定示例特征z、查询特征x和相似性图S，我们研究如表4中的特征组合的4种方式，其中根据结果，仅使用相似性图来计数对象产生最差的性能（第1行），而利用样本和查询图像的原始特征可以提高计数性能（第3和第4行）。然而，排除相似性图使得对相似性度量的监督不可能（第2行）。此外，连接样本的特征带来了边际改进，但增加了计算开销（第3行）。因此，为了充分利用相似性映射中的信息，同时保持适度的计算成本，我们建议将相似性映射和查询特征的组合作为默认表示。在补充材料中，我们还表明，查询功能可以编码通用语义信息，以帮助纠正相似性图中的错误。4.5. 跨数据集概化在 FamNet [29] 之后，我们在汽车计数数据集CARPK [ 13 ]上测试了我们的模型CARPK包含了1448幅鸟瞰图中的停车场图像，与FSC147中的图像有很大的不同。我们排除了FSC 147中的结果见表5。我们首先关注的是没有对CARPK数据集进行微调的模型。可以看出，我们的模型具有很强的通用性。BMNet × 14.61 24.60BMNet+ ×10.44 13.77表5. CARPK数据集上的泛化性能。所有模型都在FSC147数据集上进行了预训练。 “fine-tuned” denotes whether thepretrained models are further fine-tuned on the CARPK与FamNet相比，BMNet和BMNet+获得了49. 3%，63。8%的MAE，回收。此外，BMNet和BMNet+在微调情况下与FamNet相比仍然保持其优势，这表明我们的设计与微调正交。此外，FamNet和BMNet在微调后的改进表明了引入特定任务信息的好处。5. 结论和局限性在这项工作中，我们表明，相似性建模材料CAC。特别是，我们提出了一个相似性感知的框架CAC的特征表示和相似性度量共同学习的端到端的方式。然后，我们用一个学习双线性相似性的朴素BMNet实例化我们的框架我们还展示了如何扩展BMNet的想法，利用自相似性的功能，学习动态相似性度量，并施加明确的监督相似性地图。我们的BMNet和扩展的BMNet+在大规模数据集FSC 147和汽车计数数据集CARPK上都局限性。从技术上讲，我们主要关注于设计一个更好的相似性度量，而如何获得更好的特征表示并没有很好地解决：1）自相似性模块的功能是直观的，表2显示自相似性可能会损害测试集上的性能; 2）如何将丰富的表示与相似性图集成在一起，在这项工作中也没有很好地解决。也许基于Transformer的跟踪[8]可以提供帮助。此外，由于我们的目标是提出一个通用的框架，我们的实例化模型中的一些设计包括一些算法，可以进一步详细研究。鸣谢。本工作得到了国家自然科学基金项目（ 61876211 、 62106080 ）和中央高校基金项目（61876211、62106080）的资助。2021XXJS 095.方法微调MaeMSEFamNet✓18.1933.66BMNet✓8.059.70BMNet+✓5.767.83FamNet×28.8444.479537引用[1] Shahira Abousamra，Minh Hoai，Dimitris Samaras，andChao Chen.拓扑约束下的人群定位。在AAAI会议上，人工智能。，2021年。2[2] Carlos Arteta，Victor Lempitsky，and Andrew Zisserman.在野外数数在proc EUR. Conf. Comput. 目视，第483-498页1[3] 米哈伊尔·阿塔拉更快的图像模板匹配中差值绝对值之和的度量. IEEE传输图像处理。，10（4）：6592[4]LucaBertinetto，JackValmadre，JoaBertinetoF. Henriques，AndreaVedaldi，and Philip H.S.乇用于对象跟踪的全卷积连体网络。欧洲药典Conf. Comput.目视研讨会，第850-865页，2016年。2[5]尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。欧洲药典Conf.Comput.目视，第213-229页5[6] Mathilde Caron，Ishan Misra，Julien Mairal，PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在Proc. Adv.Neural Inf. Process中。系统，第33卷，第9912-9924页6[7]A. B. Chan，Zhang-Sheng John Liang，and N.瓦斯康斯洛斯。隐私保护人群监控：在没有人模型或跟踪的情况下计算人数。正在进行IEEE会议Comput. 目视模式识别，第12[8]Xin Chen，Bin Yan，Jiawen Zhu，Dong Wang，XiaoyunYang，and Huchuan Lu.Transformer跟踪。在proc IEEE会议Comput.目视模式识别，第8122-8131页，2021。8[9]JianCheng，Haipeng Xiong，Zhiguo Cao，and Hao Lu. 去-再加上两阶段的人群计数和超越。 IEEE Trans.图像处理。，30：28622[10]Piotr Dollar，Christian Wojek，Bernt Schiele和PietroPerona。行人检测：对最先进技术的评估。 IEEE Trans.模式分析马赫内特尔，34（4）：7432[11] Hadsell，S. Chopra和Y.乐存。通过学习不变映射来降低维数。在Proc. IEEE Conf. Comput.目视模式识别，第2卷，第1735-1742页，2006。2[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议Comput. 目视模式识别，第7705[13]Meng-Ru Hsieh，Yen-Liang Lin，and Winston H. Hsu.通过空间正则化区域建议网络的基于无人机的对象计数。在Proc. IEEE Int. Conf. Comput.目视，第4165-4173页二、八[14]Jie Hu，Li Shen，Samuel Albanie，Gang Sun，and EnhuaWu.压缩-激励网络。 IEEE Trans. 模式分析马赫内特尔，42（8）：20114[15]Victor Lempitsky和Andrew Zisserman。学习计算图像中的对象。在Proc. Adv. Neural Inf. 过程系统，第23卷，第1324-1332页2[16]J. P. Lewis.快速模板匹配。InVision Interface，1995. 2[17] Liang Liu，Hao Lu，Haipeng Xiong，Ke Xian，ZhiguoCao，and Chunhua Shen.用Boundary Classification计数物体。IEEE传输电路系统视频技术，2019年。2[18]Liang Liu，Hao Lu，Hongwei Zou，Haipeng Xiong，Zhiguo Cao，and Chunhua Shen.加权计数：通过强化学习进行顺序欧洲药典Conf.Comput.目视，第164-181页2[19] Weiyang Liu，Zhen Liu，James M. M. P.，and Le Song.神经相似性学习在Proc. Adv. Neural Inf. Process中。系统，第32卷，2019年。3[20] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。在Proc. Int. Conf. Learn中。生殖毒性，2019年。[21]Erika Lu，Weidi Xie，and Andrew Zisserman.阶级不可知论者数数In C.诉Jawahar，Hongdong Li，Greg Mori，andKonrad Schindler，编辑，Proc. Asi.确认补偿目视，第669-684页一、二、六[22] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.索引很重要：学习索引深度图像抠图。在proc IEEE国际Conf. Comput. 目视，第32652[23] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.索引网络。IEEE传输模式分析马赫内特尔，44（1）：2422[24] Zhiheng Ma，Xing Wei，Xiaopeng Hong，and YihongGong.点监督下人群计数估计的贝叶斯损失。在Proc.IEEE Int. Conf. Comput.目视，第6142- 6151页2[25] Kevin Musgrave，Serge Belongie，and Ser-Nam Lim.一个计量学习的现实检查。欧洲药典确认补偿目视，第681-699页二、四[26]Dani e lOnoro-Rubio和RobertoJ. 我是洛佩斯·萨斯特通过深度学习实现无视角对象计数在procEUR.确认补偿目视第615-629页，2016年。1[27]AdamPaszke，Sam Gross，Francisco Massa，Adam Lerer，詹姆斯·布拉德伯里，格雷戈里·查南，特雷弗·基林，泽明Lin ， NataliaGimelshein ， LucaAntiga ， andOthers.PyTorch：命令式的高性能深度学习库。在Proc.Adv. Neural Inf. Process 中。系统，第8026-8037 页，2019年。6[28] Hamed Pirsiavash，Deva Ramanan，and Charless Fowlkes.用于视觉识别的双线性分类器在proc Adv. 神经感染过程。系统，第22卷，2009年。3[29] Viresh Ranjan，Udbhav Sharma，Thu Nguyen，and MinhHoai.学会数数一切。在Proc. IEEE Conf. Comput.目视模式识别第3393-3402页，2021。一、二、五、六、八[30]孙奇赫改进的具有多类n对损失目标的深度度量学习。在proc Adv. 神经信息过程系统，第29卷，2016年。2[31] Qingyu Song，Changan Wang，Zhengkai Jiang，YabiaoWang，Ying Tai，Chengjie Wang，Jilin Li，FeiyueHuang，and Yang Wu.重新思考群体中的计数和定位：一个纯粹基于点的框架。CoRR，abs/2107.12746，2021。2[32] Qingyu Song，Changan Wang，Yabiao Wang，YingTai，Chengjie Wang，Jilin Li，Jian Wu，and Jiayi Ma.9538选择9539还是融合人群计数的比例选择在proc AAAI Conf.人工输入。，2021年。2[33] Yifan Sun，Changmao Cheng，Yuhan Zhang，ChiZhang，Liang Zheng，Zhongdao Wang，and Yichen Wei.循环损失：对相似性优化的统一观点正在进行IEEE会议Comput. 目视模式识别，第63972[34]AaéronvandenOord，YazheLi，andOriolVi n yals. 使用对比预测编码的表示学习CoRR，abs

下载后可阅读完整内容，剩余1页未读，立即下载