基于混合高阶注意力网络的人物再识别

136 浏览量更新于2023-10-13 收藏 1015KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于混合高阶注意力网络的人物再识别陈炳辉，邓伟红 *，胡佳妮北京邮电大学网址：chenbinghui@bupt.edu.cn，whdeng@bupt.edu.cn，网址：www.example.com，jnhu@bupt.edu.cn摘要注意力在人员重新识别（ReID）中变得更有吸引力，因为它能够将可用资源的分配偏向输入信号的最具信息性的部分。然而，最先进的作品仅集中于粗略或一阶注意力设计，例如空间和通道注意力，而很少探索高阶注意力机制。我们采取措施来解决这个问题。本文首先提出了高阶注意模型（High-Order Attention，HOA），对注意机制中复杂的高阶统计信息进行建模和利用，以捕捉行人之间的细微差异，并产生有区别的注意建议。然后，将人ReID重新思考为零射击学习问题，我们提出了混合高阶注意力网络（MHN），以显式方式进一步增强注意力知识的区分度和丰富性。已经进行了广泛的实验，以验证我们的MHN的优越性，人ReID在各种各样的国家的最先进的方法在三个大规模的数据集，包括市场-1501，杜克MTMC-ReID和CUHK 03-NP 。代码可在 www.example.com 上获得http://www.bhchen.cn/。1. 介绍由于对实现认知能力的算法的追求是机器学习的重要部分，因此人重新识别（ReID）已经变得更有吸引力，其中要求模型能够正确地匹配从不同相机捕获的视频中的行人的图像。这项任务在许多计算机视觉应用中引起了越来越多的关注，例如监视[49]，活动分析[31，32]和人员跟踪[55，44]。这也是具有挑战性的，因为行人的图像是从不相交的视图捕获的，照明条件/人的姿势在相机之间不同，并且遮挡在现实世界场景中是频繁的。在上述因素的影响下，判别*通讯作者图1.注意比较。(1)空间注意使用softmax类门控函数来产生空间掩模。(2)通道注意力[19]使用全局平均池化和全连接层来产生尺度向量。（3）我们的高阶注意力使用高阶多项式预测器来产生包含卷积激活的高阶统计的尺度图。行人图像的特征表示实际上不够好。为了获得有区别的特征表示，许多研究工作[30，27，25，52，21，58，45]诉诸注意机制，以便突出信息部分（例如，空间位置）并抑制噪声模式（例如，背景）。具体来说，空间注意力[25，27，52]是一种视觉注意力的形式，涉及将注意力引导到空间中的一个位置，它允许CNN选择性地处理视野内某个区域的视觉信息而在空间注意中，空间掩蔽的加工策略是粗糙的，对细粒度的通道知识的调制没有内在的影响。最近，信道注意力[10，19，27]被提出来通过显式地对信道之间的相互依赖性进行建模来自适应地重新校准信道卷积响应。空间和通道注意力的组合也已成功应用于人ReID [27]。然而，我们强调，这些常用的注意力方法（即空间和信道注意力）是粗糙的或一阶的，被限制为仅挖掘简单和粗糙的信息，在每个ReID情况下，它们不足以丰富到捕获371372视觉部分的复杂/高阶交互以及由各种视点/人物姿势引起的行人之间的细微差异，结果，所产生的注意力图既不是有区别的也不是详细的。为此，我们决定通过卷积激活的高阶统计来建模注意力机制，以便捕获部件之间更复杂和高阶的关系，并产生强大的注意力建议。此外，我们重新考虑了人ReID的问题，将其作为零射击学习（ZSL）任务，其中在训练集和测试集之间没有行人身份的交集。零拍摄学习与传统的全拍摄学习（例如，全拍摄学习）有很大的差距。在CIFAR[8，7]，Imagenet [38]上的分类），并且在零激发设置中，“深度模型的部分/有偏学习行为”[ 5 ]的现象很大程度上影响嵌入性能，即。深度模型将仅集中于仅有益于可见身份的有偏差的视觉知识，而忽略可能对识别不可见身份有用的其它有帮助的视觉知识。换句话说，深度模型很容易学会关注表面统计规律，而不是更一般的抽象概念。然而，许多ReID作品忽略了零拍摄学习的这个内在问题。为此，提出细节保留注意框架仍然是重要的。在本文中，我们首先提出了高阶注意力（HOA）模块，一种新的和强大的注意力机制，通过高阶多项式预测模型的视觉部分之间的复杂和高阶的关系，使行人之间的细微差别，可以捕捉和歧视性的注意结果可以产生。然后，将人的ReID重新考虑为零射击问题，我们提出了混合高阶注意力网络（MHN），以防止“深度模型的偏差学习行为”[ 5 ]问题它主要是通过采用多个具有不同阶数的HOA模块来建模不同的高阶统计量来实现的，使得可以保留全面的注意力知识，从而可以成功地识别看不见的行人身份。此外，我们为MHN引入了对抗性学习约束，以进一步防止训练1期间的订单崩溃问题，从而显式增强MHN的区分度。我们的贡献可以总结如下：• 高阶注意力（HOA）模块被提出来捕获和使用高阶注意力分布。据我们所知，这是第一个工作，提出并应用高阶注意模块的Person-ReID。• 我们将ReID重新定义为零镜头学习任务，并提出了混合高阶注意力网络1虽然，所提出的高阶注意力模块具有捕获复杂和高阶统计的能力在一个实施例中，可以使用MHN来有效地利用多个HOA模块，以便通过显式地抑制“深度模型的有偏学习行为”来增强注意力的丰富性。引入敌手学习约束，进一步防止了序崩溃问题• MHN是一个普遍适用的和模型无关的框架，它可以很容易地应用于流行的基线架构，如IDE [63]和PCB [43]。• 大量的实验表明，所提出的MHN在三个大型基准上的广泛的国家的最先进的ReID模型的优越性，即。Market-1501 [61]、DukeMTMC-ReID [37，65]和CUHK03-NP [26，66]。2. 相关工作Person ReID注意力机制：Person ReID旨在正确地匹配从不同相机捕获的视频中的行人图像，它已被广泛研究，例如通过成对约束[34，48]，度量学习[54，51]，深度嵌入学习[63，43]进行排名。重排序[62，16]和属性学习[40，60]。再-近年来，深度社区中的注意力方法[10，53，19，46]更有吸引力，本文主要研究通过注意力策略来提高ReID的性能。注意力是一种工具，它使可用资源的分配偏向于投入中信息量最大的部分。Li等人。[24]提出了一种部分对齐的CNN网络，用于定位潜在区域（即硬注意），然后提取并利用这些区域特征用于ReID。Zhao et at.[59]采用空间Transformer网络[20]作为寻找有区别的图像部分的硬注意力模型除了硬注意方法外，还提出了软注意策略来提高ReID的性能例如，Li等人.[25]使用多个空间注意模块（通过softmax函数）来提取不同空间位置处的特征。Xu等人。[52]提出通过姿势引导注意力模块来掩蔽卷积图Li等人[27]采用基于softmax的空间注意力模块和信道注意力模块[19]来增强卷积响应图。然而，空间注意力和通道注意力分别是粗的和一阶的，并且不能够建模部件之间的复杂和因此，为了捕获详细和复杂的信息，我们提出了高阶注意力（HOA）模块。高阶统计量：由于其强大的表示能力，在传统的机器学习近年来，在具有挑战性的细粒度视觉分类任务方面的研究进展表明了集成性使用深度CNN的高阶池化表示可以带来有希望的改进。例如，Lin et al.[29]提出了双线性池来聚合成对特征交互。Gao等人[15]提出近似373RRSd=1αRu1 ···a（）=，+α···，rR Dr通过张量草图的二阶统计[35]。Yin等人[12]通过迭代地将Tensor Sketch压缩应用于特征来聚合高阶统计量。Cai等人[2]使用高阶合并来聚合分层卷积响应。此外，双线性池化和高阶池化方法也被应用于可视化问题生成任务中，如[14，22，56，57]。然而，与主要集中于在特征池化之上使用高阶统计的这些上述方法我们建立高阶注意机制模型，以捕捉行人之间的高阶和细微差异，并产生有区别的注意建议。Zero-Shot学习：在ZSL中，模型需要从可见的类中学习，然后能够利用学到的知识来区分看不见的类。它已经在图像分类[28，4]，视频识别[13]和图像检索/聚类[5]中进行了研究。有趣的是，人ReID与ZSL的设置匹配良好，其中训练身份与测试身份没有交集，但大多数现有的ReID作品忽略了ZSL的问题。为此，我们提出了混合高阶注意力网络（MHN）来明确抑制由ZSL引起的“深度模型的有偏学习行为”[5，6]的问题3. 该方法在本节中，我们将首先在第二节中提供一般注意力机制的公式。3.1，然后详细介绍了建议的高阶注意力（HOA）模块。3.2，最后在第二节中展示了我们的混合高阶注意力网络（MHN）的总体框架三点三3.1. 问题公式化注意力作为一种工具，使可用资源的分配产生Y=A（X）⊙ X（1）其中A（X）∈RC×H×W是某个注意力模块输出的注意力建议，⊙是Hadamard乘积（元素乘积）。由于A（X）用作重新加权项，因此A（X）的每个元素的值应该在区间[0，1]中。基于上述注意力的一般公式，A（X）可以采取许多不同的形式。例如，如果 A （ X ）=rep[M]|其中M∈RH×W是空间掩模并且rep[M]|C意味着沿着通道维度将该空间掩模M复制C次，等式因此，1是空间注意力的实现。并且如果A（X）=rep[V]|其中V∈RC是尺度向量并且rep[V]|H，W表示沿高度和宽度尺寸分别以H和W倍复制该比例矢量，等式因此，1是信道注意力的实现。然而，在空间注意或通道注意中，A（X）是粗糙的，无法捕捉高阶和复杂的部分之间的相互作用，导致较少的区别注意力建议，并且未能捕捉行人之间的细微差异。为此，我们致力于用高阶统计量对A（X）进行3.2. 高阶注意力模块为了对注意力内的复杂和高阶相互作用进行建模，我们首先在x的高阶统计量之上定义线性多项式预测器，其中x∈RC表示X的特定空间位置处的局部描述符：a（x）=Σwr，rx（2）r=1其中<·，·>表示两个相同大小的张量的内积，R是阶数，rx是x的r阶外积，包含x中所有r阶monomial，wr是要学习的r阶张量，包含x中r阶变量组合的权重。考虑到r较大时wr会引入过多的参数而产生过拟合问题，我们假设当r >1时，wr可以用Dr秩-1张量通过张量分解[23]，即wr=Dr将资源转向输入中信息量最大的部分在r，dr，dr，dr，d在卷积神经网络（CNN）中，它通常用于对卷积响应图进行重新加权，以便突出重要部分并抑制无信息部分，例如空间注意力[25，27]和信道注意力[19，27]。我们将这两种注意力方法扩展到一般情况。具体地，对于卷积激活输出，由CNN编码并且来自给定输入图像的3D张量X我们有X ∈RC×H×W，其中RC，. . . ，ur，d∈ RC是向量，是外积，αr，d是第d个秩-1张量的权重。然后，根据张量代数，Eq. 2可以重新表述为：RD rx w1xr，dur，dur，dx1rr=2d=1R=∠w1，x∠+ΣΣαr，dY∠ur，d，x∠C、H、W表示通道的数量、高度和宽度，resp. 如上所述，注意力的目标是重新加权卷积输出，因此我们将这个过程公式化为：=∠ w1，x ∠+r=2d=1s=1Σ∠αr，zr∠（3）R=2374s=1SRRrrrr r D×C^^ ^您的位置：^RRSΣ^1R^其中，αr=[αr，1，···，αr，Dr]T是权重向量，zr=[zr，1，· ··，zr，Dr]T，其中zr，d= Qr。供以后方便，等式3也可以写成：a（x）=1T（w1⊙x）+Σ1T（αr⊙zr）（4）R=2其中⊙是Hadamard乘积，1T是1的行向量。然后，为了获得向量状预测器a（x）∈RC，等式通过引入辅助矩阵，推广了4的Pr：a（x）=P1T（w1⊙x）+ΣPrT（αr⊙zr）（5）R=2其中P1∈RC×C，Pr∈RDr×C，其中r >1. 由于所有Pr，w1，αr都是要学习的参数，为了实现方便，我们可以将{P1，w1}集成到一个新的单个矩阵w^∈RC×C 根据矩阵代数，以及{P，α}化为α ∈ R（简单证明在补充文件中）。那么方程5可以表示为：a（x）=w1Tx+ΣαrTzr（6）R=2图2. 高阶注意力（HOA）模块的图示张量X，我们推广Eq. 9 .第九条。具体地，我们在X的不同空间位置之间共享A（X）中的可学习权重，并且令A（X）={A（X （ 1 ， 1 ）），· · ·，A（X （ H ，W））}，其中上述等式包含两项，为了清楚起见，我们打算将其公式化为更一般的情况。假设w1可以近似为两个矩阵x（h，w）指示空间位置点处的局部描述符（h，w）。在CNN中使用注意力图A（X）有两个好处。 (1)在不同spa之间共享权重-v^∈RC×D1 和α^∈RD×C ，即W^ =v^α^ 1.一、那么方程6最终位置将不会引起过多的参数。 (2)A（X）可以重新表述为：TΣΣ可以通过1x1卷积层容易地实现后获得高阶注意力图A（X），我们的高阶注意力图A（Xa（ x）=1α^1不（v^Tx）+ R=2α^rTzr=Rr=1α^rTzr（七）订单注意力（HOA）模块可以以与等式（1）相同的方式公式化。1，即Y=A（X）⊙X。其中zR=v^x，当r >1时，z与Eq中的相同。实施情况：以来的可学习参数3. α^ ∈RDr×C是可训练参数。在空间位置之间共享，A（X）中的所有操作可以由方程式7，a（x）能够建模并使用局部描述符x的高阶统计量，因此，我们可以得到通过卷积实现如示于图二、(a)、1当R=1时，矩阵xes{v^，α^}由1 × 1实现通过执行，获得高阶向量式注意力将Sigmoid函数应用于Eq. 第七章：A（x）=sigmoid（a（x））=sigmoid（a（x））（8）分别具有D1和C输出通道的当R >1，r >1时，我们首先采用{ur，d}d=1，···，Dr作为X上的一组Dr1x 1卷积滤波器，以便产生具有通道D r的一组特征图Zr，然后特征r=1rs其中A（x）∈RC，A（x）中每个元素的值为映射{Zs}s=1，···，r通过逐元素乘积组合R r r r r r在区间[0，1]中。非线性：此外，为了进一步提高这种高阶注意力“地图”的表示能力受CNN的通用设计的启发，我们提供了等式的变型。8通过如下引入非线性：RA（x）=sigmoid（αrTσ（zr））（9）r=1其中σ表示任意非线性激活函数，在这里，我们使用ReLU[33]函数。A（x）在等式9最终被用作对应局部描述符X的所需高阶注意力Eq. 8、Eq. 9在第二。4.第一章R111375全模：如前所述，在局部描述符 x 上定义 A（x），以获得在3D上定义的A（X得到Z=Z1⊙···⊙Zr，其中Z={z}，α也可以通过1x1卷积层来实现。当R=3时，HOA的一个玩具示例如图所示。二、（b）.注：所提出的HOA模块可以很容易地实现的常用操作，如1x 1卷积和元素的产品/添加。通过强大的高阶预测器，注意力命题可以更具区分力，并且能够建模部件之间的复杂和高阶关系。此外，[19，27]中的信道注意模块被称为一阶，因为（1）GAP层仅收集一阶统计量，而忽略更丰富的高阶统计量，遭受有限的表示能力[11]（2）全连接层可以被认为是1x1卷积层，并且因此在[11，27]中使用的两个级联的全连接层可以被认为是1x1卷积层。376R=1R=1R=1R=1图3.混合高阶注意力网络（MHN）。我们的MHN是模型不可知的，它可以应用于IDE [63]和PCB [43]架构，为了清楚起见，我们以基于ResNet50 [18]的IDE为例。攻击者约束用于正则化HOA模块的顺序。当R=1时，通道注意力[19]等同于我们的HOA模块（无论空间维度如何，参见图1）。二、（a））。总之，全通道注意力模块只能收集和利用一阶信息，不足以捕获复杂的交互并产生有区别的注意力图。如果不使用GAP，则信道注意模块可以被视为我们的HOA的特殊情况，其中R=1，进一步证明它确实是一阶的。3.3. 混合高阶注意网络不同的订单（例如，{R=1，2，3}）被放置在P1和P2之间，以便产生不同的高阶注意力图，并加强学习知识内的丰富性。值得一提的是，我们的MHN然而，简单地采用具有不同阶数的多个Η 0 Α模块具体来说，从Eq。在图7中，可以观察到，对于k阶HOA模块，a（x）还包含1阶子项（其中l k）。在理论上，具有R=k的HOA模可以覆盖-确定并使用局部描述符x的k阶统计量，但实际上，特别是在零触发学习设置中，由于深度模型将选择性地学习表面统计规律（其是区分所看到的类的最容易的统计规律）的事实[5]，k阶注意力模块可能崩溃为较低阶的对应物，因为较低阶的统计量是常见的并且比较高阶的统计量更容易收集。因此，这些具有不同Rs的Η 0 Α模块实际上折叠成一些类似的低阶对应物，并且没有捕获想要的多样的高阶注意信息。为此，受GAN [17]的启发，我们引入了对手约束，用于将HOA的顺序正则化为不同的，如图所示。3可以考虑到人员ReID本质上属于零拍学习（ZSL），其中没有交集公式如下：最大值最小值（Ladv）=最大值1000000（Σk2F（fj）−F（fj′）在训练身份和测试身份之间，我们应该HOA|R=kFHOA|R=kFj，j′，j/=j′（十）明确地抑制“有偏见的学习行为”的问题由零激发设置引起的“深度模型的IOR”具体地，在ZSL中，深度模型容易学习关注表面统计规律而不是更一般的抽象概念，换句话说，深度模型将选择性地学习仅用于区分可见身份的有偏见的知识因此，为了正确地识别看不见的身份，我们提出了混合高阶注意力网络（MHN），以利用具有不同阶数的多个HOA模块，使得可以明确地使用多样且互补的高阶信息，从而鼓励学习特征的丰富性并防止部分/有偏见的视觉信息的学习。对于如图所示的玩具示例3.提出的MHN由几个不同的HOA模块组成，这样可以建模和使用视觉知识的各种统计特别地，ResNet50首先被分解为其中HOA|R=k表示MHN中有k个HOA模块（从一阶到k阶），F表示由包含两个全连接层的敌手网络参数化的编码函数，fj是从对应的HOA模块学习的特征表示向量，其中R=j。由方程式在图10中，对手网络F尝试最小化特征fj之间的差异，而HOA模块尝试最大化这些差异。在获得纳什均衡之后，HOA模块的阶数将彼此不同，因为在Eq.10，P2在流间共享，MHN中唯一的差异部分是HOA模块，当最大化特征差异时，唯一的解决方案是使HOA模块具有不同的顺序并产生不同的注意知识。换句话说，只有不同的HOA模块将使Ladv变大。因此，可以抑制订单崩溃的问题。然后，MHN的总体目标函数为：两个部分，即P1（从conv1到layer22）和P2（从层3到GAP）。P1用于对给定图像进行编码min（Lide）+λ（maxHOA|R=kmin（Ladv））（11）F原始像素空间到中级特征空间，P2用于将注意信息编码到可以对数据进行分类的高级特征空间。HOA模块2以pytorch [36]方式命名。其中Lide指示基于Softmax分类器，λ是系数。备注：来自Eq. 在图11中，可以观察到，我们通过对编码的特征向量施加约束而不是直接对HOA模块的阶数/多样性进行正则化。377r=1高阶注意力图，因为这些注意力图来自于复杂的高阶统计量，而注意力空间中HOA模块的阶差的定义因此，对特征向量施加顺序约束。此外，似乎使用基于铰链损失的约束而不是对手策略来最大化特征差异也是可行的。然而，我们想要强调的是，在基于铰链损耗的函数中，存在另一个需要额外调谐的裕度控制器“m”，并且来自不同HOA模块的特征之间的差异将是异构的为此，我们采用对手约束，以便允许自动学习的最佳差异。通过防止阶崩溃的问题，HOA模块显式正则化，以模拟所需的高阶注意力分布，从而可以产生有区别的和多样化的注意力地图，这可能有利于识别看不见的身份。4. 实验数据集：我们使用三个流行的基准数据集，基于零次学习（ ZSL ）设置，即 Market- 1501 [61] 、DukeMTMC-ReID [37，65]和CUHK03-NP[26、66]。Market-1501具有12，936个训练图像，具有751个不同的身份。图库和查询集分别有19，732和3，368张图像，另有750个身份。DukeMTMC-ReID包括702个身份的16，522个训练图像，另外702个身份的2，228个查询和17，661个图库图像CUHK 03-NP是CUHK 03的一个新的训练-测试分离协议，它包含两个子集，提供标记和检测（从一个人检测器）的人图像。检测到的CUHK03集合包括7，365个训练图像、1，400个查询图像和5，332个图库图像。标记集分别包含7，368个训练图像、1，400个查询图像和5，328个图库图像。新协议将训练集和测试集分为767个和700个身份。实现：所提出的MHN应用于基于ResNet50的IDE[63]和PCB [43]架构。对于这两种架构，我们采用了动量因子为0.9的SGD优化器，将骨干CNN的开始学习率设置为0.01，并将新添加的层的学习率设置为10倍，总共70个epoch，每20个epoch的学习率降低10倍特征fj的尺寸为256，并且F中的两个FC层具有128，市场-1501（%）方法RefR-1R-5R-10地图[61]第61话ICCV1544.463.972.220.8SVDNet [42]ICCV1782.3--62.1DaRe（De）+RE[50]CVPR1889.0--76.0MLFN [3]CVPR1890.0--74.3KPM [39]CVPR1890.196.797.975.3美国有线电视新闻网[27]CVPR1891.2--75.7DNN-CRF [9]CVPR1893.597.7-81.6PABR [41]ECCV1891.796.998.179.6PCB+RPP [43]ECCV1893.897.598.581.6曼克斯[47]ECCV1893.1--82.3CASN+PCB [64]CVPR1994.4--82.8IDE* [63]89.095.797.373.9MHN-6（IDE）93.697.798.683.6多氯联苯 *[43]93.197.598.578.6MHN-6（PCB）95.198.198.985.0表1.单一查询设置下Market-1501 [61]的结果比较*表示通过我们的代码重新实施。最佳/第二结果分别以红色/蓝色显示。DukeMTMC-ReID（%）方法RefR-1R-5R-10地图[61]第61话ICCV1525.1--12.2SVDNet [42]ICCV1776.7--56.8DaRe（De）+RE[50]CVPR1880.2--64.5MLFN [3]CVPR1881.0--62.8KPM [39]CVPR1880.389.591.963.2美国有线电视新闻网[27]CVPR1880.5--63.8DNN-CRF [9]CVPR1884.992.3-69.5PABR [41]ECCV1884.492.293.869.3PCB+RPP [43]ECCV1883.3--69.2曼克斯[47]ECCV1884.9--71.8CASN+PCB [64]CVPR1987.7--73.7IDE* [63]80.190.793.564.2MHN-6（IDE）87.593.895.675.2多氯联苯 *[43]83.991.894.469.7MHN-6（PCB）89.194.696.277.2表2.与DuckMTMC-ReID的结果比较[37，65]。*表示通过我们的代码重新实施。最佳/第二结果分别以红色/蓝色显示。128个神经元，我们将所有Dr|R是64。对于IDE，图像大小调整为288x144。对于PCB，图像大小调整为336x168。在所有实验中，我们将批处理大小设置为32，MHN由Pytorch [36]实现，并从公共代码[1]修改而来，随机[67]这也是一个问题。记法：我们使用表3.与CUHK 03-NP的结果比较[26，66]。*表示按照我们的守则重新实施。最佳/第二结果分别以红色/蓝色显示。CUHK03-NP（%）方法Ref标记R-1 mAP检测R-1 mAPBoW+XQDA [61]SVDNet [42]DaRe（De）+RE[50]MLFN [3]美国有线电视新闻网[27]PCB+RPP [43]曼克斯[47]CASN+PCB [64]ICCV15ICCV17CVPR18CVPR18CVPR18ECCV18ECCV18CVPR197.9-66.154.744.4-69.073.77.3-61.649.241.0-63.968.06.441.563.352.841.763.765.571.56.437.359.047.838.657.560.564.4378方法中大03-NP [26，66]DukeMTMC-ReID [37，65]市场-1501 [61]标记检测R-1地图R-1地图R-1R-5R-10地图R-1R-5R-10地图IDE* [63]52.948.550.446.380.190.793.564.289.095.797.373.9IDE*+时代61.455.7156.951.383.692.194.367.490.396.597.675.9MHN-2（IDE）65.959.160.954.884.592.694.768.990.696.197.676.1MHN-4（IDE）67.460.362.755.886.393.195.672.491.897.698.580.1MHN-6（IDE）69.765.167.061.287.593.895.675.293.697.798.683.6多氯联苯 *[43]61.956.860.654.483.991.894.469.793.197.598.578.6PCB*+时代57.452.554.349.983.491.594.368.291.997.498.476.8MHN-2（PCB）71.266.367.961.986.993.395.373.594.097.898.582.5MHN-4（PCB）75.170.671.666.188.794.495.976.894.598.098.684.2MHN-6（PCB）77.272.471.765.489.194.696.277.295.198.198.985.0表4.注意力模块的效果（%）*表示重新实施，R={1，...，k}，并且‘MHN_k（IDE/PCB）’分别表示使用IDE/PCB架构。评估：在测试中，在L2归一化之后将特征表示fj ， j∈ {1 ， · · · ， k} 然后，使用累积匹配特征（CMC）和平均平均精度（mAP）的度量进行评估。不采用。4.1. 与最新技术水平方法的为了突出提出的意义MHN用于人ReID任务，我们将其与最近的一些显着作品进行比较，包括对齐方法[39，41，64，43]，深度监督[50]，架构[63，43]，在-注意力[27，64，47]和其他[42，9，3]，超过了流行的基准Market-1501，DukeMTMC-ReID和CUHK 03-NP。为公平比较，我们重新实施基准模型，即基于ResNet50的IDE和PCB，与我们的培训配置相同。然后，MHN应用程序，PLIED在IDE和PCB架构。比较结果见表1。1，Tab. 2、Tab。3 .第三章。从这些表中，可以观察到，通过经由高阶注意力模块明确地加强深度嵌入内的辨别力和多样性，我们的MHN-6可以显著地提高识别率。改进了两种基线方法的性能IDE和PCB（例如与多氯联苯相比，MHN-6（多氯联苯）的降解率为2%/6。市场上R-1/mAP的改善率为4%，2%/7。DukeMTMC上R-1/mAP的5%改善），证明了我们的高阶注意力想法的有效性。我们的MHN-6（PCB）在所有这三个基准上都达到了新的SOTA性能，显示了我们方法的优越性。4.2. 成分分析MHN的影响：我们对MHN进行定量比较，如表1所示。 4.第一章从这张桌子上，我们可以看到--服务，建议MHN可以显着提高性能的人ReID任务的IDE和 PCB 基线架构。具体地说，比较 MHN-2（IDE/PCB）和IDE/PCB，我们可以看到，使用高阶注意信息确实促进了学习嵌入的区分。此外，perfor-表5.对手约束的影响（%）。*表示按本守则重新实施。表6.非线性效应（%）mances将随着HOA模块的数量而进一步增加，例如在CUHK 03-NP Labeled数据集上，将MHN应用于PCB，当HOA模块的数量从2增加到6时，R-1的性能将从71增加。2%至77。2%，在其他数据集和架构中也可以观察到同样的现象。这一现象也表明，采用多个HOA模块有利于对用于识别不可见身份的多样性和区分性信息进行建模，并且MHN-6在所有三个基准测试中均大幅优于所有基线模型，证明了我们方法的有效性。然而，当进一步增加HOA模块的数量时，例如，k=8时，性能提高很少，因此在此不做报道。附着约束的效果：从选项卡。5，当比较{MHN-6（IDE ） w/oLadv} 与{IDE} 和比较{MHN-6（ PCB ）w/oLadv}与{PCB}时，可以观察到在DukeMTMC和Market数据集R-1和mAP的性能可以通过简单地采用多个HOA模块而没有任何正则化约束来改进，这表明使用更高阶的注意力信息将确实增加在ZSL设置中学习的知识但是，正如在Sec中提到的。3.3、人ReID的任务属于零拍设置，‘偏/偏学习行为’的问题方法dukemtmc-ReidMarket-1501R-1地图R-1地图IDE* [63]80.164.289.073.9MHN-6（IDE）w/oLadvv85.570.891.880.0MHN-6（IDE）87.575.293.683.6多氯联苯 *[43]83.969.793.178.6MHN-6（PCB）w/oLadv87.775.493.983.2方法dukemtmc-ReidMarket-1501R-1地图R-1地图MHN-6（IDE），不含非锂离子87.174.993.383.1MHN-6（IDE）87.575.293.683.6MHN-6（PCB），不带非线性元件88.776.895.084.5379方法Market-1501R-1地图1：P1 ={con v192.281.82：P1={conv193.683.63：P1 ={con v192.782.1表7.与其他注意力方法的比较（%）。*表示我们的繁殖。的深度模型的“将导致HOA模块的阶崩溃的问题，即。深度模型将部分地模拟容易和低阶信息，而不管HOA模块的理论容量。因此，我们引入对手约束，以显式地防止秩序崩溃的问题在配备Ladv后，MHN-6（IDE/PCB）可以进一步提高两个基准的性能，证明了Ladv的有效性，并暗示明确学习各种高阶注意信息对于识别看不见的身份是必不可少的。非线性效应：非线性比较列于表1中6，从该表可以观察到，通过将非线性添加到高阶注意力模块中，可以进一步提高性能。与其他注意力方法的比较：为了证明我们的高阶注意力思想的有效性，我们与表1中的其他注意力方法进行了比较7 .第一次会议。具体而言，我们的MHN-6（IDE）优于空间和通道注意力方法，即。HA-CNN [27]和SENet50 3[19]，显示高阶注意力模型优于这些粗/一阶注意力方法。此外，尽管{SpaAtt+Q} [25]采用多个不同的注意力模块，如MHN，以增强注意力信息的丰富性，但所使用的注意力方法是空间注意力，其粗糙且不足以丰富到捕获部件的复杂和高阶交互，未能产生更具区别性的注意力建议，因此表现不如MHN-6（IDE）。{CASN+IDE}[64]将具有相同身份的成对图像的注意力图正则化为相似的，并且确实改进了结果，但是由于注意力图的一致性约束仅基于粗略的空间注意力图，因此它仍然比MHN-6总之，由于建模和使用复杂和高阶信息的能力7 .第一次会议。对P1&和P2结构的消融研究：如第2.2节所述。3.3、将HOA模块放置在P1和P2之间，以研究放置的HOA模块位置的HOA模块，我们进行实验，如表。 8. 可以观察到，将HOA模块放置在3我们微调了在github.com/moskomule/senet.pytorch上发布的预训练SENet50。表8. P1和P2构型的消融研究。所有层名称都以Pytorch方式显示。在这里，为了方便起见，我们用MHN-6（IDE）进行实验并测试三种配置，即： 1、模型PN（百万）深度R-1（上市）IDE [63]24.25089.0%SENet50 [19]27.450百分之九十MHN-2（IDE）24.450百分之九十点六MHN-4（IDE）25.250百分之九十一点八MHN-6（IDE）26.85093.6%表9.模型尺寸比较。PN表示参数编号。'层2'（即，使用配置E2）执行得最好，因为当将其放置在相对较低的层（即，使用配置1）输入到H0A模块的知识与低级纹理信息更相关并且包含很多噪声，而将其放置在相对较高的层（即，使用配置（3），作为部分/有偏学习行为的结果，在信息的前向传播期间可能已经丢失了一些用于识别不可见身份的有用知识为此，我们在整个实验中对IDE和PCB架构都使用了配置2模型尺寸：我们比较的模型尺寸如表。从该表可以观察到，我们的MHN的参数数量随着阶数而增加。虽然与SENet50 [19]相比，每个MHN的总参数数并不多，但在性能方面，每个MHN都可以优于SENet50，表明我们的MHN确实是5. 结论在本文中，我们首先提出高阶注意(HOA)模块，通过建模和利用零件的复杂高阶统计量，提高了维修方案的鉴别力然后，考虑到person-ReID任务属于零镜头学习的事实，其中深度模型将容易学习有偏见的知识，我们提出了混合高阶注意力网络（MHN）以利用不同阶数的HOA模块，防止学习仅有利于所看到的身份的部分/有偏见的视觉信息进一步引入敌手约束来防止HOA模块的阶崩溃问题并在三个流行的基准上进行了大量的实验，以验证我们的方法的必要性致谢：这工作是部分国家自然科学基金项目格兰特号61871052,61573068,61471048, 和BUPT优秀博士学生基金会CX2019307。方法dukemtmc-ReidMarket-1501R-1地图R-1地图IDE* [63]80.164.289.073.9SENet50* [19]81.264.890.075.6美国有线电视新闻网[27]80.563.891.275.7[25]第二十五话84.769.691.677.4CASN+IDE [64]84.567.092.078.0MHN-6（IDE） 87.575.293.683.6380引用[1] https://github.com/layumi/Person_reID_baseline_pytorch. 6[2] 蔡思佳，左王梦，张磊。用于细粒度视觉分类的分层卷积激活的高阶积分。在IEEE计算机视觉国际会议论文集，第511- 520页，2017年。3[3] Xiaobin Chang，Timothy M Hospedales，and Tao Xiang.用于人员重新识别的多级分解网络。在IEEE计算机视觉和模式识别会议论文集，第2109-2118页，2018年。六、七[4] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，andFei Sha.用于零镜头学习的合成分类器。在IEEE计算机视觉和模式识别会议的论文集，第5327-5336页，2016年。3[5] Binghui Chen and Wehong Deng.能量混淆对抗度量学习用于零拍摄图像检索和聚类。在AAAI人工智能会议上，2019。二三五[6]

下载后可阅读完整内容，剩余1页未读，立即下载