基于共分割的注意力网络的视频人物再识别

120 浏览量更新于2023-10-12 收藏 857KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于共分割的注意力网络的视频人物再识别Arulkumar Subramaniam，Athira Nambiar，AnuragMittal印度马德拉斯{aruls，anambiar，amittal}@ cse.iitm.ac.in摘要人员重新识别（Re-ID）是一个重要的现实世界中的监控问题，需要通过网络的摄像机关联个人的身份。基于视频的Re-ID方法最近已经获得了显著的关注，因为视频而不仅仅是图像通常是可用的。在这项工作中，我们提出了一种新的协同分割启发的视频Re-ID深度架构，并制定了一个基于协同分割的注意力模型（COSAM），通过相互共识，以无监督的方式激活一组共同的显着特征跨视频的多个帧。相对于大多数以前的工作，我们的方法是能够参加人的配件随着个人。我们的即插即用和可解释的COSAM模块应用在两个深度架构（ResNet 50，SE-ResNet 50）上，在三个基准数据集上的性能优于最先进的方法1. 介绍人员重新识别（Re-ID）[14]是在两个或更多个非重叠摄像机视图上匹配人员图像/视频的任务。最近，由于其在监视[62]，活动分析[33]等方面的广泛应用，它已经引起了极大的关注并且也可以被认为是其他一般匹配问题的代理。人员重新识别方法基于图像[2，1]或视频[26，35]。早期的个人Re-ID工作是在图像中进行的，无论是通过判别特征提取[2，34]还是度量学习[1，38，17]方法。最近，已经提出了利用深度学习设置的各种类似想法[11，12，55，17，60]。然而，由于类间外观的视觉模糊性以及缺乏时空数据，基于图像的方法本质上是有限的。相比之下，基于视频的Re-ID受益于视频帧中丰富的时空数据，并解决了视频之间的匹配任务序列[35，26]。这一点，再加上大规模数据集的发布，如MARS [59]和DukeMTMC-VideoReID [54]，导致研究界逐渐从基于图像的Re-ID转向基于视频的Re-ID。a）姿态估计b）细分c）基于注意力的共同分割（我们的）图1.插图的各种解决方案，重点放在主题，而不是背景。(a)姿态估计[46，58，48]的使用（b）Re-ID中的分割掩模[39，44] 可能会错过与对象相关联的显著特征（例如，Backpack，Bag），（c）基于共分割的注意力（OUR）利用时空数据来捕获包括人及其附属物的公共区域（例如，移动电话）。文献中的许多基于视频的人Re-ID方法通过考虑帧的整个空间区域随后是时间特征聚集来提取帧级特征LSTM/pooling [35，62，29].麦克劳克林等人的一部绘画作品。[35]使用三层深度CNN从RGB光流和递归层中提取特征，然后使用时间平均池（TPavg）进行特征聚合。Chung等人[8]通过使用双流网络扩展了这种方法。不幸的是，这样的方法经常失败，特别是在大规模监视场景中，由于严重的遮挡和背景杂波。在这种情况下，来自不相关的非显著区域的噪声背景特征很可能被误解为人的特征并且被聚集在视频描述符中。与此同时，主题对齐和场景变化加剧了问题，562563lem并导致Re-ID准确性急剧下降一些作品利用诸如姿态分割技术之类的增强信息来聚焦于主题并且避免来自背景的特征以用于生成主题的有效表示。基于人体姿态估计的方法之一，即Su等人。[46]提出使用基于全卷积网络（FCN）[31]的姿态估计模型来提取基于部件的特征。类似地，Suhet al.[48]使用OpenPose[3]模型为Re-ID累积基于零件的特征然而，这样的方法具有一些缺点：（a）尽管姿态估计可以有效地定位人的关键关节位置（例如，头、躯干和腿），则它忽略了与对象相关联的突出附件（例如，背包，包，帽子和外套），也是重要的线索，重新身份证（图。1（a））。(b)标准姿态估计数据集可能不覆盖监视场景中的剧烈视点变化，俯视图（c）监视图像可能不具有用于稳定姿态估计的足够分辨率。基于分割的Re-ID方法基于预训练的模型[40，15]。例如，Qiet al. [39] Songet al. [44]探索了使用基于FCN[31]的预训练分割模型来分割受试者。同样，这些模型是在仅具有人类分割掩模的数据集上训练的，因此可能无法提取受试者的所有部分，包括附件（图1）。（b）款。代替使用这种昂贵的增强信息，替代解决方案是使用注意力驱动的方法，其中网络是端到端训练的。Li等[26]通过时间注意模型发现了一组使用不同空间注意和区分框架类似地，Wanget al. [52]从自动选择的有区别的视频片段计算特征，同时学习用于人Re-ID的视频排序函数。虽然在没有明确监督的情况下学习，但许多基于注意力的方法[62，26，52]仍然是次优的，因为它们在“每帧”的基础上工作，因此未充分利用视频中可用的丰富时空信息。另一种最近的方法[57，5]试图通过利用视频间（探头与（图片集短片）共同关注。然而，这样的方法在计算上是昂贵的并且是耗时的，因为这样的处理必须针对每个探针库实例对单独地进行。在本文中，我们提出了一种新的“基于共分割的注意力网络”，以有效地解决基于视频的Re-ID中的上述问题。而不是一个天真的与许多现有的以人为中心的方法（例如，姿势，分割），我们的这种方法通过提取图像中与任务相关的区域来放松约束，这些区域通常与人及其附件相对应（图1）。（c）第1段。为了实现共同分割，我们提出了一个新的模块命名为据我们所知，这项工作标志着第一个应用程序的共同分割重新ID。此外，我们推测，我们的视频内注意力机制可能在其他视频分析应用中也是有用的，例如对象跟踪/分割和活动识别。本文的主要贡献是：• 我们提出了一种新的协同分割启发Re-ID基于视频的Re-ID架构。• 我们制定了一个即插即用的“协同分割激活模块（COSAM）”，可以包含在任何深度神经架构中，以增强常见的AB-1功能通过跨帧联合寻找共同特征来消除特征并抑制背景特征。• 我们可视化的共同分割为基础的关注面具描绘相关的帧区域，从而使-我们的方法是可解释的。1.1. Object Co segmentation的相关工作根据算法类型，共分割方法分为两类：1）基于图[4，21，25]和2）基于建模[22，49]。前者利用来自不同图像的对象实例之间的共享结构表示来联合分割共同对象，而后者通过对共同对象区域中的像素/超像素进行分组来激励共同分割作为聚类任务。经典方法[43，50]使用手工制作的特征，例如SIFT [32]和HOG[9]用于对象实例表示，而最近的最先进方法越来越多地使用深度学习方法。最近，Liet al. [27]提出了一种深度网络，通过比较它们的语义相似性来共同分割区域。Hsu等人[18]提出了一种无监督的方法，用于共同分割特定类别的对象，而无需额外的数据注释。此外，Chenet al. [6]在深度神经网络的瓶颈层中提出了一种基于注意力的方法，以激活语义相关的特征。虽然有丰富的文献，联合分割在其他计算机视觉任务中的应用是有限的，我们的工作标志着第一个方法之一，赞同联合分割在其他视觉任务中的适用性。2. 基于视频的Re-ID流水线在本文中，我们遵循最近的一系列研究，得出了当前基于视频的Re-ID的最新技术，可以总结为如图所示的模板框架。二、它由两个主要组成部分组成：（a）一个功能，564输入视频a) 特征提取器b) 时间特征聚集图2.标准的基于视频的Re-ID框架包含（a）特征提取器和（b）时间特征聚合组件。牵引网：这能够通过手工制作的特征（SIFT、LBP、HoG等）从视频帧中提取有意义的抽象空间表示。或者通过使用预先训练的ImageNet模型[16，19]（如ResNet和SE-ResNet）自动提取深度CNN特征（b）时间特征汇总：这里，将提取的帧级特征向量聚合以形成视频级特征向量。特征向量来表示视频中的人的身份。文献中特征聚合技术的复杂性从简单的时间池化（TPmax/avg）操作（平均/最大池化）到复杂的基于时间注意力（TA）和递归层（RNN）的聚合[13]。然后使用聚合的视频级特征向量为了匹配和检索的目的，与其他视频实例进行比较（使用L2在表1，我们给出了使用上述框架的基于视频的Re-ID的先前工作的总结。文献工作特征提取器特征聚合RCN for Re-ID[35]自定义3层CNNRNN + TP平均值两个流暹罗[8]自定义3层CNNRNN + TP平均值共同关注ST合并[56]深度CNN +空间金字塔池化关注TPComp. Sniffy Sim.[五]《中国日报》ResNet-50LSTM，共同关注嵌入部分对齐[48]GoogLeNet双线性池表1.文献中的方法集合遵循图1所示的基于视频的Re-ID流水线。二、Gaoet al. [13]用ResNet50 [16]作为特征提取器重新访问了各种时间聚合层的效果。我们通过纳入另一种最先进的架构SE-ResNet 50 [19]1扩展了这项研究，并在表2中给出了定量结果。基于表2中的实验，我们假设了某些关键观察结果：首先，骨干网络的选择会影响系统的整体性能。这是相当值得注意的，因为没有太多的研究的影响，骨干网络上的Re-ID的性能已经进行。其次，据观察，即使是一个简单的1ILSVRC 2017图像分类挑战赛冠军[10]2 我们只研究了时间平均池化（ TPavg ）而不是最大池化（TPmax）的效果，因为前者在[35，8，13]中显示出优越性。表2.在不同的特征提取器网络、特征聚合技术和数据集上评估基于视频的Re-ID框架。最佳结果以粗体显示。TPavg层与基于复杂注意力/RNN的聚合层表现相当，如[7]中所报告的。我们将我们的共同分割的想法在这个基础架构，这是下面描述。3. 基于视频的Re-ID对象共分割是根据“一些”共同特征[50，27]（如对象类别和外观的相似性）从两个或多个图像中识别和分割共同对象的任务共分割的图示3 .第三章。对象共分割图3.使用来自Caltech-UCSD Birds 200[53]数据集的图像进行对象共分割的示例说明还如第1节所述，主要概念是在视频帧中并入与人（连同他的附件）相关联的一些共同显著性，其可以增强来自人的特征并抑制不相关的背景特征。基于此动机，我们将协同分割启发的注意机制应用到基于视频的人的Re-ID任务中。共分割的应用似乎在视频Re-ID中自然相关，因为帧（ResNet50，SE-帧级特征共享参数（视频级特征描述符共享参数（RNN平均池关注平均/最大池特征提取器温度啊火星DukeMTMC-VideoReID地图R1R5R20地图R1R5R20ResNet50[13]TP平均值275.883.1 92.8 96.892.993.6 99.099.7ResNet50[13]TA76.783.3 93.897.493.293.9 98.999.5ResNet50[13]RNN73.881.6 92.8 96.788.188.7 97.699.3SE-ResNet50TP平均值78.184.0 95.297.193.593.7 99.099.7SE-ResNet50TA77.784.294.797.493.194.299.099.7565nn=1nn氮磷氮磷输入视频(a) COSAM空间注意力（b）COSAM通道注意力图4.共分割激活模块（COSAM）插入第L个和第（L +1）个CNN块之间（最佳彩色视图）。COSAM包括两个步骤：（a）在COSAM空间注意力步骤中，在降维之后，将特征图通过归一化互相关（NCC）匹配层和摘要层以获得对应的空间注意力掩模。(b) 在COSAM通道注意步骤中，通过考虑公共通道激活的强度来丰富特征已知对应于特定身份的帧包含要匹配的主要感兴趣的特定公共对象（人）在这方面，我们提出了一种新的协同分割激活模块（COSAM）层（第4节），可以插入深度神经网络的连续卷积块之间在解释COSAM之前，我们简要回顾了启发我们工作的两种Li等[27]提出了一种编码器-解码器Siamese架构，通过考虑编码器瓶颈层中空间特征描述符的相互关联来共同分割公共对象通过使每个空间位置处的图像之间的特征描述符互相关联，计算基于相关性的成本矩阵，并将其进一步传递到解码器以估计共同分割掩模。同样的工作也提到了组共同分割的想法，同时处理一组图像。另一项工作陈等人。[6]在Siamese编码器-解码器架构中探索了一种基于瓶颈层中的公共通道活动来共同分割图像的方法。特别地，通过将一个图像的通道激活调节在另一图像的通道激活上（在图像对中）并且通过取平均通道激活（在一组图像中）来实现我们的COSAM层是建立在这两篇论文的组共同分割方法，但重新制定的视频Re-ID。4. 共分段激活模块（COSAM）我们提出了一个协同分段激活模型（COSAM），它可以插入几个深度神经网络架构的卷积块之间，以诱导共同分割的概念COSAM模块的架构如图所示4.第一章COSAM模块的输入ULE是在卷积块之后的人的帧级特征图的集合特征图表示为F n，p=CNN L（I p），其中CNN L指的是直到第L个卷积块的网络，n是由索引p标识的人的视频帧（1 ≤ n ≤ N）的索引&特征图的维数为DL×HL×WL，每帧（DL=通道数，HL=高度，WL=宽度）。一旦特征映射进入COSAM，它将经历两个步骤：（a）COSAM空间注意力（第4.1节）&2）COSAM通道注意力（第4.2节），我们将在下面详细介绍。4.1. COSAM空间注意首先，输入特征图{Fn，p}N通过降维层（1×1卷积+BatchNorm[20]+ ReLU[36]）以减少改变的数量从DL到DR（DR DL）。这样，我们就得到了维数为DR×HL×WL的特征图作为输出。降维步骤是为了加速计算而专门执行我们在空间注意力步骤中的目标（图）。4（a））是估计属于一个人的每个帧的空间掩模，该空间掩模仅通过与所有给定的N个帧进行协商来激活该人的空间位置。在这方面，我们建立在[27]的基础上，使得给定空间特征图Fn，p，对于维数为D R× H L× W L的帧I p，我们认为在每个空间位置（i，j）（1 ≤ i ≤ H L，1 ≤ j ≤ W L）处的通道方向特征向量是位置（i，j）处的帧的D R维局部描述符，记为F（i，j）。为了跨帧匹配局部区域，对于每个帧I p和I p，它的位置（i，j），我们将局部描述符F（i，j）与其他（N-1）个可用帧进行穷举比较。在这里，比较是使用归一化互相关（NCC）之间的本地去，帧D→ DMLPL RHNCC间隙HLLHLWLWLWL共享参数共享参数总结HLHL间隙HL层（1x1CONV）WLWLWL共享参数共享参数HL间隙HLHLWLWLWLNCC汇总层（1x1CONV）NCC汇总层（1x1CONV）(L-1)CNN块CNN块（L）降维（1 x 1 CONV）平均池CNN块（L+1）566k P kQ特征提取器时间特征聚集图5.包含建议的COSAM层的整体架构的图示。在这里，两个COSAM模块插入在第4和第5CNN块之后;然而，可以可选地插入在任何CNN块之后（以点示出）。TPavg=时间平均池化，TA =时间注意力，RNN =递归神经网络，FC层=全连接层。因为它对照明变化是稳健的，并且发现这比简单的相关性更稳健[47]。比较结果被重新成形为3D成本体积，其中每个空间位置（i，j）保存比较值。在端到端学习框架中匹配描述符方面创建成本量的想法也已用于其他计算机视觉任务，例如几何匹配[42]，基于图像的Re-ID[47]和立体匹配[23]等。在数学上，它可以定义为：特征向量通过多层感知器（MLP），随后通过S形激活以获得每个帧的通道重要性。将得到的所有N帧的信道重要性向量在每个维度上平均合并，以估计全局信道重要性。然后将平均通道重要性向量与空间关注特征相乘，以获得传递到下一层的重要性加权通道激活5. 整体网络架构成本量（n）（i，j）={NCC.ΣF（i，j），F（h，w）|现代最先进的图像识别网络氮磷m，p架构（ResNet 50、SE-ResNet等）被用作（1≤m≤N，m/=n）（1≤h≤HL）（1≤w≤WL）}（一）基于视频的Re-ID中的特征提取器包含多个连续的CNN块，其中卷积层根据输出特征图的分辨率进行分组：ResNet 50和SE-ResNet 50有五个块（一个ini-1），给定DR维的两个描述符P、Q，NCC运算被定义为：1DR（P−µ）。（Q−µ）前卷积块之后是四个连续的残差（或）挤压和激励（ SE ）残差块）。我们建议在 CNN 块之后插入COSAM层在这些网络架构中。一个例子，建议NCC（P，Q）=k=1（2）DRσP.σQ这里，（μP，μQ）表示描述符（P，Q）的平均值，（σP，σQ）分别表示描述符（P，Q）（一个很小的值是1e−4）图中显示了网络体系结构和COSAM层在图5中。在得到每个CNN块的输出后，特征提取器采用COSAM层来共同分割特征，然后将共同分割的特征传递到下一个CNN块。在特征提取器的末尾，为避免数值不稳定性，将其添加到σ中时间聚合层（TPavg 或TA或RNN）是ap-。成本量采用1×1卷积法进行汇总洗脱层，然后是S形激活，导致对应帧的空间掩码。空间掩模与对应帧的原始输入特征Fi，p相乘，空间注意力步骤之后的输出要素将传递到渠道注意步骤。4.2.COSAM频道关注以将帧级描述符概括为视频级描述符。得到的视频级描述符用于预测视频属于特定人身份的概率。5.1.目标函数为了与基线[13]进行公平比较，并且由于它们适合我们的任务，我们使用与[13]相同的损失总损失函数可以写为：在通道注意步骤（图。（第4（b）段），我们打算更加重视共同的重要渠道ΣBL=i=1.ΣLCE+λL三重态（Ii，Ii+，Ii−）（三）在框架之间为了实现这一点，我们建立在[6]的基础上，将全局平均池化（GAP）应用于空间注意力步骤的特征图，并得到这里，LCEL三元组分别指交叉熵损失和批次三元组损失，λ指损失之间的权衡参数（我们使用λ=1，根据[13]），FC层CNNBLOCK-1哥桑1CNNBLOCK-2COSAM2CNNBLOCK-3CNNBLOCK-4CNNBLOCK-5COSAM3COSAM4视频级特征描述符ID编号COSAM5TP平均值（或）TA交叉熵损失（或）RNNCNN块哥桑可选COSAM批次三重损失SOFTMAX567B=批大小（Ii，Ii+，Ii−）分别指批中的第i个图像及其在当前批交叉熵损失（L CE）：这种监督损失被用来以计算身份之间的分类误差。softmax层中节点的数量取决于训练集中标识的数量。批量三元组丢失（L三元组）：为了减少类内变化并增加类间变化，训练实例被形成为三元组，其中每个三元组包含锚、属于与锚相同的类的正实例和属于与锚不同的硬负挖掘是在每一批中进行的，以选择对模型构成挑战的最难的例子让{f IA，f I+，f I-}是三元组的视频级描述符，其中IA，I+，I-分别是锚定、锚定和锚定样本。三重态损失函数定义为：从两个不重叠的摄像机视图的人。序列的长度在23帧和192帧之间变化。根据[51，26]中遵循的协议，使用10个随机探针库分裂来执行实验。我们使用文献[59，26，29，48]中的标准评估指标，即， 1) 累积匹配特征（ CMC ） 2 ）平均精度（mAP）。CMC是基于al-出租m的检索能力，以在排名前k的匹配中找到正确的身份。CMC用于每个身份只有一个库实例存在的情况。我们报告秩-1，秩-5和秩-20 CMC精度。mAP度量用于评估多镜头重新识别设置中的算法，其中相同身份的多个实例存在于图库中。6.2. 实现细节所提出的方法使用PyTorch框架[37]实现，并可在线获得3。在训练期间，每个视频由N=4帧组成（与基线[13]相同）Ltriplet（IA，I+，I−）=max{D.ΣfIA，fI+并且每个帧的高度=256并且宽度=128。的.Σ- DfIA，fI−+m，0}（四）图像在传递到网络之前使用ImageNet这里，m是距离D（i，j）de之间的裕度注意两个描述符i，j之间的距离函数。交叉熵损失函数被应用于针对身份获得的软最大概率，并且批量三元组损失被应用于视频级描述符以反向传播梯度。6. 实验在本节中，我们通过将所提议的COSAM层插入两种最先进的深度架构来评估其性能：[19]&第19话：我的世界6.1. 数据集和评价方案我们在三个常用的基于视频的人Re-ID数据集上评估所提出的算法：[59]，DukeMTMC-VideoReID [54]和iLIDS-VID[51]。MARS数据集[59]是最大的基于序列的个人Re-ID数据集，具有1261个身份和20，478个视频序列，每个人在6个非重叠相机视图中捕获多个帧。其中625个用于训练，其余用于测试。此外，3，248个身份（与训练集和测试集不相交）被用作干扰项。DukeMTMC- VideoReID [54]是DukeMTMC多摄像机数据集[41]的子集，该数据集使用8个同步摄像机在具有不同视点、照明、背景和遮挡的室外场景上收集。它包含702个身份，每个身份用于训练测试，408个身份作为干扰物。有369，656个用于训练的小轨道，445，764个用于测试牵引器的框架。iLIDS- LID[51]是一个包含300个序列的600个小数据集该网络使用Adam优化器进行训练，具有以下超参数：β1= 0.9，β2= 0.999，批量大小= 32，初始学习率= 0.0001，折衷参数为-tweenlosses λ = 1和COSAM降维尺寸DR= 256。我们对网络进行了60000次迭代训练，每15000次迭代后，学习率乘以0.1。国家。该实现是在一台配备NVIDIA GeForce GTX1080 Ti GPU的机器上完成的，使用一个GPU训练一个模型大约需要8个小时。6.3. 结果讨论在我们的实验中，每个人的视频都被分割成多个长度为N帧的非重叠视频片段，每个片段都通过网络获得片段级描述符。此外，对视频片段级描述符进行平均以得到视频级描述符。然后，这些视频级描述符进行比较，使用的L2距离计算CMC和mAP性能。COSAM层在网络中的位置：不失一般性，作为第一步，通过在特征提取器的每个CNN块之后插入COSAM层来评估COSAM层的效果，并且TP avg被用作特征聚合层。该网络在MARS DukeMTMC-VideoReID数据集上进行训练和评估，定量结果如表3所示。从结果中可以推断，COSAM模块的引入改善了基线网络，并且在更深层（COSAM3，COSAM4，COSAM5）中是有效的，因为这些层中的特征更具区分性和抽象性3https://github.com/InnovArul/vidreid_cosegmentation568(a)（b）（c）（d）图6.共分割的可视化第二行示出了与第一行中的图像相对应的分割图而不是浅层的特征。我们还同时试验了包含多个COSAM 块。发现 COSAM4，5 （插入 COSAM4COSAM5）如图所示5实现了最佳性能，并在其余实验中被视为我们的默认建议架构补充材料中详细介绍了通过在不同位置插入多个COSAM进行表3.评估的骨干特征提取与COSAM和时间聚合层作为TP平均。COSAMi在第i个CNN块之后的COSAM层中实现堵塞。可视化：为了证明我们提出的方法的可解释性，我们可视化了在 MARS 数据集上训练的 SE-ResNet 50+COSAM 4，5模型中COSAM 4层的空间注意力掩模（图1）。（六）。这些帧表现出不同的条件，如规模，姿态，视点变化和部分遮挡。图如图6（a）所示，预测注意力掩模能够聚焦于人并避免背景特征。在图6（b）中，尽管人占据帧的相对小的区域，COSAM层仍然基于任务相关共识成功地聚焦于人。虽然建筑物和树木在所有帧中都是常见的，但我们专门为Re-ID训练的协同分割启发在图6（c）中，可以观察到，空间注意力识别由个人携带的附件（伞）。通过物品来识别人是通过外表来区分人的重要方法之一。在图6（d）中，通过避开遮挡对象（cy）表4.基线模型与最佳COSAM配置（COSAM4、5）以及不同特征提取器网络、特征聚合技术和数据集的比较。这里，COSAM4，5= COSAM层放置在基线模型的第4和第5 CNN块之后，Duke = DukeMTMC-VideoReID数据集。每个骨干网络的最佳mAP CMC Rank-1分别以红色和蓝色mAP不适用于iLIDS-VID，因为每个探头只有一个图库实例cle）。更多的空间遮罩插图显示在Supple-Escape材质中。COSAM在基线模型中的作用：为了理解COSAM层的重要性，我们将我们性能最好的基于共分割的Re-ID模块（ COSAM4 ， 5 ）合并到具有两个特征提取器（ResNet 50和SE-ResNet 50）和三个不同的时间聚合层（TP avg，TA，RNN）的基于基线视频的Re-ID管道中[13]。表4表示模型的性能评估。我们基于COSAM的网络在所有三个数据集中显示出与基线模型相比一致的性能改进（ CMC Rank 在骨干网络之间，SE-ResNet 50在基线和建议案例研究中的表现优于ResNet50，突出了更好的骨干网络选择的重要性。在时间聚合模块中，尽管TPavg、TA和RNN表现出或多或少相似的性能，但前者（TPavg）在MARS和DukeMTMC-VideoReID数据集中都产生最佳mAP值，在iLIDS-VID中产生最佳CMC Rank-1。特别是COSAM使mAP提高了1.4%（ResNet50）&温度啊COSAMi火星公爵iLIDS-VID地图R1R5地图R1R5R1R5ResNet50TP平均值[13]-75.883.1 92.892.993.6 99.0 73.992.6TP平均值COSAM4，577.283.7 94.194.094.4 99.1 75.594.1第十三章-76.783.3 93.893.293.9 98.9 72.392.4TACOSAM4，576.983.6 93.793.494.6 98.9 74.994.4RNN[13]-73.881.6 92.888.188.7 97.6 68.593.2SE-ResNet50TP平均值-78.184.0 95.293.593.7 99.0 76.993.9TP平均值COSAM4，579.984.9 95.594.195.4 99.3 79.695.3TA-77.784.2 94.793.194.2 99.0 74.793.2TACOSAM4，579.185.0 94.994.195.3 98.9 77.194.7RNN-75.783.1 93.692.494.0 98.4 77.494.4COSAMi火星DukeMTMC-VideoReID地图R1R5R20地图R1R5R20ResNet50没有COSAM[13]75.883.192.896.892.993.699.099.7COSAM268.377.790.196.188.990.298.499.0COSAM376.982.794.397.393.694.098.799.9COSAM476.882.994.297.193.894.798.799.7COSAM576.682.893.997.293.293.798.499.9COSAM4， 577.283.794.197.594.094.499.199.9SE-ResNet50无COSAM78.184.095.297.193.593.799.099.7COSAM267.077.990.494.992.294.098.999.7COSAM379.585.094.797.893.694.799.099.9COSAM479.884.995.497.894.095.499.099.9COSAM579.984.595.797.993.994.999.199.9COSAM4， 579.984.995.597.994.195.499.399.85696.4. 消融研究不同帧长度（N）的影响：我们研究了视频中帧的数量对最佳性能模型性能的影响。特别地，我们在SE-ResNet 50 +COSAM4，5 +TPavg中用N= 2、4和8的帧长度进行分析，并且结果示于表6中。我们发现N=4帧与[13]相似是最佳的。此外，我们还进行了研究，比较帧选择方案的效果（随机vs.序列）和跨数据集性能。我们在补充材料中详述了这些帧长度火星DukeMTMC-VideoReID地图R1R5R20地图R1R5R20N=278.183.594.398.194.094.399.199.9N=479.984.995.597.994.195.499.399.8N=877.484.694.297.092.191.999.099.6表5.在MARS DukeMTMC-VideoReID数据集上比较我们的最佳模型与最先进的MARS 为 1.8% （ SE-ResNet 50 ）， DukeMTMC-VideoReID为1.1%（ResNet 50）和0.6%（SE-ResNet50）。关于CMC排名，我们观察到0.6%（ResNet 50）0.9% （ SE-ResNet 50 ）的改善在 MARS 中，DukeMTMC-VideoReID 为 0.8% （ ResNet 50 ） 1.7%（SE-ResNet 50），iLIDS-VID为1.6%（ResNet 50）2.7%（SE-ResNet 50）。与现有技术方法的比较我们将我们的方法与现有技术[28，17，30，24，61，17，45，5，48，13]在MARS和DukeMTMC-VideoReID数据集和结果如表5所示。据观察，我们提出的COSAM模块应用于SE-ResNet 50（COSAM 4，5）与TP avg一起实现最佳性能。特别是，我们的方法在CMC Rank-1中提高了0.9 % ，在CMC Rank -1 中提高了1.8%。MARS数据集中的mAP与最佳性能方法（[13]+ SE-ResNet 50 + TPavg）的比较除此之外，应用重新排序[61]进一步提高了性能，+2.0% CMC Rank-1和+7.5% mAP。直观地，这样的改进的CMC等级-1（86.9%）示出了在第一等级中正确地识别了大多数受试者，而改进的mAP结果（87.4%）表示在检索问题中显著的多镜头设置中，人的多个实例被精确地排在顶部。我们将这种改进归因于COSAM层在抑制噪声和帮助网络学习识别相关公共对象方面的有效性。类似地，我们的COSAM层与SE-ResNet 50实现了 0.6% 的 mAP 改进和 1.7% 的 CMC Rank- 1 与DukeMTMC-VideoReID数据集的改进。iLIDS-VID数据集的性能比较见补充资料。表6. 评价影响的轨道长度最佳性能型号SE-ResNet50 +COSAM4，5+TPavg.属性方面的性能提升：为了理解COSAM在捕获属性方面的重要性，我们对DukeMTMC-VideoReID数据集进行了属性方面的实证研究，并在表7中给出了结果。对手袋、帽子和背包等属性的显著改进模型手袋帽子背包地图R1R5地图R1R5地图R1R5[13]+R50+TP91.292.0100.091.191.797.592.893.998.6R50+C4，5+TP95.296.0100.093.594.297.595.196.499.8[13]+SE50+TP94.197.3100.092.794.299.294.395.699.1SE50+C4，5+TP96.0100.0100.093.996.799.595.497.1100.0表7.属性方面的性能通过对Duke的比较，揭示了COSAM在捕捉人的配饰特征方面这里，R50= ResNet 50，SE 50 = SE-ResNet 50，C4，5=COSAM4，5。7. 结论和今后的工作在这项工作中，我们提出了一种新的“共分割启发注意力网络”的视频为基础的Re-ID。在这方面，我们提出了一种新的基于协同分段的注意力模型（COSAM），用于联合学习视频帧中的注意力，以端到端的方式有效地提取特征。与利用预训练模型和/或“每帧”注意机制的大多数现有Re-ID方法相比包、移动电话、帽子、伞）以及人，经由跨同一视频的帧的任务相关（Re-ID）注意结果表明，与最先进的技术相比，性能优越。这种基于共分割的注意力方法可以应用于其他基于视频的计算机视觉问题，例如对象跟踪和视频对象分割。鸣谢：这项工作得到了PM博士研究奖学金（SERB，印度） GooglePhDFellowshiptoArulkumarSubramaniam的资助&。网络深层模型？火星地图R1R5R20[28]第二十八话没有16.430.746.660.9JST-RNN[62]是的50.770.690.097.6QAN[30]是的51.773.784.991.6[24]第二十四话是的56.171.886.693.0IDE+XQDA+ReRanking[61]是的68.573.9--TriNet [17]是的67.779.891.4-[45]第四十五话是的71.177.888.894.1Comp. Sniffy Sim.[五]《中国日报》是的69.481.292.1-部分对齐[48]是的72.283.092.896.8[13]第十三话是的76.783.393.897.4[13] + SE-ResNet 50 + TP平均值是的78.184.095.297.1SE-ResNet50 + COSAM4， 5+ TP平均值（我们的）是的79.984.995.597.9SE-ResNet50 + COSAM4， 5+ [61]第61话：我的世界是的87.486.995.598.0网络深层模型？DukeMTMC-VideoReID地图R1R5R20[第48话]是的78.3483.6294.5997.58[13]第十三话是的93.293.998.999.5[13] + SE-ResNet 50 + TP平均值是的93.593.799.099.7SE-ResNet50 + COSAM4， 5 +TP平均值（我们的）是的94.195.499.399.8570引用[1] Slawomir Bak和Peter Carr。用于人员重新识别的一次性度量学习。在IEEE计算机视觉和模式识别会议论文集，第2990-2999页1[2] 洛里斯·巴扎尼马可·克里斯坦尼和维托里奥·穆里诺Sdalf：用局部特征的语义驱动的扩展来建模人的外观在个人重新识别，第43-69页。Springer，2014. 1[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别集，第7291-7299页，2017年。2[4] 张浩贤和王玉强。优化多前景cossegmenta- tion的分解。计算机视觉和图像理解，141：18- 27，2015。2[5] Dapeng Chen，Hongsheng Li，Tong Xiao，Shuai Yi，and Xiaogang Wang.利用竞争片段相似性聚合和共同关注片段嵌入的视频人重新识别。 In Proceedings of theIEEE Conference计算机视觉和模式识别，第1169-1178页，2018年。二、三、八[6] 陈红，黄一飞，中山秀树。基于语义感知注意的深度对象共分割。arXiv预印本arXiv：1810.06859，2018。二、四、五[7] 陈启明，任武。CNN是你所需要的一切。arXiv预印本arXiv：1712.09662，2017。3[8] Dahjung Chung，Khalid Tahboub，and

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于共分割的注意力网络的视频人物再识别

论文研究-基于深度人体语义分割与注意力机制的视频行人再识别 .pdf

基于阈值分割的车牌定位 识别

基于分割的手写文本识别

基于注意力机制分割的车道线检测

基于相似度的注意力机制有用于图像实例分割中吗

基于神经网络的车牌识别

基于纯Transformer的图像分割网络

人工神经网络识别视频

java车牌识别字符分割_opencv 车牌字符分割 ANN网络识别字符

胶囊网络可以用于图像分割还是图像识别

基于卷积神经网络识别

基于卷积神经网络的车牌识别系统

基于BP神经网络的语音情感识别

实例分割 语义分割目标识别

基于卷积神经网络的车牌识别算法

基于神经网络深度学习甲状腺结节的分割与识别的国内外研究现状，具体到文献

基于语义分割的行人重识别研究现状

基于实例分割的遥感耕地识别后处理流程都包括哪些

基于卷积神经网络的字符分割

最新资源

基于阈值分割的车牌定位识别

实例分割语义分割目标识别