没有合适的资源?快使用搜索试试~ 我知道了~
2014详细分支上下文分支BiCnet-TKS:学习有效的时空表示用于视频人物重新识别侯瑞兵1、2,常红1、2,马炳鹏2,黄瑞3,石广山1、2、41中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京,1001902中国科学院大学,北京,1000493香港中文大学深圳人工智能与机器人社会研究所,广东深圳5181724中国科学院脑科学与智能技术示范中心,上海,200031侯瑞兵@ vipl.ict.ac.cn,bpma@ucas.ac.cn,ruihuang@cuhk.edu.cn,{changhong,sgshan}@ ict.ac.cn摘要下采样在本文中,我们提出了一个有效的时空表示的视频人重新识别(reID)。首先,我们提出了一个双边互补网络(BiCnet)的空间互补建模。具体来说,BiCnet包含两个分支。细节分支以原始分辨率处理帧以保留细节视觉线索,上下文分支采用下采样策略来捕获长范围上下文。在每个分支上,BiCnet附加多个并行的、不同的注意模块,为连接框架发现不同的身体部位,从而获得目标身份的整体特征此外,一个时间内核选择(TKS)块被设计为捕捉短期以及长期的时间关系的自适应模式。TKS可以以任何深度插入BiCnet以构建BiCnet-(a) 现有方法的输入序列对和激活图(b) 我们的方法的输入序列对和激活映射时空建模的TKS。在多个基准测试上的实验结果表明,BiCnet-TKS的性能优于最先进的技术,计算量减少了约50%。源代码可在https://github.com/blue-blue 272/BiCnet-TKS上获得。1. 介绍人员重新识别(reID)[34,50,11]旨在跨多个非重叠相机重新识别特定人员。最近,随着大型视频基准的出现[50,20]和计算资源的增长,视频人reID已经吸引了很多注意力。视频数据包含更丰富的空间和时间线索,可以用来减少视觉模糊性,以获得更鲁棒的reID。尽管视频识别取得了重大进展,但大多数前...图1:一对类激活图的示例[53]输入视频序列的现有方法[50]和我们的方法。但这些方法并没有充分利用视频中丰富的对于空间线索,大多数方法[28,26,12]以相同的输入分辨率对每个帧进行相同的操作,导致连续帧的高度冗余空间特征。冗余特征很容易集中在相同的最具代表性的局部区域[14],对于具有看似相似的局部身体部位的两个人来说,这可能是无法区分的。例如,如图所示1(a),序列对中的绿色T恤因此,期望自动捕获跨连续帧的不同空间线索以形成每个身份的完整特征。对于时间线索,大多数现有方法仅建模2015(a) 有遮挡帧的序列(b) 序列快速移动的行人图2:短期和长期的时间关系对于不同的序列具有不同的重要性。(a)具有部分遮挡的序列。需要长期的时间线索来缓解闭塞。(b)快速移动的行人的序列。短期的时间线索被期望用于对详细的运动模式进行建模。短期[28,44,9]或长期时间关系[39,46,13]。为了增强时间建模能力,一些作品[20,21]试图联合捕获短期和长期时间关系,并以相等的权重融合这两种关系然而,这两个时间关系对于不同的序列具有不同的重要性。例如,如图2所示,对于具有部分遮挡的序列,长期时间关系对于减轻遮挡更重要对于快速移动的行人序列,短期的时间关系发挥更大的作用,以模拟详细的运动模式。因此,有必要自适应地捕获视频的短期和长期时间关系。为了明确实现上述目标,我们提出了一个有效的时空表示视频reID。我们首先提出了一个双边互补网络(BiCnet)提取互补的空间特征跨连续的帧。首先,BiCnet包含两个特定于尺度的分支,细节分支以原始分辨率处理帧以保留空间细节,上下文分支以下采样分辨率处理帧以扩大长距离上下文的感受野。如图1(b)所示,在较大的感受野下,第一序列的第三帧特征可以捕捉到绿色T恤上有背包带的更广泛的视觉线索,这可以帮助区分两个相似的行人。然后在每个分支上,BiC- net附加多个并行的空间注意模块.通过加强个体注意模块的多样性,注意模块可以聚焦于用于对比框架的不同区域。如图1(b),在注意模块多样的情况下,来自同一分支的召唤框架特征可以集中在互补的身体区域,覆盖目标身份的全身。最后,BiCnet将这两个分支的互补特征聚集到一个综合的空间表示中。此外,我们开发了一个时间核选择(TKS)块自适应建模的短期和长期的时间关系。在时间维上同时利用小核和大核,可以同时捕获短期和长期的时间关系。因此,TKS被设计为包含几个并行的时间卷积路径与各种内核大小。更重要的是,TKS选择一个占主导地位的时间尺度根据来自多个路径的全局信息。通过选择策略,TKS可以根据输入视频的属性自适应地改变时间建模的尺度,从而表现出更强的时间表示能力。TKS在计算上是轻量级的,并且略微增加了模型的复杂性。它可以很容易地插入到BiCnet中,称为我们在多个具有挑战性的视频reID基准上评估我们的方法评估表明,我们的方法优于国家的艺术。此外,通过将一些帧下采样到低分辨率,BiCnet-TKS大大降低了计算,需要比现有技术少约50%2. 相关工作人员ReID。现有的视频识别方法主要集中在利用视频中丰富的时空线索。对于空间线索,大多数作品[50,43,26,49]应用时间平均池或加权策略来融合帧特征。对于时间线索,现有方法使用光流[28,54,43],递归神经网络[28,44,37,3],3D卷积[24,9]或非局部块[39,12,13]来建模时间关系。最近,作品[21,20]提出联合捕获短期和长期的时间关系。然而,这些方法以相等的权重融合两个时间关系。相比之下,我们的TKS自适应地选择一个占主导地位的时间关系的基础上,把视频,表现出更强的时间建模能力。与我们的BiCnet最相似的工作是TCLNet [14],它也提取了连续帧的互补特征。BiCnet有几个优势。首先,TCLNet只考虑一个空间尺度,专注于局部细节,而我们的方法是建立在一个两个分支的架构,它可以捕获详细的功能,以及长期的背景。第二,TCLNet采用硬擦除的方法去除显著特征,从而降低表示能力,而我们的方法采用软注意的方法灵活地确定应该注意的区域第三,TCLNet使用多个昂贵的CNN来挖掘不同的部分。我们的方法使用不同的轻量级atten- tion模块,共享CNN,这是更多的计算,有效的和参数友好的。多分支架构。多分支Architecture在基于图像的视觉任务中表现出巨大的成功例如,M3 DNet [17]和HR-Nets [33]提出了包含多个分支的网络,每个分支都有自己的空间分辨率,分别用于图像分类和姿态估计。作品[5,25]提出了一种金字塔特征学习网络,该网络由用于图像reID的多个尺度特定特征学习分支组成。然而,上述方法以多个分辨率处理每个图像,导致额外的计算。在骗局中-2016n=1n=1n=M+11softmax重塑L2| 1第2章:第一���到2:softmax→������日本+1L3| 2���×��� ×���第3章:第1章→第1章重塑到第3章:我的softmax→���������×���3���×��� ×���(a) 双边互补网络(BiCnet)(b)BiCnet中的多样注意操作(DAO)图3:(a)BiCnet的总体框架。 BiCnet包含两个分支。 细节分支以原始分辨率处理帧 编码详细的空间线索,和上下文分支处理帧在原始分辨率的一半,以提供更大的接收场的远程上下文。序列的输入帧被分成不同的分支。跨尺度路径(CSP)在每个阶段之后融合两个分支在每个分支上增加了不同的注意操作(DAO),强制连续的帧聚焦于不同的身体区域,从而获得每个身份的整体特征。(b)本文给出了三框架DAO的结构,并给出了差分项L_d_iv(A3|A1)为清楚起见省略。相反,我们的方法对每个帧使用单独的分辨率,这大大降低了计算成本。此外,很少有方法探索多分支架构以实现有效的视频理解。慢快网络[8]依赖于类似的两分支结构,但每个分支编码不同的帧速率,而我们的方法处理具有不同空间分辨率的帧。注意力模型 注意力机制已被证明是增强CNN的潜在方法。SENet [16]提出了一种有效的信道注意模块。CBAM [40]和BAM [29]进一步引入了空间注意块。SKNet [23]在两个空间卷积中引入了特征关注。最近的方法[38,7,47,15]进一步改进了信道注意块。然而,现有的方法通常被设计为增强空间表示能力。相比之下,我们的TKS在不同的时间内核上采用注意力,这可以提高视频网络的时间表示能力。此外,我们的BiCnet是第一个使用不同注意力模块的工作,双边互补网络,从连续帧中挖掘互补的视觉线索。如图3所示,BiCnet构建在两个分支架构上,并在每个分支上添加了一个多样化的注意操作(DAO)该算法采用两分支结构为不同的视频子段建立互补尺度模型,并利用DAO算法挖掘连续帧的互补人体部位。通过在每个分支上添加DAO, BiCnet可以获得目标人物的整体特征,从而产生全面的空间表示。双分支架构。如图3(a)所示,BiCnet包含两个CNN分支,一个细节分支处理给定视频片段的前几帧,原始分辨率和一个上下文分支操作在原始分辨率的一半上的剩余帧。Context Branch通过对输入帧进行下采样,使输入帧的尺寸减小,从而提供了更大的感受野来编码长距离空间上下文,可以补充Detail Branch提取的细节特征 具体地,假设视频片段增强视频表现的连续帧I={In}N包含N个连续帧,n是3. 我们的方法我们的目标是开发一个有效的时空表示视频reID。我们的方法包括两个新的组件,即。BiCnet用于跨连续帧的互补空间表示,TKS用于自适应地对短期和长期时间关系建模。视频帧的索引。 我们首先将I分为两个子-分段,即原始分辨率下的大帧IB={In}M,以及原始分辨率一半下的小帧IS={In}N定义了小帧与大帧的比值α。然后,IB和IS分别被馈送到细节分支(CNN D)和上下文分支(CNN C)中,以如下获得对应的特征向量fd和fc,3.1. 双边互补网络如图1(a),大多数现有方法提取fd= 1+αβNKCNND(Ik),Ik∈{InN1+αn=1(一)仅突出局部身体部位的连续帧的高度冗余特征[14]。为此,我们设计1+αβfc=αNCNNCK(Ik),Ik∈{In }NNn=1+α +1。卷积层全连接层池化CSP��� × ��� × ��� × ���������:重塑������×��� ×���/2 ×���/2ConvBlock ConvBlockDAOConvBlock���× 3 × 256 × 128下采样ConvBlockConvBlockDAOConvBlock������× 3 × 128 × 64详细信息分支上下文分支跨比例路径缩放合并⋮⋮}2017最后,我们简单地平均fd和fc,以获得用于识别的视频特征。跨 尺 度 路 径 。 此 外 , 我 们 增 加 了 跨 尺 度 路 径(CSP)传播的细节分支的中间信息CSP使上下文分支能够感知细节分支提取的特征,上下文分支可以专注于利用远距离视觉线索,而其他分支则较少激活。CSP的结构如图所示第3(a)段。因为-然后,我们引入并行注意模块来学习挖掘不同的非激活区域。具体地,给定Dk(k>1),相应的注意力模块首先采用卷积层来压缩信道维度,并将结果整形为RHW。在此基础上,利用全连通层嵌入全局空间上下文. 最后,将结果重新整形为RH×W ,然后是softmax层,以产生相应的注意力图Ak∈RH×W(k>1).mally,让FM× C × H × W 和F∈RαM×C ×H×W为了引导不同的注意模块激活D∈RC2 2中间视频特征图是由相同的其中C、H和W分别表示通道数、大帧特征图的高度和宽度。FD和FC具有不同的空间和时间维度,因此CSP首先对FD执行变换,不同的区域,相应的空间注意力地图应该有所不同为了实现这一点,引入发散正则化项来测量两个注意力图Ak和Al的多样性,其被定义为:L div(A k|A l)= 1 −sim(A k,A l),(4)FαM×C ×H ×WD∈R2 2 匹配大小为:其中sim(Ak,Al)计算Ak的相似性,F D=R(W cP(F D))。(二)这里P是以步长2执行最大池化以匹配空间维度的池化操作,ω是卷积操作,Wc∈R1×1×C ×αC是Al. 任何距离度量都是适用的,我们使用点积相似性[39],因为点积在现代深度学习平台中更易于实现。然后,发散损失计算为:卷积运算,R是整形运算,将卷积结果整形为大小为M×αC×H×WL=−1.M1k−1 LΣ(一)|A)、.(五)2 2div k l到αM×C×H×W来计算时间维度。在M−1K=2k−1l=12 2最后,通过逐元素求和将FD融合到FC中注意力分散操作。如图3(a)所示,尽管大框架和小框架可以提供一些互补的线索(例如,,详细的T恤/额外的长距离背包带功能),每个分支上的框架仍然很容易集中在最具代表性的区域周围(例如,上衣)。为此,我们设计了不同的注意力操作,挖掘连续帧的互补区域。通过在每个分支上添加DAO,BiC-net可以发现丰富的可区分部分,并产生每个身份的完整互补特征。如图3(b)所示,DAO包含几个并行的注意力模块,并为每个帧使用特定的注意力模块。通过鼓励所生成的注意力图之间的多样性,注意力模块可以关注完整的部分,从而获得连续帧的多样性鉴别特征。DAO以FD(或FC)为输入,对每帧特征图(FD)k∈RC×H ×W使用特定的注意力模块。 我们以FD为例,为简单起见,将(FD)k记为Dk首先,正如所指出的,通过[6],高级特征图与辨别力成正比因此,我们通过通道平均池化来压缩D1,以定位D1激活的区域,产生自注意映射A1∈RH×W:L用于指导并行注意模块的优化。当任意两个注意力模块聚焦于相似的人物区域时,生成的注意力图将具有低的多样性值,从而产生高的损失值L。因此,使用L优化可以驱动不同的注意力模块关注不同的人区域。接下来,我们通过残差操作将不同的注意力信息编码到输入特征图中。最后,更新后的特征图被送入后续的卷积层,以生成嵌入互补视觉线索的特征向量。3.2. 时间核选择块在[30,42]之后,我们对视频网络进行因子分解,以分别处理空间线索和时间关系。利用高效的BiCnet来充分挖掘空间线索,我们构建了一个时间核选择块来联合建模短期和长期的时间关系。由于不同尺度的时间关系对于不同的序列具有不同的重要性(如图所示) 2)TKS以动态的方式结合多尺度时间关系,即:根据输入序列,将不同的权重分配给不同的时间尺度。特别地,TKS采用一个召唤帧序列,.特征映射F ={F t}T作为输入,其中Ft是特征Ak=softmax1摄氏度(Dk)c,k=1,(3)第t次t=1框架,并进行三重操作,Cc=1分区,选择和激励F。2018t=1t=1}i=1值得指出的是,与使用按尺度的权重来提供粗融合相比,我们选择使用按通道的权重(等式(1))。(7)融合。这种设计导致更细粒度的融合,从而调整每个特征通道。此外,权重是在输入视频上动态计算的。这对于reID是至关重要的,其中不同的序列可能具有不同的主导时间尺度。激发操作。 激发操作调节通过用残差对Z进行调节来输入特征映射图4:时间内核选择块的架构。阴谋最终的特征图E ={E t}T得到如下:分区操作。由于不完美的人物检测算法,视频的相邻帧没有很好地对齐,这可能使时间卷积对视频reID无效[9]。在[34]之后,我们使用分割策略来缓解空间不对齐问题。具体地说,给定视频特征图{F t}T,将每帧特征图均匀划分为h×w个空间区域,并对每个区域进行平均池化,构造区域级视频特征图X ∈ RT× C × h × w。选择操作。如图所示。4.给定X,我们导K条平行路{F(i):X→Y(i)∈E t= U(Z t)+F t。这里U是最近的邻居upsam-对Zt执行上采样以匹配空间分辨率Ft。TKS块保持输入大小,因此可以插入BiCnet的任何深度,以提取有效的时空特征。3.3. 整体架构我们对BiCnet的想法是通用的,它可以用不同的主干实例化[36,35,10]。在重新-cent works [9,20,32],我们使用ResNet-50 [10]在ImageNet [19]上预训练,最后一次下采样操作作为骨干。 BiCnet的分支机构建立在RT×C ×h ×w Ki=1,其中F(i)是一维时间卷积。在ResNet-50上,它由四个连续的阶段组成,即、[30] 核 大 小 为 2i+1 。 为 了 进 一 步 提 高 效 率 , 具 有(2i+1)×1×1内核的时间卷积被替换为具有3×1×1内核和扩张大小i的扩张卷积。选择操作的基本思想是使用从所有时间路径中提取全局信息,以确定分配给每条路径的权重。特别地,我们首先通过按元素求和来融合所有路径的输出,然后执行全局平均池化以获得全局特征u∈RC×1:Ku=GAPT,h,w( Y(i)),(6)i=1其中GAPT,h,w表示沿时间和空间维度的全局平均池化。在此之后,渠道-第一阶段至第四阶段。 在后面增加了“多样化注意力操作阶段3,因为高级特征图包含更多的语义信息。TKS块可以插入BiCnet到任何阶段来构建BiCnet-TKS用于时空建模。分支机构之间的结构和权重共享。多分支结构[5]的一个直接问题是它引入了几个参数,并导致了更高的过拟合风险。所以我们使用相同的结构,BiCnet的两个分支的参数。它减少了参数的数量,使BiCnet在单分支reID网络上不需要额外的参数。计算成本分析。为了说明BiCnet-TKS的计算成本,我们考虑一个常见的视频选择权{gi∈RC×1}K全局嵌入u,g=Δexp(Wi u)根据以下公式获得:i∈ {1,. . . ,K}, (7)reID Baseline [50]使用ResNet-50以原始分辨率提取每帧的特征。假设Baseline提取一帧特征的FLOPs为p,Baseline需要Np个FLOPs来处理具有N帧的视频。IKj=1 exp(Wju)BiCnet-TKS将视频帧拆分为原始分辨率的大帧和原始分辨率一半的小帧其中W为 ∈RC×C是变换后的参数,对于Y(i),生成g i。 聚合特征图Z ∈以1:α的比例(等式①的人。所以BiCnet-TKS需要大约Np+(αN)pFLOPs1,相当于约3−3T×C ×H×W1+α1+α44 4α+4然后通过各种时间内核上的选择权重来获得RKZ=R(gi)Y(i),(8)i=1相对于基线降低。我们可以看到,计算成本随着α的增加而减少。然而,当α太大时,小帧将主导网络优化,导致严重的性能下降。我们通过实验观察到,将α设置为3可以在计算其中R是将gi∈RC×1整形为R1× C ×1×1与Y(i)的大小相容。1与ResNet-50的特征提取相比,CSP、DAO和TKS的计算可以忽略不计。时间内核3 × 1 × 1加权和重塑时间内核5 × 1 × 1间隙时间内核2分 + 1分 × 1× 1⋮⋮⋮2019表1:与MARS、DukeMTMC-VideoReID和LS-VID数据集上的最新技术进行比较。这些方法分为三组,主要用于空间(S),时间(T)和时空(ST)建模。方法火星杜克视频LS-VID地图top-1地图top-1地图top-1SCOSAM*[32]79.984.994.195.4--MGRAFA [48]85.988.8----双流[31]----32.148.2不STMP [27]72.784.4--39.156.8M3D [21]74.184.4--40.157.7[第20话]78.587.093.796.344.363.1DRSA [22]65.882.3--37.855.8VRSTC [12]82.388.593.595.0--I3D [2]83.088.6--33.951.0P3D [30]83.288.9--35.053.4StSTGCN [46]83.789.995.797.3--IAUnet [13]85.090.296.196.9--TCLNet [14]85.189.896.296.970.381.5AP3D [9]85.190.195.696.373.284.5MGH [45]85.890.0----StBiCnet-TKS86.090.296.196.375.184.6成本和准确性。 在这种情况下,BiCnet-TKS只需要与Baseline算法相比,该算法的计算量减少了约44%,在时空特征提取方面更4. 实验4.1. 数据集和设置数据集。我们在多个视频reID数据集上评估所提出的方法,即。,MARS [50],DukeMTMC-VideoReID[41]和LS-VID [20]。评估指标。我们采用平均精度(mAP)[51]和累积匹配特征(CMC)[1]作为评估指标。实施细节。在训练过程中,对于每个视频序列,我们随机采样8帧,步长为4帧,以形成一个视频片段。每批16人,每人4个视频片段。我们将拆分的大帧调整为256×128,128×64水平翻转和随机擦除[52]用于数据扩充。至于优化器,亚当[18]与重量衰减0. 0005进行参数更新我们总共训练了150个epoch学习率初始化为3。5× 10−4,衰减因子为0。每40个时期1次在BiCnet中,小帧与大帧的比例设置为3。在TKS中,时间核的数量被设置为2,并且划分的区域为4 × 2。在测试过程中,对于每个视频序列,我们首先将其分成几个8帧视频片段。然后,我们提取的特征,为每个视频段的BiCnet-TKS和最终的视频特征是所有段的平均表示在特征提取之后,计算查询和图库特征之间的余弦距离以用于检索。4.2. 与最新技术水平的比较在Tab。1,我们比较了我们的方法与最先进的MARS 和 DukeMTMC-VideoReID 和 LS-VID 数 据 集 。我们的方法实现了最佳性能。 它注意:(1)基于空间的方法[32,4,48]通过相同的操作和分辨率处理每个帧,因此它们没有充分考虑帧之间的空间冗余。相反,我们的BiCnet确保不同的帧集中在不同的区域,形成一个完整的人表示,并取得更好的性能。(2)我们的方法优于TCLNet [14],提高了4。LS-VID数据集上的8%mAP。显著的改进可以归因于两个分支架构和灵活的软注意模块的使用。(3)基于时间的方法[3,24,9]缺乏对短期和长期时间关系建模的能力。我们的方法优于这些方法,在MARS上有1%的mAP改进。(四)、方法[20,21,45]以相等的权重聚集多尺度时间关系。我们的方法通过自适应选择机制实现了更好的性能(五)、所有现有的方法都在基线上添加计算。相比之下,我们的方法通过处理低分辨率的一些帧,大大降低了计算成本。总的来说,我们的方法优于最先进的约50%的计算预算。4.3. 消融研究在本节中,我们通过对MARS数据集进行一系列消融研究,分别研究了BiCnet和TKS块的有效性。2020表2:MARS上BiCnet-TKS的组分分析我们还报告了一帧的平均浮点运算(GFLOPs)数和参数数(Param.)。的网络。模型火星GFLOPs。参数地图top-1Base-S(128 ×64)1.0223.5M80.787.4Base-B(256 ×128)4.0823.5M85.289.1双分支(TB)1.8123.5M84.389.6TB+CSP1.8927.6M85.089.6TB+CSP+AO(不含L1)1.8927.6M85.289.3TB+CSP+DAO(BiCnet)1.8927.6M85.689.8BiCnet-TK(固定融合)1.9129.1M85.589.6BiCnet-TKS1.9929.2M86.090.24.3.1BiCnet的组成部分为了验证BiCnet的有效性,我们引入了一个基线,采用ResNet-50与时间平均池来生成视频特征。基线以相同的分辨率处理所有帧,并使用交叉熵和三重丢失进行训练。我们考虑两个基线模型,即。、Base-B以原始分辨率(256×128)处理帧,Base-S以原始分辨率的一半(128×64)处理帧。比较结果如表1所示。二、分支数的影响。BiCnet建立在两个分支架构上。很容易扩展到多个分支情况,将视频帧分成多个组,并为每个组使用单独的分辨率。在这一部分中,我们进行了统一的划分,以进行公平的比较。结果见表1。3 .第三章。从Tab 3,我们有以下观察:(1)在帧上训练ResNet-50,128×64分辨率仍然提供了合理的精度,同时节省了75%的计算(通过浮点运算测量)。(2)输入分辨率太小(64×32)会导致性能严重下降,最高可达21%mAP.我们认为,太小的输入大小导致严重的损失,空间细节,这是很难区分行人与小类间的变化。(3)三分支结构的性能比两分支结构差。输入分辨率为64×32的分支可能会干扰网络参数的优化。 所以我们用双分支架构,可以实现与Base-B相当的性能,但计算量更少。表3:具有单个分辨率/多个分辨率输入的不同组合的单分支/多分支架构的结果。高度表示输入分辨率为高度×(高度/2)高度火星25612864GFLOPs。参数地图top-1C4.0823.5M85.289.1C1.0223.5M80.787.4C0.2523.5M64.177.4CC2.5523.5M84.889.4CCC1.7623.5M79.186.1表4:具有不同α的双分支架构(TB)的结果(the小帧与大帧的比率)。α火星GFLOPs。参数地图top-10(碱基-B)4.0823.5M85.289.112.5723.5M84.889.422.0723.5M84.489.731.8123.5M84.389.641.6723.5M83.889.5+∞(基线-S)1.0223.5M80.787.4ficult一个分支学习捕捉线索忽视了其他分支。此外,低分辨率帧的特征区分能力低于高分辨率帧的特征区分能力。因此,直接使用低分辨率帧不可避免地削弱了最终特征的区分度。此外,我们观察到,α=3仅带来与α=2相比的轻微下降。考虑到计算复杂度,我们在这项工作中将α跨尺度路径的有效性。我们通过在上述两个分支结构的每一级之后添加CSP来评估CSP的效果。如Tab.所示 2、与TB相比,采用CSP带来0. 7%的mAP增益与小的计算开销。我们认为,通过细节分支向语境分支的信息传播,语境分支可以增强其表征能力。此外,两个分支可以学会合作,挖掘互补的线索,即。细节分支提取人体局部的细节特征,上下文分支侧重于长距离上下文,进一步增强特征表示。双分支架构,具有分流比。然后,我们研究了分流比α(在方程中)的影响。1),即小帧(128×64)与大帧(256×128)的比例,以二分支结构(TB)。结果见表1。四、我们可以观察到,α在-在折痕处,TB极大地减少了处理一帧的平均计算。但结核病的平均发病率会随着α增加。我们认为这是由于两个分支之间缺乏互动。特别是,TB的两个分支独立地提取特征,因此它是困难的。不同注意力操作的有效性。 最后,我们研究了注意模块和发散约束对DAO的个体效应。结果见表1。二 、 TB+CSP+AO 与 TB+CSP+DAO 的 区 别 在 于 ,TB+CSP+AO ap-提出了无L1的并行注意力模块来指导优化。如Tab.所示。2、TB+CSP+AO比TB+CSP获得了可忽略的增益,这表明不同注意模块捕获的视觉特征几乎相同。TB +CSP+DAO实现0. 6%mAP改善-2021K表5:在TKS中具有多个时间内核的不同组合的BiCnet-TKS的结果。内核大小火星K3K5K7GFLOPs。参数地图top-1C1.9428.3M85.189.9C1.9428.3M85.390.1C1.9428.3M85.589.8CC1.9929.2M86.090.2CC1.9929.2M85.790.0CC1.9929.2M85.690.1CCC2.0430.0M85.890.2在TB+CSP上的数值算例验证了所提出的发散正则项的有效性。我们认为,发散损失迫使不同的注意模块集中在互补的人的区域,并形成一个完整的特征的目标身份。整体性特征更有利于区分局部相似的不同身份。4.3.2TKS块的组成部分。TKS的有效性。我们首先评估 TKS块,将其添加到表中BiCnet的第2二、TKS带来0。4%的mAP和top-1精度增益超过BiC- net,计算复杂度增加极小我们认为,TKS是BiCnet的补充,即。TKS提供了BiCnet无法表达的时间特征。此外,为了验证自适应选择机制在TKS中的效果,我们引入了一个临时内核(TK)块,它可以存储表6:当将TSK块放置在不同阶段上时BiCnet-TKS的结果阶段火星GFLOPs。参数地图top-1阶段11.9928.0M85.390.1阶段21.9929.2M86.090.2阶段31.9934.1M85.790.4阶段42.2953.5M85.490.0级232.0935.7M85.890.3可以看出,通过在级2和级3中放置一个TKS块的改进是类似的。然而,将TKS块放置在第1级和第4级会导致性能下降。第一阶段中的低层特征可能不足以提供精确的语义信息,因此TKS不能很好地建模身体部位之间的时间关系。并且由于BiCnet在阶段3上学习聚焦于连续帧的不同区域,因此阶段4上的帧特征缺乏连贯的时间关系,因此TKS不能在阶段4上提取有效的时间特征。我们还观察到,添加更多的TKS块不会带来增益,这表明TKS块通常足以用于时间建模。时间开销。运行时间与模型的计算成本正相关。在Tab。2、Base-B算法对8帧序列的特征提取时间为11ms。而BiCnet-TKS只需要6 ms,相当于45. 与Base-B相比,相对减少4%(两种计时都在一个NVIDIA 2080TiGPU上执行)。多尺度核函数的结果(Z=1Ki=1 Y(i)in当量8)。如Tab.所示2,TK没有带来比BiCnet更大的收益这表明BiCnet的改进归因于多尺度核之间的自适应选择。TKS是时间核的数量(K)。接下来,我们研究了不同内核的组合的影响。我们考虑三种不同的内核,称为(3×1×1卷积,膨胀2至约5×1×1核大小)和结果见表1。五、我们可以看到:(1)当使用两个在具有不同大小的时间内核的情况下,一般来说,准确性增加。表的第二块(K=2)中的mAP和top-1准确度通常高于第一块(K=1)中的mAP和top-1准确度,这表明对短期和长期时间关系进行建模的有效性。(2)使用更多的时间核(K=3)并不带来单位时间增益,表明两个时间核足以捕获视频的时间线索。放置TKS的有效位置。表6比较了将TKS块放置到BiCnet的不同阶段5. 结论在这项工作中,我们提出了一个计算友好的时空表示视频reID。首先介绍了双边互补网络。BiCnet包含两个分支,细节分支保留原始分辨率的空间细节线索,上下文分支利用下采样操作来扩大更长范围上下文建模的感受野。在每个分支上,BiCnet附加并行和不同的注意力模块,以挖掘连续帧的发散区域。此外,我们提出了时间核选择块,自适应捕捉视频的时间关系。大量的实验表明,我们的方法优于国家的最先进的约50%的计算量减少鸣谢本工作得到了国家自然科学基金(NSFC)的部分资助:61876171和61976203,以及深圳市人工智能与机 器 人 研 究 所 社 会 开 放 项 目 基 金 , 资 助 号 : AC01202005015和2019-INT 006。2022引用[1] R. M. Bolle,J. H. Connell,S. Pankanti,N. K. Ratha,以及A. W.前辈roc曲线与cmc的关系。在AUTOID,第15-20页[2] J. Carreira和A.塞瑟曼你说的是行动识别吗新模型和动力学数据集。在CVPR中,第6299[3] D. Chen,H. Li,T. Xiao,S. Yi和X.王.基于竞争片段相似性聚合和共同关注片段嵌入的视频人物再识别。在CVPR中,第1169-1178页[4] G. Chen,Y. Rao,J. Lu和J. Zhou。时间相干性或时间运动:哪一个对于基于视频的人重新识别更重要。在ECCV中,第660-676页[5] Y. Chen,X. zhu和S.龚通过深度学习多尺度表示进行人员重新识别。在CVPR中,第2590-2600页[6] J. Choe和H. Shim.用于弱监督对象定位的基于注意力的丢弃层。在CVPR中,第2219-2228页[7] Y. Dai,F. Gieseke,S. Oehmcke,Y. Wu和K.巴纳德注意 力 特 征 融 合 。 arXiv 预 印 本 arXiv : 2009.14082 ,2020。[8] C.费希滕霍费尔,H。Fan,J. Malik,and K.他外用于视频识 别的Slowfast 在ICCV,第 6202-6211页,2019年。[9] X.古湾,澳-地Ma,H. Chang,H. Zhang和X.尘基于视频的个体再识别的外观保持3d卷积。在ECCV,第228-243页[10] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR中,第770 - 778页[11] R.侯湾,澳-地Ma,H. Chang,X. Gu,S. Shan和X.尘人员重新识别的互动和聚合网络。在CVPR中,第9317-9326页[12] R.侯湾,澳-地Ma,H. Chang,X. Gu,S. Shan和X.尘Vrstc:无遮挡视频人物重新识别。在CVPR中,第7183-7192页[13] R.侯湾,澳-地Ma,H. Chang,X. Gu,S. Shan和X.尘Iaunet:用于人员重新识别的全局上下文感知特征学习。IEEE Transactions on Neural Networks and LearningSystems,2020。[14] R.侯湾,澳-地Ma,H. Chang,X. Gu,S. Shan和X.尘基于时间互补学习的视频人物再识别。在ECCV,第388-405页[15] 胡杰湖,澳-地Shen,S. Albanie,G. Sun,和A.维达尔迪 Gather-excite : Exploitingfeaturecontextinconvolutional neural networks.在NeurIPS,第9401-9411页[16] 胡杰湖,澳-地Shen和G.太阳挤压-激发网络。在CVPR中,第7132-7141页[17] G. Huang,黄氏拟谷盗D.Chen,T.Li,F.Wu,d.van和K.温伯格多尺度密集网络用于资源有效的图像分类。2019年,在ICLR[18] D. P. Kingma和J. Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014年。[19] A.克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行图像网络分类ACM通信,60(6):842023[20] J. Li,J. Wang,Q.田,W. Gao和S.张某用于视频人物重新识别的全局-局部时间表示。在ICCV,第3958-3967页[21] J. Li,S. Zhang,和T.煌基于视频的多尺度3d卷积网络人物再识别。在AAAI,第8618-8625页[22] S. Li,S. Bak,P. Carr,C.荷塘、X.王.基于视频的多样性正则化时空注意力人物再识别。在CVPR中,第369-378页[23] X. Li,W. Wang,X. Hu和J. Yang.选择性内核网络。在CVPR中,第510-519页[24] X.廖湖,加-地他,还有Z。杨利用3d卷积网络和非局部注意力进行基于视频的人物再识别。在ACCV,第620-634页[25] J. Liu ,Z.查湾,印尼-地Tian ,中国粘蝇D.Liu,T.姚湾,澳-地Ling和T.美.多尺度三元组cnn用于人员再识别。在ACMMM,第192-196页[26] Y. Liu,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功