时空表示分解的视频身份识别

17 浏览量更新于2023-10-14 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

152基于时空表示分解的视频身份识别Abhishek Aich，2，Meng Zheng1，Srikrishna Karanam1，TerrenceChen1，Amit K.Roy-Chowdhury2和Ziyan Wu11United Imaging Intelligence，Cambridge MA，2University of California，Riverside CA{aaich001@，amitrc@ece. }ucr.edu，{first.last} @ uii-ai.com摘要尽管最近在基于视频的人重新识别（re-ID）方面取得了很大进展，但是当前的现有技术仍然遭受常见的现实世界挑战，诸如各种人之间的外观相似性、遮挡和帧未对准。为了缓解这些问题，我们提出了时空表示因子分解（STRF），这是一种灵活的新计算单元，可以与大多数现有的3D卷积神经网络架构结合使用，用于re-ID。STRF相对于先前工作的关键创新包括用于学习区分性时间和空间特征的明确途径，其中每个组件进一步分解以捕获互补的个人特定外观和运动信息。具体地，时间因式分解包括两个分支，每个分支用于静态特征（例如，衣服的颜色），以及动态特征（例如，行走模式）随时间改变此外，空间因式分解还包括两个分支，以学习全局（粗略分段）以及局部（较精细分段）外观特征，其中局部特征在遮挡或空间未对准的情况下特别有用。这两个因式分解操作一起产生了我们的参数式光STRF单元的模块化架构，该模块化架构可以插入任何两个3D卷积层之间，从而产生端到端学习框架。我们的经验表明，STRF提高了性能的各种现有的基线架构，同时展示了新的国家的最先进的结果，使用标准的人重新识别评估协议的三个基准。1. 介绍我们考虑的问题，基于视频的人重新识别（重新ID）。给定感兴趣的人的视频轨迹，任务是在视频的图库集合中检索最接近的匹配（理想地这项工作是在Abhishek Aich在United Imaging Intelligence实习期间完成的。通讯作者：斯里克里希纳·卡拉纳姆。图1：所提出的概念及其功效的图示。我们提出了我们提出的时空表示因子分解（STRF）模块背后的直觉，该模块被设计为克服常见的现实世界的re-ID系统问题，例如，相似外观标识、遮挡和未对齐帧。通过在3D-CNN的不同层处捕获时间上的静态/动态和空间上的粗/细信息，STRF产生鲁棒的判别表示以解决这些挑战，如这里通过特征提取器的倒数第二层的注意力图所证明的tracklets。随着在安全、监视和取证[2]中的大量应用，该问题在视觉社区中的兴趣和各种方法[7，13，28，29，32，36，50，54]急剧增加。虽然最近的定量结果[7]证明了基于图像的re-ID已经取得了令人钦佩的进展一个这样的问题是外观相似性，其中多个人穿着看起来相似的衣服（例如，大型会议或有严格着装要求的公共活动）。其他具有挑战性的问题包括遮挡和帧未对准，其是大人群流密度（例如，人流量）的直接结果。在飞机刚到达后的机场中）和相机间视点差异。153×个∼∼×个可以访问附加数据，例如，像视频而不是2D图像这样的额外时间维度可以通过利用时空数据来帮助基于视频的re-ID已经看到了很多最近的工作[4，5，14，16]。19，27，45，46，49]，部分原因是相关大规模视频数据集[41，52]的可用性。然而，学习可以缓解上述问题的时空表示仍然是一个挑战。虽然一般3D卷积网络（3D-CNN）中的进步提供了合理的基线时空特征，但现有的re-ID技术通常依赖于专用架构[20，45，46，49]，这些架构对于与这些基线模型一起使用是不灵活的。其他工作线完全集中在分别学习时间或空间表示[4，5，19]，忽略了两种信息流在具有挑战性的场景中提供的互补性，例如，区分穿着相似衣服的人为了解决上述问题，我们提出了一个灵活的-一种新的计算单元，称为时空表示因子分解（STRF）模块。给定来自基线3D-CNN模型中的某个3D卷积层的特征体积，STRF沿着空间（h，w）和时间（时间，t）维度两者提取互补信息。通过设计，所提出的STRF模块可以在任何卷积层之后插入现有的3D-CNN模型中，每个单元仅引入15万个可学习参数（例如，这导致I3 D [3]的总参数仅增加1.73%），从而产生端到端可训练的灵活且参数方面的经济框架STRF包括两个模块，称为时间特征因子分解模块（FFM）和空间特征因子分解模块，用于处理特征张量。这些模块的设计原理是由视频轨迹中的某些观察所激发的，我们将在下面讨论。STRF背后的直观性如图1所示。我们从时间维度上的因式分解模块开始。首先，人的整体或“全局”外观（例如，衣服、皮肤、头发等的颜色）基本上不随时间改变（静态）。虽然人们可以争论这些可以随着照明变化而改变，但是我们假设这些变化在短时间段内在给定的相机视图中是有限的。接下来，人的行走模式可以随时间改变，例如，在水平面上行走爬楼梯（动态）。因此，在处理特征图时，存在两种可能的信息因子分解策略：低频（静态）采样和高频（动态）采样。特征图的低频采样导致捕获“缓慢移动”或近似恒定的特征，即，外观信息。另一方面，特征图的高频采样导致捕获更动态变化的信息，即，步行模式[31]。时间因子分解模块导致捕获跨时间的静态和动态特征，这在识别具有相似外观的不同个体时特别有帮助（参见图1中的最后一行视频轨迹片段）。另一方面，空间因式分解模块进行与上述相同的低频（我们称之为“粗略”）和高频（我们称之为这是由诸如遮挡和帧未对准之类的通常发生的现实世界问题在这些场景下，空间FFM要更好地理解这一点，请观察图1中顶行视频轨迹的注意力映射。没有我们提出的模块的基线模型主要突出特征图中的自行车区域，而通过添加我们的模块，模型能够更全面地捕获帧中的人区域。类似地，为了覆盖不存在遮挡或未对准的情况，空间FFM的低频采样和处理单元变得负责捕获更缓慢变化或空间全局外观信息。这导致空间因式分解模块捕获两个单独的空间信息流以用于鲁棒表示。总而言之，当画廊中的多个人相似”（例如，相同的衣服），来自我们的时间因子化分支的特征有助于消歧（即，人们可能看起来很像，但走路的方式不同）。另一方面，对于遮挡/杂波，我们的想法是依赖于“局部”特征，这可以使用我们的空间分支来学习。我们的主要贡献如下。• 我们提出了一种新的框架，在基于视频的重新ID学习歧视性的3D功能，通过分解的时间和空间维度的功能，为低频（静态/粗糙）和高频（动态/精细）组件，以解决错位，闭塞，和类似的外观问题。• 为了实现这些因式分解，我们提出了一种具有可忽略的计算开销的灵活的可训练单元，称为时空表示因式分解（STRF）模块，其可以与任何基于基线3D-CNN的re-ID架构结合使用（参见图2）。• 我们在多个数据集上进行了广泛的实验，以证明所提出的STRF模块如何提高基线架构的性能，并且还实现了通过标准re-ID评估协议获得的最先进的性能（参见表2和表3）。2. 相关工作在本节中，我们回顾了一些与基于视频的人员重新识别有关的最新方法，稍后将讨论3D-CNN作为视频重新识别任务的特征提取器。基于视频的re-ID。在基于图像的re-ID [7，23，28，29，32，36，50，54]的成功之后，已经有了很多基于视频的re-ID的最新进展[5，10，14，19，154F·ΣΣ ···V∈F·∈ℓ×个27、30、44、55]。例如，[45]提出了多粒度超图学习框架，该框架在具有不同粒度级别的特征编码器的最后一此外，还存在一类方法[19，24]，其通过用附加学习模块扩展特征提取器来执行特征调制，而不是如[ 45 ]中那样仅处理最后一层与上述所有工作不同，我们专注于学习空间和时间维度上的分解（动态/静态和粗/细）信息（见图2）。这产生了灵活的特征处理模块，其可以在任何基于3D-CNN的 re-ID架构中的任何地方使用，从而提高了各种基线3D-CNN模型的性能（参见表2）。我们在表1中提供了近期工作的特征比较。基于3D-CNN的特征提取器3D-CNN [21]自然地处理输入视频以输出时空特征，而2D-CNN需要额外的模块，如递归网络来提取时间信息。考虑到这个优点，3D-CNN更适合于视频相关的应用[6，9，21，42，43]，包括基于视频的应用re-ID任务[14，25，30]。例如，Gheissari等人。 [11]引入了一种双流模型，其中第一个分支由3D-CNN组成，另一个由2D-CNN组成，以提取时间和空间线索。在[14]中，提出了保留外观的3D卷积（AP3D），以利用图像配准[56]的思想来执行特征级图像对齐。虽然这些方法证明了良好的结果，但它们需要3D和2DCNN [25]，或者需要额外的操作，例如，非局部卷积，以实现最佳性能[14]，导致参数方面的庞大模型。此外，这些方法没有明确地利用视频轨迹片段的空间线索。另一方面，我们提出的STRF方法通过模块化计算单元修改骨干特征编码器，3. 时空分解如第1节中所述，用于学习视频表示的现有re-ID方法不关注由空间和时间维度提供的复杂性。具体地，我们推测时间维度包含静态（例如，随时间的出现）以及动态（例如，行走模式）内容，而空间维度包括精细（例如，集中在诸如在遮挡下可能被遗漏的人的腿的细节）以及粗糙（例如，整体整体外观）细节。因此，我们认为，所有这些功能应共同学习，以处理不可避免的挑战，如外观相似性，遮挡和帧错位。为了解决这些问题，我们引入时空表示因式分解（STRF），一种通用的参数式轻量级计算单元，其可以被插入在任何3D-CNN架构中的卷积层之间以用于re-ID（注意，通过术语因式分解，我们指的是联合采样和处理操作以用于下面的讨论）。这种模块化使得STRF特别吸引人的实际应用，可能需要定制的架构的基础上数据分布。连同基线架构中的性能改进（参见表2），STRF还证明了所提出的模块优于用于学习时空re-ID表示的现有专用架构的优越效用（参见表3）[14，20，25，45，46]。符号。让=v1，v2，，vtRt×h×w表示包括t个帧的输入视频轨迹片段，每个帧的高度为h，宽度为w。让θ（）表示特征编码器任何基线3D-CNN（例如，I3D ResNet-50 [3]）。设fRc×t×h×w是θ（）的第层的特征张量，其中c、t、h和w分别表示通道数、帧数、高度和宽度。让STRF模块的输入和输出特征量在第七层，分别为f（i）和f（o）最后让不需要专门的模块，如经常性网络-工作或非本地操作，导致可学习参数的增加很少，同时还在基准数据集上展示了最先进的性能。表1：与最先进作品的特征比较。我们比较我们的STRF与一些当前国家的最先进的作品。与这些方法不同，STRF使用来自空间（S）和时间（T）维度的因式分解信息，不需要非局部操作，并且适用于多个基线。方法分解没有非本地？通用？T？T？S吗？AP3D [14]✗✓✗✓MGH [45]✓✓✗✗AFA [5]✓✗✓✓STRF（我们的）✓✓✓✓静态/粗略和动态/精细分量分别用和表示，并且下标t和s分别表示时间和空间维度我们使用d ∈ {t，s}和k ∈ {τ，ς}作为紧符号。3.1. 特征分解模块（FFM）给定f（i），我们建议将该特征量分解为四个部分：来自时间t维度的静态和动态内容，以及来自空间hw维度的粗细节和细细节。这里的直觉是时间维度中的静态内容将捕获例如衣服的颜色的外观，并且动态内容将捕获“可能随时间改变的内容”，例如，步行模式[31]。类似地，空间维度中的粗略细节将捕获当前特征图中的总体全局信息（例如，而精细的细节有助于解决每-155ℓH·H·→^⊤^ ^您的位置：联系我们.Σ。Σ。Σ。Σℓ.ΣMC·ℓDℓdkdkℓDℓ体积为：（dk）dkDℓDℓG·ℓ ℓ ℓℓ图2：STRF模块概述。我们提出的模块包含四个因式分解单元被应用于输入特征量在第层提取静态/粗和动态/精细信息，并产生更丰富的特征表示。每个单元由特征因子分解模块组成，该特征因子分解模块由所提出的因子化注意力掩码块辅助。通过在特征图的不同位置处捕获局部上下文，感兴趣的子可以被其他实体遮挡我们的上述动机是特别相关的前-用于re-ID的建立3D-CNN体系结构不具有明确的机制来集中于与在诸如遮挡、图像未对准或具有相似服装的人一起出现在相同轨迹片段中的情况下的感兴趣的个人相对应的特征。此外，这样的因子分解使得3D-CNN能够对对于下行重要的特征进行流匹配和re-ID，例如，动态内容更详细地描述了FFM注意掩模和这些提出的单独FFM模块中的每一个。3.2. FAM（Factorized Attention Masks）为了实现上述特征体积f（i）的四向因式分解，我们定义以下四个函数Tk. f（i）Σ=G.H. f（i）ΣΣ，（2）时间维度在以下情况下更重要人们穿着相似的衣服，只能通过他们的走路方式来区分。其中，d∈{t，s}，k∈ {τ，ς}其中Gdk（·）是分解函数。不同的为了实现所提出的因式分解和特征重构，STRF建议使用四个FFM模块，其中每个FFM从分解注意力掩码（FAM）块（我们在下一节中讨论FAM的详细架构）中学习不同类型的注意力掩码，分别用于沿时间和空间维度的静态/动态或粗/细内容，并输出改进的特征体积。具体来说，给定f（i），我们首先对其进行整形每个FFM块dk（）使用池化函数来设计，以在输入特征量通过通道缩减层dk（）之后提取特定信息：cc/n，其中dk（）是具有c/n个大小为1的内核在[14，22]之后，我们设置n=16。与输出复合函数Tk。f（i）Σ的大小为c/nt×hwℓ（一）以获得每个点的表示到尺寸为ct×hw的特征体积f中，然后，TK。f（i）Σas：使用所述FAM块来生成因子分解的注意力掩码Mdk. 然后使用此掩膜计算新要素（一）dC=κTk。f（i）ΣTk. f（i）Σ（3）f=fMdkd∈{t，s}，k∈{τ，ς}（1）STRF然后集成四个注意力加权特征volumes f（tτ），f（tς），f（sτ），f（sς）以输出新的特征体积，该特征体积然后被传递到随后的卷积层。该后续层的输出然后由STRF的下一个实例化处理。这样，STRF提供了一个灵活的计算单元，可以很容易地与现有的3D-CNN架构集成我们提出的方法在图2中示出，其中可以注意到四个单独的因式分解模块FFM t，τ、FFM t，θ、FFM s，τ和FFM s，θ，com。以使用它们各自的FAM块产生增强的特征表示f（o）。接下来，我们来讨论一下Face--哪里表示转置操作。我们设定好脾气-性质超参数κ为4以下[14，19]。然后，使用未归一化的样本协方差矩阵计算分解掩码为 dk（q）=σ（dk），其中σ（）是softmax函数。该因子分解的掩模被用于（1）得到f（i）的特定因式分解表示。接下来，更详细地讨论每个因式分解模块时间分解模块，FFM t，τ，θ。虽然用于学习静态和动态信息的方法已经在先前的工作[1，9，16，38]中提出，我们采取一个模块化的方法来解决这个问题，提出可以应用在多个层的基本特征编码器的计算单元与[9]中的跳帧不同，我们定义了从（2）中，我们通过计算它们的输入特征来总结输入特征。156HHG.Σ.ΣΣ^^f=f +f.Σ空间因子化模，FFMs，τ，ς. 类似于.Σ.Σ。ΣLLLGtτ=池rtτ，1，1， Gtς=池rtς，1，1f=f ，f其中，？？·ℓ（tς）和FFM。Σ只是简单相加。在我们的实验中ℓℓ^ ^您的位置：（so）（sτ）（sς）（tτ）图3：我们的3D-CNN模型训练和建议块的示例的说明。在我们的框架中，我们采用基于3D-CNN的模型来学习输入视频轨迹的区别特征（参见图（A））。该模型是用膨胀的2D残差块构建的，其中阶段2和阶段3被我们提出的STRF辅助残差块替换（参见图（B））。输入和输出特征体积之间的大小。最后，.Σ。ΣFFM的输出。s，τ，Σ被定义为：其中rtς>rtτ。这些退化池函数可以f=f^ +f^（7）使用最大池化（表示为m）来实现，并且（sτ）（sς）平均池化（表示为a）操作及其相应的静态时间分辨率和动态时间分辨率其中f和f使用（1）计算。注意当在（6）和（4）中将分辨率设置为1时，因子化函数表现为恒等映射。在我们的实验中-（一）rtτ。我们还使用适当的填充物（一）为了简单起见，我们设置rsτ= rtτ和rsθ= rtθ。tς（f）和tτ（f），以保持输入和输出特征体积之间的大小相同。背后的直觉设置rtθ>rtτ是在时间维度积分和整体STRF输出。在如上所述计算f（to）和f（so）之后，我们提供两个ℓ ℓ以捕获变化不大的信息，而有助于总结显示更多变化的信息用Gtς捕获这样的静态信息将有助于方案，以整合它们，并产生最终的功能卷-我们提出的STRF计算单元的UME输出（o）。（to）（so）Σ。Σ另一方面，tτ捕获输入特征体积中的动态信息，例如，人的行走模式最后，FFMt，τ，θ的输出被定义为：这里，→表示级联地使用时间和空间分解模块，并且表示并行地使用它们勒当级联时，输入f（i）被馈送到两个模块按顺序，即FFMs，τ，θ，之后是FFMt，τ，θ，或（to）（tτ）（tς）ℓℓ（五）反之亦然。并行时，FFM的输出。s，τ，Σt，τ，ς其中f^所以f使用（1）计算。在上面的时间维度上，我们也沿着空间维度因式分解特征体积，提取粗级和细级信息。这里的直觉是，空间维度中的粗略级信息包括输入帧中的人的没有太多遮挡的全局特征。对于其中人被遮挡或存在空间未对准的帧，精细级特征捕获帧的“人部分”。为了实现这一点，我们定义以下空间分解函数：Gsτ=池1，rsτ，rsτ，Gsς=池1，rsς，rsς（6）其中，rsθ> rsτ分别是空间粗分辨率和空间细分辨率。如在FFM t，τ，ς中，我们在Hsς（f（i））和Hsτ（f（i））上使用适当的填充以保持相同的我们注意到在这些方面只有很小的性能差异操作（参见图4（c））。学习目标。任何STRF辅助网络都可以以端到端的方式进行训练，目标如下其中ce是标准交叉熵分类，三元组是基于余弦距离的三元组损失，具有批量硬挖掘[18]，并且是总体损失函数。请注意，我们的方法展示了最先进的结果（见表3），在我们的学习目标中没有任何re-ID技巧[33]，例如标签平滑[37]。我们如何使用STRF？人重新ID的问题极大地受益于残差块的引入[12，17]。当主干特征提取器膨胀时（四）在学习沿着时间维度变化不大的人的全局外观特征方面上∈{→，}（8）157地图%ΣR@1。%ΣR@1。%Σ地图%ΣR@1。%Σ·GG∼∼×× ×G·92 88 92 8892 8890 86 90 8690 8688 84 88 8488 84八六八二（1，1）（1，3）（1，5）（3，5）合并分辨率，（rτ，rς）（一）八六八二（m，a）（m，m）（a，a）（a，m）因子化函数Gdk（·）（b）第（1）款八六八二（s→t）（t→s）（ts）积分运算，（·）（c）第（1）款图4：STRF的不同组分的分析。（a）每个（rg，rg）指的是空间粗分辨率：（1，rg，rg），空间细分辨率：（1，rτ，rτ），时间静态分辨率：（rg，1，1），时间动态分辨率：（rτ，1，1）。最好的结果是用（rg，rg）=（1，3）获得的。（b）分解函数dk（）的不同组合的性能：当所有dk（）被设置为maxpooling函数时，获得最佳结果。（c）不同积分运算（）的性能：当空间模块之后是时间模块时，获得最佳结果C2D（内核的时间维度设置为1）残差网络，我们提出通过简单地用不同的STRF辅助的I3D或STRF辅助的伪3D（P3D）[34]残差块替换不同阶段的残差块来增强其特征表示学习范例（参见图2（B））。为了将P3 D残差块转换成它们的STRF-P3 D形式，我们添加了STRF模块，其中内核大小为311的卷积层展示了所提出的单元的通用能力。我们已经在补充材料中对这种位置选择进行了经验分析和此外，单个STRF模块仅引入最少的额外参数，这使得它在参数方面是轻量级的，但在性能方面是有益的（参见表2）。3.3. 讨论FAMvs Channel Attention（CA）。我们注意到FAM和流行的CA策略之间存在实质性差异[8，15，48]。与具有一个全局特征池化层的CA不同，即没有单独的空间和时间操作，FAM具有四个池化功能dk（），定义于⑷和⑹。这捕获了空间和时间特征不需要任何新的学习参数。事实上，在将rg和rt设置为与输入特征图相同大小的情况下，CA可以被认为是FAM的特殊情况。FFMvs非本地（NL）。与流行的NL模块[40]在没有因式分解的情况下，FFM将f（i）因式分解为其组成的空间/时间因子。利用这些因子对f（i）进行适当加权以获得f（o）是利用FAM自动学习的，使得所提出的设计不同于NL并且更适合于re-ID。对于额外的经验证实，使用MARS数据集上的P3 DC架构[52]，NL模块给出84.8% mAP和89.9%R@1，而STRF给出86.1% mAP 和90.3% R@1。此外，STRF仅添加额外的50万个参数（w.r.t.基线），而不是NL请参阅补充材料，了解有关我们建议的STRF模块的更多4. 实验数据集、实施细节和评估标准。我们对标准的公开可用的基于视频的人re-ID数据集进行了广泛的实验，包括MARS [52]，DukeMTMC-VideoReID [41]和iLIDS-VID [39]。为了进行评估，我们使用秩-1（R@1）处的累积匹配特征曲线的值和平均精度（mAP）[53]。有关完整的实施细节，请参见补充材料。4.1. 改善基线定量分析相我们在ResNet50（时间内核大小设置为1）架构中构建了一个具有膨胀2D卷积的模型。然后，我们用四个残差块I3 D（时间内核大小设置为3）和三个伪3D残差块P3 D-A、P3 D-B和P3 D-C替换阶段2和阶段3（参见表5）以创建四个基线。为了比较评估，我们用 STRF-I3 D 、 STRF-P3 DA 、 STRF-P3 DB 和STRF-P3 DC分别对残差块进行比较，并将结果总结在表2中。可以清楚地注意到，STRF-aided模型提供了改进的性能（对于MARS上的P3 D基线，至少2.5%mAP增量，对于I3 D基线，约0.5%mAP增量），其中使用STRF-P3DC实现了最佳性能。在DukeMTMC-VideoReID上也可以观察到类似的趋势。此外，当与基线模型参数的数量（在表2中表示为MARS上的P（M），以数百万个参数计）相比时这也证明了STRF可以提高不同架构的性能。对于所有后续实验，我们报告了STRF-P3 DC的结果，遵循表2的最佳性能。定性分析为了定性地展示STRF的影响，我们将具有挑战性的视频的特征图可视化（例如，闭塞、未对准），使用图5中的现成技术[14，47]。请注意，STRF有助于地图%Σ158Mℓ⊗MGG∈M∈×··→表2：基线改善。 STRF持续改进基线模型的性能。P（M）是以百万为单位的模型大小。模型P（M）数据集火星[52]，Σ，ΣDukeMTMC[41]，Σ，ΣmAP %R@1%mAP %R@1%i3D28.9282.7088.5095.2095.40+STRF28.9783.1088.7095.2095.90P3DA25.4883.2088.9095.0095.00+STRF25.5385.4089.8095.6096.00P3DB25.4883.0088.8095.4095.30+STRF25.5385.6090.3096.4097.40P3DC25.4883.1088.5095.3095.30+STRF25.5386.1090.3096.2097.20更清楚地聚焦于感兴趣的人（例如，在“遮挡”下更多定性和注意力地图结果请参见补充材料。4.2. 消融研究FAM块的效用我们的时间和空间因式分解模块实现与建议的因式分解的注意力掩模dk。这些自注意掩模被用于对输入特征量f（i）进行重新加权，以便产生视频轨迹片段的更丰富的表示。特殊通过以下方式捕获的cific信息dk（由于不同dk对于低频（静态/粗略）和高频（动态/精细）信息两者）通过如（1）中那样对输入特征量进行重新加权来增强输入特征量以表示鲁棒特征。因此，FAM是我们提出的STRF模块的重要组成部分。为了验证这一点，我们在图6（a）中分析了有和没有FAM的STRF。在火星[52]。可以观察到，在没有FAM的情况下，所提出的模块削弱了特征表示（f（i）与其自身的非加权乘法（）），导致相对较低的性能。更多骗局-图5：注意力地图可视化。STRF帮助基线模型提取更多的区分特征。对（包括（rτ，rθ）=（1，1）作为参考）的结果。从图中可以注意到，STRF在分辨率对（rτ，rθ）=（1，3）的情况下表现最好。该图还示出了STRF对不同分辨率对不是非常敏感，当（rτ，rθ）=（3，5）时具有0.4%mAP的差异，并且当（rτ，rθ）=（1，5）时具有0.2%mAP的差异。接下来，我们分析定义为图4（b）中的STRF模块的一部分的因式分解函数的各种组合。我们的框架在时间和空间dk都设置为max pool（m）操作的情况下表现最好。这可能是因为基于最大池化的因式分解有助于关注表示特征体积的区分部分的信息最后，我们分析了（8）中描述的不同积分函数，其中我们注意到，当我们首先通过时间因式分解模块因式分解f（i）如果没有FAM，我们就没有FFM（t，τ，ςℓ），然后将此输出馈送到空间因子分解。因此，FFM不接收适当的因子来重新加权f（i）。注意，单独使用FAM（没有FFM）在设计上是不可能的。不同成分的分析。所提出的静态和动态因式分解函数在它们的时间和空间分辨率方面本质上不同，并且在图4（a）中，我们分析了这些分辨率参数的各种组合，同时保持静态分辨率（或较粗糙）rg大于动态（或较精细）分辨率rt。请注意，为了简化和减少参数搜索空间，我们最大分辨率取决于-最后一个转换层STRF应用到的输出尺寸上的凹痕在我们的例子中，最后一层的输出是 f（ i ）R2048×8×14×7，只给出了1、3、5和7的可能选择。一个（1，7，7）滤波器将给出f（o）R2048×8×7×1，即，71空间维度，不适于计算dk。由于粗分辨率应大于细分辨率，因此仅4个合理- tion模块FFM（s，τ，θ），即，当（）=.此外，当（）=时，观察到相当的性能，其中mAP的差异为约0.4%。要添加哪个阶段？表5呈现了在基线模型的各个阶段添加STRF的结果。在阶段2和阶段3中使用STRF模块给出最佳性能，但是当添加到阶段1时降低（以mAP计）。这可能是因为对于阶段1，低级特征不包含用于详细因子化的足够的描述性语义信息。另外，阶段4（表5中的最后两行）表现出不同的行为，这可能是由于在该层执行的特征更多结果请参见补充材料。每个分解模块的影响。为了研究每个模块的有效性，我们进行了消融分析（参见159FFM + FAM仅基线FFM地图%Σ→∼∼表3：与现有技术的比较。STRF在所有数据集上都提供了最先进的性能（红色显示最佳结果，蓝色显示第二佳结果，绿色显示第三佳结果）。方法会场数据集火星[52]. Σ。ΣDukeMTMC[41]. Σ。Σ[39]第三十九话. ΣmAP %R@1%mAP %R@1%R@1%ADFD [51]CVPR 201978.2087.00--86.30VRSTC [20]CVPR 201982.3088.5093.5095.0086.30COSAM [35]ICCV 201979.9084.9094.1095.4079.60GLTR [24]ICCV 201978.5087.0093.7496.2986.00MGH [45]CVPR 202085.8090.00--85.60STGCN [46]CVPR 202083.7089.9595.7097.29-MG-RAFA [49]CVPR 202085.9088.80--88.60塔康[26]WACV202084.0089.1095.4096.2088.90M3D [25]TPAMI 202079.4688.6393.6795.4986.67AFA [5]ECCV 2020年版82.9090.2095.4097.2088.50AP3D [14]ECCV 2020年版85.6090.7096.1097.2088.70TCLNet [19]ECCV 2020年版85.1089.8096.2096.9086.60汇报表格我们86.1090.3096.4097.4089.30表4）。每个单独的模块FFM（t，τ）、FFM（t，ε）、FFM（s，τ）和FFM（s，ε）在mAP中以至少2%和在R@1中以1.2%改善基线。此外，时间和空间因式分解模块在一起使用时执行得更好。表4中的时间/空间相似性（在边缘中）表明每个模块在识别独特特征方面同样有效。基线最后，当所有模块放在一起时，获得最佳性能，表明它们专注于互补信息。与复杂的3D-CNN方法相比。如在图6（b）中可以观察到的，STRF优于AP3D和M3D两者，具有6百万（w.r.t.AP3D [14]）和7500万（w.r.t. M3D [25]）更少的参数。最后，STRF建立了一个新的最先进的（w.r.t.mAP）对MARS、DukeMTMC和iLIDS-VID的作用，如表3所示。86924.3. 与最先进方法的尽管是参数方面的轻量级和不可知的基线架构，STRF提供了竞争的结果表4：每个因子分解模块的贡献。所有四898683mAP，%ΣR@1， %Σ84828025 50 75一百架构参数（百万）→STRF模块FFM（t，τ）、FFM（t，θ）、FFM（s，τ）和FFM（s，θ）(a) FAM消融分析(b) 参数与mAP分析在MARS上显示P3DC基线的单独和整体改善[52]。模型模块火星[52]（s，τ）（s，ς）（t，τ）（t，ς）mAP， %ΣR@1， %Σ基线83.1088.50基线+STRF✓85.2089.70✓85.1089.90✓85.2089.90✓85.1090.00✓✓85.5090.10✓✓85.3089.70✓✓85.4090.00✓✓85.7090.10✓✓✓✓86.1090.30表5：STRF的每阶段影响。所有四个STRF模块在不同阶段都有效，在MARS上STRF-P3 DC的第2阶段和第3阶段效果最好[52]。图6：STRF的优势。（a）在没有FAM块的情况下，FFM不能因式分解特征，导致性能差，这表明FAM（b）STRF是相对而言参数方面最轻量且性能最佳的3D-CNN架构。5. 结论我们提出了一种新的时空表示因子分解（STRF）计算单元，其学习互补的时空特征表示以处理现实世界的re-ID挑战，诸如遮挡、不完美检测和外观相似性。我们的STRF模块从输入3D-CNN特征图中分解时间动态/静态和空间粗/细分量，帮助基线模型发现更多互补和有区别的时空表示，以实现鲁棒的视频re-ID。在基准测试视频上对我们的STRF模块与各种基准架构进行了广泛的评估-mAP %R@1%的re-ID数据集显示其有效性和通用性。作为未来工作的一部分，我们希望将其扩展到一般的视频理解问题，如语义分割。鸣谢。这项工作得到了ONR资助N 00014 -19-1-2264和STRF（25.3M）AP3D（31.6M）I3D（28.9M）M3D（99.9M）86岁83岁1九十381.188岁587岁480模型阶段基线83. 1，0Σ88. 5，0Σ基线+STRF183.4088.80一、二83.6089.00二、三86.1090.30一、二、三84.7089.30二、三、四85.5090.00一、二、三、四83.7088.70160N 00014 -18-1-2252的部分支持。161引用[1] Abhishek Aich、Akash Gupta、Rameswar Panda、RakibHy-der、M Salman Asif和Amit K Roy-Chowdhury。具有学习先验的非对抗性视频合成在IEEE/CVF计算机视觉和模式识别会议论文集，第6090-6099页，2020年四个[2] 奥克塔维亚·坎普斯、郭梦然、汤姆·赫布尔、斯里克里希纳Karanam ， Oliver Lehmann ， Yang Li ， Richard JRadke，Ziyan Wu，and Fei Xiong.从实验室到现实世界：机场摄像机网络中的重新识别。IEEE电路系统和视频技术传输，27（3）：540一个[3] Joao Carreira和Andrew Zisserman。 Quo Vadis，Action认可？新模型和动力学数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第6299-6308页，2017年。二、3[4] D. Chen，H. Li，T. Xiao，S. Yi和X.王.基于竞争性片段相似度聚类和协同注意片段嵌入的视频人物再识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第1169-1178页，2018年二个[5] Guangyi Chen，Yongming Rao，Jiwen Lu，and Jie Zhou.时间相干性或时间运动：哪一个对基于视频的人重新识别更重要？在2020年欧洲计算机视觉会议上。二、三、八[6] Wei Chen，Boqiang Liu，Suting Peng，Jiawei Sun，andXu乔S3 D-UNet：用于脑肿瘤分割的可分离3D U-Net在International MICCAI Brainlesion Workshop，第358-368页中。Springer，2018. 三个[7] X. Chen C. ，马缨丹属傅， Y。 Zhao ， F. Zheng ， J.Song，R. Ji和Y.杨显著性引导的级联抑制网络用于人员重新识别。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。一、二[8] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia和Lei张某单图像超分辨率的二阶注意力网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第11065-11074页六个[9] Christoph Feichtenhofer、Haoqi Fan、Jitendra Malik和开明河用于视频识别的慢速网络。在IEEE/CVF计算机视觉国际会议论文集，第6202-6211页，2019年。三、四[10] Jiyang Gao和Ram Nevatia。重温时间模式-鹅岭为基于视频的人员重新识别arXiv预印本arXiv：1805.02104，2018。二个[11] N. Gheissari，T. B. Sebastian和R.哈特利人员重新-使用时空外观的识别。在IEEE/CVF计算机视觉和模式识别会议的论文集，第1528-1535页，2006年。三个[12] 郭梦然、吴紫燕、天使评级-博拉斯、奥克塔维亚Camps，Richard J Radke，等.一个系统性的人员再识别评价和基准：特征、 Metrics 和数据集。 IEEETransactionsonPatternAnalysisandMachineIntelligence，41（3）：523-536，2018。五个[13] 道格拉斯·格雷，谢恩·布伦南，海涛。评价用于识别、重新获取和跟踪的外观模型。在IEEE跟踪和监视性能评估国际工作组会议录中-lance，2007. 一个[14] Xinqian Gu ， Hong Chang ， Bingpeng Ma ， HongkaiZhang，and Xilin Chen.用于基于视频的人物重新识别的保持外观的3D卷积在欧洲计算机视觉会议论文集，2020年。二三四六八[15] Akash Gupta、Abhishek Aich和Amit K Roy-Chowdhury。ALANET：用于联合视频去模糊和

下载后可阅读完整内容，剩余1页未读，立即下载