基于深度传感器的人的增强时间注意和重新识别

172 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度的人的增强时间注意和重新识别Nikolaos Karianakis1、Zicheng Liu1、Yinpeng Chen1和Stefano Soatto21微软，雷德蒙德，美国2美国加州大学洛杉矶分校抽象。我们解决了从普通深度传感器重新识别人的问题。基于深度识别的一个挑战是数据稀缺。我们的第一个贡献通过引入分裂率RGB到深度传输来解决这个问题，该传输比流行的微调方法更有效地利用大型RGB数据集。我们的传输方案是基于这样的观察，即深度卷积神经网络底层的模型参数可以直接在RGB和深度数据之间共享，而其余层需要快速微调。我们的第二个贡献，提高了重新识别视频通过实施时间的注意力作为伯努利-Sigmoid单元作用于帧级功能。由于该单元是随机的，因此使用强化学习来训练时间注意力参数。大量的实验验证了我们的方法在人的深度序列重新识别的准确性。最后，在受试者穿着看不见的衣服的情况下，与依赖于RGB数据的最先进的模型相比，我们显示出很大的性能增益关键词：从深度重新识别人·增强的时间注意力·分率传输。1介绍人员重新识别是自动视频监控中的基本问题，并且近年来引起了极大的关注[7，78，23]。当一个人被具有非重叠视图的摄像机捕获时，或者被同一摄像机捕获但在许多天内，目标是在大量冒名顶替者中跨视图识别他们这是一个困难的问题，因为视觉摄像机的应用由于图像、人体姿势、摄像机设置和视点的巨大变化而变得困难此外，重新识别系统必须对部分遮挡和杂乱背景具有鲁棒性。多人关联在诸如机器人、多媒体、取证、自动驾驶和无收银员购物等领域具有广泛的适用性和实用性。2N. Karianakis，Z.Liu，Y.Chen和S.Soatto(a) 来自RGB的人员ReID[82]（b）来自深度的Fig. 1. 过滤来自TUM GAID数据的给定帧的“conv1”（右上角），“conv2”（左下角）和“conv3”（右下角）层的响应，使用（a）从RGB [ 82 ]重新识别人的框架和（b）我们的框架的特征嵌入f CNN，如图所示。3并且专门利用深度数据。1.1相关工作现有的人员重新识别方法通常集中于设计不变和判别特征[24，22，50，38，100，46，87，10，43]，其可以使得能够识别，而不管诸如尺度、位置、部分遮挡和变化的照明条件之类的讨厌因素。为了提高其鲁棒性，当前的趋势是部署更高维的描述符[43，47]和深度卷积架构[40，89，1，82，79，109，73，45，101，65，17，83]。尽管一直在寻求有效的表示，但处理非常大的变化（例如超宽基线匹配以及照明和分辨率的显著变化）仍然是一个挑战，特别是在有限的训练数据的情况下。因此，在学习判别距离度量[35，42，105，51，55，77，43，61，53，19，48，108，91，5]和判别子空间[63，47，107，84，43，46，64，94，15]方面存在大量文献。其他方法通过明确地考虑人的空间约束来处理姿势可变性的问题。身体部位[12，97，39，96]或通过从视频预测姿势[16，72]。然而，在实际应用中，远程学习和深度学习管道中需要解决的一个关键挑战是小样本问题[14，94]。由于缺乏大规模的人员重新识别数据集，这个问题更加严重最近又发布了一些新的版本，如CUHK03 [40]。和MARS [102]，Market-1501数据集的视频扩展[103]。然而，它们的训练集是在20，000个阳性样本的数量级，即，两个订单的幅度小于Imagenet [66]，已成功用于对象识别[37，69，75]。小样本量问题在从时间序列进行人员重新识别时尤其严重[26，86，9，54，110]，因为与单镜头表示相比，特征维度另一方面，显式建模时间动态基于深度的增强时间注意的人物再识别3并且使用多个帧有助于算法处理噪声测量、遮挡、不利姿势和照明。正则化技术，如批量归一化[30]和Dropout [27]，有助于学习具有更大泛化能力的模型Xiao等 [82]通过利用他们提出的“领域导向的数据输出”方案，在几个基准测试中达到了最高的准确性。在对数据集的单元进行改进之后，通过根据训练数据中的每个神经元的激活率来自适应地设置每个神经元的丢失率，进一步增强了对各个数据集的Haque等人[26]设计了一个瞥见层，并使用了4D卷积自动编码器，以便压缩4D时空输入视频表示，而下一个空间位置（瞥见）是在一个循环atten内推断的。使用强化学习的框架[56]。然而，对于小块（在一瞥位置处），模型看不到整体身体形状，而对于大块，其失去深度分辨率。在将输入空间压缩到易于处理的水平的目标内，在可见性和分辨率之间实现良好的权衡对于有限的数据是困难的。我们的算法有几个关键的区别，从这项工作。首先，观察到有大量的RGB数据可用于训练帧级人物ReID模型，我们使用改进的传输方案从预训练的RGB模型传输参数。其次，由于帧级模型的输入是整个身体区域，因此我们不需要以分辨率为代价的任何可见性约束。第三，为了更好地利用从视频的时间信息，我们提出了一种新的加强的时间注意力单元的帧级功能的顶部，这是由任务的指导，以预测到最终的预测个别帧的权重我们将RGB Person ReID模型转移到深度域的方法是基于一个关键的乍一看，我们的观察结果与Song等人在RGB-D对象识别方法中报道的不一致。[71]。他们报告说，底层不能在RGB和深度模型之间共享，最好从头开始重新训练它们。我们的推测是，这种行为部分特定于HHA深度编码[25]，这在我们的表示中没有使用。自然语言处理[49，11]中的一些最新作品探索了时间注意力，以跟踪长期结构依赖关系。Yao et[88]在视频字幕中使用他们的长短期记忆解码器内的软注意力门，使得他们在给定所有先前生成的单词的情况下估计输入视频中的当前特征的相关性。我们的方法的一个关键区别是，我们的注意力单元完全依赖于帧级特征嵌入，而不是隐藏状态，这可能使其不太容易发生错误漂移。此外，我们的时间注意力是不可区分的，所以我们求助于强化学习技术[80]来获得二元结果。受到Likas [44]在在线聚类和Kontoravdis等人的工作的启发。[36]在二进制域的探索中，我们将每个帧预测的权重建模为Bernoulli-sigmoid单元。我们将在第二节详细介绍我们的模型。2.24N. Karianakis，Z.Liu，Y.Chen和S.Soatto已经出现了使用来自3D骨架数据的测量的基于深度的方法，以推断人体测量和人类步态标准[60，57，2，3，21]。为了充分利用深度数据的全部功能，最近的方法使用3D点云来估计运动轨迹和特定身体部位的长度[29，95]。值得指出的是，骨架信息并不总是可用的。例如，Kinect SDK中的骨骼跟踪在人处于侧视图中或腿不可见时可能无效。除了上述挑战之外，基于RGB的方法在具有显著照明变化的场景中以及当个体更换衣服时受到挑战。这些因素可能对系统的有效性具有很大的影响，例如，该系统旨在在几天内跟踪建筑物的不同区域上的人，其中建筑物的不同区域可能具有显著不同的照明条件，相机可能在颜色平衡方面不同，并且人可能穿着不同图案的衣服这是我们在我们的场景中使用深度轮廓的关键动机，因为它们对这些因素不敏感。我们的贡献可归纳如下：i) 我们提出了一种新的加强时间注意力的帧级功能的顶部，以更好地利用时间信息从视频序列的学习，以自适应加权基于任务的奖励的各个帧的预测。节中2.2我们定义了模型，其端到端训练在第2节中描述。2.3，与基线的比较见第三点五ii) 我们通过利用大量的RGB数据来获得更强的帧级特征，来解决基于深度的人重新识别中的数据稀缺问题我们的分速率RGB到深度传输方案如图所示4.第一章我们在图中显示。5，我们的方法通过更有效地利用来自RGB数据的预训练模型来优于流行的微调方法。iii) 大量实验在Sec。3.5不仅显示了我们的方法与现有技术相比在基于深度的视频人物重新识别方面的优越性，而且还解决了具有挑战性的应用场景，其中人穿着在训练期间看不见的衣服在表2中，我们证明了我们的方法与其基于RGB的对应物相比的鲁棒性，以及当j 〇nj〇n使用person的head i n f orm时的相互增益。2我们的方法2.1输入表示我们的系统的输入是来自Kinect V2的原始深度测量[68]。输入数据是深度图像D∈Z512×424，其中每个像素D [i，j]，i∈ Z[1，512]，j∈[1，424]，包含从图像平面到特定坐标（i，j）处的最近对象的笛卡尔距离，以毫米为单位。在“默认范围”设置中，整数值[ 0，0. 4m）和d（8.0m，∞）被定义为未知的元素，[0. 四，零。8）[m]as“to one ar“，（4.0 、 8 。 0][m] 为 “to of ar” 且 [ 0. 八四 0][m] 作为 “ 正常 ” 值。当skeletontracking有效时，由Kinect SDK提供body索引B∈Z512×424，其中0对应于背景，并且对于属于人i的每个像素为正整数i。基于深度的增强时间注意的人物再识别5pp0图二、裁剪的彩色图像（左）、灰度深度表示D g（中）和使用来自骨架跟踪的身体指数信息Bp的背景减除之后的结果（右）。在提取人区域D p D之后，“正常”区域内的测量值在范围[ 1，256]中被正常化，其中来自“到远”和“未知”范围的值被设置为256，并且“到远”范围中的值被设置为1。在实践中，为了避免值集中在256附近，而其他值（比如在对象前面的地板上）跨越剩余范围，我们引入一个偏移量to=56并在[1，256-to]中进行归一化。这导致了在Dg上的“大规模”p。当bodyindexx是可用的时，我们将Bp_B部署为深度区域Dp上的掩模，以便在应用范围归一化之前实现背景减除（参见图1B）。2）的情况。2.2模型结构该问题被公式化为一个智能体的顺序决策过程，该智能体通过视频序列从部分可观察的环境中执行人类识别。在每个时间步长，代理通过深度相机观察环境，基于深度卷积神经网络（CNN）计算特征向量，并使用新的增强时间注意力（RTA）主动推断当前帧对于重新识别任务的重要性。在CNN特征之上，长短期记忆（LSTM）单元对短程时间动态进行建模。在每个时间步，代理接收基于其分类任务的成功或失败。它的目标是随着时间的推移最大化奖励的总和。接下来将详细介绍代理及其组件，而培训过程将在第2节中描述2.3 该模型在图中概述3 .第三章。Agent ：形式上，问题设置是部分可观察马尔可夫决策过程（POMDP）。环境的真实状态是未知的。智能体学习随机策略π（（w t，c t）|s1：t; θ），其中参数θ ={θ g，θ w，θ h，θ c}，其在每个步骤t处映射过去历史s1：t= I1，w1，c1，. . . ，I t−1，w t−1，c t−1，I t到离散作用下的两个分布：帧权重w t（子策略π1）和类后验c t（子策略π2）。权重wt从由RTA单位fw（gt;θw）在时间上参数化的二进制分布中随机采样6N. Karianakis，Z.Liu，Y.Chen和S.Soattop，tItCtIt+1ct+1图三. 我们的模型架构由一个帧级特征嵌入fCNN组成，它为递归层fLSTM和强化时间注意力（RTA）单元fw（以红色突出显示）提供输入。分类器被附加到隐藏状态h_t，并且其视频预测是单帧预测的加权和，其中每个帧t的权重w_t由RTA单元预测。t：wtπ1（·|fw（gt;θw））。该示例的点分布取决于该示例的持续时间，这对LST计算结果是有利的：ctπ2（·|fc（ht;θc））。向量h t维持环境的内部状态作为过去观察的总结。注意，为了简化标记，时间处t表示为It，但实际输入是人物区域Dg（参见第二节。2.1）。帧级特征嵌入fCNN（θg）：考虑到深度数据很少，但有大量的RGB数据可用于人员重新识别，我们希望利用RGB数据来训练深度模型以进行帧级特征提取。我们发现，深度神经网络的底层卷积层的参数可以直接在RGB和深度数据之间共享（参见图1）。秒2.3），也就是说，具有深度D的每个像素被复制到三个通道并被编码为（D，D，D），其对应于三个RGB通道。这促使我们选择预训练的RGB模型。近年来，基于RGB的人员重新识别进展迅速[40，89，1，82，79，73]。Xiao等人介绍的深度卷积网络[82]在几个公共数据集上优于其他方法因此，我们决定采用他们的模型进行帧级特征提取。该网络在本质上类似于GoogleNet[75];它使用批量归一化[30]，包括3× 3卷积层[69]，然后是6个Inception模块[75]和2个全连接层。为了使这个网络适用于我们的场景，我们引入了两个小的修改。首先，我们用一个256×N的全连接层替换顶层分类层，其中N是目标数据集上的受试者数量，其权重从零均值随机初始化。ht-1Gtwtgt+1fLSTMHht（fw（w）fc（c）Wt+1ht+1fCNN（ g）fw（w）fLSTM（ h）fCNN（ g）基于深度的增强时间注意的人物再识别7标准差为0的高斯分布。01.其次，我们在全连接层之间添加dropout正则化。节中2.3我们展示了一种将模型参数从RGB转换为深度的有效方法。递归模块fLSTM（θh）：我们使用如[ 92 ]中所述的有效长短期记忆（LSTM）元素单元，这已由Don ahue等人证明。[20]以便有效地对用于视频识别和字幕的时间动态建模。具体地，假设σ（）是sigmoid，g [t]是输入在时间帧t，h[t-1]是模块的先前输出，并且c[t-1]是先前单元，实现对应于以下更新：i[t]=σ（Wgi g[t]+Whi h[t−1]+bi）（1）f[t]=σ（Wgfg[t]+Whfh[t−1]+bf）（2）z[t]=tanh（Wgc g[t]+Whc h[t−1]+bc）（3）c[t]=f[t]⊙c[t−1]+i[t]⊙z[t]（4）o[t]=σ（Wgo g[t]+Who h[t−1]+bo）（5）h[t]=o[t]⊙tanh（c[t]）（6）其中Wsq是每个门q的从源s到目标q的权重矩阵，bq是通向q的偏置，i[t]是输入门，f[t]是遗忘门，z[t]是单元的输入，c[t]是单元，o[t]是输出门，并且h[t]是该模块的输出。最后，x⊙y表示向量x和y的元素乘积。增强的时间注意力fw（θw）：在每个时间步长t处，RTA单元推断图像帧It的重要性wt，因为后者由特征编码gt表示。该模块包括一个线性层，将256× 1向量gt映射到一个标量，然后是Sigmoid非线性，将实值输入压缩到[0， 1]范围。接下来，输出wt由具有概率质量函数的伯努利随机变量定义.f（wt;fw（gt;θw））=fw（gt;θw），wt= 11 −f w（g t; θ w），w t= 0（七）伯努利参数以Sigmoid输出fw（gt;θw）为条件，形成伯努利-Sigmoid单元[80]。在训练期间，输出wt被随机采样为{0， 1}中的二进制值。在评估期间，不是从分布中采样，而是确定性地决定输出等于伯努利参数，因此，wt=fw（gt;θw）。分类器fc（θc）和奖励：分类器由一个序列的一个recti- fied线性单元，辍学率r = 0。4、完全连接层和Softmax。参数层将256× 1隐藏向量ht映射到N×1类后验向量ct，其长度等于类的数量N。多激发8N. Karianakis，Z.Liu，Y.Chen和S.Soatto具有RTA关注的预测是帧级预测的加权和，因为它们由归一化的RTA权重w′=Σfw（gt;θw）加权。tTt=1 fw（gt;θw）Bernoulli-Sigmoid单元在训练期间是随机的，因此我们采用REINFORCE算法，以获得反向通过的梯度。我们在第二节中描述了培训过程的细节。2.3，但这里我们定义所需的奖励函数。一个简单的定义是：rt=I（argmax（ct）=gt）（8）其中rt是原始奖励，I是指示符函数，并且gt是帧t的地面实况类。因此，在每个时间步长t，代理接收奖励rt，当帧被正确分类时，其等于1，否则等于02.3模型训练在我们的实验中，我们首先预训练帧级特征嵌入的参数，然后我们附加LSTM、RTA和新的分类器，以训练整个模型（参见。图3）。在第二步骤中，权重的嵌入被冻结，而添加的层被随机初始化。我们采用这种模块化训练，以便我们提供单镜头和多镜头评估，但是如果处理视频序列是唯一的目标，则整个架构可以从头开始进行端到端的训练。接下来，我们首先描述我们的帧级嵌入的迁移学习，然后是具有时间注意力的递归模型的混合监督训练算法。CNN（θg）的特征嵌入的分速率转移学习：为了利用大量RGB数据，我们的方法依赖于从RGB预训练模型转移参数θ g以进行初始化。由于尚不清楚RGB参数的子集是否以及哪个子集有利于深度嵌入，我们首先从Yosinski等人的工作中获得见解。[90]在CNN特征可转移性中。他们表明，在Imagenet [66]的两个几乎相等大小的分裂之间，最有效的模型自适应是转移并慢慢微调底部卷积层的权重，同时重新训练顶层。其他处理从大型数据集到小型数据集的模型转移的工作（例如[33]）复制并慢慢微调整个层次结构的权重，除了使用更高学习率重新训练的分类器。受这两种方法的启发，我们研究了RGB和深度之间的模型可移植性我们的方法与[90]相比有三个不同之处。首先，我们发现，即使RGB和深度是完全不同的模态（参见图1）。图1），RGB模型的底层可以与深度数据共享（无需微调）。其次，微调从RGB传输的参数比从头开始训练顶层效果更好。第三，对底层使用较慢（或零）的学习速率而对顶层使用较高的学习速率比在整个层次结构中使用统一的速率更有效因此，我们将我们的方法称为分速传输。第一和第三个评论也与[33]有关键区别，因为基于深度的增强时间注意的人物再识别9t ti基础R基DR3D [90]我们的传输（R3D）见图4。我们的分裂率RGB到深度传输与Yosinski等人相比。[90]。在顶部，这两个模型使用RGB和深度数据从头开始训练接下来，我们示出来自RGB的底部3层每层的颜色表示初始化，下面的数字是相对学习率（表现最好的一个用粗体表示）。主要区别总结在正文中。首先，它们微调所有层，其次，它们仅为分类器部署更高的学习率我们的方法在图中可视化。4和消融研究见第2节。3.4和图5，支持上述观点。CNN-LSTM的混合学习和增强的时间注意力：CNN-LSTM的参数{θg，θ h，θ c}是通过最小化LSTM单元上的分类损失来学习的，该分类损失是通过整个网络的反向传播来实现的。我们将交叉熵损失最小化为识别任务中的惯例，例如人脸识别[74]。因此，目标是最大化给定观察的真实标签的条件概率即最大化log π2（c*|s1：t; θ g，θ h，θ c），其中c*是步骤t的真类。t tCNN和RTA的参数{θg，θw}被学习，使得代理最大化其总回报R=ΣTr，其中r已在等式中定义。8. 这t t涉及到在所有可能序列p（s1：T;θg，θw）的分布上计算期望J（θ g，θw）=Ep（s1：T;θ g，θ w）[R]，这是一个很难处理的问题.因此，可以将被称为 REINFORCE 规则 [80] 的样本近似应用于 Bernoulli-Sigmdunit[44，36]，其中模为次多项式π1（wt）。|fw（gt;θw））。给定概率质量函数logπ1（wt;pt）=wt logpt+（1−wt）log（1−pt），伯努利参数pt=fw（gt;θw），梯度近似为：ΣTθg，θwJ=t=1Ep（s1：T;θg，θw）[θg，θw log π1（w t|s1：t; θ g，θ w）（R t− b t）]（9）1ΣMΣT≈wi−pi（R−bt）（10）M pi（1−pi）ti=1t =1t（×0/1）（×0/1）（×0/1）（×1）（×1）（×1）（×1）（×1）（×0/1）（×0/1）（×0/1）（×10）（×10）（×10）（×10）t=1RGBWR，1WR，2WR，3WR，4WR，5WR，6WR，7WR，8RGB输入R标签RWD，1WD，2WD，3WD，4WD，5WD，6WD，7WD，8深度深度输入D标签DWR，1WR，2WR，3WR，1WR，2WR，3WR，4WR，5WR6WR，710N. Karianakis，Z.Liu，Y.Chen和S.Soatto不τ不不不当等式为si，Σi∈{1，. . . ，M}，这是在运行针对M的年龄时获得的事件和Ri=不τ=1 ri是第i集的累积奖励收集所述样品w.梯度估计被基线奖励bt偏置，以便实现较低的方差。类似于[56，26]，我们设置bt=Eπ[Rt]，因为Ri和bt之间的均方误差也通过反向传播最小化在每个步骤t，智能体进行预测wt，并且奖励信号Ri评估智能体对于分类任务的有效性REIN-FORCE更新增加了导致高于预期累积奖励的动作的对数概率（即通过增加Bernoulli参数fw（gt;θw））。否则，对于导致低回报的帧序列，对数概率减小总而言之，智能体共同优化累积奖励和分类损失，这构成了一个混合监督目标。3实验3.1深度数据集DPI-T （ Depth-based Person Identification from Top ）最近由 Haque etal.[26]，它包含了12个人出现在总共25个序列中，平均穿着5套不同的衣服。与大多数公开的数据集不同，主题从顶部出现，这是自动视频监控中的常见场景。这些人在日常生活中被捕捉到，他们拿着手提包、笔记本电脑和咖啡等物品BIWI。为了探索具有变化的人类姿势和规模的序列，我们使用BIWI[58]，其中50个人出现在起居室中。其中28人在不同的房间里重新录制，穿着新衣服和行走模式。我们使用完整的训练集，而对于测试，我们使用Walking集。从这两个集合中，我们删除了没有人或一个人被图像边界严重遮挡或离传感器太远的帧，因为它们没有提供骨架信息。IIT PAVIS。为了在较短的视频序列可用时评估我们的方法，我们使用IIT PAVIS [6]。该数据集包括在5帧步行序列中记录两次的79个人。我们分别使用Walking1和Walking2序列TUM-GAID。为了对大量身份进行评估，我们使用TUM-GAID数据库[28]，其中包含三种变化的305人的RGB和深度视频。一个32人的子集在三个月后用不同的衣服第二次被记录，这使得它非常适合我们在Sec中的应用场景三点六在我们的实验中，我们使用了来自随机抽取的“正态”方程（n）。3.2评估指标前k准确度等于其地面实况标签包含在前k个模型预测内的测试图像或序列的百分比绘制基于深度的增强时间注意的人物再识别111−µ图五、我们的RGB到深度转移与Yosinski等人的比较[90]在DPI-T的前1准确度方面在该消融研究中，x轴表示从底部开始冻结（左）或微调（右）权重的层数。作为k的函数的top-k精度给出累积匹配曲线（CMC）。对CMC曲线下面积进行积分并对ID数进行归一化，得到归一化曲线下面积（nAUC）。在单次模式下，模型仅由带有附加分类器的f CNN分支组成（见图1）。（3）第三章。在模型处理序列的多镜头模式下，我们在有（或没有）RTA注意的情况下评估我们的CNN-LSTM模型3.3实验环境特征嵌入f CNN在Caffe中训练[31]。与[82]一致，输入深度图像的大小被调整为144×56。50个图像的SGD小批量用于训练和测试。动量µ=0。5、更稳定的训练。在几次迭代之后，动量有效地将更新的大小乘以因子1权重衰减被设置为2*10 −4，因为它在Inception架构中很常见[75]。我们使用适度的基本学习率γ0=3 × 10 −4。学习率降低了10倍，因为学习时间比“plat eau”低。具有图1中的LSTM和RTA层的整个模型3在Torch/Lua中实现[18]。我们为预训练的嵌入实现了定制的Caffe-to-Torch转换对于端到端训练，我们使用动量µ = 0。9，批量大小50，学习率从0线性下降。01到0。0001，最大持续时间为250个时期LSTM历史由ρ= 3帧组成。3.4分速率RGB到深度传输的评估在图5中，我们示出了我们的分裂速率RGB到深度传输的结果（其在第2.2节中描述）。2.3）与[90]相比。当底部CNN层被冻结（左）并且缓慢时，我们在DPI-T上显示了前1个12N. Karianakis，Z.Liu，Y.Chen和S.Soatto表1.DPI-T、BIWI和IIT PAVIS测试集上的单次和多次拍摄人员重新识别性能。破折号表示没有发布的结果可用模式方法前1位准确度（%）DPI-T Biwi IIT PAVIS随机8.32.01.3单发美国（公告牌成人音乐榜）[58]–21.128.6骨架（SVM）[59]–13.835.73D RAM [26]47.530.141.3我们的方法（CNN）66.825.443.0多激发美国（公告牌成人音乐榜）[58]–39.3–骨架（SVM）[59]–17.9–能量卷[70]14.225.718.93D CNN+平均池化[8]28.427.827.54D RAM [26]55.645.343.0我们的方法（CNN-LSTM+平均池化）75.545.750.1我们的方法与注意[88]75.946.450.6我们的方法与RTA注意76.3 50.052.4（右）顶层从RGB转移并在我们的方法中快速微调，而它们在[90]中重新训练。考虑到CNN架构在分类器之前有7个主要层，x轴是从底部开始计数的冻结或微调的层数。显然，转移和冻结三个底层，同时快速找到子层的“插入”和完整的连接层，带来尝试冻结太多层会导致两种方法的性能下降，这可以归因于特征特异性。缓慢地微调底层有助于减轻脆弱的共同适应，如Yosinski等人所指出的。[90]，并提高了泛化能力，尤其是在向x轴右侧移动时。总体而言，我们的方法在两种治疗的x轴设置中更准确3.5端到端框架在表1中，我们将我们的框架与基于深度的基线算法进行了比较。首先，我们展示了随机一致猜测的性能接下来，我们报告了来自[6，59]的结果，他们使用基于生物特征的手工特征，例如骨骼关节之间的在多激发模式下评估具有随时间平均汇集的3D CNN [8]和步态能量体积[70最后，我们提供了与3D和4D RAM模型的比较[26]。为了在没有时间注意的情况下在多激发模式下评估我们的模型，我们简单地对跨序列的附接在CNN-LSTM输出上的分类器的输出进行平均（参见图1）。图3）。在最后两行中，我们展示了利用时间注意力的结果。我们将我们的RTA注意力与[88]中的软注意力进行比较，软注意力是隐藏状态ht和嵌入gt的函数，其投影被添加并通过双曲正切非线性。基于深度的增强时间注意的人物再识别13图六、打印预测伯努利参数的示例序列。我们观察到，学习端到端重新识别特征的方法比依赖于所有数据集上手工制作的生物特征识别的方法表现得更好我们的算法在多镜头模式中表现最好，因为我们的RTA单元有效地学习基于分类特定奖励重新加权最有效的帧分割速率RGB到深度的传输使我们的方法能够有效地利用RGB数据，并提供有区别的基于深度的ReID特征。这尤其反映在DPI-T的单发精度上，我们报告19。与3D RAM相比，top-1精度提高3%。但值得注意的是，3D RAM在BIWI上表现更好。我们的推测是，空间注意机制是重要的数据集具有显着的变化，在人体姿势和部分身体遮挡。另一方面，空间注意力在DPI-T上显然不那么关键，DPI-T包含来自顶部的视图，并且可见区域在帧之间大部分是均匀的。接下来在Fig.6我们给出了一个测试序列，打印了预测的伯努利参数f w（g t; θ w）。在检查测试序列上的伯努利参数值之后，我们甚至在相邻帧之间观察到大的变化。较小的值通常与噪声帧或具有不寻常姿势（例如，人转动）和部分遮挡的帧相关联。3.6在有看不见的衣服为了解决我们的关键动机，我们将我们的系统与最先进的RGB方法进行了比较，在这种情况下，个人在训练集和测试集的记录之间更换衣服我们使用TUM-GAID数据库，其中305人出现在会话1的序列n01按照官方协议，我们使用训练ID来执行RGB到深度的传输，以进行CNN嵌入。我们使用序列n01接下来，我们部署测试ID，并使用序列n01因此，我们的框架在训练期间无法访问来自会话2的数据。然而，我们假设参与第二次记录的32个受试者对于所有竞争方法都是已知的14N. Karianakis，Z.Liu，Y.Chen和S.Soatto1009080706050403020100TUM-GAID上的单次测试评估来自身体深度的来自Body RGB的来自身体深度RGB的ReID来自头部RGB的来自Body Depth Head RGB的2 4 6 8 10 12 1416秩表2. 在新衣服场景中具有单次激发（ss）和多次激发（ms）评估的TUM-GAID上的前1次重新识别准确度（前1，%）和归一化曲线下面积（nAUC，%）见图7。TUM-GAID上的累积匹配曲线（CMC），用于个人穿着培训期间未提供的衣服的情况。在表2中，我们表明，从身体深度的重新识别比从身体RGB [ 82 ]更鲁棒，呈现6。2%的前1位准确率和10. 单次激发模式下nAUC增加7%。接下来，我们将探索使用头部信息的好处，头部信息对日常变化的敏感度低于衣服。为此，我们从[82]转移基于RGB的预训练模型，并对上身部分进行微调，我们称之为这导致单独地和与身体深度联合地最后，我们展示了身体深度，头部RGB及其线性组合在类后验中的多镜头性能的相互好处。图7我们可视化了单次激发设置的CMC曲线我们观察到，ReID从身体深度尺度优于其对应物，这是由nAUC分数验证。4结论在本文中，我们提出了一种新的方法，基于深度的人重新识别。为了解决数据稀缺问题，我们提出了分速率RGB深度转换，以有效地利用来自大型RGB数据的预训练模型并学习强大的帧级特征。为了增强从视频序列中的重新识别，我们提出了增强的时间注意单元，它位于帧级特征的顶部，并且不依赖于网络架构。大量的实验表明，我们的方法在基于深度的人重新识别方面优于现有技术，并且在人更换衣服的场景中，它比基于RGB的对应物更有效致谢：这项工作得到ARO W 911 NF-15-1- 0564/66731-CS、ONR N 00014 -13-1-034和AFOSR FA 9550 -15-1-0229的部分支持。识别率（%）模态top-1 nAUCBody RGB（ss）[82]41.874.3主体深度（ss）48.0 85.0车身深度RGB（ss）48.681.9头部RGB（ss）59.479.5Body DepthHead RGB（ss）65.485.2Body RGB（ms：LSTMRTA）50.079.9体深（ms：LSTM）56.387.7主体深度（ms：LSTMRTA）59.4 89.6头部RGB（ms：LSTM&RTA） 65.681.0身体深度头部RGB（ms：LSTMRTA）75.088.1基于深度的增强时间注意的人物再识别15引用1. Ahmed，E.，琼斯，M.，马克，T.K.：一种用于人员重新识别的改进的深度学习架构见：CVPR（2015）2，62. Albiol，A.，Oliver，J.，Mossi，J.：谁是谁在不同的相机：使用深度相机重新识别人。IET计算机视觉（2012）43. 和你的儿子，V。杜特拉河 Arau'jo，R.：使用来自Kinect传感器的骨架数据的改进算法和人类ACM Symposium on Applied Computing（2014）4. Bai，S.，Bai，X.，Tian，Q.：监督平滑流形上的可扩展人员再识别在：CVPR（2017）5. Bak，S.，Carr，P.：用于人员重新识别的一次性度量学习在：CVPR（2017）26. 巴博萨岛Cristani，M.，Del Bue，A.，巴扎尼湖穆里诺，五：使用RGB-D传感器重新识别。In：ECCV Workshops（2012）10，127. Bedagkar-Gala，A. Shah，S.K.：关于人员重新识别的方法和趋势的调查。图像和视觉计算（2014）18. Boureau，Y.L.，Ponce，J.，LeCun，Y.：视觉识别中特征池的理论分析In：ICML（2010）129. Castro，F. M.， Mar´n-Jim´enez，M. J. Guil，N.， delaB lannca，N. P.：用于人识别的步态特征的快速获取。在：人工神经网络国际工作会议（2017）210. 卡斯特罗，F.M.，Mar 'ın-Jimenez，M.J.，Medina-Carnier，R.：用于多视图步态识别的金字塔Fisher运动。In：ICPR（2014）211. 陈伟，Jaitly，N.，Le，Q.V.，Vinyals，O.：听一听，听一听，拼一拼. ICASSP（2016）312. Chen，D.，中国农业科学院，Yuan，Z.，陈伯，Zheng，N.：具有空间约束的相似性学习用于人的重新识别。在：CVPR（2016）213. 陈杰，王玉，秦杰，刘，L.，Shao，L.：通过跨相机语义二进制变换的快速人重新识别。在：CVPR（2017）14. Chen，L.F.，廖惠明Ko，M.T.，Lin，J.C.，Yu，G.J.：一种新的基于lda的人脸识别系统，可以解决小样本问题。02The Dog（2000）15. 陈伟，陈旭，张杰，Huang，K.：Beyond Triplet Loss：A Deep QuadripletNetwork for Person Re-identification.在：CVPR（2017）216. 周YJYoon，K.J.：经由姿势感知多镜头匹配来改进人重新识别在：CVPR（2016）217. Chung，D.Tahboub，K.，Delp，E.J.：一种用于人员再识别的双流连体卷积神经In：ICCV（2017）218. 科洛伯特河Kavukcuoglu，K.，Farabet，C.：Torch7：类似matlab的机器学习环境。In：BigLearn，NIPS Workshop（2011）1119. 丁，S.，林，L.，Wang，G.，Chao，H.：使用相对距离比较的深度特征学习模式识别（2015）220. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan，S.，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络在：CVPR（2015）721. Dubois，A.，Charpillet，F.：一种用于跌倒预防的基于深度相机的步态分析方法。在：IEEE医学和生物学工程学会（2014）422. Farenzena，M.，巴扎尼湖Perina，A.，Murino，V.，Cristani，M.：个人重新识别由个人驱动的积累的地方特点。In：CVPR（2010）216N. Karianakis，Z.Liu，Y.Chen和S.Soatto23. 龚，S.，Cristani，M.，Yan，S.，Loy，C.C.：人员重新识别（2014年）124. Gray，D.，陶，H.：具有局部特征集合的视点不变行人识别ECCV（2008）225. Gupta，S.， Gir shick，R.， Ar bela'ez，P.， Malik，J.：从rgb-d图像中学习用于目标检测和分割的In：ECCV（2014）326. Haque，A.，Alahi，A.，李菲菲：用于基于深度的人物识别的循环注意模型。在：CVPR（2016）2，3，10，1227. 辛顿通用电气Srivastava，N.，Krizhevsky，A.，萨茨克弗岛Salakhutd

下载后可阅读完整内容，剩余1页未读，立即下载