没有合适的资源?快使用搜索试试~ 我知道了~
基于属性驱动的特征分解与时间聚合的视频人物再识别
14913基于属性驱动的特征分解和时间聚合的视频人物再识别Yiru Zhao1,2 Yuan,Xu Shen2,Zhongming Jin2,Hongtao Lu1 <$,Xian-sheng Hua2 Yuan1上海市教育委员会智能交互与认知工程重点实验室,计算机科学与工程系,上海交通大学人工智能研究所MoE人工智能教育部重点实验室2阿里巴巴达摩院,阿里巴巴集团{yiru.zhao,htlu}@ sjtu.edu.cn,{shenxu.sx,zhongming.jinzm,xiansheng.hxs}@ alibaba-inc.com摘要基于视频的人物再识别在监控视频分析中具有重要的作用,它通过学习多帧图像的特征来扩展大多数实验方法通过时间平均池化来融合特征,而不探索由不同视点、姿势和遮挡引起的不同帧权重在本文中,我们提出了一种属性驱动的方法,用于特征去纠缠和帧重加权。单个框架的特征被分解为多个子特征组,每个子特征组对应于特定的语义属性。子特征通过属性识别的置信度重新加权,然后在时间维度上聚合作为最终表示。通过这种策略,每个帧的最具信息性的区域被增强,并且有助于更有区别的序列表示。广泛的消融研究验证了特征去纠缠以及时间重新加权的有效性在iLIDS-VID、PRID-2011和MARS数据集上的实验结果表明,该方法优于现有的最先进的方法。1. 介绍由于其广泛的潜在应用,人员再识别(Re-ID)是智能视频监控系统的核心。给定一个查询人,该任务的目的是匹配来自多个非重叠相机的同一个人由于人体姿势、遮挡、视点、照明和背景杂乱的大变化,它仍然是一项非常具有挑战性的任务*本文是作者在阿里巴巴实习时完成的。†通讯作者。‡通讯作者。近年来,基于图像的单查询re-id任务得到了广泛的研究,包括特征表示[15,21,44]和距离度量学习[19,38,27]。深度学习方法在特征学习方面表现出显著的优势,并且在人员识别任务中被证明非常有效[18,5,32,35,30]。现有的工作已经表明,多查询策略通过简单地跨track-let池化特征而明显优于单查询[43,48,13]。这种改进几乎是无成本的,因为在现实世界的监控应用中,多帧上下文很容易通过视觉跟踪获得。进一步研究了视频信息的时间特征,提出了一系列基于视频的识别方法。一些作品[26,40,4]涉及光流来提供运动特征。在[49,40,4]中应用了递归神经网络来探索输入图像序列的时间结构。在[49,40,17]中还利用时间注意力模型来代替时间平均池化,其动机是假设具有较高质量和较少遮挡的帧应该具有较大的权重在聚合中。身体区域的局部特征已在以前的工作中使用[43,42,39],并已显示出用于细粒度识别的优越性。而在基于视频的re-id任务中,由于图像序列内的各种人体姿势和遮挡,来自不同帧的相同身体区域的局部特征共享相等的我们所提出的方法主要是出于这种观察,旨在提高每个区域的更多信息帧。我们提出的方法的一个例子如图所示。1.一个框架的特征被分解为多个子特征,对应于特定的语义属性组.在所显示的图像序列中,帧1捕获了清晰的正面人脸,因此它在头部组中具有较高的权重。虽然袋子在帧1中不可见,但袋子组的权重主要集中在帧2和帧3上。帧-214914时间聚合2.1. 基于图像的人物识别帧属性预测器x0.3+ x0.6+ x0.1+…x0.1+ x0.5+ x0.4+. x 0.0 =x0.3=序列表示…人物识别是一个具有挑战性的研究课题,但与其他计算机视觉问题一样,它仍然面临着各种视点、姿态、光照和以前的工作主要从两个类别开发他们的解决方案:提取可靠的特征表示[15,21,44]和学习鲁棒的距离度量[19,38,27]。通过对卷积神经网络(CNN)的描述,许多最近的re-id模型都是基于CNN结构设计的[1,8,6,18,31,34,42]。比如说,[1]提出 一种用于同时学习特征和用于个人RE-ID的相应成对相似性度量的方法。[8]通过相对距离比较,为人员re-id提供可扩展的深度特征学习模型。普通CNN模型仅产生全局特征,而身体区域的局部细节已被证明在人识别任务中有效[42,43,39]。[42]提出一种方法1 2 3 T图1.说明我们的方法。一个框架的特征被分解为对应于特定语义组的若干子特征。在每个组中,从T帧的子特征聚合与自适应权重。聚合的子要素被连接起来作为该序列也是鞋类中最高的。帧T的权重相对较低,因为检测不良的边界框和杂波背景。重新加权的子特征在时间维度上聚合,然后连接为输入序列的表示。我们将时间权重细化到子特征级别,用于处理序列中的各种姿势,遮挡和检测定位。我们提出的方法依赖于属性注释,这是毫无价值的然而,在现实世界的应用中,手动注释每个身份的属性标签是劳动力昂贵的为了解决这个问题,我们引入了一个trans-fer学习算法,利用属性数据集上学习到的知识自动标注re-id数据集上的属性标签2. 相关工作所提出的方法的相关工作可以概括为三大类:基于图像的人物识别、基于视频的人物识别和属性学习。我们将从相应的方面说明我们的工作与这些方法之间的联系和区别该方法通过多级ROI池化网络学习不同身体区域的特征。[43]提出了一种局部对齐的表示方法来处理注意力模型中的身体错位问题。[39]提出了一个注意感知网络来处理人工句法分析中的错位和在我们所提出的方法中,每个子属性用于学习局部细节,并将特征分解为语义组,这也将子特征对齐以进行时间融合。2.2. 基于视频的人物识别基于图像的re-id可以自然地扩展到现实世界应用中的多镜头re-id,其中在视频序列中检测到轨迹。最近的工作开始探索基于视频的re-id问题。[26,40,4]涉及在相邻帧之间计算的光流作为输入数据,其提供诸如步态模式的运动特征。然而,光流的计算是耗时的,这在实时应用中是不实际的。[49,40,4]将回流神经网络(RNN)应用于单次特征的序列平均池化是在时间维度上合并特征的常见策略,而[49,40,17]利用注意力模型选择性地关注信息量最大的帧。 为了最大限度地提高每个人区域的可分辨性,我们进一步细化了从特征级到子特征级的时间权重[40 4,41]设计了以序列对为输入并验证它们是否属于同一单位元的连体网络。siamese架构通过成对比较提高了性能相反,我们的单遍方法只提取每个序列上的特征一次,这对于实时应用是有效的x0.6+ x0.1+ x0.0+特征提取…功能分解袋鞋头34915t=1t=1连接特征图2.我们方法的架构。属性标签分为N组。帧特征被分解为N+ 1个片段,其中N个片段对应于N个属性组,一个片段用于全局表示。时间权重wnt由识别置信度计算,其不提供用于训练稳定性的梯度,如虚线箭头所示。每组中的属性预测器在合并子特征上训练。包括N+ 1个合并子特征的级联特征表示输入序列。2.3. 属性学习属性学习[3,2,23]在人脸识别[33,37]以及人的re-id [31,20,29]中引起了广泛的以往的工作证明,正确的预测属性可以提高识别模型的区分度。[37]提出了一种用于人脸识别和人脸属性预测的联合深度架构。[31]解决了属性三元组丢失的人员重新标识问题,并提高了性能。[20]证明re-id任务受益于多任务学习过程。不同于现有的多任务方法,简单地添加一个属性的预测损失,我们的方法利用属性来解开的功能到语义组,并进一步计算每个子功能的时间权重。属性标签的注释成本限制了基于属性的方法在现实场景中的扩展。为了解决这个问题,我们的方法通过迁移学习获得属性标签,而不需要额外的标注成本.3. 该方法3.1. 特征分解与时态聚合在本节中,我们将介绍如何使用属性标签生成二、帧采样。视频重新识别任务中的序列长度通常变化很大,通常的做法是将重复一个固定帧编号T的序列。现有的基于RNN的方法需要连续帧作为输入。然而,一小段连续的视频帧是高度相关的,并不比单个图像信息更多。在国家,整个视频往往包含不同的视觉外观(例如,视点、身体姿势)。为了利用来自整个视频的视觉信息,我们将序列平均地分成T个块{Ct}T。从每个块Ct随机采样一个帧ft,然后整个视频由采样帧{ft}T.功能分解。下一步是用采样帧产生序列特征。由于序列中的各种人体姿势和遮挡,应该增强每帧的信息性局部区域。因此,我们首先将帧特征分解成几组,然后计算每个子特征的时间权重。我们采用ResNet [12]进行特征提取。全局特征,即在残余块4的平均池化之后的全连接层fc1被分成N+1个段,其中N个段对应于N个局部属性组,一个段用于全局表示。fc1→[fc1 , ··· , fcN , fcN+1](1)根据RAP数据集[16]中的属性,我们设置在我们的方法中N=6,属性组列于表中。1.每个子要素都与一个属性相123不…属性标签ID标签框架特征模型×w11+ ×w12+ ×w13+···+×w1T属性预测器-1二元交叉熵损失属性组-1×w21+×w 22+×w23+···+×w2T属性预测器-2二元交叉熵损失属性组-2×wN1+ ×wN2+ ×wN3+···+×wNT属性预测值-N二元交叉熵损失属性组-N×+1×+1不不×+·· ·+1不1×不Softmax损失人物ID……………………44916合并合并我不n表1.在我们的方法中使用的语义属性组。下面还列出了每个组的示例属性组属性性别年龄女,16岁以下,.,31 -45头肩帽,眼镜,.,黑发上半身衬衫,SuitUp,.,上蓝低腰裙,裙子,.,低黑运动鞋,皮革,.,鞋-白色附加背包,手袋,.,塑料袋属性数据集(源)Re-ID数据集(目标)层层分组由属性预测器APn组成,其由全连接层和S形层组成,以预测第n组中的所有二进制属性。在属性预测损失的驱动下,将全局特征分解为N组局部区域,并对每帧的子特征进行对齐。时间聚合。接下来,我们需要在时间维度上合并来自采样序列的T一个常见的做法是平均汇集,即所有子特征具有相同的权重1/T。然而,由于人类姿势、遮挡和视点的变化,并非所有帧都是同样信息的。我们更关注提供显式属性信息的框架,因此我们计算第t个框架的权重wnt在第n组中,通过属性识别置信度。具体地,通过属性预测得分的熵来计算置信度:图3.属性迁移学习模型的说明,该模型通过优化加权二进制交叉熵损失来学习识别属性。最大平均离散损失被用来正则化源和目标域之间的特征分布通过连接N+1个合并的子特征[fc1,· · ·,fcN+1]来表示整个输入序列。在训练阶段,对级联特征使用softmax损失,对合并后的子特征使用N属性预测损失在测试阶段,通过L2-归一化后的级联特征的欧氏距离来3.2. 属性识别的迁移学习Conf(p)=eEnt(p)σ2,Ent(p)=1Anpilog(pi)(2)我们提出的方法依赖于属性标签的功能解开和时间聚合。不同于前-Ani=1其中Ann是第n个组中的属性数量,pi是该组中第i个属性的预测结果,σ是控制重新加权程度的超参数。然后,对T帧的置信度分数进行归一化以获得时间权重:Conf(APn(fcn))由于需要昂贵的劳动力来手动注释人re-id数据集上的属性标签,我们将属性信息从人属性数据集转移到re-id数据集。通过迁移学习,该方法不需要额外的标注代价,因此可以很容易地扩展到其他数据集和更多场景。给定一个人属性数据集(源域),给出了在re-id数据集(tar-id)wnt=0 不i=1不Conf(APn(fcn))(三)GetDomain)首先训练属性识别模型,然后预测RE-ID图像上的标签但然后,将子特征与时间权重聚合到合并表示:ΣT由于目标集上的不可分割的域间隙,仅用源集训练的属性识别模型在目标集上是次优的。不一致的特征分布影响re-id数据集上的属性预测。merge=t=1wntfcn(四)在假设人物图像(在源和目标数据集中)共享相同的语义集合的n合并 用于训练属性预测器tic属性,属性fea的分布距离,APn通过具有属性la的二进制交叉熵损失贝尔斯值得注意的是,时间权重wnt的计算对训练稳定性的反向传播没有贡献,如图2中的虚线所示二、除了局部区域的N个子特征之外,全局子特征以相等的权重1/T合并。最后,源集和目标集之间的真实空间应该最小化。该架构如图所示。3和CNN模型被设计用于识别人的属性。倒数第二层是属性特征层(由F表示),最 后 一 层 是 预 测 层 。 我 们 使 用 最 大 平 均 离 散 度(MMD)[11,24,25]来衡量-. ..CNN模型属性属性特征预测离散损失最大平均交叉熵损失加权二进制FCFC44917我我1.0各属性0.80.60.40.20.0图4.RAP数据集上所选属性的正比率很多属性都极不平衡。确定两个分布之间的距离给定每个小批次中的源其中wi是训练集中第i个属性的正比率,指示其相对频率。它鼓励模型输出罕见的属性和错误的预测,LMMD=1nsnsk(Fs,Fs)共同属性将导致更高的损失。属性迁移模型通过联合优化训练2ijSIjingLWBCE 和LMMD . 经过训练后,模型是uti-1Σnt+ntk(Ft,Ft)−2个月 k(Fs,Ft)(五)用于预测re-id数据集的属性标签。具体-通常,对于每个标识,第i个属性2tijijnsntij我 J通过序列合并计算人x我们选择α = 0的高斯核。5作为核函数k:Fs−Ft1ΣTai(x)=Tt=1pi(xt)(9)k(Fs,Ft)=exp(−i j )(6)ij2α2通过MMD损失L MMD正则化属性数据集和re-id数据集之间的属性特征空间的分布方差。其中xt是这个人的第t帧,pi是前帧。第i个属性的措辞。通过二值化获得人x的第i个. 1a(x)≥th属性特征层之后是用于属性识别的全连接层输出是Li(x)=我0ai(x)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ASP.NET数据库高级操作:SQLHelper与数据源控件
- Windows98/2000驱动程序开发指南
- FreeMarker入门到精通教程
- 1800mm冷轧机板形控制性能仿真分析
- 经验模式分解:非平稳信号处理的新突破
- Spring框架3.0官方参考文档:依赖注入与核心模块解析
- 电阻器与电位器详解:类型、命名与应用
- Office技巧大揭秘:Word、Excel、PPT高效操作
- TCS3200D: 可编程色彩光频转换器解析
- 基于TCS230的精准便携式调色仪系统设计详解
- WiMAX与LTE:谁将引领移动宽带互联网?
- SAS-2.1规范草案:串行连接SCSI技术标准
- C#编程学习:手机电子书TXT版
- SQL全效操作指南:数据、控制与程序化
- 单片机复位电路设计与电源干扰处理
- CS5460A单相功率电能芯片:原理、应用与精度分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功