没有合适的资源?快使用搜索试试~ 我知道了~
基于时间互补性的强化学习方法对图像-视频人物再识别的研究
7319基于时间互补性的强化学习的图像-视频人物再识别Wei Wu<$,Jiawei Liu<$,Kecheng Zheng,Qibin Sun,Zheng-Jun Zha*中国科学技术大学{wuvy,zkcys001} @ mail.ustc.edu.cn,{jwliu6,qibinsun,zhazj} @ustc.edu.cn摘要图像到视频的人重新识别旨在从基于视频的图库集合中检索与基于图像的查询相同的行人现有的方法将其视为跨模态检索任务,并从图像和视频模态中学习共同的潜在嵌入,由于大的模态间隙和冗余的特征学习,这些方法都是不太有效和高效的在这项工作中,我们首先把这个任务看作是点到集匹配问题,与人类的决策过程相同,并提出了一种新的时间互补引导强化学习(TCRL)方法的图像到视频的人重新识别。TCRL采用深度强化学习对图库视频中动态选择合适数量的帧进行顺序判断,并在查询图像的引导下在这些帧之间提取足够的时间互补信息,以平衡效率和准确性。TCRL将点到集的匹配过程表示为马尔可夫决策过程,在每一时间步,一个顺序判断代理测量查询图像与所有历史帧之间的不确定性,并验证是否积累了足够的完整线索(相同或不同)或请求多个帧来辅助判断。此外,TCRL维护一个顺序的特征提取模块与互补的残留检测器动态抑制冗余的显着区域,并彻底挖掘这些选定的帧之间的各种互补线索,以增强帧级表示。大量的实验证明了我们的方法的优越性。1. 介绍人员重新识别(Re-ID)是从图库集合中搜索与给定查询具有相同身份的[5、35]。已经†同等贡献。* 通讯作者。图1.从图像到视频的人的Re-ID本质上属于点到集的匹配问题,与人对行人匹配的决策过程相同。由于连续帧内存在大量冗余信息甚至噪声信息,当采用视频的所有帧时,通常不能获得查询图像和图库视频之间的最佳相似性得分由于其在智能监控、视频分析和人机交互等方面的巨大潜力,在过去几年中在计算机视觉界得到了广泛的研究[5,42]。这是一个相当具有挑战性的任务,来自相机的角度,身体姿势,光照的戏剧性变化,以及杂乱的背景和部分遮挡的影响一般来说,人员Re-ID主要可以分为两类:基于图像的Re-ID [8,19,43]和基于视频的Re-ID [3,36,39]。它们之间的主要区别在这两个类别中,要匹配的样本是同质的。近年来,得益于深度学习技术的发展,基于图像和视频的Re-ID取得了令人瞩目的进展然而,在许多实际场景中,人员Re-ID要求根据查询图像在众多视频中找到目标行人。一种情况是,给定一个IM-7320如果一个罪犯的年龄,则该人的Re-ID系统应该在多个非重叠视频序列中检索该罪犯。这就引出了一个新的任务,即:图像到视频(I2V)人员重新识别[7,28,33]。与基于图像和视频的Re-ID相反,由于图像和视频之间的信息不对称,I2 V Re-ID更具挑战性。视频包含大量跨时间维度的时间信息,这导致特征分布差异,增加了测量图像和视频样本之间相似性分数的难度[25]。为了解决这个问题,现有的I2 V Re-ID方法致力于1)通过距离度量学习将图像和视频投影到公共嵌入空间中[27,30,33,47,48]或2)通过时间知识蒸馏将从视频表示网络学习的时间知识传播到图像表示网络[7,25,28]。然而,上述方法既不太有效也不太高效。他们简单地将I2 V Re-ID视为跨模态检索任务,并强制图像和视频特征彼此相似,即使图像由于缺乏时间维度而与视频完全不同。此外,如图1所示,视频序列中往往混杂着大量冗余的外观线索和噪声信息,这些方法直接利用视频的所有帧,而不发现它们之间的区别性互补信息,避免了噪声信息的干扰,导致特征表示能力差,模型效率低。在这项工作中,我们首先把这个任务看作是点到集匹配问题,这与人类的决策过程相同,并提出了一种新的时间互补引导强化学习(TCRL)方法的图像到视频的人重新识别。TCRL利用深度强化学习,通过对查询图像和图库视频进行顺序判断,从适量的帧中积累足够的补充信息,以平衡效率和准确性。TCRL将点到集匹配过程描述为马尔可夫决策过程,在该过程中,一个顺序判断代理度量每个时间步上图像特征与包含所有历史帧的时间互补信息的帧级特征之间的不确定性,并学习最优策略,以判断模型已经收集到足够的证据来识别同一行人并区分不同的行人,或者请求一个或多个视频帧来辅助识别。此外,TCRL还设计了一个具有互补残差检测器的序列特征提取模块,通过吸收所选视频帧间的各种互补信息,互补残差检测器通过多头注意机制学习在先前帧然后将其用作显著卷积核来估计其它后续帧的抑制掩码。抑制模板抑制了共同的显著性信息,并彻底发现了其他后续帧的剩余潜在的鉴别信息。在两个基准上的大量实验证明了我们的方法的有效性和效率,大大超过了最先进的方法。本文的主要贡献如下:(1)我们首先把I2 V Re-ID看作是点到集合的匹配问题 , 并 提 出 了 一 种 新 的 时 间 互 补 引 导 强 化 学 习(TCRL)方法,以达到效率和准确性的双重目标。(2)我们将点到集匹配过程建模为马尔可夫决策过程,训练智能体在查询图像的指导下,从图库视频中自适应地选择合适数量的帧进行顺序判断,(3)我们设计了一个序列特征提取模块,利用互补残差检测器动态地抑制共同的显著信息,并在这些选定的视频帧中充分挖掘潜在的互补线索,以增强行人的帧级特征的能力2. 相关工作基于图像和视频的Re-ID。基于图像和视频的人Re-ID在过去几年中得到了广泛的研究[20,32]。在早期阶段,研究人员更多地关注设计有区别的手工描述符[6,17,29]和/或学习鲁棒的距离度量函数[15、23、34、45]。随着深度学习技术的兴起,基于深度学习的方法取得了很大的成功,在广泛使用的图像和视频基准测试中的性能得到了显著的提高。例如,Zhanget al. [42]提出了一种称为异质局部图注意力网络的深度图模型,它同时对已完成局部图中的局部间关系和局部内关系进行建模。I2 V人员重新识别与基于图像和视频的人Re-ID不同,I2 V人Re-ID [27]需要从图像和视频域学习异构特征以匹配行人。一些作品[30,37,47,48]专注于将图像和视频嵌入投影到共享特征空间中。例如,Zhu等人 [47]提出了一种联合特征投影矩阵和异构字典对学习(PHDL)方法,其联合学习视频内投影矩阵和一对异构图像和视频字典。Zhu等人 [37]提出了一种用于I2 V Re-ID的跨模态匹配框架,该框架采用CNN和LSTM模型进行深度特征提取和视频编码的时间信息,并进一步利用神经网络进行相似性度量学习。此外,其他一些方法[7,25,28]试图传播7321t=1t=1t=1--图2.提出的TCRL的总体架构。它由三个部分组成:骨干网络,配备有互补残差检测器(CRD)的顺序特征提取模块(SFE),以及顺序判断代理(SJA)。将视频特征网络学习到图像特征网络中,解决了信息不对称问题。例如,Gu等人。 [7]提出了一个时间知识传播框架,将时间信息从视频嵌入网络转移到图像网络,并学习共享特征。Shim等人 [28]提出了一种带有两个损失的交互式注意力鉴别器,该鉴别器通过使用非局部操作来整合图像-视频对的不对称信息。强化学习。强化学习所提出的TCRL的结构如图2所示。它主要由三部分组成:骨干网络,配备有互补残差检测器(CRD)的顺序 特 征 提 取 模 块 ( SFE ) , 以 及 顺 序 判 断 代 理(SJA)。3.1. 骨干网给定表示为ItT的图库视频序列,采用骨干网络(ResNet- 50模型的前四个剩余层[9])来提取初始帧级(RL)旨在训练智能体学习最优策略特征{f gt |f gt∈RH×W×C}T,其中H、W和C通过与动态环境交互[16],这已经在许多计算机视觉任务中引入,例如,,目标检测[21,40]和视觉跟踪[12,26]。最近,RL已被应用于基于图像和视频的人Re-ID以生成空间或时间注意力[1,22,24,38],但不考虑用于I2 V人Re-ID。例如,Chen等人。 [2]提出了一种循环的三维注意力再学习框架,该框架在空间和时间维度上共同关注人物视频的突出身体部位 Li等人 [13]提出了一种深度强化注意力学习(DREAL)框架,该框架以质量感知的方式促进视觉识别,并采用基于性能改进评估注意力动作的经常性批评。3. 方法为了在点到集匹配设置下有效且高效地学习有区别的是每个特征的高度、重量和通道尺寸,T指示视频序列的总数,并且t是帧的索引同时,主干网络还提取了查询图像的初始特征,表示为fq ∈ RH×W ×C。3.2. 序列特征提取模块与单个查询图像相比,图库视频序列包含丰富的时空外观线索,这有利于学习鲁棒的特征表示。现有的视频特征提取器限于对每个视频帧执行相同的操作,导致不同帧的高冗余表示,其仅突出显示几乎相同的局部区域[14]。因此,我们引入了一个序列特征提取模块配备互补残差检测器,有效地挖掘互补信息从连续帧,学习更完整和信息量更大的帧级特征。给定图库视频的初始帧级特征,我们介绍了一种新的时间互补引导{f gt |fgt∈RH×W×C}T互补残差强化学习(TCRL)方法用于图像到视频的人员重新识别。详细的建筑设计-检测器用于超越先前帧中已被激活的冗余显著区域,并探索完整的显著区域。7322Gtgt1−gt1gt1−QS=Af∈×∈⊗1gt12Gtt=1Q不GtQGtGtgtgtgt122∈在当前帧内隐藏信息以增强帧级表示。该互补残差检测器的概述如图2所示。具体地,为了提取增强的帧级特征,检测器由三个操作组成:显著区域定位、剩余信息挖掘与补充等。而对于帧T抑制具有高相似性的显著特征。补充特征学习。 该操作利用特定的互补学习器(CL)对剩余的互补信息进行编码,并学习后一帧的增强的帧级特征。具体来说特征学习互补特征fc计算如下:显著区域位置。此操作旨在找到冗余的显著特征,这些特征已在图像中被捕获,fc=CLt(Rt)(4)我们的框架。具体来说,我们记为fr−∈RH×W×C′as其中CLt是由最后一层- 第(t1)帧的提取的增强帧级特征,其包含所有先前t-1帧的时间互补一个1×1卷积层是ResNet-50模型,用于从帧t的剩余互补信息中学习身份相关特征。它在前两个残差块适用于FR− 把它投射到前面− ∈RH×W×C,并在最后一个块中具有其特定参数,其具有与FGT相同的沟道尺寸。为了发现先前t1帧中最活跃的显著区域,一个简单而有效的多头注意机制-Anism(由另外两个卷积层实现)被用来对每个空间位置的重要性进行加权,并产生K2个不同的注意力图。多头注意力机制公式如下:框架[10]。不同的特定学习者通过合作发现不同的互补视觉线索,从而形成身份的整体特征。之后,获得第t个框架的加强框架级特征如下:fr=fc+fr(5)−As=ReLU(gs2(BN(gs1(f)gt−1)(1)通过对所有帧顺序地递归地执行互补残差检测器,相应的检测器可以被配置为:其中gs和gs表示两个卷积层,BN是这些帧的强制帧级特征{fr}T,批量归一化层和ReLU指的是一个经过校正的图库视频。此外,查询图像是线性单位层gs2的输出通道为k。结果As Rk×H×W 代表了各种各样的突出的现实,特征图的区域。在那之后,突出的fea-也被视为仅包含一帧的视频序列,并且以相同的方式获得其增强特征fr。等要素{fr}T最终应用全局平均值gt−1gtt=1通过池化操作来学习所有这些t-1个视频帧的真实St-1,以产生特征向量{vr}T。rt−1sgt−1 ∈Rk2×C.3.3. 序贯判断Agentgtt=1残留信息挖掘。该操作抑制之前激活的冗余显著区域,并挖掘后一帧的剩余互补区域,以捕获剩余的互补信息。我们首先将St−1重塑为St−1Rk×k×C×1,它被视为一个显着的卷积核,核大小为[k,k],输入通道为C,输出通道为1。然后,采用显著卷积核来对后面的第t帧的初始帧级特征fgt执行卷积运算其公式如下:Mt=softmax(fgt<$St−1)(2)其中表示卷积运算,softmax应用于HW维以进行归一化。MtRH×W是抑制掩码,它是一个亲和掩码,表示在先前帧中捕获的显著特征St-1相对于第t帧的高相关值。值得注意的是,M t实际上反映了要素之间每个空间位置处的分块相似性视频的连续帧通常包含大量冗余信息,甚至是由部分遮挡、杂乱背景或不准确检测引起的噪声信息[14,18,30]。因此,直接使用所有帧来获得行人的整体特征的方法在计算上是低效的,并且导致学习的表示的辨别力退化。考虑到这一点,我们将I2 V Re-ID问题表示为马尔可夫决策过程(MDP),并利用顺序判断代理动态选择合适数量的视频帧进行行人匹配,如图2所示。在每个时间步t,代理将图库视频和查询图像的前t帧作为动态环境来观察状态t,根据学习到的经验执行动作t,接收奖励t,以优化策略。然后,如果当前剧集未被终止,则该代理将获取图库视频和查询图像的多一帧以在地图− 和fgt. 此外,剩余的补充-下一个时间步长t +1。状态、行动、奖励的细节和代理的体系结构在下面详细描述通过以下步骤来挖掘第t帧的有用信息:状态 国家t在情节con中的时间步t处Rt=(1−Mt)·fg(三)四个分量St=[vr,vg,vr,|vr−vr|]的,不7323Qv≥LLD--B∈CCA一Tanh(1−)·r,否则e0β--QGtQGtQGtt=1QGtQ不GtGt|−|--·其中vr,vr∈RC′ 是增强的特征向量,并且查询图像与图库具有不同的身份C′查询图像和第t帧。t∈R视频. 我们给代理人一个惩罚(rt=-r0),是从具有特定互补学习器的骨干网络学习的第t帧的初始特征向量这四个分量是必不可少的和互补的,因为vr和vg提供当前时间的视觉内容,r包含所有先前帧的历史互补信息,vrvr代表特征查询图像和图库视频的亲和力剂我们采用深度确定性策略梯度(DDPG)[16]来构建顺序判断代理,它由四个部分组成,即:演员、评论家、目标演员和目标评论家。这四个部分都实现了三个完全连接的层。参与者和目标参与者的最后一个完全连接的层后面跟着一个Sigmoid函数,以保持动作的值在0和1之间。行动上 代理定义了两种类型的操作:继续或结束。前一个动作指示代理需要来自图库视频的多一个帧以区分不同的行人。 后者表示立即终止当前情节,这意味着智能体已经从有限的帧中积累了足够的时间互补信息来做出身份识别的判断,避免了不必要的计算。具体地说,当动作a的值为<0时。五、代理需要探索下一帧,并且当值的行动A0。第五,当前的事件应该终止。 此外,当代理人来到最后一帧时,另一种情况。3.4. 模型优化三重丢失和识别丢失[36,42]广泛用于人员重新识别任务采用基于硬挖掘策略的逐帧三元组丢失和基于标签平滑正则化的逐帧识别丢失训练序列特征提取模块,优化特征向量vr和vrT′(T′是序列判断代理选择的图库视频最后一帧的索引)。三重态损失和识别损失分别表示为三重态和三重态。SFE的总损失计算如下:Lsfe=L tri+L ide(7)为了优化代理的演员和评论家,我们先随机抽取一批数据=(st,at,rt,st+1,dt)(其中dt指示当前剧集是否是终端),然后如下计算目标长期奖励Rt[16]:Rt=rt+γ ( 1−dt ) Ctarget ( st+1 , Atarget(st+1))(8)其中target是目标评论家,target是目标参与者,γ[0,1]是折扣因子。 代理的评论家网络以均方误差(MSE)损失进行优化画廊视频,它是被迫终止.奖励 奖励反映了行动的价值,Lcrt=E(st,at,rt,st+1,dt)D[(C(st,at)−Rt)2](9)由代理人对国家的责任。我们将时间步t处的奖励定义如下:如果刺激,则为0通过执行梯度下降来优化代理的演员,以解决:Lact= −E[C(st,A(st))](10)rt=−r0,如果惩罚(6)βstD通过对critic和actor执行指数移动平均策略来更新目标critic和actor在每个时间步长t,我们对特征向量vr和vr的通道维度,以及4. 实验将相似性得分度量为zt=vrvrT。如果actor需要下一帧来辅助行人识别(at<0. 5),我们根据帧索引t计算奖励(rt=Tanh(1t)r0),当t开始时很小时,它鼓励agent收集更多的时间互补信息以增强特征表示,而当t很大时,它惩罚agent探索过多的帧以确保高效率。记录当前帧t和查询图像之间的相似性分数在缓冲区Z中。此外,如果演员终止当前集(a t≥0.5)在两种情况下对智能体(rt=r0)进行激励:1)如果zt> max(Z)且查询图像与图库视频具有相同的标识符;2)如果
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功