基于时空联合递归神经网络的视频人物再识别

196 浏览量更新于2023-10-15 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

43214747见树见林：基于时空联合递归神经网络的视频人物再识别周震1，3黄燕1，3王伟1，3王良1，2，3谭铁牛1，2，31智能感知与计算研究中心（CRIPAC），国家模式识别实验室2中国科学院自动化研究所脑科学与智能技术卓越中心（CEBSIT）3中国科学院大学（UCAS）{zzhou，yhuang，wangwei，wangliang，tnt}@ nlpr.ia.ac.cn摘要监控摄像机已被广泛应用于非现场监控.因此，迫切需要在不同相机下识别人，这被称为人重新识别。近年来，计算机视觉领域对这一问题的研究越来越多.然而，与基于图像的方法相比，基于视频的方法受到的关注较少。传统方法通常包括两个步骤，即特征学习和度量学习.但现有的方法大多只关注特征学习或度量学习。同时，许多研究没有充分利用时空信息.在本文中，我们专注于基于视频的人的重新识别，并建立一个端到端的深度神经网络架构，共同学习的功能和metrics。该方法通过时间注意模型自动地从给定视频中挑选出最具鉴别力的帧。此外，它集成了周围的信息，在每个位置的空间递归模型时，测量与另一个行人视频的相似性。也就是说，我们的方法以统一的方式同时处理空间和时间信息。在三个公共数据集上精心设计的实验显示了所提出的深度网络的每个组件的有效性，与最先进的方法相比表现更好1. 介绍人的再识别研究的目的是开发方法，匹配行人图像/视频下两个非重叠的摄像机。由于其在公共场所安全、刑事犯罪等方面的广泛应用前景，计算机视觉领域的图1：顶部试图解释图像序列中的不同帧在这种情况下，我们要识别一个穿裙子的女孩因此，而“坏”的则用红叉标记，不太重要的则用灰色问题标记。底部是为了说明当匹配两个图像序列时，我们需要考虑每个位置周围的周围像素这篇论文中的数字最好用彩色来看。调查更重要的是，深度神经网络已被证明对人员重新识别有效，并且比传统方法取得了更好的性能[1，6，9，12，13，18，25，36，38]。通常，人的重新识别方法可以分为两类，即，基于单一静态图像的方法和基于视频的方法。现有的大部分作品属于前一类[7，21，28，32，33，34]，而只有少数属于后者。实际上，基于视频的人重新识别更接近实际应用，因为我们不需要手动挑选出所需的im。43214748视频中的年龄，用于与另一个视频中的图像进行比较。此外，视频包含比单个图像更丰富的信息[19，20]，这有利于在复杂条件下识别人，包括遮挡以及照明和视角的变化。因此，在本文中，我们将重点放在基于视频的个人重新识别。人物再识别方法一般涉及两个关键步骤，即特征学习和度量学习。特征学习的目的是设计算法来生成区分特征。如果两个行人视频的特征之间的距离/相似度在图库集合中最小/最高，则匹配两个行人视频。而度量学习则是指制定度量标准，通过该度量标准，同一行人的两个匹配视频之间的相似度高于不同行人的视频之间的相似度。大多数先前的基于视频的人员重新识别的工作[22，29，37]独立地关注特征学习或度量学习。最近的趋势是设计一个深度神经网络，比如卷积神经网络（CNN）[17]或递归神经网络（RNN）[26]，以学习特征[23，39]或度量[31]。在本文中，为了利用特征学习和度量学习的优点，我们构建了一个端到端的深度神经网络架构来同步学习它们。如图1顶部所示，在给定的图像序列中，我们观察到并非所有图像都是信息性的。如果遮挡较重，则以前的方法甚至可能混淆。在这种情况下，自然期望的人重新识别方法可以集中在呈现相对清晰的前景的那些“好”图像上。因此，在本文中，我们通过时间注意力模型（TAM）实现了这一想法，该模型利用时间递归神经网络[35]为图像序列中的不同帧分配可变权重这使得所提出的方法能够选择性地关注更相关的图像，从而进一步提高特征学习的性能。在比较两个图像序列之间的相似性时，通常的方法是计算它们的特征表示之间的距离，忽略了序列中的空间差异。如图1底部所示，本文中一对图像序列中两个对应位置之间的相似性是周围信息的综合。因此，所提出的方法能够执行更好的度量。我们通过空间递归模型（SRM）实现这一目标，它沿着预定义的方向扫描图像序列。选项。我们总结了这项工作的贡献在三个方面如下。1. 利用时间注意力模型（TAM），我们可以衡量行人视频中每一帧的重要性，这对于选择更多的信息框架，从而改善特征学习。2. 空间递归模型（SRM）有利于探索上下文信息，已被实验证明是有效的度量学习。3. 特征学习和度量学习与上述TAM和SRM一起被纳入端到端深度架构中，这比最先进的方法实现了本文的其余部分组织如下。在第2节中，我们将回顾相关工作。第3节将首先介绍所提出的方法的总体架构，然后更详细地解释每个重要组件三个公共数据集的实验结果将在第4节中给出。最后在第五部分对本文进行了总结.2. 相关工作在本节中，我们首先回顾了个人重新识别的一些相关工作，特别是基于视频的方法和基于深度神经网络的方法。然后介绍了空间RNN和时间RNN的相关工作。2.1. 人员重新识别方法Wang等人[29]目的在于选择有区别的视频片段。它们首先选择具有最大或最小流动能量的帧，这是由光学流场计算的。这些所选帧与它们的上下文帧一起包括所谓的视频片段。选择HOG3D [16]作为每个视频片段的特征提取方法两个视频之间的相似度是它们的视频片段之间的最高相似度。Liu等[22]尝试提取特征，对行人的空间和时间对齐外观进行编码。该方法首先利用调节后的流能量分布检测出步行周期，然后将整个视频分割成多个片段。在空间配准方面，用六个矩形来描述人体的不同部位。McLaughlin等人[23]构建CNN来提取每帧的特征，然后应用RNN来利用时间信息。采用时间池化层来总结每个时间步的输出特征作为最终表示。输入是一对图像序列及其对应的光流。除了匹配损失之外，每个流还具有个体身份损失。Wu等[31]提出了类似的网络架构。给定一对行人视频，它们联合训练卷积网络和递归层，以学习时空特征和相应的相似性。Wang等人[28]评估用于基于图像的人重新识别的两种不同策略，即，单图像和跨图像表示。前者通过身份分类任务学习，后者通过43214749t=1图2：建议的网络架构。绿色框是为特征学习过程设计的，蓝色框是为度量学习设计的。所有卷积层的权重为两个进程共享。匹配任务他们将这两种策略混合在一起，同时学习功能和指标，并获得比任何单独策略更好的结果。本文提出的方法避免了通过手工制作的特征来评估帧[29]。它通过时间RNN学习每帧的权重基于这些学习的权重，时间RNN的每个时间步长的输入是图像序列的加权平均。这可以被认为是一个隐含的时间对齐[22]。如图2所示，我们的模型建立在[23，28]的基础上。它接受三个图像序列作为输入。在通过CNN提取特征之后，我们应用时间RNN来改进特征学习。同时，空间RNN被用来学习一个好的度量。因此，该方法联合执行特征学习和度量学习，并同时集成时间和空间信息。2.2. 空间RNN和时间RNN除了那些利用RNN进行基于视频的人员重新识别[23，31]之外，还有一些其他的方法-在基于图像的方法中使用RNNLiu等[21]应用注意力模型来学习IM中每个像素的权重。如图1顶部所示，姿势方法选择性地关注真正相关的帧。有几项工作在特征图上空间地运行RNNByeon等人[5]提出了一种RNN，它可以在图像的两个方向上水平和垂直扫描。Visin等人[27]采用类似的机制来考虑用于语义分割的周围信息。Bell等[3]利用空间RNN来计算用于对象检测的上下文特征。在本文中，为了度量两个图像序列之间的相似性，我们采用空间RNN来整合同一帧内每个位置周围的相似性和上下文帧的相似性。3. 该方法在本节中，我们首先介绍所提出的方法的总体架构，然后更详细地解释其每个3.1. 整体架构假设每个图像序列被表示为x=年龄Haque等人[2]使用深度的注意力模型-{xt|xt∈RD}T. T是图像序列ta，它学习定位特定区域。在本页中-因此，我们使用与[35]中类似的注意力机制，试图用适当的词语描述视频亲-D是图像的维数。如图2所示，所提出的方法接受图像序列的三元组作为输入。在每个流中，我们首先使用CNN来提取43214750i=1t=1t=1图3：时间注意力模型的结构。输入是图像序列x的fc 7层的T个特征图。N是批量。在注意力子网之后，获得 T个特征的加权平均值 x<$t。然后x′t被送入RNN，RNN在每个时间步输出特征ot。x的最终表示是{ot}T的时间平均池化。图4：学习图像序列中每个图像的相关性的子网，由ωt={ω t，i}T. 绿线表示它们已完全连接。黑色的代表元素和或内积。灰线表示softmax操作。计算出ij1ij每个图像x的特征i.我们为CNN选择CaffeNet1它类似于AlexNet [17]，除了标准化S（x，x）=1 +F （）+λM（x，x），（2）F（xi）， F（xj）层和池化层交换位置。它有五个卷积层（conv1和conv5）和两个全连接层（fc6和fc7）。我们将CNN表示为f（x），将fc 7层的特征映射表示为f（x）fc7。然后，时间注意力模型开始发挥作用，以探索时间特征，它包括一个子网来学习每个帧的相关性和一个RNN来学习特征表示。RNN可以表示为：g（f（x）fc7）：RT×D1<$→RD2，（1）其中D1和D2分别是fc7层的维度和RNN的输出时间RNN的输出由F（x）表示。对于特征学习，采用三元组损失[24]来拉相似对并推不同的对。其中F（·，·）是一个距离测度，也就是本文中的归一化λ是以下两者之间的权衡：特征学习和度量学习，其在实验中根据经验设置为1。3.2. 用于特征学习的时间注意模型为了选择性地聚焦于最相关的图像，应用注意力机制来探索给定图像序列的时间TAM的整个过程如图3所示。它由两部分组成，即，注意力单元和RNN单元。在每个时间步长t处，注意单元接受{f（x t）fc7}T作为输入并生成这些特征的加权平均，即，∑T同时，给定一对图像序列xi和xj，我们开发了一个新的流，通过计算f（xi）池5之间的元素差异来单独学习度量x<$t=i=1ωt，if（xi）fc7、（3）和f（x，j）池5。然后，特征图将被馈送到空间递归模型，包含六个RNN。每个RNN将沿着特定方向扫描特征图。输出被进一步处理以生成图像序列对是同一个人还是不同的人的最终概率，其被表示为M（xi，xj）。在这一部分中，人的再识别问题被看作是一个二元分类问题。在测试过程中，xi和xj之间的最终相似度可以1http://caffe.berkeleyvision.org/modelzoo.html其中{ω t，i}由图4所示的子网学习。ht−1是RNN在时间步t−1的隐藏状态。Uf（x）fc7、V h t−1和Wz t−1由完全连续的∑d层获得。 softmax运算用于保证iω t，i=1。然后，x<$t被馈送到RNN，其中Long Short-T内存（LSTM）网络[26]被采用。LSTM网络能够在长距离序列中总结有用的信息图像序列的最终表示是其每次输出的时间平均池化[23]。43214751图5：度量学习的空间递归模型的完整过程。有六个空间RNN，由不同的颜色呈现。为了更好地说明，将忽略整形操作。更多的细节可以在上下文中找到。图6：空间RNN如何工作的演示。有六个方向，用不同的颜色表示。每个体积表示特征图中的位置。3.3. 度量学习的空间递归模型在本文中，SRM被设计用于处理视频和度量学习，其中包含六个空间RNN。如图5所示，给定一对输入，f（xi）pool5和f（x，j）池5通过逐元素减混合在一起由此产生的特征图可以被视为初始的dis-map。相似性图，然后是一个卷积层，核大小为1×1。特征图的六个副本分别被馈送每个空间RNN沿着特定方向扫描特征图，如图所示图，即，向前和向后，从左到右和相反，从下到上和相反。然后，将每个空间RNN的输出堆叠在一起。另一个内核大小为1×1的卷积层随后对上下文特征进行求和完全连接的层是放置在末端以捕获上下文特征内的高阶空间关系。图7：通过卷积六个空间RNN的堆叠输出，核大小为1×1，我们获得了每个位置的积分差。图6展示了每个空间RNN的工作原理。每个方向都由特定的颜色呈现。左边是空间RNN的输入特征图。黄色的数字代表沿每个方向的顺序。中间的部分显示了RNN的过程。它接受给定顺序的输入，并以相同的顺序生成输出。右边表示这些输出被放置为与特征图中的输入相同这里选择LSTM网络作为RNN然后，六个空间RNN的输出在具有1×1内核的卷积层之前堆叠在一起，产生所谓的上下文特征。我们进一步解释这个卷积的意义。如图7所示，堆叠特征图中的每个位置代表沿特定方向的积分差因此，卷积层的特征图中的每个在建议的SRM的帮助下，学习的度量将不太敏感43214752数据集iLIDS-VIDPRID2011火星#身份3002001,261#跟踪程序60040021K包装盒数量44K40K1M#distractor003K摄像机数量226#分辨率64× 12864× 128128× 256#检测手手算法#评估CMCCMCCMC mAP表1：我们实验中使用的三个数据集的基本信息。照明变化和遮挡。4. 实验我们在三个公共视频数据集上评估了我们提出的方法。第一部分是验证所提出的方法及其组成部分的有效性。然后我们将我们的方法与最先进的方法进行比较。实验结果表明，该方法可以提高特征学习和度量学习的性能，并优于以往的方法。4.1. 数据集表1列出了三个数据集的基本信息，图8显示了部分样本。iLIDS-VID数据集[29]包括300个受试者的600个图像序列。每个图像序列具有范围从23到192帧的可变长度，平均数量为73。由于人们之间的服装相似性和随机遮挡，该数据集具有挑战性。PRID 2011数据集[11]由摄像机A中的385个身份和摄像机B中的749个身份组成。200个身份出现在两个相机中，构成400个图像序列。每个图像序列的长度从5到675不等。接下来[39]，选择具有超过21个帧的序列，导致178个身份。运动分析和重新识别集（MARS）[39]是一个新发布的基于视频的人员重新识别数据集。有1，261名行人被至少2个摄像头捕获。边界框是由一个边界检测器[10]和一个GMM-CP跟踪器[8]生成的。在20，715个小轨迹中，由于错误检测或跟踪而产生3，248个干扰项小轨迹。4.2. 实现细节我们选择caffe[14]进行实验。CNN采用CaffeNet，RNN采用LSTM。图像序列的长度在实验上被设置为6。图像序列是随机选择的track-let。尺寸图8：实验中使用的三个数据集的样本。第一行显示来自MARS 的图像。以下两行是从iLIDS-VID和PRID2011中采样的，重新命名。FC 6层和FC 7层的值被设置为1，024。我们对 iLIDS-VID 和 PRID 2011 遵循相同的协议[29]，即在十个训练/测试分区上评估两个数据集每个分区将数据集分成两个等效部分，一个用于训练，另一个用于测试。同样的实验装置[39]被用于MARS，即，625名受试者用于培训，其他受试者用于测试。在图库集中共有1,980个预定义的track-let。训练集和测试集中的行人是三个数据集不重叠首先将图像大小调整为227×227以调整CaffeNet。我们还实现了用于数据增强的镜像。为了加速收敛，采用了硬否定挖掘[24]。测试一个人的重新识别系统是一个排名问题。给定相机A中的查询，我们需要计算查询与另一相机B中的图库集合中的每个候选项之间的相似性。期望的是，相机B中的同一行人的候选将排在顶部。为了评价性能，执行累积匹配特征（CMC）[4]曲线和平均精密度（mAP）[40]。CMC曲线表示在前n个等级内找到的真实匹配的期望。当存在多个基本事实时，mAP考虑召回。在我们的情况下，CMC和mAP对于iLIDS-VID和PRID 2011是等同的，因为它们在图库集中只包含一个地面实况，而在MARS中存在多个地面实况。因此，将报告MARS 的 mAP 和 CMC ，并评价 iLIDS-VID和PRID 2011的CMC。4.3. 每个组件表2总结了基线方法在MARS数据集上的定量性能。“CNN”是指使用CNN来提取每帧的特征，并通过欧氏距离来度量相似性。图像序列的表示是通过使用平均43214753数据集火星Rank@RR = 1R = 5R = 20地图CNN58.576.385.940.3CNN+RNN60.379.287.042.0CNN+TAM62.780.690.543.4CNN+DIFF63.081.191.544.8CNN+SRM64.284.494.346.2所有70.690.097.650.7表2：MARS数据集上基线方法的性能。时间池化“CNN+RNN”意味着不是使用时间池，而是应用RNN来进一步处理特征并生成图像序列的表示。“CNN+TAM”是在“CNN+RNN”的基础上，利用时间注意模型提出的。“CNN+DIFF”是在CNN之后直接使用SRM内的全连接层而不是空间RNN。“CNN+SRM” is“ALL” is the proposed full architecture as pictured in Fig-ure 图9显示了这些基线方法在MARS数据集上的CMC曲线。从上述实验结果不难得出以下结论.1. 通过比较 “CNN” 、 “CNN+RNN” 和 “CN-N+TAM”，我们可以得出结论，递归注意力模型有效，即，它可以帮助挑选出相关的帧。2. “CNN+SRM” performs better than “CNN+DIFF”,which tells that the spatial recurrent model helps tolearn better3. “ALL” performs the best, which indicates that jointfeature learning and metric learning is better than per-forming them图10提供了四个检索示例。第一行中的查询在图像序列期间被严重遮挡。与匹配的候选者相比，第二查询的图像序列第三和第四查询图像序列包含多个明显的行人。我们的方法在前三个例子中成功地找到了正确的匹配候选者，这表明了所提出的方法对于遮挡和光照变化的鲁棒性最后一个查询无法在另一个摄像机中检索到相同其原因可能是查询在整个图像序列中包含两个等价的身份我们的模型无法区分它是我们要识别的男孩还是女孩。事实上，我们的方法已经在第一，第六和第十七名候选人中找到图9：MARS数据集上基线方法的CMC曲线。4.4. 与现有技术方法的表3总结了我们的方法与最先进方法的比较。iLIDS-VID和PRID 2011上的结果是通过对MARS上的预训练模型进行微调获得的Wang等人[29]和Wanget al.[30]提出了所谓的流能量来测量每个帧的重要性并相应地选择视频片段。Li- u等. [22]考虑时间对准并为每个视频构建时空表示。Karanam等人[15]建议学习一个字典，该字典试图有区别地编码You等人[37]尝试减小附近正样本的类内差异并推开n个最近的负样本。Mclaughlin等[23]和Wuet al. [31]采用类似的深度神经网络架构，即，CNN后接RNN Zheng等[39]使用ID-判别嵌入来直接训练分类模型。我们在MARS和PRID 2011上都取得了最好的性能，在iLIDS-VID上也取得了相当的结果。后者的原因可能是Mclaughlinet al. [23]使用彩色图像和相应的opti- cal流，而我们只使用彩色图像。在未来，我们将尝试将多个特征组合为输入。5. 结论在本文中，我们提出了一个端到端的深度神经网络架构，它集成了一个时间注意力模型来选择性地关注有区别的帧，以及一个空间递归模型来在测量相似性时利用上下文信息。我们精心设计的实验来证明所提出的方法的每个组成部分的有效性与现有的时间注意模型相比，本文提出的时间注意模型具有更好的性能，43214754图10：在MARS测试集中所提出方法的检索结果第一列中的图像序列表示查询。第二列包含图库中的候选项，其中单个图像代表视觉上令人愉悦的图像序列。带有绿色框的候选者表示他们属于与查询相同的行人。而红框表示错误匹配的图像序列。带有蓝色框的图像意味着它们是干扰物，这会对准确性产生负面影响。数据集iLIDS-VIDPRID2011火星Rank@RR = 1R = 5R = 20R = 1R = 5R = 20R = 1R = 5R = 20地图Wang等人[29日]34.556.777.537.663.989.4----Liu等[22日]44.371.791.764.187.392.0----Karanam等人[第十五条]25.948.268.940.669.785.6----Wang等人[30个]41.363.583.148.374.994.4----You等人[37]第三十七届56.387.698.356.780.093.6----Mclaughlin等[23日]588496709097----Wu等[三十一]46.176.895.669.088.496.4----Zheng等[39]第三十九届53.081.495.177.393.599.368.382.689.449.3我们55.286.597.079.494.499.370.690.097.650.7表3：与现有技术方法的比较。最高值以黑体显示。第一部分的文献使用传统方法，而第二部分包含基于深度神经网络的方法。空间递归模型对于特征学习是有用的，并且空间递归模型对于度量学习是有益的。近年来，人们在提高人员再识别的性能方面做了大量的努力。但离实际应用还很远。目前的问题包括严重的遮挡、严重的照明变化、人体的非刚性变形、不同人的衣服具有相似的颜色或纹理此外，现在是时候强调个人重新识别研究的最大限制是缺乏非常大规模的数据集，其中存在许多实际问题，特别是当深度神经网络变得越来越多受欢迎. 因此，我们今后的工作是收集尽可能多的数据，覆盖尽可能广泛的场景。确认本课题得到了国家重点研究发展计划（ 2016YFB1001000 ）、国家自然科学基金（61525306、61633021、61572504、61420106015）、中国科学院战略重点研究计划（2016YFB1001000）的资助（ XDB 02070100 ）和北京市自然科学基金（4162058）。这项工作还得到了NVIDIA和NVIDIADGX- 1 AI超级计算机的资助。43214755引用[1] E.艾哈迈德，M。Jones和T. K.标记.一种用于人员重新识别的改进的深度学习架构在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第3908-3916页[2] L. F.- F.阿尔伯特·哈克亚历山大·阿拉希用于个人识别的递归注意力模型。在IEEE计算机视觉和模式识别会议集，2016年。[3] S.贝尔角L. Zitnick，K. Bala和R.娘娘腔。内外网：使用跳跃池和递归神经网络检测上下文中的对象。arXiv预印本arX-iv：1512.04143，2015年。[4]R. M. Bolle，J. H. Connell，S. Pankanti，N. K. Ratha，以及A. W. 前辈ROC曲线与cm-C. 在第四届IEEE自动识别先进技术研讨会（AutoIDIEEE，2005年。[5] W. Byeon，T. M. Breuel，F. Raue和M.利维基基于lstm递归神经网络的场景标注。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第3547-3555页[6] S.- Z.陈春C. Guo和J. - H. Lai.通过联合表示学习进行个人重新识别的深度排名。IEEE Transactions on ImageProcessing，25（5）：2353[7] D. 郑，Y.贡，S.Zhou，J.Wang和N.郑基于改进三重损失函数的多通道部件cnn的人员再识别。在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，第1335[8] A. 德汉，S.Modiri Assari和M.Shah. GMMCP跟踪器：多目标跟踪的在IEEE计算机视觉和模式识别会议论文集，第4091-4099页[9] S.丁湖，澳-地 Lin，G. Wang和H. 赵深度特征学习与相对距离比较，用于人员重新识别。 PatternRecognition，48（10）：2993[10] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEE Transactions on Pattern Analysis and MachineIntelligence，32（9）：1627[11] M.希尔策角，澳-地别列兹奈山口M. Roth和H.比肖夫通过描述性和判别性分类进行人员再识别斯堪的纳维亚图像分析会议（SCIA），2011年。[12] J. Hu，J. Lu和Y.- P. Tan。深度迁移度量学习。在IEEE计算机视觉和模式识别会议论文集，第325-333页[13] Y.黄，W. Wang和L.王.用于多帧超分辨率的双向递归卷积网络。神经信息处理系统的进展，第235-243页，2015年[14] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。 arXiv 预印本 arX-iv ：1408.5093，2014年。[15] S. Karanam，Y. Li和R.拉德克用有区别地训练的视点不变字典进行人员在IEEE计算机视觉国际会议论文集，第4516-4524页[16] A. Klaser，M. Marszaek和C.施密特一种基于三维梯度的时空描述子。在BMVC 2008-第19届英国机器视觉会议上，第275-1页。英国机器视觉协会，2008年。[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097[18] W. 利河，巴西-地Zhao，T.萧，还有X。王. Deepreid：深度过滤配对神经网络，用于人员重新识别。在IEEE计算机视觉和模式识别会议的Proceedings，第152-159页[19] Y. Li，长穗条锈菌A. Fathi和J. M.瑞格学习预测自我中心视频中的注视。在IEEE计算机视觉国际会议论文集，第3216-3223页[20] Y. Li，Z.Ye和J.M. 瑞格深入研究自我中心的行为。在IEEE计算机视觉和模式识别会议论文集，第287-295页[21] H. Liu，J. Feng，M. Qi，J. Jiang，and S.燕.端到端的比较注意力网络，用于人员重新识别。在IEEE计算机视觉和模式识别会议论文集，2016。[22] K.刘湾，澳-地马，W。Zhang和R.煌一种用于基于视频的行人再识别的时空外观表示。在Proceedings of theIEEE International Conference on Computer Vision ，第3810-3818页[23] N. McLaughlin，J. Martinez del Rincon，和P.米勒用于基于视频的人物再识别的回流卷积网络。在IEEE计算机视觉和模式识别会议论文集，2016。[24] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入。在IEEE计算机视觉和模式识别会议的Proceedings，第815-823页[25] E. Ustinova，Y. Ganin和V. Lempitsky 多区域双线性卷积神经网络用于人员再识别。arXiv预印本arXiv：1512.05300，2015年。[26] O. Vinyals，A. Toshev，S. Bengio和D.二汉Show andtell：A neural image caption generator.在2015年IEEE计算机视觉和模式识别会议论文集，第3156-3164页中[27] F. Visin ， K. Kastner ， K. 周， M 。 Matteucci ， A.Courville和Y.本吉奥。Renet：一种基于递归神经网络的卷积网络替代方案。 arXiv 预印本 arX-iv ：1505.00393，2015年。[28] F. Wang，W.左湖，加-地Lin，L. Zhang和L.张某联合学习的单图像和跨图像表示的人重新识别。在IEEE计算机视觉和模式识别会议论文集，2016年。[29] T. Wang，S.龚，X. zhu和S.王.通过视频排名重新识别人物。欧洲计算机视觉会议，第688-703页。Springer，2014.43214756[30] T. Wang，S.龚，X. zhu和S.王.视频排序中基于区分选择的人物再识别。IEEE Transactions on Pattern Analysisand Machine Intelligence，2016。[31] L.吴角，加-地Shen和A. v. d.亨格尔用于基于视频的人员重新识别的深度递归卷积网络：端到端的方法。arXiv预印本arXiv：1606.01609，2016。[32] L.吴角，加-地Shen和A. v. d.亨格尔Personnet：使用深度卷积神经网络进行人员重新识别。arX-iv预印本arXiv：1601.07255，2016年。[33] T. Xiao，H.Li，W.欧阳和X.王. 学习深度特征表示，具有域引导的丢弃，用于人员重新识别。在IEEE计算机视觉和模式识别集，2016。[34] T. Xiao，S.李湾，澳-地王湖，加-地Lin和X.王. 用于人员搜索的端到端深度学习。 arXiv 预印本 arX-iv ：1604.01850，2016年。[35] L. Yao，中国山核桃A.托拉比湾周，N.巴拉斯角帕尔，H. Larochelle，和A.考维尔利用时间结构描述视频。在Proceedings of the IEEE International Conference onComputer Vision，第4507-4515页[36] D. Yi、 Z. Lei ，S. Liao ， S. Z. Li 等人，Deep MetricLearning for Person Re-Identification 。在 InternationalConference on Pattern Recognition，第2014卷，第34-39页[37] J.你，A. Wu，X. Li和W.- S.郑基于顶推视频的人物再识别。在IEEE计算机视觉和模式识别会议论文集，2016。[38] R.张丽林河，巴西-地Zhang，W. zuo和L.张某比特可扩展深度哈希与正则化相似性学习，用于图像检索和人员重新识别。IEEE Transactions on Image Processing，24（12）：4766[39] L. Zheng，Z. Bie，Y. Sun，J. Wang，C. Su，S. Wang和Q.田Mars：用于大规模人员重新识别的视频基准。在欧洲计算机视觉会议上，第868-884页。施普林格，2016年。[40] L.郑湖，澳-地申湖，澳-地Tian，S. Wang，J. Wang，and Q. 田可扩展的人员重新识别：一个基准。在Proceedings of the IEEE International Conference onComputer Vision，第1116-1124页

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于时空联合递归神经网络的视频人物再识别

基于时空图卷积网络的视频人物再识别

基于共分割的注意力网络的视频人物再识别

基于视频的人物再识别金字塔时空聚合

基于时态知识传播的图像到视频人物再识别

递归神经网络python

ltsm是基于循环神经网络还是递归神经网络

递归神经网络就是循环神经网络嘛

递归神经网络的发展史

前馈神经网络与递归神经网络有什么区别

递归神经网络和前馈神经网络

递归神经网络使用场景

递归神经网络和循环神经网络

循环神经网络与递归神经网络区别

循环神经网络和递归神经网络

递归神经网络对比lstm

求解一个线性规划的递归神经网络模型

递归神经网络和零化神经网络有什么区别？

局部反馈递归神经网络

递归神经网络和图神经网络

最新资源