联合判别和生成学习的身份再识别

104 浏览量更新于2023-10-18 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1联合判别和生成学习的身份再识别郑哲东1，2杨晓东1余志定1郑良3 杨毅2杨扬11NVIDIA2 CAI，悉尼科技大学3澳大利亚国立大学摘要由于不同摄像机之间的显著类内变化，人员重新识别（re-id）仍然具有挑战性最近，人们越来越关注使用生成模型来增加训练数据并增强对输入变化的不变性。然而，现有方法中的生成流水线与判别性re-id学习阶段保持相对分离。因此，re-id模型通常以直接的方式在所生成的数据上训练在本文中，我们试图通过更好地利用生成的数据来改进学习的re-id嵌入。为此，我们提出了一个联合学习框架，耦合重新识别学习和数据生成端到端。我们的模型包括一个生成模块，它分别将每个人编码为外观代码和结构代码，以及一个判别模块，它与生成模块共享外观编码器通过切换外观或结构码，生成模块能够生成高质量的交叉ID合成图像，这些图像在线反馈到外观编码器并用于改进鉴别模块。所提出的联合学习框架在不使用生成数据的情况下对基线进行了显著改进，从而在几个基准数据集上实现了最1. 介绍人员重新识别（re-id）旨在跨不同相机建立身份对应。它通常被视为度量学习问题[52]，其中人们试图从给定查询图像的非重叠相机中检索包含感兴趣的人的图像。这在以下意义上是具有挑战性的：由不同相机捕获的图像通常包含由背景、视点、人类姿势等的变化引起的显著的类内变化。因此，设计或学习尽可能对类内变化具有鲁棒性的表示一直是人识别的主要目标之一。*在NVIDIA Research实习期间完成的工作图1：通过切换外观或结构代码在Market-1501上生成的图像示例。每一行和每一列对应不同的外观和结构。卷积神经网络（CNN）最近已经成为人们re-id的主要选择，这要归功于它们强大的表示能力和学习不变深度嵌入的能力。当前最先进的re-id方法广泛地将任务制定为深度度量学习问题[12，53]，或者使用分类损失作为代理目标来学习深度嵌入[22，38，40，47，52，55]。为了进一步减少类内变化的影响，许多现有方法采用基于部分的匹配或集成来显式对齐和补偿变化[34，36，45，50，55]。21382139知觉空间结构空间衣服/鞋子的颜色，质地和风格、其他与身份相关的线索等。体型，头发，携带姿势、背景、位置、视点等。表1：在潜在外观和结构空间中编码的信息的描述。增强对输入变化的鲁棒性的另一种可能性是让re-id模型在训练期间潜在地“看到”这些变化（特别是类内变化）。随着生成对抗网络（GAN）[10]的最新进展，生成模型已成为免费引入额外增强数据的热门选择[54]。尽管形式不同，但这些方法背后的一般考虑是“现实主义”：生成的图像应具有良好的质量，以缩小合成场景与真实场景之间的领域差距;和“多样性”：生成的图像应包含足够的多样性，以充分覆盖看不见的变化。在此背景下，一些先前的工作已经探索了无条件GAN和人类姿势条件GAN [9，16，26，30，54]来生成行人图像以改进re-id学习。然而，这些方法背后的一个共同问题是，它们的生成流水线通常被呈现为独立模型，其与判别性re-id模型相对分离。因此，生成模块的优化目标可能无法与re-id任务很好地对齐，从而限制了来自生成数据的增益。鉴于上述观察，我们提出了一个学习框架，在一个名为DG-Net的统一网络中联合耦合了判别学习和生成学习。我们实现这一目标的策略是引入一个生成模块，其中编码器将每个pedes-trian图像分解为两个潜在空间：主要编码外观和其他身份相关语义的外观空间;以及包含几何形状和位置相关的结构信息以及其它附加变化的结构空间。我们将空间中的编码特征称为表1中总结了两个潜在空间捕获的属性。外观空间编码器还与判别模块共享，作为重新识别学习骨干。这种设计导致一个单一的统一框架，该框架包含生成模块和判别模块之间的这些交互：（1）生成模块产生合成图像，所述合成图像被拍摄以在线改进外观编码器;（2）编码器又以改进的表观编码影响生成模块;以及（3）在给定共享外观编码器的情况下，两个模块被联合优化。我们将图像生成公式化为在两个图像之间切换外观或结构代码。给定具有相同/不同标识的任何成对图像，能够通过操纵代码来生成逼真的和多样的内部/交叉ID合成图像。Market-1501 [51]上的合成图像生成示例如图1所示。我们的生成管道的设计不仅导致高保真生成，而且还产生了大量的多样性给定的组合成分的现有身份。与无条件GAN不同 [16，54]，我们的方法允许更可控的生成，质量更好。与姿势引导生成[9，26，30]不同，我们的方法不需要任何额外的辅助数据，而是利用现有的数据集内姿势变化以及姿势之外的其他变化。这种生成模块设计专门用于我们的判别模块，以更好地利用生成的数据。对于一幅行人图像，通过保持其外观编码，并结合不同的结构编码，可以生成多幅保持衣服和鞋子，但改变姿态、视点、背景等的图像。如图1的每一行所示，这些图像对应于不同人穿着的相同衣服。为了更好地捕捉这种组合交叉ID信息，我们通过动态软标记策略引入了或者，我们可以保留一个结构代码，并结合不同的外观代码，以产生各种图像，这些图像保持姿势，背景和一些与身份有关的细节，但改变衣服和鞋子。如图1的每一列所示，这些图像形成了一个有趣的模拟，同一个人穿着不同的衣服和鞋子。这为进一步挖掘与服装无关的微妙身份属性创造了机会，例如携带，头发，体型等。因此，我们提出了补充的“细粒度特征挖掘”来学习额外的微妙的身份属性。据我们所知，这项工作提供了第一个框架，能够在一个单一的统一网络中端到端地集成判别式和生成式学习，以进行人员重新识别。大量的定性和定量实验表明，我们的图像生成与现有的相比毫不逊色，更重要的是，我们的re-id准确性始终优于竞争算法的几个基准的大利润。2. 相关工作一个大家族的人re-id研究集中在metric学习损失。一些方法将识别损失与验证损失结合起来[46，53]，其他方法将三元组损失与硬样本挖掘结合起来[5，12，32]。最近的几项工作采用行人属性来加强监督并执行多任务学习[25，35，42]。替代方案是利用人体结构优先考虑的行人路线和部分匹配。一种常见的做法是水平分割输入图像或特征图，以利用局部空间线索[22，38，48]。以类似的2140图2：DG-Net的示意图。(a)我们的区别性re-id学习模块通过共享外观编码器Ea嵌入到生成模块中。黑色虚线表示输入到结构编码器Es的图像被转换为灰度。红线表示生成的图像在线反馈给Ea。在生成模块中强制执行两个目标：（b）通过相同输入身份的自我身份生成，以及（c）通过不同输入身份的交叉身份生成。(d)为了更好地利用生成的数据，re-id学习涉及主特征学习和细粒度特征挖掘。以这种方式，姿势估计被纳入学习局部特征[34，36，45，50，55]。除了姿势之外，在[18]中使用人类解析来增强空间匹配。相比之下，我们的DG-Net仅依赖于简单的识别损失进行重新学习，并且不需要额外的辅助信息，例如姿势或人类解析来生成图像。另一个活跃的研究方向是利用GAN来增加训练数据。在[54]中，Zheng et al.首先介绍了利用无条件遗传算法从随机向量生成图像。 Huang等人与WGAN一起继续这个方向[1]并将伪标签分配给生成的图像[16]。Li等人提出在GAN的re-id模型和判别器之间共享权重[24]。此外，最近的一些方法利用姿态估计来进行姿态调节图像生成。在[27]中基于姿势开发了两阶段生成流水线，以细化生成的图像。类似地，在[9，26，30]中也使用姿势来生成不同姿势的行人的图像，以使学习的特征对姿势变化更鲁棒Siarohin等人通过使用最近邻实现更好的姿态调节图像生成以取代传统的1991年或1992年损失[33]。所有方法都将图像生成和重新识别学习设置为两个独立的步骤，而我们的DG-Net端到端将这两个任务集成到一个统一的网络中。同时，最近的一些研究也利用合成数据的行人图像的风格转移，以补偿源和目标域之间的差异 Cy-cleGAN [58]在[8，57]中应用，将行人图像风格从一个数据集转移到另一个数据集。StarGAN [6]在[56]中用于生成具有不同相机风格的行人图像。Bak等人[3]采用游戏引擎来使用各种照明条件来渲染Wei等人[44]采用语义分割提取前景模板辅助风格转换。与全局风格转换相反，我们的目标是操纵外观和结构细节，以促进更强大的re-id学习。3. 方法如图2所示，DG-Net将用于图像生成的生成模块和用于重新学习的区分模块紧密耦合。我们引入两个图像映射：自我身份生成和交叉身份生成，以合成高质量的图像，这些图像被在线馈送到re-id学习中。我们的判别模块涉及主要特征学习和细粒度特征挖掘，它们与生成模块共同设计，以更好地利用生成的数据。2141i=1i=1JJ我LJJID侦察1ID3.1. 生成模块配方。我们将真实图像和身份标签表示为X={xi}N和Y={yi}N，其中N是图像的数量，yi ∈ [1，K]，K表示数据集中类或身份的数量。给出两个真实的图像在训练集中，我们的生成模块通过交换两个图像的外观或结构代码来生成新的行人图像如图2所示，生成模块由外观编码器组成E a： xi→ai，结构编码器E s：xi→s j，解码器G：（ai，s j）→ xi，以及用于区分生成图像和真实图像的解码器D。在i = j的情况下，生成器可以被看作是一个自动编码器，所以x i= x i。注意：对于生成的图像，我们使用上标表示真实图像提供外观代码和下标，交叉身份生成。与自我同一性生成主要是利用同一同一个同一性进行图像重构不同，交叉同一性生成主要是利用不同的同一性进行图像生成。在这种情况下，不存在像素级地面实况监督。相反，我们引入了基于外观和结构代码的潜在代码重构来控制这样的图像生成。如图所示在图2（c）中，给定具有不同标识yi/=yj的两个图像xi和xj，要求生成的图像xi=G（ai，sj）分别保留来自xi的外观码ai和来自xj的结构码sj的信息。我们应该能够在编码后重建这两个潜在代码调用生成的图像：L代码1=E[ai−Ea（G（ai，sj））<$]，（4）L代码2 = E[s j− E s（G（a i，s j））<$]。（五）表示提供结构代码的一个，而真实图像只有下标作为图像索引。与应用码ai相比，结构码sj保持了更高的空间分辨率，以保持几何和位置特性。然而，这可能导致G在图像生成中仅使用sj而忽略ai的平凡解决方案，因为解码器倾向于依赖于具有更多空间信息的特征在实践中，我们将Es的输入图像转换为灰度，侦察1类似于自我身份生成，我们还基于其外观代码对生成的图像强制识别损失，以保持身份一致性：c=E[−log（p（y i|x i））]，（6）其中p（y i|x i）是x i属于驱动G利用和s. 我们执行两个ob-jji j到xi的地面实况类yi，提供生成模块的主题：（1）自我认同的一般-（2）交叉身份生成，使生成的图像可控，并与真实数据分布相匹配。自我认同的产生。如图2（b）所示，给定图像xi，生成模块首先学习如何从自身重建xi这个简单的自我重建任务对整体一代我们用像素级的1损失：生成xi中的外观代码。此外，我们使用对抗性损失来匹配生成图像的分布与真实数据分布：Ladv= E[log D（x i）+log（1 − D（G（ai，s j））]。（七）讨论通过使用所提出的生成机制，我们使生成模块能够学习具有明确和互补含义的外观和结构代码，并基于img1重建 =E[x i− G（a i，s i）<$1]。（一）隐藏的代码这在很大程度上缓解了发电复杂性-基于同一个人在不同图像中的外观代码接近的假设，我们进一步提出了另一个相同身份的任意两幅图像之间的重建任务换句话说，生成器应该能够通过具有相同恒等式yi=yt的图像xt重建xi：是的相比之下，先前的方法[9，16，26，30，54]具有从随机噪声或仅管理姿态因子来学习图像生成此外，由于使用了隐码，我们生成的图像中的变体是可解释的，并被约束在真实图像的现有内容中，这也保证了生成的真实性。图像2Recon =E[x i− G（a t，s i）<$1]。（二）从理论上讲，我们可以生成O（N×N）不同的图像，这种相同身份但跨图像重建损失鼓励外观编码器将相同身份的外观代码拉在一起，使得类内特征变化减少。同时，为了迫使不同图像的外观代码保持分离，我们使用识别损失来区分不同的身份：Ls= E[−log（p（y i|（x i））]、（3）其中p（y i|xi）是基于其外观代码xi属于地面实况类yi的LL2142预测概率。对各种图像对进行采样，在线生成的训练样本池比那些O（2×N）在[16，30，54]中离线生成的图像3.2. 判别模块我们的判别模块嵌入在生成模块中，共享外观编码器作为重新识别学习的骨干。针对切换外观码或结构码生成的图像，提出了主特征学习和细粒度特征提取方法2143JJJJReconIDIDReconJReconReconReconReconReconID挖掘以更好地利用在线生成的图像。由于这两个任务侧重于生成图像的不同方面，因此我们在外观编码器上分支出两个轻量级头部，用于两种类型的特征学习，如图2（d）所示。主要特征学习。可以将生成的图像视为类似于现有工作的训练样本[16，30，54]。但跨本我组合图像的类间差异促使我们采用教师-学生类型的监督与动态软标签。我们使用教师模型来动态地将软标签分配给x i，这取决于其来自x i和x j的复合外观和结构。教师模型只是一个在原始训练集上进行识别损失训练的基线CNN 为了训练用于主要特征学习的判别模块，我们最小化判别模块预测的概率分布p（x i）与细节，因为我们的判别模块通过这种细粒度的特征挖掘来学习关注微妙的身份属性。讨论我们认为，我们的高质量的合成图像，在本质上，可以被视为通过以上两种方法，在实际的学习任务中，我们的判别模块根据我们如何操作外观和结构代码的方式，具体使用生成的数据。与几乎所有以前的方法[16，30，54]中使用单一监督不同，我们通过主要特征学习和细粒度特征挖掘从两个不同的角度处理生成的图像，其中前者关注结构不变的服装信息，后者关注外观不变的结构线索。ji3.3. 优化.由教师预测的概率分布q（xj）我们联合训练外观和结构编码器，L=E[−ΣKk=1q（k|x i）log（p（k|xi）q（k|xi））]、（8）解码器和解码器来优化总目标，其是以下损失的加权和：其中K是身份的数量相对于Ltotal（Ea，Es，G，D）=λimgLimg密码侦察固定的独热标签[30，59]或静态平滑标签[54]，这种动态软标签更适合我们的情况，因为每个同步s+λidLc+Ladv+λL+λfineLfine，（10）审美意象是由两种真实的其中Limg=Limg1+Limg2是图像重建图像.在实验中，我们发现一个简单的基线自我同一性生成缺失，L代码=L代码1+L代码2，CNN作为教师模型是可靠的，以提供动态标签，提高性能。细粒度特征挖掘。除了直接使用生成的数据来学习主要特征之外，通过我们特定的生成管道，还可以使用一种交互式替代方法来模拟服装的变化，同一个人，如图1的每一列所示。当对以这种方式组织的图像进行训练时，区分模块被迫学习与衣服无关的细粒度的id相关属性（例如头发、帽子、包、体型等）。我们把由一个结构码结合不同的出现码生成的图像看作是提供结构码的真实图像的一类。为了训练细粒度特征挖掘的判别模块，我们在这个特定的分类上强制识别损失：Lfinne=E[−lo g（p（yj|（xi））]。（九）这种丢失以多任务方式向辨别模块强加了额外的身份监督此外，与使用手动标记的行人属性的先前工作不同[25，35，42]，我们的方法通过利用合成图像来执行自动细粒度属性挖掘此外，与[12，32]中应用的硬采样策略相比，不需要显式搜索通常具有细粒度交叉身份生成中的潜在代码重构损失，tion、λimg、λid、λmax和λfine是控制相关损失项的重要性的权重。遵循图像到图像转换的常见做法[15，20，58]，我们使用大权重λimg= 5来表示图像重建损失。由于cross-id生成的图像质量在开始时并不是很大，识别损失Lc可能会使训练不稳定，因此我们设置了一个小的权重λid= 0。五、在所有实验中，我们在整个训练过程中固定这两个权重直到生成质量稳定，我们才涉及区分性特征学习损失L和Lfine。例如，我们在Market-1501上进行30 K次迭代后添加两个损失，然后在4K次迭代中将λfine从0线性增加到2，并设置λfine= 0。2λπ ι。有关如何确定权重的更多详细信息，请参见第4.3节。类似于GAN的替代更新策略，在如图2（a）所示的交叉身份生成中，我们在生成的图像之前交替地训练Ea、Es和G，在生成的图像之后交替地训练Ea、Es和D4. 实验我们在三个基准数据集上按照标准协议评估所提出的方法：Market-1501 [51]、DukeMTMC-reID [31]和MSMT 17 [44]。我们定性和定量地比较DG-Net与最先进的方法的生成和判别结果。L+L+2144图3：不同方法（包括LSGAN [28]，PG2-GAN [27]，FD-GAN [9]，PN-GAN [30]和我们的方法）在Market-1501上生成的图像和真实图像的比较放大时可最佳查看此图。请注意图片的前景和背景。图5：通过两个外观代码之间的线性插值生成图像的示例。图4：通过我们的完整模型生成的图像的比较，删除在线馈送（w/o feed），并进一步删除身份监督（w/oid）。大量的实验表明，DG-Net产生更真实和多样化的图像，同时，consistently优于最新的竞争算法的大幅度幅度在所有基准的re-id准确性。4.1. 实现细节我们的网络在PyTorch中实现。在下面，我们使用channel×height×width来表示特征图的大小。（i）E a基于在ImageNet [ 7 ]上预训练的ResNet 50 [ 11 ]，我们删除了它的全局平均池-ing层和全连接层然后附加自适应最大池化层以输出2048×4×1的外观代码a。它被映射到主要特征f和精细-粒度特征f细，两者都是512维向量，通过两个全连接层。（ii）Es是一个输出128×64×32结构码s的浅网络.它由四个卷积层和四个残差块组成[11]。（iii）G通过四个剩余块和四个卷积层处理s。如在[15]中，每个残差块包含两个自适应实例归一化层[14]，其在a中积分为尺度和偏置参数。（iv）D遵循流行的多尺度PatchGAN [17]。我们在三个不同的输入图像尺度上使用判别器：64× 32，128×64和256×128。我们还应用了梯度双关语-[29]当更新D以稳定训练时。（v）对于训练，所有输入图像的大小都调整为256×128。类似于之前的深度re-id模型[52]，SGD用于以学习率0训练E a。002和动量0。9 .第九条。我们应用Adam [19]来优化Es，G和D，并设置学习率至 00001 ，并且（ β1 ， β2 ） = （ 0 ， 0. 999 ）。（vi）在测试时，我们的re-id模型只涉及E a（以及两个轻量级头），这与使用ResNet 50作为主干的大多数方法的网络大小相当。我们将f_n和f_fine连接成一个1024维向量作为最终的pedes-trian表示。更多的建筑细节可以在补充材料中找到。4.2. 生成评价定性评价。我们首先定性比较DG-Net与它的两个变体，消除在线馈送和身份监督。如图4所示，如果没有将生成的图像在线馈送到外观编码器，模型会出现模糊的边缘和不需要的纹理。如果进一步去除身份监督，图像质量是不令人满意的，因为模型不能产生准确的服装颜色或风格。这清楚地表明，我们的联合判别学习是有益的图像生成。接下来，我们将我们的完整模型与其他生成方法进行比较，包括一个无条件GAN（LS- GAN [28]）和三个开源条件GAN（PG2- GAN [27]，PN-GAN [30]和FD-GAN [9]）。相比在图3中，LSGAN生成的图像具有严重的伪像和重复的图案。FD-GAN容易生成非常模糊的图像，这在很大程度上恶化了真实的图像。2145图6：通过交换三个数据集上的外观或结构代码生成的图像示例所有图像都是从测试集中采样的。表2：FID（越低越好）和SSIM（越高越好）的比较，以评估Market-1501上真实图像和生成图像的真实性和多样性。主义。都以姿态为条件的PG2-GAN和PN-GAN生成相对良好的视觉结果，但仍然包含可见的模糊和伪影，尤其是在背景中。相比之下，我们生成的图像更加真实，无论是前景还是背景都更接近真实。图7：图像生成中成功和失败案例的比较。在失败的情况下，原始图像的T恤上的徽标在合成图像中丢失。结构相似度（SSIM）[43]分别衡量生成图像的真实性和多样性。FID测量生成图像的分布与真实的接近程度它对视觉伪影敏感，因此表明生成图像的真实性。对于同一性条件下的生成，我们采用SSIM计算类内相似度，以反映生成的多样性。如表2所示，我们的方法显著优于为了更好地理解习得的外观空间，这是我们的行人表示的基础，我们在两个外观代码之间执行线性插值，并生成相应的图像，如图5所示。这些插值结果验证了外观空间的连续性，并表明我们的模型能够在空间中推广，而不是简单地记忆琐碎的视觉信息。作为补充研究，我们还生成- erate图像之间的线性插值两个结构代码，同时保持外观代码完整。有关本研究的更多讨论，请参见补充材料。然后，我们在图6中的三个基准测试中展示了我们的生成结果，其中发现DG-Net能够在不同的数据集上一致地生成逼真和多样化的定量评价。定量评价证实了我们的定性观察。我们使用两个指标：Fre'chetInceptionDistance（FID）[13]和其他方法的现实主义和多样性，这表明我们生成的图像质量高。值得注意的是，由于各种姿势，携带，背景等，我们获得了比原始训练集更高的SSIM。由交换结构代码引入。限制. 我们注意到，由于原始训练集中的数据偏差，我们的生成模块倾向于学习规则纹理（例如，条纹和点）但忽略一些罕见的图案（例如，衬衫上的徽标），如图7所示。4.3. 区别性评价消融研究。我们首先研究表3中的主要特征和细粒度特征的贡献。我们在每个原始训练集上训练ResNet50，识别损失作为基线。它还可以作为主特征学习中的教师模型，对生成的图像进行动态软标记。我们的主要功能被发现在很大程度上改善了基线。值得注意的是，方法现实主义（FID）多样性（SSIM）房7.220.350LSGAN [28]136.26-[27]第二十七话151.16-PN-GAN [30]54.230.335FD-GAN [9]257.000.247我们18.240.3602146方法Market-1501等级@1 mAPdukemtmc-Reid等级@1 mAPMSMT17等级@1 mAP基线89.674.582.065.368.836.2f素数94.084.485.672.776.049.7f精细91.675.378.761.271.543.5f，ffine94.886.086.674.877.252.3表3：基线、主要特征、细粒度特征及其组合在三个数据集上的比较。图8：分析与re-id学习相关的超参数α和β，以平衡训练（左）和测试（右）中的主要和细粒度不使用重要的外观信息而仅考虑微妙的ID相关线索的特征已经实现了令人印象深刻的准确性。通过结合这两个功能，我们可以进一步提高性能，其性能大大超过基线6。Rank@1和12为1%。4%的mAP平均三个数据集。然后，在离线生成合成图像后，我们评估结果是84。4%，低于市场1501的86。0%mAP的端到端训练，这表明我们的联合生成训练有利于再id学习。超参数的影响。在这里，我们展示了如何设置re-id 学习相关的权重：一种是λfine 与λfine的比值α，以控制Lfine和Lfine在训练中的重要性;另一个是β，用于在与作为测试中的最终行人表示的f fine组合时对f fine进行加权。我们在从Market- 1501的原始训练集中分离出来的验证集上搜索两个超参数（前651个类用于训练，其余100个类用于验证）。根据图8中的验证结果，我们选择α= 0。2，β = 0。5在所有实验中比较与 state-of-the-art 方法. 最后，我们在表4和表5中报告了我们的方法的性能以及其他最先进的结果。注意我们不应用任何后处理，如重新排名[49]或多查询融合[51]。在每个数据集上，我们的方法都获得了最佳性能。与使用单独生成的图像的方法相比，DG-Net实现了8的明显增益。3%和10。Market-1501和DukeMTMC-reID上的mAP为3%，表明所提出的联合学习的优势此外，我们的框架更有培训效率：我们只使用一个训练阶段来进行联合图像生成和re-id学习，而其他训练阶段则需要表4：与Market-1501和DukeMTMC-reID数据集上最先进方法的比较。第1组：不使用生成数据的方法第2组：使用单独生成的图像的方法等级@1等级@5等级@10地图深[39]47.665.071.823.0PDC [34]58.073.679.429.7验证-身份[53]60.576.281.631.6GLAD [45]61.476.881.634.0PCB [38]68.281.285.540.4我们77.287.490.552.3表5：与MSMT17数据集上最先进方法的比较。两个训练阶段以顺序地训练生成模型和RE-ID模型。DG-Net在两个数据集上的表现也大大优于其他非生成方法。对于最近发布的大规模数据集MSMT 17，DG-Net的表现明显优于第二好的方法9。Rank@1和11为0%。9%的mAP。5. 结论在本文中，我们提出了一个联合学习框架，在一个统一的网络中端到端耦合reid学习和图像在判别模块和生成模块之间存在一个在线的互动循环，我们的两个模块是共同设计的，让re-id学习更好地利用生成的数据，而不是简单地训练它们。三个基准的实验表明，我们的方法始终带来了实质性的改善，图像生成质量和re-id的准确性。方法Market-1501等级@1 mAPdukemtmc-Reid等级@1 mAP验证-身份[53]79.559.968.949.3DCF [21]80.357.5--SSM [2]82.268.8--SVDNet [37]82.362.176.756.8潘[55]82.863.471.651.5GLAD [45]89.973.9--[23]第二十三话91.275.780.563.8MLFN [4]90.074.381.062.8部分对齐[36]91.779.684.469.3PCB [38]93.881.683.369.2[41]第四十一话93.182.384.971.8[33]第三十三话80.661.3--LSRO [54]84.066.167.747.1多伪[16]85.867.576.858.6[26]第二十六话87.768.978.556.9PN-GAN [30]89.472.673.653.2FD-GAN [9]90.577.780.064.5我们94.886.086.674.82147引用[1] 马丁·阿乔对ky，苏米特·钦塔拉和L e'onBottou。瓦瑟斯坦·甘。ICML，2017。3[2] 宋白、项白、齐天。监督平滑流形上的可扩展人员再识别。在CVPR，2017年。8[3] Slawomir Bak，Peter Carr，and Jean-Francois Lalonde.域自适应通过合成无监督的人重新识别。在ECCV，2018。3[4] Xiaobin Chang，Timothy Hospedales，and Tao Xiang.用于人员重新识别的多级分解网络。在CVPR，2018年。8[5] De Cheng，Yihong Gong，Sanping Zhou，Jinjun Wang，andNanning Zheng.通过具有改进的三重损失函数的基于多通道部件的CNN进行人员重新识别。在CVPR，2016年。2[6] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-Woo Ha，Sunghun Kim，and Jaegul Choo.StarGAN：用于多域图像到图像翻译的统一生成对抗在CVPR，2018年。3[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，andLi Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[8] Weijian Deng ， Liang Zheng ， Guoliang Kang ， Yi Yang ，Qixiang Ye，and Xiaojiao.图像-图像域自适应与保留的自相似性和域相异度的人重新识别。在CVPR，2018年。3[9] Yixiao Ge，Zhuowan Li，Haiyu Zhao，Guojun Yin，XiaogangWang，and Hongsheng Li.FD-GAN：用于稳健的人员重新识别的姿势引导特征提取GAN。NeurIPS，2018。二三四六七八[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.用于图像识别的深度残差学习。在CVPR，2016年。6[12] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。arXiv：1703.07737，2017。一、二、五[13] Martin Heusel 、 Hubert Ramsauer 、 Thomas Unterthiner 、Bernhard Nessler和Sepp Hochreiter。由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。NeurIPS，2017。7[14] Xun Huang和Serge Belongie。实时任意样式传输InICCV，2017.6[15] Xun Huang，Ming-Yu Liu，Serge Belongie，and Jan Kautz.多模态无监督图像到图像翻译。在ECCV，2018。五、六[16] Yan Huang ， Jinsong Xu ， Qiang Wu ， Zhedong Zheng ，Zhaoxiang Zhang，and Jian Zhang.多伪正则化标记用于人员再识别中的生成样本。TIP，2018年。二三四五八[17] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei Efros.使用条件对抗网络的图像到图像翻译在CVPR，2017年。6[18] 马赫迪·卡拉耶、埃姆拉·巴萨兰、穆希廷·戈克曼、穆斯塔法·卡马萨克和穆巴拉克·沙阿。人的语义分析用于人的重新识别.在CVPR，2018年。3[19] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年，国际会议。6[20] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过不纠缠的表达实现多样化的图像到图像的翻译在ECCV，2018。5[21] Dangwei Li，Xiaotang Chen，Zhang Zhang，and Kaiqi Huang.在身体和潜在部位上学习深度上下文感知特征，以进行人员重新识别。在CVPR，2017年。8[22] Wei Li，Xiatian Zhu，and Shaogang Gong.通过多损失分类的深度联合学习进行人员重新识别。在IJCAI，2017。一、二[23] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐关注网对人的重新识别。在CVPR，2018年。8[24] Xiang Li，Ancong Wu，and Wei-Shi Zheng.对抗性开放世界人物再识别。在ECCV，2018。3[25] 林宇天，郑良，郑哲东，吴宇，杨毅。通过属性和身份学习提高人的再识别arXiv：1703.07220，2017年。二、五[26] Jinxian Liu ， Bingbing Ni ， Yichao Yan ， Peng Zhou ， ShuoCheng，and Jianguo Hu.对可调动人员重新进行身份证明。在CVPR，2018年。二、三、四、八[27] Liqian Ma ， Xu Jia ， Qianru Sun ， Bernt Schiele ， TinneTuytelaars ， and Luc Van Gool. 姿势引导人物图像生成。NeurIPS，2017。三六七[28] 毛旭东，李庆，谢浩然，刘磊，王震，斯蒂芬·斯摩利。最小二乘生成对抗网络。InICCV，2017. 六、七[29] Lars Mescheder，Sebastian Nowozin，and Andreas Geiger. GANs的哪些训练方法实际上是收敛的？在ICML，2018。6[30] Xuelin Qian ， Yanwei Fu ， Tao Xiang ， Wenxuan Wang ， JieQiu，Yang Wu，Yu-Gang Jiang，and Xiangyang Xue.用于人再识别的姿势归一化图像生成。在ECCV，2018。二三四五六七八[31] Ergys Ristani，Francesco Solera，Roger Zou，Rita Cucchiara，and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集在ECCVW，2016年。5[32] Ergys Ristani和Carlo Tomasi。多目标多摄像机跟踪和重新识别功能。在CVPR，2018年。二、五[33] AliaksandrSiarohin，Env erSangineto，Ste' phaneLathuilie' re和NicuSebe。可变形的GANs用于基于姿势的人类图像生成。在CVPR，2018年。三、八[34] Chi Su ， Jianing Li ， Shiliang Zhang ， Junliang Xing ， WenGao，and Qi Tian.用于人员重新识别的姿势驱动的深度卷积模型。InICCV，2017. 一、三、八[35] 迟苏，张世良，邢俊良，高文，齐天。深层属性驱动的多摄像机人物再识别。在ECCV，2016年。二、五[36] Yumin Suh，Jingdong Wang，Siyu Tang，Tao Mei，and Ky-oung Mu Lee.用于人员重新识别的部分对齐双线性表示。在ECCV，2018。一、三、八[37] Yifan Sun ， Liang Zheng ， Weijian Deng ， and Shengjin Wang.SVD-行人检索网。InICCV，2017. 8[38] 孙一凡、郑良、杨毅、齐天、王胜金未来部件型号：使用细化部分池的人员检索。在ECCV，2018。一、二、八[39] Christian Szegedy，Wei Liu，Yangqing Jia，Pierre Sermanet，Scott Reed ， Dragomir Anguelov ， Dumitru Erhan ， VincentVanhoucke ， and Andrew Rabinovich. 更深的回旋。 CVPR ，2015。8[40] Zheng Tang，Milind Naphade，Ming-Yu Liu，Xiaodong Yang，Stan Birchfield ， Shuo Wang

下载后可阅读完整内容，剩余1页未读，立即下载