基于实例引导的跨域人物重识别方法研究

41 浏览量更新于2023-10-13 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于实例引导的跨域人物重识别陈燕北伦敦玛丽女王大学yanbei. qmul.ac.uk朱下田深圳市金源科技有限公司eddy. gmail.com龚绍刚伦敦玛丽女王大学s. qmul.ac.uk摘要现有的人员重新识别（re-id）方法大多假设在任何目标域部署中的模型学习的大规模身份标签的可用性。这极大地限制了它们在实践中的可伸缩性为了解决这一问题，我们提出了一种新的实例引导的上下文渲染方案，该方案将源人身份转移到不同的目标域上下文中，以实现在未标记的目标域中的监督不像以前的图像合成方法，将源人物图像转换成有限的固定目标风格，我们的ap-proach产生更多的视觉上合理的，和多样化的合成训练数据。具体来说，我们制定了一个双连接生成对抗网络，增强每个源人物图像与丰富的上下文变化。为了明确地实现不同的渲染效果，我们利用大量的未标记的目标实例作为上下文指导的图像生成。在Market-1501、DukeMTMC-reID和CUHK 03基准测试上的大量实验表明，在跨域re-id模型学习中使用我们的合成数据时，re-id性能可以显着提高图1：动机说明。在开放的监控空间中，由于宽视场图像和一天中不同的时间，上下文变化可能非常多样化。我们的方法学习在这样的监视环境中hal-lucinate相同的人，就好像他们是从目标域中的不同地点和时间捕获的在实际部署中，当手动标记新身份群体变得过于困难时，1. 介绍人员重新识别（re-id）是跨分布在广阔监视空间上的非重叠摄像机重新识别查询感兴趣的人员的任务[16]。由于深度表示学习的激增，在理想主义的封闭世界监督学习测试床中已经见证了re-id性能的巨大提升[63，58，54，64，20，6]。30，47，5]：在Market1501基准[63]上，排名1匹配率达到93.3%[5]然而，这种成功在很大程度上依赖于训练和测试数据必须从相同的相机网络中提取的不现实的假设，即。相同的域。当将这样的re-id模型部署到新的域时，它们的性能通常显著降低，这主要是由于从不同的监控摄像机网络收集的数据集之间不可避免的域间隙这一弱点极大地限制了这些特定领域学习的普遍性。大规模的沉思[57，11，55，28，7，34]。因此，有必要使用更先进和更强大的领域通用学习模型来自动化领域自适应可学习性。上述问题，称为跨域人员re-id，正在获得越来越多的关注[40，56，37，57、11、55、1、65、33]。它提出了一个更具挑战性的开集无监督域自适应问题[4，44]，该问题需要弥合两个不相交的身份类空间之间的域间隙。最近的方法通常通过在特征级别[55，33]的属性-身份分布对齐或在图像级别[57，11]的风格转移来减轻这种然而，他们都忽视了利用丰富的上下文变量作为潜在的域桥。在这项工作中，我们的目标是利用上下文信息进行更有效的re-id模型学习。这是由我们观察到的复杂的环境动力学通常存在于开放的公共场景（见图1）。1）232GAN凸轮i目标域上下文卡姆j…渲染…合成输出靶向未标记结构域源标号域233条件在摄像机视图内和摄像机视图之间都有显著变化，这取决于摄像机特性、宽视场图像和一天中不同的时间我们的关键思想是将源人物渲染到不同的领域上下文中，使得可以生成大规模上下文增强的合成数据集，以在不标记任何目标领域数据的情况下以监督的方式训练re-id模型具体来说，我们提出了一种新的实例引导上下文渲染方案，它增加了相同的源身份人口与丰富的上下文变化反映在目标域。我们的方法在几个方面都是独一无二的首先，它有效地利用大量的未标记的目标实例作为指导，将源人物渲染到不同的目标领域上下文。这基本上以更全面的方式捕获图像级域漂移。第二，而不是优化双向映射严重与周期的一致性，我们学习一个简单的单向映射，通过翔实的监督信号。第三，与以前的基于GAN的re-id方法[57，11]相比，我们提出的对偶条件公式自然避免了有限风格的模式崩溃[2它将同一个人转移到更现实，更细粒度和更丰富的观看条件。背景上更多样化的合成图像最终用于re-id模型学习，以增强对目标域中的背景变化的视觉侵入。总之，我们的贡献是双重的：• 我们提出了一种新的实例引导上下文渲染方案。据我们所知，这是第一次尝试在re-id解决图像级域漂移注入丰富的上下文信息到图像生成过程中。它有效地增加了具有不同目标域上下文的相同源人物图像，以构建用于未标记目标域中的re-id模型学习的大规模合成训练集• 我们设计了一个对偶条件生成对抗网络。它有效地利用了大量的未标记目标实例作为上下文指导，产生了更可信的数据，具有更丰富的跨域和域内上下文变化。我们进行了大量的实验来验证我们的模型设计原理，并表明，我们的方法不仅实现了跨域设置中的几个re-id基准上的竞争性re-id性能，而且还生成具有高保真度和多样性的照片般逼真的人物图像2. 相关工作无监督跨域人再识别的目的是将身份判别知识从标记的源域转移到未标记的目标域。最先进的方法[57，11，55，65，33，1，31]可以分为三种学习范式：（1）特征-水平分布对齐;（2）图像级风格转移;以及（3）混合图像级和特征级学习。第一种范式[55，33]通常寻求具有区分性学习约束的源-目标分布对齐第二种范式[57，11，1，31]通过使用GAN框架以整体方式将源图像转换为目标领域风格来减少领域差距最后一个范例[65]通过GAN和CNN中的特征区分约束统一了合成图像的互补优势。我们的工作属于第二种范式。特别是，我们发现现有的基于GAN的re-id方法的共同弱点在于数据多样性不足-这主要是由GAN中的模式崩溃问题引起的-在生成的输出中可以捕获非常有限的样式。为了纠正这一弱点，我们设计了一个新的GAN框架，以增加具有更多样化背景的数据。我们的合成图像反映了目标域中更丰富的上下文变化，并且自然地用作更多信息的训练数据以提高re-id模型的域概括性。无监督域自适应（UDA）技术[51，49，36，46，14，50，3，45，48，53，18，22，59]旨在解决域漂移，以避免目标数据的穷举手动标记。现有的UDA方法依赖于特征级自适应[51，36，46，14，50，59]或图像级自适应[3，45]来减轻跨域分布差异。前者专注于学习域不变特征表示，这通常通过对抗训练[14，50，53]或对齐特征统计数据来实现，例如样本均值[51，59]和协方差[46]。后者试图使用生成模型对源图像进行风格化，以在视觉上看起来像目标域图像[3，45，48]。植根于类似的精神，我们的方法也学会了转换图像风格，特别注重丰富的合成图像的多样性，以促进更有效的领域适应re-id。图像到图像翻译（I2I）旨在将图像从原始样式转换为新样式[24，66，25，35，60，9，10]。38、8、23、27]。第一个统一的I2I框架Pix2Pix [24]采用条件GAN来通过优化在成对标记的数据上形成的GAN损失和重建损失来学习单向映射CycleGAN [66]利用循环一致性约束通过学习双向跨域映射来避免成对监督。为了进一步实现多域映射，StarGAN [9]引入离散域标签作为条件变量以捕获多个模式。最近，MUNIT [23]，DRIT [27]通过在随机潜码上调节生成来实现更多样化的图像翻译在多样化生成输出的相同目标的驱动下，我们设计了一个双重条件公式来增强人物图像中更丰富的上下文变化，以促进跨域re-id模型学习。234不=情境指导渲染一阶段第二模型部署目标域：未标记的目标实例X$合成靶域丰富的合成数据XG用于CNN训练源域源标记数据XSM$XGX-D$哪个域名？1 −跳过连接目标输入XX′$X&4$XGXGx0的-/d$XG哪个身份？语境路径融合源输入X0X54输出0）*++e+端到端训练XGX-123$哪个摄像头？同一性途径编解码器上下文掩码捷径连接XGX$什么背景双重条件性图像生成器目标1 −图2：模型概述。我们通过学习将源人物图像XS渲染到由从目标域采样的任意目标实例XT明确引导的不同域上下文中来解决图像级别的域漂移（第二节）。第3.1节3.2）。图3：部署概述。在部署中，生成器产生用于CNN训练的丰富的合成图像XG（Sec. 3.3）。3. 实例引导的上下文渲染问题定义。我们考虑了人re-id中的非监督域自适应问题，其目的是将从标记的源数据集学习的re-id模型适应于未标记的目标数据集。我们的目标是学习生成映射G，通过将相同的源人物图像渲染到不同范围的目标域上下文来减少域差异。由于最终合成图像用丰富的目标背景增强，因此可以根据这些数据简单地微调CNN模型，以增强其在未标记的目标域中的通用性。方法概述。图2示出了我们的实例引导上下文渲染方案。它的主体是一个双条件生成对抗网络，它从两个域中获取一对输入图像用于图像生成（第二节）。3.1），并学习信息的监督信号，使源人引导不同的目标情况（第3.1节）。3.2）。我们将我们的上下文检索网络简称为CR-GAN。部署中（图3），丰富的数据增强了不同的背景下被利用的reid模型学习在合成目标域（节。3.3）。3.1. 双条件图像生成器获取输入实例XT来引导上下文渲染效果。形式上，该对偶条件映射表示为：XG=G（XS，XT）（1）本质上，该对偶条件公式被设计为融合来自两个域的信息流，使得源输入XS中的同一个人可以被渲染到由目标实例XT明确引导的目标上下文中。总的来说，整个映射建立在双路径编码和解码的基础上，在两者之间具有类似于U-Net [43]的编码器-解码器网络，如下所述。双路径编码。为了实现实例引导的上下文渲染，我们引入了一个必要条件XT，以利用丰富的目标实例作为图像生成中的上下文引导。具体地，我们设计了一个双路径编码结构，以分别参数化来自两个域的信息流（图1）。2）-（1）同一性途径θ S编码源输入XS的上下文路径θ T;以及（2）编码目标输入XT的上下文路径θT。鉴于我们的目标是从目标域中开发上下文信息，我们屏蔽目标输入XT以主要保留背景杂块。具体来说，我们采用现成的人类解析模型LIP-JPPNet [15]来获得二进制人掩码，并在XT上应用空间掩码来过滤目标人：对偶条件映射CR-GAN包含一个学习单向映射的双条件图像生成器X0XTT◦ （1-MT ）（2）通过调节两个输入来将源图像渲染到期望的目标上下文中：源输入XS和目标输入X S。其中◦是Hadamard乘积; MT是输入X T的人物掩码; X0主要包含背景杂波。235不通过双路径编码，来自两个域的信息流通过深度级联进一步融合：[θ S（XS），θ T（X0）]，然后是编码器-解码器网络，以选择性地混合来自两个输入的视觉信息。我们构建的编码器-解码器网络作为一个级联的上采样，下采样残留块，以及跳过连接，强制执行的生成器网络，以选择性地保留低层次的视觉结构，从两个条件输入。特别是XS中的前景人物，XT中的背景杂波都要挑出来XTXG(a)Ladv减小了域间隙。XTXGX TXGX TXG（c）L con学习上下文变化。cam1cam2cam3cam4cam5cam6(b) L cam学习相机的变化。XS公司简介公司简介X G(d)LID保留源标识。作为图像生成的信息线索。图像生成。为了以区域选择性方式呈现上下文，即保持源人物，同时增加背景杂波，我们采用上下文掩码来柔和地指定上下文变化的区域。具体地，生成器输出两个部分：（1）残差图XR，以对跨域差异进行建模;以及（2）上下文掩码XC，以对上下文变化的每像素强度进行调制，这两个部分通过快捷连接来连接，以重新使用输入XS中的源人员。最近的文献中也采用了这种通用的掩蔽机制，例如面部动画[41]，运动操纵[62];而我们特别利用上下文掩码来自动学习上下文渲染的区域选择最终生成的输出XG是源输入XS和由上下文掩码XC空间加权的残差图XR的和：XG=XR◦XC+XS◦（1-XC）（3）生成器被端到端地训练以生成XG，其在XT的新上下文中保留作为XS的人身份。3.2. 学习目标CR-GAN的关键思想是将上下文信息注入到图像生成中。这是由于上下文变化以多粒度存在一一为了学习这种变化，我们对模型优化施加了四种不同的损失，它们协同地学习（a）跨域，（b）跨相机，和（c）跨相机。(c) 内部相机上下文变化，同时（d）保留源身份，如图1B所示。4、下面详细介绍。对抗性损失。为了减轻跨域上下文间隙，生成器G针对域区分进行训练natorDd以对抗性极大极小的方式[17]：Ladv=min max logDd（XT）+log（1-Dd（G（XS，XT）图4：学习目标的示意图。其中yc是XT的相机标签。L_cam由被训练为对相机标签进行分类的相机鉴别器D_cam上下文丢失。除了捕获跨域和相机的上下文变化之外，生成器还应该学习具有内容细节的内部相机上下文变化。相应地，我们采用掩蔽的重建误差来约束前景、背景与输入XS、XT相同：Lcon=||（XG-XS）◦ MF||2个以上||（XG-XT）◦MB||第二章（六）其中，M_F、M_B是通过人类解析模型提取的X_S L特别地鼓励保留源人，同时增强由来自目标域的任意目标实例XT明确引导的更多样化的背景杂波。身份丢失。由于输入XS中的源个人身份应保留在输出XG中，因此我们施加身份分类错误以约束XG中的个人身份：Li d=-l〇 g（p（y）j|（7）其中yj是XS的身份标签;Lid是由一个identity_id导出的，这是一个总体目标。CR-GAN是用四种损失的联合优化来训练的（等式10）。（4）、（5）、（6）、（7））对于它们在约束图像生成方面的互补益处：LGAN=λadvLadv+λidLid+λcamLcam+λconLcon（八）其中λadv、 λid、 λcam、 λcon是控制每个损失的相对重要性的超参数。我们设置λid= λcam=1，λadv=2，λcon=5以保持损耗在相似的值范围内。3.3. 模型训练和部署CR-GAN的优化类似于标准GAN模型，G Dd（四）如在Alg. 1.一、对于部署，Did– a stan-其中L_adv将所生成的数据分布与目标数据分布全局地对齐以减小域间隙。相机丢失。要捕获跨摄影机上下文变量，请执行以下操作：由摄像机特性引起的问题-例如的色调– 施加相机损失以约束相机样式：Lcam=-log（p（yc|（5）[19]第十九章：一个人的由CR-GAN生成的dant合成数据（图（3）第三章。所有合成数据都是通过将任意图像对馈送到CR-GAN来随机生成的，因此避免了存储超大规模合成数据集的需要。在微调之后，部署骨干网络Did以提取用于目标域中的重新id匹配的特征。236算法1原理概述。I. 初始化：预训练Did、具有标签的D cam。II. 训练图像生成器G：输入：源数据集DS，目标数据集DT。输出：图像生成器G.对于t= 1至最大增益do将输入对（XS，XT）的小批量前馈到G.更新Dd（等式（4））和更新Gk次（等式（4））。（8））。端III. 微调合成数据上的Didfort= 1 tomax cnn iterdo随机上下文渲染：XG=G（XS，XT）。使用XS的标识标签更新XG上的Did。端3.4. 讨论总的来说，我们的CR-GAN具有几个优点，可以使跨域re-id模型学习受益：（1）不是用固定的类别标签集合[9]（例如，相机标签）来控制渲染效果，而是利用来自目标域的大量未标记实例XT作为上下文指导来注入上下文变化。这自然地避免了模式塌陷到有限的固定样式，并且合成了更多样化的目标域上下文以用于学习域通用re-id模型。（2）我们的渲染效果是区域选择性的，而不是整体地改变域上下文[23特别地，背景杂波随着结构变化而被显著修改;而前景人物随着颜色变化而被稍微内画以捕获域漂移。这种渲染效果有效地保留了源身份，同时为合成目标域中的re-id模型学习增加了更丰富的上下文。（3）通过在较低层通过双路径编码融合两个输入，生成器网络被强制学习从两个输入选择性地保留低级视觉结构，从而增强建模能力以产生更高保真度和多样性的合成训练数据。4. 实验4.1. 实验设置实施详情。为了训练CR-GAN，我们使用Adam求解器[26]，小批量大小为32。学习率在训练的前半部分被设置为0.0002，在后半部分线性衰减到0为了建立图像生成器，在U-Net解码器中使用实例归一化（IN）[52]。IN既不应用于两个单独的编码路径，也不应用于U-Net编码器，其允许在解码之前保留对偶条件的两个路径被参数化为单独的卷积层。为了提高GAN的训练稳定性，我们在GAN中添加了一个额外的高斯噪声层作为输入层。(a)市场1501.（b）DukeMTMCreID。（c）香港中文大学03。图5：来自三个re-id基准测试的示例图像。域鉴别器。我们采用LSGAN [39]作为GAN公式，并采用与PatchGAN [24]相同的域鉴别器来区分补丁的规模为了稳定训练，图像生成器在训练的后半部分中每次迭代更新两次。我们使用标准ImageNet [10]预训练的ResNet50作为身份鉴别器Did。相机鉴别器Dcam是一个非常轻量级的CNN分类器，有5层。图像生成器G、域鉴别器D、d被迭代地更新，如Alg中所示。1.一、经过训练后，以ResNet 50为骨干网络提取特征进行re-id评估。有关网络体系结构和培训程序的更多详细信息，请参见补充材料。评估指标。我们采用了几个指标来综合评估我们的模型在两个方面。（ 1 ）采用标准的累积匹配特性（CMC）和平均精度（mAP）作为评价指标，对算法的匹配性能进行了评价。我们报告了基于使用从re-idCNN模型提取的特征计算的跨相机成对匹配距离的排名顺序的单查询（2）为了衡量合成的视觉质量，我们采用以下两个评价指标：（i）LPIPS距离（LPIPS）[61]测量图像翻译多样性，其与人类感知相似性相关。我们使用默认的ImageNet预训练的Al e xNet来提取评估中的特征。（ ii ） Fre´chetInception Distance（FID）[21]通过量化生成数据和真实数据之间的分布差异来测量图像保真度我们使用默认的ImageNet预处理训练Inception在评估中提取特征。数据集。我们采用三个标准的re-id基准进行评估（图1）。（五）。Market 1, 501包含由6个不同摄像头捕获的1，501个身份。训练集包括751个身份和12，936个图像。测试集包括750个身份，探针集中有3，368个图像，图库集中有19，732个图像。（2）DukeMTM-CreID[42，64]包含由8个不同相机捕获的1，404个身份。训练集包括702个身份和16，522个图像。测试集包括702个身份，其中探针集中有2，228个图像，图库集中有17，661个图像。（3）CUHK03[29]包含1，467个身份和14，097个图像。我们使用自动检测版本。4.2. 消融模型评价为了验证我们的模型设计原理，我们首先对两个不同的域对进行消融研究：Market1501！DukeMTMCreID DukeMTMCreID！市场 1501.237上下文指导：目标实例XTXS（无双重条件）(a) 基线（b）CR-GAN（双重条件）图6：定性目视评价。给定源图像XS，（a）由于缺乏上下文指导，基线（无双重条件）塌陷到统一上下文;而（b）CR-GAN利用由目标实例XT明确指导的不同上下文来增强同一个人。S →T市场→杜克大学杜克→市场度量LPIPSFIDLPIPSFID源-目标数据0.4580.3300.4580.330无对偶条件0.1960.0650.2100.137公司简介0.2810.0580.2690.096表1：图像质量的定量视觉评价。LPIPS：图像感知相似度，越高越好。FID：分布差异，越小越好。“源-目标数据”中的LPIPS / FID表示上限。最佳结果以粗体显示。双重条件的影响。引入丰富的目标实例作为上下文引导是实现实例引导的上下文渲染过程的关键因素为了验证这个因素，我们将我们的对偶条件映射（CR-GAN）与仅接受源输入XS（w/o对偶条件）的消融基线进行图6示出了：（1）尽管基线变换了上下文，但是所有生成的图像都折叠到相同的上下文;（2）相反，CR-GAN充当更强大的数据生成器，以用更多样化的领域上下文范围来增强同一个人。这与我们在表1中的视觉定量结果一致，其中 CR-GAN 获得高得多的LPIPS。即，与基线相比，更多样化的输出。这令人信服地显示了我们的双重条件公式的好处，利用丰富的目标实例作为上下文指导的图像生成。为了评估re-id中的上下文渲染效果的益处，我们将CR-GAN与消融基线进行比较。表2显示（1）引入我们的双条件公式显著提高了 re-id 性能，在DukeMTMCreID /Market 1501 上的 R1 中具有 8.9%（ 52.2-43.3 ） / 4.1% （ 59.6-55.5 ）的改进的边际。（ 2 ）使用 LMP 仍有改善， R1 的改善幅度为 7.3%（56.0-48.7）/5.3%（64.5-59.2）这表明，再--具有更多上下文变化的ID模型学习确实有助于提高跨域模型鲁棒性。不同损失的影响。除了标准表2：re-id中双重条件的消融研究“直接传输”：仅用标记的源数据训练的CNN; LMP：一种池化策略[11]，用于减少测试时由假合成图像引起的噪声信号。S →T市场→杜克大学杜克→市场指标（%）R1地图R1地图无身份丢失31.915.432.811.8无摄像头丢失48.828.653.626.0无上下文丢失48.528.857.428.7公司简介52.230.059.629.6表3：对re-id中每种损失的个体影响的消融研究在对抗性损失的情况下，CR-GAN用三种不同的损失进行训练。为了验证在实际应用中使用这些损失的必要性，我们通过从总体目标中剔除单个损失来进行烧蚀比较。表3示出：（1）去除任何损耗导致不期望的性能下降;（2）所有损失协同工作，通过联合优化实现最佳性能。（3）这些结果符合我们的损失设计原理：所有损失都用于利用模型优化中的补充信息（图1）。4），从而给出其期望的性能增益以产生用于re-id模型学习的更好的合成数据4.3. 基于GAN的方法为了隔离和分析re-id中图像级域自适应的纯效果，我们在本节中将我们的模型与定性目视分析。为了理解如何使上下文信息有益于re-id模型学习引导S →T市场→杜克大学杜克→市场指标（%）R1地图R1地图直接转移36.920.547.520.0无双条件43.324.855.527.0公司简介52.230.059.629.6不带双通道+LMP48.727.659.228.5CR-GAN+LMP56.033.364.533.2238XS（a）SPGAN（b）CR-GAN（我们的）图7：定性目视评价。给定源图像XS，（a）SPGAN [11]将图像变换成仅一个统一的样式;而（b）我们的CR-GAN将源人呈现到不同的情境中：不同的背景杂波、色调和照明条件。S →T市场→杜克大学杜克→市场度量LPIPSFIDLPIPSFID源-目标数据0.4580.3300.4580.330SPGAN [11]0.0990.1710.0990.115公司简介0.2810.0580.2690.096表4：图像质量的定量视觉评价。LPIPS：图像感知相似度，越高越好。FID：分布差异，越小越好。最佳结果以粗体显示。我们首先将我们的CR-GAN产生的合成图像与SPGAN[11]进行视觉比较：SPGAN是基于CycleGAN的代表性re-id方法。如图7所示，与SPGAN给出的仅一个合理输出相比，CR-GAN可以产生更多样化的输出。这告知CR-GAN实际上充当强得多的合成数据生成器以增强更多的上下文变化，并且因此产生大得多的规模的合成训练集。定量视觉分析。为了定量地评估视觉质量，我们进一步根据作者发布的合成数据将CR-GAN与SP-GAN进行比较。表4表明：（1）与源数据和目标数据之间的FID相比，CR-GAN和SPGAN两者都这表明，在样式适配之后，两种方法都可以减轻跨域分布差异（2）与SPGAN 相比， CR-GAN 具有更低的 FID 和更高的LPIPS。这表明CR-GAN可以生成更好保真度和更高多样性的图像Re-id匹配分析为了进一步证明我们的合成上下文变化如何有利于跨域re-id学习，我们将CR-GAN与三种最先进的基于 GAN 的 re-id 方法进行了比较：[11][12][13][14][15][16][17][18][19][1 所有这些模型都是在相同的学习范式下在相同的源数据集上训练的：首先训练GAN来合成图像，然后对CNN进行微调以用于域适应的合成数据。表5显示CR-GAN实现了最佳的跨域re-id性能。值得指出的是，以前的方法通常会崩溃为固定样式：一个同质域样式（ PTGAN 、SPGAN ），或一组预定义的相机样式（ M2M-GAN）。相比之下，CR-表5：在跨域re-id设置中对基于GAN的方法的评估。每组中的最佳结果以粗体显示。总的来说，红/蓝是第一/第二好的。GAN增加了更丰富的上下文变化，最终有利于re-id中的域适应。4.4. 与最新技术水平的竞争对手我们将我们的CR-GAN与12种最先进的方法进行比较。为了确保类似的公平比较，我们通过将这些方法分为四组来比较它们：（a）使用手工特征的浅方法：LOMO、BoW、UMDL;（b）图像级学习方法：PTGAN、SPGAN、M2M-GAN，它们使用GAN进行风格转移;（c）特征级学习方法：PUL、TJ-AIDL、MMFA、BUC、TAUDL，其在CNN中使用附加的区分约束;（d）混合学习方法：HHL，其结合了组（b）和（c）的益处。值得注意的是，小组的学习范式（b）、（c）基本上是正交的：学习在图像空间或特征空间中执行。因此，这两种范式应该是互补的，当统一在一个hy-桥接制剂为了证明CR-GAN在混合制剂中的普遍性，我们通过将CR-GAN / SPGAN与组（c）中的最佳表现者TAUDL统一来增加额外的比较。我们首先使用CR-GAN / SPGAN 生成的合成数据训练CNN ，然后将TAUDL与预训练的CNN一起应用于目标域中的这样的混合公式分别表示为 CR-GAN+TAUDL/SPGAN+TAUDL。对Market 1501/ DukeMTMCreID的评价。表6S →T市场→杜克大学杜克→市场指标（%）R1地图R1地图PTGAN [57]27.4-38.666.1SPGAN [11]41.1 22.351.522.8M2M-GAN [31]49.6 26.157.526.8公司简介52.2 30.059.629.6SPGAN+LMP [1]46.426.257.726.7M2M-GAN+LMP [31]54.431.663.130.9CR-GAN+LMP56.033.364.533.2239类型来源→目标市场1501→DukeMTMCreIDDukeMTMCreID →市场1501指标（%）R1 R5R10地图R1 R5R10地图LOMO [32]12.3 21.326.64.827.2 41.649.18.0浅[63]17.1 28.834.98.335.8 52.460.314.8UMDL [40]18.5 31.437.67.334.5 52.659.612.4PTGAN [57]27.4-50.7-38.6-66.1-图像SPGAN+LMP [1]M2M-GAN+LMP [31]46.4 62.354.4-68.0-26.231.657.7 75.863.1-82.4-26.730.9CR-GAN+LMP56.0 70.574.633.364.5 79.885.033.2PUL* [13]30.0 43.448.516.445.5 60.766.720.5TJ-AIDL† [5]44.3 59.665.023.058.2 74.881.126.5特征MMFA† [33]45.3 59.866.324.756.7 75.081.827.4BUC* [34]47.4 62.668.427.566.279.684.538.3[28]第二十八话61.7--43.563.7--41.2HHL [65]46.9 61.066.727.262.2 78.884.031.4混合SPGAN+TAUDL66.1 80.083.247.266.5 81.886.638.5CR-GAN+TAUDL68.9 80.284.748.677.7 89.792.754.0表6：与现有技术的无监督跨域re-id方法相比，对Market 1501，DukeMTMCreID的评估。不使用辅助源训练数据。†：使用辅助源属性标签进行训练。“-”：未报告结果。每组中的最佳结果以粗体显示。总的来说，红/蓝是第一/第二好的。请注意，HHL使用StarGAN [9]来生成合成训练图像。类型来源→目标中大03 →市场1501CUHK03 →DukeMTMCreID指标（%）R1 R5R10地图R1 R5R10地图PTGAN [57]31.5-60.2-17.6-38.5-图像SPGAN [11]42.3--19.0- ---公司简介58.5 75.881.930.446.5 61.667.026.9特征[28]第二十八话63.7--41.261.7--43.5混合HHL [65]56.8 74.781.429.842.7 57.564.223.4CR-GAN+TAUDL78.3 89.493.056.067.7 79.483.447.7表7：与最先进的无监督跨域re-id方法相比，对CUHK 03到Market 1501/DukeMTMCreID适配的评估*：不使用源数据。“-”：未报告结果。每组中的最佳结果以粗体显示。总的来说，红/蓝是第一/第二好的。显示了两个域对的比较结果。它可以可以观察到：（1）CR-GAN在图像级学习范例中表现最好;（2）当以混合公式（CR-GAN+TAUDL）部署CR-GAN特别是，CR-GAN+TAUDL在DukeMTMCreID上的R1中的性能比TAUDL提高了/ Market1501.这些结果不仅表明了将基于GAN的图像级学习和基于CNN的特征级学习统一到无监督跨域re-id中的好处，更重要的是证明了我们增加更丰富的上下文变化以在应用领域中学习更有效的re-id模型的理由。评估CUHK 03到Market 1501/ DukeMTM- CreID。表7显示了来自CUHK03的模型适应的比较结果，其中在源结构域和靶结构域之间存在较大的结构域间隙（图1B）。（五）。可以看出，（1）CR-GAN以较大幅度明显优于最佳图像级竞争对手SPGAN;（2）当在混合制剂中部署时，CR-GAN+TAUDL比最佳混合竞争者HHL表现更好，具有更大的利润率。21.5%（78.3-56.8），上市R1中 25.0%（67.7-42.7）/ DukeMTMCreID。这些共同表明了CR-GAN在跨域re-id模型学习中利用合成数据的显着优势。5. 结论提出了一种新的实例引导的上下文渲染方案，用于跨领域的re-id模型学习。通过精心设计的双重条件映射，丰富的目标实例被用作图像生成的上下文指导我们进行了广泛的烧蚀分析，以验证我们的模型设计原理，并显示了最好的性能优于现有的基于GAN的re-id方法。我们喜欢到喜欢的比较与国家的最先进的方法证明了我们的模型的巨大优势时，灵活地部署在一个混合系统的配方。总的来说，CR-GAN作为一个通用的生成器，以增加丰富的领域上下文的re-id模型学习在实践中。致谢本研究得到了Vision Semantics Limited、国家留学基金管理委员会、艾伦·图灵研究所和Innovate UK Industrial Challenge Project onDeveloping and Commercialising Intelli-gent公共安全视频分析解决方案（98111-571149）。240引用[1] Slawomir Bak，Peter Carr，and Jean-Francois Lalonde.通过合成进行主适应，用于无监督的人重新识别。在IEEE计算机视觉和模式识别会议上，2018。一、二[2] Aayush Bansal ， Yaser Sheikh 和 Deva Ramanan 。Pixelnn：基于示例的图像合成。在2018年国际学习代表大会上。2[3] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。2017年在IEEE计算机视觉和模式识别会议上发表2[4] Pau Panareda Busto和Juergen Gall。开集域自适应。在ICCV，第754-763页，2017年。1[5] Dapeng Chen ， Hongsheng Li ， Xihui Liu ， YantaoShen，Jing Shao，Zejian Yuan，and Xiaogang Wang.通过全局和局部图像-语言关联来改进用于人重新识别的深度视觉表示2018年欧洲计算机视觉会议。1[6] 陈燕北，朱夏天，龚少刚。通过深度学习多尺度表示进行人员重新识别。在2017年IEEE计算机视觉研讨会上。1[7] 陈燕北，朱夏天，龚少刚。无监督视频人物再识别的深度关联学习。2018年英国机器视觉会议。1[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Combogan：图像域转换的无限制可扩展性。2018年国际学习表征会议2[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议上，2018。二、五、八[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别上，2009年。5[11] Weijian Deng ， Liang Zheng ， Qixiang Ye ， GuoliangKang，Yi Yang，and Jiabin Jiao.图像-图像域自适应与保留的自相似性和域相异度的人重新识别。在IEEE计算机视觉和模式识别会议上，2018。一二六七八[12] Debidatta Dwibedi，Ishan Misra，and Martial Hebert.剪切、粘贴和学习：令人惊讶的简单合成，例如检测。IEEEInternational Conference on Computer Vi-sion ，2017。13[13] 范呵呵，梁铮，严成刚，杨毅。无人监管人员重新识别：聚类和微调。 ACM Transactions on MultimediaComputing，Communications ，andApplications（TOMM），2018年。8[14] Yaroslav Ganin，Evgeniya Ustinova，Hana Ajakan，Pas-calGermain，HugoLarochelle，Franć oisLa violette，Mario马钱德和维克多·兰皮斯基神经网络的领域对

下载后可阅读完整内容，剩余1页未读，立即下载