双层离散归约学习方法解决可见光域和红外域人员再识别问题

96 浏览量更新于2023-10-18 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

618可见光域人内红外域人学习降低隐-可见人重识别王志祥1王正2郑银强2庄永裕1佐藤摘要红外-可见光人员再识别（IV-REID）是一个新兴的课题。与传统的人重新识别（re-ID）相比，IV-REID除了由传统的重新识别任务中呈现的视点变化、姿态变化和变形引起的人的外观差异之外，还涉及源自光谱相机的不同成像过程的附加模态差异这种共存的差异使得IV-REID更加难以解决。以前的方法试图减少1.00.80.60.40.20.01v-V10 2500 5000训练步骤IR–IR外观和模态差异同时使用特征级约束。然而，仅使用特征级约束来消除混合差异是困难的。针对这一问题，本文提出了一种新的双层离散归约学习（D2RL）该方案分别处理这两个差异为了减少模态差异，训练图像级通过图像级子网络，我们可以统一不同模态的图像的表示。在统一的多光谱图像的帮助下，训练特征级子网络，通过特征嵌入来减少剩余的通过级联两个子网络并联合训练它们，双级削减合作地和有意识地承担它们的责任。大量的实验表明，所提出的方法优于国家的最先进的方法。1. 介绍人员重新识别（re-ID）最近在计算机视觉社区中受到越来越大多数当前的re-ID方法依赖于在良好的可见光条件下的人在较差的照明条件下，由于外观较差，传统的re-ID模型可能会变得在实践中-*通讯作者图1. IV-REID任务中的困难的图示。（左）模态差异δm远大于表观差异δa。因此，模态差异可能导致人内距离D（i）大于人间距离D（i）。（右）[23]仅使用特征级约束在RegDB数据集上获得的性能。“V-V”和“IR-IR”分别表示可见光-可见光和红外-红外re-ID的性能。红色间隙表示可见光-可见光和红外-红外单模态re-ID之间的性能差距。黑色间隙表示跨模态re-ID和单模态re-ID之间的性能间隙。很明显，跨模态的重新识别问题比具有相同模态的问题要困难得多。因此，为了应对照明不足的情况，大多数监控摄像机会在黑暗中自动从可见光模式切换到红外模式[21]。因此，这提出了一个新的任务，其中，给定特定人的可见（或红外）图像，目标是找到由其他光谱相机捕获的人的相应红外（或可见）图像[21，22，23，2]。该跨模态图像匹配任务被命名为已识别可见人RE-标识（IV-REID）。与传统的re-ID任务相比，除了由视点变化、姿态变化、尺度变化和变形引起的人的外观差异之外，IV-REID还遇到由不同光谱相机的成像过程之间的差异引起的附加模态差异模态差异往往比外观差异更重要。左间隙初始间隙初始间隙左间隙地图619传奇图像级缩减降准混合差异企业级差异状态图像空间统一空间特征空间ing（D2 RL）。我们将模态差异分开，并通过图像级差异减少子网络TI来减轻它，该子网络T I通过从给定的可见光或可见光信号合成多光谱图像来统一图像表示红外图像外观差异然后由特征级差异减少子网络TF处理，其中特征嵌入对于统一表示更有效这两个子网以端到端的方式级联并联合优化为此目的，TF有利于TI生成分辨率更高的光谱图像，同时TI为TF提供了更多的平移样本。总结了本文的贡献图2.对我们的方法进行高层次的概述。以前的冰毒-ODS通过将图像转换到特征空间并仅使用特征级约束（蓝色虚线）来减少总差异。我们的双层解决方案首先将图像转换为一个统一的空间（绿色箭头），然后将它们嵌入到特征空间（橙色箭头）。在通过统一图像表示进行图像级模态缩减之后，间隙变得比原始图像空间中的间隙小得多。因此，特征级嵌入可以有效地减少剩余的外观差异。可见光和红外摄像机之间的人内（来自同一个人的图像）距离通常大于同一类型摄像机的人间（来自不同人的图像）距离而IV-REID的主要目标仍然是最大化人与人之间的距离，同时最小化人与人之间的距离。共存的模态和外观差异使IV-REID变得困难（如图1所示）。据我们所知，所有以前的方法[21，22，23，2]都将模态差异δm视为外观差异δa的一部分，并试图使用大多数常规re-ID方法所采用的特征级约束来减少混合差异δm+δa请注意，单模态re-ID（“V-V”或“IR-IR”）和跨模态IV-REID之间的性能差距这表明，不能有效地消除模态差异，仅使用特征级约束。图2给出了所提出的方法的主要思想。由于红外图像和可见光图像是用不同的方式拍摄的，因此它们具有完全不同的外观。因此，将它们直接映射到特征空间中不能是有效的。为了缓解这个问题，我们建议首先通过使用图像级转换统一图像表示来减少模态差异。更具体地，我们通过用其可见光对应物增强红外图像或用其红外版本增强可见光图像来形成多光谱图像在统一的空间中，表观差异得到了极大的缓解。因此，传统的re-ID方法可以有效地通过特征级约束来减少剩余的外观差异。考虑到这个想法，我们提出了一种新颖的双层解决方案，名为双层离散减少学习-以下：• 介绍了一种新的双层差异减少学习方案。我们是第一个分解混合模态和外观差异并处理他们分开。• 我们的端到端方案强制这两个子网相互受益。它们之间的平衡影响性能。• 在两个数据集上进行的大量实验表明，我们提出的方法与最先进的方法相比具有优越的性能。2. 相关工作单模态重新识别。传统的re-ID研究主要集中在单一可见模态中的外观变化的挑战，例如图像未对准[6]，视点变化[11]和尺度变化[16，19]。Li等[6]提出了一种协调注意力CNN模型，用于像素和区域注意力的联合学习，以优化未对齐图像的重新识别性能Liu等[11]提出了一种用于生成具有丰富姿态变化的样本的姿态可转移框架。Wang等人[16]结合有效的嵌入方案建立在多个层次上，从高层次和低层次的细节。Wang等人[19]级联多个超分辨率网络以克服分辨率不对准问题。现有的最先进的单模态re-ID方法在减少外观差异方面非常有效，因为它们的检索准确度已经超过了人类的准确度[24]。已识别-可见的重新识别。对于IV-REID问题，除了外观差异之外，还需要解决模态差异。现有的方法试图减少混合的外观和模态的差异，使用类似于传统的re-ID方法的特征嵌入框架。Wu等[21]提出了一个深度零填充框架，用于两种不同模式下的共享特征学习。Ye等人[22]引入了特征学习和度量学习的两步框架。他们[23]Xy较大差距620X提出了一个端到端的双路径网络来学习共同的表示。Dai等人[2]设计了一个网络来学习来自不同模态的判别表示。由于图像级不平衡的不同频谱带来的模态差异，所有这些特征级方法都不能获得令人满意的结果。图像生成符合重新识别要求。最近开发的GANs为图像翻译提供了强大的工具[29，12，1]。许多研究试图利用GAN来生成更多的训练样本，然后促进解决传统的re-ID问题。Ma等人[13]操纵前景、背景和姿态信息，并基于操纵的信息生成图像Li等[7]使用GAN生成类似目标的图像。还有另一类研究试图使用GAN来处理域间隙的问题。对于传统的re-ID任务，域差距主要在于相机样式或照明差异。Zhong等[28，27]利用带有标签平滑正则化的CycleGAN生成具有不同相机风格的人物图像。Deng等 [4] 还利用了具有自相似性和域相异性约束的CycleGANLi等[7]利用CycleGAN生成不同光照条件下的图像。与此类似，Weiet al. [20]提出了一个人转移GAN来弥合域差距。然而，针对不同姿态、光照和相机风格的问题，所有这些方法都集中在基于可见图像生成可见图像。3. 该方法设X ={x |x ∈ RH×W×3}和Y ={y |y ∈ RH×W×1}表示可见光图像集和红外图像集，其中H和W分别为图像的高度和宽度。每个图像x∈X或y∈Y对应于一个标签l∈ {1，2，. . .，Np}，并且Np是人标识符的数量。关系的给定红外（或可见光）查询图像y（或x），可见（或红外）图库集合X（或Y），IV-REID任务的目标是提出图库集合的排序列表R，其中与查询图像具有相同身份的图像一个常见的策略是3.1. 图像水平盘回收率-TI为了减少模态差异， TIe利用两个变分自编码器（VAE）进行风格解纠缠，然后利用两个GAN进行特定领域的图像生成。TI将可见（红外）图像x（y）转换成其红外（可见光）对应物x（y）。图格特，他们的形式多光谱图像[x，x∈]（或[y∈，y]），以提供用于减少模态差异的统一风格解缠。它由两个编码器-解码器对组成：VAEv={Ev，Gv}和VAE i={Ei，Gi}，分别负责可见光和红外模态解纠缠。对于VAEv，给定可见输入x∈X，编码器Ev首先将x映射到潜在向量z，然后将解码器 Gv 从潜在向量 z 重构输入。重建图像为x<$v→v=Gv（zv<$qv（zv|x）），其中q v（zv|x）是潜在信息zv的分布。VAEv的损失定义为：LVAEv（Ev，Gv）=λ0 KL（qv（zv|x）||pη（z））−λ1Ezv<$qv（zv|x）[<$x-Gv（zv）<$1]，（1）其中，超参数 λ0 和 λ1 控制目标项的权重，并且Kullback-Leibler发散项（KL）惩罚潜在信息的分布与作为零均值高斯分布的先验pn（z）1001损失惩罚图像和重建图像之间的不相似性，并且还鼓励清晰的输出图像。域特定图像生成。采用两个生成式对抗网络GANv={G v，D v}和GAN i={G i，D i}从图像生成域特定图像。无风格特征向量z。在GANv中，生成器Gv被期望从可以欺骗DANv的潜在向量z生成真实可见图像，而判别器Dv被期望区分真实可见图像和合成可见图像。对抗性损失被用来玩极大极小博弈，其可以表示为L GANv（E i，G v，D v）=λ2Ex<$PX[logD v（x）]+λ2Ezi<$qi（zi|y）[lo g（1-Dv（Gv（zi）]，（二）将x和y通过特征em投影到特征空间层，fx=hx（x）和fy=hy（y），其中fx∈Rd，其中超参数λ2控制GAN的影响。fy∈ Rd，然后使用它们之间的距离f Tfy生成排序列表R。我们提出了一种新的策略来代替直接映射函数hx和hy.图3显示了我们提出的方法的框架。它由两个子网组成（1）用于减少模态差异的图像级差异减少子网络T1，以及（2）用于减少外观差异的特征级差异减少子网络TF 这两个子网是级联并以端到端的方式联合优化在下文中，我们描述其细节。训练该算法以最大化等式（2），同时生成器试图将其最小化。该损失用于确保翻译的图像类似于可见域中的图像。周期一致性。利用循环一致性进一步正则化不适定的无监督图像间平移问题。类似于CycleGAN [29]，我们的周期一致性损失定义为：LCCv（Ev，Gv，Ei，Gi）=λ3Ezi<$qi（zi|xv→i）[<$x−G v（zi）<$1]，（3）621EGDEvyX否/zy否/x图像空间统一空间特征空间ftX深度特征提取器FF横⁞三重yFC可见图像红外图像多光谱图像[x，x]或[y，y]特征向量编码器发生器鉴别器图3. 我们提出的方法的框架。图像层面差异减小子网络T1首先将输入从图像空间（可见或红外模态）投影到统一空间，其中模态差异被减轻。然后，利用特征级差异缩减子网络T_F来消除剩余的外观差异。两个子网以端到端的方式级联并联合优化。其中负对数似然客观项确保两次平移的图像类似于输入。超参数λ3控制该客观项的权重。损失LVAEi（Ei，Gi），LGANi（Ev，Gi，Di）和LCCi（Ei，Gi，Ev，Gv）可以类似地定义。更具体地，它们通过将下标在等式（1）、等式（2）和等式（3）中，i用于v，v用于i，y用于x模态统一。模态统一有三种可能的选择，将图像统一为红外模态、可见模态或多光谱模态。我们选择生成多光谱图像，模态统一有两个原因。首先，由于不同的成像过程，红外和可见光图像是同一个人的相同反射光的两个表示它们是潜在相关的，它们很可能会相互重构.其次，如果我们将图像统一到可见光或红外模态，则可见光或红外模态中的一些独特信息可能会丢失。目标是训练TI 。总损耗是VAE损耗、GAN损耗和CC损耗的组合L1=L VAE v+L VAE i+L GAN v + L GAN i+L CC v+LCC i。（四）通过优化上述损失，我们得到了一个网络TI，它能够将可见光图像x转换为它的红外对应部分x，并将红外图像y转换为它的可见对应部分y。因此，我们可以通过构造多光谱图像uv=[x，x∈N]和ui=[y∈ N，y]作为统一表示来形成训练集S。这样，所有图像都包括-以相同的方式表示查询图像和图库图像，并且极大地减少了模态差异。3.2. 特征级差异减少-TF由于TI已经将所有图像统一到相同的模态，因此特征嵌入网络可能足以减少外观差异。对于每个批次，我们使用TI来生成样本集S。特征级差异缩减网络TF对由TI生成的统一多光谱图像起到特征学习的作用。给定从S采样的多光谱图像u，深度特征提取器F：u → f将其映射到人描述符f。特别是，我们使用ResNet-50作为主干网络，F并遵循[27]中的培训策略。最后一个1000- d全连接（FC）层被替换为名为“FC-1024”的新层。人物描述符f∈R1024使用“FC-1024”的输出特征向量，FC-1024层的输出f然后被馈送到两个独立的FC层Ht和Hc，生成两个特征向量ft∈R128和fc∈RNp。利用两种损失函数来监督TF的训练.一个是三重态损失，身份信息学习，另一个是交叉-熵损失，用于相似性学习。三重态损失与ft耦合，而交叉熵损失与fc绑定。三重丢失。它用于相似性学习。该方法试图缩小同一个体图像之间的特征距离，扩大不同个体图像之间的特征距离622不F不不不FF人三重态损失可以用公式表示如下：Σ至少有两个不同的摄像头。在[21]之后，我们采用了最具挑战性的单次全搜索模式LT=[D（fa，fp）−D（fa，fn）+]+，（5）评估协议。训练集包含395个-Ft t t tfa，fp，fn∈S其中fa是锚点;fp是正样本，其中可见光图像22，258幅，红外图像11，909幅测试集包含96人，3，803人-测试用于查询的红外图像和301个随机选择的访问。与ft相同;fn是负样本，将图像作为图库集。与fa不同的身份。注意fafp。一个是t t tmargin 参数 D （ · ）计算欧几里德距离，并且[d]+=max（d，0）在保持正数相同的情况下将i个数字处的neg截断为零交叉熵损失它被用于身份学习，并被写为评估指标。采用标准的累积匹配特征（CMC）曲线和平均精度（mAP）来评价性能。请注意，与传统的re-ID问题略有不同来自一种模态的图像用作图库LC=−1Nb喀麦隆bj=1logpj，（6）设置，而来自另一模态的设置作为测试期间的探头设置。4.2. 实现细节其中，N b=| S|是训练小批量中的图像数量;p是输入属于的预测概率到地面实况类，p=softmax（Wf+b），其中W和b是Hc的可训练权重和偏差。培训目标TF。损失是一个组合，交叉熵和三重态损失如下：LF=λ4LC+ λ5LT。（七）3.3.端到端联合训练我们以端到端的方式优化我们的网络，通过级联TI和TF并最大限度地减少综合损耗：argmin（1−γ）LI+γLF，（8）θTI， θTF其中0 <γ <1，并且它是用于平衡两个子网工作T1和TF的控制的权衡参数。4. 实验本节报告了我们的方法的实验设置、实施细节、与其他方法的比较4.1. 实验设置数据集。我们在两个公开可用的数据集上评估了我们的方法：[15][21][22][23][24]• RegDB[15]。从两个对准的摄像机（一个可见，一个远红外）收集。它包含-412人。每个人有10个可见光图像和10个远红外图像。我们遵循[23]中的评估协议将数据集随机分为两半，分别用于训练和测试。• SYSU-MM01[21].它是由六个摄像机（四个可见光摄像机和两个近红外摄像机）收集的大规模数据集，包括室内和室外环境。它能-共抓获491人，623网络架构。我们提出的方法的架构如图3所示。子网T1基于单元1。对于可见光和红外图像，输入和输出的大小调整为228×228×3对于红外图像，三个通道是相同的TF基于Open-reid2，不同的是我们的输入有四个渠道培训战略。为了避免模式崩溃和过度拟合，我们使用Market-1501数据集[25]预训练了子网络TI和TFre-fitting，其中我们使用原始图像作为可见光输入，并且使用分解的照明作为红外输入。然后，我们以端到端的方式联合训练他们请注意，SYSU-MM 01 [21]数据集包括室外和室内场景。我们分别训练他们我们设置权重参数当 λ0=0 时， T I 的损失。 1 ， λ1=100 ， λ2=10 ，λ3=100。对于子网络TF，我们设置λ4= λ5= 10。用于三重态损失的预定义裕度被设置为λ = 0。8.该模型使用Adam [5]进行优化，学习率为0.0002，动量项β1= 0。5，β2= 0。9994.3. 与最先进方法的为了证明我们的方法的有效性，我们将我们的方法与大多数相关方法进行了比较关于IV-REID这些方法包括Zero-Padding [21]，TONE [22]，HCML [22]，BDTR [23]和cmGAN [2]。在此外，还包括其他几种基于学习的方法进行比较。其他竞争方法包含一些特征学习方法，包括HOG [3]，LOMO [8]，单流和双流网络[21]。单流和双流网络是在IV-REID设置下IDE方法[26]其详细描述可参见[21]。此外，两种匹配模型学习方法，MLAPG [9]和GSM [10]，1单位代码：https://github.com/mingyuliutw/UNIT2Open-reid代码：https://github.com/Cysu/open-reid624表1.在两个不同的数据集RegDB和SYSU-MM 01上与最先进的IV-REID方法进行比较进近限制RegDB SYSU-MM 01表2.RegDB数据集上的消融研究方法组件RegDB也包括用于比较。表1列出了所有方法的结果。专门为IV-REID设计的方法通常比不为IV-REID设计我们的方法在RegDB和SYSU-MM 01数据集上的性能明显优于最先进的IV-REID方法。4.4. 消融研究我们的方法由两个子网络组成，图像级差异减少子网络TI和特征级差异减少子网络TF，分别以GAN和ResNet-50 为骨干。TI 主要以 VAE和循环一致性（CC）损失来配置，而TF以交叉熵（CE）和三重态损失来优化。对于消融研究，表2重新列出了通过一次删除一个丢失，在RegDB数据集上移植生成的CMC-1和mAP值。注意，基线是通过仅使用TF而不使用图像级模态统一来获得的。请注意，前两个损失，VAE（用于模态分离）和周期一致性（用于模态转移），负责图像级模态统一。删除其中任何一个都会影响图像生成，从而更显著地降低性能。当重新移动它们（基线）时，性能急剧下降到28. 5%，因为它只能依赖于跨模态的特征嵌入三重态损失比交叉熵损失稍微更有效。4.5. 讨论为什么要单独减少差异？对于IV-REID，先前的方法试图从特征级视图一起减少外观和模态差异。我们的方法旨在减少外观和模态离散分别。我们将特征级方法BDTR [23]与我们提出的双层差异减少方法D2 RL进行比较，以研究哪种策略更有效。我们在RegDB数据集上评估BDTR和我们的方法。首先，我们使用t-SNE方法[14]在2D特征空间中绘制1024-d人物描述符以进行可视化。从RegDB数据集中随机选择20人的测试样本。图4（a）和图4（b）分别代表BDTR模型的初始和最佳结果的可视化。我们可以观察到，训练后，单一模态的人内样本彼此更接近，但跨模态的人内样本相对没有太大的变化图4（c）和图4（d）分别是我们提出的D2RL网络的初始和最佳结果的可视化。从这些图中，我们可以发现，不仅单模态人内样本在训练后彼此更接近，而且一些跨模态人内样本也更接近（如图4（d）中的红色圆圈所示）。为了进一步验证分别减少离散性的有效性，我们通过在RegDB数据集上再次比较BDTR和我们的方法来进行实验，以了解嵌入特征的有效性。图4（e）示出了用于BDTR的人间和人内对的距离的初始分布图4（f）显示了4，800个训练步骤后的分布图4（g）和（h）显示了我们的方法训练前后的分布。很明显，在训练之后，我们的方法可以比BDTR更远地分离人间和人内对。结果表明，在统一空间中进行特征嵌入比在图像空间中进行特征嵌入更有效。统一哪种模式？我们评估了模态统一的三种选择，可见光形态，红外线特征级映像级CMC-1CMC-10CMC-20地图CMC-1CMC-10CMC-20地图LOMO [8]✗✗0.852.474.102.281.7514.1426.633.48MLBP [9]✗✗2.027.3310.906.772.1216.2328.323.86HOG [3]✗✗13.4933.2243.6610.312.7618.2531.914.24GSM [10]✗✗17.2834.4745.2615.065.2933.7152.958.00单流[21]✓✗13.1132.9842.5114.0212.0449.6866.7413.67双流[21]✓✗12.4330.3640.9613.4211.6547.9965.5012.85[21]第二十一话✓✗17.7534.2144.3518.9014.8054.1271.3315.95[22]第二十二话✓✗16.8734.0344.1014.9212.5250.7268.6014.42[22]第二十二话✓✗24.4447.5356.7820.8014.3253.1669.1716.16BDTR [23]✓✗33.4758.4267.5231.8317.0155.4371.9619.66cmGAN [2]✓✗––––26.9767.5180.5627.80建议的D2RL✓✓43.466.176.344.128.970.682.429.2VAECCCE三重CMC-1（%）最大平均接入点（%）基线✓✓✗✗28.523.8D2 RL（无VAE）✗✓✓✓34.831.3D2 RL（无CC）✓✗✓✓33.729.9D2 RL（无CE）✓✓✗✓41.740.6D2 RL（无三联体）✓✓✓✗39.537.4625(a) BDTR初始（b）BDTR最佳（c）我们的初始（d）我们的最佳70070070070060060060060050050050050040040040040030030030030020020020020010010010010000.00.20.40.60.81.01.21.41.6Dist.00.00.20.40.60.81.01.21.41.6Dist.00.00.20.40.60.81.01.21.41.6Dist.00.00.20.40.60.81.01.21.41.6Dist.(e)BDTR初始（f）BDTR最佳（g）我们的初始（h）我们的最佳图4.（上）特征空间的可视化从测试集中随机选择总共20个人颜色相同的样本表明它们属于同一个人。标记(a-b)在RegDB平台上使用BDTR [23]获得，该平台仅使用特征级约束;（c）由我们的方法得到。（下）特征距离的直方图。(e-f)由BDTR获得;（g-h）是通过我们的方法得到的。表3.不同模态统一选项的比较RegDB SYSU-MM01表4.联合训练和单独训练的比较RegDB SYSU-MM01模态和多光谱模态。我们分别用D2RL（v），D2RL（i）和D2RL来表示这三个选项.表3显示了结果，有几个观察结果。首先，统一的多光谱模式，D2RL，表现最好。其次，与表1中的其他方法相比，模态统一对选择哪种模态进行统一没有帮助。最后，我们发现D2RL（i）在RegDB数据集上的性能优于D2RL（v），而在SYSU-MM 01数据集上的性能较差。我们把这种现象归因于数据集评估的设置。对于RegDB数据集，图库由红外图像组成，这意味着红外模态起着重要作用。大多数原始红外图像使得D2RL（i）在数据集上更有效。对于SYSU-MM 01数据集，图库由可见图像组成，结果反过来。我们的统一的多光谱模式利用这两个领域，因此更强大。为什么要联合训练？整个框架由一个图像级的差异减少子网络和一个特征级的差异减少子网络。他们扮演不同的角色。它们可以单独或联合训练。表4比较了这两个选项。首先，联合训练提供了显着的性能提升，因为两个子系统，网络是互相受益的其次，当与表1中的其他方法比较时，即使使用单独的训练，我们的方法也优于最先进的方法。如何平衡子网工作TI和TF？在等式（8）中定义的所提出的方法的总损失中，我们使用权重γ来平衡TI和TF的收缩。由于TI侧重于减少情态差异，TF侧重于减少外观差异，因此γ越大，外观减少，换句话说，特征级离散减少子网络。图5显示了通过改变权重γ得到的RegDB数据集上的mAP和CMC-1值的结果。我们发现，当权重γ变化时，重辨识精度也会发生变化，并且存在一个合适的值来平衡权重γ的变化。TI和TF的变化。虽然TI都消除了模态差异，但它也可能带来噪声信息。因此，TI和TF之间的平衡是重要的。4.6. 结果可视化情态统一的能力。为了证明我们的图像级差异减少子网络T1 的有效性，我们在图6中示出了图像转换的一些视觉结果。对于每个RegDB和SYSU-MM 01数据集，我们展示了六组图像。每个组具有人与人之间人与人之间人与人之间人与人之间配对数量配对数量配对数量配对数量指标（%）地图CMC-1地图CMC-1指标（%）地图CMC-1地图CMC-1D2 RL（v）36.439.128.428.1单独40.739.925.726.1D2 RL（i）43.642.927.827.4联合44.143.429.228.9D2 RL44.143.429.228.962644.144341.239.723.8我们的基线33.936.643.40.741.6CMC top-1（%）50 5045 4540 4035 3530 3025 25200 0.2 0.40.6参数200.8 100.2 0.40.6参数0.8 1图5. mAP（左）和CMC-1（右）相对于RegDB数据集上的超参数γv v → ii i → vv v → ii i → v图7.故障案例的可视化。(Top)查询集是[y;y]，集合是[x;x];（底部）查询集是[x;x]，集合是[y;y]。(a) RegDB（b）SYSU-MM01图6. 由TI在（a）RegDB和（b）SYSU-MM 01上生成的翻译信息的示例对于每个数据集，从左到右，一行中的四个图像是原始可见图像，通用图像，生成的红外图像、原始红外图像和生成的同一行的原始可见光和红外图像具有相同的标识。四个图像：原始可见光图像、生成的红外图像、原始红外图像和生成的可见光图像。从可视化实例中可以看出，TI子网在将可见光图像转换为红外图像方面有较好的性能，并且转换的有效性红外图像到可见光图像是可以接受的。然而，一些生成的图像可能具有颜色失真，诸如图6（a）的第六人。我们还可以发现，RegDB数据集的翻译结果看起来比SYSU-MM 01数据集的翻译结果更好。这是因为SYSU-MM01数据集色彩更丰富，人物图像与不同姿势和比例没有很好地对齐。这可能导致图像级差异缩减子网络难以很好地训练。但是，请注意，最终目标不是生成具有良好视觉外观的图像，而是具有良好的检索结果。从表1中的结果故障案例。我们选择两个最差的查询结果（其中前10个结果都不正确）来说明失败的情况。对于每个查询，这两行分别显示生成图像的排名列表和对应的原始图像列表它表明，在某些情况下，生成的图像可能是坏的，图像级模态统一不能很好地工作在这些查询。5. 结论在本文中，我们提出了双层离散约简学习网络（D2RL）的IV-REID任务，同时表现出模态差异和外观差异。与以前的IV-REID方法不同，我们建议单独处理差异，而不是用特征嵌入来处理混合我们提出了一个图像级的子网络的模态统一，生成一个统一的多光谱表示的图像翻译。在统一表示的情况下，特征级子网络可以通过特征嵌入来更好地减少外观差异。所提出的方法显示出显着的改进对国家的最先进的方法。鸣谢。这项工作是在王志祥参观光学传感与摄像系统时完成的.日本国立信息学研究所TEM实验室，通过NII国际实习方案。这项工作得到了 JST CREST （ JPMJCR1686 ）， Grant- in-Aid for JSPS Fellows （ 18F18378），NSFC（61801335），MOST（107-2221-E-002-147-MY 3）和Microsoft Re-搜索亚洲。43.441.74142.941.840. 239.436.4基线我们32.828.5GT查询排名前十yxyXxyXy最大平均接入点627引用[1] 陈玉生、王玉清、高满新、庄永玉 Deep photoenhancer：使用GAN从照片中进行图像增强的非配对学习在计算机视觉和模式识别会议上，2018年。[2] Pingyang Dai，Rongrong Ji，Haibin Wang，Qiong Wu，and Yuyu Huang.跨模态的人重新识别与生成对抗训练。国际人工智能联合会议论文集，2018年。[3] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图计算机视觉与模式识别会议论文集，2005年。[4] Weijian Deng，Liang Zheng，and XiaoJiao.图像-图像域自适应与保持自相似性和域相异性的人重新识别。在计算机视觉和模式识别会议上，2018年。[5] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv：1412.6980，2014。[6] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。计算机视觉与模式识别会议论文集，2018年。[7] Xiang Li，Ancong Wu，and Wei-Shi Zheng.对抗性开放世界人物再识别。在欧洲计算机视觉会议论文集，2018年。[8] Shengcai Liao，Yang Hu，Xiangyu Zhu，and Stan Z.李通过局部最大发生表示和度量学习进行个体再识别。计算机视觉与模式识别会议论文集，2015年。[9] Shengcai Liao和Stan Z.李有效的PSD约束的非对称度量学习的人重新识别。2015年国际计算机视觉会议论文集[10] Liang Lin，Guangrun Wang，Wangmeng Zuo，XiangchuFeng，and Lei Zhang.基于广义相似性测度和特征学习的跨域视觉匹配。IEEE Transactions on Pattern Analysisand Machine Intelligence，39（6）：1089[11] Jinxian Liu，Bingbing Ni，Yichao Yan，Peng Zhou，Shuo Cheng，and Jianguo Hu.对可调动人员重新进行身份证明。计算机视觉与模式识别会议论文集，2018年。[12] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督的图像到图像翻译网络。在神经信息处理系统会议论文集，2017年。[13] Liqian Ma，Qianru Sun，Stamatios Georgoulis，Luc VanGool，Bernt Schiele，and Mario Fritz.分解的人物形象生成。计算机视觉与模式识别会议论文集，2018年。[14] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579[15] Dat Tien Nguyen，Hyung Gil Hong，Ki Wan Kim，andKang Ryoung Park. 基于可见光和热图像的人体图像相机传感器，17（3）：605，2017。[16] Yan Wang ， Lequn Wang ， Yurong You ， Xu Zou ，Vincent Chen ， Serena Li ， Gao Huang ， BharathHariharan，and Kilian Q.温伯格跨多个解决方案的资源感知人员重新识别。计算机视觉与模式识别会议论文集，2018年。[17] Zheng Wang，Ruimin Hu，Chen Chen，Yi Yu，JunjunJiang，Chao Liang，and Shin'ichi Satoh.基于差异矩阵和矩阵度量的人员再识别 IEEE Transactions onCybernetics，2018。[18] 王征、胡瑞敏、梁朝、余毅、姜军军、叶莽、陈军、冷清明。基于交叉视图一致性的零镜头人物重新识别。IEEE Transactions on Multimedia，18（2）：260[19] 郑王、莽野、范阳、项白、佐藤真级联SR-GAN用于尺度自适应低分辨率人员重新识别。在2018年人工智能国际联合会议论文集[20] Longhui Wei，Shiliang Zhang，Wen Gao，and Qi Tian.个人转移GAN以弥合域差距，进行个人重新识别. 计算机视觉与模式识别会议论文集，2018年。[21] Ancong Wu，Wei-Shi Zheng，Hong-Xing Yu，ShaogangGong，and Jianhuang Lai.RGB-红外交叉模态个人重新识别。在计算机视觉国际会议论文集，2017年。[22] Mang Ye，Xiangyuan Lan，Jiawei Li，and Pong C.袁用于可见热人员重新识别的层次判别学习。AAAI人工智能会议论文集，2018年。[23] Mang Ye，Zheng Wang，Xiangyuan Lan，and Pong C.袁基于双约束排序的可见热人体再识别国际人工智能联合会议论文集，2018年。[24] 张璇、罗昊、樊星、向蔚来、孙一笑对齐- dreid：超越人类水平的表现在人的重新识别。arXiv：1711.08184，2017。[25] 郑良，沈丽月，田璐，王胜金，王京东，田琦.可扩展的人员重新识别：基准。2015年国际计算机视觉会议论文集[26] 梁铮，杨毅，亚历山大·G·豪普特曼.人员重新识别：过去现在和未来。arXiv：1610.02984，2016。[27] Zhun Zhong，Liang Zheng，Shaozi Li，and Yi Yang.异构和同构的人检索模型的一般化在欧洲计算机视觉会议论文集，2018年。[28] Zhun Zhong ， Liang Zheng ， Zhedong Zheng ， ShaoziLi，and Yi Yang.用于人员重新识别的相机样式适配。计算机视觉与模式识别会议论文集，2018年。[29] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。国际计算机视觉会议论文集，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载