没有合适的资源?快使用搜索试试~ 我知道了~
1用于跨域人员身份再识别的刘佳伟1,查正军1*,陈迪1,洪日昌2,王梦21中国科学技术大学,中国2合肥工业大学,中国{ljw368,cdrom000}@ mail.ustc.edu.cn,zhazj@ustc.edu.cn,{hongrc,wangmeng}@hfut.edu.cn摘要最近基于深度学习的人员重新识别方法已经稳步提高了基准测试的性能,但它们通常无法从一个领域推广到另一个领域。在这项工作中,我们提出了一种新的自适应传输网络(ATNet)的有效跨域的人重新识别。ATNet研究了域间隙产生的根本原因,并遵循“分而治之”的原则解决了域间隙问题。它将复杂的跨域转换分解为一组按因子的子转换,每个子转换集中于相对于某个成像因子的风格转换,例如,照度、分辨率和摄像机视角等。提出了一种自适应集成策略,通过感知各因素对图像的影响程度,对因子式传输进行融合。这种“分解-集成”策略使ATNet能够在因子水平上进行精确的风格转换,并最终实现跨域的有效转换。具 体 而 言 , ATNet 由 多 个 因 子 式 CycleGAN 和 集 成CycleGAN组成的传输网络以及推断不同因素对传输每个图像的影响的选择网络组成。在三个广泛使用的数据 集 上 的 广 泛 实 验 结 果 , 即 , Market- 1501 、DukeMTMC-reID 和 PRID 2011 已 经 证 明 了 所 提 出 的ATNet的有效性,其性能比最先进的方法有了显著的1. 介绍人员重新识别是匹配来自不同位置的非重叠摄像机网络收集的大规模图库的探测行人图像的任务[17,35,18]。由于其在许多实际应用中的重要性,如自动监控,基于内容的检索和行为分析等,它已被广泛研究[20,38,43,36]。最近,深度学习技术已被应用于人的重新识别,导致稳定* 通讯作者。图1. Market 1501、DukeMTMC-reID和PRID 2011基准之间的域差异的图示,呈现照明、分辨率和相机视角等方面的显著差异。在流行的基准测试上的性能改进[34,41]。尽管在人员重新识别方面取得了显著进展[26,31,11],但由于不同监控摄像机/摄像机网络之间的成像设备、条件和环境的巨大差异,这仍然是一项具有挑战性的任务。在实践中,由于不同的相机配置、照明条件和视角等,不同相机在不同位置和时间观察到的行人的视觉外观变化很大。 这导致了行人图像库之间的巨大差异,在文献[23,16]中被称为领域差距的挑战,阻碍了现有人员重新识别系统的应用。现有的重新识别模型在一个领域训练往往不能很好地推广到另一 个 领 域 , 并 遭 受 严 重 的 性 能 下 降 。例 如 ,GoogleNet[29]在Market-1501数据集上训练,在PRID 2011上实现了仅5.0%的rank-1图1说明了三种流行的个人重新识别基准之间的域差异。它们被收集在不同的地方(例如,、超市、校园和街道)和现在72027203照明、分辨率和照相机视点等的显著变化。无监督域自适应(un-supervised domain adaptation,UDA)是一种很有前途的解决方案,它是一种使用带有标记样本的源域来学习在未标记目标域上具有良好性能的分类器的技术。典型的UDA方法假定源域和目标域包含相同的类集。因此,它们不能直接应用于人的重新识别任务,因为不同的重新识别数据集由完全不同的行人身份(类)组成。最近,已经在域转换模型CycleGAN [48]上提出了一些为人员重新识别定制的UDA方法[2,45,46,33,3]。这些方法通常包括两个阶段。首先,从源域的身份标记的行人图像被转换到目标域的风格,同时隐藏行人身份。其次,使用带有标签的风格转移图像来训练目标域的重识别模型。这些方法将域差距视为“黑盒子”,并试图通过以下方式来解决它:单一样式的Transformer。实际上,域间差异源于成像过程中多个基本因素(例如照明、分辨率和相机视点)的变化[22]。即使对于每个不同的图像,这些因素也可能对其成像产生不同的影响,从而导致跨域差异的各种情况。这种复杂的领域差异与各种因素的混合挑战现有的方法,导致次优性能。在这项工作中,我们提出了一种新的自适应传输网络(ATNet)的有效跨域的人重新识别。ATNet研究了域间隙的据我们所知,这项工作是第一个探讨域差距的本质因素。该方法将复杂的跨域风格转换分解为一系列中间子任务,每个子任务针对某个因素进行细粒度的风格转换。子变压器被联合优化并组装在一起以解决域差异。子变换器的集成是根据不同因素的影响对每幅图像自适应的。这使得ATNet能够通过感知因子方面的影响来精确地传输样式。特别是,所提出的ATNet是建立在Cy- cleGAN [48]上的。如图2所示,它由多因子GAN和集成GAN组成的传输网络以及选择网络组成。每个因子GAN集中于将图像转换为特定成像因子的目标样式。照明、分辨率和摄像机视角是影响视差的三个关键因素。注意-值得注意的是,ATNet是灵活的,以纳入其他因素的传输模块。集成GAN旨在自适应地融合因子GAN,以绘制精确的风格转换图像。选择网络是为了考虑不同因素对传输每个图像的影响,表示为用于因子GAN自适应集成的样本影响幅度。我们进行了广泛的实验,以评估ATNet上三个广泛使用的人重新识别数据集,即 。 、 Market- 1501 [42] 、 DukeMTMC-reID [44] 和PRID 2011 [9],以及报告性能优于最先进的方法。本文的主要贡献有三个方面:(一)我们提出了一种新的自适应传输网络(ATNet),用于有效的跨域人员重新识别,遵循“分而治之“的原则前者在更细粒度的层次上进行跨域的因子风格迁移,后者协同因子GAN进行有效的域迁移;(3)通过推断各种成像因素对图像的影响,提出了一种基于样本的自适应因子GAN增强算法。2. 相关工作这项工作与无监督的领域自适应和特征学习密切相关。我们将简要总结这两方面的工作。2.1. 无监督域自适应所提出的工作涉及无监督域自适应(UDA),其中目标域中的图像未标记。在UDA社区中,大多数以前的方法[25,6,5,27,28,37,32]试图通过减少特征分布的发散来将源域与目标域对齐。这些方法假设类别标签在域之间是相同的,而不同的重新识别数据集包含不同的人ID(类别)。因此,这些方法不能直接应用于人的重新识别。最 近 , 提 出 了 基 于 几 个 周 期 生 成 对 抗 网 络(CycleGAN)[48,1,7]的UDA方法[2,45,46,33,3]用于人员重新识别,其重点是学习将像素空间中的样本从一个域转换到另一个域的生成器网络。例如,Deng等人。 [3]提出了一种相似性验证生成对抗网络(SPGAN),它保留了翻译前后图像的自相似性,以及翻译后的源图像和目标图像的域不相似性。Zhun等人。 [45]介绍了一种HHL-齐次学习(HHL)模型,该模型通过由未标记的目标图像及其相机风格传输的图像形成的正对来学习相机不变性,并通过考虑源/目标来增强域连通性。7204图2.所提出的ATNet方法的总体架构。它由用于精确的逐因子风格转移的转移网络和它们的自适应集成以及用于推断各种成像因子(例如,照明、分辨率和照相机视图)。获取图像作为负匹配对。Slawomir等人。 [2]提出了一种三步域自适应技术,该技术通过采用周期一致的对抗网络将合成人员重新识别数据集转换为目标条件。Wei等人 [33]提出了一种用于弥合域差距的人转移生成对抗网络(PTGAN),该网络引入了身份损失和风格损失,以保持行人的身份,并确保传输过程中传输的图像具有目标域的相似风格。Zhong等人[46]提出了一种 带 有 标 签 平 滑 正 则 化 ( LSR ) 的 相 机 风 格(CamStyle)自适应方法用于人的重新识别,该方法可以作为一种数据增强方法,平滑相机风格差异并减轻由新生成的样本引起的噪声影响。2.2. 特征学习用于特征提取的基于深度学习的方法[47,14,26,15,40]在大多数人重新识别数据集上显示出比传统的硬特征更大的优势。例如,Xiao等人。 [34]提出了一个管道,用于通过域引导丢弃层从多个域学习全局全身表示,以丢弃每个域的无用神经元。Liu等人[19]提出了一种多尺度三重CNN,它通过比较来捕获人在各种尺度下的视觉外观大规模样本三元组的有效相似性损失。麦克劳克林及其他人[21]提出了一种用于基于视频的人物再识别的递归神经网络架构,该架构利用光流、递归层和均值池层来学习包含外观和运动信息的视频特征。Liet al.[14]通过优化不同上下文中的多个分类损失,制定了一种在CNN模型中联合学习局部和全局特征的方法。3. 该方法在本节中,我们首先介绍了拟议的ATNet的整体架构,然后阐述其组成部分。3.1. 问题公式化给定来自源域的带注释的数据集S和来自目标域的未标记的数据集T,用于人的重新识别,无监督域自适应利用已标记的源图像训练一个能很好地推广到目标域上未标记数据集的重识别模型。考虑到不同影响因素θ引起的数据偏差,我们需要一个传递模型G(·)为了将带注释的数据集S从源域转换为目标域,并用新创建的数据集G(S;w; Θ)学习行人的有效广义特征。无监督域自适应问题可以用公式表示7205如:argminWDJS(PT(y)PIPG(x;w;Θ))(一)在CycleGAN模型上,该模型包含两个生成器对{G,DT}和{F,DS},产生与其他域中的样本不可区分的翻译样本。两个生成器G:S → T和其中,Djs表示两个分布之间的Jensen-Shannon散度,PT表示目标域在数据y上的分布,PG表示传输模型在来自源域S的数据x上的分布。w和Θ是指传递模型的参数,(照明、分辨率、相机视点等)。为了学习有效的迁移模型,我们研究了域间隙的将复杂的跨域转换分解为一组因子式子转换器,每个子转换器针对某个因子进行细粒度的风格此外,这些因素对成像过程的影响也各不相同,子变换器应根据不同因素的影响对每幅图像进行自适应调整,以实现因此,我们提出了一个新的ATNet有效的跨域的人重新识别。如图2所示,ATNet由包含多因子GAN和集成GAN的传输网络和选择网络组成。每个因子GAN的重点是将图像转换为某个成像因子的目标样式。集成GAN旨在自适应地融合因子GAN,以绘制精确的风格转换图像。选择网络用于推断不同因素在传输每个图像时的权重分数,表示为用于因素GAN的自适应集成的样本影响幅度。在此之后,遵循工程[3,33],我们采用ResNet-50[8]和GoogleNet [29]模型作为基线来评估目标域的性能。3.2. 转网域间视差是图像处理过程中多个要素变化的结果传递网络将复杂的跨域传递分解为一组因子式子变换器,每个子变换器针对某个因子进行风格传递。拟议的框架是通用和灵活的,包括其他因素的子转移。我们在这项工作中选择照明,分辨率和相机视图,因为它们是文献中讨论的常见和关键因素。它针对这些因素联合优化子变压器,并将它们组装在一起以解决域差异。此外,子变换器的集成是自适应的基础上的不同因素的影响,以产生更真实的图像与类似风格的目标域的每一个具体而言,传输网络包含三个因子GAN和一个emergency GAN。它们都是基于F:T→ S是映射函数。 两个AD-对抗鉴别器DT、DS用于区分是否从源(目标)域翻译样本为了简化,我们只考虑将样本从源域S映射到目标域T,而忽略反向过程。与[30]类似,四个GAN用于图像到图像转换的总体损失表示为:L_gan=L_adv+λ1·L_cyc+λ2·L_ide(2)其中L_adv用于将经翻译图像的分布与目标域中的数据分布Lcyc试图在翻译和反向翻译的循环之后恢复原始样本,而Lide鼓励风格转移以保持颜色之间的一致性。原文和译文。与具有对抗性损失、周期一致性损失和身份映射损失的原始CycleGAN模型不同,三因子GAN被精心设计为集中于将图像转换为成像因子的目标风格,即。照明、分辨率和摄像机视点。一方面,三因素GAN在其域间差异主要由三个因素分别引起对于预训练照明GAN,通过利用随机伽马校正来创建具有不同照明条件的图像集合[24]在源域中。创建的集合与源数据集一起为了预训练分辨率GAN,我们在源域中对图像进行下采样,以创建具有多个分辨率的图像集合。对于预训练相机视图GAN,我们使用来自源域中任何两个不同相机的图像进行预训练。所有创建的图像将不会在网络的后续端到端训练过程中使用。另一方面,将光照约束和分辨率约束引入到光照GAN和分辨率GAN中,进一步保证了原始图像和平移图像的风格照明约束的公式如下所示:Lill(G,F,H)=Ex <$p(x)[<$H(G(x))−H(x)<$1](3)其中H(·)表示抽象照明不敏感特征[39]。该约束能够加强原始图像和翻译图像之间除了照明条件。因此,照明GAN的最终总损失为:解析约束的公式如下所示72062XXXx xxLres(G,F,I)=Ex <$p(x)[<$I(G(x))−I(x)<$2](4)其中I(·)表示提取分辨率不敏感特征[13]。该约束保持了除分辨率变化之外的样式一致性分 辨 率GAN 的最终总损失为:Lgan+η2·Lre s 。更重要的是,三个因子的GAN反映了风格差异的程度,译文与译文之间的差异可以看作是三个因素对译文的不同影响。如果相关损耗较小,则该因子对于畴隙更为关键。因此,这三个因素的权重得分是相关损失的倒数。然后通过softmax函数对三个权重得分β= ( β1 , β2 , β3 ) 进 行 归 一 化 , 并 将 其 用 于emergency GAN。Emergency GAN将自适应融合图像特征zx作为输入,其计算如下:每个图像,表示为用于因子GAN的自适应集合的逐样本影响幅度。我们使用选择网络来推断β。这使得ATNet在测试过程中避免了生成假图像和计算损失的过程,从而大大降低了计算成本。选择网络包含四个卷积层和一个全连接层。具体地,四个卷积层的内核大小为分别为4×4×64、4×4×128、4×4×256、4×4×256-实际上,这些层的填充和步幅是1,2. 每个卷积层后面是一个批归一化(BN)和一个整流线性单元(ReLU)层。最后一个全连接层有6个隐藏单元。全连接层的输出特征表示一对图像的三在训练阶段,选择网络将来自源域和目标域的一对图像作为输入,从传递网络计算的这对图像的权重分数被视为地面真值。 我们优化了选择网-zx=[β11· zx;β22· zx;β33· zx],zx∈R64×64×768(5)与MSE损失。在测试阶段,选择网络的输出权重得分被提供给执行机构其中z1,z2,z3∈R64×64×256为图像特征GAN,用于生成最终的风格转换图像。x x x从三个因子GAN的相关编码器中提取。然后,将融合后的图像特征发送到具有1×1×256滤波器的卷积层和解码器,以生成最终的翻译图像。Emergency GAN也有一个识别器来区分样本是否是真的还是假的此外,将Jensen-Shannon发散约束添加到图像特征z1、z2、z3,用于执行具有不同语义信息的学习特征,其公式如下:3.4.特征学习一旦我们获得了风格转换的数据集G(S),它由具有关联标签的翻译图像组成,特征学习步骤与超集相同。人的重新识别方法。由于我们主要关注源-目标图像转换的步骤,因此我们采用ResNet-50和GoogleNet模型作为基线,遵循工作[3,33]。在测试过程中,我们可以 从 ResNet-50 模 型 中 提 取 2048-dim 行 人 特 征 , 从GoogleNet模型中提取4096-dim行人特征,1 231 2 1 3 23在欧氏距离下进行trieval,并测试性能。Ljs(zx,zx,zx)=f(zx,zx)+f(zx,zx)+f(zx,zx)(六)其中f表示两个分布之间Jensen-Shannon散度的倒数,z1,z2和z3是目标域上的mance。4. 实验在本节中,我们进行了大量的实验,以通过softmax函数归一化图像特征仿真GAN的总损耗为(Lgan+η3·Ljs),用于优化传输网络的参数。Embryant GAN和三因子GAN具有类似的架构,其中生成器包含9个残差块[8]和4个卷积层,而判别器是70×70PatchGAN [10]。更多细节可以参考[48]。中的解码器和鉴别器仿真GAN和三因子GAN共享相同的参数。3.3.选择网络建立了选择网络模型,用以推断不同因素β=(β1,β2,β3)对转移的影响7207在三个广泛使用的人员重新识别基准上评估所提出的ATNet的性能,并将ATNet与最先进的方法进行比较。实验结果表明,ATNet在人员重新识别方面取得了优于UDA的性能。此外,我们研究了所提出的ATNet的有效性,包括三个因素的GAN和emergencyGAN。4.1. 实验设置数据集-在这项工作中,广泛的实验是在三个广泛使 用 的 数 据 集 上 进 行 的 , 即 Market-1501 ,DukeMTMC-reID和PRID 2011,以进行公平的比较和评估。7208Market-1,501数据集包含由6台相机拍摄的1,501个身份的32,643张图像。所有图像均由可变形零件模型(DEPERFORMAINED PARTModel,简称DEEP)检测器自动检测[4]。该数据集被固定地分为两部分,一部分包含750个身份的12,936幅图像作为训练集,另一部分包含751个身份的19,732幅图像作为测试集。DukeMTMC-reID数据集包含来自8个高分辨率相机的1,812个身份的36,411个手绘边界框。它被固定地分为两部分,一部分包含702个身份的16,522幅图像作为训练集,另一部分包含702个身份的17,661幅图库图像作为测试集。此外,还有2,228个查询行人图像。PRID2011数据集是从两个静态监控摄像头视图捕获的。相机视图A包含385人,相机视图B包含749人,其中200人出现在两个视图中。因此,在数据集中有200这些图像对被随机地分成相等大小的训练集和测试集。评价指标-评价指标-累积匹配特征(CMC)用于人员再识别的定量评价。CMC曲线中的rank-k识别率表示查询身份出现在前k位置的概率。另一个评估指标是平均精度(mAP),认为人的重新识别作为检索任务。实施细节-所提出的方法的实施是基于Pytorch框架与八个NVIDIA Titan XP GPU。三个数据集中的图像大小调整为256×256×3,小批量的数量为8. 建议的架构优化了20,000迭代-在每个时期,总共20个时期对于传输网络,我们采用Adam优化器[12],学习率为0.0002。 学习率在前10个时期保持不变,在最后10个时期线性衰减到零。参数λ1、λ2、η1、η2、η3分别被设置为10、5、2、1、1三因素GAN在源数据集和生成的数据集上进行预训练,其中三个因素(照明,分辨率和相机视角)的变化,emergency GAN从头开始训练对于选择网络,随机梯度下降(SGD)算法开始时学习率lr为0.01,权重衰减为1e−5,Nester o v动量为0.9。4.2. 与最新技术从大数据集转移到大数据集。Ta-表1显示了所提 出 的 ATNet 与 5 种 方 法 在 大 型 目 标 数 据 集(DukeMTMC-reID和Market-1501)上的CMC精度和mAP方面的性能比较。我们采用ResNet-50模型作为特征学习的基线,遵循工作[3]。当在DukeMTMC-reID上进行测试时,Market-1501被用作源图3.原始图像及其风格转换图像的示例-图像到图像转换后的图像。(Best颜色显示)数据集,反之亦然。“监督学习”表示使用来自目标数据集的标记训练集。 “Di- rect Transfer” means directlyapplying the source-trained model CycleGAN(基于),CycleGAN(base+Lide)和SPGAN是最先进的方法。当比较监督学习方法和直接转移方法(66.7%vs33.1%,75.8%vs43.1%),可以观察到在目标域上使用直接转移方法时,由于不同域 中 数 据 分 布 的 偏 差 , 性 能 下 降 很 大 。 当 在DukeMTMC-reID上进行测试时,所提出的ATNet实现了45.1%的rank-1识别率和24.9%的mAP得分。我们可以看到,我们的方法提高了3.7%的rank-1识别率和2.6%的mAP得分的第二个最好的比较方法SPGAN。在Market-1501上进行测试时,本文提出的AT-Net获得了55.7%的rank-1识别率和25.6%的mAP得分.可以观察到,我们的方法提高了第二最佳比较方法SPGAN 4.2%的rank-1识别率和2.8%的mAP得分。比较表明,建议的ATNet的有效性,以产生更逼真的翻译图像,弥合域差距。图3中给出了一些生成结果的图示。从大数据集转移到小数据集。表2显示了所提出的ATNet与3种方法在小目标数据集(PRID 2011)上CMC准确度方面的性能比较。我们采用GoogleNet模型作为特征学习的基线,遵循工作[33]。Market-1501和PRID 2011用作源数据集7209方法市场-1501→DukeMTMC-reIDDukeMTMC-reID→市场-1501秩-1秩-5十阶20级地图秩-1秩-5十阶20级地图监督学习66.779.183.888.746.375.889.692.895.452.2直接转移33.149.355.661.916.743.160.868.174.717.0CycleGAN(base)[48]38.154.460.565.919.645.663.871.377.819.1CycleGAN(碱+Lide)[48]38.554.660.866.619.948.166.272.780.120.7SPGAN [3]41.456.663.069.622.351.570.176.882.422.8ATNet45.159.564.270.124.955.773.279.484.525.6表1.分别在DukeMTMC-reID和Market-1501数据集上的rank-k识别率和mAP得分方面与最先进的方法进行了性能比较方法市场-1501→ PRID 2011cam1/cam2cam2/cam1秩-1十阶秩-1十阶监督13.043.011.038.5直接转移5.026.011.040.0[33]第三十三话17.550.58.528.5[33]第三十三话10.031.510.537.5ATNet(cam1)24.051.521.546.5ATNet(cam2)15.051.014.041.5表2.在PRID 2011数据集上的rank-k识别率方面与最先进方法的性能比较。方法市场-1501→DukeMTMC-reID秩-1秩-5二十阶地图ResGAN37.953.964.021.3CamGAN38.153.863.921.4illumGAN39.854.365.221.7不带照明GAN的41.255.566.422.9ATNet不带CamGAN42.155.666.223.1不带ResGAN的43.357.868.823.7ATNet w/o adaptive42.656.667.523.4ATNet45.159.570.124.9表3.在DukeMTMC-reID数据集上评估ATNet中每个组件的有效性和目标数据集。下标cam1和cam2表示传送的目标数据 集 PRID-cam1 和 PRID-cam2 。 “cam1/cam2” meansusing samples in PRID- “Supervised learning” de- notesPTGAN是最先进的方法。在Marker-1501数据集上训练的GoogLeNet在PRID 2011上仅达到5.0%的Rank-1准确率,这意味着Market- 1501和PRID 2011之间存在很大的领域差距。当在PRID-cam1上传输时,所提出的ATNet实现了24.0%和21.5%的秩1识别,PRID-凸轮1和PRID-凸轮2的点火率分别作为查询集。可以观察到,我们的方法相比PTGAN分别提高了6.5%和13.0%的rank-1识别率。在PRID-cam2上传输时,ATNet对PRID-cam1和PRID-cam2的rank- 1识别率分别为15.0%和14.0%,比 PTGAN 的实验 结果表明 ,ATNet在PRID2011数据集上训练,在其他数据集上训练,能够达到合理图3中给出了一些生成结果的说明。4.3. 消融研究为了证明ATNet每个组件的有效性和贡献,我们使用Market-1501数据集作为源域,在DukeMTMC-reID数据集上进行了一系列消融实验。所提出的三因素GAN的影响。我们进行实验以验证表3中三个因素GAN对性能的影响。ATNet w/o il-lumGAN、ATNet w/o CamGAN和ATNet w/o ResGAN分别指的是没有照明GAN、相机视点GAN和分辨率GAN的ATNet模型。这些模型分别达到41.2%、42.1%和43.3%rank-1识别率分别为22.9%,23.1%,23.7%mAP评分。从表3中,我们可以观察到它们的性能不如ATNet,这表明了ATNet的有效性,它将物理先验纳入UDA,并利用多因素GAN将桥接域间隙的复杂问题分解为处理不同因素引起的域间差异。通过对三种模型性能的比较,表明照明GAN是弥补区域差距的最重要的网络分支。拟议的雇佣军GAN的影响我们还进行了实验,以验证的有效性,7210使用表3中的自适应集成策略执行GANResGAN、CamGAN 和 illumGAN 仅 使 用 UDA 的 单 个 分 辨 率GAN、相机视点GAN和分辨率照明GANATNet w/oadaptive 是 指 没 有 自 适 应 增 强 策 略 的 ATNet(β1=β2=β3=1/3)。 从表3中可以观察到,与其他三个模型相比,ATNet w/o自适应获得了42.6% 的rank-1识别率和23.4%的mAP分数的更好性能,这表明集成GAN用于处理由多个因素引起的域间差异的有效性超过了针对一个因素的一个因素GAN。此外,ATNet w/o自适应模型的性能不如ATNet,这表明基于三个因素的不同权重的自适应集成策略的有效性,因为这些因素可能对每个不同样本的成像过程有不同的影响。我们还在图4中显示了三个因素GAN及其相关权重得分的一些生成结果与源图像相比,来自三个因子GAN的翻译图像的图像风格是不同的 我们可以看到,来自照明GAN的图像偏暗,来自分辨率GAN的图像更加模糊,这表明因子GANs能够处理不同因素引起的域间差异。通过比较各因素的权重值,可以看出光照条件是影响畴隙的主要图4. Market-1501中图像到图像翻译的可视化示例,并带有权重分数。第一列中的图像来自Market-1501。中间三列中的图像是从照明、相机视点和分辨率GAN转换的图像。最后一列中的图像是最终生成的图像。(Best颜色显示)ATNet对关键参数的敏感性。参数η1、η2和η3是所提出的ATNet的关键参数,其分别控制所提出的照明约束、分辨率约束和Jensen-Shannon发散约束的相对重要性。 我们进行了实验,以评估η1,η2,η3的影响。结果如图5所示。当调整一个参数的值时,其他参数也被固定。 从图5中可以看出,当η1=2,η2=1,η3=1时,ATNet产生最佳的重识别性能,优于没有三个附加约束(η1=0,η2=0,η3=0)的ATNet。这一比较验证了所提出的ATNet的有效性,通过使用三个额外的约束。图5.对具有不同参数η1、η2、η3值的建议ATNet进行评估。5. 结论在本文中,我们提出了一种新的自适应传输网络(ATNet),它着眼于产生显着的域间离散的基本成像因素,解决了跨域的个人重新识别问题我们提出了一个“分解和集成”的解决方案,以解决复杂的跨域传输。ATNet被设计为包含多因子GAN,一个集成GAN和一个选择网络。虽然每个因子GAN集中于细粒度级别的因子式精确风格转移,但集成GAN自适应地融合因子GAN以实现有效的域转移。因子和集成GAN以端到端的方式联合优化。选择网络被开发来感知各种因素对将不同图像转移到目标域的影响。在多个基准测试上的大量实验表明,所提出的ATNet在很大程度上优于最先进的方法。确认本 工 作 得 到 了 国 家 重 点 研 发 项 目2017YFB1300201 、 国 家 自 然 科 学 基 金 61622211 和61620106009 以 及 中 央 高 校 基 础 研 究 基 金WK2100100030的资助引用[1] 苏铁:周期一致的对抗域适应。在第35届马-7211chine Learning,pages 1989[2] S. Bak,P. Carr和J. - F.拉隆德通过合成的领域自适应用于无监督的人重新识别。在2018年9月举行的欧洲计算机视觉会议上[3] W. 邓小平说,L. 小郑:G. 康Y. 小杨,Q. Ye和J. Jiao.图像-图像域自适应与保持自相似性和域不相似性的人重新识别。在IEEE计算机视觉和模式识别会议论文集,第6-16页[4] P. Felzenszwalb,D. McAllester和D. Ramanan区分训练的多尺度可变形零件模型。在IEEE计算机视觉国际会议论文集,第1-8页。IEEE,2008年。[5] B. 费尔南多,A.哈布拉德M.Sebban和T.Tuytelaars 使用子空间对齐的无监督视觉域自适应。在IEEE计算机视觉国际会议论文集,第2960-2967页[6] B.贡,Y. Shi,F. Sha和K.格劳曼用于无监督域适应的测地线流核。在IEEE计算机视觉和模式识别会议论文集,第2066-2073页[7] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D.沃德-法利,S。奥扎尔A. Courville和Y.本吉奥。生成性对抗网。在Proceedings of the International Conferenceon Neural Information Processing Systems,第2672-2680页[8] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第770-778页[9] M.希尔策角,澳-地别列兹奈山口M. Roth和H.比肖夫通过描述性分类和判别性分类对个体进行再识别斯堪的纳维亚图像分析会议论文集,第91-102页。Springer,2011.[10] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉国际会议的Proceedings中,第2500-2510页[11] M. M. Kalayeh 、E.Ba s aran,M.Gokmen,M. E.Kamasak和M. Shah.人的语义分析用于人的重新识别.在IEEE计算机视觉和模式识别会议论文集,第1062- 1071页[12] D. P. Kingma和J. BA. Adam:随机最佳化的方法。在2015年学习代表国际会议的会议记录中[13] C. 莱迪格湖Theis,F.Husza'r,J.Caballero,A.坎宁安A.阿科斯塔A. P. Aitken,A. Tejani,J. Totz,Z. wang等人使用生成对抗网络的照片级逼真的单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集,第4-14页[14] W. Li,X.zhu和S.龚通过多损失分类的深度联合学习进行人员重新识别国际人工智能联合会议论文集,第2194-2200页,2017年[15] W. Li,X. zhu和S.龚和谐关注网对人的重新识别。在IEEE计算机视觉和模式识别会议论文集,第2-12页[16] Y.-- J. 李,F.-E. 杨玉C. 刘玉-Y. 是的XDu和Y.-C. F.王.适应和重新确定网络:一种无监督的深度迁移学习方法来重新识别人。在IEEE计算机视觉和模式识别会议论文集,2018。[17] S. 廖,Y.Hu,X.zhu和S.Z. 李基于局部最大发生表示和度量学习的人物在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第2197-2206页,2015年。[18] G.利桑蒂岛Masi和A.德尔·宾博使用核典型相关分析在摄像机视图在分布式智能相机国际会议论文集,第10页。ACM,2014年。[19] J. 刘志-J. 查湾,印尼-地Tian,中国粘蝇D.Liu,T.姚湾,澳-地Ling和T.美.多尺度三元组cnn用于人的再识别。在ACM多媒体会议会议的会议记录中,第192-196页。ACM,2016。[20] J. Liu,Z.- J. Zha,H.谢、Z. Xiong和Y.张某Ca 3 net:用于个人再识别的情境-注意-属性-外观网络。ACM多媒体会议论文集,第737-745页。ACM,2018。[21] N. McLaughlin,J. Martinez del Rincon,和P.米勒用于基于视频的人物再识别的回流卷积网络。在IEEE计算机视觉和模式识别会议论文集,第1325-1334页,2016年。[22] 诉M. 帕特尔河戈帕兰河Li和R.切拉帕 视觉主适应:最近进展的综述。IEEE信号处理杂志,32(3):53[23] P. Peng,T. Xiang,Y.湘,四川人Wang,M. Pontil,S.龚氏T. Huang和Y.田用于人员重新识别的无监督跨数据集 转 移 学 习 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第1306-1315页[24] E. Reinhard,M.阿迪赫明湾Gooch和P.雪莉图像之间的颜色转换。IEEE计算机图形学与应用,21(5):34[25] K.萨延科湾库利斯,M。Fritz和T.达雷尔。使视觉类别模型适应新领域。欧洲计算机视觉会议论文集,第213-226页,2010年。[26] J. Si,H.张角G. Li,J. Kuen,X.孔氏A. C. Kot,以及G. 王. 基于上下文感知特征序列的双重注意力匹配网络在IEEE计算机视觉和模式识别会议论文集,第1249-1258页,2018年[27] B. Sun,J. Feng,and K.萨恩科令人沮丧的简单域适应的回归。在AAAI人工智能会议论文集,第8-18页[28] B. Sun和K.萨恩科Deep Coral:Correlation Alignment forDeep Domain Adaptation.欧洲计算机视觉会议论文集,第443-450页,2016年7212[29] C.塞格迪W.刘先生,Y.贾,P.SermanetS.里德D.安格洛夫,D。Erhan,V. Vanhoucke,和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集,第1-9页[30] Y. Taigman、A. Polyak和L.狼无监督跨域图像生成。arXiv预印本arXiv:1611.02200,2016。[31] R. R. Varior,M. Haloi和G.王.用于人类重新识别的门控连体卷积神经网络架构。欧洲计算机视觉会议论文集,第791-808页。施普林格,2016年。[32] J. Wang,X. Zhu,S. Gong和W.李可转移联合属性身份深度学习用于无监
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功