没有合适的资源?快使用搜索试试~ 我知道了~
8526基于判别表示学习的无监督身份再识别Takashi Isobe1,2,Dong Li1,Lu Tian1,Weihua Chen3,Yi Shan1,ShengjinWang2*1 Xilinx Inc.,中国北京2清华大学3阿里巴巴集团{dongl,lutian,yishan}@xilinx.comjbj18@mails.tsinghua.edu.cnwgsg@tsinghua.edu.cnkugang. alibaba-inc.com摘要在这项工作中,我们解决的问题,无监督域适应的人重新ID注释可用于源域,但不为目标。以前的方法通常遵循两阶段优化管道,其中网络首先在源上进行预训练,然后使用通过特征聚类创建的伪标签在目标上进行微调。这种方法存在两个主要局限性。(1)标签噪声可能阻碍用于识别目标类别的区分特征的学习。(2)领域差距可能会阻碍知识从源到目标的转移。我们提出了三种技术方案来缓解(一)(b)第(1)款(c)第(1)款这些问题首先,我们提出了一个集群明智的对比学习算法(CCL)的特征学习和集群精炼的迭代优化学习噪声容忍表示在无监督的方式。其次,我们采用了一个渐进的领域适应(PDA)策略,逐步减轻源和目标数据之间的领域差距。第三,我们提出了傅立叶增强(FA),通过在傅立叶空间中施加额外的约束,进一步最大限度地提高类分离的re-ID模型我们观察到,这些建议的计划是能够促进歧视性特征表示的学习。实验表明,我们的方法在多个基准测试中始终实现了对最先 进的无监 督re-ID方法 的显着改 进在 Market-to-Duke 、 Duke-to-Market 、 Market-to-MSMT 和 Duke-to-MSMT 任 务 上 , 分 别 大 幅 超 过 MMT 8.1% 、 9.9% 、11.4%和11.1%。*通讯作者标记源域无监督域自适应傅立叶空间跨批样本���t↑目标空间袋聚类���联系我们源未标记的靶结构域目标类别识别8527图1.给定标记的源数据和未标记的目标数据,我们的目标是学习用于识别目标类的特征表示对于这种无监督域自适应任务,我们提出了三种技术方案来学习区分性目标特征:(a)聚类对比学习,(b)渐进域自适应,(c)傅立叶增强。1. 介绍人员再识别是智能监控中的一项重要任务,其目的是在不同的摄像机视角下识别出人员。由于深度卷积神经网络(CNN)的进步,最近的人员重新识别方法已经取得了令人印象深刻的性能[52,67,51,31,6,88,27]。然而,成功主要归功于对大量人类标记数据的监督学习对耗时的手动注释的需要实质上限制了re-ID模型的可扩展性。此外,直接将预先训练的re-ID模型应用于其他新领域可能会由于不同监控摄像机之间的固有数据分布偏移而导致显著的性能下降无监督域自适应(UDA)8528因此吸引了很多注意力,以使在标记的源域上学习的模型现有的无监督re-ID方法通常依赖于使用通过目标域上的聚类算法生成的伪标签的迭代训练[79,70,17,35]。这些现有的方法已经显示出有希望的结果,但仍然维持两个主要的限制。(1)标签噪声可能会误导使用未标记的目标数据进行网络训练的未预期的优化方向。(2)知识(即在源上学习的区分个人身份的模型能力)不能通过简单地微调源模型而被充分地转移到目标为了缓解这些问题,我们研究了三个方面,以促进学习的区别性特征表示,更好地识别目标类(1)减少标签噪声的未标记的目标数据,(2)更好地转移知识学习从源到目标,(3)增加额外的训练约束。因此,我们提出了一个统一的框架来实现这些目标。首先,受最近用于无监督视觉表示学习的对比学习算法[21,8,66]的启发,我们提出了一种聚类对比学习算法来学习未标记目标数据上的噪声容忍表示(图1(a))。具体地,我们构造基于动量的移动平均(MMA)特征编码器并构建动态队列以跨多个小批次提供足够的负样本与实例式监督[21,8,66]不同,我们结合了由聚类生成的聚类式监督,这适用于高级re-ID任务。我们的对比学习和特征聚类是以交替的方式进行的,这样可以大大减少伪标签的噪声。其次,大多数现有方法应用两阶段训练过程,其中网络首先在源上进行预训练,然后在目标上进行微调我们没有直接进行微调,而是在两个域上采用了一种协作学习机制,并使用了一个共享的特征编码器(图1(b))。通过逐步降低源端训练权重和增加目标端训练权重,可以更好地将模型区分身份的能力从源端转移到目标端。第三,我们建议在傅立叶空间中施加额外的约束,以最大化re-ID模型的类可分性(图1(c))。我们将幅度谱特征视为一种非线性变换,并计算额外的损失函数(例如,交叉熵损失)来增强训练。总之,使用所提出的方法,我们可以学习更好的判别特征表示,并进一步提高无监督re-ID的最新性能。本文的主要贡献概括如下。(1)我们提出了一个集群明智的对比学习算法,学习噪声容忍的特征表示的未标记的目标数据。在特征的迭代优化过程中,大大降低了标签噪声聚类和学习。(2)我们提出了一个渐进的域适应策略,逐步转移的知识学习的标记源域到未标记的目标域的无监督重新识别。(3)我们建议施加傅立叶约束以进一步最大化模型的类我们观察到频谱特征可以与空间特征互补,并且有利于提高re-ID性能。(4)实证评估表明,我们的方法始终优于- forms现有的国家的最先进的方法在多个基准的大幅度。特别是,使用相同的ResNet-50 主 干 , 我 们 在 Market-to-Duke , Duke-to-Market,Market-to-MSMT和Duke-to-MSMT任务上分别超过MMT [17] 8.1%,9.9%,11.4%和11.1%的mAP。2. 相关工作无监督视觉表示学习。非监督视觉表示学习的目的是从大规模的未标记图像中学习丰富的特征表示,这也与我们的工作有关。无监督学习的核心思想是构造自由监督的借口任务典型的方法包括通过自动编码器恢复输入图像[57,43,77],预测空间位置。上下文[13,40],聚类特征[4,3],跟踪[61]或分割视频中的对象[42]以及区分实例样本[66,21,8]。与[21]类似,我们还构建了一个对比自监督学习框架来学习未标记目标域上的表示。然而,在对比依赖于实例明智的监督,通过最大限度地提高同一实例的不同增强视图之间的协议,我们将集群明智的监督迭代聚类到对比学习产生的。我们观察到类信息更适合于学习用于re-ID任务的判别表示此外,我们不是从队列[21]中收集所有样本,而是过滤掉与锚具有相同伪类的样本,对比学习也广泛用于许多监督学习方法,其中训练样本是现成的标签。在这项工作中,我们专注于如何收集有意义的对,并减少标签噪声在无监督的情况下。无监督域自适应。通用的无监督域自适应(UDA)方法解决了目标域与源域共享相同语义类的闭集问题。典型的UDA方法专注于通过对齐源域和目标域之间的数据分布来减少域差异[69,47,74,46,48],训练对抗域分类器以鼓励源域和目标域的特征无法区分[78,55,28],或学习特定域性质[2,19,38,78,5]。在这项工作中,我们解决了更多8529·St我LL我 i=1我我我i=1--DD{}具有挑战性的开放集问题的UDA的重新ID,其中的类之间的源和目标域是不共享的。事实上,我们的方法不依赖于类的任何假设。源和目标之间的类可以完全相同、完全不同或部分共享。无监督跨域人员重新ID。虽然监督人re-ID方法已经在训练数据域上取得了很好的性能[23,52,67,41,42]。51,31,6,88,24,25,80],当直接在不同域上测试时,准确度通常显著下降。近年来,无监督跨域身份识别方法[7,12,49,34,60,83]引起了人们的广泛关注。解决这个问题。典型的方法[79,70,44,17,71]将标记源域上的预训练模型作为初始化特征编码器,并通过度量学习或无监督聚类在未标记目标域上进一步优化它我们不是直接微调源模型,而是逐步将知识从源转移到目标。一些方法[17,86,73]将软标签应用于目标训练,这可以在优化过程中在一定程度上减少噪声的影响。NRMT [81]引入了协作聚类来适应噪声实例。最近的另一项工作[75]试图从风格转移的图像中学习域不变特征。DG-Net++ [89]将每个域的特征空间分解为id相关和id不相关的分量。然而,模型性能在很大程度上取决于图像生成质量,并且如何优化学习表示的类可分性通常被忽略。最近的工作[18,82]联合优化源和目标域以产生可靠的伪标签。我们的工作与[18]在对比学习方面有关。主要区别有三方面。(1) 对于对比损失,[18]在两个域上集成了实例级,集群级和类级监督,而我们只对目标数据采用集群级监督此外,我们不依赖于额外的技巧来选择集群(例如,[18]中使用的独立性或紧性(2) [18]还执行源域和目标域的联合学习。不同的是,我们专注于渐进式训练,逐渐降低源权重并增加目标权重。(3)[18]仅依赖于传统的空间特征,而我们建议添加傅立叶约束以提高re-ID模型的类可分性。学习Fourier空间离散傅里叶变换(DFT)是一种经典的数学变换方法,它将有限个值序列转换成不同频率的分量,在数字信号处理、图像处理等领域有着广泛的它的快速傅立叶变换(FFT)算法和离散余弦变换(DCT)算法在数据压缩中得到了广泛的应用。最近,还探索了通过对核权重的频率系数进行源fs fsce三GT标签编码器ft ftce三ft,Fft,F伪标签ce三M(·)ftCCL目标入队MMA编码器下降...具有实例删除的动态队列源流目标流量K(·)傅里叶变换目标训练重量10e1e2e3 时代源训练权重10e 1e2e3时期聚类图2.所提出的用于无监督跨域人员重新ID的统一框架的图示。进入散列桶[9],丢弃低能量频率系数[63]或使用带限频谱进行训练[14]。最近的另一项工作尝试直接从傅立叶空间中的压缩表示中学习[54,20,15,68],以进行有效的训练和推理。为了减少源和目标分布之间的差异,FDA [72]通过交换源与目标的低频频谱,在傅立叶空间中采用风格转移,这在语义分割方面显示出有希望的结果。然而,图像级的感知变化可能会导致显着恶化的人重新ID的性能与现有方法不同的是,我们应用一维FFT将网络的输出从空间空间转换到傅立叶空间,然后结合FFT特征计算的损耗进行网络优化。3. 方法我们将源域数据表示为(xs,ys)Ns,其中xs和ys指示第i个训练样本及其对应的类别标签。目标域表示为t=xtNt,其中类别标签不可用。无监督跨域人员re-ID的目标是学习映射函数f θ()以识别类别标签(即个人身份),其中θ是要学习的参数。 一般优化目标可以公式化为:L(θ)=λs(e)·L(θ)+λt(e)·L(θ),(1)其中s和t分别指示源域和目标域λs(e)和λt(e)是随时间变化的变量(e表示epoch),分别用于控制源域和目标域上的8530--←LLpnθ角θˆn图3.为了进行公平的比较,我们首先在标记的源数据上对网络进行预训练,然后在目标上使用不同的对比学习方法对这些网络进行“B”、“M”和“C”分别表示“基线”、“MoCo”和“CCL”。大多数现有的方法采用两阶段优化流水线来解决这个任务。也就是说,首先使用地面实况标签在源上对模型进行预训练,然后使用通过聚类生成的伪标签在目标上进行微调。我们将两阶段基线方法公式化为:(a) 人员重新标识性能(b)聚类性能图4.所提出的渐进域自适应(PDA)在re-ID和聚类性能方面的图示(a)测试集上的re-ID性能(mAP和rank-1准确度)。(b)训练集上的聚类性能(NMI [64]和F-测量[1])。过去和当前特征之间的关系,其在训练期间更新为θmθ+(1 m)θ这里,m是动量系数,在我们的方法中被设置为0.99我们只S sL(θ)=λs(e)·(Lce(θ;y)+Ltri(θ;y))+λt(e)·(Lce(θ;y(t)+Ltri(θ;y(t)),(二)更新常规编码器θ的参数,通过因此,对于MMA编码器θe,梯度反向传播和约束无梯度反向传播。对于锚xt,我们选择其正值λs(e)=1e∈(0,e1] 0e∈(e1,e2],λt(e)=0e∈(0,e1] 1e∈(e1,e2](3)在当前批次内取样,并从先前批次中收集过去的阴性样品。为了实现跨批抽样,我们建立了一个动态队列来记忆过去其中ce和tri表示交叉熵分类和三重态损失[26],相对于水平。ys和yt分别表示源上的真实类标签和目标上的伪标签然而,通过聚类生成的伪标签不可避免地包含噪声(即,噪声)。错误的标签),这可能在网络训练期间导致错误的优化方向。3.1. 分簇对比学习为了减少未标记目标数据上的标签噪声,我们提出了一种聚类对比学习算法,该算法受到了最近成功的非监督特征学习的启发[21,62]。详细地,我们以交替的方式执行在每轮交替训练中,我们首先采用无监督特征聚类(例如,DBSCAN)来生成伪标签,并设计一个簇式对比损失来训练网络:exp(fθ(xt)fθ(xt)/τ)特征N过去。然而,简单地将所有过去的特征作为负样本是不合理的,因为先前的批次可能包含锚的正样本。因此,基于在当前轮中生成的伪标签,我们从队列中丢弃与锚具有相同类的实例,以确保负样本的质量通过跨多个批次收集足够的阴性样本用于训练,与在单个批次内具有非常有限的训练样本的朴素对比损失我们将CCL与MoCo [21]之间的主要差异总结如下。首先,MoCo依赖于通过最大化相同实例的不同增强视图之间的一致性来进行实例方面的监督,而我们通过利用由聚类生成的伪标签来构建用于学习的对来我们观察到这样的类信息更适合于重新ID任务。第二,与在整个训练过程中不断更新队列不同,我们在新一轮特征聚类更新伪标签时刷新队列,这是由于特定类别标签的事实。tp(4)Lccl(θ)=−logΣexp(f(xt)f(xt)/τ),训练样本在不同聚类程序.其中xtxt表示肯定的(即, 相同伪图3加强了我们的直觉,即集群智能超级类)和负(即,不同的伪类)采样到xT。表示用于保持一致性的基于动量视觉对于re-ID性能至关重要。MoCo在这两个基准上几乎都失败了。通过与基线(Eq. 2),MoCo仍然产生较差的结果。一个人可以推理..xn∈N过去8531LM·LLLLspaMoCo的实例级监督及其优化目标与re-ID任务不同。利用逐实例对的训练可能阻碍特征表示的学习以区分不同的我们还发现,CCL可以在两个基准点上大幅提高基线,从而验证了我们方法的非平凡设计和有效性3.2. 渐进式域自适应单独训练每个域(等式3)对于知识转移来说不是最优的,尤其是当源域和目标域之间存在很大差异时。此外,当标记的源图像的数量是有限的,它很容易导致过拟合陷阱,阻碍知识从源到目标的转移。为了缓解这个问题,我们提出了一个渐进的域自适应策略,以逐渐优化(θ)从源到目标。具体来说,我们随着时间的推移降低源训练权重并增加目标训练权重。与两阶段训练基线不同(Eq.3),我们可以将λs和λt公式化为:(a) 不含FA(a)含FA图5.分析提出的傅里叶增强(FA)在使用t-SNE [56]可视化的特征空间。(放大以获得最佳视野)计算所述目标数据的所述交叉熵损失。为了更好地理解所提出的傅立叶增强方案,我们提供以下方面的分析。 (1)()可以看作是一种非线性映射。因此,对空间和傅立叶特征的联合训练意味着针对不同的非线性特征λs(e)=1、e∈(0,e1]w(e),e∈(e1,e2],λt(e)=0,e∈(e2,e3]0,e∈(0,e1]1−w(e),e∈(e1,e2] 1,e∈(e2,e3](5)训练图像。我们凭经验发现,这样的幅度谱特征比额外的单个MLP层表现得更好(2)图5可视化了有和没有我们的傅立叶增强的CNN特征分布。他定性其中w(e)定义衰减策略。 例如,多-步骤策略可以在图2中示出。 培训专业-cess根据Eq. 5.首先,我们遵循有监督的re-ID中的常见做法,在源((θ)=s(θ))上预训练模型,作为后续优化的初始化。其次,我们在源域和目标域上联合训练网络。对于标记的源数据,优化目标保持与预训练阶段相同。 对于未标记的目标数据,结果表明,通过对训练施加这些额外的约束定性的结果表明,通过施加这些额外的训练约束,可以更好地区分不同的类(3)在数学中,Parseval在我们的例子中,关系变为:1二、二优化目标是CCL、交叉熵和基于伪标记的三联体损失。 第三,由于我们fθ(x)(六)目标是尽可能准确地预测目标类,我们只在最后阶段((θ)=t(θ))继续用目标数据训练网络 图4显示了整个训练过程中的聚类和re-ID性能。根据聚类性能,结果表明,我们的方法可以逐步减少标签噪声和产生清洁的集群相比,两阶段的基线。根据re-ID性能,结果表明,我们的方法可以逐步学习更好的特征,并取得更高的识别性能比基线。其中D表示特征长度。根据这种性质,基于欧几里德距离的三重态损失对于空间和傅立叶特征将是等效的因此,我们仅在傅立叶空间中添加交叉熵损失。3.4.整体优化我们的方法的总体优化目标可以定义为:s t t t3.3.傅立叶增强受[53]的启发,我们考虑在傅立叶空间中施加额外的优化约束具体地,我们首先应用快速傅立叶变换(FFT)来计算实部和虚部。L ( θ ) =λs ( e ) ·L+λt ( e ) · ( δLccl+γLspa+(1−γ)Lfre),(7)其中γ是平衡空间和傅立叶损失的损失权重δ控制聚类对比学习的效果我们计算了交叉熵和三重态损失1D CNN输出特征的零分量然后,我们利用振幅谱M(x)=|| F(f θ(x))||到对于Ls和Ltfre只计算交叉熵损失L.不8532†方法PersonX-to-Market PersonX-to-MSMT方法车辆ID到VeRi车辆X到VeRi表1.无监督跨域人员re-ID的多个基准测试的性能比较监督基线通过使用目标数据的地面真实标签用交叉熵和三重损失进行训练来通过在傅立叶空间中组合损失来†表示我们使用DBSCAN聚类算法重新实现[17]以进行公平比较。“Ours*”的结果是通过将所提出的方法与[17]引入的软交叉熵损失、软三重损失和相互学习策略相结合来获得的。方法地图秩-1地图秩-1地图秩-1地图秩-1PUL [16]HHL [85]PTGAN [65]TJ-AIDL [59]ARN [33]MMFA [34]PDA-Net [32]PCB-PAST [79]SSG [70]CR-GAN [10]ECN++[87]MMCL [58]SNR [29]DG-Net++[89]NRMT [81]MEB-Net [76]MMT(k-均值)[17]MMT(DBSCAN)†[17]SpCL [18]TOMM'18Copyright ©2018 - 2019www.cncnc.com AllRightsReserved.粤ICP备18032888号-1ICLR'20NeurIPS'2016.4 30.027.2 46.9- 二十七点四23.0 44.333.4 60.224.7 45.345.1 63.254.3 72.453.4 73.048.6 84.754.4 74.051.4 72.458.1 76.363.8 78.962.2 77.866.1 79.665.1 78.062.7 76.8- -20.5 45.531.4 62.2-38.626.5 58.239.4 70.327.4 56.747.6 75.254.6 78.458.3 80.054.0 77.763.8 84.160.4 84.461.7 82.861.7 82.171.7 87.876.0 89.971.2 87.773.5 89.7- -- -- -2.9 10.2- -- -- -- -13.2 31.6- -15.2 40.415.1 40.8- -- -19.8 43.7- -22.9 49.224.4 50.726.8 53.7- -- -3.3 11.8- -- -- -- -13.3 32.2- -16.0 42.516.2 43.6- -- -20.6 45.2- -23.5 50.125.2 53.2- -基线基线+ CCL基线+CCL + PDA基线+CCL + PDA + FA基线+CCL + PDA + FA我们我 们的 *53.7 69.959.6 75.067.3 80.969.4 82.770.8 83.563.6 82.571.1 87.880.3 92.582.2 93.683.4 94.214.5 33.320.1 42.730.7 59.032.9 61.835.8 65.817.1 38.422.9 48.430.1 59.532.7 62.736.3 66.6监督基线72.384.482.893.644.772.444.772.4监督基线+FA74.486.084.594.847.175.247.175.2表2.在合成到真实的设置下与最先进的无监督re-ID方法进行比较。mAP秩-1mAP秩-1MMT [17]70.786.218.239.5SpCL [18]73.888.022.747.7我们78.491.326.250.1我们的 *79.692.528.953.2表3.与其他无监督域自适应方法的车辆重新识别任务的比较。MMT的结果取自[18]。mAP秩-1mAP秩-1MMT [17]35.374.635.676.0SpCL [18]38.479.938.382.1我们41.283.641.485.3我们的 *42.784.742.586.54. 实验4.1. 数据集我们在三个真实世界的人re-ID数据集上评估所提出的PDA算法:DukeMTMC-reID [45]、Market- 1501 [84]和MSMT 17 [65]。DukeMTMC-reID数据集表4.与其他对比学习方法和我们的方法的性能比较“”表示我们基于官方代码的实现。交叉熵和三重态损失不用于这里的所有实验。方法mAP秩-1mAP秩-1SupCon† [30]66.0 79.475.4 88.1[66]第六十六话1.94.12.45.9[21]第二十一话10.317.711.726.2CCL(我们的)56.8 71.967.5 84.2包含1,812个身份,其中36,411个图像由八个相机捕获,其将702个身份与16,522个图像分离以用于训练,并且将剩余的图像用于测试。Market-1,501数据集由六个相机捕获的1,501个身份的32,688个图像组成,其中训练集包含751个身份的12,936个图像,并且测试集包含750个身份的19,732个图像。MSMT 17数据集是大规模的人re-ID数据集,其由15个相机捕获的4,101个身份的126,441个边界框组成,其中1,041个身份的32,621个图像用于训练。我们报告了四个真实世界的未监督域适应任务的性能:公爵到市场,市场到公爵,公爵到MSMT和市场到MSMT,其中市场对公爵公爵对市场从市场到公爵公爵到市场市场对MSMT公爵对MSMT8533×个×个×个方法市场对公爵公爵对市场地面实况标签仅在源上提供。我们还在合成到真实的设置下进行域适应实验,其中PersonX [50]用作合成源域。我们使用标准的平均平均精度(mAP)和累积匹配特性(CMC)在秩-1的准确性作为评估指标。4.2. 实现细节我们使用网络(例如,ResNet-50 [22])在ImageNet[11]上预训练我们先训练表5.消融研究提出的集群明智的对比学习(CCL)算法的市场到公爵和公爵到市场的基准。交叉熵和三重态损失用于这里的所有实验。在源上e1=20个时期的网络进步在源域和目标域上训练时,我们采用k步策略,其中源域和目标域的损失权重分别为分别降低和增加k倍我们训练30个时期(即,E2=50)。为了尽可能地学习区分性特征以区分目标类,我们继续为了仅在另外30个时期中用目标数据优化模型e3=80)。MMA编码器的输出用于推理。 对于超参数δ和γ,我们进行参数分析以获得最佳选择(δ=0. 1,γ = 0。7)在市场到杜克基准上,并将它们固定在其他基准上。对于分簇对比学习,我们将温度参数τ设置为0。07[21]并将队列的最大长度设置为1024。 训练数据被裁剪为256 128,并通过翻转和旋转以0.5的概率来增强。 该网络采用Adam优化器进行优化,β1= 0。9,β2= 0。999重量衰减为510-4。 我们设置一个恒定的学习率为3。510-3整个训练过程。我们所有的实验都是在PyTorch 1.1和4个TITAN XP上进行的GPU。在Duke-to-Market、Market-to-Duke、Market-to-MSMT、Duke-to-MSMT上训练我们的模型分别花费8、10、15、15小时4.3. 与最先进技术的我们将所提出的算法与表1中的用于无监督跨域人员re-ID的多个现实世界基准上的最先进的方法进行我们的方法始终优于现有的方法由一个大的margin,金,并实现了最佳的mAP性能的所有四个基准。具体而言 , 使 用 相 同 的 主 干 ( ResNet- 50 ) 和 聚 类 算 法( DBSCAN ) , 我 们 的 方 法 超 过 MMT [17] 8.1%,9.9%,11.4%和11.1%mAP市场对公爵,公爵对市场,市场对MSMT和公爵对MSMT的基准。与其他最近的无监督re-ID方法(例如,通过交替训练和聚类[70,75,81]或通过GAN生成合成训练数据[10]),我们的PDA方法也可以在mAP和秩-1准确度方面获得优异的性能。与也使用对比学习的[18]相比,我们的方法在Market-to-MSMT基准上取得了显着的收益,例如,+9.0% mAP和+12.1%的1级准确度。我们实施两个监督使用目标数据的地面实况标签,使用标准交叉熵和三重损失的基线。我们的方法可以在具有挑战性的无监督学习场景中实现类似或相当的结果我们还在表2中的合成到真实设置下与现有的无监督re-ID方法进行比较我们的方法在两个基准上都以较大的裕度一致地超过现有技术的方法,例如,在PersonX-to-Market上,表现优于[18] 5.8%的mAP和6.2%的rank-1准确度我们还在表3中的其他对象re-ID基准[37,36,39]上评估了我们的方法。我们的方法实现了比MMT和SpCL更优越的性能溶剂ID至VeRi和溶剂X至VeRi的mAP分别为SpCL的+4.3%和+4.2%。4.4. 消融研究Algorithmic Components的贡献。表1还示出了来自每个算法组件的相对贡献我们的聚类对比学习算法带来了基线的显著改进,例如,53.7% vs. 59.6% mAP(市场对杜克)。利用所提出的渐进式域自适应策略,我们获得了另一个显著的性能增益,例如,59.6%vs. 67.3%。通过在傅立叶空间中添加额外的训练损失,我们可以为所有四个基准测试获得约2% mAP的一致改进通过将我们的方法与MMT提出的其他训练策略(例如,软损耗和相互学习),我们可以进一步获得改进的性能。对比学习的消融研究。首先,我们将所提出的CCL算法与表4中的三种对比学习方法进行为了进行公平的比较,我们首先在标记的源数据上对网络进行预训练,然后用目标上不同的对比损失对这些网络进行对于监督基线[30],我们使用目标数据的GT对于其他未监督的对比学习方法[66,21],我们发现它们在这些基准测试中几乎失败。这是因为实例级监督通常用于学习一般特征表示,并且其优化目标与re-ID任务不同。直接将这种逐实例对应用于地图秩-1地图秩-1(i)。w/o群集对37.350.746.166.5(ii)。w/o过去的底片66.880.078.692.7(iii)。不删除实例68.181.481.093.0(iv). |= 512 |= 512(v). |= 1024 |= 1024(vi)。|=2048|= 204868.569.467.682.082.780.881.682.280.793.493.6九十二点九8534||方法市场对公爵公爵对市场表6.所提出的进行性域adap的消融研究-表7。不同非线性映射的比较市场对公爵和公爵对市场的基准。mAP秩-1mAP秩-1(i)。源仅31.148.833.762.3(ii)。两阶段训练62.177.774.089.2(iii)。静态重量(0.8; 0.2)51.967.262.779.1(iv).静态重量(0.5;0.5)56.273.866.884.2(五).静态重量(0.2; 0.8)58.874.968.885.5(vi)。2-阶梯政策67.881.280.892.4(vii). 3-阶梯政策69.482.782.293.6(viii)。4-阶梯政策68.281.681.192.9(ix)。线性政策67.681.080.792.5训练可能妨碍模型区分不同高级类的可辨别性(即,个人身份)。其次,我们对表5中的聚类对比学习算法不带- out集群式对(即,使用如[21]中的实例式对),性能在两个基准上都显著下降(例如,在市场到杜克上只有37.3%mAP,在杜克到市场上只有46.1%mAP而不收集过去迭代中的负仅从当前批次中收集它们)或不丢弃来自过去特征的肯定实例,两个实验都获得了降低的性能。我们还测试了不同大小的队列来存储过去的特征以进行训练,并发现(N)past=1024在我们的设置中表现最好。渐进权重的效果。我们进行消融实验以显示表6中的我们的渐进式域适应策略的有效性。(i)的结果表明,通过在目标上直接测试预训练的源模型而不进行训练,性能很差这并不奇怪,因为没有知识转移到未标记的两阶段训练(即,首先对源进行预训练,然后对目标进行微调)与我们的渐进式训练策略相比获得较差的我们测试了不同的组合的静态损失权重的联合训练源和目标。最佳选择(λ s=0. 2,λ t=0。8)仍然比我们的渐进权重差我们还研究了不同的多步策略以及线性策略1,并发现3步策略在我们的实验中表现最好。傅立叶空间与空间。我们的傅立叶增强的动机是利用额外的特征空间来促进网络训练。我们将所提出的FA与表7中的其他替代非线性映射进行比较。所提出的FA在Market-to-Duke和Duke-to-Market基准测试中优于单个MLP层(FC+ReLU),这验证了所提出的方法的优越性利用仅用于训练的空间特征或傅立叶特征,我们在两个基准上实现了类似的结果(例如,67.3% vs.67.6% mAP(上市至Duke)。通过联合训练1线性策略:w(e)=1·e+e2方法mAP秩-1mAP秩-1MLP68.2 81.581.3 93.2空间67.380.980.392.5Fourier67.681.380.892.6空间+傅立叶69.482.782.293.6表8.损耗重量δ和γ的烧蚀研究。损失权重从市场到公爵公爵到市场δ值γ射线地图秩-1地图秩-1066.780.979.491.20.010.50.767.768.281.782.480.180.992.192.8166.180.278.590.6067.681.380.892.60.10.569.282.481.893.60.769.482.782.293.6167.380.980.392.5066.079.877.391.310.566.880.578.191.90.767.280.978.792.5165.479.176.590.8空间和傅立叶空间,我们可以进一步提高性能。超参数分析为了研究损失权重δ和γ的重要性,我们通过在固定δ下将γ从0改变到1来进行实验。表8示出了δ=0。1且γ=0。7在市场对公爵和公爵对市场基准上表现最好。5. 结论在这项工作中,我们提出了一个统一的框架,通过incor-poration三个技术方案,以解决具有挑战性的无监督跨域re-ID问题。为了学习噪声容忍的特征表示,我们提出了一个集群明智的对比学习算法,通过迭代优化的特征学习和聚类。我们采用渐进式训练机制,逐步将知识从源转移到目标,而不是简单地此外,我们在傅立叶空间上施加额外的训练约束,以进一步最大化re-ID模型的类可分性。我们的方法在多个基准上的表现始终优于先前的无监督re-ID方法。我们相信,这项工作的扩展是解决大的变化(例如,大姿态、部分遮挡)。致谢我们衷心感谢Yuwing Tai和Xin Tao的有益讨论。本 工作得到国家 自然科学基 金项目批准 号:61771288,北京国家信息科学技术研究中心跨媒体智能技术项目,批准号:BNR2019TD01022和批准号为:2019GQG0001来自清华大学郭强研究所大学e1−e2e2−e1从市场到公爵公爵到市场8535引用[1] Enrique Amigó,Julio Gonzalo,Javier Artiles,and FelisaVerdejo.基于形式约束的外部聚类评价指标的比较。信息检索,12(4):461[2] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。InNeurIPS,2016.[3] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类在ECCV,2018。[4] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练在ICCV,2019年。[5] Woong-Gi Chang、Tackgeun You、Seonguk Seo、SuhaKwak和Bohyung Han。用于无监督域自适应的特定于域的批量归一化。在CVPR,2019年。[6] Xiaobin Chang,Timothy M Hospedales,and Tao Xiang.用于人员重新识别的多级分解网络。在CVPR,2018年。[7] Xiaobin Chang , Yongxin Yang , Tao Xiang , andTimothy M Hospedales.不相交标签空间迁移学习与公共分解空间。在AAAI,2019年。[8] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐和杰夫·弗雷·辛顿.视觉表征对比学习的一个简单框架。在ICML,2020。[9] Wenlin Chen,James Wilson,Stephen Tyree,Kilian QWein-berger,and Yixin Chen.在频域中压缩卷积神经网络。InKDD,2016.[10] 陈燕北,朱夏天,龚少刚。用于跨域人员重新识别的实例引导上下文渲染。在ICCV,2019年。[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。CVPR,2009。[12] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在CVPR,2018年。[13] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,2015年。[14] Adam Dziedzic 、 John Paparrizos 、 Sanjay Krishnan 、Aaron Elmore和Michael Franklin。卷积神经网络的带限训练和推理。在ICML,2019。[15] 马克斯·埃利希和拉里·S·戴维斯。jpeg变换域中的深度残差学习在ICCV,2019年。[16] 范呵呵,梁铮,严成刚,杨毅。未监督人员重新识别:聚类和微调。TOMM,
下载后可阅读完整内容,剩余1页未读,立即下载



















安全验证
文档复制为VIP权益,开通VIP直接复制
