没有合适的资源?快使用搜索试试~ 我知道了~
稳定特征生成算法在孤立摄像机监控下的应用
20238孤立摄像机监控下的稳定特征生成算法吴朝1,葛文航4,吴安聪4,常晓斌1,2,3*1中国中山大学人工智能学院2广东省大数据分析与处理重点实验室广州510006 3机器智能与先进计算教育部重点实验室4中山大学计算机科学与工程学院wuch76@mail2.sysu.edu.cn,gewh@mail2.sysu.edu.cn,wuanc@mail.sysu.edu.cn,changxb3@mail.sysu.edu.cn摘要为了学习用于人重新识别(Re-ID)的相机视角不变特征,每个人的跨相机图像对起着重要作用。然而,这种交叉视图训练样本在隔离摄像机监督(ISCS)设置下可能不可用,例如,部署在远处场景的监视系统为了处理这个挑战问题,引入了一个新的管道,通过在特征空间中合成交叉相机样本进行模型训练。具体而言,特征编码器和生成器在一种新的方法下进行端到端的优化,相机条件稳定特征生成(CCSFG)。其联合学习过程引起了对生成模型训练稳定性的关注。因此,提出了一种新的特征生成器σ-正则条件变分自动编码器(σ- Reg.CVAE),并对其鲁棒性进行了理论和在两个ISCS人Re-ID数据集上的大量实验证明了CCSFG的优越性。11. 介绍人员重新识别(Re-ID)的目的是在监控网络中的不同摄像机之间检索同一个人。提取人图像的区别性视图不变特征在Re-ID任务中起着核心作用。利用在训练期间可用的每个人的跨相机图像,现有方法在不同的设置下取得了很大的进步,例如,受监督的[2,38,42,50]和无监督的[5,21,23,40]。同时也证明了跨摄像机样本对模型训练的重要性.然而,在一些现实场景下,在训练期间不保证这样的跨相机人物图像。 为*表示对应作者。1https://github.com/ftd-Wuchao/CCSFGID 1ID 2(a) 常规设置(b)ISCS设置图1.不同人员Re-ID设置下的训练样本图示。浅蓝色区域表示特征空间。不同的形状对应着不同的身份。不同的颜色意味着在不同的相机下。(a)在常规设置下,可以使用交叉摄像机人物(b)在用于模型训练的ISCS设置下没有例如,需要监视系统来重新识别跨越远处场景的人,例如,不同的城市,每个摄像头都是孤立的。收集足够多的跨相机人物图像用于模型训练的成本太高。一种更适用的解决方案是利用大量不同人的相机特定图像。由于在训练过程中跨相机图像对不再存在,因此许多现有方法[17,38,50,57]无法在此类数据上获得理想的这种具有挑战性的人员重新识别设置,称为隔离摄像机监督(ISCS),首先由[52]提出,称为单摄像机训练(SCT)。不同设置之间的1.一、为了处理具有挑战性的ISCS设置,现有方法[10,52]明确地将相机之间的特征分布与新的损失和网络架构对齐。在这ID 1ID 220239--图2.我们的ISCS设置管道。具有不同形状的点表示不同ID的特征。不同的颜色表示不同的摄像机视图v1,v2,. . .,vC.以不同相机视图为条件的特征样本由生成器G生成,示出为非实心点。交叉摄像机对因此可用于更好地训练编码器E。在本文中,我们遵循基于生成的替代管道。这背后的动机相当简单:由于交叉相机样本在每个Re-ID模型训练中起重要作用,而在ISCS设置下不存在这样的配对图像,因此可以通过生成的相机视图数据来补偿丢失的相机视图数据。具体而言,交叉相机样本是在特征空间中生成的首先,生成模型需要很大的努力来捕捉细节,如背景和光照,以提高图像的视觉质量。这种努力的回报可能不会直接反映在Re-ID上,并且不理想的生成图像甚至可能损害性能。相反,特征生成不受视觉质量的干扰,并且更集中于引入相机视图信息,同时保留所生成样本的辨别能力。通过生成不同人的相机条件特征,恢复了跨相机样本,并可用于训练更好的人图像编码器。综上所述,引入了一个新的流水线,通过合成交叉相机样本来处理ISCS设置,以更好地进行二、为了实例化上述流水线,提出了一种新的方法,相机条件稳定特征生成(CCSFG)。一个共同的CNN骨干被用作图像编码器E和相机条件变分自动编码器(CVAE)作为特征生成器G。由于编码器E和生成器G最初并不理想,因此它们应该联合优化以进行迭代改进。一方面,利用G产生的以摄像机为条件的更可靠的特征,E可以在相机之间更具区别性和更少变化另一方面,利用来自E的更具区别性的特征,生成器G可以更专注于捕获相机信息。然而,这种联合学习过程在训练生成器G时形成障碍。G的输入是仍在训练中的编码器E的输出。因此,这种输入的动态方差的扩大导致训练G的不稳定性,并最终导致整个模型的崩溃学习。为了解决这个问题,提出了一种新的生成模型,σ-正则CVAE(σ-Reg. CVAE),提出了一种简单有效的基于特征归一化的解决方案,并将其作为G.更重要的是,我们提供了理论分析,并证明它与实验。本文的主要贡献有三个方面。(1)为了处理具有挑战性的ISCS人员Re-ID问题,提出了一种新的流水线来显式地在特征空间中生成交叉视图样本,以更好地进行编码器学习。(2)在上述流水线的基础上,实现了一种新的编码器E和生成器G被联合优化以用于迭代改进。(3)为了实现CCSFG中稳定 的 联 合 学 习 , 提 出 了 一 种 新 的 生 成 模 型 σ-Reg.CVAE,并进行了详细的分析。建议CCSFG的有效性证明了其国家的最先进的性能在两个ISCS的人重新ID基准数据集。2. 相关工作人员重新标识设置。为了研究人员re-id的不同应用场景,提出了不同的基准设置数据集中的人物图像通常被假设为从具有相邻摄像机但不相交的监视区域的监视网络中捕获在监督设置[2,38,41,48,50]下,他们的身份被详细标记,并在不同的摄像机上对齐作为监督。无监督设置[5,9,21,40,53]比监督设置更具挑战性,因为它放弃了所有用于模型训练的ID标签为了帮助学习无监督目标数据集上的模型,额外的源标记数据在无监督域自适应(UDA)设置下可用[13,16,36,49,51]。此外,摄像机内监督(ICS)设置[22,29,46,47,59]提供了摄像机特定的ID标签,而没有摄像机之间的所有这些设置都带有每个人的跨相机图像,用于模型训练。二者的区别在于监督的程度和方式。最近提出的ISolated Camera Supervised(ISCS)person Re-ID设置[10,52]关注的是一个独特的场景,其中没有跨相机的人图像可用于模型训练。因此,为了学习视图不变模型,现有方法[10,52]处理这种挑战设置,其中数据分布而不是不同相机的样本对上20240CCL联系我们LG、E本文提出了基于生成的替代流水线,其动机简单而合理:重新覆盖关键的跨相机样本,并使用它们来增强模型训练。为了在新的相机视图下合成人物图像,现有的生成方法,例如,[57 ]第57话可以利用我们提出的方法,CCSFG,是基于跨相机特征生成代替。作为一个统一的模型,它的图像编码器E和特征生成器G进行了端到端的优化,以便相互改进。为了实现稳定的联合学习,提出了一种新的特征生成器,σ生成模型。变分自编码器(VAE)[18]和生成对抗网络(GAN)[11]是计算机视觉问题的两种广泛使用的生成方法,例如医学图像分割[1,34],潜在表示解开-[8,12]和图像背景建模[19,33]。基于GAN和VAE的方法在人的Re-ID问题中也发挥了重要作用。已经提出了不同的基于GAN的方法来增强监督设置下的训练人物图像[24,30,55,58]。弥合正倒向拉拉、推、G:- 雷吉CVAE发电量估算采样IFN图3.相机调节马厩功能概述UDA设置下不同数据集的域差距生成(CCSFG)方法。E表示要提取的编码器提出了基于GAN的方法[6,7,15,25,57]行人图像的特征。特征{gvi}i=1 是gen-来跨领域传递人物形象风格。现有的基于VAE的人Re-ID方法[28,31]主要集中在解纠缠表示学习,而不是显式生成样本。 据我们所知所提出的σ-Reg. CVAE是第一个用于ISCS人员Re-ID的基于VAE的特征生成器。在CCSFG方法下,CVAE和编码器被统一起来进行联合学习.然而,CCSFG中生成器的输入是仍在训练中的编码器的输出。因此,这些输入的巨大动态变化会导致训练G的不稳定性,并最终导致崩溃学习[4,32,39]。通过理论和实验分析,提出了一种简单而有效的解决方案,并将其与σ-Reg.CVAE。3. 方法3.1. 隔离摄像机监控人员重新识别由G条件化的身份y和相机的意见{vi}i= 1。 IFN表示生成器G的归一化模块。3.2. 相机调节的稳定特征生成我们提出了一种新的方法,相机条件下的稳定特征生成(CCSFG),ISCS的人重新ID问题。模型结构如图所示。3.第三章。它由两个部分组成,即人物图像编码器E和特征生成器G。普通人Re-ID骨干,例如,Resnet-50作为E,我们的新σ-Reg. CVAE作为发生器G。在训练过程中,E和G被联合优化以相互改进。一方面,生成器G以由E表示的特征作为输入进行训练,该特征由损失G编码|E. 另一方面,不同相机的功能{v1,. - 是的- 是的 ,v C}由G生成,用于E的训练。这被建模为损失LE|G. 总体培训目标训练集表示为D={(xn,yn,cn)}|nD=|1、因此,CCSFG成为,其中每个训练样本是具有人物图像xn的三元组,其身份标签yn ∈ {p1,. - 是的- 是的 ,p M}和凸轮-minL(G,E)=LG|E+ LE|G,(1)era label c nv1,. . .,v C. M和C表示总数不同的身份和摄像头的角度,分别。在ISCS设置下,训练集中不存在同一个人的跨相机图像,即, i,j∈{1,., |D|},如果ci=cj,则yiyj. 的其中E和G是用(G,E)进行端到端优化的。为了简化训练过程的呈现,默认情况下考虑一个训练样本(x,y,c)。对mini-batch的扩展很简单。通过编码器E提取人物图像x的外观特征,测试方案遵循常规程序。 给定查询对于行人的图像,Re-ID模型旨在从图库集合中检索同一个人的图像。其中f∈Rd.f=E(x),(2)20241ycL||||||µCyCyyC图4. σ-Reg的训练(估计)过程的说明。CVAE。生成的特征g服从解码分布,图5. σ-Reg. CVAE生成过程的图示。对标识标签y和不同摄像机视图的调节C CbutionP(f′|z,z,c,y)g iv en特征f′,身份标记y,以及{vi}i=1作为输入,相应的生成特征{gvi}i=1从解码器网络µ中获得。相机标签C。给定一个摄像机下的图像特征f,我们期望生成同一个人在其他摄像机下的图像特征。因此,所提出的生成器G是建立在条件变分自动编码器(CVAE)ar上的注册CVAE为,L EST(f<$,y,c |θ y,θ c,θ y,θ c,μ)=EQ (ZY|f<$,y)Q(zc|f<$,c)[−logPµ(f<$|zc,zy,c,y)]+D KL(Q)y(zy|f<$,y)||P θy(zy|y))(四)为了方便引入侧面信息,例如身份Y和摄像机视图C,G. 为了学习我们的生成器σ-Reg. CVAE的参数,损失G|E使用。它对应于G的估计阶段,如图所示3 .第三章。具体地,图像特征f是σ-Reg的输入。CVAE和归一化特征f'被获得,+DKL(Qc(zc|(f、c)||Pθc(zc|(c)),其中DKL表示Kullback-Leibler散度。这种损失的结构如图所示4.第一章潜变量zy和zc是从不同阶段的不同分布中采样的 。 培 训 期 间 zcQc ( zc|f<$ , c ) 和 zy<$Q<$y(zy|f<$,y),同时测试zc<$P θ(zc|c)和zy<$P θ(zy|y)。这种不一致性可以f<$= IFN(f),(3)harm the quality of the generated feature samples. 的高斯随机神经网络(GSNN)[35]方法被用来减轻这个问题的损失,其中IFN(·)是σ-R中的归一化函数,CVAE。LGSNN(f <$,y,c |θ y,θ c)=EPθ (ZY|y)Pθ(zc|c)[−logPµ(f<$|zc,zy,c,y)]。(五)它在CCSFG的稳定联合学习中起着重要作用,将在第二节中进行更详细的讨论。三点三σ-Reg的直接学习目标CVAE最大-发电机估算的总体目标σ-Reg. CVAE为,最大化条件对数似然logP(f<$c,y),这通常是棘手的。优化了它的变分下界minθy、θ c、θy、θ c、µLG|E=αLEST+(1 −α)LGSNN,(6)而不是引入潜在变量[35]。特别地,zy和zc是σ-Reg.CVAE中引入的两个潜变量,分别对应于给定的恒等条件y和摄像机条件c。它们的先验分布Pθy(zyy)和Pθc(zcc)用两个先验网络θy和θc建模。两个识别网络Zyny和Zync将(f<$,y)和(f<$,c)映射到它们的后验分布Q y(zyf <$,y)和Q c(zcf<$,c)。此外,解码分布Pµ(f<$zc,zy,c,y)由解码器网络μ建模。基于先前的子网和~20242L定义的分布,σ的适用学习目标,其中α作为平衡超参数。训练E。同一个人的交叉摄像机图像在训练图像编码器E中起核心作用,但在ISCS设置下不可用。利用我们的生成器G,σ-Reg. CVAE,对不同视角下的人的特征样本进行补偿,用于编码器E.因此,我们认为,E|G用于表示总体训练E的损失。为了获得合成的特征,所提出的σ-Reg. CVAE在生成模式下运行,如图所五、对于输入特征f′,其人20243∼|∼|联系我们Σ|||−2|| ·||L··我L|i=1我i=1我i=1我--i=1身份标签y,摄像机视图Vi,Vi,V1,.,vC和潜在变量zyPθy(zyy)和zcPθc(zcvi)给定,相机调节特征g可以从G的解码器网络μ生成gvi=μ(zc,zy,v i,y).(七)w/o IFN不同的{gv}C是通过保持身份来产生的-同样地,在摄像机V1上移动。因此,f及其相应的生成特征{gv}C形成同一个人ii=1然后可以对f′应用不同的判别损失以及{gv}C用于编码器E的学习。 一方面一方面,以身份标签y和摄像机视图Vi为条件,i=1,. ,C ,从生成器σ-Reg 生成的特征g v C 。CVAE是ID辨别和相机视图指定。 然而,一个理想的编码器E应该是从人物图像中提取有区别的和视图不变的特征f′。为了实现这一目标,图像特征f'与对应的图6. 左边的曲线v是在Market-SCT上训练期间具有和不具有IFN的生成模型的σ 2和v a r(f)的值。右上角的特征图(w/o IFN)对应于失败训练案例。右下角的特征图wIFN对应于成功的联合学习。特征图中的每个点都是一个人的生成特征,颜色表示不同的条件相机视图。{gv}C应最小化。通过将f′拉向不同的方向,费伦茨gvi不仅能保持它们的id区别信息,而且能消除f′中的摄像机视角相关信息。我们提出了一种新的交叉摄像机特征为了上述目的,校准(CCFA)损失C3.3. 训练中的稳定性在所提出的CCSFG中,编码器E和生成器G是联合学习的。图像特征f由E提取并用作训练G的输入。但是,F将LCCFA (f<$G)=1f<$gCvii=1|| ,(8)由于其编码器E也在训练,因此在训练步骤中会急剧变化。基于这样的输入,对生成器G的优化很容易失败,并破坏整个学习where denotes the feature norm.该损失仅用于编码器E的学习。另一方面,使用交叉熵损失L_IDLID(y,f<$|G)= − log(q[y]),(9)其中q[y]表示f<$在地面真值y上的恒等式预测。此外,MCNL损失[52],表示为MCNL,也被E.通过合计E的训练损失,|G是,LE|G =λ1LCCFA+λ2LID+λ3LMCNL,(10)其中λ1、λ2和λ3是平衡超参数。编码器E和我们的生成器G,σ-Reg. CVAE,是端到端优化的,具有以下损失,procedure.如示于图6.将失败训练生成的特征与成功训练生成的特征进行比较。无意义的分散特征是由失败案例产生的(右上),而具有清晰和有意义的聚类(ID)的更理想的特征来自稳定的训练(右下)。为了实现G和E的成功联合学习,提出的σ-Reg.CVAE被用作生成器G。Its IFN( ) module normalizesthe image feature f to f¯as in-提出了特征生成,并在稳定性中起着关键作用整个培训过程。无IFN()时,σ-Reg. CVAE退化为使用图像特征f作为输入的常规CVAE图像编码器E和常规CVAE作为G的联合学习将以后向崩溃结束现将这些问题解释如下。考虑到常规CVAE(w/o IFN)用作发生器G。它的学习目标遵循Eq。(4)作为EST(f,y,cθy,θ c,θ y,θ c,μ),其中f而不是f′ as输入. 在[4,32,39]之后,这个损失可以重写为:L(G,E)=αLEST+(1−α)LGSNN+λ 1 LCCFA + λ 2 LID + λ 3LMCNL。(十一)w IFN时代20244d2d2L EST=||f − g||+ln σσ22(十二)在测试过程中,通过学习的编码器E提取人的外观特征用于检索。+D KL(Q)y(zy|(f、y)||P θy(zy|y))+DKL(Qc(zc|(f、c)||Pθc(zc|(c)),20245|DDLLL×σ2L·√||−||×·≈当量(十六)当量(十二)后塌陷σ2的值因此通过IFN的引入而被正则化。因此,我们提出的生成器被称为σ-Reg. CVAE,以突出这样的机制。var(f′)和图7.大var(f)对CVAE训练的影响。如图所示,用g代替μ(zc,zy,c,y)。假设解码分布Pµ(f zc,zy,c,y)为各向同性高斯分布,P µ(f |zc,zy,c,y)= N(g,σ2I),(13)其中d在Eq.(12)是f的特征维数。当量 假设输入特征f服从各向同性高斯分布,其中平均值作为生成的特征g并且方差值作为σ2。 在特征对(f,g)可用的情况下,σ2通过下式估计,01-02||f−g||2)。此外,输入特征f具有其自己的方差var(f)。定义为,10)A= 0(||f − E(f)||2)。(15)对于对准损耗CCFA(等式(8)培训E是EST中的重建项(等式(12))对于G的训练,输入f的固有特性,例如,E(f),可以由解码器网络μ捕获(对于如等式1中的g生成)。(7)在CVAE中,即,gE(f),因此,σ2σvar(f)。(十六)在联合学习过程中,编码器E的训练导致图像特征的快速变化,从而产生巨大的var(f)。在没有对输入f进行归一化的情况下,CVAE捕获这样的方差并导致如等式2中的大σ 2。(十六)、在ISCS数据集上联合学习E和CVAE的具体示例如图所示 6(左),其中σ2近似为σ2。 如红色曲线所示,va r(f)和σb2的值如预期的那样急剧上升。 然而,σ 2的大值阻止CVAE从其输入学习作为EST等式中的重构项fg2上的权重d。(12)相对较小。这在训练VAE中被称为后塌陷[4,32,39]上述分析如图所示7 .第一次会议。训练G的失败也会破坏E的训练。我们的σ-Reg. CVAE所采用的IFN()是一种简单的统计标准化技术,IFN的σ2是图11中的绿色曲线。 六、var(f<$)fixed因为应用了IFN(),所以在1处。σˆ21、首先根据Eq。 (十六)、 然而,σ2是估计值而不是σ2本身。 如Eq. (14),σσ2也反映了EST等式(12),逐渐减少在训练过程中,如绿色实心曲线所示。4. 实验数据集。为了评估和比较ISCS人员Re-ID设置下的不同方法,两个基准数据集[10,52],即,市场SCT和MSMT-SCT的开发。这些数据集是建立在源数据集Market- 1501 [54]和MSMT 17 [44]上的,只保留来自一个相机的每个人的图像用于训练。由于没有跨相机的人图像和较少的训练样本,ISCS设置下的数据集比源数据集更具挑战性。请注意,MSMT17是一个包含从不同时间段和各种场景收集的人物图像的数据集。它包含更多的相机视图,15,而不是只有6和8的同行。因此,MSMT-SCT可以更好地模拟ISCS人员Re-ID场景。在测试数据不变的情况下,报告了常规人员Re-ID评价指标、累积匹配特征(CMC)和平均平均精度(mAP)。实施详情。 我们的图像特征编码器是ImageNet预训练的Resnet-50,遵循现有的工作[10,52]进行公平比较。我们还采用了本地分支机构的架构,如[10]。小批量在图像数据增强的情况下设置为128[14]。 亚当优化器使用的初始学习率为3. 5 10−4,在第100和第000个历元衰变,衰变因子为0.1,重量衰变为5 10−4。训练的总次数是500。超参数α、λ1、λ2和λ3分别设置为0.2、0.5、4、1。所有实验都可以在NVIDIA 2080TiGPU上运行4.1. 结果所提出的CCSFG与不同的国家的最先进的方法进行了比较。除了用于ISCS设置的现有方法(CCPP [10],MCNL [52] ) 外 , 其 他 方 法 , 如 图 像 生 成 ( HHL[57]),分布对齐(MMD [27],CORAL [43]),自监督学习(Sim- Siam [3]),度量学习(中心损失[45],A-Softmaxf−E(f)(十七)[20],ArcFace [26])和基线(PCB [38],Suhf= IFN(f)=var(f)+α,其中,k是一个小值。它对CVAE的输入f<$施加了一个硬约束var(f<$)=1,并消除了发生器输入的急剧变化的影响从等式(16)[37][41][42][43][44][45][46][47][48][49][4包括在内。结果见表。1.一、建议CCSFG实现优越的结果,所有的竞争对手。在我们的CCSFG和第二位方法CCFP [10]之间可以观察到明显的边缘,20246L表1.不同方法在ISCS人员Re-ID设置下的性能†表示使用重新排序技术[56]。方法市场-SCTR-1R-10地图R-1R-5R-10地图PCB [38](ECCV----43.5--23.5Suh----48.0--27.3MGN-ibn [41](ACMMM27.838.644.111.745.661.269.326.6Bagtrick [17](CVPR20.431.037.29.854.071.378.434.0[50]第五十话23.033.940.011.156.072.379.136.6中心损失[45](ECCV 16)----40.3--18.5A-Softmax [20](CVPR----41.9--23.2[26]第二十六话----39.4--19.8[3]第三届全国政协委员2.85.98.41.236.251.959.118.0MMD [27](ICML42.255.861.418.267.783.188.244.0CORAL [43](ECCV42.655.861.519.576.288.593.051.5HHL [57](ECCV31.442.548.111.065.680.686.844.8[52]第52话26.640.046.410.067.082.887.941.6CCFP [10](ACMMM50.163.368.822.282.492.695.463.9CCFP† [10](ACMMM54.965.069.533.684.190.993.178.2CCSFG(我们的)54.667.773.124.684.994.396.267.7CCSFG†(Ours)61.271.175.137.887.192.895.082.6是基于自学习和特征对齐的最先进的ISCS Re-ID模型。Comparing with CCFP, CCSFG achieves 6.3% R-1and 4.2% mAP improvements on MSMT-SCT. Market-SCT的此类改善为3.0% R-1和4.4% mAP。ISCS对人员Re-ID的设置具有挑战性。现有的许多方法都不能达到理想的性能。图像生成方法HHL [57]可以通过生成用于训练的交叉摄像机图像改进基线方法,并实现与ISCS方法MCNL [ 52 ]相当的性能。然而,生成具有捕获的跨相机视图信息的人图像是一项具有挑战性的任务。分布对齐方法MMD [27]和CORAL [43]也实现了相当好的性能。它们对齐不同相机视图的整体特征分布。在CCSFG中还使用了特征对齐损失 CCFA(等式。(8)在不同相机下对准图像特征及其生成的特征。4.2. 仔细的分析在本节中,我们从不同的角度对我国的CCSFG进行了详细的分析。可视化。如图8、CCSFG模型可以提取和生成有意义的特征。首先,基于个人身份形成明显的聚类,这反映了不同的特征是有区别的。其次,所生成的特征gs是id区分的和视图变化的,如椭圆内不同颜色的密集点所示因此,生成器G可以处理由y和c提供的身份和摄像机视图信息,以生成有意义的特征图8. CCSFG在Market-1501上制作的培训功能的可视化(t-SNE)点是通过以下方式生成的要素G. 恒星是保留图像的在Market-SCT。三角形是在ISCS设置下Market-1501删除图像的E图像特征。不同的颜色表示不同的相机。椭圆形中的特征属于同一个人。gs(点)。第三,在ISCS设置下由E在训练图像上提取的特征f被示出为星形。在指定的摄像机下,fs能够与生成的gs此外,在ISCS设置下删除的跨相机每个子图像被馈送到训练的编码器E中,并且它们的特征被示出为三角形。的20247表2.不同生成器的联合学习稳定性。CCSFG与我们的σ-Reg.CVAE。基线仅与编码器一起使用方法MSMT-SCT市场-SCT秩-1地图秩-1地图基线26.610.067.041.6CVAE [35]12.15.258.137.7σ-CVAE [39]11.24.159.338.6CCSFG54.624.684.967.7同一个人的星形和三角形高度重叠,这表明编码器E可以提取具有区分性和视角不变的个人图像特征。最后,这样一个理想的特征图证明了CCSFG实现了稳定有效的联合训练。模型稳定性分析。分析不同发电机训练稳定性的定性结果见第二节。3.3以及理论分析。这里提供了定量结果,以进一步评估不同生成器模型对联合学习的影响,如表1所示。二、除了与vanillaCVAE [35]进行比较外,在σ2上没有任何正则化,建议的σ-Reg.CVAE与σ-CVAE [39]试图在训练 然而,CVAE和σ-CVAE都不能稳定训练程序。联合学习图像特征编码器与这样的发生器甚至可以损害per-speech。条件变量的影响。为了验证条件变量y和c对于特征生成的必要性,我们对它们进行了消融研究,如表10所示。3 .第三章。当身份标签y和相机标签c都没有在G中用于特征生成时,我们的σ-Reg. CVAE退化为基于VAE的模型。其生成的特征g不受摄像机和ID信息的限制,相应的训练目标仅是减小g与输入特征f′之间的距离。如选项卡的第一行3、这样的发生器伤人Re-ID性能.此外,G可以仅为了特征生成而结合y或c。通过考虑更多的条件,特别是恒等标记y,可以获得实质性的改进。由于对y的调节可以保证所生成的特征中的区分能力,并且编码器E可以在联合学习中受益于它们。在我们的发生器σ-Reg CVAE中对y和c进行调节,明显提高了性能。这些结果证明了y和c对于在CCSFG的联合学习中生成有用特征的重要性交叉摄像机身份重叠率。在现实世界的监控应用中,不同摄像机上的人员完全不重叠可能是一个强有力的假设。因此,应考虑不同比例的跨相机重叠身份。随着存在更多人的更多交叉相机图像(由表3.分析了状态变量对发电机的重要性。条件变量y和c分别表示身份G是σ-Reg。CVAE。方法MSMT-SCT市场-SCT秩-1地图秩-1地图Gw/oyc12.46.343.624.8Gw/c22.612.349.331.6Gw/y36.215.377.154.3G w/yc54.624.684.967.7重叠身份比率图9. Market-1501上重叠身份的无线电分析。重叠ID的比率越高),相同人的更多训练样本被给予不同的ID标签。因此,所获得的模型更差,如图所示。9.第九条。然而,我们的CCSFG能够经受住这一挑战,并稳定在SOTA水平的性能.5. 结论在本文中,我们专注于处理具有挑战性的独立摄像机监督(ISIC)的人Re-ID问题,其中跨摄像机图像对不可用于模型训练。为了补偿丢失的跨相机数据对,介绍了一种新的基于特征生成的流水线。在此流水线之 后 , 我 们 提 出 了 相 机 调 节 稳 定 特 征 生 成(CCSFG),这是合成跨相机特征样本的第一种方法,并以图像编码器E和特征生成器G之间的联合学习结束。提出了一种新的生成模型σ-Reg. CVAE作为G,以实现稳定的联合学习.理论分析和实验结果证明了CCSFG的有效性。潜在的负面社会影响:作为一种更先进和鲁棒的视觉数据特征学习技术,所提出的方法可能会被滥用于未经授权的监控。谢谢。这项工作得到了支持国家青年科学基金(62106289、62106288)、国家博士后创新人才培养计划(BX 20200395)、国家博士后科学基金(2021M693616 ) 和 珠 海 市 产 学 研 合 作 项 目(ZH22017001210010PWC)。秩-1地图20248引用[1] 克 里 斯 蒂 安 ·F 放大图片作者: Kerem Can Tezcan ,Krishna Chai-ta n ya,AndreasM. 你好,乌尔斯·J。放大图片作者:Muehlematter,Khosch ySchawkat,Anton S.贝 克 尔 , 奥 利 维 奥 · 多 纳 蒂 , 安 德 · 科 努 科 格 鲁 。Phiseg:捕获医学图像分割中的不确定性。第22届医学图 像 计 算 和 计 算 机 辅 助 干 预 国 际 会 议 ( MICCAI2019),第17765卷,第119-127页,2019年。3[2] Xiaobin Chang,Timothy M Hospedales,and Tao Xiang.用于人员重新识别的多级分解网络。在IEEE计算机视觉和模式识别会议论文集,第2109-2118页,2018年。一、二[3] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第15750-15758页六、七[4] Bin Dai,Ziyu Wang, and David P.Wipf 常见的嫌疑人?重新评估VAE后塌陷的责任。在第37届国际机器学习会议的论文集,ICML 2020,2020年7月13日至18日,虚拟事件,机器学习研究论文集第119卷,第2313PMLR,2020年。三五六[5] 戴永兴,刘军,白燕,童泽坤,段凌宇。双炼:无监督域自 适应 人再识 别的 联合标 记和 特征细 化。 IEEETransactions on Image Processing , 30 : 7815-7829 ,2021。一、二[6] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。2018年IEEE/CVF计算机视觉和模式识别会议,第9943[7] 丁浩,乔思远,刘晓波。Yuille和Wei Shen用于实例分割的深度形状引导级联。在IEEE/CVF计算机视觉和模式识别会议论文集,第8278-8288页,2021年。3[8] 克 里 斯 · 多 纳 休 , 扎 卡 里 ·C. Lipton , AkshayBalsubramani,and Julian J.麦考利生成对抗网络的潜在空间语义分解在2018年国际学习代表会议上。3[9] 范呵呵,梁铮,严成刚,杨毅。无人监管人员重新识别 : 聚 类 和 微 调 。 ACM Transactions on MultimediaComputing , Communications , and Applications , 14(4):83,2018. 2[10] 葛文航,潘春燕,吴安聪,郑宏伟,郑伟世。跨相机特征预测用于跨距离场景的相机内监督人重新识别。第29届ACM国际多媒体会议论文集,第3644-3653页,2021年。一、二、六、七[11] Ian J. Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron C.Courville和Yoshua Bengio。生成性对抗网。在NIPS,2014。3[12] IshaanGulrajani、Kundan Kumar、Faruk Ahmed、AdrienAli Ta g a、FrancescoVisin、D a vidVa′zquez和AaronC.考 维 尔 像 素 化 : 自 然 图 像 的 隐 变 量 模 型 . InICLR(Poster),2016. 3[13] 何凌霄,梁健,李海青,孙振安。用于部分人重新识别的深度空间特征重建:无对准方法。2018年IEEE/CVF计算机视觉和模式识别会议,第7073-7082页,2018年。2[14] Lingxiao He , Xingyu Liao , Wu Liu , Xinchen Liu ,Peng Cheng,and Tao Mei.Fastreid:一个pytorch 工具箱,用于一般实例的重新识别。arXiv预印本arXiv:2006.02631,2020。6[15] Yan Huang , Qiang Wu , Jingsong Xu , and YiZhong.Sbsgan:用于人重新识别的域间背景偏移的抑制。在2019年IEEE/CVF计算机视觉国际会议(ICCV)上,第9527-9536页,2019年。3[16] Takashi Isobe,Dong Li,Lu Tian,Weihua Chen,YiShan,and Shengjin Wang.面向无监督人员重新识别的判别表示学习。IEEE/CVF计算机视觉国际会议论文集,第8526-8536页,2021年。2[17] Armand Joulin,Edouard Grave,Piotr Bojanowski,andTomas Mikolov.有效的文本分类技巧包。 在计算语言学协会欧洲分会第15届会议的会议记录中:第2卷,短文,第2卷,第427-431页,2017年。一、六、七[18] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。CoRR,abs/1312.6114,2014。3[19] Bo Li,Zhengxing Sun,and Yuqi Guo. Superpix-elwise变分自动编码器,用于显著对象检测.在AAAI人工智能会议论文集,第33卷(1),第8569-8576页,2019年。3[20] Chao Li , Xiaokong Ma , Bing Jiang , Xianang Li ,Xuwei Zhang,Xiao Liu,Ying Cao,Ajay Kannan,andZhenyao Zhu.深度发言人:端到端神经扬声器嵌入系统。arXiv预印本arXiv:1705.02304,2017。六、七[21] 李佳宁和张世良。 联合视觉和节奏- 无监督域自适应人物
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功