跨数据集人员重新识别的姿势分解和适应方法

9 浏览量更新于2023-10-12 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7919跨数据集人员重新识别通过无监督的姿势分解和适应李玉哲1，2，3，林慈祥1，2，林延波1，王玉强1，2，31国立台湾大学，台湾2台湾科技部人工智能技术与全维斯塔医疗联合研究中心3华硕智能云服务，台湾{d08942008，d08942011，r06942048，ycwang}@ ntu.edu.tw摘要人物重新识别（Re-ID）旨在从不同相机拍摄的图像中识别同一个人。另一方面，跨数据集/域re-ID侧重于将标记的图像数据从源域利用到目标域，而目标域训练数据没有标记信息。为了引入区分能力并将re-ID模型推广到无监督的目标域，我们提出的姿势分解和自适应网络（PDA-Net）学习了具有正确分解的姿势和域信息的深度图像表示。我们的模型允许姿势引导的图像恢复和transla- tion通过观察图像从任一域，没有预定义的姿势类别，也没有身份监督。我们在两个基准数据集上的定性和定量结果证实了我们方法的有效性及其优于最先进的跨数据集re-ID方法。1. 介绍给定包含人的查询图像（例如，pedes-trian、suspect等），人员重新识别（re-ID）[59]旨在在非重叠的相机视图中匹配具有相同身份的图像由于其在智能城市和大规模监控系统中的实际应用，人员重新识别一直是计算机视觉中活跃的研究课题之一。为了解决实际re-ID场景中的视觉感知变化或遮挡等挑战，已经提出了几项工作[4，23，36，45，46，62]。然而，这种方法需要大量的标记数据用于训练，并且这可能不适用于实际工作应用。由于为感兴趣的数据集收集身份标签可能在计算上是昂贵的，一种流行的解决方案是利用附加的但不同的源域数据集。此数据集包含完全标记的图像（但图1：现有的跨数据集re-ID方法（如[12]）执行风格转换，然后进行re-ID的特征提取，这可能会限制观察到的图像变体。我们选择使用联合学习的域不变特征来执行姿态解缠和自适应，通过改进图像表示来缓解上述问题。具有不同的身份）由不同的一组摄像机捕获因此，跨域/数据集个人重新ID的目标是从源数据提取有用信息并使其适应感兴趣的目标域数据，使得可以相应地解决目标域处的重新ID。由于在训练期间没有观察到目标域数据的标签，因此通常将上述设置视为无监督学习任务。已经提出了几种用于跨数据集重新ID的方法[13，15，42，49，54，58，61]。例如，Denget al. [13]使用CycleGAN将标记图像从源域转换到目标域，然后在目标域执行re-ID。类似地，Zhong等人。 [61]利用Star-GAN [11]同时学习相机不变性和域连接性。另一方面，Linet al. [35]采用最大平均离散度（MMD）来学习跨数据域的中级特征对齐，7920数据集re-ID。然而，如图1，现有的跨域re-ID方法通常跨数据集适配样式信息，并且因此在这样的挑战性场景中不能容易地描述或保存姿态信息。为了克服上述限制，我们提出了一种新的深度学习框架，用于跨数据集的人员重新识别。在不观察目标域中的任何地面真值标签和姿态信息的情况下，我们提出的姿态分解和自适应网络（PDA-Net）学习具有分解姿态信息的能力的域不变特征。这允许人们在没有身份或标签监督的情况下跨数据集更重要的是，这使我们能够使用我们提出的网络学习域和姿态不变的图像表示（如图所示）。①的人。利用从源域图像中观察到的标签信息，我们的PDA-Net可以成功地应用于跨数据集的re-ID。与缺乏描述姿势和内容特征的能力的先前无监督跨数据集re-ID方法相比，我们的实验证实我们的模型能够实现改进的性能，因此实际上是优选的。我们现在强调我们工作的贡献如下：• 据我们所知，我们是第一批执行姿势引导但不变性深度学习模型的公司之一，用于跨领域的人员重新识别。• 在不观察目标区域中的标签信息的情况下，我们提出的PDA-Net学习深度图像表示，姿势和域信息正确地解开的感觉。• 上述解纠缠能力是通过在统一的框架中简单地基于姿态信息来适应和恢复源和目标域图像来实现的。从任一域图像数据观察到的形成。• 两个具有挑战性的无监督跨数据集重新识别任务的实验结果定量和定性有效地证实了我们的方法对最先进的re-ID方法表现良好。2. 相关作品监督人员重新识别。在文献中已经广泛地研究了人重新ID。现有的方法通常集中于解决匹配具有视点和姿态变化的图像的挑战，或者具有背景杂乱或遮挡的图像的挑战[2，4，7，10，27，30，31，36，37，45，46、47、50、51]。例如，Liuet al.[37]基于GAN [19]开发一个Chen等人[4]将条件随机场（CRF）和深度神经网络与多尺度相似性度量相结合。几种基于注意力的还提出了方法[5，6，9，30，34，46，47]，其集中于学习区别性图像特征以减轻背景杂波的影响。虽然已经观察到有希望的结果，但由于缺乏抑制跨数据集的视觉差异的能力，上述方法不能容易地应用于跨数据集的re-ID。跨数据集人员重新ID。为了处理跨数据集的人员重新ID，已经考虑了一系列手工制作的特征，以便可以以无监督的方式执行目标域的重新ID [16，20，33，38，40，58]。为了更好地利用和适应跨数据域的视觉信息，已经利用了基于域适应的方法[8，24][12，14，29，35，49，61]。然而，由于身份、视点、身体姿势和背景杂波在数据集之间可能非常不同，加上在目标域处没有标签监督可用，因此性能增益可能有限。例如，Fan等人。 [14]提出了一种渐进式无监督学习方法，在K均值聚类和CNN微调之间迭代。Li等人。[29]考虑空间和时间信息来学习re-ID的tracklet关联。Wang等人。[49]学习了一个带有辅助属性注释的区分特征表示空间。Deng等人。 [12]基于CycleGAN [63]将图像从源域转换到目标域，以生成跨图像域的标记数据。Zhong等人。 [61]利用StarGAN [11]来学习相机不变性特征。 Lin et al. [35]引入最大平均离散（MMD）距离以最小化两个域的分布变化。姿势引导的重新识别。虽然在现有的跨数据集re-ID作品中表现出令人印象深刻的性能，但它们通常需要像感兴趣的姿势这样的先验知识，或者没有表现出描述这些信息的能力在所产生的特征中。最近，提出了许多模型以在重新ID期间更好地表示姿态特征[28，48，52，53，55，56，57]。 Ma等人 [39]生成通过使用复杂的多分支模型将输入分解为前景、背景和姿势来生成人物图像，该复杂的多分支模型不是端到端可训练的。而Qian et al. [43]能够为人员重新ID生成姿势归一化图像，但只能操纵八个预定义姿势。虽然Ge等人。 [18]使用引导图像信息学习姿势不变特征，但他们的模型不能应用于跨数据集re-ID，因此如果感兴趣的数据集没有任何标签信息，则不能应用基于上述观察，我们选择使用一种新颖且统一的模型来学习数据集和姿态不变特征。通过解开上述表示，即使没有标签信息可用于目标域训练数据，也可以成功执行跨数据集图像的重新识别。7921p′→p我JJJ j=1我图2：我们的姿势分解和适应网络（PDA-Net）概述内容编码器EC学习来自任一域的输入图像的域不变特征vc姿态编码器EP将姿态图（ps和pt）变换成潜在特征vp，以用于姿态引导和解开目的。生成器GT和GS经由单域恢复或跨域平移（xs-s、xs-s、xt-s、xt-t和xs-t）输出域特定图像，条件在姿态图上（ps和pt）。域鉴别器DS和DT保持图像感知质量，而姿态鉴别器DP用于姿态解纠缠保证。3. 该方法3.1. 符号和问题表述为了完整起见，我们首先定义本文中使用假设我们有真的，分别。在编码的姿态特征（来自任一域）的指导下，我们的域特定生成器（分别用于源和目标域数据集的GS和GT）将恢复/合成关联数据域中的期望输出。我们将详细介绍每一个属性访问一组NS图像XS={xs}NS与作为-组件在下面的子部分中。i i=1关联标签集YS={ys}NS，其中xs∈RH×W×3要在中执行目标域数据集的人员重新标识，i i=1i和ys∈R分别表示源域数据集中的第i幅图像及其对应的身份标签另一组NT个目标域数据集图像XT=在测试阶段，我们的网络通过EC对查询图像进行编码，以导出域和姿态不变表示vc，该表示通过{xt}NT没有任何标签信息也可用最近邻搜索（Euclidean distances）j j=1在训练期间，其中xt∈RH×W×3表示第j个目标域数据集中的图像。把姿势提取出来-从源和目标域数据形成，我们对上述图像应用姿态估计模型[1]以生成3.2. 姿态解缠和自适应网络（PDA Net）ate源/目标域姿态输出PS={pS}NS，以及i i=1PT={pt}NT。注意，ps∈RH×W×NL和pt∈RH×W×NL分别表示相应域中的第i个和第j个姿态映射。在[1]之后，在我们的工作中，我们设置姿态地标的数量NL=18为了实现跨数据集的人重新识别，我们提出了一个端到端的可训练网络，姿势解纠缠和适应网络（PDA-Net）。如图2所示，我们的PDA-Net旨在学习领域不变的深度代表，表示vc∈Rd（d表示特征的维数），而姿态信息则与这个特征空间。为了实现该目标，一对编码器EC和EP用于将输入图像和姿态图编码为vc和vp∈Rh（h表示fea的维度）。如图2所示，我们提出的双生坦-glement和Adaptation网络由许多网络组件组成。内容编码器EC对跨不同域/数据集的输入图像进行编码，并且产生用于人re-ID的内容特征VC。姿态编码器EP对姿态图进行编码，并产生用于姿态解纠缠的姿态特征VP。两个域特定生成器GS和GT分别输出源域和目标域中的图像（通过馈送vc和vp）。设计了两个特定于领域的鉴别器DS和DT，以强制两个特定于领域的生成器GS和GT产生感知上真实的和特定于领域的图像。最后，姿态WIDDP旨在强制生成器输出以给定姿态为条件的真实图像。7922pCp′recLrec=Ex<$X，p<$P[<$xPOS1POSCnegPOScc，posneg3.2.1re-ID的域不变表示我们鼓励内容编码器EC在观察XS和XT时生成相似的特征分布。为了实现这一点，我们应用最大平均差异（MMD）度量[22]来计算源域和目标域之间内容特征vc给定3.2.2姿态引导的跨域图像平移为了确保我们的衍生内容特征在跨域re-ID任务中是域不变的，我们需要在PDA-Net的学习过程中执行额外的图像翻译也就是说，我们具有图1B中的姿态编码器EP2将来自源姿态集合输入P_S和目标姿态集合P_T的输入编码为姿态特征v_s和v_t。因此，内容和p p源图像xs∈XS和目标图像xt∈XT1，我们首先将xs和xt转发到内容编码器Ec到ob。保持它们内容特征vs和vt。然后我们可以用公式姿态特征将在潜在空间中产生。我们强制使用两个生成器GS和GT来生成以编码姿态为条件的人物图像C我们的MMD损失LMMD为：ΣnsCnt功能.对于源域，我们让源生成器GS取级联的源域内容和姿态特征对（vs，vs），并输出相应的图像。1L= 0φ（vs）−1φ（vt）φ2，（1）p cs→s t tMMDnc，gnc，lH年龄x. 同样，我们有GTtake（vp，vc） for pro-sg=1tl=1导出xt→t。注意，xs→s=GS（（vs，vs）），xt→t=p c其中φ是映射操作，其投影分布GT（vt，vt）表示源中的重建图像，p c生成核希尔伯特空间H[21]。n和nt是关联do中的图像的批大小电源。利用核嵌入技术可以表示特征的任意分布。证明了如果核是特征的，则到空间H的映射是内射的，而内射性则表明任意概率分布唯一地由空间H中的元素表示.同样值得注意的是，我们不认为adver-目标领域，分别。因为这可以被看作是在每个域的图像恢复中，重建损失可以作为学习期间的目标。由于我们有地面真值标签（即，图像对对应），我们可以进一步对源域图像执行唯一的图像恢复任务。更准确地说，给定同一个人的两个源域图像xs和x′s，但具有不同的姿势ps和p′s，我们期望它们共享相同的内容特征vs，但具有姿势特征vs和vs。鉴于用于导出域不变fea-c的sarial学习策略pp′图（例如，[17]我们的工作。这是因为该技术可能产生姿态不变特征而不是用于re-ID数据集的域不变特征，并且因此所产生的特征在跨数据集re-ID中不能很好地执行。其次，利用从源观察到的标签信息，期望的姿态Vs，然后我们强制GS使用最初与Vs相关联的内容特征Vs来输出源域图像Xs。这被称为姿势引导图像恢复通过以上讨论，可以得到针对以下的图像重建损失：域训练数据，我们施加三重损失L三上源域数据LS可以计算为：导出的特征向量vc.这将最大化类间差异，同时最小化类内差异。S s→sss sS-xs1]更具体地说，对于每个输入源图像xs，我们用相同的身份标签采样正图像xs+E{xs，x′s{\displaystyle\mathbb{\mathbb{\mathbb{S}}s→sp′→p -xs]，（5）和负像xs不同的身份标签，其中xs→s=GS（vs，vs|vs）表示生成的im。negp′→ppcp′形成一个三元组。然后，用xs和xs年龄与输入xs和vs的距离来描述内容特征（或xs）可以计算为：dpos=vs−vs2，（2）具有相同的身份（即，x′s和xs的同一个人通过不同的姿势p′和p）。至于目标域重建损失，我们有dneg=vs−vs第二章（3）c c，阴性T t→t t其中vs，vs，和vs表示的特征向量Lrec=Ext<$XT，pt<$PT [<$x− x <$1]。（六）c c，posc， neg图像xs，xs，xs分别表示根据上述定义，三重态损失Ltri为：Ltri=E（xs，ys）<$（XS，YS）max（0，m+dpos−dneg），（四）请注意，我们在上述重建损失项中采用L1范数，因为它保留了图像清晰度[25]。除了在这两个域中的图像恢复之外，我们的模型还执行姿势引导的图像平移。也就是说，其中m >0是强制正图像对和负图像对之间的分离的裕度。1我们的解码器GS和GT允许输入特征对，从不同的域中提取内容和姿态表示。因此，我们将观察到xt→s=GS（vt，vt），为了简单起见，我们将省略下标i和j，表示源[2016年12月16日]7923pc目标图像为xs和xt，源图像对应的标签为ys。p cxs→t=GT（vs，vs）作为输出，目的是使这些转换后的图像尽可能逼真。7924域SLCPS不CpCPCSLT=Ext <$X，pt<$Ptt为了确保GS和GT在相关联的域中产生感知上真实的输出，我们使图像判别器DS在真实的源域图像xs和合成/转换的图像xs之间进行判别（即，xs→s，算法一：PDA-Net的学习数据：源域：XS、PS和YS;目标域：XTPT结果：PDA-Net的扩展xt→s）。因此，源域损耗LS1θEC ，θEP，θGS，θGT，θDS，θDT，θDP←初始化作为Ldomain=Exs<$XS [log(（xs）]2为。训练Iters。做3xs，ps，ys，xt，pt，x′s，p′s←来自X的样本XT，PT、P和S，YS，+ExsX，psP [log（1 −DS（xs→s））]（7）s不s′s tS S4vc，vc←通过EC（x/x）获得）、EC（x）t→s5vs，vt←由EP（ps），EP（pt）获得+ Ext<$XT，pt<$PT[log（1 − DS（x））]。pp类似地，目标结构域重复损失LT为6LMMD，Ltri←由（1），（4）计算+域7θEC<$−−θE （LMMD+λtriLtri）定义为s→sCt→ss s t tT T8x，x←通过GS（vp，vc），GS（vp，vc）Ldomain=Ext<$XT[log（DT（x））]9xs→t，xt→t←通过GT（vs，vs），GT（vt，vt）+ Ett[log（1−D（xt→t））]（八）10xs→s ←通过G（vs，vs|vs′）xXT，p PTTp′→pSpCp+Exs<$XS，ps<$PS[log（1−DT（xs→t））]。S11rec不recS域不域，Lpose←计算3.2.3跨数据域的（五）、（六）、（七）、（八）、（九）12为Iters。更新生成器的+13θEC，EP，GS<$−−θE 、E 、G （λrecLrec−利用上述姿势引导的图像平移机制，14S域θ-λpose（Lpose）+TEC，EP，GT<$−−θE，EP，GT（λrecLrec−我们有我们的PDA-Net学习域不变内容fea，跨数据域的任务。为了进一步确保不域-λpose（Lpose）15为Iters。关于更新的信息姿态编码器描述并解开姿态信息，16从输入图像中观察到，我们需要额外的+θDS<$−−θD+S域网络模块来实现这一目标。17θDT ←−−∇θ不+不域为了实现这一目标，我们引入了一个姿态判别法，θDP<$−−θDL姿势图中的natorDP2、重点突出，突出重点--真实和恢复的图像之间，条件是给定的姿势输入。根据以前的FD-GAN [18]，我们采用PatchGAN [26]结构作为我们的DP。也就是说，到DP的输入是真实/恢复图像和给定姿态图的级联，其通过类高斯热图变换来处理。然后，DP产生图像姿态匹配置信度图，该输出的每个位置包括：和poseT T[log（D（p，x））]+Ext<$XT，pt<$PT[log（1−DP（p，xt→t））]。（十一）注意xs→s=G（vs，vs|Vs）表示合成的-置信度图表示信息之间的匹配程度p′→pSPCp′放置图像和相关的姿势图。可以看出，两个生成元GG在大小的图像从输入x′s（具有相同的内容fea-具有xs但具有不同姿态特征v′s的真实v′s）。S Tc pPDA-Net倾向于欺骗姿态PDDP以获得所生成图像的高匹配置信度。直观地说，由于只有源域数据具有地面真实标签，所以我们的DP被设计为在每个相应的域中对恢复的图像进行认证，而不是跨域对翻译的图像进行认证。换句话说，DP的对抗性损失被公式化为：从（9），我们看到，虽然我们的姿势解开，损失加强了输出图像与其在每个域中的条件姿态之间的匹配，在源域中可获得额外的指导以更新我们的DP。也就是说，如（7）所示，我们能够验证由同一个人但具有不同姿势的输入图像ST（即，p′而不是p）。虽然我们的解码器能够输出哪里L姿势=L姿势+L姿势，（9），L，L，LLLLLSSDP7925p′→p+Exs<$X，p′s<$P P′s这样的具有观察到的其地面实况源域图像的图像（如（5）中所指出的，引入的DP将进一步S构成 =ExsXS，psPS [log（DP（ps，xs））]Ss→s提高我们姿态解缠和姿态-引导图像恢复。+Exs<$XS，ps<$PS[log（1−DP（p，x））]S S[log（1−D（p，x））]值得重复的是，PDA-Net的目标是在不观察标签信息的情况下执行跨数据集的re-ID。+E{xs，x′s}<$XS，psPS [log（1− DP（ps，xs→s））]在目标域中。先来介绍一下，(10)我们的PDA-Net将能够L7926表1：Market-1501与交叉数据集/无监督Re-ID方法的性能比较。粗体数字表示最佳结果。表2：DukeMTMC-reID与交叉数据集/无监督Re-ID方法的性能比较。粗体数字表示最佳结果。方法来源：Rank-1公爵MTMC，目标：五品十品市场版图方法来源：Rank-1市场，焦油五品get：DukeMTMCRank-10 mAPBOW [58]35.852.460.314.8BOW [58]17.128.834.98.3UMDL [42]34.552.659.612.4UMDL [42]18.531.437.67.3PTGAN [51]38.6-66.1-PTGAN [51]27.4-50.7-PUL [15]45.560.766.720.5PUL [15]30.043.448.516.4骆驼[54]54.5--26.3SPGAN [13]46.462.368.026.2SPGAN [13]57.775.882.426.7[49]第四十九话44.359.665.023.0[49]第四十九话58.274.881.126.5MMFA [35]45.359.866.324.7MMFA [35]56.775.081.827.4HHL [61]46.961.066.727.2HHL [61]62.278.884.031.4CFSM [3]49.8--27.3CFSM [3]61.2--28.3ARN [32]60.273.979.533.4ARN [32]70.380.486.339.4TAUDL [29]61.7--43.5TAUDL [29]63.7--41.2PDA-Net（我们的）63.277.082.545.1PDA-Net（我们的）75.286.390.247.6通过姿势引导的跨域图像转换执行跨数据集重新识别。更准确地说，通过跨域编码器/解码器和姿态解纠缠鉴别器的联合训练，我们的模型允许学习域不变和姿态解纠缠的特征表示。用于训练我们的PDA网络的伪代码总结在算法1中。4. 实验4.1. 数据集和实验设置为了评估我们提出的方法，我们对Market-1501 [58]和DukeMTMC-reID [44，60]进行了实验，这两种方法在最近的re-ID任务中都很常见。市场-1501。Market-1,501由32，668个标记图像组成，这些图像来自1，501个身份，6个摄像头视图。数据集分为两个不重叠的固定部分：来自751个身份的12，936张图像用于训练，来自750个身份的19，732张图像用于测试。在测试中，使用来自750个身份的3368个查询图像来检索图库中的匹配人。DukeMTMC-reID. DukeMTMC-reID [44，60]也是一个大规模的Re-ID数据集。它从8个相机中收集，包含属于1，404个身份的36，411个标记图像它还包括来自702个身份的16，522个训练图像、来自其他702个身份的2，228个查询图像和17，661个图库图像。评价方案。我们采用了大多数人Re-ID文献中的标准度量，即用于生成排名准确度的累积匹配曲线（CMC）和平均平均精度（mAP）。我们在两个数据集上报告了1级准确度和平均精密度（mAP）4.2. 实现细节PDA网络的配置。我们使用PyTorch实现我们的模型。在第 3 节之后，我们使用在 ImageNet 上预训练的ResNet-50作为跨域引擎的主干。编码器EC.给定一个输入图像x（所有图像的大小都调整为256×128×3，分别表示宽度、高度和通道），EC将输入编码为2048维内容特征vc。如本节所述。在图3.1中，姿态图由18通道图表示，其中每个通道表示一个姿态地标的位置等地标位置被转换为高斯热图。姿态编码器EP然后采用4个卷积块来从这些姿态图产生256维姿态特征向量vP这两个域生成器（GS，GT）的结构是类似于Miyato等人提出的6个卷积残差块。[41]。域识别器（DS，DT）的结构采用ResNet-18作为骨干，而共享姿态识别器DP的架构采用遵循FD-GAN [18]的PatchGAN结构，并且由我们的PDA-Net中的5个域生成器（GS，GT），域生成器（DS，DT）、共享姿态DDP都被随机初始化。L tri的余量被设置为0。5，我们将λtri，λrec和λpose固定为1。0，10。0，0。1所示。4.3. 定量比较市场-1501。在表1中，我们将我们提出的模型与使用词袋（BoW）[58]进行匹配（即，无传输），四种无监督的 re-ID 方法，包括 UMDL [42] ， PUL [15] ，CAMEL [54]和TAUDL [29]，以及七种跨数据集re-ID方法，包括PTGAN [51]，SPGAN [12]，TJ-AIDL [49]，[35 ][36][37][38][39]从从这张表中，我们看到我们的模型取得了很好的效果，7927实验环境损失函数和分量资料来源：DukeMTMC-reID资料来源：Market-1501目标：Market-1501目标：DukeMTMC-reID表3：在两种实验设置下申报PDA-Net的消融研究。“共享DP“涉及是否构建单独的姿态鉴别器，即，DS和DT，而不是一个共享的DP。P PL三LMMDLS/TrecLS/T域L姿势DP份额秩-1地图秩-1地图基线（ResNet-50）基线（ResNet-50w/MMD）PDA-Net（w/oLS，LT）PDA-Net（w/oLpose）PDA-Net（w/oshareDP）PDA-Net（w/oLS，LT）域域PDA-Net（不含MMD）PDA-Net（我们的）C✗✗✗✗✗44.218.133.516.3CC✗✗✗✗50.422.639.523.1CC✗CCC52.324.742.524.0CCCC✗C55.125.245.526.1CCCCC✗59.427.850.929.7CCC✗CC65.330.756.531.2C✗CCCC71.239.860.135.8CCCCCC75.247.663.245.1Rank-1、Rank-5、Rank-10和mAP的结果，以及在最近的方法上观察到的性能裕度。例如，在单次查询设置中，我们实现了Rank-1准确率=75.2%和mAP=52.6%。与SPGAN [12]和HHL [61]相比，我们注意到我们的模型能够生成基于各种姿势而不是少数相机风格的跨域图像。与MMFA [35]相比，我们的模型进一步解开了姿势信息，并学习了姿势不变的跨域潜在空间。与第二种最佳方法相比，即，TAUDL [29]，我们的结果在秩1中高出11.5%准确性和11.4%的mAP，而没有额外的空间并且利用了时间信息（但TAUDL做到了）。DukeMTMC-reID. 我们现在将DukeMTMC-reID视为感兴趣的目标域数据集，并在表2中列出比较。从这个表中，我们还看到，我们的模型对基线和状态表现良好-域不变和姿态不变表示。损失函数为了进一步分析每个引入的损失函数的重要性，我们从表3所示的第三行到第七行进行消融研究。首先，重建损失Lrec被证明是至关重要的，我们的PDA-净，因为我们观察到市场-1501下跌23%和20%”““DukeMTMC-reID，当损失发生时，包括在内。这是由于没有明确的监督来指导我们的PDA网络生成人类可感知的图像，因此最终的模型将遭受图像级信息丢失。其次，如果在两个域上都没有姿势丢失L姿势，则我们的模型将无法基于每个生成的图像执行姿势匹配，从而导致姿势解缠结过程，并导致re-ID性能下降（在两种设置下约20%第三，当最先进的无监督/跨域re-ID方法。采取以单查询设置为例，我们实现了Rank-1 ac-S/T域关闭时，我们的模型无法保留准确率为63.2%，平均可信度为45.1%。与次优方法相比，我们的结果在秩1准确率上提高了1.5%，在mAP上提高了1.6%通过在上述两个数据集上的实验，我们的跨域re-ID模型的有效性可以被成功地验证。4.4. 消融研究和可视化分析了PDA-Net中的网络模块。如表3所示，我们从两个基线方法开始，即，原始 Resnet-50（w/oLMMD）和高级Resnet-50（w/LMMD），显示标准的re-ID性能。然后我们利用ResNet-50作为骨干CNN模型，域信息，指示仅姿态信息会被观察到。我们将这种10%的性能下降归因于学习姿态不变特征的负面影响，这导致了不令人满意的姿态解纠缠。最后，将MMD损失LMMD引入到我们的PDA-NET中，以减轻由于数据集差异引起的域偏移我们的研究也证实了它的有效性。共享位姿为了证明引入到PDA网络中的姿态鉴别器DP的有效性和必要性，我们首先考虑用两个独立的姿态鉴别器DS和DT代替DP，并重新构造了一个姿态鉴别器DP。P P仅具有三元组损失Ltri的re-ID的表示，而先进的一个包括MMD损失LMMD。我们观察到，我们的完整模型（最后一行）在两个基准数据集上的Rank-1处大幅提高了性能（约20-25%性能增益可以是归因于我们模型的独特设计，将re-ID性能移植到表3的第五行中。与观察到明显的性能下降，我们看到，结果PDA-Net将不能将证实的姿势匹配知识从源域转移到目标域。换句话说，共享的姿态导航将是优选的，因为姿态引导可以由两个域提供。L7928图3：我们的PDA-Net的可视化示例，用于跨数据集的姿势引导图像转换给定六个姿态条件（第一行）和输入图像（xs或xt），我们为每个数据集对呈现六个生成的图像：xs→s（第二行），xt→s（第三行），xt→t（第四行）和xs→t（第五行）。在具有对目标目标域的监督的姿势引导的图像输出中，它们的模型未被设计为处理跨域数据，使得不能产生具有满意质量的跨数据集的图像从上述定性评估和比较中，我们确认我们的PDA-Net能够以令人满意的图像质量执行姿势引导的单域图像恢复和跨域图像翻译，这将有利于跨域重新识别任务。5. 结论图4：跨数据集或姿势引导的re-ID的可视化。请注意，SPGAN [13]执行跨数据集转换图像的样式转换，但缺乏展示姿势变体的能力，而FD-GAN [18]解开姿势信息，但无法获取跨域数据。跨数据集和姿势引导的re-ID模型的可视化比较。在图3中，我们可视化生成的图像：在两个跨域设置中，xs→s、xs→t、xt→s和xt→t。给定来自具有姿态条件的任一域的输入，我们的模型能够在数据域内或跨数据域产生令人满意的姿态引导图像合成。在图4中，我们还考虑了SPGAN [13]的跨数据集re-ID方法和FD-GAN [18]的姿态解纠缠re-ID方法。我们看到，由于SPGAN执行风格转换来合成跨域图像，因此无法在目标域中利用姿势变体虽然FD-GAN能够生成本文提出了一种新的用于跨数据集识别的姿态解缠和自适应网络（PDA-Net）。主要的新颖性在于我们的PDA网络的独特设计，它联合学习域不变和姿态解纠缠的视觉表示与重新ID保证。通过只观察图像输入（来自任一域）和任何期望的姿态信息，我们的模型允许姿态引导的单域图像恢复和跨域图像翻译。注意，只有标签信息（图像对应对）可用于源域数据，在训练期间利用任何非预定义的姿势类别。在两个基准数据集上的实验结果表明，与现有的工作相比，有显着的改进，这支持使用我们提出的方法进行跨数据集的重新ID。定性结果还证实，我们的模型是能够执行跨域的图像翻译与姿势正确解开/操纵。鸣谢。这项工作是由台湾科学技术部在基金MOST108-2634-F-002-018下支持的。7929引用[1] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年。3[2] Xiaobin Chang，Timothy M Hospedales和Tao翔用于人员重新识别的多级分解网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[3] 常晓斌，杨永新，陶翔，提莫-你的医院不相交标号空间与公共分解空间的迁移学习。在AAAI人工智能会议（AAAI）的会议记录中，2019年。6[4] Dapeng Chen ， Dan Xu ， Hongsheng Li ， NicuSebe，and王晓刚。基于深度crf的群体一致性相似性学习方法。在 IEEE 计算机视觉和模式识别会议（CVPR），2018年。一、二[5] Yun-Chun Chen和Winston H Hsu。显著性感知：弱监督目标定位。IEEE International Conferenceon Acoustics ， Speech ， and Signal Processing（ICASSP），2019年2[6] 陈云春，黄伯祥，余立宇，贾斌作者声明：Huang，Ming-Hsuan Yang，and Yen-Yu Lin.具有前景检测和周期一致性的深度语义匹配2018年亚洲计算机视觉会议（ACCV）论文集。2[7] 陈云春，李宇哲，杜晓飞，于蒋法兰克·王。学习分辨率不变的深度表示用于人员重新识别。在AAAI人工智能会议（AAAI）上，2019年。2[8] 陈云春，林燕玉，杨明轩，和黄家斌Crdoco：具有跨域一致性的像素级域传输。在 IEEE 计算机视觉和模式识别会议（CVPR）的会议记录中，2019年。2[9] 陈云春，林燕玉，杨明轩，和黄家斌显示、匹配和分割：语义匹配和对象共分割的联合学习arXiv，2019年。2[10] 程德，龚义红，周三平，王进军和南宁郑。基于改进三重丢失函数的多通道部件cnn 的人员再识别In Proceedings of the IEEEConference计算机视觉和模式识别（CVPR），2016年。2[11]Yunjey Choi，Minje Choi，Munyoung Kim，Jung-Woo哈，金成勋，和朱在古。 Stargan：Uni-用于多域图像到图像翻译的fied生成对抗网络在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。一、二[12] 邓伟建、郑良、叶启祥、郭亮康，杨毅，和刘娇。具有保留的自相似性和域不相似性的图像-图像在IEEE计算机视觉和模式识别会议（CVPR），2018年。一、二、六、七[13] 邓伟建、郑良、叶启祥、郭亮康，杨毅，和刘娇。具有保留的自相似性和域不相似性的图像-图像在IEEE计算机视觉和模式识别会议（CVPR），2018年。一、六、八[14] 范和合、梁铮、严成刚、易杨无人监管人员重新识别：clus-tering和微调。ACM Transactions on Multi- Media Computing ，Communications，and Applications（TOMM ），2018. 2[15] 范呵呵、梁铮、易阳。无监督人员重新识别：聚类和微调。在arXiv预印本，2017年。1、6[16] Michela Farenzena，Loris Bazzani，Alessandro Pe-rina，Vittorio Murino，and Marco Cristani.通过对地方特征的记忆驱动的积累来重新识别人IEEE计算机视觉与模式识别会议（CVPR），2010年。2[17] Yaroslav Ganin，Evgeniya Ustinova，Hana Ajakan，帕斯卡尔·热尔曼，雨果·拉罗谢尔，弗朗索瓦·拉维奥莱特，马里奥·马尚，维克多·伦皮茨基。神经网络的领域对抗训练 Jour- nal of MachineLearning Research（JMLR），2016. 4[18] 葛一笑，李卓万，赵海宇，尹国军，Shuai Yi，Xiaogang Wang，et al. Fd-gan：用于稳健的人重新识别的姿势引导特征提取gan。在神经信息处理系统（NIPS）的进展，2018年。二五六八[19] Ian Goodfellow Jean Pouget-Abadie Mehdi MirzaBing Xu ， David Warde-Farley ， Sherjil Ozair ，Aaron Courville，and Yoonge Bengio.生成性对抗网。神经信息处理系统进展（NIPS），2014年。2[20] 道格拉斯·格雷和海涛。视点不变量行人识别与本地化功能的合奏。2008年欧洲计算机视觉会议（ECCV）论文集。2[21] 亚瑟·格雷顿卡斯滕·博格沃特， Malte Rasch，BernhardSchoülk opf，andAl e xJSmola.两样本问题的核神经信息处理系统进展（NIPS），2007年。47930[22] ArthurGretton，Kenj

下载后可阅读完整内容，剩余1页未读，立即下载