无监督摄像机感知的领域自适应人脸识别框架

72 浏览量更新于2023-10-16 收藏 693KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

180801 2 1 3 11一种新的无监督摄像机感知的领域自适应人脸识别框架∗ ∗齐磊，王磊，Jing Huo，Luping Zhou，Yinghuan Shi，Yang Gao1南京大学软件新技术国家重点实验室2伍伦贡大学计算与信息技术学院3悉尼大学电气与信息工程学院摘要无监督跨域身份再识别面临两个关键问题。一个是源域和目标域之间的数据分布不一致，另一个本文从表征学习的角度对这些问题进行了探讨。对于第一个问题，我们强调相机级子域的存在作为人Re-ID的独特特征，并开发对于第二个问题，我们利用目标域的每个相机中的时间连续性这是通过在每个批次内动态生成在线三元组来实现的，以便最大限度地利用训练过程中稳步改进的特征表示。总之，上述两种方法产生了用于人Re-ID的新颖的无监督深域自适应框架。在基准数据集上的实验和消融研究表明了该算法的优越性和有趣的性质。1. 介绍人员重新识别（Re-ID）匹配由非重叠视图的不同相机捕获的相同身份的图像[4]。在无监督跨域每个Re-ID中，标记数据仅在源域中可用，而目标域中的所有数据都是未标记的[20]。它旨在学习一种有效的模型来进行目标域中的Re-ID无监督跨域人Re-ID面临两大关键* 通讯作者：杨高;王磊. J.国家自然科学基金（61806092）和江苏省自然科学基金（BK20180326）资助。Y.他得到了原教旨主义者的支持，问题.一种是由于人体姿态、视角、光照、图像分辨率、遮挡和背景等因素的变化而导致的源域和目标域的数据分布差异。另一种是在实际应用中，由于人工标注耗时甚至不可行，目标域中的标签信息不足。正如下一节所述，在解决这些问题方面取得了巨大进展[24，20，25，6，31，2]。然而，无监督的跨域人员Re-ID仍然远远不能令人满意，特别是当与有监督的对应物相比时[1，29，11]。本文旨在从表征学习的角度更好地解决上述两个问题。我们试图学习一个深特征表示（或同样，一个共享的子空间），其中源和目标域的差异更有效地减少，并且区分度更高。更有效地反映了目标域中的地层首先，在大多数实际应用中，可以容易地获得帧的相机ID1。来自同一相机的帧展现共同的视觉风格（例如，在背景、图像分辨率、视角等方面）。这种相机特定的风格最近开始吸引人们对Re-ID的关注（例如，图像-图像翻译）[31]。相机级子域的存在是跨域人员Re-ID的独特特征。然而，从表征学习的角度来看，它还没有得到很好的利用。为了利用这一特点，我们提出了一种新的摄像机感知域自适应。它强调，与学习的表示，跨相机级子域的分布差异也应充分减少，处理源和目标域的差异这个想法是通过对抗性学习来实现的，它采用了一种新的标准，称为跨域相机等概率。其次，时间信息通常可用于国家自然科学基金中央高校科研基金（020214380056）（61673203）、CCF-腾讯开放研究基金（RAGR 20180114）。Y.国家自然科学基金资助项目（61432008）。1例如，如将在实验中示出的，为人Re-ID的基准数据集中的每个帧提供相机ID。18081来自照相机的图像（例如，时间上接近的帧更可能对应于相同的然而，它还没有被很好地利用无监督跨域的人Re-ID来处理目标域中标签信息的缺乏。在本文中，时间信息与图像距离联合使用，在一个无监督的方式，从目标域中的每个摄像机生成三元组。提出了一种智能方案，以更好地寻找真正图像和真负图像。更重要的是，我们不是离线生成三元组，而是在训练期间在每个批次中在线动态生成三元组。这使我们能够充分利用不断改进的特征表示，以产生更好的三元组。反过来，这些三元组帮助网络学习更好的特征表示，形成一个积极的循环，以利用来自目标域的判别信息。总之，上述两个改进产生了用于无监督跨域人员Re-ID的新颖的域适应框架。正如下文所示，这两项改进都是必不可少的，正是它们的共同努力才使拟议的框架真正发挥作用。为清楚起见，本工作中的贡献总结如下。首先，通过考虑人Re-ID中相机级子域的唯一存在来定义根据我们的调查，我们的基于对抗学习的方法是第一个，在那些旨在学习更好的特征表示的方法中，在这个精细的水平上整合源和目标域。其次，提出了一种无监督的在线批处理三元组生成方法，以探索未标记目标域中的潜在区分信息。通过高质量的三元组，它提供了重要的信息，以提高整个框架的性能。最后，通过理论分析和实验研究，验证了本文提出的摄像机感知自适应算法的有效性。结果和烧蚀研究证明了所提出的框架的优越性和它的interesting属性。2. 相关工作无监督域自适应。无监督跨域人员Re-ID与无监督域适应有关，无监督域适应是一种更通用的技术，在标记源域的帮助下处理未标记的目标域。在文献中，大多数无监督域自适应方法学习源和目标分布之间的公共映射。已经提出了几种基于最大平均差异（MMD）的方法[14，15，27，22]。Long等人 [14]使用了一种新的深度自适应网络，其中所有特定任务层的隐藏表示都嵌入在再生核希尔伯特空间中。要将分类器从源域迁移到目标域，主要，[15]中的工作通过残差函数联合学习两个域之间的自适应分类器在[8，3]中，研究了基于自动编码的方法来探索目标域中的判别信息。最近，对抗学习[7，26，21]已被应用于领域自适应。Ganin等人 [7]提出梯度反转层（GRL）来追求源域和目标域之间的相同分布受生成对抗网络（GAN）的启发，Tzeng等人。 [21]利用GAN损失来匹配源域和目标域的数据分布。然而，对于一个人的重新识别任务，分布差异也存在于相机的水平。如果只考虑域级的整体离散性，则不能有效地减少在这个意义上，直接将前无监督域自适应方法应用于人Re-ID任务可能不是最佳选择。无监督跨域人员Re-ID。如前所述，关于该主题的大多数现有方法解决两个问题，即，减少两个域之间的数据分布差异，并生成目标域的区分信息。在文献中，已经开发了学习跨域共享子空间或字典的方法[19，24，17，20]。然而，这些方法不是基于深度学习，因此不能充分探索图像中的高级语义。最近，已经看到了几种基于深度学习的方法[31，2，23，16]。在[16，23]中，研究了为目标图像生成伪标签Lv等人。 [16]提出了一种无监督的增量学习算法，由目标域中行人时空模式的迁移学习辅助在[23]中，所提出的方法同时学习目标域中的属性语义和身份区分特征然而，当生成用于目标域的区分信息时，上述方法没有利用每个相机中的图像的时间连续性。此外，信息的生成通常是离线和单独进行的，而不是在训练期间进行的所有这些都将在我们的框架内得到改善。最近，为目标区域生成额外的训练图像已经变得流行[25，6，31，2]。Wei等人 [25]在图像生成中施加约束以保持身份。 [6]中的方法加强了翻译前后图像的自相似性以及翻译后的源图像和目标图像的域不相似性。 Zhong等人 [31]提出通过使用未标记的目标图像及其相机风格的转移对应物作为正匹配对来寻求相机不变性。此外，它认为源图像和目标图像作为负对域连通性。请注意，这些方法试图处理相机级别的分布差异显然，他们通过图像生成的方法来减少差异，而不是像本文中那样学习更好的表示。正如将要证明的1808282在实验中，我们的方法可以产生更好的人在目标域的Re-ID性能比这些方法。3. 拟议框架目标GAPFC2048 1024摄像头id1第一第一第1我们的框架包括三个目标，包括i）阿勒特在源域中对标记图像进行分类; ii）通过对抗学习的相机感知域自适应;（3）在目标区域实施歧视信息。第一个目标不是我们的重点，而是通过遵循文献[21，14]来实现。第二和源GAPFC2048 1024鉴别器1第一第一第1阿勒特第三个目标在第3.1和3.2节中详述。3.1. 摄像机感知域自适应在个人Re-ID中，不同相机的图像形成一组独特的单元。这也反映在跨域差异上。仅仅减少源域和目标域的总体差异将不能有效地处理相机级差异，并且这可能对学习的特征表示的质量产生不利影响。我们提出了一个摄像机感知域自适应映射到一个共享的子空间不同的相机的图像为了实现这一点，开发了一种摄像头感知的对抗学习（CAL）与处理两个域的传统对抗学习不同[7]，CAL处理多个子域，图1.在每次迭代时，使用我们的CAL方法中提出的跨域相机等概率（CCE）损失训练骨干网络BFC和GAP代表完全连接层和全局平均池。图的顶部显示，目标域中的每个图像（蓝色）需要被等概率地误分类到源域中的所有相机类（红色）。底部类似地示出了源域中的每个图像的情况该层被设置为128-d FC层。通过最大化域区分损失来消除两个域的差异（即，当量①①）。GRL对我们的任务的直接扩展导致优化生成器B，minLCAL−B（X，Yc，D），maxLCAL−D（X，Yc，D）域（即，源域和目标域中的摄像机）。设Xs和Xt是源域和目标域中的训练图像，并且X=[Xs，Xt]。摄像机ID（即，的B=minBΣE（x，yc）（X，Yc）ΣCk=1BΣδ（yc-k）logD（B（x），k），每个摄像机类的标签）表示为在C。令Cs和Ct分别表示源域和目标域中的相机的数量，并且C=Cs+Ct。对抗性学习涉及到判别器和生成器的优化。如通常所见，这项工作中的熵通过在源域和目标域中的C相机类上定义的交叉熵损失进行优化，min L CAL − D（X，Y c，B）=D（二）其中为了一致性，将其写为最小化负的可调损耗。为了用等式2训练骨干网络B，（2），我们在B和D之间插入GRL，如文献[7]所述。在前向传播过程中，GRL只是一个恒等变换。在反向传播期间，GRL反转（即，乘以负常数）域鉴别器损耗相对于FEA中的网络参数minΣ。ΣCE（x，y）<$（X，Y）−ΣΣδ（yc-k）logD（B（x），k），提取图层并将其向后传递。这个GRL-基于自适应的方案可以以某种方式工作，以减少差异-Dc ck=1（一）不同相机之间的差异（即，子域），这将很快在实验中证明。其中x表示图像，y c是x的相机类标签，δ（·）是狄拉克δ函数。B表示骨干网络，B（x）是x的特征表示。D表示像素，D（B（x），k）表示x相对于第k个摄像机类的预测分数.本工作中的生成器是骨干网络B。由于需要处理多个摄像机类别，B的优化变得棘手。我们首先研究梯度反转层（GRL）技术[7]。通过显示其局限性，我们提出了一个新的标准基于GRL的自适应方案。梯度反转层（GRL）[7]通常用于减少分布然而，该方案具有缺点。最大限度地提高曝光率只会强制图像不被归类到其真正的相机类中。只要图像被分类到任何错误的相机类（包括来自相同域的相机类）中，则对于该优化来说，它将看起来在这种情况下，此方案将无法有效地将源域和目标域拉到一起。源域和目标域之间的差异越大，该问题可能越明显。基于CCE的自适应方案。在该方案中，我们强制执行注意到跨域人员Re-ID的主要目标是减少分布差异，鉴别器CNNCNN…………18083我Σ在源域和目标域的情况下，我们要求使用学习的特征表示，来自源域中的相机类的图像将被错误地分类为ps（x）和pt（x）是它们的概率密度函数;并且Cs和Ct是这两个相机类别的数量域. 设p（x| Cs）和p（x| Ct）是类条件的我我目标域中的相机类，反之亦然。像我们一样没有任何偏见的相机类在相反的领域，这是要求的图像应被误分类到他们以相等的概率，如图所示1.一、这第i个摄像机类在源和目标中的密度函数，分别得到域可以证明（参见补充材料），理想情况下，最小化CCE损失将导致p（x s| Ct）=p（x s）， nx s∈ S; i = 1，···，C.（五）是名称“跨域摄像机等概率”所在的位置(CCE)来自哪里该方案有效地避免了GRL方案中存在的同一域的摄像机类别之间的误分类问题，并将源域和此外，基于CCE的方案可以实际上导致减轻目标域中所有相机之间的差异，如实验中所示。p（xt|Cs）为pt（xt），∈xt∈T;i=1，···，Cs.ps（x）= pt（x），<$x ∈ S <$T.该结果表明，在学习的共享空间中：i) 对于源域中的任何图像，它不会感觉到目标域中的Ct它的类条件密度函数值为这些凸轮-ERA类（例如， p（x s| Ct））正好等于它的密度函数令S和T表示源域和目标域。For-is通常，图像x上的CCE损失可以表示为在其自身域中的值（例如，ps（x））。上述结论-.-一个公司简介log（D（B（x），i）），x∈ T也适用于目标域中的任何图像，而是相反的方式。LCCE（x）=Csi=11CtCtj=1 log（D（B（x），j）），x∈ S（三）ii) 源域和目标域的数据分布ps（x）和pt（x），会变得完全相同，对于目标域中的x，D（B（x），i）表示x属于源域中的第i个相机类类似的定义适用于源域中的x的D（B（x），j）。以这种方式，用于训练骨干网络B（作为生成器）的优化被定义为m inLCAL−B（X，D）=m inEx<$XLCCE（x，D）.（四）可以消除跨域分布差异。同时，值得一提的是，最小化CCE损失在理论上并不能保证图像（在源域或目标域中）不会感觉到其自身域中的相机类之间的分布差异。然而，综合考虑上述三个已证明的等式，可以合理地预期（见B B补充），上述情况可在在对抗训练中，D和B以交替的方式进行训练。每次迭代由两个步骤组成：i）暂时固定B、D的权重，通过等式（1）训练。（1）预测每个图像的相机ID;ii）临时固定D的权重，B通过等式（1）训练。（4）学习特征表示。重复这一过程直到收敛。请注意，传统的两域对抗学习[7，21]只是这种基于CCE的方案的特殊情况，因为在源域和目标域中的每一个中都有一个摄像机类备注。可能会出现一个问题：为什么我们更喜欢CCE标准，而不是简单地要求图像从每个摄像机类被等概率地误分类到所有其它摄像机类中（即，Cs+Ct−1）camera classes？这是因为在个人Re-ID中，跨域差异通常比域内差异更显著，并且更影响性能通过实施跨域由于摄像机等概率，CCE准则对减少前者的差异提出了更高的优先级，因此是更好的选择。其有效性和优越性将在实验研究中得到验证。CCE的理论分析最后，我们提供了理论分析，以获得更多的洞察力，这一新的标准。补充材料中提供了完整的分析提议。设S和T表示源域和目标域。xs和xt是来自两个域的图像−18084实践这将很快通过实验证明。3.2. 无监督在线三联体生成仅减少跨域分布差异是不够的，即使部署了上述相机感知域适配。相反，保持靶结构域的固有特性同样重要。否则，可以任意改变目标域的分布，只是为了减少分布的差异，显着为了避免这种情况，该框架在目标域中探索潜在的该信息以图像三元组的形式被探索与锚共享相同的身份）和负面图像（即，不同的身份）。在选择正、负图像时，不仅考虑图像之间的距离，而且联合利用图像之间的时间信息，这通常可以通过Person Re-ID中的帧ID获得。更重要的是，我们在培训期间在每一批中在线生成三胞胎。这允许三重态生成有效地利用稳定改进的特征表示来产生更好的三重态。注意，三元组生成以无监督的方式进行，并且仅在训练过程中需要。18085源摄像机1…源摄像机摄像头分类任务#PIDGAPFC…目标摄像机1摄像头感知对抗学习…目标摄像头20481024FCUOT辨别任务…128n给定目标域中的相机，其所有图像按时间排序到列表中。从该列表中，随机选择p个非重叠片段以构建批次。每个片段由q个图像组成，因此总共包含n（=p×q）个图像n个图像中的每一个都首先，计算n幅图像的成对距离矩阵M∈Rn×n，网络学习到目前为止。为了生成锚图像Ia的三元组，我们开发以下规则。最重要的是，根据M，将批次中的所有（n-1）个图像（不包括Ia）按照与Ia的距离的升序进行排序。所获得的列表由S（Ia）表示。积极的形象选择。要被选为正面，图像必须满足以下两个要求：i）它在top-k位置的S（一个），和ii）它是从相同的片段作为一个。第一个要求确保该图像在特征表示方面确实类似于Ia，而第二个要求进一步增加其与时间信息的阳性的可能性联合使用这两个要求可以帮助我们选择非常可能（但不能保证）的真正积极的图像。在实现中，经验地设置k。所选择的正图像的总数由kp表示。注意，kp可以是零，这意味着该锚不能通过上述规则找到任何正图像。在这种情况下，将不考虑此锚底片选择。从列表S（Ia）的头部开始，针对以下条件依次检查每个图像I：1）I不是来自Ia的相同片段，以及2）I的片段中没有图像先前被选择为负。也就是说，负面图像是选择为锚的最近邻居，源（标记）FC目标（未标记）图2.所提出的无监督摄像头感知域自适应框架的图示，其中FC和GAP表示完全连接层和全局平均池化。#PID和UOT分别表示源域和无监督在线三元组生成中的人物类总数。以防任何阳性或阴性样本被错误地选择。d（·，·）是用于距离矩阵M的距离。最后，虽然M可以简单地由Eu计算如果距离很近，可以使用更先进的测量方法。这项工作使用重新排序算法[30]来改进M，以便生成更好的三元组并进一步提高目标域中的人员Re-ID性能。3.3. 总体拟议框架回想一下，该框架由源域和目标域中的相机（子域）上的对抗任务、目标域的区分任务和源域的分类任务组成，如图11所示。二、训练批次中的总体损失函数表示为minLCAL−D（X，Yc，B）=除了锚的片段之外的片段，这一规则的目的是处理同一人可能在同一地点再次出庭的情况。DminDΣE（x，yc）（X，YC）. ΣC−k=1ΣΣδ（yc-k）logD（B（x），k），两个或更多的碎片。要求每个阴性样品驻留在不同的片段中，很好地减少了（尽管可以-minL（X，Zs，D）=Bmin（LCross（Xs，Zs）+λ1LTriplet（Xt）+λ2LCAL−B（X，D）），不完全避免）的机会，错误地选择一个真正积极的样品为阴性。所选择的负图像的总数由kn表示。B其中L横，L三重态和LCAL−B（七）是交叉熵一旦在训练批次中生成了三元组，我们就可以通过定义为Σn源结构域的损失，靶结构域的三联体损失B的对抗性损失λ1和λ2是折衷参数。Z%s是源域中X%s的人员ID为了计算LTriplet，运行目标域中的一个相机L三重峰=a=1wa[d<$p（Ia）−d<$n（Ia）+m]+，（6）选择domly来构建训练批并生成每一次迭代都有三个。其中，如果Ia没有正像，则Wa为零，否则Wa为一。如果t > 0，则[t]+等于t，否则等于零。m是在这个框架中，ResNet-50 [9]被用作骨干网络。全局平均池（GAP）用于获得保证金d<$（I）=1斯诺克山口d（I，Ii）和d<$（I）=2048-D特征表示。要重新识别人员，请执行以下操作pakpi=1apn a目标域，提取2048-d特征表示1kni=1 d（Ia，Ii）是正向距离的平均距离，对于每个查询和图库图像，以及L2归一化-和来自锚的阴性样本。使用这里的平均距离有助于减轻不利影响CNN18086的作用。计算欧几里得距离以将gallery图片for a query.180874. 实验4.1. 数据集和设置我们在两个大规模基准数据集上评估我们的方法：Market1501 [28]，DukeMTMC-reID（Duke in short）[29]. Market 1, 501包含1，501人和来自六个摄像头的32，668张图像。其中，751个身份的12,936张图像用于训练。对于评估，在查询和图库集中有3，368和19，732个图像。DukeMTMC-reID拥有来自8台摄像机的1，404人，具有702个身份的16，522个训练图像，2，228个查询和17，661个图库图像。相机ID和帧ID信息都为了评估人的Re-ID性能，我们使用Rank-1准确度和mAP [28]。在Market1501上，有单查询和多查询求值原型。我们使用更具挑战性的单查询协议。为了训练CAL，我们从每个源和目标域中随机选择64张图像。来自源域的64幅为了生成三元组，我们设置p（即，时间片段的数目）和Q（即，每个碎片的图像数量将用于选择阳性和阴性样本的k和kn设置为5和2。的边缘三重态损失m为0.3。λ1和λ2在等式中（7）设为1。所提出的模型是用SGD优化器训练的，总共100个时期。微调参数（ImageNet [5]上预训练的ResNet-50中的参数）和新参数（新添加的层中的参数）的初始学习率分别为0.1和0.01当数字-当epochs的 BER超过80时，我们将学习率降低0.1倍。输入图像的大小为256 ×128。注意，在此图中的基线实验代表了ResNet-50 [9]，1024-d完全连接（FC）层和交叉熵损失。UOT和UOT（eud）表示两种无监督在线三元组生成变体，其中上述重新排序算法[30]（我们的默认设置）和欧几里得距离分别用于计算距离矩阵M。CAL-GRL和CAL-CCE表示分别由GRL和CCE方案实现的所提出的相机感知对抗学习（CAL）为了清楚起见，我们分别使用UCDA-GRL2注意，对于所提出的框架，仅在训练中需要相机ID和帧ID，而在测试阶段不需要。4.2. 与最先进方法的我们将我们的方法与七种最先进的无监督跨域人员Re-ID方法进行比较。其中，有两种非深度学习方法（UMDL [19]和UJSDL [20]）和五种深度学习方法，2UCDA是Unsupervised Camera-aware Domain Adaptation的缩写。基于方法。后者包括两种最新的基于伪标记生成的方法（TFusion [16]和TJ-AIDL [23]）和三种最新的基于图像生成的方法（PTGAN [25]、SPGAN [6]和HHL[31]）。Market1501和Duke依次用作源域和目标域以比较这些方法。表1报告了结果。如图所示，我们的方法（即，UCDA-CCE）在两种设置下都能获得最佳结果。为了布景-在“Duke→Market1501”的排序中，获得34. 5%，64。mAP和Rank-1准确率为3%，优于所有方法。在“Market1501 →Duke”的背景下，UCDA-CCE依然出类拔萃。特别是较HHL [31]，通过使用图像生成来减少目标域中的相机水平差异的最新技术，UCDA-CCE增益9。5%（36. 七比二十七。2）在mAP和8. 百分之五(55.4 vs. 46.9）。这一结果表明，我们的方法比基于伪标签生成和基于图像生成的方法的优势它通过表征学习有效地消除了相机级数据分布的离散性。我们将在4.4节中证明这一性质。表1.与Market 1501和DukeMTMC-reID（Duke）上的无监督Re-ID的最新方法进行比较方法杜克→市场1501市场1501 →杜克大学地图秩-1地图秩-1UMDL [19]12.434.57.318.5UJSDL [20]-50.9-32.2TFusion [16]-60.8--[23]第二十三话26.558.22344.3[25]第二十五话-38.6-27.2SPGAN+LMP [6]26.757.726.246.4HHL [31]31.462.227.246.9UCDA-GRL30.960.431.047.7UCDA-CCE（我们的）34.564.336.755.4我们的方法可以很容易地扩展到半监督的人Re-ID。也就是说，当在目标域中的每一相机内时，个人身份的标签变得可用于每一帧（例如，通过跟踪算法或人工注释获得），我们的方法可以通过简单地将我们的无监督在线三元组生成（UOT）更改为传统的三元组生成来利用这些信息[10]。我们将此设置命名为SOT，其中“S”代表半监督。3我们的方法与TAUDL[ 12 ]进行了比较，TAUDL是一种用于基于视频的人Re-ID的最新方法。注意，TAUDL利用目标域中的每个摄像机内的个人身份标签，但不采用来自源域的跨域适配。该比较旨在表明，通过CAL，我们的方法可以有效地利用源域，以产生更好的Re-ID功能在目标域比TAUDL。这在表2中得到验证。与TAUDL相比，我们的方法（BL+SOT+CAL-GRL/ CAL-CCE）在两个任务上都取得了相当大的改进，3此设置称为半监督，因为人员身份标签仅在每个摄像机内可用，而不是在所有摄像机上可用。18088“Market1501→Duke” and表2.与Market-1501和Duke上半监督人Re-ID的最新方法的比较。方法杜克→市场1501市场1501 →杜克大学mAP等级-1mAP等级-1TAUDL [12]41.2 63.743.5 61.7BL+SOT+CAL-GRLBL+SOT+CAL-CCE（我们的）46.6 72.249.6 73.744.3 62.045.6 64.0表3.在Market-1501和Duke的无监督和半监督环境中比较相机感知对抗学习（CAL）和领域感知对抗学习（DAL）方法杜克→市场1501市场1501 →杜克大学地图秩-1地图秩-1BL+UOT+DAL25.554.126.242.4BL+UOT+CAL-GRL30.960.431.047.7BL+UOT+CAL-CCE（我们的）34.564.336.755.4BL+SOT+DAL40.267.334.852.2BL+SOT+CAL-GRL46.672.244.362.0BL+SOT+CAL-CCE（我们的）49.673.745.664.0为了验证所提出的摄像机感知对抗学习（CAL）的有效性，我们将我们的方法与最先进的领域自适应方法进行了比较。他们使用域感知对抗学习（DAL）[7，21]仅在源域和目标域之间进行对抗学习。我们自己实施DAL，以确保公平比较。如表3所示，DAL（BL+UOT+DAL和BL+SOT+DAL）在无监督和半监督设置中均劣于所提出的CAL在两个实验中，它们之间存在很大的差距。该结果通过考虑所有相机级子域之间的差异进一步证明了CAL的优势4.3. 论CAL和UOT在以下消融研究中，我们提供了关于两种申报组件有效性的更多详细信息：相机感知对抗学习（CAL）和无监督在线三元组生成（UOT）。CAL的有效性。首先，在表4中，BL+UOT+CAL-CCE一致性优于BL+UOT+CAL-GRL。前者提高了3。9%（64. 3vs.六十岁。4）和7. 7%（55. 4vs.47.7）在“Duke→Market1501”和“Market1501→Duke”中的一级准确率。这表明，拟议的CCE-的方案可以克服GRL的缺点根据第3.1节的分析，其次，与BL+UOT相比，合并所提出的 CAL （通过表 4 中的 BL+UOT+CAL-CCE 或BL+UOT+CAL-GRL）大大改善。这验证了CAL在帮助减少相机级分布差异以学习更好的特征表示方面的有效性。此外，我们还验证了CAL在半监督环境中的有效性。如表5所示，BL+SOT+CAL-CCE将BL+SOT提高10。4%（49. 6vs.39岁（2）和6。4%（45. 6vs.39岁2）在mAP中“Duke→Market1501” andUOT的有效性。将所提出的无监督在线三元组添加到基线中（即，BL+UOT）明确改善基线（BL），如表4所示。这证实了通过建议的UOT从目标域利用判别信息的好处。此外，我们测试了两种方案来计算第3.2节中的距离矩阵M，分别通过欧氏距离（BL+UOT（eud））和默认重新排序算法（BL+UOT）。如图所示，BL+UOT确实实现了更好的性能。此外，我们感兴趣的是，如果没有UOT组件，单独使用CAL会怎么样。BL+CAL-GRL和BL+CAL-CCE均在表4的底部进行了研究。可见，仅仅使用CAL是不够的。与BL+UOT或甚至BL+UOT（eud）相比，它们没有显示出足够的改善BL+CAL-CCE甚至在以下情况下失败：“Duke→Market1501”，尽管在“Market1501→Duke”上显示出一些改进。该结果解释如下。杜克大学的摄像头比Market1501还多。还有，在文献中，当对它们应用相同的Re-ID模型时，Duke的性能通常劣于Market 1501 [13，1，29，11]。这表明Market1501 是一个比 Duke 更容易的数据集。当Market1501是目标域并且更具挑战性的Duke是源域时，如果没有来自目标域的判别信息用作正则化器，则其分布可以显著地改变以拟合Duke与此同时，反过来，情况将变得不那么重要。这是因为杜克大学上述结果清楚地表明了UOT在我们的框架中的必要性。共同工作，这两个提出的组件产生表4中的最佳性能。表4.在Market 1501和DukeMTMC-reID（Duke）上使用不同组件方法杜克→市场1501市场1501 →杜克大学地图秩-1地图秩-1BL19.447.121.338.4BL+UOT（欧盟）23.651.024.140.2BL+UOT27.455.527.544.3BL+UOT+CAL-GRL30.960.431.047.7BL+UOT+CAL-CCE（我们的）34.564.336.755.4BL+CAL-GRL20.547.622.741.4BL+CAL-CCE8.427.623.845.4表5. CAL在Market-1501和DukeMTMC-reID（Duke）半监督环境中的有效性。方法杜克→市场1501市场1501 →杜克大学mAP等级-1mAP等级-1BL+SOT39.2 65.939.2 56.6BL+SOT+CAL-GRLBL+SOT+CAL-CCE（我们的）46.6 72.249.6 73.744.3 62.045.6 64.04.4. 对拟议框架的进一步评价我们检查域间（源域和目标域之间）和相机间（目标域中的所有相机）差异，以验证CAL的有效性，如表6所示。由于我们的目标是获得更好的特征表示的目标领域，我们专注于目标领域180892尊重我。为了测量内部阻力，我们表6. Duke→Market1501任务的域间（源域和目标域之间）和摄像机间（目标域中所有摄像机之间）的数据分布差异。请注意，在此表中，值越小表示性能越好。BLDALCAL-GRLCAL-CCE域间（×103）1.481.221.281.25摄像机间（×102）6.765.974.362.90在检查所有摄像头的差异时在这在实验中，我们通过以下方式测量离散的“中间体”：(a) 基线（BL）(b) CAL-CCE（我们的）的距离d域间=？s -Xt ，其中Xs和Xt表示源域和目标域的样本均值用途dinter-camera=1Ct-t，c -Xtú，其中X t，cCtc=12是目标域中第c个摄像机类的样本均值并且Ct是目标域中的相机的总数这些距离的计算见表6。第一，关于国际--(c) 基线（BL）(d) CAL-CCE（我们的）域差异，DAL，CAL-GRL和CAL-CCE是都小于BL。这验证了它们都能够减少源域和目标域之间的差异。特别地，由于DAL特别关注整体域级别差异，因此其距离小于CAL-GRL和CAL-CCE的距离。此外，CAL-GRL的值略大于CAL-CCE。这与第3.1节中对CAL-GRL缺陷的分析一致。第二，对于相机间差异， CAL-GRL 和 CAL-CCE 都比 DAL 实现更小的距离，因为DAL不考虑相机水平差异。此外，该实验表明，CAL-CCE实现了最小的距离，显示出其最好的能力，在目标域中减少跨相机的此外，我们可视化的数据分布所获得的功能表示从BL和CAL-CCE图。3.第三章。结果进一步说明了CAL-CCE的有效性。表7. Market 1501和DukeMTMC-reID（Duke）上基于CCE的方案和基于AOE的方案的比较。方法杜克→市场1501市场1501 →杜克大学地图秩-1地图秩-1AoE29.659.931.551.3CCE（我们的）34.564.336.755.4正如在3.1节的注释中所分析的，为什么我们更喜欢基于CCE的方案，而不是将一个相机类与所有其他（Cs+Ct−1）相机类等概率地在这个实验中，我们将这个设置命名为AOE，代表我们比较AOE和CCE，表7.如图所示，基于CCE的方案在两个任务中都优于基于AOE的方案。这与我们之前的分析是一致的。研究表明，在降低摄像机级差异时，提高降低域间差异的优先级是有益的，因为域间差异通常比域内差异更显著，对性能的影响也更大。最后，我们验证了无监督在线三联体（UOT）生成，通过将其与图3.通过t-SNE在域级和相机级可视化数据分布[18]。每幅图像的特征是由基线（ BL ）和 CAL-CCE 在任务“DukeMTMC-reID→ Market 1501”。顶部示出了源域和目标域的分布（即，域间）。底部示出了目标域中每个摄像机类的分布（即，市场1501上的相机间），其中不同的颜色表示不同的相机类别。如图所示，所提出的CAL-CCE如预期的那样有效地“混合”了两个域和相机类。DAL和CAL-GRL方法的说明见补充材料。离线方式为了生成离线三元组，我们使用了3.2节中的相同方法，唯一的区别是它们是在训练开始之前由基线模型的特征生成的。总共有88，719和100，742个三胞胎在Market1501和Duke上产生。我们在每批中随机选择40个三联体（即，120个样本，给出与在线方法相同的批量）来训练我们的模型。如表8所示，离线方法明显较差。如3.2节所述，通过利用训练中稳定改进的特征，证实了在线方法的优势。表8. Market-1501和DukeMTMC-reID（Duke）上离线和在线三联体生成的比较。方法杜克→市场1501市场1501 →杜克大学地图秩-1地图秩-1离线三胞胎13.537.110.221.1在线三胞胎（我们的）27.455.527.544.35. 结论本文提出了一种新的深度域自适应框架，以解决无监督跨域人员Re-ID中的两个关键问题。它清楚地表明，当追求更好的特征表示的人Re-ID，考虑相机级域差异是有益的。此外，从未标记的目标域中探索鉴别信息同样重要，如果不是更重要的话。只有当这两个组成部分得到充分解决，无监督的跨域的人的Re-ID可以成为有前途的。22212222222222222122111122222111221122211211211111111222212112211111112112211211112111 11122222211111221111111111111111111111112211211 111111111111222121 122111111 1111111111 2121111111121111111111111112111111111112111 111111111111122111211112211121111111111111111 121111222222111111111112111111111111111111111111111211111122111211 1112111111111111111111111111211111111111111111111111111111111111121112 222111111111111111111112221111111111111111111 1111111111211222111 1 1111121111111111111111111111211111111111111111111 11111111111212111 11111111111111111111111112112221111111 111111111111111112111111111 1111111 11111111111111111112112111112221111211111111221111111211111122111111111111111111111111111111111111211222211 111 111111111122211111111111111111211111111111111 111111111111211111111111111 1

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

无监督摄像机感知的领域自适应人脸识别框架

18.简述将迁移学习分为归纳式迁移学习、直推式迁移学习、无监督迁移学习和领域自适应的依据。

基于深度学习的人脸识别框架，采用了多任务集成学习（MTL）的方式，将人脸关键点识别，头部姿态估计，人脸识别与验证集成到一个框架里进行联合训练。

无监督领域自适应的研究现状

写一篇基于自适应平衡学习的单样本人脸识别研究文献综述

CNN和领域自适应结合进行模型迁移pytorch

领域自适应方法有哪些？

领域自适应和领域泛化的区别

领域自适应python代码

用领域自适应的MMD方法，实现对带标签的38维输入数据和1维输出数据的回归算法，要求建立领域自适应模型包含训练和预测函数的类，并实例化，输出图像分析

领域自适应迁移学习python

详细说明领域自适应、迁移学习、增量学习、数据风格迁移/变换的定义及其特点，以及三者之间的关系

详细说明领域自适应、迁移学习、增量学习的定义及其特点，以及三者之间的关系

自适应聚类和无监督聚类

无刷电机霍尔uvw如何自适应确定

h5 图片标点自适应屏幕 现成框架

advent无监督域自适应

Few-Max方法如何进行领域自适应？

ubuntu人脸识别身份认证

用CNN和领域自适应MMD进行样本迁移pytorch

用pytorch实现CNN和领域自适应MMD进行样本迁移

最新资源

h5 图片标点自适应屏幕现成框架