半监督大规模人脸识别中的有效学习机制

96 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

人脸识别

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

半监督大规模识别刘宇[0000−0001−5812−1137]1、2、宋光禄2、邵景2、肖金2、王晓刚1、 21香港中文大学，香港沙田{yuliu，xgwang}@ ee.cuhk.edu.hk2商汤集团有限公司，北京100084{songguanglu，jinxiao，李静}@ sensetime.com抽象。传统的深度半监督学习方法，例如递归聚类和训练过程，在与卷积神经网络协作时遭受累积误差和高计算复杂度。为此，我们设计了一个简单但有效的学习机制，仅仅是取代最后一个完全连接层，ER与建议的Transductive质心投影（TCP）模块。它的灵感来自于最终分类层中的权重（称为锚）收敛到超空间中每个类的中心方向的观察。具体来说，我们设计的TCP模块，通过动态添加一个ad hoc锚在一个小批量的每个集群。它本质上降低了类间冲突的概率，并使未标记的数据作为标记的数据。我们通过对七个公众面孔/人物分类基准的详细消融研究来检验其有效性。在没有任何附加功能的情况下，TCP可以以全监督和半监督的方式实现比大多数最先进的方法显著的性能增益。关键词：Person Re-ID·人脸识别·深度半监督学习1介绍卷积神经网络（CNN）的爆炸在图像理解领域带来了显着的发展，特别是一些现实世界的任务，如人脸识别[1 - 5]和人员重新识别（Re-ID）[6-11]。大部分进展都是由大规模数据集的创建以及新的和强大的特征学习策略引发的。例如，MS-Celeb-1 M [12]和MARS [13]分别提供了超过1000万张带有粗略注释的人脸图像和100万张行人图像。此外，在工业环境中，从城市级监控系统收集数十亿个面部/行人廊道可能仅需要几周时间。但要给这样的亿级数据贴上标签是很难的。利用这些大规模的未标记的数据，以有利于分类任务仍然是不平凡的。2Y. Liu等人标记数据热身训练聚类ID：1ID：未标记数据模型……ID：自我训练编标记数据F传导质心投影L模型，C[，]SoftMax损失未标记数据fuC自组织质心(a) 用于半监督学习的不稳定自训练策略（b）TCP使训练具有朴素分类管道的未标记数据成为Fig. 1.（a）具有递归聚类-微调的自训练过程（b）具有转导质心投影的最近用于人脸识别或Re-ID [14-20]的大多数无监督或半监督学习方法el迭代直到收敛，如图所示。第1（a）段。中的典型缺点该过程存在于两个方面。首先，递归训练框架是耗时的。其次，由于在这种方法中使用的聚类算法总是生成具有高精度分数但有点低召回分数的ID聚类，这保证了没有内部错误的干净聚类，因此可能导致类间冲突，即属于一个身份的实例被划分为不同的聚类，这妨碍了微调阶段。为此，出现了一个问题：如何在稳定的训练过程中利用未标记的数据，例如使用softmax分类损失函数的CNN模型，而无需任何递归，并避免类间冲突？在这项研究中，我们设计了一个新的Transductive Centroid Projection层，以有效地结合未标记的集群的训练，并伴随着标记样本的学习，并且可以通过将标记数据设置为来轻松扩展到无监督的方式。它是从常用的Softmax损失学习到的潜在空间中得到的启发。在深度神经网络中，最终全连接层的投影矩阵W中的每一列指示决策超平面的法线方向在本文中，我们把每一列都称为锚点对于标记数据，其类的锚点然而，未标记的数据数据不具有访问权限，因此不能直接在一个平面上访问该数据。为了在传统的深度分类网络中利用未标记的样本，我们需要找到一种方法来模拟它们的锚。受锚点接近质心方向（如图1A所示）的观察结果的启发。在图2中，转导质心投影层可以动态地估计每个小批次中的未标记聚类的类质心，并且将它们视为未标记数据的新锚，然后将其吸收到投影矩阵，以便能够对标记和未标记数据进行分类。如图所示。在图1（b）中，原始CNN中的分类层的投影矩阵W被W和ad hoc质心C的联合矩阵替换。以这种方式，标记的数据和未标记的数据起作用。直推质心投影：一种深度半监督方法3训练期间也是如此。如在Sec中分析。3.3，由于每个小批中的ad hoc质心远少于总簇数，因此类间冲突率自然较低，几乎不会影响训练过程。本文对该算法进行了综合评价，并与一些流行的半监督方法和度量学习中的损失函数进行了比较。所提出的直推质心投影在稳定无监督/半监督和优化学习的特征表示方面具有优越的性能。概括起来，本文的贡献有三个方面：1) 观察结果解释-我们研究了锚的方向（即权重w n）随着模型收敛而逐渐与质心重合的观察结果，无论是理论上还是经验上。2) 一种新的转导质心投影层-基于上述观察，我们提出了一种创新的非/半监督学习机制，通过引入一个名为转导质心投影（TCP）的新层，将未标记的数据明智地整合到识别中，以提高其辨别能力。在没有任何迭代处理（如自训练和标签传播）的情况下，所提出的TCP可以简单地训练并稳定地嵌入到任意CNN结构中，而不会丢失任何分类。3) 在人脸识别和ReID基准测试上的卓越性能-我们将TCP应用于人脸识别和人员重新识别的任务，并进行广泛的评估，以彻底检查其相对于半监督学习和监督学习方法的优越性。1.1相关作品半监督学习深度半监督学习的一种有效方法是通过信任来自在标记数据上训练的模型或通过聚类模型[22-25]聚类的模型的预测标签[21]如果阈值设置得不精确，会影响模型的收敛其他方法如生成模型[26]、半监督支持向量机[27]和一些基于图的半监督学习方法[28]具有清晰的数学框架，但难以与深度学习方法结合。半监督人脸/人物识别。在[16]中，从标记和未标记的数据中联合学习了一对字典。LSRO [8]采用GAN [29]来生成人员补丁以规范化数据分布，并提出一个名为LSRO的损失来监督生成的补丁。一些作品[19，18]采用局部度量损失函数（例如，三重丢失[2]），以避免类间冲突。然而，这些具有局部优化功能的方法通常不稳定，难以收敛，特别是对于大规模数据。其他一些方法[19]采用softmaxloss来优化全局类，并遭受类间冲突。这些方法大多集中在迁移学习，自训练和数据分布归一化。在这项工作中，我们主要关注一个基本问题，即如何通过充分利用标记和未标记的数据来明智地训练一个简单的CNN模型，而无需自我训练或迁移学习。4Y. Liu等人表1.在三个不同数据尺度的任务上进行实验设置，以验证观察结果任务#类骨干#功能 Dim.特征空间MNIST10LeNet [30]2图2（a）CIFAR-100100ResNet-18 [31]128图第2条（b）款MS1M-100K100,000Inception-ResNet [32]128图2（c）2Softmax分类器内部的观察在一个典型的直接CNN中，让f∈RD表示由先前层生成的一个样本的特征向量，其中D是特征维度。因此，涉及N个类标签的线性激活y∈RN伴随着权重W∈RD×N和偏差b∈RN，y = W Tf + b。（一）在这项工作中，我们通过设置偏置项b≡ 0将该分类器层从仿射退化为线性投影在softmax loss的监督和SGD的优化下，我们通常可以观察到以下现象：当模型已经成功收敛时，类别i的锚w i= W [i]∈RD指向类别i的数据质心的方向。我们首先在三个从低维空间到高维空间的玩具例子中展示了这一观察结果然后我们尝试用梯度的观点来解释它。2.1玩具实例为了研究从小规模到大规模任务以及从低维到高维潜在空间的上述观察，我们实证分析了具有不同数据规模，特征维度和网络结构的三个任务，即MNIST [33]上的字符分类10类，CIFAR-100 [34]上的对象分类100类，和人脸识别的M-S1 M [35]与100，000类3.表1记录了这些实验的详细设置。对于每个任务，在其骨干结构之后有两个FC层，其中FC1学习内部特征向量f，FC2充当到类空间上的投影。所有任务都使用softmax损失。图图2描绘了从不同数据集提取的特征空间，其中MNIST中的2-D特征被直接绘制，CIFAR-100和MS 1 M中的128-D特征被Barnes-Hut-SNE压缩[36]。MNIST-图2（a）描述了三个阶段中的特征可视化：0、2和10个时期。我们设置f的特征维数D=2，以便探索低维情况下的分布。该模型的训练逐步增加了每个类中特征之间的聚集性和类间的差异我们选择四个类，并显示它们的方向W[n]从3原始MS1M数据集具有一百万个人脸身份，具有若干噪声样本。为了便于说明，这里我们只取前100，000个恒等式直推质心投影：一种深度半监督方法5(a)MNIST数字数字数字数字锚定方向(b)CIFAR-100#1 #100100个班级的样本锚(c)MS1M(d)cos图二.不同任务上特征空间的可视化，即（a）MNIST，（b）CIFAR- 100和（c）MS 1 M，其中CIFAR-100和MS 1 M的特征通过Barnes-Hutt-SNE [36]可视化，以及（d）描绘了锚点方向和类质心之间的余弦距离相对于MNIST上的训练迭代的投影矩阵W，称为锚点。所有锚在训练的初始阶段具有随机方向，并且它们逐渐向各自质心的方向移动。CIFAR-100 MS 1 M-与MNIST不同，f的特征维数为D=128，并且t-SNE用于降维而不损失余弦度量。类似于在MNIST中观察到的现象，每个类别中的特征倾向于逐渐聚集在一起，而来自不同类别的特征在其间具有更明显的边缘。同时，用红点标记的锚点几乎位于其对应的类质心周围。经过良好训练的MS1M模型的锚点也与类质心共同定位。此外，对于量化评估，我们通过计算wn=W[n]和MNIST上总共10个类别中的类别的等级来计算余弦相似度C（wn，cn）。图2（d）展示了关于训练迭代的C（wn， cn）。几乎所有类在一个时期内收敛到距离1，即锚的方向偏移到类质心的相同方向。综上所述，锚方向W[n]在不同的数据集尺度上总是与对应的类质心的方向一致，其中f中的特征维度具有不同的长度。2.2梯度调查我们从训练过程中梯度下降的角度研究了锚点和质心方向逐渐一致的原因。考虑到属于第n个chass的线性投影f的输入和输出y = WT f，f属于第n个chass的softmax概率可以通过下式计算：p=softmax（y）=Σexp（yn）（二）nNi=1 exp（yi）6Y. Liu等人i=1iwnCn更新ΔwnwnΔxnCn计算值毕业生XncnwnInit.(a) 向前推x，得到cn（b）BP，得到Δxn和Δwn（c）更新wn和xn，重新计算cn图三.在一次迭代内锚点wn和类别n的特征xn的演变。在此迭代之后，锚点wn和质心cn之间的方向变得更接近我们希望最小化负对数似然，即 softmax loss：argmin= arg min−log（p），（3）θ θ其中θ表示CNN中所有参数的集合现在，我们可以推断softmax loss f相对于给定单个样本f的锚点wn的梯度：∇ℓ=∂ℓfwnf∂wΣ=−f∈I.ΣI[f∈I]−Σexp（yn）n Nexp（y）·f，⑷在这种情况下，样本的振幅不像在中所定义的那样，并且在y. I是指当f在In中时为1的指示符，反之亦然。在ch处，新的分类样本在分类n中执行，该分类被指定为导致类别n中的所有特征样本的总和，其中来自其余类别的特征样本的总和具有负贡献.Σ平均值（yn）平均值（yn）wnf∈In1−Nn=1 exp（yn）·f+f∈/InΣNn=1 exp（yn·f.）在每次迭代中，wn的更新值等于∆w=−ηΣ=η.Σexp（yn）1−平均值（yn）·f − η·f。nwnf∈InΣNn=1 exp（yn）f∈/In ΣNn=1 exp（yn）其中η表示学习率。前一项可以假设为类n中数据样本的缩放总和，因此近似与类质心cn成比例。并且特征样本通常均匀地分布在特征空间中，对于类别n的负特征样本的总和也将近似地遵循质心Cn的负方向。因此，所述梯度近似地以一个方向步长将重心点映射到所述质心，因此最终所述锚点也将遵循具有足够的梯度累积的质心的方向。图图3描述了一个箭头的移动方向，其几何尺寸Δwn=−wn，以及样本xn的方向，其几何尺寸Δxn=−xn，其标记点为直线。对于一个classn，n直推质心投影：一种深度半监督方法7标记数据未标记数据pCNNQM LL未标记数据CNNQLLp锚点投影M+l类监督(a) 半监督方式(b) 无监督的方式自组织质心l类监督自组织质心见图4。（a）半监督学习与建议的trans-ductive质心投影和（b）无监督学习框架样品和锚分别用黄点和箭头线标记。当网络反向传播时，w_n的方向被更新为朝向classcentrodcnintangentialdirectionwhilsthesamplesΣxn∈Inarealso逐渐转变为wn的方向，这导致wn.3方法Oj=1 xnj=cn→受上一节所述观察的启发，我们提出了一种新的学习机制，将未标记的数据明智地聚集到识别系统中，以增强其区分能力。令XL表示具有M个类的标记数据集，XU表示未标记数据集。我们首先通过[24]对XU进行聚类，得到N个聚类。根据前一节中讨论的属性wncn，来自未标记聚类的自组织质心cU可以用于构建对应的锚向量wU，这意味着可以利用自组织质心来对未标记聚类进行忠实分类。3.1Transductive Centroid Projection（TCP）在一个训练步骤中，我们通过la构造小批量B={XL，XU}p q在aXLXL处被吸收并且在aXUXU处被吸收，其中p=card（X~L）并且p qq=card（X~U）d分别不等于在该批次中的所选择的标签和所不选择的标签的数量。我们通常从标记的数据集中随机选择XL，但未标记的数据是通过随机选择l个未标记的聚类来构建的，每个聚类中有o个样本，即q=l×o。请注意，所选的l个集群对于每个小批量都是动态更改的因此，该小批量B然后被馈送到网络中，并且在TCP层之前提取的特征被重新划分为f=[fL，fU]∈R（p+q）×D，其中D是重新划分的特征，并且fL，fU分别表示标记数据和未标记数据的特征向量。标记数据群集1群集2临时c1临时c2群集1~4adhoc c1~48Y. Liu等人ιi，iJMJNTCP层的投影矩阵被重新表示为W = [WM，Wl]∈R（M+l）×（p+q），其中第一列M列被保留用于标记类的一个或多个，其余l列被adhoc质心向量{cU}1。注意cU是计算出来的m=m通过该小批量中的集群i的所选样本{fU}。i，iΣofUi=11ΣMcU =αi=1i，i，其中α =fUj=1cL（五）比例因子α是标记聚类的质心的平均大小。因此，TCP层的输出通过y=W f获得，没有偏置项，然后将其馈送到softmax损耗层。与纯无监督方式的训练相比，本文中的半监督学习过程（如图1B所示）可以更好地进行训练。图4（a））应用所提出的转导质心投影层，其不仅优化了对标记数据的推断，而且间接地获得了对标记数据的识别能力。未标记的簇。实际上，它可以很容易地转移到无监督学习范式，通过设置M = 0，如图所示。4（b），或者当没有未标记数据时的监督学习框架，如l = 0。3.2比例因子α很重要如第二节所述。3.1中，应用比例因子α来归一化未标记数据的自组织质心。为了训练稳定性和快速收敛的目的，合适的缩放标准是让未标记数据的映射激活yU具有与标记激活y L类似的尺度。实际上，每个质心的2范数固有地在映射输入featuresfltotheoutputtacivationyL. 通过计算Σg，我们可以获得以下结果：平均尺度α=1的未标记数据的三角形Mj=1 cL标记的质心，未标记数据的激活将具有类似的分布作为标记激活，保证了训练过程中的稳定性和快速收敛3.3大小批处理中在传统的识别任务中，较大的批量大小理论上会导致更好的训练性能。然而，在TCP中，较大的批量大小可能会为未标记的数据引入具有相同类标签的多个集群。让类均匀分布在未标记的聚类中，并且由于在N个循环中，每个循环实际上都是N个循环，因此每个簇在小批量B中具有唯一类标签的概率为P（l）=（1-N/N~-1）l，其中，n为所选择的簇的数目。如图1B所示，随着批量大小的增加，其生产能力降低。五、在我们的示例中，对于已识别的部分，N/N~8，对于面，N/N~3识别. 为了保证概率P（1）> 0。99，集群l的数量直推质心投影：一种深度半监督方法9同一小批中的群集号l图五.每个单个集群在迷你数据库中拥有唯一类别标签的概率取决于数据库大小。服务级别N/N~在不同颜色中保留标记在小批量中选择的数量不应大于40。为了尽可能地进一步增加小批量中未标记的簇的数量，我们提供了如下两种策略：簇的选择-在实验中，我们发现T1≥120秒表现出良好的性能。样本的选择-为此，我们通过将每个采样帧之间的间隔设置为大于T0来对样本选择进行约束。在实验中，我们将To设为1秒。基于上述策略，我们发现当在我们的训练数据集中设置l= 48时，在Re-ID上的10， 000个小批次中只有19个3.4讨论：稳定性和效率我们进一步讨论了所提出的TCP层与其他一些度量学习损失相比的优越性，例如三元组损失[2]和对比损失[37]，它们也可以通过精心的批量选择来避免类间冲突当从训练集形成样本对或样本三元组时，这两以三重丢失为例，n个未标记样本构成1n个三重集，度量仅限制在2n个距离上3 3在每次迭代中，即将锚定到阴性样本，并且将锚定到每个单个三联体中的阳性样品。它使三重项在训练过程中受到严重干扰。或者，在所提出的TCP层中，通过标记数据以及未标记数据的l个ad hoc 质心将 n=p+q 个样本与所有 M 个锚点进行比较，以实现（M+1）×（p+q）次比较，这比其他度量学习方法大二次方因此，它确保了稳定的训练过程和快速收敛。概率阶级内部冲突10Y. Liu等人表2.用于训练的八个数据集的列表及其各自的图像和标识号CUHK03中大01PRID Viper 3DPeSI-lidsSenseReId Market-1501总#Tr. ID1,46797138563219311916,37775120,895#Tr. IMGs21,0121,5522,997506420194160,39610,348197,4254实验设置和实施细节标记数据和未标记数据。对于人员重新识别和面部识别两者，训练数据由两部分组成：标记数据DL和未标记数据DU。在Re-ID的实验中，遵循DGD [38]和Spindle [39]的管道2、作为D？请注意，MARS [13]被排除在训练集之外，因为它是Market-1501的扩展。对于DU构建，我们使用四个摄像机从三个不同的场景中收集了总长度为四个小时的每个聚类由POI跟踪器[40]获得，并由[24]聚类，而无需进一步对准，其中去除那些短于一秒的聚类。未标记的数据集被命名为Person Tracker Re-Identification dataset（PT-ReID）4，总共包含158， 446个簇和1， 324， 019个帧对于消融研究，我们进一步手动注释PT-ReID，命名为标记的PT-ReID数据集（L-PT-ReID），并获得总共2， 495个身份。在人脸识别的实验中，我们将标记的MS-Celeb-1 M [35]与从互联网收集的一些照片组合为DL，其总共包含10 M图像和1. 600万个身份对于DU，我们收集11。0M人脸帧，并将其聚类为500K簇.[41]所有的脸都被检测到并对齐评价基准。对于Re-ID，对所提出的方法进行评估六个重要的公开基准，包括基于图像的Market-1501 [42]，CUHK 01 [43]，CUHK 03 [44]和基于视频的MARS [13]，iLIDS-VID [45]以及Prid 2011 [46]。对于人脸识别，我们在NIST IJB-C [47]上评估了该方法，其中包含138000张人脸图像，11000张人脸视频和10000张非人脸图像。据我们所知，这是最新的和最具挑战性的人脸验证基准。请注意，我们在这个数据集中发现了一百多个错误的注释，这些注释在一些小的假阳性率（FPR≤ 1 e-3）上为召回率带来了严重的混乱，因此我们在评估5中删除了这些对。评估指标。对于Re-ID，在消融研究和对比实验中均采用了广泛使用的累积匹配曲线（CMC）。此外，我们将平均精度（MAP）作为另一个指标，用于对Market-1501 [42]和MARS [13]数据集进行评估。对于人脸识别，在大多数其他作品中，采用的受试者工作特征（ROC）曲线4数据集将被发布。5将提供该名单。直推质心投影：一种深度半监督方法11自我表3. Market-1501数据集上不同基线与拟定TCP（最后一行）的比较结果。所有管道都由一个简单的ResNet-101训练，没有任何花哨的东西。前四名是具有单个数据源的单任务学习（即 DL或DU），而以下五种则以多任务学习的方式同时取用这两种数据源方法Top-1 Top-5 前10前20地图SLSUSUSU标记87.722.865.066.493.532.277.078.095.136.682.983.496.641.893.598.079.48.661.367.6MU+LMU+L自我MU+L标记MU+LTR损耗MU+LTCP37.468.886.083.589.646.679.990.889.594.151.584.692.793.595.667.094.594.895.996.821.055.075.879.383.5TCP90.494.595.796.984.4在所有数据集上，我们计算每对查询图像与图库中的任何图像之间的余弦距离，并返回排名的图库列表。培训详情。作为大多数视觉任务深度学习框架的常见做法，我们使用ImageNet上预先训练的参数初始化模型。具体来说，我们在所有实验中采用resnet-101作为主干结构，然后在池5之后添加额外的fc层以生成128-D特征。Dropout [48]用于以0的比率随机丢弃信道。5.输入大小被归一化为224×224，训练批次大小为3，840，其中p = 2，880，q = 960，l =96，o = 10。预热技术[49]用于在大批量训练时实现稳定性5消融研究由于训练数据，网络结构和预处理的数据不同的方法，我们首先分析了所提出的方法的有效性与定量比较不同的基线在第二。5.1中的特征空间进行可视化5.2.所有消融研究均在Market-1501上进行，Market-1501是一个大规模的干净数据集，具有很强的泛化能力。5.1成分分析由于半监督学习包含两个数据源，即标记数据DL和未标记数据DU，因此将所提出的TCP与表1中列出的九个典型配置基线3.第三章。这些基线可以分为两种类型：只有一个数据源的单任务学习和多个数据源的多任务学习。前四个是具有单个数据源的单任务学习：（1）SL仅使用由具有softmax损失的注释的地面实况ID监督的DL;（2）SU仅使用通过将集群ID作为具有softmax损失的伪地面实况来监督的DU。softmax损失;（3）SU在未标记的数据上进行自我训练，其中自我训练12Y. Liu等人标记的S和STR损耗TCP自我自我标记标记自我TR损耗3TCP是一种经典的半监督学习方法。我们首先使用用于提取DU特征的DL来训练CNN，然后通过聚类算法获得伪地面伪地面真值被用作DU培训;（4）SU培训- 我们进一步注释真实的地面真相并将其与使用伪地面训练的模型进行真相后五种是多任务学习，其中三种是上述单任务基线的组合，具体如下：（5）MU+L组合了SL和SU;(6)MU+L是SL和SU的组合（7）MU+L是一个组合自我自我标记L U标记.最后两个带注释的地面实况进行监督并比较操作三元组的性能我们的TCP在未标记数据上的损失为（8）MU+L三重态损失，其中三元组的选择策略也遵循第3.3节中描述的在线批量选择，以及（9）MU +L利用所提出的TCP，其被认为是以无监督的方式进行训练。该方法TCP既不是单任务学习，也不是多任务学习，而是以半监督的方式同时训练标记和未标记的数据结果清楚地证明，无论是单任务还是多任务学习都会拉低绩效，其结论如下：聚类数据包含噪声和假的地面实况。与直接使用存储器ID作为备份的本地存储器相比，训练SU的表现优于它42%。类似地，通过融合标记的数据，MU +L优于MU +L，为31。4%。结果表明：（1）源聚类数据中含有大量虚假的真值，（2）大量的聚类碎片导致同一个身份被聚类到不同的ID真值。这是一个很难找到一个普通的一个更好的结论。我们通过对聚类数据的分析，得到了未标记数据的真实情况。虽然SU优于SU，但伪地面实况再次证明了群集，均为SUU+L标记与训练时标记数据SL。它表明，两个源数据域之间存在显着的差异，并且由于不同集群之间的时间间隔，获得干净的注释集是不平凡的自我训练和三重损失不是最佳的。既有自我训练M U+L和三重态损失MU+L提供解决方案，以克服在a，si6%和6. 9%。如第3.4中，三重丢失仅考虑2N个距离，无法充分利用每个批次数据中的信息，而自训练深刻地依赖于具有标记数据的预训练模型的鲁棒性，无法保证本质上解决问题。TCP的优越性通过采用TCP，无监督学习MU +L和半监督学习TCP都毫不奇怪地大大优于所有上述基线变体。证明了所提出的在线批量选择和质心投影机制的优越性和M直推质心投影：一种深度半监督方法13Init.0.1 epoch 0.6 epoch批处理中标记数据的锚批处理中标记数据批处理中未标记数据图六、特征和锚点分布收敛在半监督训练与建议的TCP层通过优化（M+1），综合利用所有标记和未标记数据l）×（p+q）距离。5.2人员重新识别的在MNIST、CIFAR-100和MS 1 M上学习的特征空间将在第2节中讨论2.1.在这里，我们通过在不同的训练阶段可视化与单个GPU上的小批量相关的分布，来检查使用拟议的TCP层进行人员重新识别时是否也会为了清晰的可视化，我们示出了具有8个标记的样品的小批量，其中每个样品属于不同的类，以及来自3个类的24个未标记的样品，每个类具有8个样品。6.随着历元数的增加，标记数据的锚点向其对应的样本质心收敛，而未标记数据的锚点保持在质心内。在网络收敛之前，标记数据和未标记数据的锚点都在每个类的质心上，因此未标记数据可以被看作是自动标注的数据，以扩大训练数据的跨度。6七个基准6.1人员重新识别基准我们首先在六个Re-ID基准上评估我们的方法。请注意，由于数据预处理、训练设置和网络结构在不同情况下不同。t国家的最先进的方法，我们只列出最近的最佳表现的方法在表中仅供参考。iLIDS-VID和PRID 2011的测试程序为10倍交叉验证结果的平均值，而在MARS上，我们使用固定的SPLIToll，其与官方程序员 [13]。如图所示。4，' B asel. ’在Market-1501、CUHK 03和CUHK 01数据集上，与现有的各种方法相比，本文提出的TCP算法取得了最好的性能。性能将进一步提高了额外的重新排名技能。14Y. Liu等人表4.在六个人重新识别数据集上的所提出的和其他比较的实验结果（%）。最好的用粗体表示，第二好的用下划线表示Market1501顶部-顶部-1 5顶部-10顶部-20地图中大01顶部-顶部-1 5顶部-10顶部-20最佳[50]84.192.794.996.863.4最佳[39]79.994.497.198.6巴塞尔。82.792.395.096.058.1巴塞尔。83.096.298.199.3TCP86.194.095.096.266.2TCP90.098.099.099.4TCP +重新排名90.494.595.796.984.4TCP+重新排序91.698.399.199.4火星顶部-顶部-1 5顶部-10顶部-20地图iLIDS-VID顶部-顶部-1 5顶部-10顶部-20最佳[51]73.9---68.4最佳[52]62.086.094.098.0巴塞尔。77.290.493.395.147.7巴塞尔。64.591.896.998.8TCP80.791.694.495.753.7TCP69.495.198.399.3TCP +重新排名82.991.893.796.467.6TCP+重新排序71.795.198.399.3CUHK03顶部-顶部-1 5顶部-10顶部-20-PRID2011顶部-顶部-1 5顶部-10顶部-20最佳[50]88.798.699.299.6-最佳[52]77.095.099.099.0巴塞尔。91.799.199.699.8巴塞尔。84.695.499.099.6TCP94.499.799.9100.0-TCP92.198.199.6100.0TCP +重新排名98.2 100.0 100.0100.0-TCP+重新排序93.698.999.6100.0表5.IJB-C和LFW数据集上的实验结果（%）基准IJB-CLFW指数tpr@1e-1 tpr@1e-2 tpr@1e-3 tpr@1e-4 tpr@1e-5 tpr@1e-6 tpr@1e-7 ACC最佳[32]-------99.80SUSLSU+L自我TCP98.6599.7098.9799.9795.0898.9898.8099.8184.1497.3798.1699.1664.9894.6296.6097.5840.4290.4993.6794.6321.8983.6888.6489.219.9476.3780.6982.9098.2499.7899.8099.826.2人脸识别基准IJB-C [47]是目前最具挑战性的人脸识别基准。由于它刚刚发布了几个月，很少有工作报告它的结果。我们在图1中报告了七个不同假阳性率水平（从1 e-1到1 e-7）的真阳性率。5.建议的TCP与第12节中描述的一些基线进行了比较。5.最好的准确性，广泛使用的LFW数据集上的现有工作也报告供参考。所提出的TCP的结果优于所有的基线，特别是自训练的，其训练过程需要超过4倍的时间TCP。7结论通过观察CNN中softmax损失学习的潜在空间，我们提出了一种名为TCP的半监督方法，它可以稳定地嵌入CNN中，并跟随任何分类损失函数。大量的实验和消融研究表明，它的优势，利用完整的信息，在标记和未标记的数据，以实现国家的最先进的性能，对六个人的重新识别数据集和一个人脸识别数据集。直推质心投影：一种深度半监督方法15引用1. Taigman，Y.，杨，M.，Ranzato，M.，沃尔夫湖：Deepface：缩小与人脸验证中人类水平性能的差距 In ： Proceedings of the IEEE conference oncommputervis is inandpater nrecognition. （2014）17012. Schroff，F.，Kalenichenko，D. Philbin，J.：Facenet：用于人脸识别和聚类的统一嵌入。在： Proceedings of the IEEE conference on computervisionandpat ter nregni t iti on中。（2015）8153. Sun，Y.，王，X.，唐X：通过预测10，000个类来深度学习人脸表示。在：IEEE计算机视觉和图像处理会议论文集中。（2014）18914. Sun，Y.，Liang，D.，中国科学院院士，王，X.，唐X：Deepid3：使用非常深度的神经网络进行人脸识别。arXiv预印本arXiv：1502.00873（2015）5. Liu，Y.，Li，H.，Wang，X.：重新思考大规模识别的特征区分和聚合。arXiv预印本arXiv：1710.00870（2017）6. 宋，G.，伦湾Liu，Y.，荷塘角Cai，S.：基于区域的质量估计网络用于大规模人员重新识别。arXiv预印本arXiv：1711.08766（2017）7. Liu，Y.，Yan，J.，欧阳文：用于集对集识别的质量感知网络。在：CVPR中。第2卷（2017年）88. Zheng，Z.，郑湖，Yang，Y.：gan产生的未标记样本改善了体外人再识别基线。IEEE International Conference on Computer Vision（ICCV）(Oct（2017年）9. 周志，黄，Y.，王伟，Wang，L.，美国，Tan，T.：只见树木不见森林：联合空间和时间递归神经网络用于基于视频的人物重新识别。在：IEEE计算机视觉和模式识别会议(July（2017年）10. 赵，L.，Li，X.，Zhuang，Y.，Wang，J.：深度学习的部分对齐表示用于人员重新识别。IEEE International Conference on Computer Vision（ICCV）(Oct（2017年）11. 李伟，Zhu，X.，龚，S.：通过多损失分类的深度联合学习进行人员重新识别。arXiv预印本arXiv：1705.04724（2017）12. Guo，Y.，中国科学院，张，L.，Hu，Y.，他，X.，高杰：MS-Celeb-1M：一个用于大规模人脸识别的数据集和基准。在：欧洲计算机视觉会议，施普林格（2016）13. 郑湖，Bie，Z.，Sun，Y.，王杰，Su，C.，王，S.，Tian，Q.：Mars：用于大规模人员重新识别的视频基准。在：欧洲会议上ComputerVision，Springger（2016）86814. Weston，J.，Ratle，F.，Mobahi，H.，Collobert，R.：基于半监督的深度学习。 In：NeuralNetworks：Trade的Tr ics。Springger（2012）63915. Lee，D.H.：伪标签：简单高效的深度神经网络半监督学习方法。在：在表征学习的挑战，ICML研讨会。第3卷（2013年）216. Liu，X.，中国科学院院士，Song，M.，Tao，D.，Zhou，X.，中国科学院，陈春，Bu，J.：半监督cou-Pled字典学习用于人的重新识别。In：Proceedings of the IEEE ConferenceonComuterVis isinandPater nRecognitin.（2014）355017. Odena ， A.：使用生成对抗网络的半监督学习。 arXiv 预印本arXiv ：1606.01583（2016）18. Fan，H.，郑湖，Yang，Y.：无人监管人员重新识别：聚类和微调。arXiv预印本arXiv：1705.10444（2017）16Y. Liu等人19. 杨杰，Parikh，D.Batra，D.：深度表示和图像聚类的联合无监督学习In ： Proceedings of the IEEE Conference on Computer Vision andPatternRecognitio n.（2016）514720. 王，X.，卢湖Shin，H.C.，金姆湖Bagheri，M.，诺格斯岛姚，J.，Summers，R.M.：深度特征和图像标签的无监督联合挖掘用于大规模放射学图像分类和场景识别。 In ： Applications of ComputerVis ion（WACV），2017IEEEWinterConfere nceo n，IEEE（2017）99821. Zhu：使用标签传播从标记和未标记数据中学习。（2002年）22. MacQueen，J.，等：多元观测值分类与分析的若干方法在：第五届伯克利数学科学与编程研讨会论文集。第 1 卷，Oakland ，CA ， USA（1967）28123. Gowda，K.C.，克里希纳，G.：基于互相关概念的集聚聚类。第10（2）（1978）105- 112页

下载后可阅读完整内容，剩余1页未读，立即下载