质量感知网络用于集合对集合识别

45 浏览量更新于2023-10-16 收藏 12.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Good Quality157900质量感知网络用于集合对集合识别0刘宇 SenseTime GroupLimited0liuyuisanai@gmail.com0严俊杰 SenseTime GroupLimited0yanjunjie@sensetime.com0欧阳万里悉尼大学0wanli.ouyang@gmail.com0摘要0本文针对集合对集合识别问题，学习两个图像集之间的度量。每个集合中的图像属于同一身份。由于集合中的图像可以互补，它们有望在实际应用中提高准确性。然而，无法保证每个样本的质量，质量较差的样本将损害度量。本文提出了质量感知网络（QAN）来解决这个问题，其中每个样本的质量可以在训练阶段自动学习，尽管没有明确提供这样的信息。网络有两个分支，第一个分支为每个样本提取外观特征嵌入，另一个分支为每个样本预测质量分数。然后，聚合集合中所有样本的特征和质量分数以生成最终的特征嵌入。我们表明，只给出集合级别的身份注释，这两个分支可以以端到端的方式进行训练。该机制的梯度传播分析表明，网络学习到的质量对于集合对集合识别是有益的，并简化了网络需要拟合的分布。在人脸验证和人物识别的实验中，我们展示了所提出的QAN的优势。源代码和网络结构可以在GitHub上下载1。01. 引言0人脸验证[12, 26, 27, 28, 30]和人物识别[5, 6, 20,42]已经得到广泛研究和应用于计算机视觉应用，如金融身份认证和视频监控。这两个任务都需要测量两个人脸或人物图像之间的距离。这些任务可以自然地形式化为度量学习问题，其中来自同一身份的图像的距离应小于来自不同身份的图像的距离。01 github.com/sciencefans/Quality-Aware-Network0请注意，我们正在开发本存储库中的P-QAN（QAN的细粒度版本，请参见第5节），因此代码的性能可能高于我们在本文中报告的性能。0清晰样本0清晰样本0抖动0模糊0抖动0模糊0图1.我们的动机的示意图，最好以彩色查看。左列：集合对集合识别中的一个经典难题。集合A（上）和B（下）都包含由抖动和模糊引起的噪声图像样本。它们的特征（在中间行中显示的直方图）与内部类别的样本相比，更类似于其他类别的样本。右列：超空间中两个身份的分布和样本。顶部：由于噪声，两个身份的方差很大，它们都有困难的负样本。底部：质量感知网络（QAN）削弱了噪声样本，并缩小了身份的方差，使它们更具有区分性。0身份。基于大规模训练数据、卷积神经网络和精心设计的优化标准，当前方法在标准基准测试中可以取得有希望的性能，但由于大姿态或光照引起的外观变化，仍然可能失败。在实际应用中，与单个图像不同，每个身份通常可以收集到一组图像。例如，一个身份的图像集可以从视频中的人脸或人物的轨迹中采样。集合中的图像可以相互补充，因此它们提供的信息比单个图像更多，例如来自不同姿势的图像。直接的方法是聚合身份信息57910集合中所有图像的信息可以通过简单的最大/平均池化来汇总所有图像的外观特征。然而，这种池化中的一个问题是集合中的一些图像可能不适合识别。如图1所示，左上和左下的两个集合都包含由抖动或模糊引起的噪声图像。如果将噪声图像视为相同并使用最大/平均池化来聚合所有图像的特征，噪声图像将误导最终表示。为了对上述描述的质量较差的图像具有鲁棒性，并同时使用其他图像提供的丰富信息，我们的基本思想是每个图像在聚合中都可以有一个质量分数。为此，我们提出了一种质量感知网络（QAN），它有两个分支，然后聚合在一起。第一个分支名为特征生成部分，提取每个图像的特征嵌入，另一个分支名为质量生成部分，预测每个图像的质量分数。然后，根据它们的质量，整个集合中的图像特征由最终的集合池单元进行聚合。我们方法的一个好的特性是我们不通过任何显式的质量注释来监督模型。网络可以自动为质量较差的图像分配低质量分数，以保持最终的特征嵌入在集合识别中的有用性。为了实现这一点，设计了一个精心设计的模型，其中嵌入分支和分数生成分支可以通过优化最终嵌入的联合三元组和softmax损失进行联合训练。特别是在本文中，我们在图像集之上使用联合三元组和softmax损失。图像集池化单元的设计梯度确保了这个自动过程的正确性。实验证明，预测的质量分数与人类注释的质量相关，并且在识别方面，预测的质量分数优于人类。在本文中，我们展示了所提出方法在人员重新识别和人脸验证上的应用。对于人员重新识别任务，所提出的质量感知网络在iLIDS-VID上的top-1匹配率比基线提高了14.6%，在PRID2011上提高了9.0%。对于人脸验证，当误报率为0.001时，所提出的方法在YouTubeFace和IJB-A基准上将误报率降低了15.6%和29.32%。本文的主要贡献总结如下。0•所提出的质量感知网络自动为集合中的每个图像生成质量分数，并为集合识别提供更好的表示。0•我们设计了一种端到端的训练策略，并证明了质量生成部分和特征生成部分在反向传播过程中相互受益。0• QAN学习到的质量优于质量估计0由人类和我们在人员重新识别和人脸验证方面取得了新的最先进性能。02. 相关工作0我们的工作基于深度学习在人员重新识别和无约束人脸识别方面的最新进展。在人员重新识别方面，[20, 37,41]使用深度卷积网络生成的特征，取得了最先进的性能。在无约束人脸识别中，Huang等人[11]使用卷积受限玻尔兹曼机，而[28, 30]使用深度卷积神经网络。此外，[26,29]使用更深的卷积网络，取得了甚至超过人类性能的准确性。深度学习在基于图像的人脸验证基准LFW[12]上的准确性已提升至99.78%。尽管深度神经网络在这两个问题上取得了如此出色的性能，但在当前世界中，无约束的集合识别更具挑战性和实用性。回顾过去，处理集合识别的方法有两种不同的方法。第一种方法将图像集合视为凸包[2]、仿射包[10]或子空间[1,13]。在这些设置下，集合中的样本分布在希尔伯特空间或Grassmann流形中，因此可以将此问题形式化为度量学习问题[23,39]。其他一些工作通过将集合中的图像聚合到超空间中的单个表示来将集合识别降级为点对点识别。这种方法中最著名的方法是特征包（Bag offeatures）[17]，它使用直方图来表示整个集合进行特征聚合。另一个经典的工作是局部聚合描述符（VLAD）[14]，它聚合了所有样本的所有局部描述符。[36]使用时间最大/平均池化来整合由循环卷积网络生成的所有帧的特征。该方法使用一阶统计量来聚合集合。[32,43]中使用二阶统计量，假设样本服从高斯分布。在[8]中，根据姿势和质量将集合中的原始人脸分为20个箱子。然后，将每个箱子中的人脸进行聚合以生成特征，最后将所有箱子中的特征向量合并为最终表示。[38]使用注意机制将多个样本点汇总为单个聚合点。提出的QAN属于第二种方法。它丢弃了杂质并选择了所有图像中的基本信息。与最近的基于固定特征[38]或图像[8]学习聚合的方法不同，QAN同时学习特征表示和聚合。[7]提出了一个类似的质量感知模块，名为“基于记忆性的帧选择”，它将“视觉熵”作为帧的得分。但是，帧的得分224 57920图像数量N0质量生成单元Q0μ1~N集合池化0图像集中间表示0集合级表示0图像级表示0ID信号0ID信号0特征生成部分0图2.质量感知网络的端到端学习结构。该结构的输入是三个图像集Sanchor，Spos和Sneg，属于类别A，A和B。它们中的每一个都通过完全卷积网络（FCN）生成中间表示，这些表示将被馈送到质量生成部分和特征生成部分。前者为每个图像生成质量分数，后者为每个图像生成最终表示。然后，所有图像的分数和表示将由集合池化单元聚合，并产生图像集的最终表示。我们使用softmax损失和三元组损失作为监督ID信号。0由人类定义，与特征生成单元无关。在QAN中，分数是自动学习的，质量生成单元与特征生成单元联合训练。由于训练过程中两个部分之间的相互利益，通过联合优化图像聚合参数和图像特征生成器，性能得到了显著提高。03.质量感知网络（QAN）0在我们的工作中，我们专注于改进图像集嵌入模型，将图像集S ={I1，I2，...，IN}映射到具有固定维度的表示，以便具有不同数量图像的图像集可以相互比较。让Ra(S)和RIi表示S和Ii的表示。Ra(S)由S中的所有元素确定，因此可以表示为0Ra(S) = F(RI1, RI2, ..., RIN) (1)0RIi由特征提取过程生成，包含传统的手工特征提取器或卷积神经网络。F(∙)是一个聚合函数，它将可变长度的输入集合映射到固定维度的表示。挑战在于找到一个优化的F(∙)，它从整个图像集中聚合特征以获得最具辨别性的表示。基于高质量图像更容易识别的概念，而质量较低的图像包含遮挡和大姿态对集合表示的影响较小，我们将F(∙)表示为0F(RI1, RI2, ..., RIN) = ΣNi=1 µiRIi / ΣNi=1 µi (2)0µi = Q(Ii) (3)0其中Q(Ii)预测图像Ii的质量分数µi。因此，一个集合的表示是每个图像特征的融合，由它们的质量分数加权。03.1.用于图像集嵌入的QAN0在本文中，特征生成和聚合模块通过名为QAN的端到端卷积神经网络实现，如图2所示。从中间分成两个分支。在第一个分支中，质量生成部分后跟一组池化单元组成聚合模块。在第二个分支中，特征生成部分生成图像的表示。现在我们介绍图像集如何通过QAN流动。在过程开始时，所有图像被送入一个完全卷积网络以生成中间表示。之后，QAN被分成两个分支。第一个分支（上部）称为质量生成部分，是一个小型卷积神经网络（详见第3.4节）。它用于预测质量分数µ。第二个分支（下部）称为特征生成部分，为所有图像生成图像表示RI。µ和RI在集合池化单元F中进行聚合，然后通过全连接层传递以获得最终表示Ra(S)。总之，这个结构为图像生成质量分数，使用这些质量分数加权图像的表示并将它们相加以产生最终集合的表示。03.2. 无质量监督的QAN训练0我们以端到端的方式训练QAN。数据流程如图2所示。QAN应该为属于不同身份的图像和集合生成有区分度的表示。对于图像级别的训练，在特征生成部分之后建立一个全连接层，由Softmax损失Lclass进行监督。对于集合级别的训练，一个集合的表示R a( S )由L veri进行监督，其公式如下：0L veri = ∥ R a ( S a ) R a ( S p ) ∥ 2 ∥ R a ( S a ) R a ( S n) ∥ 2 + δ (4) 上述损失函数在之前的工作中被称为TripletLoss。我们将S a定义为锚定集合，Sp定义为正样本集合，Sn定义为负样本集合。该函数最小化类内样本的方差，而Softmax损失无法实现此目标。 = 57930保证这一点，因为softmax损失直接优化每个类别的概率，而不是表示的区分度。记住这一点，我们考虑集合池化操作F。通过集合池化单元反向传播的梯度可以如下表示：0∂ F ∂R I i ( S )0∂R I i = µ i (5)0∂ F ∂µ i =( S )0∂µ i = R I i R a ( S ) (6)0因此，我们可以将最终损失的传播过程表示为0∂L veri ∂R I ia ( S )0∂R I i ∙ ∂L veri0∂R a ( S ) = ∂L veri0∂R a ( S ) ∙ µ i (7)0∂L0∂µ i = ∂R a0∂µ i ∙ (∂L veri0∂R a ( S ) ) T0j =1 ( ∂0∂R a ( S ) j ∙ ( x ij R a ( S ) j )) (8)0其中D是图像表示的维度。我们讨论了通过这个反向传播过程如何自动学习质量得分µ。03.3. 学习质量得分的机制0R a (S anchor)0R a (S neg)0的梯度0S anchor0S neg的梯度0图3.训练中的两个不同身份，最好以彩色查看。红色半透明点和绿色半透明点表示两个不同身份的图像集中的图像。两个实心点表示两个集合S anchor和S neg的加权中心，也是两个集合的表示。Sanchor和S neg的梯度用红色箭头表示。x ni和xai是两个集合中的图像表示。0µ的自动梯度。通过集合池化单元的反向传播后，µ i相对于L veri的梯度0根据公式8可以计算，即R a ( S )和R Ii的梯度的点积。因此，如果� R a ( S )和R I i的角度属于(90°,90°)，µ i的梯度将为正。例如，如图3所示，� R a ( S neg)和x ni R a ( S neg)的角度小于90°，因此经过反向传播后，x' ni的质量得分µni将变大。相反，x a i的相对方向与R a ( S anchor)的梯度相反，这使得它明显是一个困难的样本，因此它的质量得分µai倾向于变小。显然，沿着集合梯度的“正确”方向的样本质量得分较高，而沿着“错误”方向的样本得到较低的权重。例如，在图3中，上部区域的绿色样本和下部区域的红色样本一直在不断提高它们的质量，而在中间区域，样本的质量降低。因此，µi表示第i个图像是一个好样本还是一个困难样本。这个结论将通过实验证明。µ调节了R I i的注意力。R Ii的梯度在公式7中用µi表示，与从Softmax损失传播的梯度一起。由于大多数质量较差的困难样本（具有较低的µi）通常是糟糕的图像，甚至充满背景噪声，因此在R Ii的梯度中，µi因素减弱了它们对整个模型的有害影响。也就是说，在反向传播过程中，它们对特征生成部分的参数的影响可以忽略不计。这个机制有助于特征生成部分专注于好样本并忽略其他样本，这有利于集合对集合的识别。03.4. 质量生成部分的详细信息0ConvNet Sigmoid L1归一化0pool4层的中间表示0N x 512 x 14 x 140N x 1 x 1 x 1 N x 1 x 1 x 10原始得分Sigmoid和L1归一化所有得分0所有图像的最终得分μ0图4.质量生成单元的结构。该单元的输入是包含N个图像的中间表示，它产生所有N个图像的归一化权重。0在质量感知网络（QAN）中，质量生成部分是一个卷积神经网络。我们设计了从不同特征图开始的不同得分生成部分。我们以在Pool4处分割的QAN为例。如图4所示，Pool4层的输出空间为512×14×14。为了生成一个1×1的质量得分，卷积部分包含一个2步长的池化层和一个核大小为7×7的最终池化层。最终池化层后面跟随一个全连接层，用于生成原始质量得分。然后，将一组中所有图像的原始得分发送到57940同一人不同得分0从优秀到较差0图5.QAN预测的样本质量，最佳观看效果为彩色。上：同一人的两个图像进行比较。从上到下，每一列显示了同一个人的两个帧。上面的图像质量优于下面的图像。下：按质量得分从左到右排序的测试集中的随机选择的图像，最佳观看效果为彩色。0sigmoid层和分组L1归一化层生成最终得分µ。对于在Pool3处分割的QAN，我们将在质量生成单元的开头添加一个包含三个1步长卷积层和一个2步长池化层的块。04. 实验0在本节中，我们首先探讨了QAN学到的质量得分的含义。然后分析了QAN对特征级别的敏感性。基于上述知识，我们在两个人体再识别基准数据集和两个无约束人脸验证基准数据集上评估了QAN。最后，我们分析了QAN学到的概念，并将其与人类标记的得分进行了比较。04.1. QAN学到了什么？0定性分析我们通过可视化QAN生成的µ来探索µ的含义。图5中的第一、第二行显示了具有不同质量的同一人的实例。所有图像都是从测试集中随机选择的。同一列中的两个图像属于同一个人。上面的图像是从质量得分高于0.8的图像中随机选择的，而下面的图像是从质量得分低于相应较高得分的图像中选择的。很容易发现，质量得分较低的图像具有0正常图像的质量得分通常高于存在一致性、叠加、模糊或极端光照条件的图像。图5中的最后两行给出了从测试集中随机选择的其他图像的示例。它们按照质量得分从左到右排序。我们可以观察到，质量得分大于0.70的实例很容易被人类识别，而其他实例则较难。特别是许多难以识别的图像中心包含两个或更多的人物，我们几乎无法区分哪一个是正确的目标。定量分析为了衡量人类标记的质量与QAN预测的µ之间的关系，我们随机选择了YouTubeFace中的1000张图像，并由6名志愿者主观地对它们进行了质量评估，每个志愿者为每个图像估计了一个质量得分，范围从0到1。每个志愿者的所有评分都通过逻辑回归进行对齐。然后对每个图像的6个对齐分数进行平均，并最终归一化到[0,1]以获得人类的最终质量得分。我们根据人类的得分将图像分为十个分区，如图6所示。其中我们显示了QAN生成的相应质量统计数据。显然，QAN给出的得分与人类定义的质量强相关。我们进一步分析了这1000张图像中的499,500个图像对，并询问了人类的意见。00.20.40.60.810~0.10.1~0.20.2~0.30.3~0.40.4~0.50.5~0.60.6~0.70.7~0.80.8~0.90.9~1cosine distance between two closures is used to be their sim-ilarity.57950QAN评分04.2. 人物再识别0人工评分0两个闭包之间的余弦距离被用作它们的相似度。0数据集。对于人物再识别，我们收集了134,942帧，包含16,133个人和212,726个边界框作为训练数据。实验在PRID2011 [9]和iLiDS-VID[33]数据集上进行。PRID2011包含两个视角的帧，分别在街道的不同位置拍摄。CameraA有385个身份，而CameraB有749个身份，两个视频有200个人的重叠。每个人有5到675张图像，平均数量为100。iLIDS-VID数据集有300个人，每个人有两组图像，也是从不同的位置拍摄的。每个人有23到192张图像。评估过程。结果以累积匹配特性（CMC）表的形式报告，其中每一列表示在某个top-N匹配中的匹配率。为了进行全面的评估，使用了两种设置。在第一个设置中，我们遵循[40]和[34]中描述的最先进方法。在PRID2011中使用帧数大于21的集合，在iLIDS-VID中使用所有集合。每个数据集分为两部分进行微调和测试。对于测试集，来自CameraA的集合被用作探测集，而来自CameraB的集合被用作画廊。最终结果报告为“10折交叉验证”的平均值。在第二个设置中，我们进行跨数据集测试。与第一个设置不同，我们忽略了微调过程，并使用所有数据来测试我们的模型。也就是说，在PRID2011中，来自CameraA的前200个人作为探测集，而来自CameraB的所有集合作为画廊集合。在iLIDS-VID中，使用CameraA作为探测集，CameraB作为画廊集合。基线。我们实现了两种基线方法。在第一个基线中，我们使用平均池化来聚合所有图像的表示。在第二个基线中，使用最小值运算符和QAN选择每对中更好的一个。结果显示，QAN的决策与人类决策有78.1%的一致性。04.2.1 常规设置的评估0在PRID2011和iLIDS-VID上遵循“10折交叉验证”的评估结果如表1和表2所示。由于大规模训练数据集的好处，我们的CNN+AvePool和CNN+Min(cos)基线接近或甚至优于最先进方法。请注意，表中列出的大多数领先方法都考虑了外观和时空信息，而我们的方法只考虑外观信息。在PRID2011数据集上，与CNN+AvePool和CNN+Min(cos)相比，QAN的top-1匹配率提高了11.1%和29.4%。在iLIDS-VID数据集上，固有噪声比PRID2011更多，这显著影响了CNN+Min(cos)的准确性，因为运算符“Min(cos)”比“AvePool”对噪声样本更敏感。然而，QAN在这个嘈杂的数据集上获得了更多的收益。它将top-1匹配率提高了12.21%和37.9%。0PRID20110方法 CMC1 CMC5 CMC10 CMC200QAN 90.3 98.2 99.32 100.0 CNN+AvePool 81.3 96.698.5 99.6 CNN+Min(cos) 69.8 91.3 97.1 99.80CNN+RNN [36] 70 90 95 97 STFV3D [22] 42.1 71.984.4 91.6 TDL [40] 56.7 80.0 87.6 93.6 eSDC [34] 48.374.9 87.3 94.4 DVR [34] 40.0 71.7 84.5 92.2 LFDA[25] 43.7 72.8 81.7 90.9 KISSME [16] 34.4 61.7 72.181.0 LADF [21] 47.3 75.5 82.7 91.1 TopRank [19] 31.762.2 75.3 89.40表1.QAN、AvePool、Min(cos)和其他最先进方法在PRID2011上的比较，其中数字表示CMC曲线中的累积匹配率。0根据这两个实验，QAN在两个数据集上显著优于两个基线。它也比许多最先进的方法表现更好，并将top-1匹配率比之前最好的CN-N+RNN[36]在PRID2011上提高了20.3%，在iLIDS-VID上提高了10%。在嘈杂的iLIDS-VID数据集上，性能提升更为显著，这符合预期并证明了QAN处理质量较差图像的能力。04.2.2 数据集交叉评估0为了防止我们的模型过度拟合测试集的质量分布，我们进行数据集交叉评估。我们QAN68.086.895.497.4CNN+AvePool60.684.989.893.6CNN+Min(cos)49.379.488.291.9CNN+RNN [36]58849196STFV3D [22]37.064.377.086.9TDL [40]56.387.695.698.3eSDC [34]41.363.572.783.1DVR [34]39.561.171.781.0LFDA [25]32.968.582.292.6KISSME [16]36.567.878.887.1LADF [21]39.076.889.096.8TopRank [19]22.556.172.785.9QAN34.061.374.083.1CNN+AvePool29.457.568.880.2CNN+Min(L2)28.557.167.178.6CNN+RNN [36]28576981QAN47.770.483.991.3CNN+AvePool44.165.878.588.9CNN+Min(L2)41.961.775.579.5QAN96.17± 0.09%99.14± 0.12%CNN+AvePool95.46± 0.07%98.66± 0.04%CNN+Min(cos)94.87± 0.10%98.37± 0.06%NAN [38]95.52±0.06%98.7%FaceNet [26]95.12±0.39%-DeepID2+ [29]93.2±0.2%-DeepFace-single [30]91.4±1.1%96.3%EigenPEP [18]84.8±1.4%92.6%TPR@FPR1e-31e-21e-1QAN89.31±3.92%94.20±1.53%98.02±0.55%CNN+AvePool85.30±3.48%93.81±1.4497.85±0.61%CNN+Min(cos)82.74±3.61%92.06±1.9897.29±0.67%NAN [38]78.5±2.8%89.7±1.0%95.9±0.5%DCNN+metric [4]-78.7±4.3%94.7±1.1%LSFS [31]51.4±6.0%73.3±3.4%89.5±1.3%OpenBR [15]10.4±1.4%23.6±0.9%43.3±0.6%57960iLIDS-VID0方法 CMC1 CMC5 CMC10 CMC200表2.QAN、AvePool、Min(cos)和其他人体再识别方法在iLIDS-VID上的比较，其中数字表示CMC曲线上的累积匹配率。0PRID20110方法 CMC1 CMC5 CMC10 CMC200表3.QAN在PRID2011上的跨数据集性能，其中数字表示CMC曲线上的累积准确率。0iLIDS-VID0方法 CMC1 CMC5 CMC10 CMC200表4.QAN在iLIDS-VID上的跨数据集性能，其中数字表示CMC曲线上的累积准确率。0直接使用经过训练的QAN提取iLIDS-VID和PRID2011的集合表示。然后对QAN表示进行CMC分数评估。表3和表4显示了QAN和两个基线的结果。可以发现，即使在跨数据集的设置中，QAN也是稳健的。与基线相比，它将top-1匹配提高了15.6%和8.2%。这个结果表明，QAN从不同数据集中学到的质量分布能够推广到其他数据集。04.3. 无约束人脸验证0数据集。对于人脸验证，我们在VGGFace数据集的扩展版本上训练我们的基础模型[24]，在这个数据集中，我们将身份数量从2.6K扩展到90K和图像0数量从2.6M扩展到5M。该模型在YouTubeFace数据库[35]和IARPAJanus基准测试A（IJB-A）数据集上进行评估。YouTubeFace包含1595个身份的3425个视频。由于大多数人脸模糊或分辨率较低，这是一个具有挑战性的数据集。IJB-A数据集包含500人的2042个视频。IJB-A中的人脸具有较大的姿态变化。评估过程。我们在这两个基准测试中都遵循1:1协议，并使用接收器操作特性（ROC）曲线评估结果。曲线下面积（AUC）和准确率是ROC的两个重要指标。使用10折交叉验证评估数据集。训练细节。训练集和测试集中的所有人脸都通过多任务区域提议网络进行检测和对齐，如[3]中所述。然后，我们裁剪人脸区域并将其调整为256×224。之后，使用256×224输入的卷积神经网络用于人脸验证。它以一个2步长的卷积层开始，然后是4个基本块，每个块有三个1步长的卷积层和一个2步长的池化层。之后，使用全连接层来获得最终特征。质量生成分支建立在第三个池化层之上，其中中间表示响应的空间尺寸为256×16×14。我们通过分类信号对网络进行预训练，然后训练整个QAN。04.3.1 YouTube Face和IJB-A基准测试结果0方法准确率(%) AUC0表5.QAN在YouTube人脸数据集上的平均准确率和AUC，与基线和其他最新技术进行比较。0表6.QAN在IJB-A数据集上特定FPR下的TPR，与基线和其他最新技术进行比较。10−310−210−110000.10.20.30.40.50.60.70.80.91False Positive RateTrue Positive Rate QAN_pool2Baseline(AvePool)Baseline(MinCos)DeepFaceEigenPEPDDML(combine)10−310−210−11000.80.850.90.951False Positive RateTrue Positive RateBaseline(MinCos)Baseline(AvePool)QAN@FC&FixQAN@FCQAN@InputQAN@Pool1QAN@Pool2QAN@Pool3QAN@Pool410−310−210−11000.750.80.850.90.951True Positive RateFalse Positive RateQAN_pool2Baseline(AvePool)Baseline(MinCos)HumanScore57970图7.YouTube人脸数据集上不同方法的平均ROC曲线。0图8.通过不同层级特征学习的分数生成部分的ROC结果。0图9.QAN与人工评分的性能优于两个基线，但比网络评分差。0在YouTube人脸数据集上，可以观察到图7中0根据表5和表6的结果，我们的基线的准确率和AUC与FaceNet和NAN等最新技术相似。基于这个基线，QAN进一步减少了15.6%的错误率。在ROC评估指标下，QAN在0.001FPR（误报率）上超过了NAN 8%，超过了DeepFace80%，集成了25个模型。在IJB-A数据集上，QAN在0.001FPR下比最先进的算法NAN提高了10.81%，在0.01FPR下提高了4.5%，在FPR=0.1下提高了2.12%，如表6所示。与平均池化基线相比，QAN在上述三个FPR下将假阴性率降低了29.32%，6.45%和7.91%。我们的实验表明，QAN对于集合识别具有鲁棒性。特别是在低FPR的情况下，QAN可以召回更多匹配的样本并减少错误。04.4. QAN生成的质量与人工生成的质量对比0在训练中，级联分数生成单元没有明确的监督信号。因此，另一个问题出现了：使用人工定义的分数是否比让网络自己学习更好？在YouTube人脸实验中，我们用志愿者评定的分数替换了质量分数Q(I)，并得到了图9中的结果，这比两个基线更好，但比原始QAN的结果差。这表明Q与人类思维相似，但更适合于识别。人工生成的质量分数也可以提高准确性，但仍然不如QAN的。04.5. 诊断实验0中间表示的层级可能会影响QAN的性能。我们使用YouTube人脸数据集来分析这个因素，通过比较不同的配置。在第一个配置中，将权重生成部分连接到图像上。在第二到第五个配置中，权重生成部分分别设置在每个块的四个池化层之后。在第六个配置中，我们0将连接权重生成部分与完全连接层。对于最终的配置，在第六个配置中，我们固定了最终完全连接层之前的所有参数，只更新权重生成部分的参数，这被视为第七个结构。为了减小参数数量的影响，通过改变通道数量，不同模型的总大小限制为相同。结果如图8所示。可以发现，QAN的性能在开始时有所提升，并在Pool3达到最高准确率。特征生成部分与质量生成部分的端到端训练版本比固定版本表现更好。因此，我们可以得出以下结论：1）中间层特征对于QAN的学习更好，2）通过联合训练特征生成部分和质量生成部分可以实现显著的改进。05. 结论和未来工作0在本文中，我们提出了一种质量感知网络（QAN）用于集合识别。它在没有监督信号的情况下自动学习每个样本的质量概念，并聚合最具有区分性的样本以生成集合表示。我们在理论上和实验上证明了网络预测的质量对于集合表示是有益的，并且优于人工标记。QAN可以看作是一个关注模型，它关注图像集中的高质量元素。然而，质量较差的图像仍然可能具有一些具有区分性的区域。考虑到这一点，我们的未来工作将探索一种细粒度的质量感知网络，它关注图像集中的高质量区域而不是高质量图像。57980参考文献0[1] Ronen Basri，Tal Hassner和LihiZelnik-Manor。近似的最近子空间搜索。IEEE模式分析与机器智能交易，33（2）：266-278，2011年。20[2] Hakan Cevikalp和BillTriggs。基于图像集的人脸识别。在CVPR'10，第2567-2573页。IEEE，2010年。20[3] Dong Chen，Gang Hua，Fang Wen和JianSun。用于高效人脸检测的监督变换网络。在欧洲计算机视觉会议上，第122-138页。Springer，2016年。70[4] Jun-Cheng Chen，Rajeev Ranjan，Amit Kumar，Ching-Hui Chen，VishalPatel和RamaChellappa。使用深度卷积神经网络的无约束人脸验证的端到端系统。在ICCVWorkshops，第118-126页，2015年。70[5] Michela Farenzena，Loris Bazzani，Alessandro Perina，VittorioMurino和MarcoCristani。通过对称驱动的局部特征累积进行人物重新识别。在CVPR，2010年IEEE计算机会议上，第2360-2367页。IEEE，2010年。10[6] Shaogang Gong，Marco Cristani，Shuicheng Yan和Chen ChangeLoy。人物重新识别，第1卷。Springer，2014年。10[7] Gaurav Goswami，Romil Bhardwaj，Richa Singh和MayankVatsa。Mdlface：用于视频人脸识别的记忆增强深度学习。在生物识别（IJCB），2014年IEEE国际联合会议上，第1-7页。IEEE，2014年。20[8] Tal Hassner，Iacopo Masi，Jungyeon Kim，Jongmoo Choi，ShaiHarel，Prem Natarajan和GerardMedioni。汇集面孔：基于模板的面部识别与汇集的面部图像。在CVPR'16Workshops，第59-67页，2016年。20[9] Martin Hirzer，Csaba Beleznai，Peter M. Roth和HorstBischof。通过描述性和判别性分类进行人物重新识别。在Proc.斯堪的纳维亚图像分析会议（SCIA），2011年。60[10] Yiqun Hu，Ajmal S Mian和RobynOwens。用于图像集分类的稀疏近似最近点。在CVPR'11，第121-128页。IEEE，2011年。20[11] Gary B.Huang。使用卷积深度置信网络学习面部验证的分层表示。在CVPR，CVPR'12，第2518-2525页，华盛顿特区，美国，2012年。IEEE计算机学会。20[12] Gary B Huang，Manu Ramesh，Tamara Berg和ErikLearned-Miller。野外标记面孔：用于研究非约束环境中的人脸识别的数据库。技术报告，技术报告07-49，马萨诸塞大学，阿默斯特，2007年。1, 20[13] Zhiwu Huang，Ruiping Wang，Shiguang Shan和XilinChen。在CVPR'15，第140-149页，2015年，应用于基于视频的人脸识别的Grassmann流形上的投影度量学习。20[14] Hervé Jégou，Matthijs Douze，Cordelia Schmid和PatrickPérez。将局部描述符聚合为紧凑的图像表示。在CVPR'10，第3304-3311页。IEEE，2010年。20[15] Joshua C Klontz, Brendan F Klare, Scott Klum, Anubhav K Jain, and Mark JBurge.开源生物识别。在生物识别：理论、应用和系统（BTAS）2013年，第1-8页。IEEE，2013年。70[16] Martin Koestinger，Martin Hirzer，Paul Wohlhart，Peter M Roth和HorstBischof。从等价约束中进行大规模度量学习。在CVPR'12上，第2288-2295页。IEEE，2012年。6，70[17] Svetlana Lazebnik，Cordelia Schmid和JeanPonce。超越特征包：用于识别自然场景类别的空间金字塔匹配。在CVPR'06上，第2卷，第2169-2178页。IEEE，2006年。20[18] Haoxiang Li，Gang Hua，Xiaohui Shen，Zhe Lin和JonathanBrandt。用于视频人脸识别的Eigen-pep。在计算机视觉-ACCV2014上，第17-33页。Springer，2014年。70[19] Nan Li，Rong Jin和Zhi-HuaZhou。在线性时间内进行最高排名优化。在神经信息处理系统进展中，第1502-1510页，2014年。6，70[20] Wei Li，Rui Zhao，Tong Xiao和XiaogangWang。Deepr

下载后可阅读完整内容，剩余1页未读，立即下载