师生对抗生成网络提高人脸识别性能

119 浏览量更新于2023-10-13 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3671师生对抗深度幻觉提高人脸识别加拿大皇后摘要我们提出了师生生成对抗网络（TS-GAN），从单个RGB图像生成深度图像，以提高人脸识别系统的性能。为了使我们的方法能够很好地推广到看不见的数据集，我们在架构中设计了两个组件，一个老师和一个学生。自身由生成器和鉴别器组成的教师以监督的方式学习输入RGB与成对深度图像之间的潜在映射。由两个生成器（一个与教师共享）和判别器组成的学生从没有可用的成对深度信息的新RGB数据学习，以改进泛化。然后，完全训练的共享生成器可以在运行时用于从RGB中分割深度，以用于下游应用，例如面部识别。我们进行了严格的实验，以显示优于其他方法的TS-GAN生成erating合成深度图像。此外，面部识别实验表明，当与单个RGB模态相比时，我们的超分辨率深度以及输入RGB图像我们在以下网站公布我们的实施：https://github.com/hardik-uppal/teacher-student-gan.git。第一步：培训RGB-D对第二步：识别单个RGB幻觉深度CNN培训生成器幻觉深度融合身份CNN单个RGBTS-GAN图1.我们的方法的建议框架。第一步（蓝色）训练生成器从RGB图像合成深度，而第二步（橙色）通过在面部识别管道中使用它来测试合成深度图像的功效。已知三维面部识别方法对姿势和照明变化的敏感度低于纯RGB方法[41，3，11，42]。尽管有这些优点，但是虽然RGB传感器是普遍存在的，但是深度传感器不太普遍，导致过度依赖于单独的RGB。为了解决这个问题，我们提出了一种方法，该方法使用可用的成对RGB-D训练数据来学习幻觉（即生成合成）深度图像，即使对于不存在相应的地面真实深度信息的数据集也是如此。生成对抗网络（GANs）[8]及其变体（例如，cGan[31]、pix2pix [17]、CycleGan [50]、StackGAN [47]、StyleGAN [20]等）已经被证明是用于许多应用领域中的数据合成的可行解决方案。在面部图像的背景下，GANs已被广泛用于在FFHQ等大规模数据集上训练时生成非常高质量的RGB图像[20]。1. 介绍面部识别是一个活跃的研究领域，最近取得了相当大的进展，这主要归功于深度神经网络的有效性，如AlexNet [23]，VGG [38]，FaceNet [34]，ResNet [12]等。基于RGB的人脸识别方法通常对面部和环境变化（如照明、遮挡和姿势）敏感[35，48，1，29]。利用利用 RGB-D 传感器（如 Microsoft Kinect 或 IntelRealsense）获取的深度信息，以及RGB，允许模型学习更强大的面部表示。这是因为深度提供了关于面部的内在形状的补充几何信息，进一步提升了识别性能。此外，RGB-21] [19]第十九话尽管如此，只有有限数量的过去的工作尝试使用条件GAN [33]、CycleGAN[24]和全卷积网络（FCN）[4]从对应的RGB图像合成深度。尽管cGAN已经使用配对的RGB-D集[33]实现了令人印象深刻的深度合成结果，但它不容易推广到配对样本不可用的新测试示例，特别是当图像来自具有完全不同的姿势、表情和遮挡的完全不同的数据集时。Cycle-GAN [50]试图通过不成对训练来克服这个缺点，目的是很好地推广到新的测试示例。然而，如[50]所述，CycleGAN不能很好地处理转换几何形状和特征。在这项工作中，我们提出了一个深体系结构使用3672新颖的师生GAN（TS-GAN），以从没有对应的深度信息可用的RGB图像生成深度图像。我们的端到端模型由两个组件组成，教师和学生。教师由作为生成器的完全卷积编码器-解码器网络以及作为鉴别器的完全卷积分类网络生成器将RGB图像作为输入，并且旨在输出对应的深度图像。本质上，我们的老师旨在学习RGB和共配准深度图像之间的初始潜在映射。学生由两个编码器-解码器形式的生成器组成，其中一个与教师共享，以及一个完全卷积的鉴别器。学生将相应深度图像不可用的RGB图像作为其输入，并将其映射到教师指导的深度域上这里的目的是让学生进一步完善教师学习的严格映射我们证明了我们的幻觉深度图像的高品质，通过比较，ING他们地面真相深度和几个国家的最先进的深度生成的替代品。然后，针对两个RGB-D 数据集， IIIT-DRGB-D 和 EURECOMKinectFaceDb，跨各种面部识别网络，验证我们在面部识别中使用生成的深度的方法结果表明，使用我们的方法生成的深度图像能够实现与使用数据集中最初可用的地面实况深度一样好的性能，或者在某些情况下甚至令人惊讶地更好，并且与纯RGB面部识别系统相比，它显著提高了识别精度。我们还评估了我们的方法在野生RGB数据集Labeled-Faces-in-Wild（LFW）中的性能，其中最初没有深度信息，并表明通过我们提出的方法添加幻觉深度可以大大提高识别结果+2.4%，SE-ResNet-50架构。我们的贡献总结如下。（1）提出了一种新颖的师生对抗体系结构，用于从单个RGB图像生成逼真的深度图像。我们的方法使用一个学生的架构，以完善严格的潜在的RGB和D域之间的映射由教师学习，以获得一个更普遍和约束较少的关系。（2）我们的评估显示，与传统的深度图像相比，我们的方法创建了逼真的合成深度图像。原始共同配准的深度图像（在可用的情况下）和其它技术。然后，我们利用合成深度进行RGB-D面部识别，并表明利用我们的方法产生的深度图像的多模态解决方案与使用地面真实深度一样好。我们还表明，当利用我们的方法为仅RGB数据集生成深度并随后将gener-RGB数据集与其他数据集相结合时，在多模态网络中的缩放深度和原始RGB图像。(3)我们将我们的实现公开1，以实现可重复性和未来的比较。2. 相关工作2.1. 从RGB图像已经提出了许多方法来估计来自其他模态（诸如立体视觉[7，6，2]和多视图图像[44]）的深度信息。在这里，鉴于本文的目标，我们只回顾从RGB数据生成深度图像的方法。该领域中的大多数现有工作依赖于经典的非深度技术。Sun等人[39]使用不同2D面部姿势的图像来创建3D模型。这是通过用约束独立分量分析计算旋转和平移参数并将其与用于特定特征点的深度估计的先前3D模型相结合来实现的。在随后的工作[40]中，利用非线性最小二乘模型来预测特定面部特征点的深度，从而推断面部的3D这两种方法都使用由检测器获得的面部标志进行参数初始化，使得它们高度依赖于标志检测。Liu等[28]将图像区域建模为超像素，并使用优化进行深度估计。在这种情况下，连续变量编码超像素的深度，而离散变量表示它们的内部关系。在后来的工作中，Zhuet al. [51]通过构建局部、中级和大规模布局的分层表示来利用场景他们将问题建模为条件马尔可夫随机场，层次结构中的每一层都有在[22]中，Kong等人通过从密集3D数据中采样点并将其与RGB通道信息相结合，将3D数据集映射到2D图像然后，他们利用面部Delaunay三角测量来创建面部特征点的结构。测试图像和训练集之间的三角形的相似性允许它们估计深度。一些方法尝试使用深度学习架构来合成深度Cui等[4]使用由面部识别以及深度估计组成的多任务方法从RGB估计深度。他们还进行了RGB-D识别实验，以研究在 Lock 3dFace 和 IIIT-D RGB-D 数据集上使用Inception-V2 [16]融合网络进行识别任务的估计深度的有效性Pini等人[33]使用cGAN架构从单眼强度图像进行面部深度图估计。他们的方法使用共配准的强度和深度图像来训练生成器，以便学习RGB和深度图像之间的关系以进行面部验证。Kwak等人[24]提出了一种基于1https://github.com/hardik-uppal/teacher-student-gan.git3673i=1∼∼˜i=1→--LLL像素n我不是A2B--我不是ΣCycleGAN [50]用于生成深度和图像分割图。为了估计深度信息，在CycleGAN的一致性损失的帮助下保持输入RGB图像的特征。这是通过多任务方法通过为这些RGB图像生成分割图来辅助的，这将进一步帮助网络填充深度信息，其中深度信息是模糊的或通过图像特征的重叠而隐藏的。2.2. 人脸识别早期的RGB-D面部识别方法是基于经典（非深度）方法提出的。Goswami等人[9]从RGB和深度数据中提取的融合视觉显着性和熵图然后使用定向梯度的直方图Li等[26]使用3D点云数据来使用判别式颜色空间变换获得姿势校正的正视图。修正后的纹理和深度图是稀疏近似使用单独的字典，在训练阶段学习。Hayat等人[11]使用黎曼流形上的协方差矩阵表示从RGB和深度数据中提取独立特征，然后使用具有评分级融合的SVM分类器对身份进行分类。最近的方法主要集中在用于RGB-D面部识别的深度神经网络。乔杜里等人[3]使用Auto-Encoders学习RGB和深度之间的映射函数。然后使用映射函数从对应的RGB重建深度图像以用于识别。Zhang等人[46]第四十六话通过使用卷积层应用注意力权重。在[42]中，作者提出了一种基于注意力的方法，其中深度图像的特征允许网络关注RGB图像中包含突出的特定于人的信息的面部区域。3. 方法3.1. 问题公式化考虑了RGB图像目标集ArM的深度生成问题，其分布为Arp目标（Ar），且没有相应的深度信息。假设我们的目标是从教师数据集学习映射生成器函数GA2B，其可以针对每个目标RGB图像Ar准确地生成估计深度图像B r。3.2. 损耗公式和算法我们的端到端架构TS-GAN由一个教师组件和一个学生组件。教师的目标是学习At和Bt之间的潜在映射，教师本身由生成器和判别器组成。然后，学生通过进一步训练生成器，借助另一个生成器-鉴别器对来细化Ar图2呈现了TS-GAN架构。对于教师，我们创建映射函数G A2B：A t B t以及二进制鉴别器函数D depth（. ），它对输入是真实的还是使用深度学习的多模态识别问题专注于CNN嵌入的联合学习，以融合CNN提供的共同和互补信息伪（生成的深度图像）。损失Gping函数然后被公式化为：A2B 关于地图-RGB和深度有效结合在[36]中，RGB，视差图和深度图像被LGA2B =1E2Atp列车（At）[（D）深度（GA2B（At））−1）2]，（1）独立用于微调单独的VGG-Face [32]模型。然后将获得的嵌入融合以馈送SVM分类器用于执行面部识别。Jiang等[18]提出了一种用于基于CNN的面部识别的属性感知损失函数，其目的是针对诸如性别，种族和年龄等软生物特征属性来规范学习表示的分布，从而其中EAtptrain（At）表示从p train（A t）采样的RGB图像，p train（A t）是教师数据集中RGB图像的分布。目标是区分地面实况和幻觉深度图像的深度估计的损失D深度为：提高识别结果。Lin等[27]提出了引入新损失LD深度=1E2Btp列车（Bt）[（D）深度（Bt）−1）2]（二）函数，包括关联和判别损失，+1E2Atp列车（At）[（D）深度（GA2B（At））2]，然后将其与softmax loss组合用于训练，其中EBp（B）表示采样显示IIIT-D RGB-D从不训练不数据集。Uppal等人[42]提出了一个两级注意力模块来融合RGB和深度模态。第一关注层选择性地关注由卷积特征提取器获得的融合特征图，这些融合特征图由LSTM层重新学习。第二注意力然后，图层将重点关注这些地图的空间要素ptrain（Bt），深度图像在教师数据集中的分布。超分辨率深度和地面实况深度之间的附加像素损失pixel可以公式化为：n1L=|（B）− G（A）|.（三）i=13674˜˜˜˜LEL˜˜CYC˜nRiA2BB2AR 我Σ图2. 我们提出的师生对抗网络的架构细节。At和Bt分别指共同配准的RGB和深度图像，并且Bt指教师分量中的生成的深度。Ar是指RGB图像（当没有对应的深度可用时），并且Ar表示重构的RGB图像。Br是指我们的模型为特定RGB图像生成的幻觉深度。其中n是图像中的像素总数。学生组件旨在将来自RGB数据集的单个RGB图像Ar（其没有深度信息可用）转换成目标深度图像Br。这是使用来自等式（1）的映射函数GA2B来完成的。1，以及逆映射函数GB2A：Br→Ar，以及a同样，学生部分的损失总额汇总如下：Lstudent=LGA2B+LGB2A+λcyc·Lcyc，（8）鉴别器DRGB。损失GB2A 对于映射函数将反应公式化为：其中λCYC是循环损耗的加权参数LGB2A=12Arp目标（Ar）[（DRGB（GB2A（GA 2B（Ar）−1）2]，（四）Lcyc，如方程式六、完整的训练过程在算法1的伪代码中列出。我们首先从ptrain（At）中采样RGB图像At作为生成器的输入的产量其中EArptarget（Ar）表示采样从p目标（Ar），其是RGB目标数据集的分布。RGB鉴别器的损失DRGB，其目标是在真实RGB A r和生成的RGBA~r=GB2A（GA2B（Ar））之间进行鉴别，是：12erator是估计的深度图像Bt，其被馈送到鉴别器并被分类为真实或虚假。辨别器还使用等式（1）中提到的损失，用对应的地面实况深度图像Bt来训练。二、除了对抗性损失之外，在像素损失的帮助下促进了训练（等式2）。3），以MAE损失的形式，我们定义了加权参数λpixel。LDRGB=2EArptarget（Ar）[（DRGB（Ar）−1）]（五）在训练老师之后，我们采样RGB图像Ar+1E2Ar目标值（Ar） [DRGB（GB2A（GA2B（Ar））2]。从目标RGB数据p_target（A_r），并将其作为输入馈送到在学生和教师之间共享的生成器。除了来自鉴别器的监督信号之外，如所讨论的，我们还采用另一个发生器GB2A来将从超分辨率深度到RGB的映射反转。这样做是为了保持主体的身份，并以循环一致的方式提供额外的监督。因此，我们将循环一致性损失公式化为：n1L=|（A）− G（G（A））|、（6）i=1老师然后将由该生成器产生的估计深度图像Br馈送到教师网络流中的鉴别器，从而提供监督信号以生成逼真的深度图像。这些超分辨率深度图像也被馈送到逆生成器，以使用等式（1）中提到的损失将估计的深度变换回估计的RGBAr。六、如所讨论的，这样做是为了保留深度图像中的身份信息，同时允许深度图像中的身份信息与深度图像中的身份信息相关联。对于RGB和深度之间的更一般化的映射教师的总损失总结如下：Lteach=LGA2B+λpixel·Lpixel，（7）其中λpixel是像素损失的加权参数L像素，在等式（1）中描述。3 .第三章。3675可以通过细化原始潜在RGB到D映射来学习。一个额外的鉴别器，这也遵循一个完全卷积的结构，被用来提供一个额外的监督信号的逆生成器，以创建逼真的RGB图像。3676∼LLL∼L∗∗×××××××××算法一：师生学习。输入：教师数据集ptrain（At，Bt）、目标RGB数据集ptarget（Ar）、映射生成器函数GA2B和GB2A、判别器DRGB和DDepth、训练配置（损失权重：学习率：αteach，αstudent;衰变率：β衰变;总历元：N）;while当 n样本At，Btp序列（At，Bt）;使用等式2计算损失示教（A t，B t;G A2B，DDepth）7并更新GA2B;使用等式2计算损失D深度（At，Bt; GA2B）。2并更新D深度;样本Arp目标（Ar）;计算损失学生（Ar;GA2B，GB2A，DRGB）使用等式使用等式8计算损失DRGB（Ar;GA 2B，G B 2 A），并更新G A 2 B和GB2A; 5并更新DRGB;如果n >epoch教师则α教师β衰变;否则继续;如果n >epoch student，则α studentβ衰变;否则继续;端3.3. 实现细节生成器. 我们对受[50]启发的生成器使用完全卷积结构，其中大小为128 128 3用于输出具有深度图像的深度图像。相同的空间维度。生成器的编码器部分包含具有ReLU激活的三个卷积层，其中特征图的数量逐渐增加（64，128，256），内核大小为7 7，步幅为1为第一层。后续层使用内核大小步幅为2.这之后是6个残差块，由2个卷积层组成，每个卷积层具有3×3的内核大小、2的步幅和256个特征图。生成器的最后解码器部分遵循类似的结构。实际上，除了使用去卷积层进行上采样而不是卷积之外，具有减少的特征图（128，64，3）。用于将特征映射回图像的最后一个去卷积层使用7 7的内核大小和1的步幅，与编码器的第一层相同，但具有tanh激活。鉴别器。我们使用一个完全卷积的architec- ture的鉴别器，与输入的大小为128 - 128 - 3。该网络使用4个卷积层，其中滤波器的数量逐渐增加（64，128，256，256），固定内核为4 4，步长为2。所有卷积层都使用实例归一化和斜率为0的泄漏ReLU激活。二、最后的卷积层使用相同的参数，但只有1个特征图。训练为了稳定模型，我们使用[37]中提出的策略，使用IM更新鉴别器年龄来自50个生成的图像的缓冲池，而不是由生成器立即生成的图像。我们提出的网络在 Nvidia RTX2080Ti GPU上使用TensorFlow 2.2从头开始训练。我们使用Adam opti- mizer和批量大小1，如[50]中所做。此外，我们使用两种不同的学习率0。0002和0。000002分别用于教师和学生组件。根据[ 45 ]中的建议，我们在第25个时期开始衰减教师的学习率，衰减率为0。5，比学生更快，其中学习速率衰减在第50个历元之后开始。权重λcyc和λpixel根据经验分别确定为5和10。4. 实验4.1. 数据集CurtinFaces[25]是一个常见的RGB-D人脸数据集，包含来自52个主题的5000多个共同注册的RGB和深度图像对，使用Microsoft Kinect [49]捕获。它已经被记录了不同的姿势，表情，并在多种照明变化。IIIT-D RGB-D[9，10]包含在两个采集会话中使用Microsoft Kinect捕获的106名受试者每个主体都是在正常照明条件下拍摄的，姿态、表情和眼镜都有变化。数据集中的每个图像都是围绕面部预先裁剪的。EURECOM KinectFaceDb[30] 包含由 MicrosoftKinect获得的52人（14名女性和38名男性）的RGB-D面部图像。数据已经在2个不同的会话中捕获，其中表情、姿势、照明和遮挡变化（每个受试者总共18个图像）。Labeled Faces in the wild（LFW）[15]包含从互联网上收集的超过13，000张人脸图像。每张脸都标有人名，62名受试者有20多张照片。4.2. 评价协议. 在训练阶段，我们使用Curtin- Faces数据集来训练教师，以便学习RGB和深度之间的严格潜在映射。我们选择这个数据集，因为它在本研究中考虑的RGB-D数据集中包含最小的噪声，并且包含超过5000个共配准的RGB-D图像，使其成为最大的。我们分别使用其RGB和地面实况深度图像作为At和Bt（参见第3.2节）。为了训练学生，我们使用来自IIIT-D RGB-D和EURECOM KinectFaceDb的RGB图像的训练子集。IIIT-D RGB-D有一个预定义的方案，其中包含我们严格遵守的 5 重交叉验证策略。对于 EURECOMKinectFaceDb，我们将数据在训练集和测试集之间划分为50-50，每组中总共有468张图像。在野生LFWRGB数据集的情况下，我们3677灰度G.T.深度生成器深度使用11，953张图像用于训练生成器，并保留其余图像用于识别实验。对于我们实验的测试阶段，我们使用来自学生的训练生成器来生成测试集中每个RGB图像的超分辨率深度图像。然后，我们进一步使用RGB和深度图像来训练5.2节中提到的各种识别网络。对于RGB-D数据集，我们使用RGB和超分辨率深度图像在训练集上训练识别网络，并在测试集上评估性能。关于LFW数据集，在测试阶段，我们使用62个未使用的身份中的每个身份的剩余20个图像RGBG.T. 深度FCNcGANCycleGANTS-GAN训练然后，我们使用输出RGB和超分辨率深度图像作为识别实验的输入。指标. 我们首先验证我们的深度生成的质量，对其他发电机使用像素的质量作为评估指标，相对于原始的共同注册地面真实深度。这些度量包括逐像素绝对差、L1范数、L2范数和均方根误差（RMSE）[5，33]。我们还使用一个阈值-ric（δ）[5]，定义为ys.t.max（yi，yi*）=δ

下载后可阅读完整内容，剩余1页未读，立即下载