基于互谱幻觉和低秩嵌入的近红外可见光人脸识别系统

127 浏览量更新于2023-10-17 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1不怕黑暗：基于互谱幻觉和低秩嵌入的近红外可见光人脸识别何塞·莱扎马1分，邱强2分，吉列尔莫·萨皮罗2分1IIE，Uni versidad de la Repu' blica，Uruguay.2ECE，Duke Uni versity，USA.摘要当今的监控摄像机经常在低光环境中捕获NIR（近红外）图像。然而，大多数可用于训练和验证的人脸数据集仅在VIS（可见光）光谱中收集由于不同的光谱，匹配NIR和VIS人脸图像仍然是一个具有挑战性的问题。最近，通过在大量标记的VIS人脸样本上应用深度学习，VIS人脸识别取得了突破性进展。相同的深度学习方法不能简单地应用于NIR人脸识别，主要原因有两个：首先，与VIS光谱相比，可用于训练的NIR人脸图像非常其次，要匹配的人脸图库大多仅在VIS光谱中可用。在本文中，我们提出了一种方法，将VIS人脸识别的深度学习突破扩展到NIR光谱，而无需重新训练仅看到VIS人脸的底层深度模型我们的方法包括两个核心组成部分，交叉谱超分辨率和低秩嵌入，分别优化用于交叉谱人脸识别的VIS深度模型的输入和输出。交叉光谱超分辨率通过深度学习方法从NIR图像产生VIS面部低秩嵌入在NIR和VIS光谱两者上恢复面部深层特征的低秩结构。我们观察到，对输入NIR图像执行幻觉化或低秩嵌入以输出用于交叉光谱识别的VIS深度模型的深度特征通常同样有效当幻觉和低秩嵌入一起部署时，我们观察到显著的进一步改进;我们在CASIA NIR-VIS v2.0基准上获得了最先进的准确性，而根本不需要重新训练识别系统。1. 介绍在涉及夜间监控摄像机的典型法医应用中，在近红外光谱（NIR）中捕获个体的探测图像，并且个体的目标被识别。*表示平等贡献。图1. 拟议方法的示意图。简单的NIR-VIS人脸识别系统包括使用仅在VIS图像上训练的深度神经网络（DNN）从NIR图像中提取特征向量f并将其用于与VIS数据库进行匹配。我们对这个基本系统提出了两个修改。首先，我们通过从NIR样本中产生VIS图像来修改输入。其次，我们在输出端应用DNN特征的低秩嵌入。这些修改中的每一个都在识别性能上产生重要的改进，并且当一起应用时甚至更大。必须从可见光谱（VIS）图像库中识别出。虽然VIS人脸识别是一个广泛研究的主题，但NIR光谱中的人脸识别仍然是一个相对未开发的领域。在标准VIS人脸识别中，最近取得了令人印象深刻的进展。这在一定程度上是由于深度神经网络的出色性能[29，33，36，40]，其受益于非常大的面部照片数据集的可用性，通常从互联网上挖掘[16，40]。这种富有成效的数据收集策略不能应用于近红外图像，其中训练数据要少得多。自然，人们希望利用最先进的VIS人脸识别方法的能力最近的工作在这个方向上取得了重大进展[18，32]，但识别率仍然远远低于VIS光谱中实现的识别率。在这66286629我们朝着缩小这一差距迈出了重要一步。我们考虑使用预先训练的深度神经网络（DNN），其仅看到VIS图像作为黑盒特征提取器，并提出对DNN的输入和输出的方便处理，其在NIR-VIS识别性能方面产生显著增益所提出的方法，总结在图1中，由两个组成部分，交叉频谱超分辨率和低秩嵌入，以分别优化用于交叉频谱人脸识别的预训练VIS DNN模型的输入和输出首先，我们建议使用基于卷积神经网络（CNN）的深度交叉光谱幻觉来修改NIR探测图像1CNN在补丁到补丁的基础上学习NIR-VIS映射。然后，我们不是将NIR探头直接输入到特征提取DNN，而是输入交叉光谱幻觉。其次，我们建议使用方便的低秩变换嵌入DNN的输出特征[30]，使一个主题的变换后的NIR和VIS特征位于同一低维空间中，同时将它们与其他主题虽然在这里说明了人脸识别的重要问题，但这项工作提供了一个潜在的新方向，将迁移学习（在输入/输出处）与联合嵌入（在输出处）相结合。这两种策略分别应用时达到了最先进的结果，并且当组合应用时实现了更显著的改进。我们证明了这两种技术都能很好地独立于用于特征提取的DNN。2. 相关工作近红外-可见光人脸识别的一种常见策略，自Yi等人的早期工作以来一直在使用[41]，是找到NIR和VIS特征到共享子空间的映射，其中可以同时对两个这种度量学习策略被应用于许多连续的工作[11，15，22，28]，最近使用DNN提取的特征[29，32]。大多数度量学习方法学习具有三元组[38]或成对[7]约束的度量。在深度人脸模型中经常采用三重丢失来学习人脸嵌入[29，33]。Sax- ena和Verbeek [32]研究了结合不同的度量学习方法使用DNN的不同特征层的性能影响，并提出了两者的组合在这项工作中，我们将开发良好的DNN视为黑盒，并在倒数第二层使用DNN产生的功能。我们采用一个低秩约束来学习人脸嵌入，这被证明是有效的交叉谱任务。1为了避免混淆，在本文中，我们将用于特征提取的深度神经网络称为DNN，将用于从NIR中产生全分辨率VIS图像的卷积神经网络称为CNN。另一种策略是将NIR探头转换为VIS图像[18，23，31]，并将标准VIS面部识别应用于转换后的探头版本。第一个利用这种策略的脸视觉幻觉，李等。[23]，学习从中波长和长波长红外（MW-/LWIR）图像到VIS图像的基于块的线性映射，并用MRF正则化所得块。Juefei等[18]，使用交叉光谱字典学习方法成功地将NIR人脸图像映射到VIS光谱。在获得的VIS图像上，他们应用局部二进制模式（LBP）[2]和线性分类器来进行人脸识别。从红外到VIS的转换是一个非常具有挑战性的问题，但具有允许在转换后的图像上使用现有的传统人脸识别算法据我们所知，这是第一次使用深度学习方法从NIR中产生VIS人脸。有几个作品存在的任务，跨光谱转换的户外场景[14，37，44]。这种情况的优点是，对于一般场景存在更多的多光谱数据[4]。建立一个数据集的跨光谱人脸成像与正确对齐的显着数量的主题是一个更具挑战性的任务。我们认为，部分是由于这种困难，很少有作品存在于这个方向。考虑到热图像不需要光源的优点，已经对热到VIS人脸识别任务给予了很多关注[3，5，31]。与我们的工作相关，Sarfrazet al.[31]使用神经网络来学习从VIS到MW-/LWIR的这种策略的缺点是必须将映射应用于数据集中的每个VIS图像。我们建议使用卷积神经网络来计算（单个）测试NIR和VIS图像之间的映射跨光谱人脸识别的另一个重要工作家族集中在用于识别的特征上，建议的策略包括工程光源不变特征（LSIF）[25]，执行跨域特征学习[17，27，39，45]，以及适应传统的手动识别。[21 ]第28话。替代方法将现有的深度神经网络拟合到给定的数据库，例如，[26，13]，实现了该特定数据集结果与此相反，我们提出的框架的泛化能力来自于技术本身;没有任何形式的再培训，我们实现了国家的最先进的成果。这是在享受为现有网络所做的艰苦工作（和巨大的训练）的同时获得的，只需添加微不足道的幻觉和线性步骤。随着底层网络的改进，本文介绍的拟议框架将有可能继续改进，而无需培训或数据收集费用。在本文中，我们建立在[32]和[18]的思想上。我们6630使用在VIS图像的巨大数据集上预先训练的DNN作为特征提取器。在该DNN的输入处，我们建议使用深度交叉模态Hallu- cination对NIR输入进行预处理。在输出端，我们建议使用低秩变换嵌入特征向量。该方法的简单性和使用现成的优化算法是这项工作的优点的一部分。作为补充，我们从CASIA NIR-VIS 2.0数据集[24]中推导出一个二级数据集，该数据集由超过120万对对齐的NIR-VIS斑块组成。3. 交叉光谱幻觉由于大量VIS人脸数据集的可用性，大多数（如果不是所有的话）DNN人脸模型都被设计和训练用于在VIS人脸图像上操作。可以预期的是，当这些深度模型的输入是NIR人脸图像时，它们不会实现其全部潜力。在本节中，我们建议使用卷积神经网络（CNN）对NIR图像进行预处理，该网络将NIR图像转换为VIS光谱。我们将证明，使用超分辨率VIS图像作为特征提取DNN的输入，而不是原始NIR，在识别性能上产生了显着的增益请注意，这里的目标不一定是生成视觉上令人愉快的图像，而是生成一个比NIR更适合VIS预训练DNN的VIS图像。交叉光谱幻觉CNN是在从公开可用的数据集挖掘的对应的NIR-VIS补丁对上训练的，如下面将描述的。在VIS域中，我们在亮度-色度颜色空间中工作，因为它将重要的图像细节集中在亮度通道中，并最小化通道之间的相关性，使学习更有效。我们发现YCbCr空间可以提供最佳结果，并且我们观察到使用共享层或独立训练三个通道之间没有差异。为了简化，我们训练了三个不同的网络。网络架构的灵感来自[9]。因为亮度通道Y包含了主体的大部分信息，所以我们为这个通道使用了更大的网络，为两个色度使用了更小的网络。此外，因为蓝色分量在面部中变化非常小，所以对于蓝色差色度Cb，甚至更小的网络就足够了。网络架构的详细信息如表1所示。这三个网络接收一个40x40的输入NIR补丁，由步长为1的连续卷积层组成，没有池化和PReLU激活函数[12]（除了最后一层），最后一层是欧几里得损失函数。我们用零填充每一层，使其在输入和输出处具有相同的大小。三个网络具有沙漏结构，其中中间层的深度比第一层和最后一层窄[9]。这使得有效的训练，同时允许学习高度非线性关系。图2. 来自CASIA NIR-VIS 2.0人脸数据集的两个受试者的样本图像。上图：近红外光谱。底部：VIS。3.1. NIR-VIS补丁的挖掘我们使用CASIA NIR-VIS 2.0数据集[24]来获得NIR-VIS补丁对。该数据集包含17，580对NIR-VIS图像，每名受试者的每种模式平均有24张图像。该数据集不能直接用于训练，因为NIR-VIS图像对没有对齐，并且受试者的姿势和面部表情变化很大（图2）。在[18]中，通过将原始图像的128x128裁剪子采样为32x32图像，部分避免了这个问题。然而，在他们报告的结果中，可以观察到由于训练集未对齐而导致的一些平滑和视觉伪影（[18]，图8）。在这项工作中，我们不执行子采样。相反，我们挖掘CASIA NIR-VIS 2.0数据集，以获得最佳分辨率的一致NIR-VIS补丁对，图3。通过这个过程，我们能够得到一个二级数据集，其中包含超过一百万对40 x40 NIR-VIS图像块。我们使用亮度通道和NIR图像来找到对应关系。第一步是通过使用[19]对齐两种模式的面部标志（两只眼睛瞳孔的中心和嘴巴的中心）来预处理其次Ch.层第一个和最后中间跳过-连接Y11148x11x11str. 1，pad5 PReLU36x11x11str. 1，pad5 PReLU输入到最后层CB766x3x3str. 1，pad1 PReLU32x3x3str. 1，pad1 PReLU没有一CR8148x5x5str. 1，pad2 PReLU48x5x5str. 1，pad2 PReLU没有一表1. 用于交叉频谱超分辨率的CNN的架构。第一层和最后一层比中间的层具有更深的过滤器，模仿编码-解码方案。6631光谱幻觉CNN.图4显示了输入和输出补丁的示例，包括训练期间未看到的补丁的幻觉CNN的结果通过三个网络学习的卷积滤波器可以应用于任何NIR图像，以产生VIS图像等效物。请注意，我们保留了每个补丁的受试者标识，以便可以在没有受试者重叠的情况下分割数据集。图3. 挖掘CASIA NIR-VIS 2.0数据集的有效补丁对应关系。我们将每个受试者的每个NIR图像与每个VIS图像的亮度通道进行比较。请注意，NIR和VIS图像是在不同的姿势和面部表情下捕获的。我们使用224x224的原始图像作物与面部标志对齐。在两个图像的相同位置处提取滑动60x60补丁VIS补片被仿射配准到NIR补片。然后，我们在注册的补丁中裁剪一个40x40的区域。如果两个补丁及其梯度的相关性高于阈值，则保留该对在该示例中，补丁A和A我们将数据集中所有图像的NIR和颜色通道的平均值和标准偏差相对于从训练集选择的固定参考进行归一化。面部标志对齐不足，因为NIR和VIS图像之间仍然存在差异。即使用稍微不一致的对训练CNN，也会在输出端产生强烈的伪影。为了获得一个干净的训练数据集，我们运行一个60x60像素的滑动窗口，步幅为12，通过两个图像，并在相同的位置提取补丁。注意，基于面部标志粗略地对准块，但是这种对准通常不是完全准确的。然后，我们在60x60亮度补丁和NIR补丁之间拟合仿射变换。接下来，我们裁剪中心40x40区域并计算相似性得分以评估两种模式的补丁是否一致。相似性得分由斑块之间的相关性加上它们的梯度幅度之间的相关性组成。如果两个值的和都大于1，并且都不小于0.4，我们认为这对匹配是有效的。请注意，在[1]中提出了使用CNN的跨光谱NIR-VIS补丁相似性度量。在这项工作中，为了效率起见，我们选择使用简单的相关性。这种补丁挖掘策略使我们能够收集超过700，000对NIR-VIS补丁。然后，我们修剪了这个数据集，以确保补丁近似均匀地分布在脸部周围。经过这次修剪，我们总共保留了60万块补丁。我们将它们水平翻转，形成一个由120万个对齐的NIR-VIS补丁组成的最终数据集，我们将其用于训练和验证交叉图4. 使用所提出的补丁挖掘方法从CASIA-NIS-VIR 2.0数据库中提取的示例补丁对于每个补丁，顶行示出了NIR输入和地面实况Y、Cb、Cr和RGB信号，并且底行示出了交叉频谱超分辨率CNN的输出。Cb和Cr值已按比例缩放，以便更好地可视化。总的来说，我们能够挖掘120万个NIR-VIS对，平均分布在工作面上。此图中的所有补丁都属于验证集，并且在训练期间没有(Best以电子格式查看）。3.2. 后处理理想情况下，人们不希望丢失原始NIR图像中包含的所有丰富尽管我们的方法学用于挖掘对齐的补丁，但CNN在看不见的补丁中引入小伪影并非完全不可能。为了保护原始NIR的有价值的细节，我们建议将CNN输出与原始NIR图像混合一个成功的混合平滑的结果，交叉频谱的幻觉，并保持有效的信息，从纯近红外图像。我们稍后将在实验部分分析这一事实。我们只在一一个'BYB'NIR亮度✓NIR Y Cb Cr RGB NIR Y Cb Cr RGB6632σi=1亮度通道，通过计算图像Y=Y<$−α·G2<$（Nir−Y<$），（1）其中Y是最终亮度通道估计，Y是交叉谱CNN的输出，N是NIR图像，Gσ是σ= 1的高斯滤波器，并且G σ表示卷积。参数α平衡了信息从NIR图像和用CNN获得的信息中保留，并允许去除CNN引入的一些伪影（α= 0. 6在我们的实验）。图5示出了在训练期间未看到的受试者的交叉模态幻觉的示例结果请注意，混合如何帮助纠正CNN输出中的一些剩余伪影，但保持比单独使用NIR更自然的面部。4. 低秩嵌入在本节中，我们提出了一种简单的方法，将在VIS人脸图像上预训练的DNN模型扩展到NIR光谱，在输出层使用低秩嵌入。在[30]中介绍了低秩嵌入背后的数学框架，其中学习几何动机变换来恢复类内低秩结构，同时引入最大分离的类间结构。通过在末端附加的低秩嵌入层，仅看到VIS图像的DNN模型在公共空间中为VIS和NIR图像（或预先描述的超分辨率图像）产生深度特征4.1. 低秩变换许多高维数据通常位于单个或多个子空间附近（或经过一些非线性变换）。考虑矩阵Y={yi}N<$Rd，其中每列yi是C类中的一个数据点设Yc表示由Y中第c类列构成的子矩阵学习一个d×d低秩变换T，XC||∗ −||Ty||（2）||∗,(2)c=1哪里||·||表示矩阵核范数，即，矩阵的奇异值之和核范数是秩函数在ma的单位球上的凸包络，三个[10]。一个附加条件||不||2=1是为了防止平凡解T= 0而采用的。本文中我们放弃了这个规范化条件，因为我们从来没有经验地观察到这样的平凡解，T被初始化为单位矩阵。目标函数（2）是一个不同的-凸函数程序的有效性，并且使用凹凸程序保证最小化收敛到局部最小值（或稳定点）[34，42]。图5. 验证集中的亚稳态深度交叉模态幻觉的结果。从左至右：输入近红外图像;幻觉CNN的原始输出;后处理后的CNN输出;每个主题一个RGB样本。后处理有助于消除CNN输出中的一些伪影。例如，看到戴眼镜的脸，这导致CNN创建臭名昭著的文物。请注意，CNN只在面部补丁上进行训练，因此衣服的颜色不会产生幻觉。(Best以电子格式查看）。定理1. 设A和B是行维相同的矩阵，[A，B]表示它们的列连接。然后，||[A、B]||∗≤||一||+||B||如果A和B的列空间是正交的，则等式成立。证据这是由矩阵核范数的性质引起的。6633210.50-0.5-1-1-0.500.51-1个0-0.510.510.50-0.5-1-1-0.500.51-10-0.50.510.501-0.5-1-1-0.500.51-1个0-0.510.510.50-0.5-1-1-0.500.51-1个0-0.510.5(a) 无嵌入(b) 成对嵌入(c) 三重嵌入(d) 低秩嵌入图6.使用VGG人脸模型[29]为来自五个受试者的VIS（实心圆）和NIR（未填充菱形）人脸图像生成深度特征，每个受试者一种颜色。使用PCA在两个维度中可视化数据。在（a）中，在没有嵌入的情况下，来自同一对象的VIS和NIR人脸通常分别形成两个不同的聚类在（d）中，低秩嵌入成功地恢复了来自同一主题的多光谱人脸的低秩在（b）和（c）中，流行的成对和三重嵌入仍然显示出跨频谱的显着类内变化（在屏幕上最佳观看缩放）。基于定理1，目标函数（2）是非负的，并且如果在应用学习的变换T之后，对应于不同类的列空间变得正交（即，两个不同子空间之间的最小主角是π），则其达到值零请注意，最小化（2）中出现的每个核范数可以减少类内的变化。因此，低秩变换同时最小化类内变化并最大化类间分离。4.2. 互谱嵌入在传统的单谱VIS人脸识别中，DNN模型在最后一层采用soft-max等分类目标在第二层到最后一层产生的深层特征通常是l2归一化的，然后使用余弦相似度进行组合来执行人脸识别。[29，35]。因此，成功的面部DNN模型期望为来自相同对象的VIS面部生成的深度特征驻留在低维子空间中。在图6a中，我们说明了以下内容，这激发了所提出的嵌入：来自VIS和NIR中的五个主题的人脸图像被输入到VGG-face [29]，这是最好的公开DNN人脸模型之一。使用PCA在二维中可视化生成的深度特征，其中VIS具有填充的圆形，NIR具有未填充的菱形，并且每个对象具有一种颜色。我们观察到，来自同一主题的VIS和NIR人脸通常分别形成两个不同的聚类。这样的观察表明，在VIS面部上预训练的成功DNN面部模型能够生成NIR面部的区分特征;然而，当在不同光谱下对受试者成像时，通常违反潜在的低秩结构假设。我们的发现是，（2）中的低秩变换T仍然可以有效地恢复同一受试者的低秩结构，即使Yc包含来自第c个受试者的混合NIR和VIS由于不需要DNN重新训练，这是我们的方法在实践中的一个非常重要的优势，因此可以将学习的低秩变换简单地作为DNN输出层之后的线性嵌入层，以允许VIS模型接受VIS和NIR图像. 如图6d所示，低秩嵌入有效地统一了图6a中的交叉谱深度特征。在基于DNN的人脸识别中，通常使用具有成对或三重约束的深度特征嵌入[29，32，33]。两种流行的DNN嵌入方案，成对（ITML [7]）和三元组（LMNN[38]）嵌入，分别在图6b和图6c中显示，与我们的方法相反，显着的类内变化，即，相同颜色簇之间的距离仍然可以在光谱上观察到。5. 实验评价我们将预先训练的VIS DNN视为黑盒，从而享受VIS识别的进步，并对输入NIR图像执行交叉光谱超分辨率，和/或对输出特征执行低秩嵌入，以进行交叉光谱人脸识别。为了证明我们的方法通常适用于单频谱DNN而无需任何重新训练，我们使用来自不同类别的三个预训练VIS DNN模型进行实验：• VGG-S模型是我们在[6]中使用VGG-S架构从头开始训练的DNN人脸模型。• VGG-face模型是一种公开可用的DNN人脸模型，2它在公开可用的人脸模型中报告了LFW人脸基准测试的最佳结果。• COTS模型是我们可以访问的商业现成（COTS）DNN人脸模型。5.1. 数据集CASIA NIR-VIS 2.0人脸数据集[24]用于评估NIR-VIS人脸识别性能。这是目前最大的NIR-VIS人脸识别数据集，包含725名受试者的17，580张NIR和VIS人脸图像。该数据集呈现姿势、照明、曝光等的变化。示例图像如图2所示。的2下载网址：http://www.robots.ox.ac.uk/www.example.com/vgg/software/vgg_face。663410.90.80.710.90.80.710.90.80.70.60.500.10.20.30.40.5FPR0.60.500.10.20.30.40.5FPR0.60.500.10.20.30.40.5FPR图7.表2的ROC曲线CASIA-Webface数据集[40]用于训练我们从头开始训练的VGG-S模型。CASIA-Webface是最大的公共人脸数据集之一，包含来自IMDB的10，575名受试者的494，414张VIS人脸5.2. 幻觉网络协议我们首先训练三个CNN，用于从表1中描述的输入NIR图像中产生VIS人脸。我们使用我们挖掘的NIR-VIS图像补丁数据集。鉴于并非CASIA NIR-VIS 2.0数据集中的所有图像都提供相同数量的对齐块，因此该数据集的标准协议将数据集分为两部分，无法为交叉光谱半透明CNN提供足够的训练数据。出于这个原因，为了正确评估幻觉的贡献，我们将数据集分为6个部分。我们使用五个折叠（1，030，758对补丁）进行训练，使用一个折叠（206，151对）进行测试。3折叠不是任意的，而是遵循原始数据集编号方案的自然顺序。我们确保训练和测试数据集之间没有主题重叠。我们在Caffe学习框架中实现了亮度和色度幻觉网络。我们训练三个网络使用ADAM优化[20]，初始学习率为10−5，标准参数β1= 0。9，β2= 0。999，ε= 10−8。我们观察到它足以训练网络10个epoch。5.3. 跨光谱人脸识别协议我们的目标是将NIR探头面部图像与图库中的VIS面部图像进行匹配。我们将三种预训练的单谱DNN，VGG-S，VGG-face和COTS视为黑盒，并且仅修改它们的输入（交叉谱幻觉）和/或输出（低秩嵌入）用于交叉谱人脸识别。所有三个模型都需要RGB输入。当不使用VIS幻觉时，我们将来自CASIA NIR-VIS 2.0数据集的单通道NIR图像复制到三个通道中以确保兼容性。当使用幻觉时，我们首先将幻觉CNN应用于NIR图像，然后将幻觉VIS图像馈送到单光谱DNN。我们从各个DNN模型中生成深度特征，使用PCA将其减少到1024维。3我们的数据分区协议包含在补充材料中，并将向公众提供以复制我们的实验结果。表2. 在CASIA NIR- VIS 2.0上的交叉光谱秩-1鉴别率（见方案文本）。我们评估了三个预训练的单谱（VIS）DNN模型：VGG-S、VGG-face和COTS。该实验示出了对NIR图像输入进行交叉频谱超分辨率处理或对输出进行低秩嵌入（对于所有测试的DNN通用）的有效性当两种方案一起使用时，我们观察到显著的进一步改进，例如，VGG-S 模型为75.04%~ 95.72%。所提出的框架-工作给国家的最先进的（96.41%），而不接触在所有的VIS识别系统。然后，我们学习一个1024 × 1024的低秩变换矩阵来对齐两个频谱。注意，为了效率，可以合并PCA和低秩变换矩阵。我们使用余弦相似度来执行匹配。5.4. 结果我们评估的性能增益引入的交叉频谱的幻觉和低秩变换，并通过这两种技术相结合。如前所述，我们的交叉光谱超分辨率CNN需要比标准CASIA NIR-VIS 2.0基准训练集中可用的训练数据更多的训练数据，因此我们将该数据集定义为新的6倍分割。我们使用与面部识别相同的VIS幻觉协议，即五折用于训练，一折用于测试。我们的训练和测试分区之间没有主题重叠。使用VIS图像作为图库，使用NIR图像作为探针，对测试分区在表2中，我们报告了单频谱DNN的秩1性能得分，有和没有幻觉，以及有和没有三个人脸模型的低秩嵌入相应的ROC曲线如图7所示。结果表明，它往往同样有效，从NIR输入中产生VIS图像，或者低秩嵌入输出。这两种方案都独立地引入了相对于使用单频谱DNN在性能上的显著增益当幻觉和低级VGG−SVGG−S+幻觉VGG−S+低级VGG−S+幻觉+低级VGG−脸VGG−脸+幻觉VGG−脸+低级VGG−脸+幻觉+低级COTSCOTS+幻觉COTS+低级COTS+幻觉+低级TPRTPR准确度（%）VGG-S75.04VGG-S +彩色化[43]76.14VGG-S +幻觉80.65VGG-S +低秩89.88VGG-S +幻觉+低级95.72VGG-face72.54[43]第四十三话82.45VGG-脸+幻觉83.10VGG-face + Low-rank82.26VGG脸+幻觉+低等级91.01COTS83.84COTS +着色[43]90.18COTS +幻觉93.02COTS +低阶91.83COTS +幻觉+低级96.41TPR6635准确度（%）Jin等人[17] 75.70 ±2.50Juefei-Xu等[18] 78.46 ±1.67Lu等人[27] 81.80 ±2.30Saxena等人[32] 85.90 ±0.90Yi等人[39] 86.16 ±0.98Liu等人[26]95.74 ±0.52VGG-S 57.53 ±2.31VGG-面66.97 ±1.62COTS 79.29 ±1.54VGG-S +三联体67.13 ±3.01VGG-面+三联体75.96 ±2.90COTS +三联体84.91 ±3.32VGG-S +低秩82.07 ±1.27VGG-面+低秩80.69 ±1.02COTS+低秩89.59±0.89表3. 10倍上的互谱秩1识别率CASIA NIR-VIS 2.0基准。采用[24]中定义的评价方案我们评估三种单谱DNN模型：VGG-S、VGG-face和COTS。通过在输出处应用所提出的低秩嵌入（普遍适用于所有测试的DNN），单谱DNN在交叉谱识别方面表现得更好流行的三元组嵌入[38]显示出对于这样的互谱任务不如低秩嵌入。排除[26]，我们报告了这个最大的VIS-NIR人脸基准的最佳结果。如前所述，[26]调整/调整网络以适应特定的数据集，实现的结果略低于我们在表2中报告的完整系统;我们获得的结果不需要重新训练，从而显示了该方法的泛化能力，享受现有和潜在的新VIS人脸识别系统的优势嵌入一起使用，我们观察到显著的进一步改进，例如，从75.04%到95.72%，VGG-S.使用COTS以及幻觉和低秩嵌入的组合，所提出的框架产生了最先进的96.41%的秩-1准确度，而不触及所有VIS预训练的DNN，并且几乎没有额外的计算成本。我们包括应用最先进的着色方法[43]而不是提出的幻觉CNN的结果。请注意，[43]是在完全对齐的图像上训练的（而我们的不是，第3.2节）;它是针对灰度到RGB可视化任务训练的，而不是针对识别任务的NIR到RGB。为了完整起见，我们还在表3中展示了使用低秩变换对标准CASIA NIR-VIS 2.0评估方案进行的结果（回想一下，标准方案不可能用于增加的幻觉步骤）。这些结果表明，低秩嵌入显著提高了单光谱DNN的VIS-NIR秩1识别率，VGG-S为57.53%至82.07%，VGG 面为 79.29%~ 80.69% ， COTS 面为 79.29%~89.59%。最有效的三重嵌入方法之一，LMNN [38]，表现出不如亲，提出了低秩嵌入这个交叉频谱的任务。我们的完整系统（表2）和部分系统（表3）获得的结果表明，幻觉和低秩嵌入的组合在交叉光谱人脸识别方面产生了最先进的结果，而无需调整或微调现有的深度VIS模型。0.950.90.850.80.750.70.650 0.2 0.4 0.6 0.8 1图8. （1）中混合参数α对人脸识别的影响。我们评估了三种单谱DNN模型：VGG-S、VGG-face和COTS。如第3.2节所述，为了保留原始NIR的细节，我们将CNN输出的幻觉亮度与原始NIR图像混合，以消除CNN引入的可能伪影图8显示了（1）中的混合参数α的参数α∈[0，1]平衡了从NIR图像保留的信息量和获得的信息量幻觉CNN我们通常在α在0.6-0.7左右时观察到峰值识别性能。其中α= 0。6我们也获得了一个更自然的脸;这是表2和图5中使用的值。6. 结论我们提出了一种方法来适应预先训练的最先进的DNN，它只看到VIS人脸图像，以生成VIS和NIR人脸图像的区别特征，而无需重新训练DNN。我们的方法由两个核心组件组成，交叉谱超分辨率和低秩嵌入，分别适应DNN输入和输出的交叉谱识别。交叉光谱超分辨率使用CNN对NIR图像进行预处理，CNN执行NIR图像到VIS光谱的交叉光谱转换。低秩嵌入恢复来自相同主体的交叉谱特征的低秩结构，同时针对不同主体实施最大分离的结构。我们观察到显着的改善，在跨光谱人脸识别与所提出的方法。这种新方法可以被认为是迁移学习和联合嵌入交叉的一个新方向。致谢工作部分由ONR，NGA，ARO，NSF，ANII GrantPD NAC 2015 1 108550支持。何塞·莱扎马在杜克大学时完成了这项工作的一部分。VGG-SVGG面胶辊一阶认同率6636引用[1] C. A. Aguilera，F.J. Aguilera，A.D. 萨帕角阿奎莱拉，以及R.位于托莱多使用深度卷积神经网络学习交叉谱相似性度量。在IEEE计算机视觉和模式识别研讨会会议，第1-9页，2016年。4[2] T. Ahonen，A. Hadid和M. 亲爱的基于局部二值模式的人脸识别在欧洲计算机视觉会议中，第469-481 页Springer，2004. 2[3] T. Bourlai和B. Cukic。多光谱人脸识别：在困难的环境中识别人。 2012 年 IEEE International Conference onIntelligence and Security Informatics（ISI），第196-201页。IEEE，2012。2[4] M. Brown和S. 很好用于场景类别识别的多光谱SIFT在2011年IEEE计算机视觉和模式识别会议（CVPR 11），第1772[5] Z. X. Cao和N. A.施密特匹配异质性眼周区域：短距离和长距离。2014年IEEE图像处理国际会议（ICIP），第4967-4971页。IEEE，2014。2[6] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼在细节中的回归：深入研究卷积网。英国机器视觉会议（BMVC），2014年。6[7] J. V. Davis，B. Kulis，P. Jain，S.先生，我。S.狄伦信息理论度量学习。ICML，第209- 216页，Corvalis，Oregon，USA，2007年6月二、六[8] T. I. Dhamecha，P.夏尔马河，巴西-地Singh和M. Vatsa.方向梯度直方图特征在可见-近红外人脸匹配中的有效性研究。InICPR，pages 17882[9] C.东角，澳-地C. Loy和X.唐加速超分辨率卷积神经网络。在欧洲计算机视觉上，第391施普林格，2016年。3[10] M. 法泽尔矩阵秩最小化及其应用。斯坦福大学博士论文，2002年。5[11] B. 费尔南多，A.哈布拉德M.Sebban和T.Tuytelaars 使用子空间对齐的无监督视觉域自适应。IEEE InternationalConference on Computer Vision（ICCV），第2960-2967页，2013年。2[12] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在Proceedings ofthe IEEE International Conference on Computer Vision（CVPR 15），第1026-1034页3[13] J. Hoffman，S. Gupta和T.达雷尔。通过通道幻觉学习附带信息。在IEEE计算机视觉和模式识别会议论文集，第826-834页，2016年。2[14] M. A. Hogervorst和A.脚趾夜间图像的快速自然色彩映射。Information Fusion，11（2）：69 2[15] C.- A. Hou，M.-C. Yang和Y.-C. F. 王. 基于领域自适应自学的异构人脸识别。InICPR，pages 3068-3073，2014.2[16] G. B. Huang，M. Ramesh，T. Berg和E.学习米勒。在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告，技术报告07-49，马萨诸塞大学，阿默斯特，2007年。1[17] Y. Jin，J. Lu，and Q.阮。大间隔耦合特征学习在跨模态人脸识别中的应用。 2015 年国际生物识别会议（ICB），第286-292页二、八[18] F. Juefei-Xu，D. K. Pal和M. Savvides。基于互谱联合字典学习和重构的NIR-VIS异质人脸识别。在IEEE计算机视觉和模式识别研讨会会议论文集，第141-150页，2015年。一二三八[19] V. Kazemi和J.苏利文一毫秒面对齐与回归树的集合。2014年3[20] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。7[21] B. Kandy和A. K.贾恩。异构人脸识别：匹配近红外可见光图像。在模式识别（ICPR），2010年第20届国际会议上，第1513-1516页。IEEE，2010。2[22] Z. Lei和S.Z. 李用于匹配异质面的耦合谱回归IEEE计算机视觉与模式识别会议（CVPR 09）。第1123IEEE，2009年。2[23] J. Li，P. Hao，C. Zhang和M.窦从热红外线图像中产生幻觉。2008年第15届IEEE国际图像处理会议（ICIP），第465- 468页IEEE，2008年。2[24] S. Z. Li，D.Yi、Z.Lei和S.辽CASIA NIR-VIS2.0人脸数据库在第九届IEEE可见光谱感知研讨会（PBVS，与CVPR 2013年），2013年6月。三六八[25] S. Liu，L. Yi、Z. Lei和S. Z.李基于多尺度特征的异构人脸图像匹配。2012年第五届IAPR生物识别国际会议（ICB），第79IEEE，2012。2[26] X. 柳湖，加-地宋，X。Wu和T.Tan. 用于nir-vis异构人脸识别的深度表示转移在2016年国际生物识别会议（ICB），第1IEEE，2016. 二、八[27] J. Lu，V. E. Liong，X. Zhou和J.舟学习压缩二值人脸描述子用于人脸识别 . IEEE Transactions on PatternAnalysis and Machine Intelligence ， 37 （ 10 ）： 2041-2056，2015。二、八[28] A. Mignon和F.朱丽CMML：一种新的跨模态匹配度量学习方法.在亚洲计算机视觉会议上，第14页，2012年。2[29] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。英国机器视觉会议（BMVC），2015年。

下载后可阅读完整内容，剩余1页未读，立即下载