图像表示的内在维度与深度神经网络的映射密切相关，该映射能够将表示转换为最小内在空间

175 浏览量更新于2023-10-18 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3987论图像表征Sixue Gong Vishnu Naresh Boddeti Anil K.密歇根州立大学，East Lansing MI 48824{gongsixu，vishnu，jain}@ msu.edu摘要本文讨论了与任何给定图像表示的固有维数有关的以下问题：（i）估计其内在维度，（ii）开发基于深度神经网络的非线性映射，称为DeepMDS，其将环境表示转换为最小内在空间，以及（iii）通过内在空间中的图像匹配来验证映射的真实性。在基准图像数据集（LFW、IJB-C和ImageNet-100）上的实验表明，深度神经网络表示的内在维度显著低于环境特征的维度。例如，SphereFace此外，DeepMDS映射能够获得显着更低维度的表示，同时在很大程度上保持辨别能力，在IJB- C上16-dim中的0.1%FAR为59.75%TAR，在512-dim中为71.26%TAR[29]，在ImageNet-100上19-dim中的Top-1准确度为77.0%，在512-dim中为83.4%。1. 介绍图像表示是将图像的原始像素表示转换为高维向量空间中的点的嵌入函数。学习或评估这种映射由两个目标驱动：（a）表示的紧凑性，以及（2）映射对于手头任务的有效性。虽然后一个主题受到了大量关注，从基于PCA的特征脸[42]到基于深度神经网络（DNN）的图像表示的维度范围从数百到数千维。例如，当前最先进的图像表示分别具有FaceNet [35]，ResNet [16]，SphereFace [26]和VGG [36]的128，512，1024和4096个维度。维数的选择通常由实际考虑决定例如，学习嵌入函数的容易程度[38]，对系统内存的限制等。而不是图像表示所必需的有效维数。这自然提出了以下基本但相关的问题，在识别性能没有任何损失的情况下，表示可以有多紧凑？换句话说，表征的内在维度是什么？那么，如何才能得到这样一个紧凑的表示呢？对这些问题的回答是本文的主要目的.表示的内在维度（ID）是指捕获当前整个信息所需的最小参数（或自由度）数量的代表性[4]。等价地，它指的是嵌入在d维周围（表示）空间P中的m维流形M的维数，其中m≤d。这种内在维度的概念明显不同于常见的线性维度估计。通过例如，主成分分析（PCA）。该线性维度对应于保留数据中的变化的期望分数所需的最佳原则上，如果变化因子彼此高度纠缠，则线性维度可以与环境维度一样大。这些概念的说明1.一、估计给定图像表示的固有维度的能力在许多方面是有用的。在基本水平上，ID通过嵌入函数确定由表示捕获的数据中的变化的真实容量和复杂性。事实上，由于ID与香农熵的线性关系，ID可用于衡量表示中的信息内容[41，9]。此外，它提供了一个估计的冗余量内置到表示，这涉及到其泛化能力。在实践层面上，知识的ID边缘是至关重要的设计最佳的无监督策略，以获得图像的功能，是最低限度的冗余，同时保留其全部能力，将图像分类到不同的类。内在空间中的识别可以在存储器需求以及处理时间方面提供显着的节省，跨下游任务，如加密域中的大规模面部匹配[5]，im。3988图像（I）表示模型环境空间（P∈Rd）zX内禀空间（M∈Rm）y=f（x，θ）（一）环境空间PCA Isomap DeepMDSM∈Rm0.4 0.0 0.4 0.8（b）（c）图1：概述：本文研究了我从给定的表示模型中获得的图像的特征向量的流形。（a）我们估计了周围空间P的内在维度（ID），并提出了DeepMDS，一种无监督的方法，将P映射到低维内在空间M。（b）面部表示的周围空间P和固有流形M的图示。这里，虽然表示的环境和线性维度是3，但其ID仅为2。（b）10个类别的面部对之间的相似性得分的热图，其中对于具有10-dim的ID的表示，每个类别具有10个图像。在四个不同的空间中计算相似性，即512维环境空间P、10维线性维数空间（PCA）、10维内在空间（intrinsic space）。M由Isomap [40]和我们的DeepMDS模型估计。如对角块所示，DeepMDS更好地维护了类的可分性。年龄匹配和检索等。最后，表示的周围维度和内在维度之间的间隙可以作为一个有用的指标，以驱动可以直接学习高度紧凑嵌入的算法的发展然而，估计给定数据表示的ID是一项具有挑战性的任务。这种估计在很大程度上取决于表示中的密度变化，这本身就很难估计，因为图像通常位于拓扑复杂的弯曲流形上[39]。更重要的是，给定ID的估计，我们如何验证它真实地表示复杂高维表示空间的维数通过将环境表示空间变换到内在表示空间同时保留其辨别能力的映射，ID的间接验证是可能的然而，不确定是否可以有效地找到这样的映射。在实践中，找到这样的映射可能比估计ID本身要困难得多我们克服了这两个挑战，（1）采用拓扑维数估计技术的基础上的测地距离点的流形上，(2)依赖于DNN近似从周围空间到内在空间的复杂映射函数后者使验证的ID估计，通过图像匹配实验的相应的低维内在表示的特征向量。本文件的主要贡献和结论是：– 第一次尝试估计基于DNN的图像表示的内在维度。– 在多维尺度框架下的无监督DNN降维方法，称为DeepMDS。– 数值实验得出FaceNet [35]和SphereFace [26]人脸表示的ID估计值分别为12和16，ResNet-34 [16]图像表示的ID估计值为19。这些估计值明显低于其各自的环境维度，FaceNet为128-dim，其他为512-dim– DeepMDS映射在其区分能力方面明显优于其他维度缩减方法。2. 相关工作图像表示：开发同时具有鲁棒性和区分性的图像表示的探索导致了对该主题的广泛研究。在最早的基于学习的方法中，Turk和Pentland提出了依赖于数据的主成分分析（PCA）的特征脸[42]。后来，集成和高维空间局部特征在图像识别中变得流行，著名的例子包括局部二进制模式（ LBP ） [1] ，尺度不变特征变换（SIFT）[28]和方向梯度直方图（HoG）。与这些手工设计的表现形式相比，过去yDeepMDSy3D23 GX3D23 ED12X2Gd13y2EX1D12 EP ∈Rdy13989近十年来，端到端的表示学习系统得到了发展。基于卷积神经网络的特征现在代表了最先进的图像表示[16，37，26]。所有这些表示都是由数百到数千维的特征表征的。虽然更紧凑的表示是可取的，但优化具有窄瓶颈的DNN的困难[38]已被证明是实现这一目标的主要障碍。内在的抽象性：用于估计固有维度的现有方法可以大致分为两组：投影方法和几何方法。投影方法[11，6，43]通过对数据的局部子区域进行主成分分析这些方法已经经典地用于在不同照明条件下对面部外观进行建模[12]和具有变化姿态的对象识别[30]。虽然它们可以作为有效的分析工具，但它们不能提供可靠的固有尺寸估计。另一方面，几何方法[31，14，7，21，17，24]对数据的内在拓扑几何进行建模，并且基于以下假设：m维集合的体积随着其大小的缩放而缩放为m，因此小于m的邻居的数量也以相同的方式表现本文中我们的方法是基于关联维数的拓扑概念[14，7]，这是最流行的分形维数类型。关联维数隐含地使用最近邻距离，通常基于欧氏距离。然而，Granata et.[13]观察到利用数据的流形结构，以数据的邻域图引起的测地距离的形式，提供了对ID的更现实的估计。在此观察的基础上，我们将我们的ID估计建立在点之间的测地线距离上。我们相信，估计的内在维数将作为第一步，了解上的最小所需的维数表示图像和援助的新算法，可以实现这一限制的定义。降维：有一个巨大的身体上的工作估计低维近似的数据流形躺在高维空间的主题。这些方法包括线性方法，如主成分分析[20]、多维标度（MDS）[23]和拉普拉斯特征映射[2]及其相应的非线性谱扩展、局部线性嵌入[32]、Isomap [40]和扩散映射[8]。另一类维数降低算法利用深度神经网络的能力来学习数据的复杂非线性映射，包括深度自动编码器[18]、去噪自动编码器[44，45]以及学习具有对比损失[15]或具有三重损失[35]的不变映射而自动编码器可以学习数据的紧凑表示，这种表示没有明确地设计为保持区分能力。对比损失和三重损失都有一些限制：（1）需要来自一些源的相似性和相异性标签，并且不能在纯粹无监督的环境中训练，（2）需要额外的超参数，最大分离裕度，这是难以预先确定的，特别是对于任意表示，以及（3）不保持低维空间中的流形结构。在本文中，我们也杠杆化DNN来近似从环境空间到内在空间的非线性映射。然而，我们考虑无监督设置（即，没有相似性或不相似性标签）并将学习问题置于MDS的框架保持所述内在空间中的点之间的所述环境图诱导的测地线3. 方法本文的目标是压缩给定的图像表示空间。我们分两个阶段实现这一点：（1）估计环境图像表示的内在维度，以及（2）学习DeepMDS模型来映射环境图像。将P∈Rd表示空间映射到M∈Rm（m≤d）.ID估计基于[13]提出的估计，该估计依赖于两个关键思想，(1)利用图诱导测地距离来估计图像表示拓扑的关联维数;（2）具有相同内在维数的不同拓扑结构之间测地距离分布的相似性。DeepMDS模型经过优化，以保留环境空间和内在空间中特征向量之间的点间测地线距离，并以逐步降低表示维度的阶段方式进行训练。基于DNN的投影方法，而不是像Isomap这样的谱方法，解决了谱方法所面临的可扩展性和样本外扩展问题。具体来说，DeepMDS是以随机方式训练的，这允许它扩展。此外，一旦经过训练，DeepMDS提供前馈网络形式的映射函数，该映射函数将环境特征向量映射到其相应的内在特征向量。如地图可以很容易地应用到新的测试数据。3.1. 估计固有维数我们通过分布的支撑的拓扑维数的经典概念定义了这是一个概念的概括1传统的单阶段降维方法使用视觉辅助来达到最终的ID和内在空间，例如，绘制投影误差与ID值的关系，并在曲线中寻找39902σp（r）maxRMaxp（r）测地距离rmaxr0.000.250.500.751.001.251.501.752.00表示（K=3）高斯（m=2）超球面（m=2）0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00log（r/rmax）(a) 图诱导测地距离（b）拓扑相似性图2：内在维度：我们的方法基于两个观察：（a）图像之间的图诱导测地线距离能够更可靠地捕获图像表示流形的拓扑。作为一个例子，我们显示了一个酉超球面和ID2的面流形的表面的图形边缘，嵌入在一个3维空间中。(b) 测地线距离的分布（对于距离rmax − 2σ ≤ r ≤rmax，其中rmax是模式处的距离）在经验上被观察到[13]，在具有相同内在维数的不同拓扑结构中是相似的。该图显示了面部表示的距离分布，酉超球面和嵌入三维空间内的ID 2的高斯分布一个线性空间2到一个非线性流形。估计拓扑维数的方法都是基于这样的假设：嵌入d维空间的m维流形上的给定点的邻居数的行为与其大小成比例。换句话说，在环境空间中的一个球（n→0）与环境维度d无关，并且仅根据其固有维数m给定点的集合X ={x1，. . . ，xn}，其中xi∈ Rd，n个点之间的成对距离C（r）的累积分布可以估计为，在非常小的长度尺度上对p（r）的可靠估计，当数据有限时，这正是估计最不可靠的地方，特别是在非常高维的空间中。Granata等人[13]通过三个观察结果提出了一个优雅的解决方案，（i）m（r）的估计可以如果两点之间的距离为，则即使r→0也是稳定的计算为点之间的图诱导最短路径代替通常情况下的欧几里得距离，(ii)在中间长度处的概率分布p（r）围绕p（r）的模式缩放即，（rmax−2σ）≤r≤rmax可以方便地用于获得ID的可靠估计，以及（iii）不同拓扑的分布p（r）2C（r）=n（n−1）Σni j=1H（r−<$xi−xj<$）=∫rp（r）dr（1）0几何形状彼此相似，只要内在的维数是相同的，或者换句话说，分布p（r）仅取决于固有维数，其中H（·）是Hea viside函数，p（r）是概率。两两距离的能力分布。本文在分析了现有文献的基础上，我们选择关联维数[14]（一种特殊类型的拓扑维数）来表示图像表示的内在维数。它被定义为，lnC（r）而不是流形的几何支撑。图2说明了这些观察结果。考虑两个不同的流形，面和表面，一个（m+1 ）维酉超球面（以下简称m- 超球面Sm），其内禀维数m=2，但嵌入三维欧氏空间m= limr→0lnR=limC（r）rm（2）r→0空间在最近邻之外，流形中任何一对点之间的距离r计算为因此，内在维度至关重要地依赖于概率分布的准确性可以由连接表示中的所有点的图导出的点之间的图2b估计在非常小的长度尺度（距离），即，r→显示logp（r）vslogr在0. 已作出重大努力，在lnC（r）vslnr中通过线拟合的固有维数在r→0的区域周围的空间，即，范围rmax−2σ≤r≤rmax，其中σ是p（r）的标准偏差，rmax=arg maxp（r）对应于Rp（r）的模的半径。有趣的是，不同的拓扑-m= lim（r2−r 1）→0dln C（ r）lnC（r2）−lnC（r1）lnr2− lnr1p（r）（三）典型的几何形状，即ID 2的面表示，2-超球体和二维高斯，都嵌入在3-昏暗欧几里得空间具有几乎相同的分布。= lim=limr= limm（r）更一般地，logp（r）与logrr→0德兰河r→0C（r）r→0p（rmax）RMax这种方法的主要缺点是需要重新-2线性维数是将该空间中的任何给定点表示为线性组合所需的独立向量的最小数量d23xG3d12x2Gd13EX1P∈Rdlog（p（r）/p（rmax））3991在rmax−2σ≤r≤rmax范围内，只依赖于内在维度，而不是流形的几何支撑表示法的内在维数3992环境空间z参数化非线性映射内在空间X图3：DeepMDS映射：学习基于DNN的非线性映射，以将环境空间转换为合理的内在空间。网络经过优化，以保持周围空间和内在空间中的点对之间的距离。因此，可以通过比较流形上成对距离p<$M（r）的经验分布与已知分布的经验分布来估计fold，例如在rmax−σ≤r≤rmax范围内的m-超球（参见高斯示例的补充材料）。m-超球面的测地距离pSm（r）的分布可以解析表示为pSm（r）=csinm−1（r），其中c是常数，m是ID。如果p∈M（r），我们将分布之间的均方根误差（RMSE）最小化其中dH（·）和dL（·）分别是环境空间和固有空间中的距离（相似性）度量不同-度量的不同选择，导致了不同的降维算法。例如，经典度量MDS基于点之间的欧几里得距离，而使用由邻域图引起的测地线距离导致Isomap [40]。类似地，已经提出了许多不同的距离度量，其对应于环境空间和内在空间之间的非线性映射。minc，m∫rmaxrmax−2σ logp<$M（r）−log（c）−（m−1）log（sin[r]）<$2空间这些方法中的大多数是基于谱分解的，并且具有许多缺点，（i）计算复杂度高，其在简化时产生，对于n个数据点，时间复杂度为O（n3），（ii）min ∫rmax¨¨半对数pM（r）-（m −1）log .Σπr罪ΣΣ¨2¨¨在正确的非线性函数的选择中的模糊性以及（iii）更复杂数据上的折叠嵌入[15]。¨rmax−2σpM（rmax）2rmax？为了克服这些局限性，我们采用DNN来应用-上述优化问题可以在估计p（r）的标准偏差σ之后通过最小二乘拟合来解决（详见补充资料）。原则上，这样的过程可以导致维数的分数估计如果一个近似的非线性映射，该映射通过具有参数θ的参数函数y = f（x; θ）将环境表示x变换到固有空间y。我们学习MDS框架内的映射参数仅需要整数解，可以通过舍入最小二乘拟合解来估计mΣnminθΣn[dH]（xi，xj）−dL2 2（f（xi;θ），f（xj;θ））]+λ<$θ<$23.2. 估计固有空间在前一小节中获得的固有维度估计暗示了映射的存在，该映射可以将环境表示变换到固有空间，但是没有提供任何解决方案来找到所述映射。映射本身可能非常复杂，我们估计它的目标实际上具有挑战性。我们的解决方案基于多维缩放（MDS）[23]来估计从环境到内在空间的映射，多维缩放是一种经典的映射技术，它试图在将点嵌入低维空间后保持点之间的距离（相似性）。给定数据点X ={x1，. . . ，xn}，并且Y ={y1，. . . ，yn}内在低维空间中的对应点，MDS问题被公式化为，i=1i=1其中第二项是具有超参数λ的正则化子。图3示出了基于DNN的映射的图示。在实践中，直接学习从周围空间到内在空间的映射是非常具有挑战性的，特别是对于在高水平压缩下解开复杂流形。我们采用课程学习[3]方法来克服这一挑战，并在多个阶段逐步降低我们从较容易的子任务开始，逐步增加任务的难度。例如，从R512→R15 被分解为多个映射函数R512→R256→R128→R64→R32→ R15。W. L- 映射函数的学习问题yl=fl（x;θ）为：minΣ（dH（xi，xj）−dL（yi，yj））2（四）min Σn Σn 联系我们αlΣ2dH（xi，xj）−dL（yl，yl）+λθl2I jθ1，…θL i=1j =1l=1我J2y+. ..+BatchNormPReLU线性BatchNormPReLU线性M3993其中θl是第l个映射的参数适当地安排αl权值使我们能够将其作为一个课程学习问题。4. 实验在本节中，首先我们将估计多个图像表示的内在维度，0.000.250.500.751.001.251.501.752.00表示（K=15）高斯（m=16）超球面（m=16）0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00log（r/rmax）1086420020406080100 120尺寸不同复杂度的数据集。然后，我们将评估-(a) 距离分布p（r）(b) 最小二乘拟合评估了所提出的DeepMDS模型在找到从环境到内在空间的映射同时保持其辨别能力方面的功效4.1. 数据集我们选择了两个不同领域的分类问题，我们的实验，人脸验证和图像分类。我们考虑两个不同的人脸数据集，前者和后者的ImageNet ILSVRC-2012。重申DeepMDS是一种无监督的方法，因此与对象或面部相关联的类别信息既不用于内在维度估计，也不用于学习从环境空间到内在空间的映射。LFW [19]：5,749名受试者的13,233张人脸图像，从网络上下载。这些图像在姿势、照明和表情方面表现出有限的变化，因为只有Viola-Jones人脸检测器[46]可以检测到的人脸才被包括在数据集中。IJB-C：IARPA Janus Benchmark-C（IJB-C）数据集由3，531名受试者组成，共有31，334张（21，294张人脸和10，040张非人脸）静态图像和11，779个视频（117，542帧），平均每个受试者39张图像该数据集强调具有完整姿势变化、遮挡以及主体职业和地理来源多样性的人脸。该数据集中的图像使用地面实况边界框和其他协变量元数据（如遮挡、面部毛发和肤色）进行标记。ImageNet [34]：ImageNet ILSVRC-2012分类数据集由1000个类组成，其中128万张图像用于训练，50 K张图像用于验证。我们使用通过随机选择具有最大图像数量的100个类，获得该数据集的子集，总共130K个训练图像和5K个测试图像。4.2. 表示模型对于面部验证任务，我们考虑了多个公开可用的最先进的面部嵌入模型，即128-dimFaceNet [35]表示和512-dimSphereFace [26]表示。此外，我们还评估了FaceNet3的512-dim变体，其性能优于128-dim版本。所有这些表示都是从CASIA WebFace [47]数据集中学习的，该数据集由10，575名受试者的494，414张图像组成上的图像分类3https://github.com/davidsandberg/facenet网站图4：内在的抽象性：（a）测地线距离分布，（b）RMSE的全局最小值。ImageNet数据集，我们选择了ResNet [16]架构的预训练34层版本4.3. 基线方法内在的抽象性：我们选择了两种不同的算法来估计给定表示的内在维度，一种是经典的基于k-最近邻的估计[31]，另一种是“内在维度估计算法”（ IDEA）[ 33 ]。降维：我们将DeepMDS与三种降维算法进行比较，即线性降维的主成分分析（PCA），Isomap [40]和去噪自动编码器[45]（DAE）。4.4. 内在尺寸实施详情：我们评估的所有方法的ID估计都依赖于近邻的数量k。对于基线，k用于计算概率密度的参数对于我们的方法，k使邻域图的构造对于后者，k的选择受到三个因素的限制：（1）k应该足够小，以避免在欧几里得空间中彼此接近的点之间的捷径，但由于高度复杂的局部曲率，在相应的内在流形中可能很远。（2）另一方面，k也应该足够大以产生连通图，即，不存在孤立的数据样本。以及（3）最佳匹配相同ID的超球体的测地线距离分布的k，最小化RMSE。图4a显示了k=15的SphereFace的距离分布，一个16维超球面和一个16维高斯。这些流形在图诱导测地距离空间中的成对距离分布的密切相似性表明，SphereFace（512-dimambient空间）的ID图4b 显示了在不同的 m 值下， SphereFace4 的最佳RMSE。对于所有的方法，我们使用SphereFace的余弦相似性，ResNet的欧几里得距离和弧长来选择k -最近邻，4其他表示和数据集的类似曲线可以在补充材料中找到。log（p（r）/p（rmax））LFW（m=10）IJB-C（m=16）均方根误差3994X x表1：固有的非线性：[13]第十三话表示数据集k4 7 9 15FaceNet-128LFW10*13 11 18表2：SphereFace嵌入的LFW面验证降维方法PCA Isomap DAE DeepMDS51296.74%SphereFaceLFW10*11 13 9d（x，x）=cos−1.不12Σ，对于FaceNet功能，类似的网络结构（剩余单元）和训练策略，1 2 寸x1寸x 2寸后者被标准化以驻留在一个单元的表面tary超球面最后，为了简单起见，我们将所有方法的ID估计值四舍五入到最接近的整数。实验结果：表1报告了不同k5值和不同数据集上不同表示模型的图方法的ID估计值。由于篇幅有限，我们在补充材料中报告了基线的ID估计值。我们从我们的结果中得出一些观察结果：（1）令人惊讶的是，所有数据集、特征表示和ID方法的ID估计值都显著低于周围空间的维数，在10到20之间，这表明图像原则上，表示可以更紧凑10倍到50倍。（2）基于k-NN的估计量[31]与基于图距离的方法[13]相比，IDEA估计器[33]对最近邻的数量不太敏感，但已知会低估具有高内在维度的集合的ID[43]。4.5. 降维给定内在空间的维数估计，我们学习从周围空间到一个合理的内在空间的映射，目的是保持表征的区分能力。真正的内在表示（ID和空间）是未知的，因此无法直接验证。然而，验证其区分能力可以间接验证ID估计和学习的固有空间。实施详情：我们首先通过表示提取图像特征，即，FaceNet-128、FaceNet- 512和SphereFace用于人脸图像，ResNet-34用于ImageNet-100。所提出的DeepMDS模型的架构基于跳过连接负载剩余单元的思想[16]。我们在多个阶段中训练从环境空间到内在空间的映射一旦训练了各个阶段，所有的L投影模型都被联合微调，以保持内在空间中的成对距离我们采用5* 表示满足对k的所有约束的最终ID估计。6由于篇幅限制，在补充材料中报告。（2）以“以人为本，以人为本”为原则，以“以人为本，以人为本”为宗旨。噪声自动编码器基线。从优化的角度来看，训练自动编码器的计算效率比DeepMDS模型更高，O（n）vsO（n2）。网络的参数使用Adam[22]优化器学习，学习率为3 × 10−4，正则化参数λ=3×10−4。我们观察到，使用余弦退火调度程序[27]是至关重要的to learn 学习 an effective 有效 mapping 映射 .为了便于ImageNet在固有空间中进行分类，在学习投影之后，我们分别在训练集的投影特征向量上学习线性和k-最近邻（k-NN）分类器。实验结果：我们评估了学习的投影，即PCA，Isomap和DeepMDS，在学习的内在空间中的有效性，并比较了它们各自在环境空间中的性能。面表示为在ImageNet-100上根据验证（TAR @ FAR）性能和分类进行评估，并根据准确性（Top-1和Top-5）进行评估。给定ID估计，设计一个合适的方案来映射固有流形比ID估计本身更具挑战性。为了展示内在空间的维度如何影响图像表示的性能，我们评估并比较了它们在多个中间空间的性能根据验证方案对IJB-C数据集进行人脸验证，并根据BLUFR [25]方案对LFW数据集进行人脸验证。由于空间限制，我们在此仅显示DeepMDS模型的结果图5显示了IJB-C数据集的ROC曲线和ImageNet-100上图像检索任务的精度-召回曲线。表2报告了LFW数据集上FAR为0.1%时类似地，表3显示了ImageNet-100上的Top-1和Top-5准确度，用于通过参数（线性）以及非参数（k-NN）分类器。我们从这些结果中得出以下结论：(1) 对于所有任务，高达 32 维（对于面部）的DeepMDS特征的性能与原始的128-dim和512-dim特征相当。 10-dim空间IJB-C10101011*256百分之九十六点七五92.88%77.80%96.73%LFW十 *11111712896.80%93.18%32.95%96.44%IJB-C14141616*ResNet-34ImageNet-100161819*233266.38%95.31%11.71%96.31%1632.67%89.47%27.53%百分之九十五点九五3995100806040200102101100101错误接受率（%）100806040200102101100101错误接受率（%）100806040200102101100101错误接受率（%）(a) FaceNet-128(b) FaceNet-512(c) SphereFace（d）图像检索图5：（a）FaceNet-128，（b）FaceNet-512和（c）SphereFace嵌入的IJB-C [29]（TAR@0.1% FAR）上的人脸验证，以及(d) ImageNet-100上的图像检索，用于环境512-dimResNet-34表示，从DAE和DeepMDS获得的固有19-dim空间表3：ResNet-34的ImageNet-100分类（%）分类器方法维表4：DeepMDS训练方法（TAR@0.1% FAR）方法Direct Direct+IS Stagewise + Finetune Stagewise512256128643219（ID）线性DAE80.080.973.2 七十63.150.2第三季度 80.25 86.15 90.4292.33Top-1DeepMDS80.079.476.171.470.268.0k-NNDAE83.481.379.1 七十六点四76.773.4LFW上的DeepMDS的主要由具有最小姿态变化和面部遮挡的正面面部图像组成IJB-C上DeepMDS的12维空间，具有完整的姿态变化、遮挡和主体的多样性，在0.1%FAR下实现了62.25%的TAR，而在环境空间中为69.32%(2) 所提出的DeepMDS模型能够学习低维空间直到ID，对于512维表示的30×到40×的压缩因子，性能损失为5%-10%，强调了学习从环境空间到内在空间的映射更容易的事实-比估计ID本身更重要。(3)在这两项任务中，我们观察到，即使在高压缩水平下，与基线方法相比，DeepMDS模型也能够保持更高的区分能力尽管DAE在ImageNet-100分类上取得了比较结果虽然Isomap比其他基线更具竞争力，但它有一些缺点：（i）由于其迭代性质，它不为新的（看不见的）数据样本提供显式映射函数，而自动编码器和DeepMDS模型可以映射这样的数据样本。因此，Isomap不能用于评估ImageNet-100数据集的验证/测试集的分类准确性，以及（ii）Isomap的计算复杂性O（n3），因此不能很好地扩展到大型数据集（IJB-C，ImageNet），需要近似，例如Nystr？m[ 39 ]第39话为了方便消融术研究：在这里，我们展示了阶段式学习过程在训练DeepMDS模型方面的有效性。所有型号都具有相同的容量。我们...sider四种变体：（1）从环境到内在空间的直接映射，（2）直接+IS：从环境到内在空间的直接映射，在每个阶段具有中间监督，即，优化总中间损失，（3）映射的逐步学习，以及（4）逐步+微调：投影模型被逐阶段训练，然后被微调。表 4 比较了 LFW 数据集（BLUFR方案）上这些变化的结果。我们的研究结果表明，非线性投影模型的分阶段学习在逐步解开环境表示方面在较大的数据集（IJB-C和ImageNet）上观察到类似的趋势。事实上，对于DeepMDS和DAE来说，带有微调的分阶段训练对于学习有效的投影5. 总结发言本文解决了两个问题，给定基于DNN的图像表示，表示中的最小自由度是多少，它的内在维度，我们能否找到一个映射之间的环境和内在空间，同时保持歧视能力的代表？本文的贡献包括，（i）基于图诱导测地线距离的方法来估计内在维度，以及（ ii ）DeepMDS，一种将环境空间转换为内在空间的非线性投影。基于多个DNN的图像表示产生的ID估计值为9到20，显著低于环境维度（10×到40×）。DeepMDS模型能够学习投影从环境到内在的空间，同时保持其差异，犯罪能力，在很大程度上，在 LFW ， IJB-C 和ImageNet-100数据集上。我们在本文中的研究结果表明，图像表示可以显着更紧凑，并呼吁开发算法，可以直接学习更紧凑的图像表示。128D：42.57%64D：42.16%32D：40.74%16D：37.89%12D：32.69%512D：69.32%256D：69.25%128D：69.23%64D：69.06%32D：68.90%16D：66.57%12D：62.25%512D：71.26%256D：71.13%128D：70.63%64D：68.36%32D：64.02%16D：59.75%核实率（%）核实率（%）核实率（%）DeepMDS83.480.978.777.877.177.0前5名线性DAE96.095.590.288.084.276.5DeepMDS96.095.393.185.285.284.83996引用[1] T. Ahonen，A. Hadid和M. 亲爱的基于局部二值模式的人脸识别2004年欧洲计算机视觉会议。2[2] M. Belkin和P.新木用于维数缩减和数据表示的拉普拉斯特征映射。神经计算，15（6）：1373-1396，2003. 3[3] Y. Bengio，J. Collobert和J.韦斯顿当前学习。国际机器学习会议，第41-48页。ACM，2009年。5[4] R. S. 贝内特信号部分的表示和分析二十一.信号集合的内在维度。技术报告，约翰霍普金斯大学巴尔的摩医学博士，电气工程和计算机科学系，1965年。1[5] V. N.博德提使用全同态加密的安全面部匹配。在IEEE生物计量学国际会议上：理论，应用和系统（BTAS），2018年。1[6] J. J.萨默最优拓扑保持映射的内禀维数估计。IEEETransactionsonPatternAnalysisandMachineIntelligence，20（5）：572-575，1998。3[7] F. Camastra和A. 文西亚雷利用分形方法估计数据的内维数。 IEEE Transactions on Pattern Analysis andMachine Intelligence，24（10）：1404-1407，2002。3[8] R. R. Coifman和S.拉丰扩散贴图。应用和计算谐波分析，21（1）：5-30，2006年。3[9] J. A. Costa和A.O. 英雄流形学习中用于维数和熵估计的测地熵图 IEEE Transactions on Signal Processing ， 52（8）：22101[10] N. Dalal和B. Triggs用于人体检测的定向梯度直方图IEEE计算机视觉与模式识别会议，2005年。2[11] K. Fukunaga和D. R.奥尔森一种求数据内在维数的算法。IEEE Transactions on Computers，100（2）：176-183，1971. 3[12] A. S. Georghiades，P. N. Belhumeur，D. J·克里格曼从少到多：可变光照和姿态下人脸识别的照明锥模型IEEETransactionsonPatternAnalysisandMachineIntelligence，23（6）：643- 660，2001。3[13] D. Granata和V.狂欢节使用图形距离精确估计内在尺寸：揭示数据集的几何复杂性。科学报告，6：31377，2016。三、四、七[14] P. Grassberger和I. Procaccia测量奇异吸引子的奇异性。混沌吸引子理论，第170-189页。Springer，2004. 三、四[15] R. Hadsell，S.Chopra和Y.乐存。通过学习不变映射来降低维数。在IEEE计算机视觉和模式识别会议上，第1735- 1742页，2006年。三、五[16] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。一二三六七[17] M. Hein和J. -Y. 奥迪伯特Rd中子流形的内蕴维数估计。在2005年的国际机器学习会议上。3[18] G. E. Hinton和R. R.萨拉赫季诺夫用神经网络降低数据的维数。Science，313（5786）：504-507，2006. 3[19] G. B. Huang，M. Ramesh，T. Berg和E.学习米勒。在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告，技术报告07-49，马萨诸塞大学，阿默斯特，2007年。6[20] I. T.乔利夫主成分分析和因子分析。主成分分析，第115Springer，1986年。3[21] B. 凯格尔使用填充数的内禀维数估计神经信息处理系统的进展，2003年。3[22] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[23] J. B.克鲁斯卡尔通过优化非度量假设的拟合优度的多维标度。Psychometrika，29（1）：1-27，1964. 三、五[24] E. Levina和P.比克尔。内在维数的极大似然估计。神经信息处理系统进展，2005年。3[25] S.廖，Z. Lei，L. Yi和S. Z.李大规模无约束人脸识别的基准研究。在IEEE国际生物识别联合会议（IJCB），2014年。7[26] W. Liu ， Y. 温， Z. Yu ， M. 李湾，澳 - 地 Raj 和 L

下载后可阅读完整内容，剩余1页未读，立即下载