深度匹配核在图像集分类中的应用

24 浏览量更新于2023-10-15 收藏 685KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3307学习深度匹配核用于图像集分类孙浩亮1，2，郑显通2，郑渊洁3，杨公平1，尹义龙1，4*，李硕21山东大学，济南，中国2西安大略大学，加拿大安大略省伦敦3信息科学与工程学院、山东省高校智能计算信息安全重点实验室、山东师范大学生命科学研究院智能信息处理重点实验室，济南4山东财经大学，济南，中国{haolsun.cn，zhenxt，zheng.vision，slishuo}@gmail.com，{ylyin，gpyang}@sdu.edu.cn摘要图像集分类由于其在计算机视觉中的广泛应用，近年来受到了广泛的关注。如何有效地度量类间模糊度高、类内变异性大的图像集之间的相似性是一个巨大的挑战。在本文中，我们提出了深度匹配内核（DMK），直接测量图像集之间的相似性匹配内核框架。具体来说，我们在反余弦核的基础上构建图像之间的深度局部匹配核，它可以通过模仿深度神经网络来忠实地表征图像之间的相似性;我们引入锚来将这些深度局部匹配核聚集成图像集之间的全局匹配核，该全局匹配核通过核对齐以有监督的方式学习，因此更具区分性。DMK为图像集分类提供了第一个匹配核框架，该框架去除了以前方法中通常需要的特定假设，并且计算效率更高我们在四个数据集上进行了DMK实现了高性能，并始终超越国家的最先进的方法，显示其巨大的有效性，图像集分类。1. 介绍图像集分类是计算机视觉中最重要的任务之一[15，25，33，20，19，22，36，9，34，37，52]，因为它在多视角视觉识别、基于视频的监视、动态场景识别等领域有着广泛的应用。相对于* 通讯作者。在图像集分类中，每个样本是一组图像，因此，由于每个图像包含对象变化的更多信息，因此能够更好地描述图像中的对象。然而，与对单个图像的分类相比，图像集表现出巨大的类内变异性和大的类间模糊性，这对忠实地测量图像集之间的相似性以进行准确分类提出了巨大挑战[20]。图像集分类在以前的工作中得到了广泛的研究，这些工作大多是在对图像分布或几何结构的特定假设下进行的为了便于对图像集进行建模，一些特定的假设，例如，一个单一的高斯[45]，高斯混合模型[1，53]，在一个集合中的图像分布，在早期的工作是先验的。传统的计量方法，Kullback-Leibler（KL）散度被用来衡量集合中图像分布之间的相似性。然而，当训练集和测试集之间没有显著的统计关系时，由于类内变异性巨大，这些方法无法保证满意的性能[31]。对称正定（SPD）矩阵[52，21，28]已被广泛用于通过计算二阶统计量来表示图像集，例如，集合中图像的协方差矩阵。协变矩阵作为一种统计度量可能过于通用，无法处理由于每个单独图像中缺乏局部信息而导致的严重的类间模糊这些SPD位于特定的黎曼流形中，因此欧几里得空间中的常规方法不能直接应用[52]。此外，当SPD矩阵的维数较高时，基于SPD的表示会导致沉重的计算成本[28]。另一个重要的机构3308工作是在假设图像集位于格拉斯曼流形[18，23，22，27]上的情况下进行的，其中每个图像集被视为格拉斯曼流形上的线性子空间。为了度量线性子空间之间的相似性，一族格拉斯曼核，例如，投影和Binet-Cauchy核[18，22]是基于主角提出的。然而，主角度仅包含关于输入空间中样本的位置和边界的弱信息[52]，不幸的是，这缺乏足够的判别信息来处理巨大的类内变异性。虽然在不同的框架中开发，但大多数以前的方法本质上是隐式地操纵来自两个集合的图像之间的相似性换句话说，图像集合之间的相似性最终由来自集合的图像之间的相似性确定。基于这一重要的观察结果，本文提出了通过直接测量图像集之间的相似性来学习图像集之间的深度匹配核，这是一种新的匹配核框架，它去除了对图像分布或几何结构的先验假设，同时有效地捕获了定位在每个图像中的区分信息。图像集之间的匹配内核[35]涉及图像之间的局部匹配内核和集合之间的全局匹配内核，其聚合来自集合的图像对之间的局部匹配内核。在我们的DMK中，局部匹配内核构建在强大的反余弦内核上，并聚合成全局匹配内核，该内核通过锚点通过内核对齐来学习构建DMK的框架1.一、对于局部匹配内核，我们建议在反余弦内核上构建深度局部匹配内核[10]。由于模仿具有无限隐藏单元的深度神经网络的性质，反余弦内核具有表征图像之间相似性的巨大能力。深度局部核函数对两个图像集之间相似性的忠实度量为图像集之间全局匹配核函数的构造奠定了基础。对于全局匹配核，我们提出通过锚点的核对齐以有监督的方式聚合那些深度局部匹配核，这使得它能够克服类间模糊性和类内可变性。基于锚点的全局匹配核不仅通过探索局部匹配核的不同区分能力而具有高度区分性，而且与传统匹配核相比在计算上更有效这项工作的主要贡献可以概括为以下三个方面：• 我们提出了第一个匹配内核框架，深度匹配内核（DMK），用于图像集分类，它删除了对集合的分布或表示的特定假设。DMK可以有效地描述图像之间的相似性，图1. 深度匹配内核（Deep Match Kernels，DMK）分配给锚点的图像由深度局部匹配内核匹配，深度局部匹配内核被求和为锚点匹配内核。通过锚匹配核的核对齐得到全局匹配年龄组通过直接匹配图像。• 我们在反余弦核的基础上建立深度局部匹配核，以忠实地度量图像之间的相似性深度局部匹配内核利用反余弦内核的性质来模拟具有无限数量单元的深度神经网络的计算• 我们引入锚点将这些深度局部匹配核聚集成图像集之间的全局匹配核，这些全局匹配核通过核对齐来学习。基于锚点的聚集提供了一种新的监督学习框架，通过探索局部匹配核的不同区分能力来建立图像集之间的核DMK已经通过针对三个具有挑战性的计算机视觉任务的四个数据集的广泛实验进行了评估，该实验产生了高性能和一贯超越最先进的算法。2. 相关工作由于图像集分类在广泛应用中具有巨大的实际应用潜力，在过去的几十年中，图像集分类得到了广泛的研究[45，31，18]。由于类间模糊性和类间变异性很大，因此度量图像集之间的相似性3309我我其通常包含图像的不同基数先前的工作已经在某些特定的假设下发展起来，这些假设是关于图像在集合中的分布或关于数据的几何结构。由于能够表征图像集的分布，在早期工作中已经探索了统计模型来对图像集进行建模[45，1]。在高斯分布的先验假设下，使用单变量高斯模型[45]和高斯混合模型[1]来表示图像集。广泛使用的度量，例如，选择Kullback-Leibler（KL）散度来衡量分布之间的相似性然而，通常需要足够的样本来很好地估计分布的参数，并且当训练和测试数据之间没有强的统计相关性时，这些模型将无法很好地执行[31，53]。对称正定（SPD）矩阵[52]被提议用其二阶统计量来建模图像集，例如，协方差矩阵。假设SPD位于黎曼流形上，并且选择将点从黎曼流形投影到欧氏空间的对数欧氏距离[2]来测量SPD之间的距离。尽管使用SPD矩阵来表征集合结构是很自然的，但是由于SPD的高维性，它往往在计算上非常昂贵。此外，如[21]所指出的，在从黎曼流形到欧氏空间的展平过程中，必然会引起畸变。为了克服这些局限性，Harandiet al.[21]利用正交投影建立了从高维SPD流形到低维SPD流形的映射模型。类似地，Huanget al. [28]提出对数欧几里德度量学习，以直接将原始切空间映射到更具判别力的切空间。Lu等人[34]将二阶统计量推广到多阶统计量，包括均值向量、协方差矩阵以及它们之间的Kronecker积。然而，由于所获得的图像特征可能是原始特征向量的三阶，这将导致非常高的计算成本。格拉斯曼流形在图像集分类中一直扮演着重要的角色[18]。基于格拉斯曼流形的方法的假设是，一组图像可以很好地近似为一个低维介绍了模型图像集。图像集之间的距离由凸模型或稀疏近似最近点（SANP）之间的几何距离来度量。然而，由于仿射/线性子空间假设，它们将无法处理图像外观的高度非线性变化，此外，由于使用的点间距离，性能容易出现离群值[25]。此外，由于查询集需要一对一的匹配，计算成本可能过于昂贵。上述大多数方法都是在某些特定假设下开发我们在匹配内核框架下提出了深度匹配内核（DMK）[35，16]，它消除了这些假设，并提供了图像集之间的直接测量。3. 深度匹配内核图像集分类的主要挑战是忠实地度量集合之间的相似性。在匹配核框架下，提出了利用深度匹配核直接学习相似度的方法. DMK在反余弦核的基础上构造局部匹配核，模拟了具有较强相似性度量能力的深层无限神经网络;这些局部匹配核通过锚点聚集成图像集之间的全局匹配核，该全局匹配核通过核对准来学习。3.1. 预赛我们简要回顾两个基本概念，集合之间的核和匹配核。我们揭示了两个图像集之间的核本质上是由来自两个集合的图像之间的相似性来表征的，这促使我们通过直接匹配图像来学习图像集之间的核。3.1.1集间核我们从向量集之间的距离开始，例如，图像集，它将被用来构建图像集分类中的集之间的核为了保持一般性，我们考虑集合的图像分布之间的距离。给定两个图像集，和b 表示为Xa={x（a）} |Xa|Xb={x（b）} |XB|，分别无损失i i=1i i =1亚空间然后，介绍了判别分析方法。在Grassmann流形上导出[27，19，23]。核方法[44]显示出对分类和一般来说，它们的分布pa（x）和pb（x）可以通过Hellinger距离[5，20]测量如下：[54]和回归[56]，也已经被探索用于图像集分类。一个正定的KER族-D2（p||p）=1|.|. . R（x（a））−.Σ21−R（x（a））本文发展了H一B|Xa|我我i=1[14，50，18，22]，这表明了巨大的潜力，通过核函数直接匹配图像集。为了处理集合中图像外观的大变化，已经使用了仿射壳或凸壳模型[6，26]1+|XB||.|. .R（x（b））−i=1.Σ21−R（x（b）），（一）3310H哪里R（x）=pa（x）.pa（x）+pb（x）1. 如果两个核k1和k2是正定的（p.d.），则它们的线性组合a1k1+a2k2也是如此，其中a1，a2≥0。[第四十二届]距离实际上是R（x）的函数。通过使用带宽为h的核密度估计[39]，我们得到2. 让K成为P. D。定义在k上的核：X × X →R，对于任意有限A，B ⊆ X，定义k′（A，B）=Σx∈A Σx∈B k（x，x∈ N）.那么k′是p. d。克内尔。Σ|X|x−x（a）（引理1在[24]中）1ak（i）的方式R（x）=|Xa|i=1小时。在构造图像Σ|X|一x−x（a）|X|Bx−x（b）1|Xa|i=1k（i1|XB|1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000我H（二）因此，以下属性是非常需要的。• 本地匹配内核应该忠实地反映从（1）和（2）中我们可以观察到，图像集之间的核可以通过测量来自它们的每对图像之间的相似性/距离来最终计算，这表明我们可以通过匹配来自两个图像集的图像来直接找到两个图像集之间的匹配核我们将在第二节中重新讨论match内核框架3.1.2，这是我们推导深度匹配内核（DMK）的理论基础3.1.2匹配内核匹配核作为基本工具已广泛用于计算机视觉和机器学习[35，16，4]，其提供了测量两组特征向量之间的相似性的直接有效方式，例如，图像集。两组特征向量之间广泛使用的匹配核是如下定义的和匹配核定义1（求和匹配核[35]）。设Xa={x（a）} |Xa| Xb={x（b）} |XB| 是两个图像集，）+）3311图像之间的相似性• 全局匹配内核应满足Mercer条件，例如，积极的确定性。• 在聚合成全局匹配核时，应区分局部匹配核的不同鉴别能力• 全局匹配核的计算应该在时间和空间上都是我们提出了深度匹配内核，同时解决了上述问题，并实现了图像集之间的区分和计算效率的内核。3.2. 深度局部匹配内核我们建议在反余弦内核[10]上构建深度局部匹配内核，以利用其测量图像之间相似性的强大能力。通过模仿无限单元的深度学习网络中的计算，反余弦核优于广泛使用的半径基函数（RBF）核[43]，可以将其视为一种ii=1ii=1单层无限网络[40]。匹配核的归一化求和被定义为：具体地，r阶反余弦核在1K（Xa，Xb）=1|Xa||2000年b|k（x（a），x（b）），（3）两个向量x，x∈Rd以整数表示定义如下：|Xa||XB|I ji=1j =1kr（x，x≠ 0）=其中，k（x（a），x（b））是fea-∫− |W|2（四）ije2r r分别从Xa和Xb构造向量x（a）和x（b）在[35]中引入了一个新的Mercer内核，2 （2π）d/2Θ（w·x）Θ（w·x）（w·x）（w·x）dw，1其中，Θ（z）=2（1 + sign（z））表示海维赛德步长（3）中的局部匹配核，k（xi，xj ）得双曲余切值.p≥1。为了保证学习算法的收敛性并且存在唯一的全局最优解，需要匹配核满足Mercer条件[46]。我们介绍了Mercer核的定义和它们的封闭性，这些将被用来构造我们的DMK。定义2（Mercer内核[46]）。设X是任意输入空间，k：X × X →R是对称函数，k是Mercer核，又称正定核，当且仅当将k限制在X的任意有限子集上所形成的核矩阵是正定的。正定核的以下闭合性质被广泛用于构造Mercer核。功能（4）可以看作是具有高斯随机权重w的单层神经网络的无限维输出与激活函数gr（z）= Θ（z）zr。（五）反余弦核是高度灵活的，因为gr（·）可以通过分别设置r=0、 1、 2来实现阶跃函数、具有整流非线性的斜坡函数[17]和四分之一管道函数对于不同的阶数r，激活函数gr（z）具有不同的处理非线性的能力，这显著地提高了神经网络的表示能力。3312m=1n、c、mn、c、mRR（4）中的反余弦核可以通过下式解析计算[10]：k（x，x≠ 0）=1||R||r J（θ），（6）||xˆ||rJ(θ),(6)rπr它由输入矢量的大小和它们之间的角度组成。角度依赖函数Jr（θ）定义为：3.3. 锚点全局匹配内核我们建议通过引入锚来将这些深度局部匹配内核聚合成图像集之间的全局内核，基于该内核对齐来学习图像集之间的判别内核。3.3.1锚匹配内核r2r+1。1好吧π−θΣ引入锚点以聚合本地匹配内核Jr（θ）=（−1）（sinθ）.Σsinθ θsinθ（七）给我们带来了两个好处：（1）能够探索局部匹配核的不同鉴别能力，其中θ= arccos（x，x）||x||||xˆ||学习与监督中的锚关联的权重（2）我们可以更有效地计算，我们提供了前四阶的公式，r=0， 1， 2， 3的角度依赖函数Jr（θ），这将用于我们的深度匹配内核。J0（θ）=π−θ，J1（θ）=（π−θ）cosθ + sinθ，J2（θ）=（π−θ）（1 + 2 cos2θ）+3 sinθ cosθ，J3（θ）=（π−θ）（9 sin2θ cosθ +15 cos3θ）+4sin3θ+15 sin θ cos 2θ。通过反余弦核，通过将输入x和x∈通过具有激活函数gr（·）的无限网络进行变换来匹配输入x和x ∈，从而实现深度局部匹配核来度量图像之间的相似性。匹配分配给相同锚点的图像。我们首先构建一组M锚点C={cm}M通过量化所有的图像从训练样本的k均值聚类算法。然后将每个集合中的图像分配给锚点。与传统的分配方法不同，对于每个锚点，我们从每个图像集中找到n个最近的图像，并将它们分配给这个锚点，这避免了空锚点。然后计算分配给每个锚点cm∈C的图像之间的匹配核Km，其中Km被称为锚点匹配核。具体地，锚匹配核是分配给锚的图像之间的局部匹配核的总和。具体来说，给定两组Xa={x（a）} |Xa|Xb={x（b）} |XB|，主播比赛i i=1i i =1核函数可以看作是从输入x到一个高的甚至无限维的特征向量φ（x）的非线性映射。反余弦的幂Kernel定义为：Km（Xa，Xb）=1Σ Σ（一）（b）第（1）款（十一）内核源于其实现深度学习的能力，多层应用连续多次的非线性n2x（a）∈N（a）x（b）∈N（b）k（cm−xi ，cm−xj）映射φ（·）。in，cmJn、c、mk（φ）（x，xφ）=φφ（φ（···φ（x），φ（φ（···φ（xφ）.（八）其中N（a）表示第m个的n个最近邻居`x`x锚定在集合a中，并且N（b）定义类似。使用2004年2004年图像和锚点之间的差异这可以有效地计算，因为内核的嵌套组合，而不是显式地训练多层神经网络[10]。具体地，用于多层网络的反余弦核的构造由下式给出：k（n+1）（x，xn）=1<$k（n）（x，x）k（n）（xn，xn）<$rJ（θ（n））.（九）通过其在局部聚集描述符向量（VLAD）[29]的构造中的成功，其在图像表示中显示出极大的有效性。具有（11）中的锚匹配核，通过以下获得两个图像集之间的全局匹配核：M2rπr rr rΣKG（Xa，Xb）=ωmKm（Xa，Xb）（12）其中，θ（θ）是特征空间中的输入之间的角度，该角度是由多重合成引起的，并且可以写为m=1其中，ω={ω1，· · ·，ωm，· · ·，ωM}，其中ω≥0是θ（θ）=arccos .k（n）（x，xn）..3313Σ.（十）与锚匹配核相关联的权重系数得到的全局匹配的正定性R（）（）内核是至关重要的鲁棒解决方案，具有独特的最佳，kr（x，x）kr（x≠，x≠）所获得的局部匹配内核基本上完成了深度学习，以构建图像之间的内核，因此，我们将其称为深度局部匹配内核。这是由定理1保证的。定理1（锚全局匹配核的正相关性）。（12）中的锚全局匹配核满足Mercer条件，因此是正定的。3314i=1∗T√锚点全局匹配核的正定性本质上由建立在反余弦核上的深度局部匹配核保证。实际上，反余弦核可以被看作是来自infi神经网络的高维特征映射之间的内积，在类标签向量中，例如，对于 N 个样本， Y=[y1，···，yi，···，yN]，并且yi是类的长度的二进制向量，其中如果xi来自第c个类，则只有第c个元素是1。如[11]所示，要获得高相关性，夜间单位。表示{wi}h作为权重矩阵的第i补间性能和内核对齐，有必要W的网络与激活函数（5）。的内积Σh在对齐之前将所有k个内核矩阵Km居中。令[Km]ij表示Km中的元素，中心核矩阵可以通过下式计算：gr（Wx）·gr（Wx）=Θ（wi·x）Θ（wi·x）（wi·x）r（wi·x）r。日本语简体中文i=1（十三）K<$ mij=Kmij−Ni=1KMij这导致了一个正定核。反余弦核可以在h→ ∞时得到，例如，1ΣN− N j=1Σ ΣKMij1+N2ΣNi，j=1Σ ΣKMij。（十七）kr（x，x≠0）=limh→∞gr（Wx）·gr（Wxθ）。（十四）我们可以进一步等价地重写目标函数-因此，反余弦核是正定的。由于锚点全局匹配核是通过ω≥0的线性组合由建立在反余弦核上的深度局部匹配核聚合而成的，因此我们可以直接从闭包prop.（16）如下：ωω= arg max||ω||=1，ω≥0ω⊤ββ⊤ωω⊤Ωω（十八）在Mercer核的定义（定义2）下，其中ω ≥ 0保证了正定性，||ω||= 1isa r e gulari z.对于i，j∈{1，···，M}，定义β由βi=TrK<$iKT定义，矩阵由ij=. ¯ ¯Σ3.3.2核对齐学习我们提出了通过核目标对齐以监督的方式学习与锚相关的权重系数ω，该方法在学习多个内核的最佳组合[12，11]。核对齐的核心思想是通过最大化输入核K和目标核KT之间的相似度或一致度来将它们对齐。具体地，内核之间的对齐被定义为：TrkiKj.（18）中的对准最大值问题可以简化为简单的二次规划（QP）问题[38]如命题1所示，它不需要求逆命题（18），可以有效地求解1.提案设q是以下QP的解：q= arg min q<$$> q − 2 q<$β。（十九）q≥0然后，对准最大化问题的解ωε，A（K，KTKTTTF）= 0。（十五）K，KTlem（18）由下式给出：阿克什直观地，对准的测量可以被视为两个二维向量K和KT之间的角度的余弦。核对齐提供了获得权重系数ω的最佳方式。现在，我们将介绍内核对齐公式，以了解我们的锚点全局匹配内核为了简单起见，我们想要最大化目标核矩阵KT与表示为Kω的全局核KG（ω）之间的对准，并且基于（15），我们具有以下优化问题Tr（Kω KT）ω = arg max A（Kω，K）= argmax.Tr（KωKω）（十六）通过定义目标核KT=YY来构造目标核矩阵KT，其中Y是由3315ω= ||q*||.（二十）证据该证明可参考文献[11]中命题3的证明。3.3.3复杂性分析由于引入了锚点，所提出的深度匹配核（DMK）在计算上比传统的匹配核更有效，和匹配核（SMK）。我们提供了时间复杂度分析，以显示效率的优势。匹配核的复杂性主要是由两个图像集之间的核计算引起的。给定N个图像集，其中最大值为L个图像、M个锚点和n个最近邻居，3316DMK的时间复杂度为O（N2n2M），而SMK的时间复杂度为O（N2L2）给定M=50、n=10和L=500的典型设置，n2M（=5，000）L2（= 250， 000）。因此，与SMK相比，我们的DMK的时间复杂度大大降低。4. 实验我们展示了所提出的深度匹配内核（DMK）在三个具有挑战性的计算机视觉任务上的有效性，例如，基于视频的人脸识别、动态场景分类和基于集合的对象分类。4.1. 实验设置我们通过交叉验证将反余弦内核中的参数r，r分别设置为r=4，r=[0， 1， 3，3]，这通常会在所有数据集上产生最佳的整体性能锚点和邻居的数量是要设置的关键参数，在我们的实验中，我们已经在所有数据集上进行了深入的研究我们实现了和匹配核（SMK）（3）的两个变体作为基线匹配核。我们采用支持向量机（SVM）[8]，并设置预计算的内核进行分类。我们比较了代表性的最先进的算法，包括DCC[31] ，GDA[18] ，MDA[51] ，PML[51] ，GEDA[23]， CDL[52]，[21][22][23][24][25][26][27][28][29]具体而言，我们实现了MPDF的3种变体，即kFDA-J、kFDA-HL和NN-J-DR。所有这些方法的默认参数都是通过遵循原始工作来调优的。对于DCC，通过保持90%的能量来执行PCA以学习子空间。在GDA、MDA和GEDA中，通过交叉验证选择子空间的基向量数目，并报告了最佳结果。PML[51]中的维数d的参数是根据作者的报告选择的。LDA用于CDL中的判别学习[52]。对于LEML，在[0. 1，1，10]和[0. 一比零。1：1）。对于DARG，GMM中高斯分量的数量设置为7，如作者所建议的那样[53]。4.2. 结果所提出的DMK在所有任务上始终产生高性能，并且在很大程度上优于基线和匹配核（SMK）和代表性的最先进的算法。结果报告于表1中。在下文中，我们提供了每个任务的实现和比较细节。4.2.1视频人脸识别我们在常用的YTC数据集上进行基于视频的人脸识别实验[30]，其中包含47个主题的1910个视频剪辑。该数据集在光照、面部表情和姿势方面表现出很大的多样性。每个片段中有数百帧。通过遵循先前工作[25]中的设置，我们采用[41]中的算法来检测每个剪辑的面部并调整大小为50×50的补丁。局部二进制模式（LBP）[49]用于人脸描述，减少到1000PCA的为了进行公平比较，我们遵循标准验证协议[34];具体而言，对于每个受试者，我们随机选择9个视频，其中3个和6个分别用于训练集和查询集。结果是五次的平均值。我们设置参数M，锚点的数量，为100和n，最近邻居的数量为4，重新。如表1（第三列）所示，我们的DMK达到了最高的识别率80. 百分之三。4.2.2动态场景分类动态场景分类一直是计算机视觉领域的一个重要研究课题，近年来被称为图像集分类。我们在两个数据集上展示了DMK的优势，[7][7][8][9][10][11][12][13][14][15][16][17][18]][19][19]对于UCSD，我们计算HoG特征[13]来描述视频中的每个帧。我们遵循[20]中共享的训练/测试分割设置。该数据集的参数设置为M=10和n=3。对于MDSD，每个类别有10个视频，数据集包含13个不同类别的动态场景。这项任务是非常有挑战性的，因为在野外的场景是不受约束的，在规模，视图，照明，背景的变化很我们选择CNN的最后一个全连接层[57，48]作为每帧的描述符，并通过PCA将CNN特征的按照[20]中的设置，我们基于两个协议测试该方法，例如，标准的留一法（ LOO ）和七三比法（STR），其通过在每个类中随机选择7个视频用于训练和3个视频用于测试来将数据集划分为图库和探针MDSD数据集中的参数设置为M=10和n=100。如表1（第4 - 6列）所示，在两个数据集上，我们的DMK优于所有比较方法。4.2.3基于集合的对象分类基于集合的目标分类是计算机视觉的一项重要我们在ETH-80数据集[32]上进行了实验，该数据集已广泛用于基于集合的对象分类。对于每组不同的方向有41个图像。为了实现与其他方法的公平比较，我们遵循[52，34，33]中相同的实验设置。每幅图像从所有简单背景中分割出来，并以20× 20的比例进行分类。对于每个对象，选择5个实例作为图库，其余5个实例3317表1.YTC、UCSD、MDSD、ETH-80数据集的性能比较数据集方法年YTCUCSDMDSD-STRMDSD-LOOETH-80DCC[31]2007六十五4±3。991. 5± 3。469岁。8±6。1八十5± 5。591. 7± 9。0GDA[18]200866岁。0±6。992. 5± 2。6七十4±4。581. 5± 5。1九十五0±3。9[51]第五十一话200967岁2±4。092. 7± 3。6七十二3±4。282岁4± 3。089岁。0±2。0GEDA[23]201169岁。3±2。292. 4± 2。3七十3±5。282岁2± 6。192. 3± 2。4CDL[52]2012七十1±4。691. 7± 0。9七十六。7± 7。886岁。5±5。891. 5± 3。5SPD-ML[21]201469岁。8±6。792. 1± 1。5七十七。3± 6。284. 3± 7。2九十三2±5。3[27]第二十七话2015七十3±3。794 7± 3。1七十二4±3。782岁7± 3。7九十五5±4。3LEML[28]2015七十三。3± 2。992. 5± 2。9七十七。6± 5。286岁。5±6。2九十六。0± 2。1DARG[53]2015七十七。1± 4。3九十五5±3。0七十三。6± 4。483岁5± 5。892. 3± 2。4KFDA-J[20]201579岁。3±3。6九十七3±1。4七十七。8± 5。386岁。9±4。3九十三7±1。4kFDA-HL[20]2015七十七。5± 3。8九十六。5± 1。579岁。0±3。187岁1± 5。3九十三1±2。0[20]第二十话201578岁1±1。9九十五6±1。5八十2±3。782岁3± 3。9九十三8±2。8[35]第二届世界杯足球赛七十七。5± 3。8九十七0±1。379岁。5±3。9八十五7±4。1九十三0±2。9[35]第二届世界杯足球赛78岁1±1。9九十七6±2。478岁4±4。1八十五9±5。2九十三7±3。8DMK（我们的）八十3±4。7九十八0±0。981. 5± 4。787岁2±5。0九十六。8±1。5* p表示（3）中的局部匹配核的幂。YTC8077741 1530锚钉ID1009590UCSD1 5 10锚钉ID在图2中，与各个锚相关联匹配的核产生不同的识别率。这表明局部匹配内核携带不同的判别信息，与SMK相比，这已经在我们的深度匹配内核框架中进行了探索。结果验证了引入锚的有效性。MDSD-STR8075701 510锚钉IDETH-8010090801 5 10锚钉ID5. 结论在本文中，我们提出了第一个匹配内核框架，深度匹配内核（DMK），图像集分类，它删除了特定的假设图像分布和几何结构。我们通过反余弦内核构建本地匹配内核，以利用其模仿深度学习架构的性质我们图2.锚匹配核的不同鉴别能力。用于探测器。我们进行了10次实验，并对图库和探针集进行了不同的随机选择。参数设定为M=5和n=30。如表1（最右栏）所示，我们的DMK实现了最高的识别率96。8%，比大多数比较方法好得多。4.3. 参数分析引入的锚点支持将深度局部匹配内核聚合成全局匹配内核。我们提供了一个全面的调查锚的性能的影响。识别率（%）识别率（%）识别率（%）识别率（%）3318我们的实验，看看锚匹配内核的判别能力。如图所示通过引入锚点，在集合之间建立全局匹配核，该全局匹配核通过核对齐来学习。与传统的匹配核相比，所得到的全局匹配核具有更好的区分性和计算效率。在三个具有挑战性的计算机视觉任务的四个数据集上的实验表明，我们的DMK consistently超越了最先进的技术。确认国家自然科学基金（批准号：20000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 61573219、61571147和61472226），国家自然科学基金与广东省联合基金重点项目。U1201258、山东省高等学校优势学科和人才队伍培养工程。3319引用[1] O. Arandjelovic，G.Shakhnarovich，J.费希尔河Cipolla和T.达雷尔。利用流形密度发散的图像集进行人脸识别。在CVPR，第1卷，第581-588页中。IEEE，2005年。[2] V. Arsigny，P. Fillard，X. Pennec和N.阿亚奇对称正定矩阵上一种新的向量空间结构中的几何平均。SIAMJournal on Matrix Analysis and Applications，29（1）：328[3] A. Berg，J. Deng，and L.飞飞2010年大型视觉识别挑战赛，2010年。http：//www.图片网org/challenges/LSVRC/2010/index，2011年。[4] L. Bo和C.斯明奇塞斯库用于视觉识别的特征集之间的高效匹配核。NIPS，第135- 143页，2009年[5] K. M.卡特统计流形上的简化。ProQuest，2009年。[6] H. Cevikalp和B.Triggs 基于图像集的人脸识别在CVPR中，第2567-2573页。IEEE，2010。[7] A. B. Chan和N.瓦斯康塞洛斯自回归视觉过程分类的概率核函数在CVPR，第1卷，第846-851页中。IEEE，2005年。[8] C.- C. Chang和C J. Lin LIBSVM：支持向量机库。ACMTransactions on Intelligent Systems and Technology，2：27：1-27：27，2011.软件可在http://www.csie.ntu.edu.tw/上获得~cjlin/libsvm。[9] L.尘基于对偶线性回归的分类人脸聚类识别。在CVPR中，第2673IEEE，2014。[10] Y. Cho和L.K. 索尔深度学习的核心方法在NIPS，第342-350页[11] C. Cortes，M.Mohri和A.罗斯塔米扎德两阶段学习核算法。ICML，第239-246页，2010年[12] N. Cristianini，J. Shawe-Taylor，A. Elisseeff和J. S.坎多拉。关于内核-目标对齐。NIPS，第367-373页，2002年[13] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，第1卷，第886IEEE，2005年。[14] A. Edelman，T. A. Arias和S. T.史密斯具有正交性约束的算法的几何。SIAM Journal on Matrix Analysis andApplications，20（2）：303[15] Q.冯，Y. Zhou和R.兰用于图像集检索的成对线性回归分类。在CVPR，2016年6月。[16] K. Grauman和T.达雷尔。金字塔匹配内核：使用特征集进行高效学习。JMLR，8（Apr）：725[17] R. H. Hahnloser，H. S. Seung和J. - J·斯洛廷对称门限线性网络中的允许集和禁止集。神经计算，15（3）：621[18] J. Hamm和D.D. 李你格拉斯曼判别分析：基于子空间学习的统一观点。ICML，第376-383页。ACM，2008年。[19] M.哈兰迪河哈特利角申湾Lovell和C.桑德-儿子。格拉斯曼流形上编码与字典学习的外化方法IJCV，114（2-3）：113[20] M. Harandi，M. Salzmann和M. 巴克塔什莫特拉格超越高斯：pdfs黎曼流形上的像集匹配。在ICCV，第4112-4120页[21] M. T. Harandi，M.Salzmann和R.哈特利从歧管到歧管：spd矩阵的几何感知降维。在ECCV中，第17-32页。Springer，2014.[22] M. T. Harandi，M.Salzmann，S.贾亚苏马纳河哈特利，还有H.李扩展格拉斯曼核家族：嵌入式透视图。见ECCV，第408-423页。Springer，2014.[23] M. T.哈兰迪角Sanderson，S. Shirazi和B. C.洛弗尔基于格拉斯曼流形的图嵌入判别分析改进图像集匹配。在CVPR中，第2705IEEE，2011年。[24] D.豪斯勒离散结构上的卷积核。技术报告，Citeseer，1999年。[25] M.哈亚特山Bennamoun和S.一个.用于图像集分类的深度反射模型。IEEE TPAMI，37（4）：713[26] Y. Hu，黄毛菊A. S. Mian和R.欧文斯人脸识别使用稀疏近似图像集之间的最近点。 IEEE TPAMI ， 34（10）：1992[27] Z. 黄河，巴西-地Wang，S.Shan和X.尘格拉斯曼流形上的投影度量学习及其在视频人脸识别中的应用。在CVPR，第140-149页[28] Z.黄河，巴西-地Wang，S. Shan，X. Li和X.尘对称正定流形上的对数欧几里德度量学习及其在图像集分类中的应用。在ICML，第720-729页[29] H.杰古F. Perronnin，M. Douze，J. Sánchez，P.佩雷斯和C.施密特将局部图像描述符聚合成压缩代码。IEEETPAMI，34（9）：1704[30] M. Kim，S. Kumar，V. Pavlovic，and H.罗利真实世界视频中具有视觉约束的人脸跟踪和识别在CVPR中，第1-8页。IEEE，2008

下载后可阅读完整内容，剩余1页未读，立即下载