二阶民主聚合：从深度卷积网络提取的聚合二阶特征在图像分类中的应用研究

162 浏览量更新于2023-10-13 收藏 797KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

二阶民主聚合Tsung-Yu Lin1、Subhransu Maji1和Piotr Koniusz21信息与计算机科学学院马萨诸塞大学阿姆赫斯特{tsungyulin，smaji}@ cs.umass.edu2Data 61/CSIRO，澳大利亚国立大学piotr. data61.csiro.au抽象。从深度卷积网络提取的聚合二阶特征已被证明对于纹理生成、细粒度识别、材料分类和场景理解是有效的。在本文中，我们研究了一类无序聚集函数，旨在最大限度地减少干扰或均衡的贡献，在二阶特征的上下文中，我们表明，他们可以计算一样有效地作为他们的一阶同行，他们有有利的，能够通过求和聚集的属性。另一项工作表明，聚合后的矩阵幂归一化可以显着提高二阶表示的泛化。我们发现，矩阵功率归一化隐含均衡的贡献，从而建立了矩阵归一化技术和先前的工作之间的连接，最大限度地减少干扰。基于分析，我们提出了γ-民主聚合器，它在sum（γ =1）和democratic pooling（γ =0）之间插值，在几个分类任务上都优于两者。此外，与幂归一化不同，γ-民主聚合可以通过允许使用非常高维的二阶特征的草图在低维空间中计算。这导致在几个数据集上的最先进的性能关键词：二阶特征，民主池，矩阵幂归一化，张量素描1介绍二阶统计已被证明可以提高对象、场景和纹理图像的分类性能，以及细粒度问题、动作分类和跟踪[52，44，30，15，6，25，34，33]。在最简单的形式中，通过取一些特征向量的外积并在一些感兴趣的区域上聚合它们来获得这种统计，这导致自相关[6，24]或协方差矩阵[52]。然后将这种二阶图像描述符作为特征传递以训练SVM等。最近的几项工作在从一阶统计切换到二阶统计之后获得了准确性的提高[25，24，34，32，33，59，26，28]。通过考虑这些统计量的频谱对最终聚集的影响，获得了进一步的改进2林宗玉、苏布兰苏·马吉和彼得·科纽什[25，24，37，31，33，26，28]。例如，在[25，24]中进行的分析得出结论，由于防止所谓的特征突发的信号白化特性，通过矩阵功率归一化从图像中解相关特征向量对分类具有积极影响[19]。然而，计算矩阵的幂是一个昂贵的过程，复杂度为O（d ω），其中2 <ω <2。376涉及SVD的复杂性。在最近的CNN方法[31，33，28]中，其执行端到端学习，由于在CNN微调过程的每次迭代中涉及SVD或求解李雅普诺夫方程[ 33 ]的昂贵的反向传播步骤，复杂性成为典型d ≥ 1024的禁止因素;因此增加了几个小时的训练计算。然而，另一种聚集机制旨在在对一阶特征向量进行加权之前对一阶特征向量进行重新加权。它们的聚合[37]，以平衡它们对最终图像描述符的贡献。这样的重新加权方案，称为民主聚合[21，37]，通过修改的Sinkhorn算法[23]非常有效地解决在本文中，我们研究了民主聚合的背景下，二阶特征描述符，并表明，这种特征描述符具有良好的性能时，与民主聚合器，最初适用于一阶描述符。我们仔细研究了重新加权表示和矩阵功率归一化的特征贡献的方差之间的关系。此外，我们提出了一个γ-民主聚合方案，它推广了民主聚合，并允许在总和池和民主池之间插值。我们表明，我们的配方可以解决通过Sinkhorn算法作为有效的如方法[37]，同时导致与矩阵功率归一化相当的性能。在计算上，我们的方法涉及Sinkhorn迭代，其需要矩阵-向量乘法，并且甚至当与经由Ne wton方法的近似矩阵幂归一化相比时更快一个数量级，其中Newton方法在r i x operat i on s [ 33 ]处为r i x - m。与幂矩阵归一化类似，我们的γ-民主聚合可以通过草图[42，12]来执行，从而能够使用高维特征向量。概括起来，我们的贡献是：（i）我们提出了一种新的二阶γ-民主聚合，（ii）我们通过Sinkhorn算法获得了重加权因子，该算法比快速矩阵幂正态化算法有一个数量级的加速比，同时我们提供了一个比较好的结果，（iii）我们提供了与矩阵幂正态化有关的特征贡献的理论界，（iv）我们通过应用民主聚合在几个数据集上给出了最先进的结果二阶表示的草图。2相关工作聚合一阶和二阶特征的机制已经在图像检索、纹理和对象识别的背景下被广泛研究[40，41，47，20，38，44，53，6，25]。在下文中，我们首先描述浅层方法和非欧几里德聚合方案，然后是基于CNN的方法。二阶民主聚合3浅的方法。聚合二阶统计量的早期方法包括区域协方差描述符[44，53]，Fisher矢量编码[40，41，47]和局部聚合张量矢量[38]，仅举几例。区域协方差描述符捕获图像的亮度、一阶和二阶偏导数的同现[44，53]，并且在某些情况下，甚至是二进制模式[46]。这些方法的主要原理是将一些特征向量的同现集合成一个表示图像的矩阵FisherVector Encoding [40]通过对一组特征向量进行聚类来预先计算视觉词汇，并捕获每个特征向量与其最近的聚类中心之间的元素平方差。随后，执行所捕获的统计数据相对于聚类方差和总和聚合的重新归一化。此外，扩展[41]提出将逐元素平方根应用于聚合统计，这改善了分类结果。局部聚集张量的Fisher扩张向量向量编码到二阶非对角特征交互。非欧几里得距离为了充分利用由散布矩阵捕获的统计数据，一些作品采用非欧几里德距离。对于正定矩阵，使用从黎曼几何已知的测地距离（或其近似值）[39，3，2]。幂欧距离[11]推广到半正定矩阵。诸如仿射不变黎曼度量[39，3]、KL散度度量[55]、Jensen-Bregman LogDet散度[7]和对数欧几里德距离[2]的距离经常用于比较由二阶统计量的聚合产生的散布矩阵。然而，众所周知，上述距离难以反向传播以用于端到端学习，并且通常在计算上是禁止的[27]。池化规范化。一阶和二阶聚合方法通常都采用池化特征向量的归一化。图像检索的早期工作将平方根[19]应用于聚合特征向量，以限制频繁出现的特征的影响，并增强不频繁和高信息量特征的影响（所谓的特征突发概念）。这种方法在计算机视觉中的根源可以追溯到所谓的交叉核的广义直方图[5]。对于二阶方法，Fisher矢量编码[41]使用了类似的策略。在词袋方法的上下文中进一步研究了突发的概念，以及对其谱进行功率归一化的散射矩阵和张量[24，25，26]（所谓的特征值功率归一化或简称EPN）。然而，散布矩阵的平方复杂度w.r.t.特征向量的长度使它们在分类中有些不切实际。最近的一项研究[21，37]显示了如何利用二阶图像统计和在聚合时间重新加权每个图像的特征向量集，以获得信息丰富的一阶表示。提出了所谓的民主聚合（DA）和广义最大池化（GMP）策略，其目标是在和聚合之前对每个图像的特征向量重新加权，使得频繁特征向量和不频繁特征向量之间的干扰最小化。诸如EPN（矩阵功率归一化，简称MPN）之类的策略是4林宗玉、苏布兰苏·马吉和彼得·科纽什EPN）、DA和GMP可以被视为均衡特征向量对最终图像描述符的贡献的方式，并且它们与零相位分量分析（ZCA）密切相关CNN中的池化和聚合。早期的基于CNN的图像检索和识别方法聚合从CNN图提取的一阶统计量，例如，，[14，57，1].在[14]中，多个特征向量在多个图像区域上聚合。在[57]中，特征向量被聚合用于检索。在[1]中，所谓的VLAD描述符被扩展以允许端到端训练。最近的方法从CNN特征向量形成在精神上类似于区域协方差描述符的共现模式在[34]中，作者通过外积组合了两个CNN特征向量流，并证明了这种设置对于细粒度图像识别任务是鲁棒的。最近的一种方法[49]在特征图中的两个单独位置提取特征向量，并执行外积以形成CNN同现层。此外，许多最近的方法致力于在频谱归一化散射矩阵上执行反向传播[18，17，31，33，28]。在[18]中，作者通过矩阵的SVD采用反向传播来以端到端的方式实现对数欧几里德距离。在[31]中，作者将特征值功率归一化[25]扩展到端到端学习场景，该场景也需要通过矩阵的SVD进行反向传播。同时，应用程序[33]建议使用Newton的方法在rxPowerrmalizion上进行迭代通过求解Lya- Punov方程来计算矩阵的平方根，以获得更高的数值稳定性。一种方法[58]将矩阵归一化描述为鲁棒协方差估计的问题。最后，紧凑双线性池[12]使用所谓的张量草图[42]。在指示，我们也利用张量素描在我们的工作。在重新加权特征向量与其对相应散射矩阵的频谱的影响之间没有联系然而，我们的工作与方法[21，37我们证明了它们优于一阶推理方法[21，37]，并表明我们可以获得与矩阵平方根聚合[33]相当的结果，在训练和测试阶段具有更低的计算复杂度。3方法给定特征序列X =（x1，x2，. . .，xn），其中xi ∈Rd，我们感兴趣的是一类函数，它们计算序列的无序聚集以获得全局描述子ξ（X）.如果描述符是无序的，则意味着特征的任何排列都不会影响全局描述符。一种常见的方法是在经由简单的对称函数（诸如sum或max）聚合之前使用非线性函数Φ例如，使用求和池的全局描述符可以写为：ΣX（X）=x∈Xφ（x）。（一）二阶民主聚合5在这项工作中，我们调查外积编码器，即。 φ（x）= vec（xx T），其中xTde不表示该随机数，而dvec（·）是ionopperator处的v ec t或i z。因此，如果x是d维的，则φ（x）是d2维的。3.1民主集合[37]中提出了民主聚合方法，以最小化序列中每个元素的干扰或均衡其贡献特征的贡献被测量为特征与整体描述符的相似性在总和池化的情况下，特征x的贡献C（x）由下式给出：ΣC（x）= φ（x）Tφ（x ′）。（二）x′∈X对于总和池化，贡献C（x）对于所有特征x可能不相等。特别地，贡献受特征的范数和频率两者的影响。民主聚合是一种通过标量α（x）对每个特征进行加权的方案，该标量α（x）取决于x和X中的整个特征集，使得加权聚合α（X）满足：Σα（x）φ（x）Tξ（X）=α（x）φ（x）Tα（x′）φ（x′）=C，x′∈X当α（x）>0时，则在ξ x ∈ X时，存在一个常数. 该等式仅依赖于元素之间的点积，因为：α（x）Σα（x′）φ（x）Tφ（x′）=α（x）Σα（x′）k（x，x′），（4）x′∈Xx′∈X其中k（x， x′）表示两个向量φ（x）和φ（x′）之间的点积。按照[37]中的符号，如果我们将KX表示为集合X的核矩阵，则上述约束等价于找到权重α的向量，使得：diag（α）Kdiag（α）1n =C 1n，（5）其中diag是对角化算子，并且1η是η维向量。在实践中，聚合特征ξ（X）被2归一化，因此常数C无关紧要并且可以被设置为1。作者[37]指出，上述方程可以通过阻尼Sinkhorn算法[23]有效求解。该算法返回一个唯一的解决方案，只要满足某些条件，即在K中的条目是非负的，矩阵是不完全可分解的。在实践中，这些条件不被满足，因为两个特征之间的点积可以是负的。在[37]中提出的解决方案是通过将K中的负项设置为零来计算α为了完整性，阻尼Sinkhorn算法包括在算法1中。给定d维的n个特征，计算核矩阵需要O（n2d），而每个Sinkhorn迭代需要O（n2）时间。在实践中，10次迭代足以找到一个好的解决方案。阻尼因子τ =0。5是典型的。这减慢了收敛速率，但避免了与未阻尼版本（τ= 1）相关联的振荡和6林宗玉、苏布兰苏·马吉和彼得·科纽什算法1阻尼Sinkhorn算法1：过程SINKHORN（K，τ，T）2：α←1η3：对于t= 1至T，4：σ=diag（α）Kdiag（α）1n5：α←α/στ6：返回αγ-民主聚集。我们提出了一个参数化的民主聚合函数的家庭之间的总和池和完全民主池内插。给定参数0≤γ≤ 1，通过求解权重向量α来获得γ-民主聚合，使得：diag（α）K diag（α）1n=（K1n）γ。（六）当γ= 0时，这对应于民主聚合，当γ= 1时，这对应于总和聚合，因为α= 1n满足上述等式。可以通过将用于在Sinkhorn迭代中计算σ的更新规则修改为：σ=diag（α）Kdiag（α）1n/（K1n）γ，（7）在算法1中，其中f表示逐元素除法。因此，该解对于任何γ值都是同样有效的。γ的中间值允许集合内的每个特征x的贡献C（x）变化，并且在我们的实验中，我们发现这可以导致比极端情况（即，，γ=1）。二阶民主聚合。在实践中，使用深度ConvNets提取的特征可能是高维的。例如，输入图像I通过ConvNet的层以获得大小为W×H×D的特征映射Φ（I）。这里，d=D对应于卷积层中的滤波器数量，n=W×H对应于特征的空间分辨率。对于通常从中提取特征的最先进的ConvNets，n和d的值是相当的，并且在几百到一千的范围内。因此，明确地实现外积可能是昂贵的。下面我们展示了使用外积编码器的民主聚合的几个属性这些属性中的一些允许以计算和存储器高效的方式进行聚合1.提案对于外积编码器，γ-民主核的解存在于γa的所有值中||X||>0，x∈X.证据对于外积编码器，我们有：k（x，x ′）= φ（x）Tφ（x ′）= vec（xx T）Tvec（x ′ x ′T）=（x Tx ′）2≥ 0。二阶民主聚合7因此，核矩阵的所有条目都是非负的，并且核矩阵是精确确定的，其中||X||>0，x∈X. 这是解存在的充分条件[23]。注意，即使当xT x′ 0时，外积编码器的核矩阵也是正的。<第二个提案对于外积编码器，γ-民主核的解α可以在O（n2d）时间和O（n2+ nd）空间中计算。证据Sinkhorn算法的运行时间主要取决于计算核矩阵K的时间。简单地计算d个2维特征的核矩阵将花费O（n2d2）时间和O（n2+nd2）空间。然而，由于外积的核条目只是编码步骤之前的特征的核条目的平方，因此可以通过简单地平方原始特征的核来计算核K，这可以在O（n2d）时间和O（n2+nd）空间中计算。因此，二阶特征的权重α也可以在O（n2d）时间和O（n2+nd）空间中计算。3号提案对于外积编码器，可以使用张量草图以低存储器开销计算γ - 民主聚合 ξ （ X ）。证据设θ是一个低维嵌入，它近似两个外积之间的内积，即、θ（x）Tθ（x′）vec（xxT）Tvec（x′ x′T），（8）θ（x）∈Rk，其中kd2.<<由于X的γ-民主聚合是外积的线性组合，因此总体特征ξ（X）可以写为： ΣΣξ（X）=α（x）xx Tα（x）θ（x）。（九）x∈Xx∈X因此，代替实现大小为d2的总体特征ξ（X），可以使用嵌入θ来获得大小为k的特征作为近似外积的民主聚合。近似外积嵌入的一个示例是Pham和Pagh [42]的张量草图（TS）方法。张量草图已被用于近似二阶和池[12]，导致在分类任务的性能上的边际损失下的空间数量级节省。我们的实验表明，素描也表现得很好，在民主聚集的背景下。3.2二阶表示不同的工作线[6，33，31，58]研究了矩阵函数，以规范化通过求和池获得的二阶表示。例如，改进的双线性池化[33]和二阶方法[24，25，28]通过外积的求和池化来构建全局表示：A = Σxx T。（十）x∈X8林宗玉、苏布兰苏·马吉和彼得·科纽什λ1ΣDΣ随后使用矩阵幂函数Ap（其中0p- 1）对矩阵A进行归一化<<当p=1/ 2时，这对应于被定义为矩阵Z的矩阵平方根，使得ZZ = A。可以使用奇异值分解（SVD）来计算矩阵函数给定具有由A = U ~UT给出的SVD的矩阵A，其中矩阵Λ = diag（λ1，λ2，… λ d），其中λ i彡λ i+1，矩阵函数f可以写为Z = f（A）= Ug（Λ）UT，其中g应用于Λ的对角线中的元素。因此，可以计算矩阵幂当A p= U Λ p U T= U diag（λ p，λ p，… λ p）UT。这种光谱归一化技术12天niques缩放矩阵A的频谱以下内容建立连接频谱归一化技术和民主池化之间的差异。LetA pbte2通过数据x∈X的最大值和最小平方半径来规范化Ap和x的值rmax= max ||X ||2，rmin= min ||X||二、（十一）x∈Xx∈X如前所述，令C（x）是向量x对聚合表示的贡献，定义为：C（x）=vec（xxT）Tvec（Ap）.（十二）第四个提案。以下属性为真：P PP.Σ1/22个p1. vec（A）的2范数为ρ（A）=|| vec（A）||为iλi。Σ2.x∈XC（x）=Trace（A1+p/||一个p||）=的.Σ1+p我我/ρ（A p）。3. 最大值M= maxx∈XC（x）≤rmaxλ p/ρ（Ap）.4. 最小值m = minx∈XC（x）≥ rminλ p/ρ（Ap）.证据证据留在补充材料中。第五号提案。贡献C（x）的方差σ2满足（M−m）2r2λ2pσ2≤（M−µ）（µ−m）≤≤最大值1，（13）4 4ρ（Ap）2当M和M表示最大值和最小值时，定义了一个上下文中的值由x∈X C（x）/n给出的C（x）的平均，其中n是X的基数。所有上述量可以从矩阵A的频谱计算。Prof. 这一过程可以通过应用Po povicu方差不等式[ 43 ]和Bhatia和Davis [ 4 ]的更严格变体来获得。最后一个不等式是通过设置m= 0得到的。以上示出了较小的值P减小了贡献的方差的上限，从而使它们的贡献相等。上界是指数p的单调函数，并且当p= 0时最小化，将所有频谱减少到单位矩阵。这对应于矩阵A.然而，完全美白通常会导致较差的结果，而中间值（如p=1/ 2）可能明显优于p=1 [24，25，33，31]。在实验部分中，我们评估了来自真实数据的深度特征的这些界限二阶民主聚合9提案6。对于指数<0p1<，矩阵幂Ap不一定位于特征x ∈ X的外积的线性跨度内.命题6的证明留在补充材料中。其结果是，在诸如Tensor Sketch的外积编码的低维嵌入空间然而，它确实存在于特征向量的外积的线性跨度中。然而，计算特征向量可能比计算加权聚合慢得多。我们在4.5节中描述了计算矩阵幂和民主池之间的计算和内存权衡。4实验我们在几个细粒度和纹理识别数据集上实证分析了矩阵幂归一化和γ-民主池的行为一般实验设置和数据集描述见第4.1节。我们在第4.2节中用真实数据验证了特征贡献的理论界限。我们将我们的模型与第4.3节和第4.4节中的总和基线，矩阵功率归一化和其他最先进的方法进行比较。最后，我们在第4.5节中讨论了各种方法的运行时和内存消耗以及执行端到端微调的技术。4.1实验装置数据集。我们在Caltech-UCSD Birds [56]，Stanford Cars [29]和FGVCAircraft [35]数据集上进行了实验。鸟类数据集包含11，788张图像，其中包含200多种鸟类。Stanford Cars数据集包含196个类别的16.185张图像对于每个数据集，我们使用基准测试提供的训练和测试分割，并且在训练阶段仅使用相应的类别标签。除了上述细粒度分类任务外，我们还分析了以下数据集上各种方法的性能：可描述纹理数据集（DTD）[8]，Flickr材料数据集（FMD）[48]和MIT室内场景数据集[45]。DTD由47个纹理属性的5，640个图像组成。我们报告了数据集提供的10个分割的平均结果。FMD提供来自10种不同材料类别的1000张图像。我们随机分割一半的图像用于训练，其余的用于测试每个类别，并报告多个分割的结果。MIT室内场景数据集包含67个室内场景类别，每个类别包括80个用于训练的图像和20个用于测试的图像。功能. 我们使用VGG-16 [50]和ResNet 101 [16]网络聚合具有γ民主池和矩阵功率归一化的二阶特征。我们遵循工作[34]，将输入图像大小调整为448× 448，并在ReLU激活后聚合最后的卷积层特征。对于VGG-16网络架构，这将导致大小为28× 28× 512的特征图10林宗玉、苏布兰苏·马吉和彼得·科纽什Cub-200MIT室内104Cub-200105MIT室内10-210-210210410- 410- 410010310- 610- 610-210210-8100200300400500按特征值100200300400500按特征值10- 40 200 400 600800按贡献1010 200 400 600 800按贡献(a) 谱（特征值）（b）贡献C（x）Fig. 1. (a)CUB-200和MIT 室内数据集上各种特征聚合器的频谱（特征值）。(b)单个特征向量贡献C（x）。（在聚合之前），而对于ResNet101架构，这导致大小为14× 14× 2048的映射。对于γ-民主池化，我们运行修改的Sinkhorn算法10次迭代，幂指数τ = 0。5.完全民主池化[37]和总和池化可以分别通过设置γ= 0和γ= 1来实现。聚集的特征之后是逐元素的有符号平方根和2归一化。对于细粒度的识别数据集，我们聚合了使用vanilla BCNN模型微调的VGG-16特征，而没有微调的ImageNet预训练网络用于纹理和场景数据集。4.2光谱的分布和特征贡献在本节中，我们分析了民主池化和矩阵归一化如何影响聚合表示的谱（特征值集），以及个体特征的贡献如何作为民主池化的γ和矩阵功率归一化的p我们从CUB和MIT室内数据集随机采样50个图像，并绘制光谱（归一化为单位长度）和特征向量贡献C（x）（等式10）。（12））。在这个实验中，我们使用矩阵幂p = 0。5且γ = 0。5. 图1（a）示出了与总和聚合相比，平方根产生更平坦的频谱民主聚合分布的能量远离顶部特征值，但具有相当尖锐的频谱相比，平方根。γ-民主池化介于总和和完全民主池化之间。图1（b）示出了针对不同池化技术的每个特征x对聚合的贡献（等式1）。（12））。与总和池相比，矩阵平方根的贡献分布更均匀。民主汇集最能拉平个人贡献--这两个图表明，民主聚合和功率归一化都实现了特征贡献的均衡图2显示了对聚合的贡献C（x）的方差Ausin geVGG-16feat uresfordifferenttepp的值。图2（a）显示了真正的最小值，最大值，平均值以及这些定量的界限平方根和民主γ-民主平方根和民主γ-民主平方根和民主γ-民主平方根和民主γ-民主特征值贡献特征值贡献二阶民主聚合111105Cub-200105MIT室内104Cub-200105MIT室内10010- 510- 10十到十五10010- 510- 10103102104103十到二十00.20.40.60.81矩阵功率十到十五00.20.40.60.81矩阵功率10100.20.40.60.81矩阵幂（p）10200.20.40.60.81矩阵幂（p）(a) 贡献的界限（b）方差图二. (a)Birds和MIT室内数据集上对集合相似性的贡献的上限（红色固体）和下限（蓝色固体）与矩阵幂归一化的指数。最大值和最小值以虚线显示，平均值以黑色实线显示。(b)特征贡献C（x）的方差的上界。第四条命题中的关系。最大贡献的上限，即，rmaxλp/ρ（Ap）在两个数据集上都是紧的，如在重叠中可以看到的。红线，而下限则明显不那么紧。图2（b）示出了真实偏差和如命题5和等式5中所表达的贡献的方差的两个不同的上界。（13）。红色虚线所示的更严格的界限对应于等式中具有平均值μ的版本。（13）。该图显示，矩阵功率归一化隐式地减少了特征贡献的方差，类似于在民主聚合中均衡特征向量贡献C这些图在来自CUB-200和MIT室内数据集的50个示例上进行平均。4.3γ对民主联营的影响表1示出了在VGG-16网络上作为γ民主池化的γ和矩阵归一化的P的对于DTD数据集，我们报告第一次分割的结果。对于FMD数据集，我们在每个类别中随机抽取一半的数据进行训练，其余的用于测试。我们在剩余的数据集上使用标准的训练和测试分割。我们通过翻转其图像来增加训练集，并使用超参数C= 1训练k个一对所有线性SVM分类器。在测试时，我们对图像及其翻转副本的预测进行平均。最佳γ和矩阵功率p也被报告。求和池的结果对应于对称BCNN模型[33]。完全民主池化（γ=0）比总和池化提高了0.7- 1%的性能然而，均衡特征贡献会损害Stan-ford Cars和FMD数据集的性能。表1显示，通过调整0<γ 1来减少贡献有助于优于总和池和完全民主池。矩阵功率归一化比γ-民主池化好0.2- 1%。然而，与我们的民主聚合相比，计算协方差矩阵的矩阵幂是计算昂贵的我们将在4.5节讨论这些权衡.min最小界限最大最大界均值min最小界限最大最大界均值真正的鞋面2贡献真正的鞋面2贡献标准差标准差12林宗玉、苏布兰苏·马吉和彼得·科纽什数据集γ-民主一个p民主γ=0最优γ总和γ=1加州理工UCSD鸟类84.784.9（0.5）84.085.9（0.3）斯坦福汽车89.790.8（0.5）90.691.7（0.5）FGVC飞机86.786.7（0.0）85.787.6（0.3）DTD72.272.3（0.3）71.272.9（0.6）FMD82.884.8（0.8）84.685.0（0.7）MIT室内79.680.4（0.3）79.580.9（0.6）表1. 聚合二阶特征的精度w.r.t.各种聚集体tors在细粒度识别上使用微调的VGG-16（顶部），并在其他（底部）数据集上使用ImageNet预训练的VGG-16。从左到右，我们改变γ值，并将民主池化、γ-民主池化和平均池化与矩阵功率聚合进行比较。γ和p的最佳值在括号中表示。4.4使用Tensor Sketching的与矩阵幂归一化技术相比，民主池化方法的主要优点之一是可以使用张量草图在低维空间为了证明这一优势，我们在2048维ResNet-101特征上计算了二阶民主池与张量草图相结合。二阶特征的直接构造产生4 M维特征，这在GPU/CPU上是不切实际的。因此，我们应用张量草图[42]使用8192个维度特征来近似外积，这远远低于完整外积的20482。使用γ民主方法（γ = 0）聚合特征。5.我们比较我们的方法，麻省理工学院室内，FMD和DTD数据集的最先进的。我们报告平均精度。对于DTD和FMD，我们还指出了10次分割的标准差。麻省理工学院室内实验结果。表2报告了MIT室内的准确度。基线模型近似二阶特征与张量草图，然后总和池达到82.8%的准确率。通过民主汇集，我们的模型达到了84.3%的最先进的准确率，比基线高出1.5%此外，表1显示，我们比使用VGG-16网络的矩阵功率归一化高3.4%。注意：（i）矩阵幂归一化对于ResNet 101特征是不切实际的，（ii）由于命题6，它不能通过草图计算。我们的表现也超过了FASON[10] 2.6%。FASON融合了VGG-19网络的conv4 4和conv5 4层的一阶和二阶特征，给定448×448图像大小，准确率为81.7%最近关于光谱特征的工作[22]实现了与我们的最佳模型相同的精度，具有演示池。然而，方法[22]使用更多的数据增强（旋转、移位等）。），并在大规模Places 205数据集上预训练VGG-19网络相比之下，我们的网络是在ImageNet上预训练的，ImageNet可以说比Places205从MIT室内数据集有更大的域偏移。二阶民主聚合13方法精度地点-205[五十四]80.9深层过滤器组[9]第一章81.0光谱特征[22日]84.3方盛[10个国家]81.7ResNet101 + TS+总和池（基线）82.8ResNet 101 + TS + γ-民主（我们的）84.3表2.对MIT indoor数据集的最新技术水平进行评估和比较FMD的结果。表3比较了FMD数据集的准确度。最近对深度滤波器组[9]的研究，表示为FV+FC+CNN，它结合了完全连接的CNN特征和Fisher向量方法，准确率为82.1%与几种方法相比，FASON使用单尺度输入图像（224×224），准确率也达到82.1%。我们的二阶民主池outper-formsFASON的0.7%，给定相同的图像大小。对于448×448的图像大小，我们的模型得分为84.3%，优于其他最先进的方法。方法输入大小精度IFV+DeCAF[八]《中国日报》MS65.5 ±1.3FV+FC+CNN[9]第一章MS82.2 ±1.4LFV[五十一]MS82.1 ±1.9SMO任务[60个]-82.3 ±1.7方盛[10个国家]22482.1 ±1.9ResNet101 + TS+总和池（基线）44883.7 ±1.3ResNet 101 + TS + γ-民主（我们的）44884.3 ±1.5ResNet 101 + TS + γ-民主（我们的）22482.8 ±2.5表3.评估和比较FMD数据集的最新技术这些中间列表示每种方法使用的图像大小（ms表示多个尺度，而连字符表示未知大小）。DTD上的结果。表4给出了我们在DTD数据集上的结果和比较。深度滤波器组[9]，表示为FV+FC+CNN，报告了75.5%的准确率。组合二阶特征和张量草图比Deep滤波器组的性能高0.3%。使用二阶民主池和448×448大小的图像，我们的模型达到了76.2%的准确率，优于FV+FC+CNN 0.7%。请注意，FV+FC+CNN利用了图像大小的几个尺度。4.5讨论虽然矩阵幂归一化实现了稍微更好的性能，但它需要SVD，这在计算上是昂贵的并且不是GPU友好的，例如，，CUDA BLAS无法对大型矩阵执行SVD即使是14林宗玉、苏布兰苏·马吉和彼得·科纽什方法输入大小精度LFV[五十一]MS73.8 ±1.0FV+FC+CNN[9]第一章MS75.5 ±0.8方盛[10个国家]22472.9 ±0.7ResNet101 + TS+总和池（基线）44875.8 ±0.7ResNet 101 + TS + γ-民主（我们的）44876.2 ±0.7ResNet 101 + TS + γ-民主（我们的）22473.0 ±0.6表4.对DTD数据集进行评估并与最新技术水平进行比较这些中间列表示每种方法使用的图像大小（ms表示多个尺度，而连字符表示未知大小）。在矩阵-矩阵乘法运算复杂度为O（n3）的情况下，本文提出了一种新的矩阵-矩阵乘法算法。相比之下，通过Sinkhorn算法（算法1）解决民主池只涉及矩阵向量乘法，其为O（n2）。根据经验，我们发现求解Sinkhorn迭代比在NVIDIA Titan X GPU上求解矩阵平方根快一个数量级。此外，Sinkhorn迭代的复杂度仅取决于核矩阵-它与特征向量大小无关。相比之下，所需的协方差矩阵的内存增长与O（n2），这成为禁止的特征向量大于512 dimen- sions。二阶民主池与张量素描产生可比的结果，并减少了两个数量级的矩阵功率归一化的内存使用。虽然我们没有报告使用端到端训练的结果，但可以通过在PyTorch或Tensorflow等库中实现算法1，使用来自迭代求解器的梯度的训练已经在许多应用中执行（例如，，[13]和[36]），这表明这是一个有前途的方向。5结论我们提出了一种称为γ-民主池化的二阶聚合方法，该方法介于sum（γ=1）和民主池化（γ=0）之间，并且在几个分类任务上优于其他聚合方法我们证明，我们的方法享有较低的计算复杂度相比，他在xsquarerotaproximionsvianwton的i t e r at i on s。利用草图绘制，我们的方法不限于聚合小特征向量，这通常是矩阵幂归一化的情况该项目的源代码可在http://vis-www.cs.umass.edu/o2dp上获得。确认。我们感谢NSF（#1617917，#1749833）和MassTech Collaborative资助UMass GPU集群的支持。二阶民主聚合15引用1. A randjelovi'c，R.， Gronat，P.， Torii，A.， Pajdla，T. Sivic，J. 一种用于弱监督位置识别的NN结构.见：CVPR（2016）2. 阿尔西尼五世Fillard，P.，Pennec，X.，Ayache，N.：扩散张量快速简单演算的对数欧几里德度量。Magnetic resonance in medicine 56（2），4113. Bhatia，R.：正定矩阵普林斯顿大学出版社（2007）4. 巴蒂亚河戴维斯，C.：更好的方差界The American MathematicalMonthly107（4），3535. Boughorbel，S.，Tarel，J.P.，Boujemaa，N.：用于图像识别的广义直方图交核。In：ICIP（2005）6. 卡雷拉，J.，卡塞洛河Batista，J.，Sminchisescu，C.：语义分割与二阶池。In：ECCV（2012）7. Cherian ， A. ， Sra ， S. ， Banerjee ， A. ， Papanikolopoulos ， N. ： Jensen-Bregman LogDet散度及其在协方差矩阵有效相似性搜索中的应用TPAMI35（9），21618. Cimpoi，M.，Maji，S.，科基诺斯岛Mohamed，S.，Vedaldi，A.：描述野外的纹理。在：CVPR（2014）9. Cimpoi，M.，Maji，S.，Vedaldi，A.：用于纹理识别和分割的深层滤波器组参见：CVPR（2015）10. Dai，X.，Yue-Hei Ng，J.，Davis，L.S.：FASON：一阶和二阶信息融合网络纹理识别。在：CVPR（2017）11. 伊利诺伊州德莱顿Koloydenko，A.，Zhou，D.：协方差矩阵的非欧统计及其在扩散张量成像中的应用。The Annals of AppliedStatistics3（3），110212. 高，Y.，Beijbom，O.，Zhang，N.，达雷尔，T.：紧凑的双线性池。见：CVPR（2016）13. Genevay ， A. ，小 GCuturi ， M. ： Learninggenertivemodelswithsinkhorndivergences. arXiv预印本arXiv：1706.00292（2017）14. Gong，Y.，Wang，L.，美国，Guo，R.，Lazebnik，S.：深度卷积激活特征的多尺度无序池化。In：ECCV（2014）15. 郭，K.，Ishwar，P.，Konrad，J.：使用特征协方差矩阵从视频中识别动作。 Trans. Img. Pr oc. 22（6），247916. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）17. 黄志，古尔，L.V.：一种用于SPD矩阵学习的黎曼网络。在：AAAI（2017）18. 约内斯库角Vantzos岛Sminchisescu，C.：结构化层深度网络的矩阵反向传播In：ICCV（2015）19. 我走了H Douz e，M.， S chmid，C. ：在B中，V是可用的元素。02TheDog（2009）20. 我走了H Douz e，M.， S chmid，C.， P'e rez，P. ：一种用于紧凑图像表示的局部描述。在：CVPR（2010）21. 我走了H Zisserman，A. ：Tr iangulati n g edemo c r a g a t i n g e d e m o c rag a ti n ge d em o c r a t i ng e d e m ocra g ati n g e r a t i n g e d e m o c r a t i n ge d e m o r a t i n g e m o n g e r a t in g e在：CVPR（2014）22. Khan，S.H.，Hayat，M.，Porikli，F.：基于光谱特征的场景分类。In：ICCV（2017）23. Knight，P.A.：sinkhorn-knopp算法：收敛和应用。SIAM J. Matr ixAnal.Appl. 30（1）、26 11

下载后可阅读完整内容，剩余1页未读，立即下载