双线性池的紧凑特征映射及其在视觉任务中的性能提升

192 浏览量更新于2023-10-16 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

原始特征向量可微紧致显式特征映射近似1i=0时卷积神经网络尹翠1，2周峰3王江4刘晓3林元庆3SergeBelongie1，21康奈尔大学计算机科学系2康奈尔理工学院3百度研究4谷歌研究{ycui，sjb}@ cs.cornell.eduwww.f-zhou.comwangjiangb@gmail.com {liuxiao12，linyuanqing}@baidu.com摘要具有双线性池的卷积神经网络（CNN）最初以其完整形式出现，后来使用紧凑表示，在广泛的视觉任务上取得了令人印象深刻的性能提升，包括细粒度视觉分类，视觉问题回答，面部识别以及纹理和风格的描述。其成功的关键在于两两（二阶）特征交互的空间不变建模。在这项工作中，我们提出了一个通用的池框架，捕捉更高阶的相互作用的内核的形式的功能。我们演示了如何使用紧凑的显式特征映射来近似高斯RBF等内核到给定的阶数，常数1阶二阶3阶p阶传奇按元素相乘计数草图快速傅里叶变换快速傅里叶逆变换无参数的方式。结合CNN，内核的组成可以通过错误反向传播以端到端的方式从数据中学习。建议的核池方案的核近似误差和视觉识别精度进行评估。实验评估表明，国家的最先进的perfor-曼斯常用的细粒度识别数据集。图1.提出的Kernel Pooling方法对于一个功能向量-tor（即，在CNN的情况下，在特征图上的空间位置处的激活），我们使用Count Sketch [6]来生成高达p阶的在应用内核池化之后，两个特征之间的内积可以捕获高阶特征交互，如在等式11中。1.一、这使得随后的线性分类器具有很高的区分力.所提出的内核池化方案是端到端可训练的，并且内核可以通过系数{αi}p的更新来学习. 的1. 介绍最近，特征之间的交互的想法已被广泛用作学习任务中的高阶表示[24，34，3，23]。其背后的动机是使后续的线性分类器在更高维的特征图上操作，从而使其变得更具鉴别力。通常有两种方法来创建更高阶的交互作用.最常用的方法是通过内核技巧隐式地映射特征，就像内核SVM [41]一样。缺点是双重的。所需的存储和评估时间都与训练数据的数量成正比，这使得它在大型数据集上效率低下此外，内核的构造使其部分工作是在百度研究院实习期间完成vanilla紧致双线性池[11，10]仅使用二阶信息作为特征向量。很难使用随机学习方法，包括CNN训练中的随机梯度下降（SGD）。另一种方法是显式地将特征向量映射到具有特征乘积（单项式）的高维空间。这种方法的缺点是显而易见的。如果我们希望在d维特征向量上进行p阶交互，则显式特征映射的维数将为O（dp），这使得在现实世界中使用它不切实际。解决这些问题的一种常见方法是对内核函数[37，44]或特征映射[17，31，2]进行compoundapproximate。在对视觉数据使用卷积神经网络（CNN）取得显著成功之前[20，38，39，15]，低级手工制作的特征（例如，SIFT [25]，HOG [8]，29212922i=0时我i=0时红衣主教”输入图像特征图特征向量图2. 使用建议的池化方法进行端到端培训。输入图像被送入一系列完全卷积层，以获得大小为h×w×c的输出特征图。对于每个单个空间位置上的c维特征向量（例如，特征图上的红色或蓝色条），我们应用图中所示的建议的核池化方法。1.一、最终的特征向量在所有位置h×w上平均合并。然后使用带有softmax的线性层进行分类。核由阶数p和系数定义{αi}p这可以通过反向传播从数据中学习。Gist [28]）与中级特征聚合或池化方法（例如，视觉词袋、空间金字塔匹配[21]、稀疏编码[45]、Fisher向量[30]）被广泛采用作为特征提取的标准方案在对提取的特征进行学习和应用时，通常采用高斯径向基函数（Gaussian RBF）或指数χ2核等核方法来获取高阶信息，使线性分类器具有更强的区分力。最近，将CNN与二阶特征交互相结合的努力，无论是通过用CNN特征[7]替换手工制作的特征，还是以端到端的方式联合训练，都在广泛的视觉任务上取得了令人印象深刻的性能提升代表性的例子包括细粒度视觉识别[23，11]，视觉问答[10]，纹理表示和合成[13，22]，面部识别[35]和风格转移[12]。值得注意的是，Gaoet al. [11]Fukuiet al. [10]使用张量草图[31]将完整的双线性向量压缩2个数量级，同时保持相同的性能。在这项工作中，我们提出了一个紧凑的和可微的方式来生成显式的特征映射。我们推广了[11，10]中使用的策略来表示高阶特征相互作用。对于维数为d的特征向量x，我们使用Count Sketch [6]和循环卷积生成其i阶（i≥2）紧致显式特征映射。在实际应用中，人们通常通过快速傅里叶变换（FFT）和快速傅里叶逆变换（IFFT）在频域进行循环卷积运算。文[31]在理论和实践上都证明了这种方法能够计算多项式核的近似值。如示于图1，用一堆Count Sketch，元素方面的mul-FFT和IFFT单元，可以复杂地保留高阶信息。核池化方法应用于CNN特征图上的每个空间位置。最终的特征向量是所有空间位置的全局平均池化的结果将所提出的核池化方法表示为φ。然后，对于两个特征向量x和y，φ（x）和φ（y）之间的内积可以近似一个核，直到某个阶p，如下所示（见第二节）。3了解更多详情）：Σpφ（x）<$φ（y）<$α2（x<$y）i<$K（x，y）（1）i=0时通过引入与再生核希尔伯特空间相关的核函数，线性分类器在高维欧氏空间上的操作变得具有高度的鉴别力。将所提出的池化方法与CNN相结合，如图所示。2、模型可以通过分类误差的反向传播进行端到端的训练。核的组成，由系数决定{α i}p，可以预先定义为近似某个内核，如高斯RBF高达p阶，或者从数据中学习。总而言之，这项工作有两个主要贡献首先，我们提出了一个通用的核池方法通过紧凑显式特征映射。在特征图上使用线性分类器与应用核技巧大致相同其次，所提出的核池是可微的，并且可以与CNN结合进行联合优化。内核的组成也可以在训练过程中同时学习。全卷积层常数1阶二阶“红3阶softmaxp阶内核池化线性层2923.2. 相关工作所提出的核池方法依赖于现有的努力，低维紧凑近似显式特征映射。Rahimi等人[33]是使用高斯和拉普拉斯核的随机特征的第一个工作之一。后来，类似的想法被推广到其他内核，如Maji等人。[26]对于直方图相交内核和Vedaldi等人。[42]这是一个很好的例子。关于多项式核的紧逼近，Kar等人最近提出了RandomMaclaurin.[17]，Pham等人的张量草图。[31]和Avron等人的子空间嵌入。[2]是其中最引人注目的代表人物。还有一种工作试图通过优化从数据中学习高阶相互作用[24，34，3]。我们与这些工作的不同之处在于以端到端的方式组合卷积神经通过联合优化，我们可以利用强大的现成全卷积网络架构直接从数据中学习更好的功能。由于p阶池化特征的维数随p呈指数增长，p >2在现实世界中的应用往往受到限制。在p= 2的情况下，该模型通常被称为双线性模型，由Tenenbaum和Freeman首次引入[40]。双线性模型在应用于手工制作特征[5]和学习特征[23，35，22，12]的视觉任务上表现出令人印象深刻的性能最近，通过使用Tensor Sketch [6，31]的紧凑二阶多项式核近似，可以用更低的特征维度[11]保持相同的视觉识别性能，并且启用了视觉问题回答的新应用[10]。与这些工作不同的是，我们将二阶多项式核双线性模型的紧表示推广到了第二章中定义的p阶3 .第三章。内核的组成也可以通过CNN的端到端训练来学习（参见第二节）。3.3）。3. 内核池化我们将“池化”的概念定义为将特征映射编码和聚合为全局特征向量的过程。卷积神经网络（CNN）的架构可以被视为完全卷积层，随后是后续池化层和线性分类器。选项卡. 1总结了常用CNN架构中采用的池化策略。通常，人们使用带有整流线性单元（ReLU）的全连接层堆栈，如AlexNet [20]和VGG [38]。充分图3. 张量积的一个例子。x ∈Rc的p层张量积x（p）是一个cp维向量.策略在计算上更有效，但它不能捕获高阶特征交互，这在许多视觉识别任务中被认为是至关重要的[23，35，22]。双线性模型[5，23]显式生成二阶多项式核的c2维特征映射，稍后使用张量草图[31]在[11，10]中进行压缩近似鉴于双线性模型的成功，我们提出了一种超越双线性模型并捕捉高阶特征相互作用的方法。我们首先定义了Tayler级数核，并证明了它的显式特征映射是可以精确逼近的. 然后，我们演示了如何使用泰勒级数核的紧凑特征投影来逼近常用的核，如高斯RBF。3.1. 基于张量积的显式特征投影假设卷积层的输出特征图是X∈Rh×w×c，其高度为h，宽度为w，通道数为c，我们将X上空间位置的c维特征向量表示为x =[x1，x2，. . . ，x c]n∈ Rc.显式特征投影φ（. 一个核函数K（.，. 通过将应用于两个特征向量x和y的核函数的值分解为它们的特征图之间的K（x，y）=φ（x）<$φ（y）（2）常用的核函数包括多项式核（xy）p、高斯RBF核exp（−γx−y2）、χ22xiyi内核i=1xi+yi等。注意到有些内核可以对应于无限维特征项目。作用（例如，高斯RBF）。本文介绍了张量积的概念，并证明了它可以用来得到一种称为泰勒级数核的核的显式特征投影。首先，我们定义了2 级张量积（即，x的外积xx<$）为：连接的层通常表现良好，但在介绍计算量大，参数多，网络速度慢，容易过拟合。最近提出的Inception [39]和Residual Learning [15]仅在特征映射上使用全局平均池这x1x1x1x2· · ·x1xc2x2x1x2x2···x2xc2x（2）=x x=。n∈ Rc（3）..xc x1 xc x2·······xc xc..2924我0我i=0时AlexNet /VGGInception /ResNet双线性紧双线性我们战略尺寸σ（ W2 σ（ W1X））D1ΣXhwi，jijC1XXhwi，jijijC21个月（X）hwi，jijD1φ（ X）hwi，jijD时间O（hwcd）O（hwc）O（HWC2）O（hw（c+dlogd））O（hwp（c+dlogd））空间O（hwcd）002cPC参数O（hwcd）0000或p表1. 常用CNN架构中采用的池化策略总结。X表示尺寸为h×w×c的特征图，其中h、w和c是通道的高度、宽度和数量;d表示用于后续线性分类器的预先指定的特征维度，并且p是我们用于所提出的核池化的顺序。σ（. ）、T S（. ）和φ（. ）分别表示ReLU单元，Tensor Sketch [31]和提出的内核池化方法类似地，对于p≥2的p级张量积被定义为：算法1：泰勒级数核的计数草图x（p）=x<$·<$x∈Rcp（4）输入：x∈Rc，p，{di}p，{αi}p联系我们I=2Di=0pp倍输出：φ（x）∈R，其中d=1+φc+i=2d i，s.t.φ（x）<$φ（y）<$K（x，y）=pi=0时 α2（x∈y）i.我们也有x（0）= 1和x（1）=x。图3示出了1初始化：φ（x）<$[α2，x<$]<$，P <$1.原始特征向量x及其2 级和3 级张量积x（ 2 ）和x（3）。在[36]中已经证明了p层张量积是p次的显式特征投影。阶多项式内核：2fort←1topdo3生成2个独立的散列函数h t和s t。h t和s t的输出是从{1，2，. . . ，d t}和{+1，-1}。p（p）（p）4计算x的计数草图为Ct（x）=（x y） =（x）（y）（5）[c、c、. . .得双曲余切值.]，其中c=s（i）x.12dtii：ht（i）=jt i我们定义p阶泰勒级数核如下：Σp5P ←PFFT（Ct（x））6如果t≥2，则−1K·泰勒（x，y）=α2（xy）i（6）7φ（x）←concatenate（φ（x），FFT（P））i=0时由于核的非负线性组合仍然是核[36]，因此泰勒级数核是有效的核，因为它可以表示为多项式核的非负线性组合。可以清楚地看到，泰勒级数核的显式特征投影由下式给出：8 returnφ（x）3.2.1泰勒级数核p-阶张量积的紧逼近x（p），我们定义x的Count Sketch [6]为：Σ(0)⊤（p）非政府组织C（x）= [c，c，. . .，c]n，其中c =s（i）x（八）φTaylor（x）=[ α0（x）、。. .，α p（x）]（七）12个d我我i：h（i）=j由标度张量积的级联组成{αix（i）}p，φ（x）1是一个维数为O（cp）的长特征向量。即使在c= 512和p= 3的情况下，cp仍然大于108。如此高的维数阻碍了它在任何现实世界问题中的应用。因此，需要一种紧凑的近似方法。3.2. 紧逼近紧逼近方法是可微的，具有良好的时间和空间复杂度。最近提出了几项关于随机特征投影的核近似的工作[33，17，31，2]。我们在张量草图[31]上构建近似方法，因为与[33，17]相比，它占用的时间和空间更少，并且与[2]相比更容易实现。[1]为了简单起见，除非另有说明，否则我们将在本文的其余部分删除KTaylor和φTaylor29251个p计数草图C（x）是使用2个散列函数h（. ）和s（. ）的情况。它们的输出均匀地从{1，2，. . . ，d}和{+1，-1}，re-k。 p-级张量积x（p）然后可以近似为：x（p）=FFT−1（FFT（C（x））··FFT（C（x）（9）其中， Ci （ x ）是从 2i 个独立散列函数 h1 ，h2，. . . ，h 1和s1，s2，. . . ，s i，n表示逐元素乘法，FFT和FFT −1是快速傅立叶变换及其逆。组合式7和等式。9，泰勒级数核的特征图1.一、输入包括原始特征向量x、要近似的泰勒级数核的阶数p、我们要使用的目标特征维度di（i≥22926C2−1余弦θ公司简介-2xy）.。图4. 用变量p的泰勒级数核逼近高斯RBF核。为了不失一般性，我们在绘图时忽略常数β。近似误差取决于⊤图5.通过CNN的端到端训练来学习内核组成内核的系数通过损失的反向传播与其他CNN层的权重3.2.2高斯RBF核内积值x⊤y和γ。通过适当选择γ基于xy，使用p= 4将足以近似高斯RBF核的泰勒展开[32]可以高斯RBF表示为：用于估计x（i）及其相关系数αi。Com-K径向基函数（x，y）==.exp.Σ- γx-y22 2 ⊤Σ用Eqn中的显式特征图来表示7、我们减少特征维数由指数变换得到。更=βexp2γxγγ具体地从dci，i≥2.pi=0 ci到d= 1 +c+pi=2 我在哪里Σ∞=i=0时（2γ）iβ我！（x）i（11）本文证明了方程中的x∈（p） 9是p阶多项式核的无偏特征映射估计量.的.其中β= expΣ- γ（γ-xyl2+γ-xyl2）是常数且相对估计误差可以由切比雪夫不等式限定同时，对算法的估计误差进行了分析. 1可以被定义为：β= exp（−2γ），如果x和y是2归一化的。相比在Eqn中使用Taylor级数核6，很明显，泰勒-核函数可以用来近似高斯RBF项通过将α2设为β（2γ）i，其他ker-我我！Σ。.Σ1也可以用泰勒公式来表示，以类似的形式。图4示出了通过具有变量的泰勒级数核的高斯RBFP. φ（x）φ（y）−K（x，y）.≥K（x，y）其中d min= min（d2，. . . ，d p）和.≤ Dmin2002年（p）（十）p. 近似误差取决于内积值xy。通常，值越接近0，近似误差越小。所以我们需要根据x∈y仔细选择γ。在适当选择γ的情况下，使用p= 4将足以近似高斯RBF。（p）=2（p−1），如果C=±122个p核函数逼近误差及其影响的实验研究2C（C−1），否则C=1是一个常数，等于两个特征向量x和y之间的余弦相似度的倒数。在我们的经验中，我们发现高维特征（大dmin）提供更好的近似，具有较大p的内核引入较大的误差，并且误差界也严重依赖于两个特征向量之间的角度exp-γ（γ-氧化物）.2927将在第二节中广泛讨论γ。四点二。3.3. 学习内核组成端到端在Alg. 1依赖于一组固定哈希函数的简单计算{ht}和{st}，FFT和FFT−1，它们都是可微的。结合CNN，softmax层的损失可以通过提议的内核池化层，并传播回前面的完全卷积层。2928而不是使用固定的预定义系数来近似某个内核，如高斯RBF，内核的组成可以从数据中学习，如图所示。五、设计和选择一个好的内核是一项挑战性的任务，因为它很难探测高维特征的潜在差异。因此，核函数通常是根据经验或通过交叉验证来选择的。通过以端到端的方式联合学习内核组成与CNN权重，我们认为学习的内核更适应和适合我们正在处理的数据。4. 实验评价提出的核池化方法的核近似误差和视觉识别精度进行评估。秒4.1介绍了实验装置和基线方法。然后，在Sec。4.2，我们对CNN特征的核近似质量进行了深入研究。我们还研究了特征维数d<$、核阶数p和γ的选择等配置问题。秒4.3是实验的主要部分，其中我们对各种视觉识别任务进行了广泛的评估，包括鸟[43]，汽车[19]，飞机[27]和食物[4]的识别所提出的核池化方法在所有数据集上实现了最先进的结果。4.1. 实验装置我们评估表中列出的所有池化策略。1.一、对于CNN架构，我们使用VGG-16 [38]和ResNet-50 [15]，这两个都在ImageNet上实现了最先进的性能[9]。VGG-16有13个ReLU卷积层和3个全连接层，包括最后一个线性层，其中softmax用于分类。ResNet-50由49个卷积层组成，然后是全局平均池化和最后的线性softmax层。VGG和ResNet在卷积过程中都会将输入图像的空间分辨率降低25= 32倍。在双线性、紧凑双线性和我们的模型的情况下，我们保留了网络的完全卷积部分，并使用来自最后一个卷积层的输出特征图（即，Alg中的特征向量x。1对应于最后一层的特征图的每个空间位置对于标准池化方法，我们选择VGG-16和ResNet-50 [15]作为全连接池化和全局平均池化的代表。VGG-16和ResNet-50的性能通过从ImageNet预训练的权重微调整个网络来报告。4.1.1池化方法我们将内核池化方法的性能与以下基线进行比较：具有全连接池的VGG（VGG）：这是[38]中提出的原始VGG-16网络。VGG-16的架构是突破性AlexNet的推广[20]。在AlexNet中，只有一个卷积层应用于输入图像和特定空间分辨率的特征图。然而，在VGG中，每个空间分辨率都应用了更多的卷积层（2到3AlexNet和VGG都为后续的softmax层使用了相同的全连接池化方案（两个完全连接的ReLU层的堆栈）。由于在全连接层中设计的节点数量固定，VGG需要224×224的固定输入图像大小。对于每个数据集，我们替换VGG的最后一个线性层以匹配类别的数量，然后根据ImageNet预训练的权重对整个网络进行微调。带有平均池的残差学习（ResNet）：尽管全连接层在实践中运行良好，但它有几个缺点，包括需要大量计算和大量存储，以及倾向于过拟合。最近提出的基于Inception模块[39]和Residual模块[15]的更深层网络在卷积层之后使用全局平均池用于后续的线性分类器。全局平均池是轻量级的，能够接受任何大小的输入，并且没有参数。然而，它不能捕捉特征图中的非线性信息。我们选择了一个强大的基线微调ResNet作为比较。双线性池化（BP）：我们在VGG-16的conv 53特征映射上应用完整的双线性池化，这与[ 23 ]中性能最好的B-CNN [D，D]相同。双线性向量的特征维数为d = 512 × 512 <$260K。我们强力双线性向量的维数为2048×2048 × 4。2M，太大了，不能在实践中使用。紧凑双线性池（CBP）：我们使用具有固定哈希函数的Tensor Sketch来近似 VGG-16和ResNet-50特征映射上的双线性向量。而原始论文[11]只使用了VGG-16。通常，紧凑双线性池化可以实现与d≥8192的完全双线性池化相同的性能，从而将原始特征维度降低几个数量级。为了进行公平的比较，我们在所有实验中将CBP中的特征维度设置为与我们的核池方法相同。建议的核池（KP）：我们在与BP和CBP相同的上下文中评估建议的核池方法对于特征图上每个空间位置处的激活x，我们应用Alg。1得到紧凑的特征映射φ（x）。与BP和CBP相同，最终特征向量在所有空间位置上平均合并通过反向传播用学习系数评估内核的组成核阶数p、特征维数d和γ的选择将在第2节中讨论四点二。29294.1.2执行我们的实现遵循[20，38，23，11]中常用的我们有两种图像输入尺寸：224×224和448×448。对于每个图像输入尺寸S×S，我们首先用像素图像均值减去它，然后调整原始图像的大小，使其短边为S，同时保持其纵横比。然后我们从原始图像中裁剪出一个S×S的正方形图像在训练期间，裁剪随机正方形原始裁剪及其水平翻转都用于数据增强。在推理期间，裁剪中心图像。我们将原始裁剪及其水平翻转独立地传递给CNN。的平均值100十比一10-2−4γ= 5ep= 2−4γ= 5eP= 3γ= 5eP= 4−4−4γ= 1ep= 2−4γ= 1eP= 3−4γ= 1eP= 40 1000 2000 3000 4000 5000特征维数他们的分类分数就是我们最终的分类分数。我们遵循[23，11]中对线性分类器之前的特征向量y的后处理步骤，因为实验表明它提高了细粒度识别。性能。我们应用逐元素符号平方根：y←sign（y）|然后进行归一化：|followed by ℓ2normalization:图6. 应用于具有不同内核配置的CNN特征的高斯RBF内核的相对近似误差。γ。两个特征向量x和y之间的相对近似误差由下式给出：在紧凑特征y向量上的y←y/y为了更快的收敛和更好的性能，|φ(x)⊤φ(y) − K=RBF （x，y）|（十二）mance，我们使用神经网络的预训练权重。卷积层的初始权重在ImageNet分类数据集上进行预训练，最终线性分类器的初始权重通过在预训练CNN特征的紧凑内核池上训练逻辑回归分类器来获得我们开始微调与10倍较小的学习率（即。0的情况。VGG为001，0. 01对于ResNet），并在每30个epoch之后将其除以10。我们使用0的动量。9，权重衰减为0。VGG为0005，0. 0001为ResNet。训练通常在50个epoch左右收敛。模型有时会因梯度过大而发散。因此，应用梯度裁剪[29]以确保所有梯度都落在-1和+1之间的范围内。我们使用Tensorflow [1]来实现和训练所有模型。在单个NVIDIATesla K40 GPU上，VGG-16和ResNet-50的向前和向后时间在448×448图像上约为500ms，在224×224图像上约为100ms。内核池需要大约50ms，d= 4096，p= 4。4.2. 核近似与组态本节介绍了使用Alg对核函数逼近误差的实验。1关于 CNN 使用在 ImageNet 上训练的VGG-16 ，我们在CUB-200-2011 [43]的训练集上提取conv53特征图，输入大小为224×224。对于特征图中的每个空间位置，特征是c= 512维向量。不失一般性，我们对内核池中的每个顺序使用相同的特征池维度d'（即，di=d<$，其中i≥1/2）。因此，最终特征尺寸为KRBF（x，y）我们比较了特征维度d<$从50到5000的内核池，步长为50。每个数据点是100K随机选择的特征对的平均误差。从图6，我们有以下观察结果：较高的特征池维数通常给出更好的近似;近似误差也随着阶数p的增加而下降;γ在近似误差中起关键作用上述发现验证了Eqn的见解。10个。图4我们可以看到，有了足够的特征维数和阶数以及适当的γ，我们可以实现接近1%的可靠性。行为错误有鉴于此，我们使用d<$= 4096和p= 4以下所有实验。对于VGG，输出向量的维数为d= 1+ 512 + 3×4096 = 12801ResNet为1 + 2048 + 3×4096 = 14337超参数γ被设置为训练集中的特征向量之间的内积的平均值的倒数，以确保γxy平均较小，并且我们可以得到良好的核近似。4.3. 视觉识别我们评估以下视觉识别任务。鸟类识别：我们使用CUB-200数据集[43]来完成这项任务。该数据集由来自200种鸟类的11788张每个类别都有大约30张图像用于训练和测试。汽车品牌，型号，年份分类：斯坦福汽车数据集[19]用于此任务。它有16185张图片，包括196个类别的汽车品牌、型号和年份。d= 1 + c+pI=2 d<$= 513 +（p−1）d<$。图6示出了飞机分类：细粒度飞机数据集对数中高斯RBF核函数的相对逼近误差规模，具有变量特征池维度d<$，顺序p和[27]在FGComp 2013挑战赛中首次引入，包含100个飞机类别，每个类别有100个图像。相对误差（对数刻度）2930数据集CNN原始英国石油公司[23][11]第十一话KP别人古巴[43]VGG-16 [38]ResNet-50 [5]73.1*78.484.1N/A84.381.686.284.782.0 84.1[18][16]第十八话斯坦福汽车[19]VGG-16ResNet-5079.8*84.791.3N/A91.288.692.491.192.682.7[18][14]第十八话飞机[27]VGG-16ResNet-5074.1*79.284.1N/A84.181.686.985.780.7[14个]食品-101 [4]VGG-16ResNet-5081.282.182.4N/A82.483.284.285.550.76[4]美国表2. 所有基线之间的性能比较，其中KP是所提出的具有学习系数的核池化方法。在标准实验设置下，除了原始VGG-16（用星号 * 标记）需要224×224的固定输入大小外，我们对CUB、Stanford Car和Aircraft数据集使用448×448的输入大小。对于Food-101，我们对所有基线使用224×224的输入大小图7.我们用来视觉识别的图像从左到右，每列包含来自CUBBird [43]，Stanford Car [19]，Aircraft [27]和Food-101 [4]的示例食物识别：对于这项任务，我们使用Food-101数据集[4]，据我们所知，这是迄今为止最大的公开可用的食物这是一个包含101，000张图片的大规模数据集，每个类别包含1000张这个数据集是具有挑战性的，因为训练图像是嘈杂的，背景是不干净的。每个任务的示例图像如图所示7 .第一次会议。所有基线和最新技术方法的性能比较见表1二、所提出的具有学习系数的核池在所有数据集上的性能都优于所有其他4.4. 讨论在本小节中，我们讨论了高阶信息对于不同CNN架构的相对重要性。我们使用VGG和ResNet上的核池来检查CUB数据集上的学习核系数。我们发现，高阶特征相互作用，特别是第二和第三或-2931der在VGG中的权重高于ResNet。在ResNet中，前三个订单之间没有明显的区别我们认为这是由于底层网络架构的差异。一个原因可能是在VGG中，非线性特征交互主要由全连接层捕获。因此，移除完全连接的层会显著降低原始的第一阶特征。由于ResNet仅使用全局平均池化层，并且具有非常大的感受野，因此鼓励特征映射中不同位置的特征表示相似的结合残差模块和更深层次的卷积架构，输出卷积功能可以隐式捕获比VGG更多的信息。在我们的实验中，我们发现当使用所提出的核池化方法时，VGG-16和ResNet-50的性能都可以得到改善这些实验验证了在CNN上下文中使用高阶特征交互5. 结论在本文中，我们介绍了一种新的深核池方法作为视觉识别的高阶表示。所提出的方法通过紧凑的显式特征映射来捕获高阶和非线性特征的相互作用。近似的表示是完全可微的，因此可以以端到端的方式与CNN一起学习内核组成。大量实验表明，深度核池方法在各种细粒度识别任务上都达到了最先进的性能。确认这项工作得到了谷歌重点再搜索奖、AWS云研究积分、微软研究奖和Facebook设备捐赠的部分支持2932引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C.西特罗湾S. Corrado，A. Davis，J. Dean，M. Devin等人Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。7[2] H. Avron，H. Nguyen和D.伍德拉夫多项式核的子空间嵌入。在NIPS，2014。一、三、四[3] M.布隆德尔湾Ishihata，A. Fujino和N.上田Polynomialnetworks and factorization machines ： New insights andefficient training algorithms （ Polynomial networks andfactorization machines：New insights and efficient trainingalgorithms）InICML，2016. 第1、3条[4] L. Bossard，M. Guillaumin和L.范古尔Food-101-用随机森林挖掘判别成分。2014年，在ECCV。六、八[5] 卡雷拉河Caseiro，J. Batista，and C.斯明奇塞斯库具有二阶池化的语义分割。ECCV，2012年。3[6] M.恰里卡尔湾Chen和M.法拉奇-科尔顿在数据流中查找频繁项。 2002 年， International Colloquium onAutomata，Languages，and Programming。一、二、三、四[7] M. Cimpoi，S. Maji和A.维达尔迪用于纹理识别和分割的深度滤波器组。CVPR，2015。2[8] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。1[9] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。6[10] A. 福井 D. H. 帕克 D 。 Yang ，杨树 A. Rohrbach ， T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。arXiv预印本arXiv：1606.01847，2016。一、二、三[11] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。在CVPR，2016年。一二三六七八[12] L. A. Gatys，A.S. Ecker和M.贝丝艺术风格的神经arXiv预印本arXiv：1508.06576，2015。二、三[13] L. A. Gatys，A. S. Ecker和M.贝丝纹理合成和自然刺激的控制生成使用卷积神经网络。2015年，在NIPS中。2[14] P.- H. 戈塞林 Murra y，H. Je′gou和F. 佩罗宁再论细粒度分类的fisher向量。Pat-tern Recognition Letters，2014. 8[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。一、三、六、八[16] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。2015年，在NIPS中。8[17] P. Kar和H.卡尼克点积核的随机特征映射2012年，在AISTATS。一、三、四[18] J. Krause，H. Jin，J. Yang，and L.飞飞无需零件注释的细粒度识别。在2015年IEEE计算机视觉和模式识别会议，第5546-5555页中。8[19] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在ICCV工作室，2013年。六七八2933[20] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。一、三、六、七[21] S.拉泽布尼克角Schmid和J.庞塞除了功能袋之外：用于识别自然场景类别的空间金字塔匹配。CVPR，2006。2[22] T.- Y. Lin和S.玛吉可视化和理解深层纹理表示。在CVPR，2016年。二、三[23] T.- Y. Lin，L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn在ICCV，2015年。一二三六七八[24] R. Livni，S. Shalev-Shwartz和O.沙米尔关于训练神经网络的计算效率。在NIPS，2014。第1、3条[25] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV，2004年。1[26] S. Maji和A. C.伯格。用于检测的最大边缘加法分类器。ICCV，2009年。3[27] S. Maji、E. Rahtu，J. Kannala，M. Blaschko和A. 维达尔迪飞机的细粒度视觉分类。arXiv预印本arXiv：1306.5151，2013。六七八[28] A. Oliva和A.托拉尔巴对场景的形状进行建模：空间包络的整体表示。IJCV，2001年。2[29] R. Pascanu，T. Mikolov和Y.本吉奥。关于训练递归神经网络的困难。2013年，《国际反洗钱法》。7[30] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。ECCV，2010年。2[31] N. Pham和R.佩吉通过显式特征映射实现快速和可扩展的多项式内核。InKDD，2013. 一、二、三、四、五[32] T. Poggio和F.吉罗西近似和学习网络。Proceedings ofthe IEEE，78（9）：1481-1497，1990. 5[33] A. Rahimi和B. Recht.大规模内核机器的随机特征。NIPS，2007年。三、四[34] S.伦德尔使用libfm的因式分解机。ACM Trans- actionson Intelligent Systems and Technology（TIST），2012年。第1、3条[35] A.罗伊·乔杜里，T. Y. Lin，S. Maji和E.学习-米勒。基于双线性 cnn 的人脸识别。 arXiv 预印本 arXiv ：1506.01342，2015。二、三[36] B. Schoül k opf和A. J. 斯莫拉学习与内核：支持向量机，正则化，优化，和未来。MIT Press，2002. 4[37] D. Scholkopf，F. Achlioptas和M.伯恩哈德核方法的抽样技术。NIPS，2002年。1[38] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。一、三、六、七、八[39] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。一、三、六[40] J. B. Tenenbaum和W. T.弗里曼。用双线性模型分离风格和内容。神经计算，2000年。3[41] 诉瓦普尼克统计学习理论的本质。Springer ScienceBusiness Media，2013. 12934[42] A. Vedaldi和A.齐瑟曼。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

双线性池的紧凑特征映射及其在视觉任务中的性能提升

两种线程池的实现和性能评价

双线性映射的概念及应用

双线性插值(向前映射) opencv

openssl 再linux中编译出windows版本_双线性映射在密码学中的使用

在pbc库中用c语言初始化双线性映射

双线性池化_双线性池化（Bilinear Pooling）详解、改进及应用

双线性 cnn 分类 加注意力 pytorch

在pbc库下用c++生成两个160阶的乘法循环群和一个对称双线性映射

双线性 attention

双线性 缩放 verilog

nlp如何融入双线性注意力机制

双线性注意力机制如何融合特征

为什么转置卷积还要有双线性插值

双线性变换法在频域变换是非线性的

在pbc库下用c++生成两个乘法循环群和一个对称双线性映射

双线性注意力机制是什么

mathcad双线性变换

在知识图谱注意力机制中 使用双线性注意力机制有什么好

基于双线性插值的鱼眼图像校正

转置卷积与双线性插值的区别

最新资源

双线性 cnn 分类加注意力 pytorch

双线性缩放 verilog

在知识图谱注意力机制中使用双线性注意力机制有什么好