没有合适的资源?快使用搜索试试~ 我知道了~
细粒度视觉分类中的紧致齐次双线性Grassmann池
用于细粒度视觉分类的紧致齐次双线性Grassmann池邢伟1、张越1、龚怡红1、张佳伟2、南宁郑11在一个灵活的智能化和机器人系统中,Xi2商汤科技研究抽象。设计具有区分性和不变性的特征是视觉识别的关键。最近,卷积神经网络(CNN)的双线性池化特征矩阵已被证明在一系列细粒度视觉识别任务上实现了最先进的性能双线性特征矩阵收集二阶统计量并且与协方差矩阵描述符密切然而,双线性特征可能遭受类似于诸如VLAD和Fisher向量的其他视觉表示的视觉突发现象原因是双线性特征矩阵对可以通过其奇异值测量的局部CNN特征元素的幅度和相关性敏感。另一方面,奇异向量具有更好的不变性,更适合作为特征表示。出于这一点,我们提倡一种替代的池化方法,该方法将CNN特征矩阵转换为由其主要奇异向量组成的正交矩阵几何上,这样的正交矩阵位于格拉斯曼流形上,格拉斯曼流形是一个黎曼流形,其点表示欧几里得空间的子空间。图像的相似性测量减少到由所述多个子块部分组成的所述预编码,并且因此独立于局部CNN激活的幅度和相关性。特别是,我们证明了格拉斯曼流形上的投影距离推导出一个双线性特征映射,而无需明确计算双线性特征矩阵,这使得一个非常紧凑的功能和分类器表示。 实验结果表明,我们的方法实现了一个很好的平衡模型的复杂性和准确性在各种细粒度的图像分类数据集。关键词:细粒度视觉分类;双线性池;奇异值分解; Grassmann流形;视觉爆发1介绍视觉识别问题主要有两个挑战:类间相似性和类内方差。因此,设计区分性和不变特征是视觉识别的关键[1细粒度图像分类的目的是通讯作者2X. Wei,Y.Zhang,Y.龚,J。Zhang和N.郑识别一些基本类别的从属类别,例如不同型号的汽车[7,8],鸟类[9],飞机[10]的变体,食物[11]等。与一般图像分类相比,细粒度分类更具挑战性,因为不同细粒度类别之间的视觉差异可能非常小且微妙。处理此类挑战的方法是结合强监督,例如,部件级和属性注释[12-14]。这些方法首先学习检测目标对象的语义部分,然后对局部部分的特征进行建模以进行分类。具有强监督的方法已被证明可以显着提高细粒度识别的准确性。但是,注释对象部分显然比分配类标签要昂贵得多。为了避免对强监督的依赖,一些人提出使用注意力模型[15-S.另一种有前途的方法是通过主动学习吸收网络规模数据集[18-20]的训练效果最近,一种名为双线性池的非常简单的方法[21]在一系列细粒度分类基准上实现了最先进的性能双线性池化方法学习两个单独的CNN,其输出在每个位置处使用外积相乘,然后求和以获得图像的整体表示。双线性合并矩阵捕获与协方差矩阵描述符密切相关的二阶统计量[22]。双线性池的主要缺点是池化特征是非常高维的。因此,本主题的研究路线集中在降低模型复杂度,包括特征描述符和分类器[23-25]。另一方面,很少注意解决突发性问题[26],其中特征元素在同一类内可能具有较大的差异,这对相似性测量产生不利影响。实际上,双线性池化[21]及其变体[23-25]执行逐元素有符号平方根归一化以补偿突发性,从其他特征表示[26-28]中获得想法。然而,很少有分析如何形成的爆发在这个框架。另一种方法[29]应用矩阵幂归一化,其中双线性特征矩阵的奇异值是逐元素平方根的。这样的归一化已经显示出改善了双线性特征的性能。事实上,这种想法与我们的观点部分一致。我们认为,奇异值是敏感的视觉元素的突发性,而奇异向量是更强大的和合理的被认为是不变的特征进行识别。因此,我们提倡一种替代的池化方法,该方法将CNN特征矩阵转换为由其主要奇异向量组成的正交矩阵几何上,这样的正交矩阵位于格拉斯曼流形[30]上,格拉斯曼流形是一种黎曼流形,其点表示欧几里得空间的子空间。图像的相似性测量简化为比较与所述局部CNN激活的所述幅度和相关性的所述幅度和所述相关性的所述主角度具体来说,我们表明,作为紧齐次双线性池的3Grassmann流形的投影距离[31,32]推导出双线性特征映射,而无需显式计算双线性特征矩阵,这导致非常紧凑的特征表示。此外,我们还提出了一个Grass-mann分类器,享有同样的紧凑形式,显着降低了分类器的参数大小最后,我们提出了一个格拉斯曼投影方法,以减少特征图的数量,进一步压缩我们的模型。我们以前的工作[33]采用三元组网络来处理局部补丁匹配的任务。在这项工作中,我们专注于基本的图像分类问题,并深入分析了双线性池方法的连接。2相关工作Tenenbaum和Freeman [34]首先引入了双线性模型来分离风格和内容。此后,二阶模型已经在几个计算机视觉问题中进行了研究,例如对象检测[22],语义分割[35],细粒度分类[21],视觉问题回答[36]等。还探索了用于视觉识别的其他特征表示词袋(BoW)框架[2,3]使用矢量量化用于硬视觉词分配。而稀疏编码[4,5]通过具有稀疏约束的线性编码来改进。VLAD [37]和Fisher Vector [28]在线性编码之外的描述符中引入了二阶信息。特征表示的关键问题是它的区分能力和不变能力。特别地,突发性问题已经从各种特征表示中引起了很多关注。2.1双线性池和变体在本节中,我们简要回顾几个相关的双线性池方法。双线性池[21]计算整个图像上局部特征的二阶统计量,以形成用于识别的整体表示。原始双线性池的一个明显缺点是池化特征是非常高维的。为了解决这个问题,Gaoet al.[23]通过Random Maclaurin [38]和Tensor Sketch [39]提出了两种近似方法来获得紧凑的双线性表示。紧凑模型通常将维度降低高达90%,而不会损失明显的分类精度。虽然紧凑近似显著降低了特征维数,但它们忽略了池化特征矩阵的矩阵结构,而是将其向量化并应用线性分类器。Kong等人[24]提出了保持矩阵结构和学习低秩双线性分类器。所得到的分类器可以进行评估,而不显式地计算的双线性特征矩阵,这允许一个大的减少的参数大小。Li等[25]提出了一个类似的想法,通过执行低秩约束的二次变换来对成对特征交互进行建模。他们还提出了一种正则化方法来降低双线性池的过拟合风险。Lin和Maji [29]探索了几种矩阵归一化,以提高原始双线性特征的性能。他们发现,矩阵幂归一化优于几个替代方案,如矩阵对数归一化。4X. Wei,Y.Zhang,Y.龚,J。Zhang和N.郑2.2论视觉表征优雅燕鸥果仁蜜饼悍马SUV 2000 Hawk T1(a) 光照和外观变化(b)重复结构图1.一、通常,视觉突发对应于特征表示不够恒定的问题,其中特征元素在同一类内具有大的方差该问题可由(a)大的照明和外观变化和(b)相关元素(诸如重复结构)视觉元素的突发现象首先在BoW设置中进行了探索[26]:给定的视觉元素在图像中出现多次,使得它可以强烈地影响两个图像之间的相似性测量,因为其它基本元素的贡献基本上减少了。一般来说,突发性对应于特征描述符不够恒定的问题,其中特征元素在同一类内可能具有较大的方差。该问题可能由大的照明和外观变化以及相关元素(诸如重复结构)引起,参见图1的一些示例。视觉突发性在许多视觉表示中广泛而重要,从局部补丁描述符到全局图像特征。根筛。Root-SIFT [40]通过首先对SIFT向量进行 L1结果表明,在Root-SIFT空间中执行标量积相当于在原始空间中计算Hellinger核。由于SIFT计算梯度的直方图,因此Root-SIFT映射的效果实际上可以减少大梯度值的主导地位,并增加较小但有意义的梯度的重要性。Bag-of-Words(英语:Bag-of-Words)BoW表示是通过将局部描述符量化为视觉词来获得的,从而产生频率向量。如Jgouet al.[26],BoW可能是由几个高频元素引起的非常不平衡这个问题可以通过对BoW向量进行逐元素平方根并重新归一化来贴现大值来缓解。作为紧齐次双线性池的5我i=12我VLAD和Fisher Vector。以类似的方式,VLAD和Fisher向量被符号平方根归一化[37,28]。为了进一步抑制突发,在[27]中提出了另一种称为帧内归一化的归一化,其中残差的总和在每个VLAD块内被L2双线性池。与先前的方法类似,双线性池化方法及其变体[21,23,24]也发现适当的特征归一化提供了对性能的重要改进他们一致地应用有符号平方根和L2归一化的双线性功能。另一种方法[29]比较了几种基于矩阵的归一化,发现矩阵幂归一化可以显着提高分类精度。3作为紧齐次双线性池的Grassmann池为了计算图像的双线性特征矩阵,我们首先通过将其馈送到CNN中来提取密集的局部图像特征我们在特定的卷积层获取输出,并将其形成为矩阵A∈Rc×hw,其中每行i∈[0,c]表示堆叠到1D向量的第i′个特征映射,每列j∈[0,hw]对应于一个空间位置。特征图的数量、高度和宽度分别由c、h和w表示因此,双线性池化的对称形式可以用矩阵符号B = AAT来表示。3.1基于奇异值分解的双线性池化的主要缺点是所产生的特征具有高维度。 在原始的双线性池化方法[21]中,池化特征被重塑为向量z = vec(AA T)∈Rc。考虑在最后一个卷积层具有c= 512个特征图因此,在该层处汇集的双线性特征的维数是218。此外,如果c > hw,则因此B =AAT是秩亏的。这些原因促使我们找到一个更紧凑的形式的双线性特征矩阵。为了实现这一目标,我们求助于奇异值分解(SVD)的低秩矩阵近似。在描述池化方法之前,我们首先介绍两个简单的引理。引理1. 设A =Σcσu vT是A和σ的SVD多σ多···多σ。i=1iΣi我12c对于k ∈ {1,2,… c},令Ak=Ki=1 σiuivT是在k项之后截断的和,因此,A k具有秩k。 我们有,对于任何秩至多为k的矩阵X,A− A kF ≤A− X引理2. 设A =ΣcσiuivT是A的SVD,如果B = AAT,则.ΣB =σiui vTΣ。ΣΣTΣΣσjuj vT=Σσiσjui vT vj uT =σ2ui uTiijji jij我我我(一)6X. Wei,Y.Zhang,Y.龚,J。Zhang和N.郑K引理1表明,当误差由Frobenius范数测量时,Ak是A的最佳秩k因此,我们可以使用SVD来找到双线性特征矩阵的低秩近似,而不会损失太多精度。Lem- ma 2给出了两个重要的信息。首先,双线性特征矩阵B具有与原始特征矩阵A相同的奇异向量,并且在它们的奇异值之间存在一对一映射。因此,代替近似双线性特征矩阵B,我们可以仅计算原始特征矩阵A上的SVD,这可以在c > hw时降低计算复杂度。其次,B的奇异值与A的奇异值相比呈二次我们认为,这种现象使得双线性特征矩阵对局部CNN激活的幅度和相关性更加敏感,这可能导致突发性问题[26]。考虑到原始特征矩阵A具有大的奇异值,因此它将在B中被显著放大并主导相似性度量。为了解决这个问题,我们建议使用以下池化方法。定义1. (Grassmann/Subspace Pooling)设A∈Rc×hw为特征映射在特定的卷积层,A =cσ u vT是SVD,i=1我我我Grasmanpoling或sub spacepoling[33]得到:gk(A)=Uk=[u1|u2|···|uk]。也就是说,池化方法将CNN特征矩阵A变换为由其k个主左奇异向量组成的正交矩阵。在几何学中,以这种方式获得的池化CNN特征是c维欧几里德空间的k维线性子空间,其位于(c,k)Grass-1上。mann流形[30],记为Gk。现在双线性特征矩阵变为′TcB = Uk Uk。当插入CNN并在端到端的fasion中训练时,这种池化方法使得模型只学习结构特征,独立于视觉元素的大小和相关性。请注意,虽然奇异值没有出现在这个公式中,但这并不意味着我们认为奇异值完全无用并丢弃所有的i nfor mΣat i oncarr i edbythemm. 实际上,此副本可以保存为B ′=cσ′u i v T,其中σ′= 1,i ∈ {1,…,k}和σ′= 0,其中i ∈{k+1,…,c}。i=1i i i i我们将以这种方式获得的标准正交矩阵的双线性池化命名为齐次双线性池化此外,我们的方法也是紧凑的,因为k c。图2说明了传统双线性池化[21,24]、具有矩阵幂归一化的双线性池化[29]和我们的紧凑齐次双线性池化的差异。我们的池化方法主要有两个优点。一方面,对于对应于主要特征结构的大奇异值,我们的池化方法不会引起突发性问题,因为它们被展平为1。另一方面,奇异向量对应的小奇异值往往是微不足道的结构,甚至噪声,因此被丢弃的这种表示,显着降低了特征的大小。此外,我们将在后面解释,甚至不需要计算均匀的胆红素。耳特征矩阵B′ =UkUT∈Rc×c显式地,但直接使用更作为紧齐次双线性池的7常规双线性池化功率归一化 : p= 0 。 5 功 率 归 一化:p= 0。1紧齐次双线性池32100kc索引图二.比较传统的双线性池,双线性池与矩阵幂归一化和我们的紧凑齐次双线性池。传统的双线性池化方法[21,24]保持整个频谱,并且不对奇异值应用归一化。因此,它们的特征矩阵可能遭受突发性问题。提出了矩阵幂归一化[29]来更好地处理这个问题。然而,当指数p接近零时,所有奇异值都接近1。因此,许多对应于小奇异值的平凡结构被过度放大。相反,我们的紧致齐次双线性池采用二进制奇异值,其特征是紧致的,只包含大奇异值对应的主要特征结构,不会引起突发问题紧形式Uk ∈Rc×k,其中kc在实践中3.这一性质的意义在于两个方面。1)对于需要将特征存储在数据库中的基于检索的应用或分布式2)对于分类问题,特别是当类别数很大时,它可以显着减少分类器的参数大小。在解释如何避免计算双线性特征矩阵之前,我们首先对奇异值和奇异向量进行了更多的分析。3.2理解奇异值和奇异向量为了更好地理解我们的池化方法的动机,分别展示奇异值和奇异向量的一些性质是很重要的。我们首先考虑两个玩具的例子进行分析,然后在一个真实的数据集上给出一些可视化我们考虑以简化方式模拟图1中所示的突发现象的两个这使我们能够分析奇异值和奇异向量的行为在一个封闭的形式。3在本文的其余部分,为了简单起见,我们使用U而不是Uk,此后,下标将表示不同的示例,e。例如,在一个实施例中,U1和U2。奇异值8X. Wei,Y.Zhang,Y.龚,J。Zhang和N.郑(a) 奇异值(b)奇异向量图三.使用原始双线性池化方法使用t-SNE [41]将奇异值和奇异向量可视化为特征描述符。(a)奇异值可能会受到局部CNN特征元素的幅度和相关性的影响,并且它们分布广泛并与不同的类别混合。(b)相比之下,奇异向量的分布更紧凑,更容易区分1. 线性照明变换:B =(s A)(s A)T= s2 AA T= Σs2σ2 u u T.我我我我对于线性照明变换,当A按标量s缩放时,B的奇异值按s2缩放。2. 重复结构:B =[A |A] [A |A] T= 2AA T= Σ2σ2 ui uT.考虑我我我由CNN生成的两个重复特征矩阵A被级联因此,B的奇异值乘以因子2。正如我们从两个例子中可以看到的,奇异值实际上可以反映矩阵的大小和元素的相关性,并且在执行双线性池化时甚至可能对这些因素更敏感。另一方面,奇异向量比奇异值更鲁棒。它们具有单位范数,只反映结构信息,因此我们认为应该更合理地考虑作为识别的不变特征当然,真实情况比玩具示例复杂得多,其中照明变化和相关性可能不会全局发生然而,这样的示例示出了如何以更鲁棒的方式池化CNN特征。真实案例我们还在真实数据集上进行了几次可视化。具体来说,我们使用细粒度飞机数据集[10]作为测试平台。我们在这个数据集上训练原始的双线性池模型,并提取测试集中所有图像的特征矩阵。然后,我们对每个特征矩阵进行SVD,分别得到奇异值和奇异向量。我们取vec(UUT)和[σ1,σ2,. . . ]作为两种特征,并使用t-SNE [41]方法将它们可视化。从图3(a)中可以看出,每个类别的奇异值分布很广,并且与不同的类别混合。相反,奇异向量的分布更加紧凑,并且更容易从每个类别中区分出来,如图3(b)所示。作为紧齐次双线性池的911C我我CFJF3.3学习Grassmann分类器第3.1节中描述的格拉斯曼池化方法将每个特征矩阵映射到格拉斯曼流形上的子空间。图像的相似性度量归结为比较这些子空间之间的主角度对于Gk流形上的两点U1和U2,给出了一个常用的距离度量C¨2是投影距离[31,32],定义为dP(U1, U2)=k−¨ UT U2¨。间最后,我们证明了投影距离推导出一个双线性特征映射而无需显式地计算双线性特征矩阵,这导致非常紧凑的特征表示。此外,我们还可以训练具有相同紧凑形式的格拉斯曼分类器,从而可以大大减少分类器的参数数量。引理3. 投影距离推导出B′=B′的一个隐式双线性映射U1 UT和 B′ = U2 UT:1 2 2¨T¨2dP(U1, U2)=k−¨ U1 U2¨F=1T1T T T2tr(U1 U1)+2tr(U2 U2)−tr(U1 U1 U2 U2)1T T TT(二)T T=2tr(U1 U1 U1 U1 + U2 U2 U2− 2U1 U1 U2 U2)1?T?2=2¨ U1 U1− U2 U2¨F等式(2)指示U1和U2之间的有效相似性度量:¨UT U¨2,我们使用这个公式来定义我们的分类器。对于一个K-维经典-12?F阳离子问题,我们的目标是学习K个分类器Wi∈ Gk,i ∈ [1,K]。特别是给定一个特征矩阵U∈Gk,我们计算每个分类器的相似性得分2c并为具有最大响应的类分配一个标签该公式与[24]中定义的双线性SVM分类器具有类似的形式,但其含义不同。双线性SVM [24]将分类器Wi ∈Rc ×c,rank(Wi)=r,Wi=W T分解为两部分:Wi = Ui Σi UT = Ui+Σi+ UT-Ui−|Σi−|UT=Ui+UT−Ui−UT(三)ii+i−i+i−这两个部件都是在欧洲独立空间上的相对较宽的部件,即:例如,Ui−andUi+∈Rc×r/2。如果在rixX∈Rc×hw 处 有 一 个约束,则该约束为约束条件isdefinedas||UX||2−||UX||二、在这种情况下,我们的方法是灵活的I+Fi−F从格拉斯曼流形上的投影距离导出。为了学习Grassmann分类器Wi∈ Gk,我们首先初始化一个随机矩阵Mi∈ Rc×k,然后对Mi执行SVD,将左奇异向量分配给Wi。因此,我们训练的分类器端到端使用误差反向传播训练方法Wi的另一个更好的初始化是将每个分类器分配给当前分类器的中心。特别是,对于在该区域中的一个竞争对手,通过首先对所有特征jUj UT求和来计算中心,然后取奇异向量。我们发现,较晚的初始化有利于CNN训练,并且需要较少的迭代来收敛。10X. Wei,Y.Zhang,Y.龚,J。Zhang和N.郑C(a)LRBP方法简体中文|U1CNN双线性双线性1x1转换池分类器Hc=512HmU|UiWWM=100M特征尺寸:78K特征尺寸:10KU |U K(b)我们的GP方法Grassmann流形C格拉斯曼U投影池化分类器1k=16Hc=512HWWCK=16UiCK=16c=256(64)UK特征尺寸C:4K/1Kk=16见图4。我们的GP方法与LRBP方法[24]进行了比较。我们的GP与LRBP主要在两个方面不同:1)合并:GP将CNN特征变换为紧凑的格拉斯曼流形,而LRBP使用常规(或不显式计算)双线性特征矩阵。这直接关系到特征尺寸:1K/4K与10K/78K。2)分类器:GP的分类器是由Grassmann流形的投影距离精确导出的;而对于LRBP,它是从双线性SVM导出的,并在欧氏空间中进一步近似3.4学习Grassmann投影用于模型压缩通常,减少CNN中特征图的数量是由1×1conv层执行的,设置较少数量的输出特征图。在数学上,对于跨越特征图的所有通道的空间位置,注意′由向量x∈Rc。1× 1卷积层学习权矩阵M∈Rc×c′并给出在每个空间位置的输出y =MTx∈Rc此操作等效于沿着特征图的通道应用加权和,以及因此,输出是输入的线性组合。然而,在这些线性组合上可能存在相关性,使得输出特征图在多样性方面退化。为了解决这个问题,我们提出学习c′(c′
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功