FASON：融合一阶和二阶信息的纹理识别网络

171 浏览量更新于2023-10-16 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7352FASON：一阶和二阶信息融合纹理识别网络戴锡阳乔于喜吴兆祥。马里兰大学帕克分校戴维斯高级计算机研究所{xdai，yhng，lsd}@ umiacs.umd.edu摘要深度网络在许多计算机视觉任务中表现出令人印象深刻的性能。最近，深度卷积神经网络（CNN）已被用于学习区分性纹理表示。最成功的方法之一是双线性CNN模型，它显式地捕获深度特征中的二阶统计量。然而，这些网络切断了深层网络中的一阶信息流，使梯度反向传播变得困难。提出了一种有效的融合结构--FASON，它将二阶信息流和一阶信息流相结合.我们的方法允许梯度通过两个流自由地反向传播，并且可以有效地训练。然后，我们构建了一个多层深度架构，以利用不同卷积层中的一阶和二阶信息。实验表明，我们的方法实现了国家的最先进的方法在几个基准数据集上的改进。1. 介绍来自预训练的深度模型的特征已被充分用于纹理识别[5，3，4，9]。通过将现成的深度特征与二阶编码方法（诸如局部聚合描述符（VLAD）[14]和Fisher向量[29]）相结合，这样的方法显著地提高了纹理识别性能。然而，这些方法需要多个阶段的处理，包括特征提取、编码和SVM训练，这并没有利用深度学习中的端到端优化。最近，研究人员设计了专门用于纹理识别的网络架构。最成功的方法之一是Lin等人提出的深度双线性模型。[31，20]。他们使用双线性池化层对深度网络中卷积特征的二阶统计进行建模，从而实现端到端训练并在基准数据集上实现了最先进的性能。然而，它丢弃了卷积特征中的一阶信息，已知该信息可用于捕获纹理[12]和照明[27]的空间特征。一阶信息对于基于反向传播的训练也是必不可少的[22]。因此，以前的深度双线性模型忽略了卷积特征中一阶统计量的潜力，使训练变得困难。我们提出了一种融合一阶和二阶信息的新型深度网络架构我们首先扩展了双线性网络，通过设计一个泄漏捷径，使一阶统计量通过并与双线性特征结合，将一阶信息结合到学习过程中与原始的深度双线性模型相比，我们的架构这使我们能够扩展我们的融合架构，以组合来自多个卷积层的特征，从而捕获不同的风格和内容信息。这种多级融合结构进一步提高了识别性能。我们的实验表明，所提出的融合架构实现了一致的改进，在国家的最先进的方法在几个基准数据集在不同的任务，如纹理识别，室内场景识别和细粒度对象分类。我们工作的贡献有两个方面：• 我们设计了一个深度融合架构，它有效地结合了二阶信息（从一个双线性模型）和一阶信息（通过我们的泄漏捷径保存）。据我们所知，我们的架构是第一个提出的直接在深度网络中融合此类信息的方法• 我们扩展了我们的融合架构，以利用来自不同卷积层的多个特征本文的结构如下：在第2节中，我们7353i、j概述先前基于深度网络的纹理表示，并详细说明我们提出的架构与先前方法之间的差异。在第三节中，我们提出了我们的融合架构的设计，并给出了每个构建块的细节和解释在第4节中，我们描述了实验，以评估我们的架构的有效性，与其他国家的最先进的方法在标准的基准数据集相比，后来可视化的改进。最后，我们在第5节总结了本文。2. 背景及相关工作纹理描述符已经研究了几十年。经典方法包括区域协方差[32]，局部二元模式（LBP）[23]和其他手工描述符。鲁棒的纹理表示，如VLAD[14]和Fisher向量[29]结合SIFT特征[21]已被用于进一步提高纹理识别任务的性能。深层纹理表示。 Donahue等人表明，深度网络可以从图像中学习通用特征，这些特征可以有效地应用于许多计算机视觉任务，包括纹理识别[5]。Zhou等在特定的纹理和场景数据集上对这些预先训练的模型进行端到端的微调，以实现更好的性能[35]。后来，Cimpoietal.将改进的Fisher矢量编码[25]与深度特征相结合，进一步提高了各种纹理识别数据集的性能[3]。他们进一步收集了大量的纹理图像数据集，现在被认为是纹理识别的最先进的基准。最近，Linet al. 在深度学习框架中建模二阶池，并提出双线性网络[31]。后来，他们将他们的框架应用于纹理识别[20]。Gao等人提出了一种紧凑的双线性网络，该网络利用随机Maclaurin和张量草图来降低双线性表示的维数，但同时保留了辨别能力[7]。二阶信息[19]。他们在将一阶信息融合到他们的框架中时表现出了改进。与这项工作类似，我们也在特征学习阶段进行融合，但我们在以端到端方式训练的深度网络中融合了一阶和二阶信息。结合多层CNN。Hariharan等人讨论了利用深度网络中不同层的重要性[10]。他们定义了一个超列表示，其中每个像素的描述符是使用该像素上方的多个CNN单元的激活来构建的。Cimpoi等人在训练后结合多层CNN特征，以进一步提高纹理识别的性能[4]。我们还利用多个卷积层的特征来捕获不同的风格和内容信息。然而，我们的方法比以前的方法有所改进，使这些信息能够通过我们的端到端架构有效地学习和组合。3. 方盛在本节中，我们描述了我们提出的框架FASON（一阶和二阶信息融合网络）。我们首先介绍我们的一阶和二阶融合构建块的基本组件。然后，我们描述了我们最终的深层架构与多层次的特征融合。3.1.深度双线性模型深度双线性模型已经在几个计算机视觉任务上显示出有希望的结果，包括细粒度图像分类和纹理分类[31，7，20]。尽管双线性模型最近才被集成到深度网络中进行端到端训练，但双线性模型的基本公式在纹理描述中有着悠久的历史。给定输入图像I，我们提取其深度卷积特征F∈Rw×h ×ch，并计算双线性特征B∈Rch×ch为：Σw ΣhB（F）=Fi，jFT（一）一阶统计融合研究人员有真实的-认为融合一阶和二阶或-特征学习中的统计Hong等人提出了一种基于二阶统计量的区域描述符，称为“sigma集”[13]。它首先通过对协方差矩阵进行Cholesky分解构造，然后与一阶均值向量进行融合。后来，Dorettoet al.将中心矩、中心矩不变量、径向矩和区域协方差融合在一个紧凑的表示中[6]。该表示对于比例、平移、旋转和照明变化是不变的。最近，Liet al.提出了一种称为局部约束仿射子空间编码（LASC）的特征编码方法，i=1j=1该公式与无序纹理描述符有关，例如VLAD，Fisher矢量和区域协方差[31]。实验表明，该方法能有效地提取纹理特征的二阶统计量.输出双线性矩阵的对角项表示每个特征通道内的方差，而非对角项表示不同特征通道之间的相关性。描述符位于黎曼流形中，这使得量化困难并且特征向量之间的距离测量非平凡[24]。因此，双线性特征通常通过映射函数7354用有符号平方根和l2归一化将其投影到欧几里得空间[25]：√符号（x）|X|3.3. 一阶梯度泄漏信息融合现在我们介绍第一个φ（x）=√符号（x）|X|ǁ 23.2.降维（二）一阶和二阶信息融合。虽然双线性模型很好地利用了深层特征的二阶信息，但当梯度流反向传播时，它们经常遇到梯度消失的问题双线性特征的高维性使得端-在神经网络中训练是困难的。在[7]之后，我们使用一种称为张量草图的技术来减少d=ch×ch双线性输出到较低维度c中的特征。张量草图[2，26]，这是已知的保留成对内积，估计向量中所有元素的频率。它是一种随机投影技术，使用多个随机映射来降低特征维数，ping由简单的独立哈希函数定义的向量给定两个随机采样的映射向量h∈Nd，其中每个条目都是从{1，2，···，c}均匀绘制的，并且s∈ {+1，-1}d，其中每个条目都以相等的概率填充+1或-1，定义草图函数如：n（x，s，h）=[C，C，···，C]（3）这使得很难在端到端的培训过程中学习这些模型。因此，最近的工作通常将双线性层放在最后一个卷积层之后，以最大限度地减少这个问题。受深度残差网络最近成功的启发[11]，我们设计了一个快捷连接，它通过一阶信息并与从双线性层生成的二阶信息相结合，如图1所示。假设我们从先前的卷积层生成深度特征F，而不是直接使用双线性特征B（F），我们将其与编码一阶信息的泄漏函数M（F）组合。由于双线性层基本上捕获每个特征通道之间的协方差，因此我们定义了泄漏函数哪里12cΣ如：1名妇女 ΣhCj=i：h（i）=js（i）·x（i）（4）M（F）=WH i=1j=1Fi，j（6）为了降低双线性特征的维数，首先将ch×ch大小的双线性特征向量化为x∈Rd，其中d=ch×ch，并通过下式进一步投影到较低的c维向量E ∈Rc：E（x）=F−1（F（<$（x，s，h））<$F（<$（x，s′，h′）（5）其中，s′和h′的绘制类似于s和h，f算子表示逐元素乘法，F表示快速傅立叶变换。在所有实验中，我们将双线性表示减少到c=4096维图1：我们的第一个和第二个以提供每个特征通道的平均值。这与卷积特征映射的全局平均池化是类似的。然后，第一顺序信息与第二顺序信息组合如下：B（F）=E（B（F））<$M（F）（7）其中，R1表示向量级联操作。根据所提出的公式，一阶信息-可以利用梯度来进行分类，并且可以稳定训练，因为架构为梯度从泄漏到较低层提供了直接路径。3.4.一阶和二阶融合与多层次卷积特征我们的融合框架的一个好处是，我们可以将更多的卷积特征融合到双线性层中，并进行有效的端到端训练，如图 2 所示。给定任意卷积特征映射 F1 ，F2，···Fi，我们可以简单地通过以下方式将它们融合在一起：]B（F）= E（B（Fi））<$M（Fi）（8）我顺序信息融合结构与原结构U在那里我指示连接从以下位置双线性模型7355不同的卷积层。通过这种方式，我们迫使网络利用一阶和二阶信息，7356图2：我们如何从多个卷积层中积累一阶和二阶信息的说明。多个卷积特征图，其通常捕获不同的样式和内容信息。我们研究了两种主要的网络架构：在conv 5层的单融合（相当于从VGG-19网络的conv 5 4生成的特征）和在conv 4、conv 5层的多融合（相当于从VGG-19网络的conv 4 4和conv 5 4生成的特征）。为了公平的比较，我们也使用典型的双线性网络进行实验，而不融合这两个相同的设置。我们的架构的详细配置如图3所示。4. 实验我们评估了我们的架构的有效性和性能，并在几个数据集上与最先进的方法进行了比较。我们还采用了[8]的艺术风格转移技术来可视化我们架构的质量改进。4.1. 数据集和实现数据集。我们在四个基准数据集上评估我们的架构：DTD（可描述纹理）数据集[3]，KTH-T2 b（KTH-TISP 2-b）数据集[1]，MIT-Indoor（MIT室内场景）数据集[28]和Stanford Car 196 [18]数据集。DTD数据集被认为是纹理识别中使用最广泛的基准。它包含47个纹理类别，共有5640张图像。所有图像都是“在野外”，从网络图像，而不是在一个受控的设置收集。该数据集具有挑战性，因为它的现实性质和大的类别内变化。我们报告了10倍的平均准确度[20]。KTH-T2 b数据集包含11个材料类别，共4752张图像。每个类别中的图像是在受控的比例、姿态和照明下从4个物理平面样本捕获的。在我们的实验中，我们遵循[20]中的评估设置并报告4倍平均准确度。图3：我们的第一和第二阶信息融合架构的详细配置。彩色框表示具有“3 × 3“滤波器大小和输出通道数量的卷积层请注意，我们按空间维度对卷积层进行分组，例如conv4和conv5.这使我们能够在不同的网络架构中保持相同的符号。对于所有卷积层，我们使用填充大小1并使用ReLU作为激活层。对于所有的最大池化层，我们使用内核大小2和步幅大小2，而不使用填充。7357MIT-Indoor数据集包含67个室内场景类别，每个类别至少有100张图像，总共有15620张图像。这些图像可以被看作是弱结构和无序的纹理，这为我们的纹理模型的泛化能力提供了一个合理的评价。我们使用数据集提供的训练和测试分割，总共有5360张图像用于训练，1340张图像用于测试。斯坦福汽车196数据集包含196个不同的细粒度汽车类别，包括品牌，型号和年份，共有16185张图像。这些图像被进一步分成50- 50分割，其中8144个训练图像和8041个测试图像。该数据集被认为是最具挑战性的细粒度分类数据集之一我们在这个数据集上进行评估，以进一步测试我们模型的泛化能力。实作详细数据。我们在Caffe的定制版本中实现了我们的架构[15]。我们采用两阶段培训程序，以加快培训进度。我们首先固定除最后一个全连接层之外的所有层，以便在网络形成凸学习问题，然后重新放松网络，以恒定的小学习率和高动量微调所有层。详细地说，在第一个训练步骤中，我们使用固定的学习策略，学习-从1开始，权重以5×10−6衰减，最多运行在第二个训练阶段，我们对所有这些层使用固定的学习策略，学习率为0.001和重量衰减在5×10−4为另一个100 epoch。我们没有使用数据增强和dropout来与以前的工作进行公平的验证这些技术可以进一步改善结果。对于在DTD、KTH-T2 b和Stanford Car 196数据集上进行的实验，我们使用224×224输入大小，而对于MIT-Indoor数据集，我们评估了224×224和448×448输入大小的两种设置。4.2. 融合效果我们首先通过比较两个网络，在单个（conv5）和多个网络上使用和不使用一阶信息融合来图4：使用单级卷积特征（conv5）的双线性模型的学习曲线比较，在DTD数据集上有图5：使用两级卷积特征（conv4+conv5）的双线性模型的学习曲线比较，在DTD数据集上有和没有一阶信息融合7358（conv4+conv5）卷积层。为了公平比较，我们在DTD数据集上使用相同的学习超参数和训练/测试分割。对于前8个epoch，我们只训练最后一层，学习率固定为1。然后，我们用0.001的固定学习来微调所有层。图4和图5显示了训练损失和测试准确度。红色的垂直线突出显示了我们从只学习最后一层切换到学习所有层的点。如测试精度图（图4b和图5b）所示，我们的一阶信息融合架构在两个训练阶段的性能明显优于没有融合的双线性网络。训练损失图（图4a和图5a）显示我们的架构可以更平滑地训练。这在多卷积层设置中更容易观察到（图5a）。在这两种设置中，我们的实验证明了我们的方法的有效性我们还评估了我们的融合架构在不同深度网络上的有效性，如VGG-16和VGG-16。19.表1显示了我们的架构应用于DTD数据集上不同模型的性能。我们的融合架构在基线双线性网络上提供了一致的改进当结合两级卷积层conv4和conv5时，我们的多层融合进一步组合网络中的较低层并没有提高性能。将一阶和二阶信息融合的改进与多层特征融合相结合，我们从VGG-16和VGG-19的强双线性CNN基线获得了2%的改进。VGG-16VGG-19conv572.4572.82conv5+融合73.0973.62改进+0.64+0.80conv5+conv472.8773.31conv5+conv4+fusion74.4774.57改进+1.60+1.26表1：在DTD数据集上对一个训练和测试分离的不同网络架构的有效性比较.我们的模型与标准Bilinear CNN相比有一致的改进。4.3. 与最新技术水平的比较纹理识别我们将我们的融合架构的性能与几种最先进的方法（如[3，4，20]）在DTD数据集上进行了比较。所有结果都是基于224×224的输入大小报告的，以便进行公平比较。伊森表中带 * 的方法表示使用多个输入尺度而不是单个输入大小。表2显示，我们的方法实现了最好方法精度DeCAF +IFV[3]66.7±0.9[20]第二十话67.8±0.9B-CNN[20]69.6±0.7FASON（conv5）72.3±0.6FASON（conv4+conv5）72.9±0.7[4]第四季62.9±0.8FV-VGG*[4]72.3±1.0FC+FV-VGG*[4]74.7±1.0FC-SIFT FC+FV-VGG*[4]75.5±0.8表2：在输入大小为224×224的方法精度树[30]66.3DeCAF[3]70.7±1.6DeCAF + IFV[3]76.2±3.1[20]第二十话74.8±2.6B-CNN[20]75.1±2.8FASON（conv5）76.5±2.3FASON（conv4+conv5）76.4±1.5[4]第四季75.4±1.5FV-VGG*[4]81.8±2.5FC+FV-VGG*[4]81.1±2.4FC-SIFT FC+FV-VGG*[4]81.5±2.0表3：与KTH-T2 b数据集上最先进方法的比较，输入大小为224×224。* 表示从多个尺度获得的结果。方法输入大小224448MSLASC[19]63.4––地点[36]70.8––F-VGG[4]––67.6FV-VGG[4]––81.0[20]第二十话70.178.278.5B-CNN[20]72.877.679.0FASON（conv5）76.080.8–FASON（conv4+conv5）76.881.7–表4：在不同输入大小的MIT-Indoor数据集上与最先进方法的比较。ms表示从多个尺度获得的结果。7359这与以前的结果一致。我们的多卷积层 FASON（ conv4+conv5 ）方法进一步提高了单个卷积层FASON（conv5）的性能。表5：与斯坦福Car196数据集上使用224×224输入大小的最新方法的比较。所有单一特征方法的性能。特别是，我们的最佳模型比B-CNN基线提高了3%我们的方法也优于使用多个输入尺度的FC-VGG和FV-VGG。我们还报告了融合结果，从以前的工作，使用多个功能。我们的方法是有竞争力的方法，但只需要一个单一的网络。我们还使用几种最先进的方法（如[30，3，4，20]）评估了我们的融合架构在KTH-T2 b数据集上的性能。与DTD数据集类似，所有报告的结果均基于输入大小224×224，表中的 *也表示使用了多个尺度作为如表3所示，我们的方法还获得了与B-CNN基线相比1.4%的提升我们最好的模型是仅使用在三个不同尺度下计算的深度特征的后FV-VGG。在这个数据集中，我们的多卷积层FASON（conv4+conv5）方法的性能略我们认为这是由于KTH-T2 b数据集中提供的训练数据量较少导致的，这会导致过度拟合。我们的方法再次与以前的方法竞争。室内场景分类。除了纯纹理数据集外，我们还在MIT-Indoor数据集上评估了我们的模型，并与最先进的方法进行了比较，如[19，36，4，20]。我们用224 ×224输入尺寸和448×448输入尺寸。表3显示我们的方法优于以前的方法，性能比使用多尺度的现有技术方法FV-CNN好0.7%。同样，我们的方法在很大程度上优于B-CNN基线，与输入大小224和448相比，始终提高了约4%同时，我们的模型还利用了较大的输入细粒度分类。我们进一步评估我们的模型在斯坦福大学Car196数据集，并与流行的最先进的方法进行比较。按照标准的评估协议，我们在训练和测试期间使用提供的边界框。所有图像都将围绕边界框进行裁剪，然后调整为224×224。我们采用最先进的方法[16，34，33，17]，相同的输入大小。如表5所示，当使用相同的VGG-19架构时，我们的模型比双线性模型[31]有同时，我们的模型比[31]中报道的混合不同架构的最佳双耳模型分别提高了1.2%和1.5%。我们最好的模型与[17]相当，它利用汽车的零件信息来提高性能。总的来说，我们的融合模型在细粒度分类任务中表现出了很好的泛化能力，并且与斯坦福汽车数据集上的最先进方法相比具有竞争力4.4. 艺术风格转换艺术风格转移是[8]中介绍的一种流行技术，它将风格从一个艺术图像转移到另一个图像。由于该技术利用双线性表示来计算风格损失，因此执行风格转移提供了一种直观的方式来可视化和理解在网络中学习到的内容。为了生成视觉上合理的风格转换结果，网络需要学习内容和风格的良好表示。由于图像的风格与其纹理密切相关，因此我们将我们学习过的网络应用于艺术风格转移的任务，这些网络已经学习了良好的纹理我们遵循[8]中描述的建议设置，并使用conv4 2层进行权重为1的内容损失，并使用conv1 1，conv2 1，conv3 1，conv4 1和conv5 1层进行权重为0.2的样式损失。我们在所有实验中运行L-BFGS 512次迭代。我们将我们的融合架构与标准VGG网络（使用从DTD数据集学习的权重进行分类任务）在图6中的内容和样式图像的不同组合上进行比较。红色框突出显示了风格上的主要差异。通过并排比较，我们的模型在生成的图像中显示了更丰富的样式（云和墙在图像中显得更时尚）和更准确的内容（建筑物和塔的轮廓似乎得到了更好的保留）。这些定性结果表明，我们的架构可以更有效地保存风格和内容信息。此外，我们的多层融合架构甚至优于我们的单层融合架构。方法精度美国有线电视新闻网[16]70.5ELLF[16]73.9[34]第三十四话83.1[34]第三十四话86.3[33]第三十三话92.5[第17话]92.8[31]第三十一话85.7B-CNN[31]90.6B-CNN（VGG16 + VGG19）[31]91.3FASON（conv5）92.5FASON（conv4+conv5）92.87360图6：使用不同模型的风格迁移结果比较。绿色框突出显示图像之间的内容差异。红色框突出显示图像之间的风格差异。5. 结论我们提出了一种新的架构，可以在深度网络中聚合一阶和二阶信息。实验表明，我们的融合架构一致地改善，证明在标准的双线性网络。此外，我们还提出了一种结合多层卷积层信息的架构，这进一步提高了整体性能。我们的网络可以有效地进行端到端训练。我们在多个基准数据集上实现了单个网络的最先进性能。此外，从我们的网络更好地学习纹理表示定性地显示了改进的艺术风格转移的结果。引用[1] B. Caputo、E. Hayman，和P.马里卡朱纳特定类别的材料分类。载于ICCV，2005年。[2] M.恰里卡尔湾Chen和M.法拉奇-科尔顿在数据流中查找频繁项。Theoretical Computer Science，312（1）：3[3] M. Cimpoi， S. 玛吉 I. 科基诺斯 S. 穆罕默德和A.维达尔迪描述野外的纹理。CVPR，2014。[4] M. Cimpoi，S. Maji和A.维达尔迪用于纹理识别和分割的深度滤波器组。CVPR，2015。[5] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。DeCAF：用于通用视觉识别的深度卷积激活功能。InICML，2014.[6] G. Doretto和Y.耀区域矩：用于检测小图像结构的快速不变描述符。CVPR，2010。[7] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。在CVPR，2016年。[8] L. A. Gatys ， A.S. Ecker 和 M. 贝丝艺术风格的神经CoRR，abs/1508.06576，2015年。7361[9] Y.贡湖，澳-地王河，巴西-地Guo和S. Lazebnik深度卷积激活特征的多尺度无序池化。2014年，在ECCV[10] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR，2015。[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[12] D. J. Heeger和J. R.卑尔根基于金字塔的纹理分析/合成。在第 22 届计算机图形和交互技术上，SIGGRAPHACM，1995年。[13] X. Hong，H.张，S。Shan，X. Chen和W.高. Sigma集合：一个小的二阶统计区域描述符。CVPR，2009。[14] H. 我也是M. 杜兹角Schmid，和P. 佩雷斯。将局部描述符聚集成紧凑的图像表示。CVPR，2010。[15] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。[16] J. Krause，T.Gebru，J.登湖J. Li和L.飞飞学习特征和零件以进行细粒度识别。载于ICPR，2014年。[17] J. Krause，H. Jin，J. Yang，and L.飞飞无需零件注释的细粒度识别。CVPR，2015。[18] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在第四届国际IEEE 3D表示和建模研讨会（3dRR-13）上，2013年。[19] P. Li，X. Lu和Q.王.从视觉词汇词典到子空间：局部约束仿射子空间编码。CVPR，2015。[20] T.- Y. Lin和S.玛吉可视化和理解深层纹理表示。在CVPR，2016年。[21] D. G.洛基于局部尺度不变特征的目标识别。载于ICCV，1999年。[22] S.穆罕默德深度学习的统计视图，2015年。[23] T. Ojala，M. Pieti ké inen和T. 我很好。基于局部二值模式的多分辨率IEEE Transactions on Pattern Analysisand Machine Intelligence，24（7）：971[24] X. Pennec，P. Fillard，and N.阿亚奇张量计算的黎曼框架. International Journal of Computer Vision，66（1）：41[25] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。ECCV，2010年。[26] N. Pham和R.佩吉通过显式特征映射实现快速和可扩展的多项式内核。在2013年第19届ACM SIGKDD知识发现和数据挖掘国际会议上[27] T. Pouli，E.Reinhard和D.W. 坎宁安视觉计算中的图像。A. K.彼得斯有限公司Natick，MA，USA，第一版，2013年。[28] A. Quattoni和A.托拉尔巴识别室内场景。CVPR研讨会，2009年。[29] J. 是桑切斯，弗。佩罗宁，T. Mensink ，J。维尔贝克。Fisher向量图像分类：理论与实践.InternationalJournal of Computer Vision，105（3）：222[30] R. Timofte和L. V.Gool一个用于纹理、作者和材料的免训练分类框架。在BMVC，2012年。[31] A. R. Tsung-Yu Lin和S.玛吉用于细粒度视觉识别的双线性cnn。在ICCV，2015年。[32] O. Tuzel，F. Porikli，和P.米尔区域协方差：一种用于检测和分类的快速描述符。以. 莱昂纳迪斯，H. Bischof和A. Pinz，editors，ECCV，2006.[33] Y. Wang，J.Choi，V.I. Morariu和L.S. 戴维斯挖掘区分三元组的补丁细粒度分类。在CVPR，2016年。[34] S. Xie，T. Yang，X. Wang和Y.是林书用于细粒度图像分类的超类增强和正则化深度学习CVPR，2015。[35] B. Zhou ，中国古柏 A. Lapedriza ， J. Xiao 、肖氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。在NIPS。2014年[36] B. Zhou ，中国古柏 A. Lapedriza ， J. Xiao 、肖氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。在Z. Ghahramani，M.威灵角Cortes，N. D.Lawrence和K. Q. Weinberger，编辑，NIPS。2014年

下载后可阅读完整内容，剩余1页未读，立即下载