基于低秩双线性分类器的细粒度分类模型

10 浏览量更新于2023-10-16 收藏 1.03MB PDF 举报

细粒度分类

矩阵表示

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1365用于细粒度分类的孔舒，查尔斯·福克斯部加州大学欧文分校{skong2，fowlkes}@ ics.uci.edu摘要汇集二阶局部特征统计以形成高维双线性特征已经被证明在各种细粒度分类任务上实现了最先进的性能。为了解决高特征维度的计算需求，我们建议将协方差特征表示为矩阵，并应用低秩双线性分类器。所得到的分类器可以在不显式计算双线性特征映射的情况下进行评估，这允许大幅减少计算时间以及减少要学习的参数的有效数量为了进一步压缩模型，我们提出了一个分类器共分解，将双线性分类器的集合分解为一个公共因子和紧凑的每类项。协同分解的思想可以通过两个卷积层部署，并在端到端架构中进行训练。我们提出了一个简单而有效的初始化，避免明确的第一次训练和因式分解较大的双线性分类器。通过广泛的实验，我们表明，我们的模型在几个公共数据集上实现了最先进的性能，用于仅使用类别标签训练的细粒度分类。重要的是，我们的最终模型比最近提出的紧凑双线性模型[8]小一个数量级，比标准双线性CNN模型[19]小三个数量级。1. 引言及相关工作细粒度分类旨在区分入门级类别中的子类别，例如识别鸟类或特定型号的飞机。与通用视觉分类问题相比，细粒度识别专注于进行细微区分的特征挑战（低类间方差），尽管由于诸如可变形对象姿势（高类内方差）等因素而导致外观高度可变。细粒度的分类通常会因为大量的类别和缺乏训练数据等因素而变得更加困难。一种处理这种干扰参数的方法是利用强监督，例如详细的部件级、关键点级和属性注释[37，9，35]。这些方法学习定位语义部分或关键点，并提取相应的特征，这些特征用作最终分类的整体表示具有部分注释的强监督已被证明可以显著提高细粒度识别的准确性。然而，这样的监督注释是昂贵的获得。为了减轻部分注释的昂贵收集，一些人提出利用交互式学习[6]。从分类标签中部分监督发现有区别的部分也是一种令人信服的方法，特别是考虑到使用网络规模数据集进行训练的有效性[16]。无监督部分发现的一种方法[27，26]使用显着图，利用稀疏深度CNN特征激活通常对应于语义上有意义的区域[34，20]的观察结果。另一种最近的方法[32]通过搜索补丁三元组从补丁候选池中选择部分，但严重依赖于与对象姿势对齐的训练图像空间Transformer网络[10]是一种非常通用的公式，它明确地对在分类之前对齐特征图的潜在变换进行建模。它们可以仅使用分类损失进行端到端的训练，并且在非常具有挑战性的CUB鸟类数据集上实现了最先进的性能[31]，但由此产生的模型很大，稳定的优化是不平凡的。最近，一种令人惊讶的简单方法称为双线性池[19]，在各种细粒度分类问题上实现了最先进的性能。双耳池收集整个图像上的局部特征的二阶统计量，以形成用于分类的整体表示。二阶或更高阶的统计量已经在许多视觉任务中进行了探索（参见例如，[2，14]）。在细粒度识别的背景下，空间池化引入了变形的不变性，而二阶统计量保持了选择性。然而，双线性特征的表示能力是以非常高维的特征表示为代价的（见图1（b）），这会导致大量的1366我图1：我们探索使用卷积特征图的二阶统计量执行分类的模型（a）作为输入（例如，VGG16层conv5 3）。（b）全双线性模型[19]，（c）最近提出的紧凑双线性模型[8]和（d）我们提出的低秩双线性池模型（LRBP）的架构。我们的模型捕获二阶统计量，而不显式地计算池化的双线性特征，而是使用使用Frobenius范数作为分类分数的双线性分类器我们的架构的一个变体，利用共分解和计算低维双线性特征，如图4所示。计算负担并且需要大量训练数据来拟合。为了减小模型大小，Gao等人[8]提出使用基于随机Maclaurin [12]或张量草图[23]的紧凑模型。这些方法通过投影局部特征与大随机矩阵的Hadamard乘积来逼近应用于双线性池特征的分类器（图1（c））。这些紧凑的模型- els保持类似的性能，以减少90%的学习参数的数量的完整的双线性功能Lin等人的原始双线性池化工作和Gao等人的紧凑模型忽略了双线性特征映射的代数结构;相反，它们简单地向量化并应用线性分类器。受双线性SVM[24，33，13]工作的启发，我们提出使用应用于双线性特征的双耳分类器，其更自然地表示为（协方差）矩阵。这种表示不仅保留了结构信息，而且使我们能够施加低秩约束，以减少要学习的参数向量中的自由度。我们的模型使用对称双线性形式，因此计算-计算我们的双线性分类器的置信度得分，评估投影的局部特征的平方Frobenius范数。因此，我们称这种机制为最大FrobeNius裕度.这意味着，在测试时，我们不vation统计允许直接的端到端训练。我们表明，我们的最终模型在几个公共数据集上实现了最先进的性能，用于细粒度只使用类别标签进行分类。值得注意，在我们的模型中学习的参数集比最近提出的紧凑双线性模型小十倍[8]，比原始的全双线性CNN模型小一百倍[19]。2. 双线性特征满足双线性支持向量机为了计算图像的双线性池特征，我们首先将图像送入卷积神经网络（CNN），如图1（a）所示，并在特定层，例如整流后的 VGG16conv5 3 我们用 X∈Rh×w×c表示特征图，其中h，w和c表示特征通道的高度，宽度和数量，并用xi∈Rc表示特定位置处的特征向量，其中空间坐标索引i∈[1，hw]。对于每个局部特征，我们计算外积xixT并求和（汇集）所有HW空间位置上的所得矩阵以产生维度C2的图像的整体表示。该计算可以用矩阵表示法写为：XXT=hwx xT，其中X∈Rc×hw是矩阵，i=1我我需要显式计算双线性特征，因此在某些情况下，计算时间可以大大减少，例如，当信道数大于空间大小时，我们的经验表明，这将提高分类性能的结果，减少模型的大小和加速前馈计算在测试时。为了进一步压缩多路分类任务的模型，我们提出了一种简单的共分解方法来分解分类器参数的联合集合，以获得更紧凑的表示。这种多线性协分解可以使用两个单独的线性卷积层来实现，如图1（d）所示。与其首先训练一组分类器，然后对参数进行协分解，我们建议一种简单而有效的基于特征图活动的初始化方法根据第三模式对X进行整形。 XXT捕获特征激活的二阶统计量，与样本协方差矩阵密切相关。在如图1（b）所示的双线性CNN模型[19]中，双线性池特征被重新整形为向量z=vec（XXT）∈Rc2，然后输入线性分类器1。给定N个训练图像，我们可以学习由w∈Rc2和偏置b参数化的特定类的线性分类器。用z i表示图像-i的双线性特征，其二进制类标签为 yi=±1 ，i=1，. . .、N. 标准1这里可以应用各种标准化，例如：符号平方根幂归一化和符号平方根幂归一化。为了表示简洁，我们现在忽略规范化符号，并在第5.1节中讨论规范化。1367+Ψ我F+Σ+我我−+−10.80.60.40.2图2：应用于双线性特征的200个线性SVM分类器的权重矩阵W的特征值的平均值和标准差。如图所示，频谱的很大一部分通常集中在0附近，有几个大的正负特征值。为了清楚起见，这里排除了光谱的中间部分。软容限SVM训练目标由下式给出00 10 20 30 40 50 60 70 80线性支持向量机图3：低秩线性SVM的平均精度。在这个实验中，我们简单地使用奇异值分解应用于所有类的满秩SVM集以生成满足硬等级约束（无微调）的低等级分类器。非常低的等级分类器仍然取得了良好的性能。积极和消极的训练例子。这是有益的，min 1ΣNmax（0，1−yiwTzi+b）+天卫二（一）将等式3与W的w，bi=122W=T=+2.1. 最大Frobenius间隔分类器我们可以用公式1写一个等价的目标，=++ T −Ψ−| Σ−|电子邮件=U+UT −U−UT（四）+ −双线性特征的矩阵表示为：其中，+和−是仅包含1ΣNλ分别为正特征值和负特征值，以及λ+和λ+。minW，bmax（0，1−yitr（WTXiXT）+b）+中国22是对应于这些特征值的特征向量i=111（二）在ue 设置U+=+2和U−=−|Σ−|2，我们有一个v eW= U+UT− U−UT。+ −很容易证明方程2是凸的，优化问题w.r.t.参数W∈Rc×c，等价于线性支持向量机。通常，本征分解的正分量和负分量对应于对偶分解（例如，U+UT=命题1让w ∈Rc2是的最优解yi=1 αiXiXT），因为存在许多可能的分解，在双线性特征上的方程1中的线性SVM，则W=mat（W）∈Rc ×c是方程2中的最优解。此外，W=WT。为了直观地说明这一点，我们用与每个训练示例相关的拉格朗日对偶变量α来写出两个SVM问题的最优解：转换成PSD矩阵的差。然而，这一德-合成激发了W的想法，W很可能具有良好的低秩分解。特别是我们知道rank（W）0我我i +i+−H（X，U，U、b）U=2λ（U−UTU−+U+UTU−）i+ −-− +.= max（0，1−yi{tr（U+UTXiXT）−tr（U−UTXiXT）}+b）T2T20，如果H（Xi，U+，U−，b）≤0+yiXiXTU −，如果 H（Xi，U+，U −，b）> 0=max（0，1−yi{<$U+Xi <$F−<$U−Xi<$F}+b）（八）我.0，如果H（Xi，U+，U−，b）≤0这个表达式突出了双线性分类器的一个关键优势，即我们永远不需要显式计算池化的双线性特征XiXT！b=-yi，如果 H（Xi，U+，U−，b）>0（十）我正规化：在铰链损失中，参数U+和U−彼此独立。然而，如前所述，存在最优满秩SVM的分解，其中正负子空间正交。因此，我们修改了标准的正则化3. 分类器共分解用于模型压缩在许多应用中，例如细粒度分类，我们对训练大量分类器和执行k路分类感兴趣。有理由认为这些分类器应该具有一些共同的结构。包含一个正的交叉项UTU−2这有利于一个真实（例如，某些特征映射通道可以或多或少+F1369F+正交分解4.这产生了最终目标：3代替硬秩约束，可以利用核范数作为W上的卷积x正则化子。然而，这不会在4原始的正则化由下式给出：U−UT2=U+UT2+U−UT2−2UTU−2其中，对于给定的k路分类任务是有用的）。我们因此提出通过在分类器集合上执行共分解以隔离共享结构来进一步减少模型参数的数量，类似于多任务学习框架（例如，[1]）。假设我们已经训练了KFrobenius范数SVM类-—F+ F—F+Fth交叉项实际上阻碍了正交性。每个K类的筛选器表示k分类器1370F图4：我们提出的架构的另一种配置，它显式地计算低维共分解特征上的双线性池。被称为LRBP-II并在图4中描绘，我们使用P应用特征维数降低，然后显式地计算汇集的双线性特征，并根据等式8的第二行计算分类得分。当hw > m时，这具有计算优势。表1提供了在特征维度、存储投影和分类器参数所需的存储器以及产生特征和分类器分数的计算复杂性方面的详细比较。特别是，我们考虑了CUB 200 -2011鸟的这种比较参数为Uk=[U+k，U−k共分解后ΣK] ∈Rc×r，我们认为数据集[31]有K=200个类。如[8]中所报道的，用于实现紧凑型双线性模型的良好性能的常规设置是d = 8，192。我们的模型使用投影实现类似或更好的性能minVk，Pk=1 Uk−PVkP ∈R512×100 ，使得m=100，并且使用秩r=8，其中P∈Rc×m是将特征维数从c降低到mc的投影矩阵，Vk∈Rm×r是第k类的新的低维分类器虽然问题方程11没有唯一解，但我们可以做如下陈述命题2等式11的P的最优解跨越[U1，.. . . ，UK]。因此，不失一般性，我们可以在不改变最小值的情况下添加P是正交矩阵的约束，并对K个分类器的全参数使用SVD来获得P和Vk在实践中，我们希望避免首先学习完整的分类器Uk，然后求解P和{Vk}。相反，我们在我们的架构中通过添加1×1×c×m卷积层来实现P∈Rc×m，然后是由Vk参数化的新的为了为P提供一个良好的初始化，我们可以在训练图像上运行CNN基础架构，并对所得的特征图激活执行PCA，以便估计P的良好子空间。我们发现这个简单的初始化P与随机初始化Vk4. 计算效率在本节中，我们详细研究了计算复杂度和模型大小，并将我们的模型与几种密切相关的双线性方法进行了比较，包括Random Maclaurin和Tensor Sketch的完整双线性模型[19]和两个紧凑双线性模型[8]我们考虑我们提出的低秩双线性池（LRBP）架构的两个变体。在第一个被称为LRBP-I的模型中，如图1（d）所示，我们使用Frobenius范数来计算分类得分（见公式8）。当hw m.在第二种情况下所有的分类器。从表1中，我们可以看到，Tensor Sketch和我们的模型在模型大小和计算复杂性方面最具吸引力。值得注意的是，我们模型的尺寸比完整的双耳模型小一百倍，比Tensor Sketch小十倍。实际上，我们的模型中计算特征的复杂度 O （ hwmc+hwm2 ）并不比TensorSketch差多少O（hw（c+dlog（d）），作为m2 log（d）和<我的天。也许唯一的折衷是分类步骤中的计算，这比紧凑的要高一些。模型5. 实验评估在本节中，我们将提供模型实现的详细信息以及基线描述。然后，我们研究我们的模型的设计选择，即。分类器秩和低维子空间由投影P.最后，我们报告了四个常用的细粒度基准数据集上的结果，并描述了几种生成定性可视化的方法，这些方法提供了对图像特征驱动模型的理解。5.1. 实现细节我们在matconvnet工具箱[30]中实现了我们的分类器层，并在单个Titan X GPU上使用SGD进行训练我们使用在ImageNet上预训练的VGG16模型[28]，删除完全连接的层，并插入共分解层，归一化层和我们的双线性分类器。我们使用PCA来初始化P，如第3节所述，并随机初始化分类器。我们最初只训练分类器，然后使用12的批量大小和10−3的小学习率微调整个网络，周期性退火0.25，权重衰减1.5。5×10- 4，动量0.9。代码和训练模型1371表1：不同紧凑双线性模型在维度、内存和计算复杂度方面的比较针对一个K路分类问题，计算了h×w×c维特征映射上的双线性池特征.对于VGG16模型，在448×448的输入图像上，我们有h=w=28和c=512。在[8]中提出的基于多项式核近似的随机Maclaurin和张量草图模型计算了维度的特征，D.结果表明，这些方法可以达到接近最大的性能与d=8192。对于我们的模型，我们设置m=100和r=8，分别对应于降低的特征维数和低秩分类器的秩。括号中的数字表示在CUB 200 -2011鸟类数据集上的VGG 16模型的最后一个卷积层之后应用双线性池化时的典型值[31]，其中K=200。模型大小只计算最后一个卷积层以上的参数。全双线性随机麦克劳林张量草图LRBP-ILRBP-II特征尺寸c2[262K]d[10K]d[10K]mhw[78K]m2[10K]特征计算O（HWC2）O（hwcd）O（hw（c+dlogd））O（HWMC）O（HWMC+HWM2）分类比较O（Kc2）O（Kd）O（Kd）O（Krmhw）O（Krm2）特征参数02cd[40MB]2c[4KB]cm[200KB]cm[200KB]分类器参数Kc2[KMB]Kd[K·32KB]Kd[K·32KB]Krm[K·3KB]Krm[K·3KB]共计（K=200）Kc2[200MB]2cd+Kd[48MB]2c+Kd[8MB]cm+Krm[0.8MB]cm+Krm[0.8MB]已向公众公布5。我们发现，适当的功能规范化提供了一个不平凡的性能改善。我们的观察结果与应用归一化处理视觉突发的文献一致[11，19]。完整的双线性CNN和紧凑的双线性CNN一致地对双线性特征应用符号平方根和二进制2归一化。我们可以将这些归一化方法应用于第二次建模（在第4节中描述）。对于我们的第一个配置，我们不显式计算双线性特征映射。相反，我们发现，在conv5 - 3层的特征映射上的符号平方根归一化导致与其他双线性池化方法相当的性能，而额外的numer2归一化损害性能。5.2. 超参数的配置我们的结构中包含两个超参数：由P∈Rc×m确定的子空间的维数m和分类器Vk∈Rm×r的秩r对于k = 1，. . . 、K. 为了研究这两个参数，在CUB-200-2011上进行了实验鸟类数据集[31]，包含200种鸟类的11，788张图像，标准训练集和测试集分开。我们不使用数据集中提供的任何零件注释或遮罩我们首先在双线性池特征上训练满秩模型，然后使用特征值分解来分解每个分类器，并保留最大幅度的特征值和相应的向量以产生rank-r分类器。在获得低秩分类器之后，我们应用如第3节所述的共分解来获得投影器P和紧凑分类器Vk我们没有对这些模型进行微调，但这个快速实验为最终模型在一系列架构。我们绘制了分类精度与秩r的关系图，并重新计算了5https://github.com/aimerykong/低秩双线性合并图5中的引入维数m（rDim），图6中的由峰值信噪比测量的平均重建保真度与原始分类器参数Uk对秩r和维数m，以及图7中的模型大小对秩r和维数m。可以看出，重建保真度（以峰值信噪比测量）是在微调之前对模型性能的良好指导也许令人惊讶的是，即使r=8和m=100，我们的模型在这个数据集上实现了接近最大的分类精度（图5），模型参数在整个模型上压缩了100倍（图7）。基于此分析，我们将定量基准实验设为r=8和m=100。5.3. 基线方法我们使用VGG16 [28]作为所有比较的基础模型，以与以前的工作[19，8]保持一致。全连接层（FC-VGG 16）：我们将VGG 16基础模型的最后一个全连接层替换为随机初始化的K路分类层并进行微调。我们将其称为由于VGG16只接受大小为224×224的输入图像，因此我们调整了此方法的所有改进 Fisher 编码（费舍尔）： Fisher编码[22]最近被用作全连接层[5]的编码和池化替代方案。与[8，19]一致，我们使用层conv5 3（在ReLU之前）的激活作为局部特征，并将编码设置为使用64个GMM分量用于Fisher向量表示。完整双线性池（Full Bilinear Pooling）：我们在conv 5 3特征图上使用完全的双线性池（在[19]中称为“对称结构”），并应用元素符号1372图5：CUB-200数据集[31]上的分类准确度与降维（m）和秩（r）。图6：通过峰值信噪比测量的分类器参数的重建保真度。图7：学习参数大小与降维（m）和秩（r）的关系。在分类之前进行平方根归一化和平方2紧凑型双线性池：本文报道了文[8]中提出的两种方法，即随机Maclaurin法和张量素描法.像全双线性模型一样，使用逐元素符号平方根归一化和W2归一化。我们设置投影维度d=8，192，这足以达到接近最大精度[8]。对于某些数据集，我们使用作者发布的代码来训练模型;否则，我们显示[8]中报告的性能。5.4. 定量基准实验我们在四个广泛使用的细粒度分类基准数据集上比较了最先进的方法，CUB-200- 2011 Bird数据集[31]，Aircraft [21]，Cars [17]和描述纹理数据集（DTD）[4]。所有这些数据集提供固定的训练和测试分割。我们在表3中总结了数据集的统计数据。在训练所有模型时，我们只使用类别标签，而不使用数据集提供的任何部分或边界框我们在表2中列出了这些方法的性能，并在最后一行突出显示了在CUB-200数据集上训练的模型的参数大小。从比较中，我们可以清楚地看到，Fisher向量池不仅提供了比FC-VGG 16更小的模型，而且始终优于它，没有表的保证金。所有的双线性池方法，包括我们的分类准确度与我们的相若，但却胜于-贝尔这些优点使得我们的模型不仅对内存受限的设备有吸引力，而且在弱监督细粒度分类中也有吸引力，其中详细的部分标注获得成本很高，而具有类别标签的图像几乎是免费的，并且模型训练期间的计算成为限制资源。请注意，具有完全双线性池的简单PCA简化特征提供了大的模型简化，而没有明显的准确性损失[19]。我们在表4中提供了CUB-2011-200数据集的特征大小（Fea.Dim.），投影矩阵（Feat.参数），分类器尺寸（Cls.参数）和准确性。所列方法的特征计算和分类在特征大小上是线性的，因此我们的方法和16倍减少的PCA需要类似的计算。然而，我们的方法享受了进一步的十倍减少了模型大小，并且在特征图上的性能优于直接PCA。此外，我们的共分解解决了大量类别的缩放问题。5.5. 定性可视化为了更好地理解我们的模型，我们采用三种不同的方法来可视化特定输入图像的模型响应在第一种方法中，我们将输入图像输入到训练模型，并计算响应Y=[U+1，U−1 ， . . . 、U+k 、U−k 、. . . ，U+K，U−K]TX从双线性分类器层。基于地面-真值类标签，我们通过将对应于负Frobenius分数的部分归零来创建修改后的响应Y<$（−UTX2）为地面实况类，部分为-F在这些数据上，其余类别中的阳性Frobenius评分（≥ 10UTX2+F数据集，除了DTD。然而，我们的模型基本上比其他基于双线性特征的方法更紧凑据我们所知，我们的模型实现了sifiers，分别。这类似于用于通过分离权重向量的正分量和负分量来可视化HOG模板。可视化在这些数据集上的最先进性能，结果，我们将Y 作为目标，反向传播差异，注释[10，15]，甚至优于最近提出的几种使用监督部分注释训练的方法[37]。虽然在文献中有更复杂的方法使用详细的注释，如部分或绑定框[36，35]，但我们的模型仅依赖于类别la，参考输入图像空间，类似于[27]。对于第二个可视化，我们计算跨双线性分类器使用的特征通道平均最后，我们通过反复从输入图像中移除超像素来产生第三个可视化，1373表2：分类精度和参数大小：VGG上的全连接网络16 [28]，Fisher向量[5]，全双线性CNN [19]，Random Maclaurin[8]，Tensor Sketch [8]和我们的方法。我们使用[8]中提供的代码运行Random Maclaurin和Tensor Sketch，并使用它们的常规配置（例如投影维度d=8192）。FC-VGG16Fisher全双线性随机麦克劳林张量草图LRBP（我们的）古巴[31]70.4074.784.0183.8684.0084.21DTD[4]59.8965.5364.9665.5764.5165.80汽车[17]76.8085.7091.1889.5490.1990.92飞机[21]74.1077.6087.0987.1087.1887.31param参数尺寸（CUB）67MB50MB200MB48MB8MB0.8MB表3：数据集的汇总统计。# 列车img.# test img.#类古巴[31]59945794200DTD[4]1880376047汽车[17]81448041196飞机[21]66673333100图8：（最佳颜色）四幅图中的每一幅都展示了不同的鸟类;这四列使用5.5节中所述的三种不同方法显示输入图像和可视化图。我们可以看到我们的模型倾向于忽略杂乱背景中的特征，而专注于鸟类最独特的部分。选择一个引入最小下降的分类评分，这类似于[25，38]。在图8中，我们显示了从CUB-200-2011数据集中的四个不同类别中随机选择的一些图像及其相应的可视化。所有的可视化都表明，该模型能够忽略杂乱的背景，并主要关注鸟，甚至是每只鸟的特定区分部分。此外，突出显示的激活区域改变w.r.t鸟的大小和背景，如图8的第一个面板所示。对于物种表4：与CUB-2011-200数据集上完整双耳合并的PCA简化版本的比较64×32×16×我们壮举. Dim. （K）3216810壮举.参数（MB）0.130.060.030.20Cls.参数（MB）25.0012.506.250.61准确度（%）84.1883.8583.8184.21头和颈低，项黄。我们的模型很自然地会对这些部分做出响应并进行本地化。这部分解释了为什么简单的全局池化在没有显式空间Transformer或跨通道池化架构（例如，[20]）6. 结论我们已经提出了一种用于训练非常紧凑的低秩分类模型的方法，该模型能够利用双线性特征池进行细粒度分类，同时避免了高维双线性池特征的显式计算。我们的基于Frobenius范数的分类器允许在测试时进行快速评估，并且可以在训练过程中轻松施加硬的低秩约束，减少要学习的参数的自由度，并产生非常紧凑的特征集。增加一个共同分解步骤的项目功能到一个共享的子空间，并产生进一步减少计算和参数存储。我们的最终模型可以通过简单的PCA步骤初始化，然后进行端到端的微调。我们的最终分类器模型比现有方法小一到两个量级，并且通过仅使用类别标签（没有任何关键点或部分注释）在几个公共数据集上实现最先进的性能以用于细粒度分类。我们预计这些结果将为未来的实验奠定基础，例如在弱监督的网络规模数据集上进行训练[16]，汇集多种特征模态以及进一步压缩模型以用于移动设备。确认该项目得到了NSF资助IIS-1618806、IIS-1253538、DBI-1262547和NVIDIA硬件捐赠的支持。1374引用[1] R. K. Ando和T.张某一个从多个任务和未标记数据中学习预测结构的框架。 Journal of Machine LearningResearch，6（Nov）：1817[2] 卡雷拉河Caseiro，J. Batista，and C.斯明奇塞斯库具有二阶池化的语义分割。在 ComputerVision-ECCVSpringer，2012.[3] A. Choromanska，M.赫纳夫湾Mathieu，G. B. Arous，以及Y.乐存。多层网络的损耗面。在AIS-TATS，2015年。[4] M. Cimpoi， S. 玛吉 I. 科基诺斯 S. 穆罕默德和A.维达尔迪描述野外的纹理。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第3606-3613页[5] M. Cimpoi，S. Maji和A.维达尔迪用于纹理识别和分割的深度滤波器组。在2015年IEEE计算机视觉和模式识别会议集，第3828-3836页中[6] Y. Cui，F. Zhou，Y. Lin和S.贝隆吉细粒度分类和数据集自举使用深度metric学习与人类在循环中。arXiv预印本arXiv：1512.05227，2015。[7] Y. N. 多芬河帕斯卡努角古尔塞尔角周，S。ganguli和Y.本吉奥。高维非凸优化鞍点问题的识别与求解。神经信息处理系统的进展，第2933-2941页，2014年[8] Y. Gao、黄花蒿O. Beijbom，N. Zhang和T.达雷尔。紧凑的双线性池。CVPR，2016年。[9] S. Huang，Z. Xu，L. Tao和Y. 张某用于细粒度视觉分类的部分堆叠cnn。arXiv预印本arXiv：1512.08086，2015年。[10] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统的进展，2008-2016页，2015年[11] H. 我也是M. Douze和C. 施密特论视觉元素的强烈性在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第1169-1176页。IEEE，2009年。[12] P. Kar和H.卡尼克点积核的随机特征映射在AISTATS，第22卷，第583-591页[13] T. 小林低秩双线性分类：有效的凸优化和扩展。International Journal of Computer Vision，110（3）：308[14] P. Koniusz和A.切里安三阶超对称张量描述子的稀疏编码及其在纹理识别中的应用。CVPR，2016年。[15] J. Krause，H. Jin，J. Yang，and L.飞飞无需零件注释的细粒度识别。在2015年IEEE计算机视觉和模式识别会议，第5546-5555页中[16] 克劳斯，B. 萨普A. 霍华德H. 周先生，A. 托舍夫T. Duerig，J. Philbin，and L.飞飞噪声数据对细粒度识别的不合理影响。arXiv预印本arXiv：1511.06789，2015年。[17] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在IEEE计算机视觉研讨会国际会议论文集，第554-561页[18] D. D. Lee和H. S.胜通过非负矩阵分解学习对象的部分。Nature，401（6755）：788[19] T.- Y. Lin，L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn模型在IEEE计算机视觉国际会议论文集，第1449[20] L. Liu，C.Shen和A.范登亨格尔。卷积层下的宝藏：用于图像分类的交叉卷积层池化。IEEE计算机视觉和模式识别会议论文集，第4749- 4757页，2015年[21] S. Maji、E. Rahtu，J. Kannala，M. Blaschko和A. 维达尔迪飞机的细粒度视觉分类。 arXiv 预印本 arXiv ：1306.5151，2013。[22] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。欧洲计算机视觉会议，第143-156页。施普林格，2010年。[23] N. Pham和R.佩吉通过显式特征映射实现快速和可扩展的多项式内核。第19届ACM SIGKDD国际知识发现和数据挖掘会议论文集，第239-247页。ACM，2013年。[24] H. Pirsiavash，D.Ramanan和C.C. 福克斯用于视觉识别的双线性分类器神经信息处理系统的进展，第1482-1490页，2009年[25] M. T. Ribeiro，S.Singh和C.Guestrin. 解释任何分类器的预测。InKDD，2016.[26] M. Simon，E.Rod，和J.登茨勒深度卷积神经网络中的部分检测器计算机视觉Springer，2014.[27] K. Simonyan、A. Vedaldi和A.齐瑟曼。卷积网络内部：可视化图像分类模型和显着图。arXiv预印本arXiv：1312.6034，2013。[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[29] J. B. Tenenbaum和W. T.弗里曼。分离式满足于双线性模型神经计算，12（6）：1247[30] A. Vedaldi和K.伦克Matconvnet：卷积神经网络。第23届ACM国际多媒体会议，第689-692页。ACM，2015.[31] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉加州理工学院-ucsd鸟类-200-2011数据集。2011年。[32] Y. Wang，J.Choi，V.I. Morariu和L.S. 戴维斯挖掘区分三元组的补丁细粒度分类。CVPR，2016年。[33] L.沃尔夫，H。Jhuang和T.哈赞用低阶支持向量机建立外观模型。2007年IEEE计算机视觉与模式识别会议，第1-6页。IEEE，2007年。1375[34] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。计算机Springer，2014.[35] H. Zhang，T. Xu，M. Elhoseiny，X. Huang，S. Zhang，中国古柏A. El- gammal和D. Metaxas Spda-cnn：统一语义部分检测和抽象以实现细粒度识别。在CVPR，2016年。[36] N. Zhang，J. Donahue，R. Girshick和T.达雷尔。用于细粒度类别检测的基于部件的r-cnn。在欧洲计算机视觉会议上，第834-849页。Springer，2014.[37] N. Zhang，E.Shelhamer，Y.Gao和T.达雷尔。精细的姿态预测、标准化和识别。ICLR研讨会，2016年。[38] B. Zhou ，中国古柏 A. Lapedriza ， J. Xiao 、肖氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。神经信息处理系统，第487-495页，2014年

下载后可阅读完整内容，剩余1页未读，立即下载