没有合适的资源?快使用搜索试试~ 我知道了~
分层双线性池用于细粒度视觉识别于朝建、赵心怡、郑奇、张鹏、游新戈(R)华中科技大学电子信息与通信学院,武汉{yucj,youxg}@ hust.edu.cn抽象。细 粒度的视觉识别是具有挑战性的,因为它高度依赖于各种语义部分的建模和细粒度的特征学习。基于双线性池的模型已被证明在细粒度识别方面是有效的,而大多数先前的方法忽略了层间部分特征交互和细粒度特征学习是相互关联的并且可以相互加强的事实。在本文中,我们提出了一个新的模型来解决这些问题。首先,提出了一种跨层双线性池方法来捕获层间的部分特征关系,与其他基于双线性池的方法相比,该方法具有更好的性能。其次,我们提出了一种新的分层双线性池框架,集成多个跨层双线性特征,以提高其表示能力。我们的公式是直观的,高效的,并实现了国家的最先进的结果,广泛使用的细粒度识别数据集。关键词:细粒度视觉识别·跨层交互·分层双线性池1介绍随着人工智能的发展,越来越多的需求似乎是在相同的基本级别类别下识别对象的子类别,例如,商家的品牌识别,植物学家的植物识别。因此,近年来在细粒度视觉识别方面取得了很大进展,已广泛应用于自动驾驶[28],专家级图像识别[14]等应用中。不同于一般的图像分类任务(例如,图像网络分类[25]),即区分基本级别类别,细粒度视觉识别是非常具有挑战性的,因为子类别往往在对象外观中具有小例如,我们根据鸟类背部的颜色或喙的形状来区分鸟类的品种由于观察到对象的局部部分通常在区分子类别中扮演重要角色,因此通过利用部分开发了许多用于细粒度分类的方法[35,2,26,36],即基于部分的2C. Yu等人方法。它们主要包括两个步骤:首先定位前景对象或对象部分,通过利用可用的边界框或部分注释,然后提取用于进一步分类的区别特征然而,这些方法受到两个基本限制。首先,很难确保手动定义的部分是最佳的或适合于最终的细粒度分类任务。第二,详细的部分注释往往是耗时和劳动密集型的,这在实践中是不可行的。因此,一些其他方法采用无监督技术来检测可能的对象区域。例如,Simon和Rodner[26]提出了一种星座模型来定位对象的部分,利用卷积神经网络(CNN)来找到神经激活模式的星座 Zhang等人 [36]提出了一种自动细粒度图像分类方法,将深度卷积滤波器用于与部件相关的选择和描述。这些模型将CNN作为部分检测器,在细粒度识别方面取得了很大的进步。与基于部件的方法不同,我们将来自不同卷积层的激活作为对不同部件属性的响应,而不是显式地定位对象部件,利用跨层双线性池来捕获部件属性的层间交互,这被证明对于细粒度识别是有用的。或者,一些研究[3,6,17,12]引入了双线性池框架来对对象的局部部分进行建模。尽管已经报道了有希望的结果,但是进一步的改进受到以下限制。首先,大多数现有的基于双线性池的模型仅将最后一个卷积层的激活作为图像的表示,这不足以描述对象的各种语义部分。其次,他们忽略了中间卷积激活,导致损失的细粒度类别的判别信息,这是重要的细粒度视觉识别。在这项工作中,我们提出了新的方法来解决上述挑战。我们发现,层间的部分特征的相互作用和细粒度的特征学习是相互关联的,可以相互加强。为了更好地捕捉层间特征关系,我们提出了一种跨层双线性池化方法。所提出的方法是有效的和强大的。它考虑了层间特征的相互作用,同时避免引入额外的训练参数。与其他仅利用单个卷积层特征的基于双线性池的作品相比,我们的架构利用了多个层的部分特征的交互此外,我们的框架与人类从粗到细的感知高度一致,视觉层次结构基于空间差异分离了皮层区域V4中的局部和全局特征,并建立了神经活动的时间分离[20]。我们发现我们的跨层双线性模型更接近于处理空间信息的皮层V4区的独特架构。众所周知,在CNN的传播中存在信息损失。为了最大限度地减少对细粒度识别有用的信息的损失,我们提出了一种新的分层双线性池框架来集成多个跨层双线性特征以增强其表示能力。为了充分利用中间卷积层激活,所有跨层用于细粒度视觉识别的3双线性特征在最终分类之前被连接。请注意,来自不同卷积层的特征是互补的,它们有助于区分性特征学习。因此,所提出的网络受益于层间特征交互和细粒度特征学习之间的相互加强。我们的贡献总结如下:• 我们开发了一个简单但有效的跨层双线性池技术,同时使层间的功能和学习的细粒度表示相互加强的方式相互作用。• 在跨层双线性池的基础上,提出了一种分层双线性池框架,将多个跨层双线性模块集成,从中间卷积层获取互补信息,以提高吞吐量。• 我们在三个具有挑战性的数据集(CUB Birds,Stanford Cars,FGVC-Aircraft)上进行了全面的实验,结果证明了这种方法的有效性。我们的方法的优势。本文的其余部分组织如下。第二节回顾了相关工作。第3节介绍了所提出的方法。第4节提供了实验以及结果分析,随后是第5节中的结论。2相关工作在下文中,我们从两个感兴趣的角度简要回顾了以前的工作,因为它们与我们的工作相关,包括CNN中的细粒度特征2.1细粒度特征学习特征学习在细粒度识别中起着重要的基础作用。由于子类别之间的差异是微妙和局部的,仅用完全连接的层捕获全局语义信息限制了框架的表示能力,因此限制了最终识别的进一步提升[1]。为了更好地对细粒度类别的细微差异进行建模,Lin等人。 [17]提出了一种双线性结构,通过两个独立的CNN聚合成对特征交互,该结构采用特征向量的外积来产生用于二次扩展的非常高维的特征。Gao等人。 [6]应用Tensor Sketch [23]来近似二阶统计量并降低特征维数。Kong等人。 [12]采用协方差矩阵的低秩近似,进一步降低了计算复杂度。Yin等人。 [4]通过迭代地将TensorSketch压缩应用于特征来聚合高阶统计量。文献[22]中的工作利用双线性卷积神经网络作为基线模型,并采用集成学习方法以结合助推重物。在[16]中,提出了矩阵平方根归一化,并证明了它是对现有归一化的补充。然而,在这方面,4C. Yu等人这些方法只考虑单个卷积层的特征,不足以捕捉对象的各种区别部分,也不足以对子类别之间的细微差异进行建模。我们提出的方法克服了这一限制,通过集成层间特征交互和细粒度特征学习,在一个相互加强的方式,因此更有效。2.2CNN中的特征融合由于深度学习的成功,CNN已经成为用于各种视觉识别任务的通用虽然来自单个卷积层的特征图不足以用于更细粒度的任务,因此一些最近的作品[3,7,19,33]试图研究利用CNN内不同卷积层的特征的有效性例如,Hariharan等人。 [7]考虑了来自所有卷积层的特征图,允许更细粒度的本地化任务。 Long等人 [19]结合了来自不同卷积层的更精细和更高级的语义特征,以实现更好的分割。 Xie等人 [33]提出了一种整体嵌套框架,其中在较低卷积层之后添加侧输出,以提供对边缘检测的深度监督。最近的工作[3]将来自多个卷积层的激活图连接起来,以对细粒度识别的部件特征的相互作用进行建模。然而,简单地级联特征图引入了许多训练参数,并且当与更多中间卷积层合并时甚至无法捕获层间特征关系。相反,我们的网络将每个卷积层视为不同对象部分的属性提取器,并以直观有效的方式对其交互进行建模。3分层双线性模型在本节中,我们开发了一个分层双线性模型来克服上述限制。 在介绍我们的分层双线性模型之前,我们首先介绍了用于细粒度图像识别的因子分解双线性池的一般公式。第3.1条基于此,我们提出了一种跨层双线性池技术,以联合学习Sect中来自不同卷积层的激活。3.2,它捕获了信息的跨层交互,并导致更好的表示能力。最后,我们的分层双线性模型结合多个跨层的双线性模块生成更精细的部分描述,更好的细粒度识别节。三点三3.1分解双线性池因子化双线性池已应用于视觉问答任务,Kim等人 [11]提出了使用Hadamard乘积的因子化双线性池,用于多模态学习的有效注意力机制。在这里,我们介绍了基本配方的分解双线性池技术的任务,细粒度的图像识别。假设图像I被CNN滤波,并且用于细粒度视觉识别的5卷积层的输出特征图是X∈Rh×w×c,其中高度h,宽度w和通道c,我们表示在上的空间位置处的c维描述符。X为x= [x1,x2,...,xc]T。然后,完整的双线性模型定义为:zi= xTWi x(1)其中Wi∈Rc×c是投影矩阵,zi是双线性模型的输出。我们需要学习W=[W1,W2,· · ·,Wo]∈Rc ×c×o以获得o维输出z。根据[24]中的矩阵因式分解,当量(1)可以分解为两个一秩向量zi=xTWi x=xTUi VT x=UTx◦VT x(2)我我我其中Ui∈Rc,Vi∈Rc.因此,输出特征z∈Ro由下式给出:z=PT(UTx◦VT x)(3)其中U∈Rc×d和V∈Rc×d是投影矩阵,P∈Rd×o是分类矩阵,◦是Hadamard积,d是决定联合嵌入维数的超参数.3.2跨层双线性池细粒度的子类别往往具有相似的外观,并且只能通过局部属性的细微差异来区分,例如颜色,形状或鸟类喙的长度。双线性池是一种重要的细粒度识别技术,它可以捕捉到成对的特征关系。然而,大多数双线性模型只关注于从单个卷积层学习特征,而完全忽略了信息的跨层交互单个卷积层的激活是不完整的,因为每个对象部分中有多个属性,这些属性在区分子类别时可能是至关重要的实际上,在大多数情况下,我们需要同时考虑零件特征的多个因素来确定给定图像的类别。因此,为了捕获更细粒度的零件特征,我们开发了一种跨层双线性池化方法,将CNN中的每个卷积层视为零件属性提取器。然后,通过逐元素乘法将来自不同卷积层的特征因此,Eq.(3)可以改写为z=PT(UTx◦VT y)(4)其中x和y表示来自相同空间位置处的不同卷积层的局部描述符。值得注意的是,来自不同卷积层的特征通过独立的线性映射扩展到高维空间。预期卷积激活和项目激活编码全局6C. Yu等人⊙⊙………⊙…投影层交互层和物体局部特征,如图1所示。3.第三章。它与人类从粗到细的感知高度一致:人类和非人类灵长类动物经常看到物体或场景的视觉“特征”,因为它们具有明显的视觉特征[ 20 ]。例如,猕猴颞下皮层的神经元在面部感知过程中是活跃的,它们对全局面部类别的编码早于它们开始编码更精细的信息,例如身份或表达。黑信天翁图1.一、用于细粒度识别的分层双线性池(HBP)网络架构的插图底部图像是输入,其上方是CNN中不同层首先通过独立的线性映射将不同层的特征扩展到高维空间以捕获不同对象部分的属性,然后通过逐元素乘法集成以建模部分属性的层间交互。之后,执行总和池以将高维特征压缩成紧凑的特征。请注意,我们通过计算每个单个空间位置上的求和特征向量的响应来获得3.3分层双线性池跨层双线性池在Sect.3.2是直观和有效的,因为它具有优于传统的双线性池模型的表示能力,而不增加训练参数。这启发我们,利用不同卷积层之间的层间特征交互有利于捕获细粒度子类别之间的区分部分属性。因此,我们扩展了跨层双线性池,以集成更多的中间卷积层,这进一步增强了特征的表示能力。在本节中,我们提出了一个广义分层双线性池FCsoftmax…用于细粒度视觉识别的7池化(HBP)框架,通过级联多个跨层双线性池化模块来合并更多的卷积层特征。具体来说,我们将跨层双线性池化模块分为交互阶段和分类阶段,公式如下zint =UT x◦VT y(5)z =PT zint∈Ro(6)为了更好地对层间特征交互进行建模,HBP模型的交互特征是通过级联跨层双线性池化模块的多个zint来获得的因此,我们可以通过以下方式导出HBP模型的最终输出:zHBP=HBP(x, y, z,· · ·)=PTzint(7)=PT concat(UTx◦VT y,UT x◦ST z,VT y◦ST z,···)(8)其中P是分类矩阵U,V,S,. . . 是卷积层特征x,y,z,. . . 分别HBP框架的总体流程图如图所示。1.一、4实验在本节中,我们将评估HBP模型在细粒度识别方面的性能HBP的数据集和实现细节首先在Sect.4.1. 进行模型配置研究,以调查节中每个组件的有效性。四点二。与最先进方法的比较见第10节。四点三。最后,在Sect。4.4、定性可视化,直观地解释我们的模型。4.1数据集和实施详细信息数据集:我们在三个广泛使用的用于细粒度图像识别的数据集上进行实验,包括Caltech-UCSD Birds(CUB-200-2011)[30]、Stanford Cars[15]和FGVC-Aircraft [21]。表1总结了详细的统计数据(包括类别编号和数据分割)。请注意,我们在实验中只使用类别标签。表1.数据集汇总统计数据集#类别#培训测试次数[30]第30话20059945794[15]第十五话19681448041[21]第二十一话100666733338C. Yu等人实施细节:为了与其他最先进的方法进行公平比较,我们使用在ImageNet分类数据集[ 25 ]上预训练的VGG-16 [27]基线模型来评估我们的HBP,删除最后三个完全连接的层并插入我们框架中的所有组件。值 得 注 意 的 是 , 我 们 的 HBP 也 可 以 应 用 于 其 他 网 络 结 构 , 例 如Inception [29]和ResNet [8]。输入图像的大小为448× 448。我们的数据扩充遵循常用的实践,即,在训练期间使用随机采样(从512×S裁剪448× 448,其中S是最大图像侧)和水平翻转,并且在推断期间仅涉及中心裁剪。我们最初只通过逻辑回归训练分类器,然后使用随机梯度下降对整个网络进行微调,批量大小为16,动量为0.9,权重衰减为5× 10-4,学习率为10-3,定期退火0.5。所有实验都是使用Caffe工具箱[10]实现的,并在具有Titan X GPU的服务器上执行。源代码和训练模型将在https://github.com/ChaojianYu/Hierarchical-Bilinear-Pooling上提供4.2分层双线性池跨层双线性池化(CBP)具有用户定义的投影维度d。为了研究d的影响并验证所提出的框架的有效性,我们对CUB-200-2011 [30]数据集进行了广泛的实验,结果总结在图中。二、注意,我们利用FBP中的relu 53、CBP中的relu 5 2和relu 5 3、HBP中的relu 5 1、relu 5 2和relu 5 3来获得图1中的结果。2,我们还提供了定量的实验,关于层的选择在下面。我们关注VGG-16中的relu5 1、relu 5 2和relu5 3 [27],因为它们与较浅的层相比包含更多的部分语义信息在图2中,我们将CBP的性能与一般的因子分解双线性池模型(即FBP)进行了比较。此外,我们探索HBP与多个层的组合。最后分析了超参数的影响因素D. 我们可以从图中得出以下重要结论2• 首先,在相同的d下,我们的CBP显著优于FBP,这表明可以通过特征的层间交互来增强区分能力。• 其次,HBP进一步优于CBP,这证明了来自中间卷积层的激活对于细粒度识别的功效。这可以通过以下事实来解释:在CNN的传播中存在信息损失,因此对于细粒度识别至关重要的区别特征可能在中间卷积层中丢失与CBP相比,我们的HBP考虑了中间卷积层的更多特征相互作用,因此更鲁棒,因为HBP具有最佳性能。在以下实验中,使用HBP与其他现有技术方法进行比较• 第三,当d从512变化到8192时,增加d导致所有模型的更高精度,并且HBP在d= 8192时饱和因此,d= 8192用于细粒度视觉识别的987.58786.58685.58584.5512 1024 2048 4096 8192 16384投影的尺寸图二、CUB数据集上的分类精度一般分解双线性池(FBP)、跨层双线性池(CBP)和具有各种投影维度的分层双线性池(HBP)的比较在考虑特征维数、计算复杂度以及准确度的情况下,在我们的以下实验中用于HBP。然后,我们在CUB-200-2011 [30]数据集上提供定量实验表2中的精度是在相同的嵌入维数(d= 8192)下获得的。我们考虑CBP和HBP的不同层的组合。结果表明,该框架的性能增益主要来自于层间交互和多层组合。由于HBP-3已经表现出最好的性能,因此我们在Sect.四点三。表2. CUB-200-2011数据集方法FBPCBPHBPFBP-1aCBP-1bCBP-2cCBP-3dHBP-1eHBP-2fHBP-3g精度85.7086.7586.8586.6786.7886.9187.15arelu5 3*relu 5 3.brelu5 3 *relu 5 2.crelu5 3relu 5 1.drelu5 3relu 4 3.erelu5 3*relu5 2+relu5 3*relu5 1.frelu53relu5 2+relu53relu5 1+relu53 relu4 3.grelu5 3 * relu5 2 + relu5 3 * relu5 1 + relu5 2 * relu5 1。FBP CBP HBPCUB数据集的准确度(%)10C. Yu等人我们还将我们的跨层集成与基于超列[3]的特征融合进行了比较。为了公平比较,我们重新实现了超列作为relu5 3和relu5 2的特征级联,然后在相同的实验设置下进行因子分解双线性池化(表示为HyperBP)。表3示出了我们的CBP以接近1/2的参数获得比HyperBP稍好的结果,这再次表明我们的集成框架在捕获层间特征关系方面更这并不奇怪,因为我们的CBP在某种程度上与人类的感知一致。与HyperBP相反,当集成更多的卷积层激活[3]时,HyperBP获得更差的结果,我们的HBP能够捕获中间卷积层内的互补信息,并在识别准确性方面实现了明显的提高表3. CUB数据集上的分类精度和不同要素集成方法精度模型大小HyperBP86.6018.4MCBP86.7510.0MHBP87岁1517.5M4.3与最新技术水平的关于CUB-200-2011的结果。 CUB数据集提供边界框和鸟类部分的地面实况注释。我们使用的唯一监督信息是图像级别的类标签。CUB-200-2011的分类准确度总结见表4。 表格在行上分为三个部分:第一部分总结了基于注释的方法(使用对象边界框或部分注释);第二类是无监督的基于零件的方法;最后示出了基于池化的方法的结果。从表4中的结果,我们可以看到PN-CNN [2]使用人类定义的边界框和地面实况部分的强大监督。SPDA-CNN [35]使用地面真值部分,B-CNN [17]使用具有非常高维特征表示(250 K维)的边界框。与PN-CNN [2],SPDA-CNN [35]和B-CNN [17]相比,即使没有bbox和部分注释,所提出的HBP(relu5 3 +relu 5 2 +relu5 1)也取得了更好的结果,这证明了我们模型的有效性与使用更强的初始网络作为基线模型的STN [9]相比,我们通过HBP(relu5 3+relu 5 2+relu 5 1)获得了3.6%的相对准确性增益我们甚至超过了RA-CNN [5]和MA-CNN [37],这是最近提出的最先进的基于部分的无监督方法,分别具有2.1%和0.7%的相对准确率增益。与基于池化的模型B-CNN [17],CBP [6]和LRBP [12]的基线相比,我们实现的优越结果主要得益于用于细粒度视觉识别的11表4.CUB-200-2011数据集的比较结果是的使用边界框或零件注释表示方法是的精度SPDA-CNN [35][17]第十七话CNN [2]√√√85.185.185.4STN [9]84.1RA-CNN [5]85.3美国有线电视新闻网[37]86.5[17]第十七话84.0CBP [6]84.0LRBP [12]84.2HIHCA [3]85.3改进的B-CNN [16]85.8[22]第二十二话86.2[4]86.2FBP(relu5 3)85.7CBP(relu5 3 +relu 5 2)86.7HBP(relu5 3 +relu 5 2 +relu5 1)87岁1特征的层间交互和多层次的集成。我们还超越了BoostCNN [22],它可以增强在多个尺度上训练的多个双线性网络。虽然HIHCA [3]提出了类似的想法来为细粒度识别建模特征交互,但由于层间特征交互和判别特征学习的相互加强框架,注意,HBP(relu5 3 +relu 5 2 +relu 51)优于CBP(relu5 3 +relu 5 2)和FBP(relu5 3),这表明我们的模型可以捕获层之间的互补信息。关于Stanford Cars斯坦福汽车的分类准确性总结见表5。不同的汽车部件具有区别性和互补性,因此对象和部件定位在此可能发挥重要作用[34]。虽然我们的HBP没有明确的部分检测,我们实现了最好的结果之间的国家的最先进的方法。依靠层间特征交互学习,我们甚至超过PA-CNN [13] 1.2%的相对准确度增益,其使用人类定义的边界框。与无监督的基于部分的方法MA-CNN [37]相比,我们可以观察到显着的改进我们的HBP也优于基于池化的方法BoostCNN [22]和KP [4]。FGVC-飞机上的结果。不同的飞行器模型由于细微的差异而难以被识别,例如,人们可以通过对模型中窗口的数量进行计数来区分它们。表6总结了FGVC-飞机的分类精度。尽管如此,我们的模型达到了最高12C. Yu等人表5.斯坦福汽车数据集的比较结果是的表示使用绑定框方法是的精度FCAN [18]PA-CNN [13]√√91.392.6FCAN [18]89.1RA-CNN [5]92.5美国有线电视新闻网[37]92.8[17]第十七话90.6LRBP [12]90.9HIHCA [3]91.7改进的B-CNN [16]92.0[22]第二十二话92.1[4]92.4HBP九十三7分类准确率在所有方法中。与基于注释的方法MDTP [32],基于部分学习的方法MA-CNN [37]和基于池化的BoostCNN [22]相比,我们可以观察到稳定的改进,这突出了所提出的HBP模型的有效性和鲁棒性。表6.FGVC-Aircraft数据集的比较结果是的表示使用绑定框方法是的精度MG-CNN [31]MDTP [32]√√86.688.4RA-CNN [5]88.2美国有线电视新闻网[37]89.9[17]第十七话86.9[4]86.9LRBP [12]87.3HIHCA [3]88.3改进的B-CNN [16]88.5[22]第二十二话88.5HBP九十34.4定性可视化为了更好地理解我们的模型,我们在不同的数据集上对我们微调的网络中的不同层的模型响应进行了可视化。我们通过计算特征激活的平均幅度来获得激活图。用于细粒度视觉识别的13原始relu5 1relu 5 2relu 5 3项目 5 1项目5 2项目5 3图3.第三章。CUB、汽车和飞机数据集上不同层模型响应的可视化可以看出,我们的模型倾向于忽略杂乱背景中的特征,而专注于对象的最有区别的部分。14C. Yu等人频道图3,我们展示了从三个不同数据集随机选择的图像及其相应的可视化。所有的可视化都表明,所提出的模型能够忽略-使背景杂乱,并倾向于在高度特定的语义部分上强烈激活。项目51、项目52和项目53中的激活区域与CUB中的头部、翅膀和胸部等语义部位有较强的相关性;汽车的前保险杠、车轮和车灯;飞机的驾驶舱、尾翼和发动机。这些部分对于区分类别至关重要。更多-此外,我们的模型是高度一致的人类的感知,解 决 细 节 时 , 感 知 场 景 或 对 象 。 在 图 3 中 , 我 们 可 以 看 到 卷 积 层(relu51、relu 52、relu 53)提供目标对象的粗略定位。基于此,投影层(投影51、投影 52、投影 53)进一步确定对象的基本部分,其通过不同部分特征的连续交互和集成来区分其类别。该过程与人类感知的由粗到细的性质一致[20],其灵感来自于“whole”对“parts”的优先级的一般区分,并且其提供了关于为什么我们的框架可以在没有显式部分检测的情况下对子类别之间的细微和局部差异进行建模的直观解释。5结论在本文中,我们提出了一个分层的双线性池的方法来融合多层特征的细粒度识别,它结合了层间的相互作用和鉴别特征学习,在一个相互加强的方式。所提出的在鸟类、汽车和飞机上的大量实验证明了我们框架的有效性。今后,我们将在两个方向上进行扩展研究,即,如何有效地融合更多的层特征以获得多尺度的零件表示,以及如何合并有效的零件定位方法以学习更好的细粒度表示。鸣 谢 。 本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目 ( No.61772220 、61571205)、国家科技部重大技术研发计划(No.2015BAK36B00)、湖北省技术创新计划(No.2017AAA017)、国家国际科技合作重点项目(No.2016YFE0121200)的资助。引用1. Babenko,A.,Lempitsky,V.:聚合局部深度特征用于图像检索。I:在组件恢复过程中,执行所有组件的EEE部分的设计。pp. 1269用于细粒度视觉识别的152. Branson,S.,Van Horn,G. Belongie,S.,Perona,P.:使用姿势归一化深度卷积网络进行鸟类分类。ArXiv预印本arXiv:1406.2952(2014)3. Cai,S.,左,W.,Zhang,L.:分层卷积的高阶积分用于细粒度视觉分类的al激活。In:Proceedings of the IEEE Confere nceonCom uterVis isi n andPater n Re cogniti n.pp. 5114. 崔,Y.,Zhou,F.,中国科学院院士,王杰,Liu,X.,中国科学院院士,Lin,Y.,(1996年),Belongie,S.:内核池化演化神经网络计算机视觉和模式识别(CVPR)(2017)5. Fu,J.,郑洪,Mei,T.:看得更近些,看得更清楚:反复注意力转移-神经网络用于细粒度图像识别。计算机视觉与模式识别会议(Conf. onComputer6. 高,Y.,Beijbom,O.,Zhang,N.,达雷尔,T.:紧凑的双线性池。In:Pro-IEEE计算机视觉和模式识别会议的CEEDings。pp. 3177. H ariharan,B. A r bel'aez,P., Gir shi ck,R., Malik,J. :针对对象的类型-分段和细粒度定位。In:Proceedings of the IEEE conferenceoncomputerrvisionandpattternrecognition. pp. 4478. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习于:IEEE计算机视觉与模式识别会议论文集。pp. 7709. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,等:空间Transformer网络。在:Avancesineuralinner matonpoce ssssysss in。pp. 201710. Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗J格尔希克河瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构。第22届ACM多媒体国际会议论文集。pp. 675-678 ACM(2014)11. Kim,J.H.,恩,K.W.,Lim,W.,金,J.,J.W. Zhang,B.T.:Hadamard积用于低秩双线性池化。arXiv预印本arXiv:1610.04325(2016)12. Kong,S.,Fowlkes,C.:用于细粒度分类的低秩双线性池。2017年IEEE计算机视觉和模式识别会议(CVPR)。pp. 7025-7034 IEEE(2017)13. Krause,J.,Jin,H.,杨杰,李菲菲:无部件细粒度识别注释。In:Computer Vision and Pattern Recognition(CVPR),2015 IEEEConferenceon. pp. 5546-5555 IEEE(2015)14. Krause,J.,萨普湾Howard,A.,周,H.,Toshev,A.Duerig,T.,Philbin,J.,飞-Fei,L.:噪声数据对细粒度识别的不合理有效性。In:Er opeanConferenceonCom up uterVison。pp. 301-320 02TheDog(2016)15. Krause,J.,斯塔克M.Deng,J.,李菲菲:3D对象表示法粒度分类。In:Computer Vision Workshops(ICCVW),2013 IEEEInternatio nalConfere nceo n.pp. 554IEEE(2013)16. Lin,T.Y., Maji,S.: 用cnn改进了双线性池。 arXiv预印arX-四:1707.06772(2017)17. Lin,T.Y.,RoyChowdhury,A. Maji,S.:用于细粒度视觉识别的双线性cnn模型。在:IEEE国际计算机视觉会议论文集中。pp. 144918. Liu,X.,中国科学院院士,Xia,T.,王杰,杨,Y.,Zhou,F.,中国科学院院士,Lin,Y.:全卷积注意力用于细粒度识别的网络。arXiv预印本arXiv:1603.06765(2016)19. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:IEEE计算机视觉和定位会议的会议记录中。pp. 343116C. Yu等人20. 吕,Y.,Yin,J.,陈志,龚,H.,Liu,Y.,Qian,L.,Li,X.,刘,R.,安东莉娜即时通讯Wang,W.:沿视觉层次显示细节:神经聚类保持从V1到V4的曲线。Neuron98(2),41721. Maji,S.,Rahtu,E.,Kannala,J.,Blaschko,M.,Vedaldi,A.:飞机的细粒度视觉分类。ArXiv预印本arXiv:1306.5151(2013)22. Moghimi,M.,Belongie,S.J.,Saberian,M.J.,杨杰,Vasconcelos,N.,Li,L.J.:增强型卷积神经网络。在:BMVC(2016)23. Pham,N.,Pagh,R.:通过显式特征映射实现快速和可扩展的多项式内核。第19届ACM SIGKDD国际知识数据采集与数据挖掘会议论文集。pp.239- 24 7. ACM(2013)24. Rendle , S. : 因 式 分 解 机 。 In : Data Mining ( ICDM ) , 2010 IEEE10thInternatio nalCo nfere nceo n.pp. 995IEEE(2010)25. Russakovsky,O.,Deng,J.,Su,H.,Krause,J.,Satheesh,S.,妈妈,S.,黄志,Karpathy,A.,Khosla,A. Bernstein,M.等:Imagenet大规模视觉识别。Inter natinalJour nalofComuterVison115(3),21126. Simon,M.,Rodner,E.:神经激活星座:使用卷积网络的无监督零件模型发现。In:Proceedings of the IEEE InternationalConferenceonComputerVision.pp. 114327. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv:1409.1556(2014)28. Sochor,J.,Herout,A.,Havel,J.:Boxcars:作为cnn输入的3d盒子,用于 改 进 细 粒 度 的 车 辆 识 别 。 在 : IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中。pp. 300629. 塞格迪角刘伟,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,Erhan,D. , Vanhoucke , V. , Rabinovich , A. : 更 深 的 回 旋 。 In :ProceedingsoftheEEEconnferenceoncomputerisionandpater nrecognition. pp. 130. Wah,C.,Branson,S.,Welinder,P. Perona,P.,Belongie,S.:Caltech-UCSD鸟类-200-2011数据集(2011)31. Wang,D.,中国科学院,沈志,邵,J.,张伟,Xue,X.,中国科学院 , 张 志 : 用 于 细 粒 度 分 类 的 多 粒 度 描 述 符 在 : 计 算 机 视 觉(ICCV),2015年我的计算机视觉。pp. 2399IEEE(2015)32. 王玉,崔,J.,Morariu,V.I.,Davis,L.S.:用于细粒度分类的斑块判别三元组挖掘arXiv预印本arXiv:1605.01130(2016)33. Xie , S. , 图 , Z. : 整 体 嵌 套 边 缘 检 测 。 In : Proceedings of the IEEEiintérnationalconferenceoncommputeri sision. pp. 139534. 杨湖,Luo,P.,Change Loy,C.,唐X:用于细粒度分类和验证的大规模 汽 车 数 据 集 。 在 : Proceedings of the IEEE Conference onC 〇 mputerVisisi n andPatterm Rec 〇 g niti n中。pp. 397335. 张洪,徐,T.,Elhoseiny,M.,黄,X.,Zhang,S.,(1991),中国农业科学院,Elgammal,A.,Metaxas,D.:Spda-cnn:统一语义部分检测和抽象以实现细粒度识别。在:IEEE计算机视觉和图像处理会议论文集中。pp. 114336. 张,X.,Xiong,H.,周文,林伟,Tian,Q.:为细粒度图像识别挑选深度滤 波 器 响 应 。 In : Proceedings of the IEEE Conference on C 〇mputerVis isinandPater nRec 〇 gnit i tin. pp. 113437. 郑洪,Fu,J.,Mei T罗杰:学习多注意力卷积神经网络用于细粒度图像识别。入:国际会议计算机视觉(2017)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功