没有合适的资源?快使用搜索试试~ 我知道了~
细粒度图像分类方法的局限性及结合视觉和语言的双流模型(CVL)的提出
5994海尔曼鸥银鸥灰背鸥类间方差西鸥结合视觉和语言何翔腾、彭北京大学计算机科学与技术研究所网址:hexiangteng@pku.edu.cn,pengyuxin@pku.edu.cn摘要细粒度图像分类是一个具有挑战性的任务,由于大的类内方差和小的类间方差,旨在识别属于同一基本层类别的数百现有的大多数细粒度图像分类方法一般通过学习部分检测模型来获得语义部分,以提高分类精度。尽管取得了有希望的结果,但这些方法主要有两个局限性:(1)不是所有通过零件检测模型获得的零件都是有益的并且对于分类是必不可少的,以及(2)细粒度图像分类需要更详细的视觉描述,这不能由零件位置或属性注释提供。针对上述两个局限性,本文提出了结合视觉和语言的双流模型(CVL)来学习潜在语义表征。视觉流通过深度卷积神经网络从原始视觉信息中学习深度表示语言流利用自然语言描述,指出每幅图像的区别性部分或特征,并提供一种灵活而紧凑的方式来编码用于区分子类别的显著视觉方面。由于这两个流是复杂的,因此组合这两个流可以进一步实现更好的分类精度。在广泛使用的CUB-200-2011数据集上,与12种最先进的细粒度图像分类方法进行了比较,实验结果表明,本文提出的CVL方法取得了最好的性能。1. 介绍细粒度图像分类的目标是识别一些基本类别下的子类别。近年来,由于深度神经网络的进步,细粒度图像分类模型取得了很大进展[1,2,3,4,5]。在数据方面,*通讯作者。图1. CUB-200-2011中的示例。请注意,由于类内方差大,类间方差小,即使对人类来说,对它们进行分类也是一项技术上具有挑战性的任务。对于没有经验的人来说,识别诸如鸟、花和车的基本级别类别是容易的,但是因此,细粒度图像分类是一项技术上具有挑战性的任务,因为类内方差很大,类间方差很小,如图1所示。各亚类在总体上表现一致,但在腹部颜色、趾形、羽毛纹理等细微的局部差异上有所区别。这些细微的差异都位于目标或其部分的区域,因此目标或其部分的定位对于细粒度图像分类至关重要大部分学校采用两阶段学习架构类间方差5995现有的方法:第一阶段是定位目标或其可区分部分,第二阶段是通过卷积神经网络(CNN)提取目标或其部分的深层特征,并训练分类器进行最终预测。然而,这些方法主要有两个局限性。首先,零件对于实现更好的准确性至关重要,但并非所有零件都是有益的和不可或缺的。Huang等人[1]表明,在他们的部分堆叠CNN方法的实验中,当部分数量从8增加到15时,分类精度下降。Zhang等人[5]在实验中只选取6个部分,以达到最佳的分类精度。和Zhang等人[3]在基于部分的R-CNN中只使用头部和身体部分进行分类。一般来说,实验中使用的零件数量是高度经验性的。这在灵活性方面受到高度限制,并且难以推广到其他数据集或域。第二,细粒度的图像分类需要更详细的视觉描述,这不能由零件位置或属性注释提供。部分位置不能指出哪一部分是用于子类别识别的区分部分,也不能告诉区分特征,如喙的颜色和翅膀的形状。属性注释可以告诉我们票据的颜色,但它们不能告诉我们票据对于区分子类别是否比其他部分重要。因此,我们需要一种有希望的信息来告诉我们的属性以及零件的重要性,并进一步促进分类精度。幸运的是,来自自然语言的文本描述满足了上述有希望的要求。如何将自然语言描述与图像的视觉内容准确地联系起来是图像分类的关键。受跨模态分析的启发,本文提出了一种结合视觉和语言的双流模型(CVL)来学习潜在语义表征。视觉流首先通过显著性提取和共分割来定位图像的对象,然后通过深度卷积神经网络来学习原始图像及其区分对象的深度表示。语言流利用跨模态分析来学习自然语言描述与区分部分之间的相关性,并提供了一种灵活而紧凑的方式来编码用于区分子类别的显著视觉方面。视觉流侧重于识别区域的位置,而语言流侧重于识别区域的属性两者是互补的,将两个流结合起来进一步挖掘了视觉特征与自然语言描述之间的相关性,增强了两者的相互促进作用,从而达到更好的分类精度。在广泛使用的CUB-200-2011上与12种最先进的方法进行数据集的细粒度图像分类,实验结果表明,我们的CVL方法取得了最好的性能。本文其余部分的组织结构如下:第二节简要回顾了细粒度图像分类和交叉模态分析的相关工作。第三节介绍了我们提出的CVL方法,第四节介绍了实验以及结果分析。最后,第五节对本文进行了总结。2. 相关工作2.1. 细粒度图像分类大多数现有工程遵循管道:首先定位目标或其部分,然后提取用于细粒度图像分类的鉴别特征。一些细粒度的图像分类数据集,例如,CUB-200-2011 [7],有详细注释:对象注释(即,对象的边界框)和部件注释(即,部件位置),直观的想法是使用这些注释来定位对象及其部件。对象注释在[12,13]的作品中用于以无监督或潜在的方式学习部分检测器。甚至部分注释也用于这些方法[14,15]。在实际应用中,由于测试图像的标注不存在在训练阶段,在测试阶段不知道任何注释。对象和部件注释直接用于训练阶段以学习强监督的基于可变形部件的模型[16]或直接用于微调预训练的CNN模型[17]。此外,Krause et al.[18]在训练阶段只使用对象标注来学习零件检测器,然后在测试阶段自动定位零件。最近,有一些很有前途的工作试图在弱监督条件下学习部分检测器,这意味着在训练和测试阶段都不使用对象或部分这些工作为细粒度图像分类的实际应用提供了可能。Simon等人[19]提出了一种神经激活星座部分模型(NAC),以利用星座模型局部化部分。Xiao等人[2]提出了一个两级注意模型,它结合两个层次的注意力来选择与对象和区分部分相关的建议。和Zhang等人[5]将深度卷积滤波器用于部分检测和描述。细粒度的图像分类问题还远没有得到解决。2.2. 交叉模态分析随着多媒体信息的快速增长,跨模态数据,如:图像、文本、视频和音频,已经成为大数据的主要表现形式。跨模态数据承载不同类型的信息,需要在-5996输入图像和对象区域(自动本地化)图像类别评分分类结果:黄嘴杜鹃语言蒸汽文本类别得分CNN顺序的编码卷积编码有黄色尖喙的视觉蒸汽图2.我们的CVL方法概述双流模型对原始图像及其目标定位进行处理人们直接从视觉信息中学习深度表征。另一个学习通过共同建模视觉和语言区分子类别的显着视觉方面。两个流的分类结果在后期合并,以结合视觉和语言的优势。在许多实际应用中获得全面的结果。如何学习跨模态数据的多模态表示是一个基本的研究问题。典型相关分析(CCA)[20]是一种传输表示方法,它学习子空间以最大化不同介质类型的数据之间的相关性,并广泛用于对多模态数据进行建模[21,22,23]。Zhai等人。[24]提出通过度量学习来学习投影函数,该方法通过添加其他信息(如语义类别和半监督信息)进一步改进为联合表示学习(JRL)[25受深度神经网络进展的启发,一些工作集中在深度多模态表示学习上。Ngiam等人[26]提出了一种多模态深度学习(MDL)方法,将音频和视频组合到自动编码器中,该方法改进了噪声输入的语音信号分类,并学习了跨模态的共享表示。最近,在图像和视频字幕方面取得了巨大的进展。LSTM [27]被广泛用于在单词级别对字幕进行建模。除了LSTM,基于字符的卷积网络[28]已用于语言建模。在本文中,我们应用卷积和递归网络(CNN-RNN)的扩展来学习视觉语义元。寝具本文将多模态表示学习引入到细粒度图像分类中来提高分类性能,并对视觉和语言进行联合3. 我们的CVL方法我们的方法基于一个非常简单的直觉:自然语言描述可以指出区别于其他子类别的部分或特征,并与视觉信息互补。因此,我们提出了一种结合视觉和语言的双流模型来学习潜在语义表示,它结合了视觉和语言的优势,如图所示二、由于对象对于细粒度图像分类至关重要,因此我们将原始图像及其对象定位作为双流模型的输入。3.1. 对象定域在本文中,我们应用了TSC [4]中提出的基于显著性提取和共分割的自动对象定位方法,该方法允许以弱监督的方式定位对象,这意味着既不使用对象也不使用部分注释。显著性提取是利用显著性图对目标进行初步定位,显著性图由5997→→×→CNN模型来获得预测,这是视觉流的结果。图3.本文中的示例对象定位结果蓝色矩形表示地面实况对象注释,即对象的边界框,红色矩形表示通过联合应用显著性提取和共同分割而生成的对象区域。3.2.2语言流深度结构化联合嵌入我们应用深度结构化联合嵌入方法[34],因为它可以联合嵌入图像和细粒度视觉描述(即,图像的自然语言描述)。该方法学习图像和文本的兼容性函数,可以看作是多模态结构化联合嵌入的扩展[35]。我们没有使用双线性兼容性函数,而是使用深度神经编码器生成的特征的内积,并最大化描述与其匹配图像之间的兼容性,以及最小化与其他类别图像的给定数据D=(v n,t n,y n),n= 1,.,其中v ∈V表示视觉信息,t ∈ T表示文本描述,y ∈ Y表示类别标签,则图像和文本分类器函数fv:VY和ft:TY通过最小化经验风险来学习:CNN模型。然而,仅仅通过显著性提取,目标区域的准确性不够,因此需要进行联合分割,使目标区域更加精确。1ΣNNn=1n(yn,fv(vn))+n(yn,ft(tn))(1)对于细粒度图像分类是准确的。示例对象定位结果如图3所示。式中:y×y→R为0-1损失,fv(v)=argmaxEt <$T(y)[F(v,t)](2)y∈Y3.2. 共同塑造视觉和语言考虑到两种不同的描述,一个im-ft(t)=argmaxEy∈YvV(y)[F(v,t)](3)年龄是互补的,即。视觉信息和自然语言描述,我们联合建模两种不同形式的描述,以学习更好的分类精度的深层表示。3.2.1视觉流视觉分类功能的自然候选者f是一个CNN模型,它由卷积层和全连接层组成。 由于额外的训练数据,我们可以从模型预训练中受益。这已经被大量的识别任务所证明,例如对象检测,纹理识别和细粒度图像分类[29,30,31,32]等。因此,我们使用在ImageNet数据集上预训练的CNN模型[33]作为我们实验中的基础模型。然后,我们在细粒度数据集上微调预训练的CNN模型。然后定义相容性函数F:VY R使用来自可学习编码器函数θ(v)的特征用于图像,φ(t)用于文本:F(v,t)=θ(v)Tφ(t)(4)我们应用GoogleNet [36]作为图像编码器模型,卷积递归网络(CNN-RNN)[34]作为文本编码器模型,这将在下一段中讨论文本编码器模型我们应用CNN-RNN [34]来学习细粒度的视觉描述。在CNN-RNN模型的底部有一个中间层的时间CNN隐藏层,并在其上堆叠一个递归网络。我们提取序列上的平均隐藏单元激活作为文本特征,如等式5所示。所得到的评分函数被定义为与需要识别的图像的兼容性的证据的线性累积1ΣL给定图像I,在对象定位阶段生成其对象区域b,然后从对象区域b裁剪对象区域b。φ(t)=L i=1中国(5)原始图像并保存为图像I′。我们将原始图像I及其目标图像I′作为5998其中hi表示第i帧的隐藏激活向量,L表示序列长度。5999类别愿景语言(1) 一种全身灰色深浅不一的大鸟,尾羽黑白相间,喙长而尖,呈橙色。(2) 这只鸟是灰色和黑色的颜色,与橙色的喙。(3) 这只鸟有黑色的外部网和白色的内部网和橙色的喙。...愿景海尔曼鸥语言这种鸟有灰色的身体,白色的头,橙色的喙,黑色的翅膀,跗和脚。(2)A白色的鸟,黑色的翅膀,橙色的嘴和眼睛。(3)这只白色的鸟有一个明亮的橙色的法案与黑色的提示。...红脚姬鹬(1) 这只鸟有白色的头,胸部和腹部,灰色的翅膀,红色的脚和大腿,还有红色的(2) 这是一只白色的鸟,灰色的翅膀,红色的脚蹼和红色的喙。(3) 长着橙色喙和灰色翅膀的白色羽毛的长鸟。...这只白色的鸟有灰色的翅膀和尾巴,橙色的脚和跗骨,尖尖的黄色喙。(2)这种鸟有一个醇厚的黄色的法案着色和深红色的脚(3)这只鸟有一个黄色的喙,白色的头和橙色的蹼脚...波希米亚蜡翼(1) 这只鸟是浅灰色的,在它的尾巴下的翅膀,脖子和皇冠上有一个浅橙色的斑点,还有一个黑色的颧骨条纹和颈背。(2) 这是一只灰色的鸟,长着红黄相间的尾巴和红色的脸。(3) 这只鸟有灰色和黑色的翅膀,有一个红色的冠(1)这种色彩鲜艳的鸟有一个橙色的皇冠,黑色的眉毛和第二次与初级的黄色镶边。(2)这只鸟是灰中带红的,有一个长而尖的喙。(3)这只鸟有一个棕褐色的尖冠和短喙。...图4. CUB-200-2011的自然语言描述示例3.3. 最终预测给定一幅图像I,通过定位方法自动获得其目标边界区域双流模型对原始图像及其目标定位进行处理。视觉流仅从图像的角度给出预测,而语言流通过测量具有共享兼容性函数的图像和文本描述给出预测。最后,我们通过以下等式融合两个流的预测结果以利用两者的优点:f(I)=fv(v)+βft(t)(6)其中fv(v)和ft(t)是如上所述的图像和文本分类器函数,并且β通过交叉验证方法来选择。在实验中,我们将β设为3。4. 实验本节介绍了我们的CVL方法在具有挑战性的细粒度图像分类基准CUB-200-2011 [7]上的评估和分析。它包含200种鸟类的11,788张图像,其中5,994张用于训练,5,794张用于测试。每张图片都有详细的注释:15个零件位置、312个二进制属性和1个边界框。ScottReed等.[34]通过收集细粒度的视觉描述来扩展CUB-200-2011数据集。为每个图像收集十个单句视觉描述 , 如 图 4 所 示 。 细 粒 度 的 视 觉 描 述 通 过 AmazonMechanical Turk(AMT)收集4.1. 实现细节视觉流在我们的实验中,我们应用广泛使用的VGGNet[42]模型作为视觉流模型。选择VGGNet的原因是为了与最先进的方法进行公平比较值得注意的是,我们提出的方法中使用的模型可以用任何CNN模型替换。该模型在ImageNet数据集上进行了预训练,然后在CUB-200-2011数据集上进行了微调。在微调步骤中,我们遵循TL Atten [2]的策略。首先,我们应用选择性搜索[43]为每个图像生成补丁。然后,ImageNet数据集上的预训练CNN模型被用作过滤网络,用于选择与对象相关使用选定的补丁,我们对预训练模型进行微调。语言流在我们的实验中,我们应用GoogleNet [36]和批量归一化[44]作为图像编码器,CNN-RNN [34]作为文本编码器。对于图像编码器,采用了视觉流中的编码策略,提高了编码精度.对于文本编码器,对于字符级模型,CNN输入大小(序列长度)设置为201。我们保持图像编码器固定,并使用基本学习率为0.0007和minibatch大小为40的RMSprop用于训练和测试的所有配置和源代码1都遵循Scott Reed等人的工作。[34]。4.2. 与最先进方法的为了比较的目的,我们采用了12个国家的最先进的细粒度图像分类方法。表1显示了CUB-200-2011的比较结果。边界框平台,并且至少10个字,没有任何信息物种、背景和行为。1https://github.com/reedscot/cvpr20166000→方法列车注释测试注释准确度(%)Bbox部分Bbox部分我们的CVL方法85.55PD [5]84.54空间Transformer [37]84.10[38]第三十八话84.10[19]第十九话81.01[2]第二次世界大战77.90VGG-BGLm [39]75.90[18]第十八话[40]第四十话VGG-BGLm [39]基于部分的R-CNN [3]√√√√√√√√82.8080.7080.4073.50[41]第四十一话基于部分的R-CNN [3][14]第十四话GPP [15]√√√√√√√√√√√√√√√85.1476.3773.3066.35表1.与CUB-200-2011上最先进方法的比较,按所使用的注释量排序视觉与语言相结合的方法。“Bbox”指示对象注释(即,对象的边界框),以及√“部件”表示部件注释(即零件位置)。 “ ” indicates that one of bounding box and part locations is used in或测试阶段。由于所使用的注释的确切数量因方法而异,因此我们遵从原始源代码以获取详细信息。并且列出了方法中使用的部分注释以进行公平比较。早期作品[14,15]选择SIFT [45]作为特征,性能有限。当应用CNN模型时,我们的CVL方法是最好的。在我们的实验中,对象和部分注释都没有使用,因为标记是非常耗费劳动力的。与不使用对象和部分标记的方法[37,38,19,2,5]相比,我们的CVL方法比PD [5]的最佳性能结果高出1.01%。此外,我们的CVL方法优于使用对象注释[18](82.50%)甚至部分注释[41,46](85.14%,76.37%)的方法。实验结果表明,本文提出的视觉流和语言流相结合的CVL方法能够有效地利用视觉特征和自然语言描述之间的相关性,增强两者的互补性。4.3. 我们CVL方法4.3.1视觉流和语言流的一致性我们进行详细的分析,通过比较不同的变量,我们的CVL方法。 从表2中,我们可以观察到:• 视觉与语言相方法准确度(%)我们的CVL方法(视觉流+视觉流)85.55河流81.81视觉流82.98原始76.17表2. 我 们的 方 法的 不 同变 体对 CUB-200- 2011 的 影响 。“Language-stream” refers to the classification result of thelanguage显著提高了性能。CVL带来了近10%(76.17%85.55%)的改善相比,语言流的分类结果是有希望的。从图5中每一行的第一行可以发现,得分最高的文本描述总是指出有区别的部分或特征。如图5所示,红色单词是区分子类别的重要视觉描述,蓝色单词是容易混淆的子类别的视觉结合视觉和语言可以实现比只有一个流更准确的结果(85.55%对。81.81%和82.98%),这表明视觉信息和文本描述在精细化方面是互补的··6001类别图像文本排名列表(前3名)黑信天翁这只鸟有灰色的翅膀和黑色的喙。(2)这种鸟是灰色的,有一个大的弯曲的喙。(3)这只鸟是白色和棕色的颜色,并有一个黑色的喙。加州鸥(1)这种鸟有大的脚,短黄色的喙,和黑色和白色的身体。这种鸟的翅膀是灰色的,腹部是白色的,喙是黄色的。这只鸟有一个黄色的喙和白色的肚子。蓝柳莺(1)A一种小鸟,短而灰的喙,蓝冠,颈背,白胸。(2)鸟有白色的腹部,黑色的胸部和白色的喉咙,蓝色的斑点。(3)这只鸟是蓝色和白色的颜色与黑色的喙,和黑色的眼睛戒指。图5. 语言流的一些结果。红色词语是区分小类的重要视觉描述,蓝色词语是易混淆小类的视觉描述。粒度图像分类这两个方向有不同的重点,但互补。(1)视觉流通过CNN模型对图像的目标区域进行定位,并从原始像素中提取视觉特征,重点关注识别区域的位置以及我们称之为纹理、颜色甚至语义部分然而,我们并不知道或正确地学习哪些部分或特征是与其他子类别最(2)语言流学习自然语言描述和视觉特征之间的相关性,以利用区分区域的属性来区分子类别。自然语言描述直接指出区别于其他子类别的关键部分或特征,例如,蓝柳莺有蓝色的冠、背和白色的胸,而黑信天翁有灰色的翅膀和黑色的喙。4.3.2微调和目标定位与工作[34]有两个不同之处:(1)不是直接使用GoogleNet,而是首先在CUB-200-2011上对其进行微调,以及(2)为每张图像提取原始图像及其对象区域的特征。我们发现,(1)和(2)不仅对细粒度图像分类很重要,而且对零炮识别也很重要,分别如表3和表4实验结果也证明了CVL方法在视觉流中目标定位的有效性,该方法聚焦于图像的可区分区域,消除了背景噪声的影响5. 结论本文提出了CVL方法,该方法联合建模视觉和语言,以学习潜在的方法准确度(%)Language+ft+box81.81简体中文77.80语言50.54表 3. 微 调 与 目 标 定 位 对 细 粒 度 影 像 分 类 之 影 响 。 “ft”indicates fine-tuning is applied, and “box” indicates objectlocalization is方法前1位准确度(%)DS-SJE+ft+box65.1DS-SJE+英尺60.0DS-SJE [34]54.0表4.微调和目标定位对零炮识别的影响“ft” indicates fine-tuning is applied, and “box” indi- cates object localization is语义表征视觉流通过深度卷积神经网络从原始视觉信息中学习深度表示。语言流利用自然语言描述,其可以指出每个图像的区别性部分或特征,并且提供用于区分子类别的突出视觉方面的编码的灵活且紧凑的方式。由于这两个流是互补的,因此组合这两个流可以进一步实现更好的分类准确性。在CUB-200-2011数据集上的实验结果表明,与现有方法相比,该方法具有更好的性能.结果是有希望的,并指出了一些未来的方向。首先,结合视觉和语言可以提高分类精度,但这两个流是分别训练的,我们将重点放在端到端训练两个流的工作上。二是从6002表3我们可以发现,对原始语言流的小改进大大提高了性能。现在有很多的工作集中在如何将图像与自然语言描述联系起来。因此,提高语言流的性能将对细粒度的图像分类有6. 致谢本 工 作 得 到 国 家 自 然 科 学 基 金 项 目 61371128 和61532005的资助。引用[1] 黄绍利、徐哲、陶大成、张雅。用于细粒度视觉分类的部分堆叠cnn。arXiv预印本arXiv:1512.08086,2015年。一、二[2] Tianjun Xiao , Yichong Xu , Kuiyuan Yang , JiaxingZhang,Yuxin Peng,and Zheng Zhang.两级注意力模型在用于细粒度图像分类的深度卷积神经网络中的应用。在IEEE计算机视觉和模式识别会议集,第842-850页,2015年。一、二、五、六[3] 张宁,杰夫·多纳休,罗斯·格希克,特雷弗·达雷尔. 用于细粒度类别检测的基于零件的r-cnn欧洲计算机视觉会议,第834Springer,2014. 一、二、六[4] 何翔腾和彭宇新。细粒度图像分类中带空间约束的部分选择模型的弱监督学习。在AAAI商业情报会议上,第4075-4081页,2017年。第1、3条[5] Xiaopeng Zhang , Hongkai Xiong , Wengang Zhou ,Weiyao Lin,and Qi Tian.选取深度滤波器响应以进行细粒度图像识别。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第1134-1142页一、二、六[6] Thomas Berg,Jiongxin Liu,Seung Woo Lee,MichelleL Alexander,David W Jacobs,and Peter N Belhumeur.鸟快照:对鸟类进行大规模的细粒度视觉分类2014年IEEE计算机视觉和模式识别会议,第2019-2026页。IEEE,2014。1[7] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。2011. 一、二、五[8] Aditya Khosla,Nityananda Jayadevaprakash,Bang pengYao,and Fei-Fei Li.用于细粒度图像分类的新数据集:斯坦福的狗。在Proc. CVPR Workshop on Fine-GrainedVisual Categorization(FGVC),第2卷,2011中。1[9] Anelia Angelova和Shenghuo Zhu。高效的对象检测和分割,用于细粒度识别。在IEEE计算机视觉和模式识别会议的Proceedings,第811-818页,2013年。1[10] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。在2013年IEEE计算机视觉研讨会国际会议论文集,第554-561页。1[11] Subhransu Maji 、 Esa Rahtu 、 Juho Kannala 、 MatthewBlaschko和Andrea Vedaldi。飞机的细粒度视觉分类。arXiv预印本arXiv:1306.5151,2013。1[12] 蔡宇宁,维克多·伦皮茨基,安德鲁·齐瑟曼。用于细粒度分类的共生分割和部分定位。在Proceedings of theIEEE International Conference on Computer Vision , 第321-328页2[13] Shulin Yang , Liefeng Bo , Jue Wang , and Linda GShapiro.用于细粒度对象识别的无监督模板学习。神经信息处理系统进展,第3122-3130页,2012年。2[14] 托马斯·伯格和彼得·贝尔胡默尔。Poof:基于零件的一个- vs.-一个特征在于细粒度分类、面部验证和属性估计。在IEEE计算机视觉和模式识别会议论文集,第955-962页,2013年。二、六[15] 谢灵犀、齐天、洪日昌、颜水城、张波。用于细粒度视觉分类的层次部分匹配。IEEE International Conferenceon Computer Vision,第1641-1648页,2013年二、六[16] 张宁,瑞安·法雷尔,福雷斯特·伊多拉,和特雷弗·达雷尔. 用于细粒度识别和属性预测的可变形零件描述符2013 年 IEEE International Conference on ComputerVision,第729-736页IEEE,2013。2[17] Steve Branson,Grant Van Horn,Serge Belongie,andPietro Perona.使用姿势归一化深度卷积网络进行鸟类分类。arXiv预印本arXiv:1406.2952,2014年。2[18] Jonathan Krause,Hailin Jin,Jianchao Yang,and Li Fei-Fei.无需零件注释的细粒度识别。在IEEE计算机视觉和模式识别会议的Proceedings,第5546-5555页,2015年。二、六[19] MarcelSimon和ErikRodnerNeuralactivationconstellations : Unsupervised part model discovery withconvolutional networks.IEEE International Conference onComputer Vision,第1143-1151页,2015年。二、六[20] 哈罗德·霍特林两组变量之间的关系Biometrika,28(3/4):321-377,1936. 3[21] 她叫布里丁和杰拉德·肖莱特。用于说话人身份验证的视听语音同步2007年IEEE,2007年。3[22] David R Hardoon 、 Sandor Szedmak 和 John Shawe-Taylor。典型相关分析:学习方法应用概述。神经计算,16(12):263936003[23] Benjamin Klein Guy Lev Gil Sadeh和Lior Wolf使用Fisher向量将神经词嵌入与深度图像表示相关联在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition,pages 44373[24] 翟晓华,彭宇欣,肖建国。用于跨媒体检索的具有联合图正则化的异构度量学习。InAAAI,2013. 3[25] 翟晓华,彭宇欣,肖建国。使用稀疏和半监督正则化学习跨媒体联合表示。IEEE Transactions on Circuits andSystems for Video Technology,24(6):965-978,2014.3[26] Jiquan Ngiam , Aditya Khosla , Mingyu Kim , JuhanNam,Honglak Lee,and Andrew Y Ng.多模态深度学习。第28届国际机器学习会议(ICML-11),第689-696页,2011年。3[27] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。3[28] Xiang Zhang,Junbo Zhao,and Yann LeCun.用于文本分类的字符级卷积网络。神经信息处理系统的进展,第649-657页,2015年3[29] Mircea Cimpoi , Subhransu Maji , Iasonas Kokkinos ,Sammy Mohamed,and Andrea Vedaldi.描述野外的纹理。IEEE计算机视觉和模式识别会议论文集,第3606-3613页,2014年。4[30] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。在ICML,第647-655页,2014中。4[31] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 5804[32] Ali Sharif Razavian 、 Hossein Azizpour 、 JosephineSullivan和Stefan Carlsson。Cnn的特色现成的:一个惊人的识别基线。在IEEE计算机视觉和模式识别研讨会会议论文集,第806-813页,2014年。4[33] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR2009。 IEEE会议,第248-255页。IEEE,2009年。4[34] Scott Reed,Zeynep Akata,Bernt Schiele,and HonglakLee. 学 习 细 粒 度 视 觉 描 述 的 深 度 表 示 arXiv 预 印 本arXiv:1605.05395,2016年。四、五、七[35] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价。IEEE计算机视觉和模式识别会议论文集,第2927-2936页,2015年。4[36] Christian Szegedy , Wei Liu , Yangqing Jia , PierreSermanet , Scott Reed , Dragomir Anguelov , DumitruErhan,Vincent Vanhoucke,and Andrew Rabinovich.更深的回旋。在IEEE计算机视觉和模式识别会议论文集,第1-9页四、五[37] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统进展,2017-2025页,2015年。6[38] 林宗宇,Aruni RoyChowdhury,Subhransu Maji。用于细 粒 度 视 觉 识 别 的 双 线 性 cnn 模 型 。 在 IEEEInternational Conference on Computer Vision的会议记录中,第1449-1457页,2015年。6[39] 周峰和林元庆。通过探索二分图标签进行细粒度图像分类。arXiv预印本arXiv:1512.02665,2015年。6[40] Yin Cui,Feng Zhou,Yuanqing Lin,and Serge Belongie.使用深度度量学习进行细粒度分类和数据集自举,人类参与其中。arXiv预印本arXiv:1512.05227,2015。6[41] Han Zhang , Tao Xu , Mohamed Elhoseiny , XiaoleiHuang , Shaoting Zhang , Ahmed Elgammal , andDimitris Metaxas. Spda-cnn:统一语义部分检测和抽象以实现细粒度识别。第1143-1152页,2016年。6[42] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。5[43] Jasper RR Uijlings,Koen EA van de Sande,Theo Gev-ers,and Arnold WM Smeulders.目标识别的选择性搜索 。 International Journal of Computer Vision , 104(2):154-171,2013。5[44] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。5[45] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志,60(2):91-110,2004. 6[46] 张宁,杰夫·多纳休,罗斯·格希克,特雷弗·达雷尔. 用于细粒度类别检测的基于零件的r-cnn欧洲计算机视觉会议,第834-849页。Springer,2014. 6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功