没有合适的资源?快使用搜索试试~ 我知道了~
1将头部链接到Mohamed Elhoseiny1, 2 Yizhe Zhu1,Han Zhang1,and AhmedElgammal1elhoseiny@fb.com,yizhe. rutgers.edu,{han.zhang,elgammal} @cs.rutgers.edu1Rutgers University,Department of Computer Science,2FacebookAI Research摘要在本文中,我们研究学习视觉分类器从非结构化的文本描述部分精度,没有训练图像。我们提出了一个学习框架,能够将文本术语与其相关部分联系起来,并在没有任何部分文本注释的情况下抑制例如,这个学习过程使像“喙”这样的术语能够稀疏地链接到像头部这样的图像由基于部件的CNN编码,该CNN检测鸟类部件并学习特定部件的表示。基于部分的视觉分类器是从看不见的视觉分类器的文本描述中预测的,以便于在没有训练图像的情况下进行分类(也称为零拍摄识别)。我们在CUBirds 2011数据集上进行了实验,并将最先进的基于文本的零射击识别结果从34.7%提高到43.6%。我们还在北美鸟类图像上创建了大规模的基准测试,并添加了文本描述,我们还表明我们的方法优于现有方法。我们的代码、数据和模型都可以通过链接[1]获得。1. 介绍仅从类别描述识别视觉类别是人类学习和泛化的一个吸引人的特性,这是为了更好地实现机器智能而需要建模的。这个问题被称为在实践中,这是由于大多数对象类别缺乏注释的训练数据,特别是[40、52])。例如,存在数万种鸟类类别,其中仅数百种类别的图像在前向数据集中可用(5%)[48]。<有些鸟类种类在现实世界中是稀缺的早期的零炮识别方法依赖于描述* 两位作者对这项工作的图1.人们可以从部分级别的文本描述中学习视觉类通过一组语义上有意义的属性(attributes)[16,24]。零触发学习属性成功背后的基本原理是,它们被建模为类标签和图像之间的中间层,这使得共享概念/属性能够从可见类转移最近的属性方法通过图像和属性的联合嵌入来改善跨类的信息传递[4,49,10,5]。虽然属性可以在没有任何图像的情况下用人类可解释性来语义描述类,但它们通常需要领域专家来定义。还需要为每个可见和不可见的类收集数百个这些属性注释,这是令人沮丧的。为了缩小机器和人类智能之间在这一任务上的差距,最近的方法[14,26,6,36]探索了从在线文本描述中进行零射击学习,这反过来又避免了每个类的沉重属性注释的负担。使这种设置非常具有挑战性的是,这些描述以嘈杂的百科全书文章的形式出现,不仅包括关于视觉外观的视觉描述,而且还讨论了该类别的行为,繁殖,移民等。我们的工作旨在设计一个可解释的模型在这个方向。先前的作品[36,39,26,6]使用对象和文本描述两者的整体特征表示(例如,词频向量对于鸟文本描述是公共的,并且是整个对象的视觉特征向量贡献在我们的工作中,我们提出了一个有效的模型,可以将视觉类别的文本信息与基于部分的正则化的图像相关联。图1示出了文本部分连接能力,我们的目标是在我们的工作模型,其中鸟类识别从文本描述相关的文本条款的图像中的部分(例如,相关的56405641(图为鸟的头部)。注意,该任务不同于现有的视觉基础任务(例如,[35,18]),其在训练期间需要对象(文本短语)注释,并且主要在对象级别/而不是在部分级别进行研究。我们的方法是能够平息噪声的文本描述,消除不相关的文本信息,而不需要部分文本对应注释或部分注释在测试时。我们的模型由两个网络组成,VPDE网络被提供鸟类图像,检测鸟类部分,并学习每个部分的CNN特征表示。PZSC-net从鸟类的噪声文本描述中预测基于部分的零触发分类器,该分类器在VPDE-net产生的部分CNN表示上执行。除了在CUB数据集[48]上进行评估外,我们还通过使用从维基百科和AllaboutBirds网站[2]中提取的相应非结构化文本文章扩展NABIrds数据集[43]来建立新的零射击基准。这是基于文本的零射击学习的最大现有基准的五倍2. 相关工作基于属性的方法:除了手动指定的属性(例如,[25,16,24,33]),一些研究人员已经探索了各种属性应用,并试图自动发现这些属性[9,37,29,38]。最近方法在连续空间中对属性进行建模(例如,[4,21])。这些方法的主要思想是学习将属性与图像相关联的变换矩阵W我们将这些方法命名为其他零触发方法使用基于属性和类标签构建的图/超图(例如,[17、20])。与基于图/超图的方法相比,基于变换的方法最近已经显示出更好的性能,并且同时在细粒度识别(例如,[39,6,5])。基于文本的方法:与本文相关的研究方向是探索使用来自网络的文本文章来预测零射击视觉分类器。Elhoseiny等人[14个]提出了一种方法,结合域转移和回归预测视觉分类从TF-IDF文本表示。Bo等人[26]采用深度神经网络来预测卷积分类器,导致零射击分类的最近,Qiaoet al.[36]重新审视了正则化对零触发学习的重要性他们表明,像[39]这样的基于属性的公式在应用于文本时,只需将属性表示替换为文本特征向量,即可实现具有竞争力的零拍摄性能。他们进一步证明,文本描述中的噪音可以通过鼓励文本术语连接上的组稀疏性与基于转换的方法类似,大多数基于文本的方法(例如,[14,36,39]),也是关于学习转换,将图像与共同空间中的文本联系起来。在我们看来,最近的大部分进展都是通过使用深度神经网络(例如, [26])和/或更好的正则化以抑制文本中的噪声(例如,[36、39])。在我们的工作中,我们建立在现有方法的基础上,并证明了与上述方法中的整个图像相比,基于部分的正则化可以显着改善零拍摄识别。值得一提的是,在[3]中,Akataet al.研究了多线索的零触发学习,他们使用了鸟类的部分。我们的工作有两个关键区别(1)在[3]中,除了文本术语之外,还使用了WordNet [31]和单词嵌入[30,34]的多个来源,而我们只使用文本术语。(2)他们使用19个鸟类部位的注释进行训练,然而,在测试时,该方法无法定位这些部位,因此需要部位测试注释与其多个线索相关在我们的工作中,我们证明了在测试时仅使用文本术语并且不需要部分注释的显著更好的性能此外,在训练时,只需要7个部分的注释,而不是更容易收集的19个部分其他语言视觉方法&:在像图像字幕这样的其他任务 中 ( 例 如 , [22 , 47 , 15] ) 、 VQA ( 例 如 ,[7]),图像-句子相似性(例如,[23,45]),更好的性能已被证明具有更好的图像和语言表示。用于这些方法的典型数据集中的文本注释由众包服务(例如,MS-COCO [28] 或 Flick 30 K 数 据 集 [50] 中 每 句 话 5 个 字幕)。与这些设置相反,我们工作中的文本描述是在类别级别(例如,“Cardinal”类的一个文本描述)。因此,在我们的设置中,文本要少得多,同时文本要嘈杂得多,正如我们前面所描述的。在我们的实验中,我们建立了一个图像-句子相似性基线,以研究方法中的表示在应用于非常嘈杂的文本时的性能,因为在我们的设置中,只有一小部分文本是视觉相关的。3. 该方法将非结构化文本连接到鸟类部分需要语言和视觉表示,以促进从文本到图像的部分级别的相互传输,反之亦然。我们的目标还在于一种公式,其在训练时不需要文本到部件的标记,在测试时也不需要oracle部件注释(例如,[3])。图2显示了我们的学习框架的概述。我们的方法开始于一个简单的原始文本表示,包括词频;参见第3.1节。然后将文本表示馈送到维度缩减步骤中预测的分类器应用于通过深度卷积神经网络(CNN)学习的基于部件的特征表示。在下面的小节中,我们将描述文本和可视部分编码器,然后定义5642X检测子网语义部分检测部分提案RoI池FC图层和回归量输出:a) Part Bbox回归量b) Softmax(部件评分)1. 头部2. 后退3。四号肚子。 乳房5. 第六腿7号楼尾巴共享Conv层编码器子网络语 义 部分ROI池从VGG16拱门视觉零件检测器/编码器512x(1)512512x(2)x(3)512x(4)512x(5)512 512x(6x(7FC层(softmax在可见类上的丢失z(1)(t)z(2)(t)z(三)( z(4)(t)z(5)(t)z(7)(t)不W不小鹦鹉海雀是一种小(23厘米)海雀与短橙色的法案,是上翘给鸟的好奇心固定的表情。这种鸟的羽毛是上黑下白的,眼睛后面有一根白色的羽毛7部分零炮分类器预测不TF-IDF小鹦鹉海雀是一种小(23厘米)海雀,有一个短的橙色喙,向上翻,给鸟好奇的固定表情。这种鸟的羽毛是上黑下白的,眼睛后面有一根白色的羽毛零件FC层(每个零件分别对应一层)dX = 512图2. 我们的方法(最佳颜色):在底部是我们的方法的核心,其中输入是纯文本描述,并通过降维变换Wt以及部分投影Wp,p=1:P产生分类器,其中P是部分的数量。然后将产生的P分类器应用于通过从顶部视觉CNN检测到的部件产生的部件学习表示。RoI是指感兴趣区域池[19]。FC是指完全连接的层。VGG卷积层是指VGGNet-16中的前五个卷积层[42]问题和建议的方法上的这些编码器。3.1. 文本编码器与[14,26]类似,文本文章首先被标记为单词,并删除停止词然后,提取简单的词频-逆文档频率(TF-IDF)特征向量[41]。我们用t∈RdT表示文本文章t的TF-IDF表示,其中dT是TF-IDF文本表示中的项数。3.2. 视觉部件CNN检测器/编码器(VPDE)检测语义部件有助于对可以在部件级与非结构化文本术语相关的表示进行建模。在[51]中显示,鸟类部分的 检 测 精 度 为 93.40%, 而 早 期 方 法 的 检 测 精度 为74.0%[27]。我们采用快速RCNN框架[19]和VGG16架构[42],使用[51]中提出的小部分建议方法来检测七个小鸟部分。七个部分依次是(1)头,(2)背,(3)腹,(4)胸,(5)腿,(6)翅和(7)尾;见图2。我们将视觉部分编码器的输入图像表示为x。首先,通过VGG16卷积层处理图像x。亲-然后将[51]在x上设置的区域与3×3网格合并为ROI然后,它们通过8路分类器(7个部分+背景)和边界框回归器。如果部分p的置信度大于阈值(即,1/7)。如果部分p的最高置信度小于阈值,则认为部分p缺失。然后将检测到的部分区域传递到视觉编码器子网络,ROI(3×3)将这些区域合并,并最终将每个部分编码为512维学习表示。当一部分丢失时,全零区域被传递到编码器子网络。我们将鸟图像x的这些部分学习表示表示为x(1),x(2),· · ·,x(P);参见图1中从x到部分表示的流程2(顶部从左上角的蓝色箭头开始)。稍后我们 将 详 细 介 绍 如 何 训 练 视 觉 零 件 检 测 器 / 编 码 器(VPDE)网络我们将部分特征的维数记为dp,其中x(p)∈RdP<$p,dp=512。3.3. 问题定义在训练过程中,信息来自K个看到的类的图像我们把学习5643XXXXXXXXXX不LXzp=1kxjP中国WxF1xtFN个训练示例的检测部分的表示,其中|| · ||F是Frobenius范数。第一项在Eq。3设{X(p)∈RdP×N},p=1:P,其中P是鼓励对于每个图像x,z(p)T(p)jp=1(tk)·xj=零件. 我们将K个可见类的文本表示记为T∈RdT×K。我们定义Y∈ {0,1}N×K作为单热表示中每个示例的标签矩阵(即,Y中的每一行都是零的向量,除了在对应的类标签索引处)。在测试时,给出了K个类,我们需要为每个测试图像分配正确的标签形式上,图像x的标签分配被定义为:ΣP(tTW tTWp)T·x(p)等于1,如果k是地真值类,其他类为0。这使得z(p)(t)能够预测任意文本t的部分分类器(即, 高(→1)表示正确的类,低(→0)表示其他类)。第二项限制函数{z(p)(t)= tTW tTWp <$p}的方差。更重要的是,第三项将结构强加于Wt和{Wpp},以鼓励将每个文本术语与部分的稀疏集合(即,每一个新学期都要作为四个部分来对待P.T.尽可能)。 第三项P||WpTW t||被定义二、一k*=arg maxz(p)(tk)·x(p),k=1:K(一)PpTip=1x第ikp=1当p=1时i=1||宽x wt||2,wt是i色谱柱(Wt)对应于第i个文本项的矩阵,WpTwi∈RdXX t其中{x(1),x(2),· · ·,x(P)}是图像x的部分学习表示,tk是类k的文本表示,并且z(p)(t)是采用文本表示t并预测部分p的视觉分类器权重的函数。工作中是将第p部分连接到第i文本项的权重。因此,第三项鼓励将每个文本项i连接到每个部分的参数组上的组稀疏性p(即WpTwi),它鼓励将术语连接起来X t目的是联合学习和正则化z(p)(·),以鼓励文本术语与稀疏的部分集相关联。3.4. 零件零炮分类器预测(PZSC)部件视觉分类器预测函数被定义为z(p)(t)=tTWtTWp,p∈1:P(2)其中,Wt∈Rd×dT是降维矩阵,其将文本表示t∈RdT投影到潜在空间中,对于每个部分p,Wp∈Rd×dP,然后将投影的文本表示回归到部分p的分类器中;参见图。 2(底部从左下角的蓝色箭头开始)。因此,z(p)(t)Δp主要由Wp和Wt控制,因为t是输入。接下来,我们将详细说明Wt和Wpp是如何联合训练的。3.5. 模型优化和训练一个有趣的研究方向通过向学习参数引入不同的结构(例如,[39、36])。在[39]中。最小化从图像到属性空间的投影的方差以及从属性空间到图像的投影的方差是改进基于属性的零炮预测的关键。在[36]中,Qiaoet al.使用[32]中提出的l2,1稀疏我们受到这些正则化技术的启发,在图中训练我们的框架。2具有以下成本函数:到稀疏的部分。最 佳 化 : 模 型 参 数 包 括 视 觉 零 件 检 测 / 编 码 器(VPDE)网络的零件检测子网络参数和零件表示子网络参数,零触发分类预测器(PZSC )网络的{Wp,p=1:P},Wt. VPDE网络通过交替优化检测器和具有训练图像的表示子网络来训练。检测器子网络通过8个输出(7个部分和背景)的softmax损失和边界框回归进行优化,以预测每个检测到的部分的最终框。表示子网络通过softmax loss在seen/training类上进行优化。 卷积层在检测和表示子网络之间共享(我们工作中的VGG 16 conv层);见图。 2(顶部)和补充的架构细节。 在训练VPDE网络之后,我们求解方程中的目标函数。3来训练零件零次分类器预测器。等式中的成本函数 3是凸的,如果单独优化W t或{Wp,p=1:P},但不是凸的。因此,我们求解Eq。3通过交替优化,其中我们固定W t并求解{Wp,p =1:P},然后固定{Wp,p=1:P}并求解W t。求解Wt:遵循[32]中的有效l2,1组稀疏优化方法,该子空间的解是问题可以通过顺序求解下一个问题直到收敛来有效地实现P最小值,{Dp,p}ΣP||(X(p)TWpT)W T−Y||2+λ Σ||WpTW T||2min||(X(p) WpT)W t T −Y||2个以上tlp=1p=1XFW1,···,WP,WtPx xp=1pTpTp联系我们λ||WpTW T||2+ λ||WpTW||+λ2p=1Tr(WxWtDlWtWx)(四)1p=1xtF2p=1Xt(三)其中Dp是对角矩阵,第i个对角元素为1/(2||Wp(wi)(l−1)||2)在第l次迭代时为2,其中5644Xz(p)XFXFXLXX不zXxX算法1:交替优化以求解方程1.3输入:T,Y,X(1),···X(p)输出:Wt、W1、· · ·、WP1用标 准高斯 分布初始化Wt和W1,···,Wp。2 初始化Wt turn=false3,对于l=1···Ldo4更新Dl文件5if(Wt turn=true)then6用等式求Wt4用拟牛顿BFGS;7其他8用等式 找到{Wp}5.拟牛顿BFGS;9Wt转=非Wt转10如果收敛,11个破发12端部13端部(wi)(l−1)是迭代l−1时Wt解的第i列。我们意识到很难找到方程的封闭形式解。4或甚至将其简化为Sylvester方程[8]。因此,我们求解Eq。4通过具有有限存储器BFGS更新的拟牛顿(即,基于梯度的优化)。导出的梯度方程。4个子问题附在补充资料中。求解Wp:在这一步中,我们解决以下子问题。鸟类数据集,1011类,48562张图片。它构造了一个鸟类的层次结构,包括555个叶节点和456个父节点,从根类“鸟”开始。只有叶子节点与图像相关联,并且父类的图像可以通过合并其子节点的所有图像来收集。在实践中,我们发现一些对类只是性别不同。例如,父节 点 “American Kestrel” 被 划 分 为 “American Kestrel( Female , immature ) ” 和 “American Kestrel ( Adultmale ) " 。 由 于 我 们 找 不 到 这 种 微 妙 的 类 划 分 的Wikipedia文章,我们将这些类对合并到它们的父类中。经过这样的处理,我们最终得到了404个类,每个类都与一组图像相关联,以及来自维基百科的类描述我们从英语维基百科-v01.02.2016中收集了原始文本来源我们手动验证了所有文章和增强类,并从所有关于鸟类的网站[2]中获得有限的描述我们计划发布这些数据和我们建立的NABird基准两个分割设置:为了将数据集分割为训练集/测试集,我们设计了两种分割方案,关于可见类与不可见类的接近程度的术语在数据集中,一些类往往是一个类别的进一步划分。例如,“黑脚信天翁”和“莱桑信天翁”都对于SCS,故意选择看不见的类min{Dp,Wp,p}ΣP||(X(p)TΣPp)W t T−Y||2+ λ1||WpT W tT||2在存在相同lxp=1ΣP+λ2Tr(WpTWtDpWtTWp)p=1超级类别。在该方案中,所见类和看不见的类是非常高的。相反,在SCE中,同一类别下的所有类都是看不见的类。XLxp=1(五)要么属于可见类要么属于不可见类例如,如果其中Dp是具有第i个对角元素的对角矩阵1/(2)||(Wp)(l−1)wi||2)在第l次迭代时为2,其中所有其他信天翁也是不可见的类,因此在训练期间看不到信天翁。不难看出(Wp)(l−1)是Wp在迭代l−1时的解。xx可见和不可见类之间的相关性是最小的,类似于Eq。4、解Eq。5、拟牛顿与BFGS更新中。导出的梯度方程。补充资料中附有5算法1示出了联合求解Wt和W1,· · ·,WP的总体优化过程。在SCE-split中。直觉上,SCE分裂比SCS分裂困难得多。这些零炮分裂策略在文献中用于CU-鸟类数据集,但在不同的作品中,x x不能互相比较对于CUB2011上的SCS拆分,我们用同样的分裂[3,36],其中150类火车-4. 实验4.1. 实验设置数据集:我们在两个数据集上比较了所提出的方法与最先进的方法:2011年[2014 - 04 - 28],《明史》卷44。两者都是用于细粒度分类的鸟类数据集。每幅图像中鸟的重要部位都由专家标注了位置。CUB2011数据 集 包 含 200 种 鸟 类 , 共 计 11 , 788 张 图 像 。 与CUB2011相比,NABIrds是一个更大的50个班级进行测试。对于CUB2011上的SCE分割,我们使用与[14]相同的分割,其中前80%的类被视为可见类并用于训练。为了在NABIrds中设计这两个分裂方案,我们首先检查类层次结构。在层次结构中,根类别(鸟)下存在22个子节点我们发现,第22个孩子(栖息鸟)的后代数量远远大于其余21个类的平均后代数量(205对10)。消除这种W5645不平衡,我们进一步将这一类别划分到其子女。将这个类别的29个子类别和根的其他21个子类别组合在一起,我们最终得到了50个超级类别(21+29)。对于SCS分裂,我们随机选择每个超类别下20%的后代类作为未见过的类。对于SCE-split,我们随机选择20%的超级类别,并将其所有后代类别视为不可见的类别。对于这两个分裂,分别有323个训练(可见)类和81个测试(不可见)类。为了便于演示,我们有时将SCS拆分称为易拆分,将SCE拆分称为硬拆分。文本表示:我们根据第3.1节中描述的方案提取文本表示。CUB 2011和NABIrds的TF-IDF特征维数分别为11083和13585。图像表示:如第3.2节所述,首先检测零件区域,然后将其传递到VPDE网络。512-为每个语义部分提取维度特征向量。对于CUB 2011数据集,我们只使用七个语 义部 分 来训 练VPDE网 络;如 图所 示 。 二、 对于NABird数据集,我们只使用了六个可视部分,并删除了4.2. 绩效评价基线和竞争方法:我们的方法的性能与六种最先进的算法进行了比较:[14][15][16][17][18][19]ESWL和ESWLNS的源代码可以在网上获得,我们从其作者那里获得WAC [14,13对于MCCALL和SJE,由于其源代码不可用,我们直接复制[3,6]中报告的非属性设置的最高分数图像-句子基线[46]:此外,我们通过将每个文本文档分解为句子并将其视为相应类别中所有图像的肯定句子,使用最先进的模型[46]进行然后,我们通过平均图像与该类中所有句子的相似性来测量图像与该类之间的相似性。图像使用VGGNet编码[42],句子由具有GRU激活的RNN编码[12]。这个实验的目的是研究RNN在我们的文本描述中的表现。我们 首先 将我 们的 方法 与MCCANL 进行 比较 ,MCCANL是性能最好的最先进的方法之一。我们的方法和MCCAML都利用了CUB2011数据集提供的部分标注,但与MCCAML在测试阶段直接使用部分标注提取图像特征不同,我们的方法在训练和测试阶段都只基于检测到的语义部分的不太准确的检测肯定会降低最终零炮分类的准确性。为了方法精度[3]第三届中国国际汽车工业展览会26.0[3]第三届中国国际汽车工业展览会32.1[3]第三届全国政协委员34.7Ours-DET37.2Ours-ATN43.6表1.性能与CUB2011数据集上的准确度(%)的比较。在[3]中,使用不同的文本表示来评估该方法:BoW、word2vec以及它们的组合。做一个公平的比较与MCCAML,我们也报告我们的结果使用地面实况标注的语义部分在测试时。我们的方法的基础上检测到的部分和地面实况部分的结果表示为在表1中,我们与[3]中报告的相同基准进行了比较,这是Cubirds 2011数据集上的SCS分裂。结果表明,我们的性能比[3]高9%(43.6% vs 34.7%),尽管我们只使用了一个简单的TF-IDF文本表示,而MCCAML中使用了多种线索,如文本,WordNet和word 2 vec。还请注意,[3]在训练和测试期间使用了19个部分注释(整个图像,头部,身体,完整对象和注释的15个部分位置表1还显示,即使在测试时使用检测到的部件,我们的方法仍然表现出2.5%的优势(37. 2% Ours-DET vs34.7%MCSSTOL使用地面实况注释)。在以下所有实验中,我们仅对检测到的部分(即,零射击顶级1精度。 对于标准的零拍摄图像分类,我们计算在看不见的类上获得的平均Top-1准确度。我们表演了一场-在CUBirds和NABirds上对SCS-(容易)和SCS-(困难)分裂进行的实验。注意,这些方法中的一些被应用 于 属 性 预 测 ( 例 如 , [36] , SynC [10] , ESPARL[39])或图像-句子相似性(例如,订单嵌入[46])。我们使用了这些方法的公开代码和其他基于文本的方法 , 如 ( WARLNS [36] , WAC [14] , WAC-kernel[13]),将它们应用于我们的设置。注意,用于零激发学习的常规分裂设置是超类别共享分裂(即,SCS-(容易)拆分)。我们认为评估SCS-(简单)和SCE-(硬)拆分的性能是复杂的,因此我们报告了这两种拆分的性能。在表2中,我们显示了我们的方法与CUB2011简单和硬基准测试中的所有基线之间的比较,其中方法在简单和硬基准测试中的表现明显优于所 有 基 线 注 意 , 图 像 - 句 子 相 似 性 基 线 ( 即 ,[ 46 ][47][48][49][我们认为原因是噪声水平,其他方法通过在术语水平上正则化文本信息来解决噪声水平,而[46]中的表示单元类似地,表3显示了NABIrds简单和困难基准测试的结果,其中性能56462xtx t2我们的方法也优于竞争方法。值得一提的是,WAC方法是不可扩展的,因为其训练参数取决于图像类对的我们在64GB RAM机器上训练了6天,并在表3中报告了最新快照的结果。方法SCS(简易)SCE(硬)WAC线性[14]27.05.0WAC内核[13]33.57.7西班牙语[39]28.57.4SJE [6]29.9–[36]第三十六话29.17.3[10]第10话28.08.6[10]第十届全国政协委员12.55.9订单嵌入[46]17.35.9Ours-DET37.29.7表2.CUB2011数据集在两种不同分割设置下的前1准确度(%)请注意,其中一些方法是基于属性的方法,但通过将属性向量替换为文本特征,可以应用于我们的设置方法SCS(简易)SCE(硬)WAC内核[13]11.46.0西班牙语[39]24.36.3[36]第三十六话24.56.8[10]第10话18.43.8Ours-DET30.38.1表3. NABird数据集拆分的前1准确度(%)广义零射击学习性能。我们之前讨论的传统零触发学习将测试示例分类为看不见的类,而不考虑以AU→T为x轴,AS→T为y轴,将两个点对作为点,可以画出可见-不可见精度曲线(SUC)。SUC下面积(Area Under SUC,AUSUC)作为一种广泛使用的曲线度量,可以很好地评估分类器在相冲突的AU→T和AS→T度量的平衡中的性能我们的方法和其他最先进的方法的Seen-Unseen精度曲线如图所示3 .第三章。我们的工作的性能优于所有其他方法的AUSUC评分。 虽然WAC线性显然在可见类上实现了高性能,但其对不可见类的分类性能差表明它没有学习到可以有效地转移到不可见类的知识。相反,ARMLNS具有相对较好的准确性AU→T,但其较低的AS→T与其他方法相比,表明未见过类的分类的成功可能来自于加权正则化器。我们的方法显着优于其他方法在两个看不见的类的分类方面,也实现了相对较高的准确性,在识别看到的类。图中的曲线3证明了我们的方法我们还在图中展示了我们在NABIrds数据集上的性能的有效性 4(Ours-DET为0.126 AUSUC,而最佳基线为0.093)。除了SCS分裂的这些GREML结果SCE-由于空间的原因,在补充文件中进行拆分。模型分析和定性示例。本文还分析了汉语中词语与部件之间的关系,学习的参数,即连接的WpTwi在测试阶段看到的类因为看到的类是x t通常是最常见的,假设我们在测试阶段永远不会遇到它们是不现实的[11]。为了摆脱这样的假设,Chaoet al.[11]最近提出了一种更通用的广义零射击学习(GSTOL)度量。 我们在这里简要回顾一下它通常如何衡量识别看不见的数据和可见数据的能力。 令S,U表示可见类和不可见类的标签空间; T= S <$U,联合标签空间。AU→T和AS→T是将可见数据和不可见数据分类到联合标签空间中的准确度。标签使用Eq.第六章:y=arg maxf(x)−λI[c∈ S](6)c∈T在那里,我[。]∈ {0,1}表示c是否是可见类,λ是惩罚因子。将x设置为可见数据或不可见数据,以分别计算AU→T和AS→T随着λ的增加或减少,数据被鼓励分别分类到不可见类或可见类在λ非常大或非常小的情况下,所有数据将分别被分配看不见的类标签或看到的类标签因此,我们可以通过调整λ的值来生成一系列分类准确度对(ΔU→T,ΔS→TΔ)。考虑到这些CUBirds数据集(SCS分裂)上的术语i和部分p图6分别显示了每个部分的WpTwi的l范数,并且仅在每个部分的前30个项上按WpTwi排序。图8示出了每对部件的这些项之间的重叠百分比,其示出了:每个部分都集中在其相关的概念上,但仍然有一个共享的部分,包括共享的概念,如颜色和纹理。在图6中,我们示出了针对每个部分的这些连接的总和,并在“Ours-DET”和“Ours-ATN”之间进行比较我们观察到,更多的概念/术语被发现并连接到“Ours-ATN”,而更多的如果每个部分单独用于识别,则这也与Top-1准确度一致;参见图1中每个部件的Top-1 Acc。6(右)。这个观察表明,如果我们有一个完美的检测器,头部将是连接到直观术语的最重要部分之一。在NABIrds的SCS和SCE分裂以及CUBIrds的SCE分裂上,我们也观察到了相同的结论;参见对这些分裂的附加分析图。我们进一步证明了这些部分到长期的连接性5647S!不10.90.80.70.70.60.51.81.61.40.60.50.40.30.20.100 0.1 0.2 0.30.4一0.40.30.20.100.05 0.1 0.15 0.2 0.25一1.210.80.60.40.20头后腹部乳腺零件名称腿翼尾巴图3. CUBirds Seen-Unseen精确度图4. NABIrds Seen-Unseen精度图5.连接到文本术语曲线(SCE分裂)10101010101010曲线(SCS分割)头5.73%返回19.5%腹部17.01%乳房25.67%腿部22.16%翼18.07%尾部14.55%0 10 20 30 40 50 60 70 80 90 100图6.连接到文本术语(CU Birds在右侧,显示了每个部件的Top1-Acc头 部 :海 岸 线(0.0037)Back:pure(0.0080)腹部:灰色(0.0038)胸部:黑色(0.0052)腿部:黄色(0.0072)翼:小鸡(0.0056)尾:白色(0.0189)头部:开口(0.0075)背部:下降(0.0092)腹部:沼泽(0.0029)乳房:白色(0.0108)腿 : 沼 泽 ( 0.0008 )翼:沼泽(0.0088)尾:棕色 (0.0265)头:鸟(3.655e-08)背:无聊(0.0089)腹部:背部(0.0084)胸部:最近(0.0054)腿:脚趾(0.0026)翅膀:黑色(2.957e-07)尾巴:半岛(0.0038)10.50尾翼腿部乳房腹部背部头图8.尾巴腿翼腹部乳房后脑勺前30个术语图7.部分到术语的连通性(从左到右:从CUBirds-SCS拆分)两部分(CUBirds-SCS)一些定性的例子在图。7.第一次会议。对于每只鸟,根据排名打印每个部分的最高相关术语x(p)WpTwiti的项,其中ti是第i维而不需要部分术语注释。我们的学习框架是由视觉部分检测器/编码器(VPDE- net),检测鸟类的部分,并学习其表示,x zk k预测类k的文本表示的(即,只考虑存在于类别k的文本描述中的文本项该图显示了我们的方法将概念定位到其在图像中的位置的能力。在右边的例子中,像在中间的在左边的例子中,5. 结论我们开发了一种新的方法,零拍细粒度识别的能力,连接条款的鸟类部分基于零次分类预测器网络(PZSC-)net),预测每个部分的视觉分类器功能。这些部分分类器预测函数被联合学习,以鼓励文本术语连接到稀疏的部分集合,这有助于抑制文本中的噪声,并使术语能够连接到相关部分。 我们的方法在两个现有的基准测试中显着优于现有的方法:CUB2011数据集和我们在NABirds数据集上创建的大规模基准测试。我们还对我们的模型学习的部分到文本的连接权重进行了分析,并讨论了有趣的发现。谢谢。这项工作得到了NSF-美国奖#1409683的支持。雌二醇:0.185价格:0.147WAC_kernal:0.225WAC_线性:0.239SynC_Fast:0.131SynC_RegV:0.017我们的:0.304雌二醇:0.092价格:0.070WAC_kernal:0.041SynC_Fast:0.026我们的:0.130Ours-ATNOurs-DET10- 3010-3102030405060708090100010-3102030405060708090100010-3102030405060708090100010-3102030405060708090100010-3102030405060708090100010-3102030405060708090100||X我||pt2S!不dtp∑i=1||2||2我5648引用[1] 我们的实施:PP.https://github.com/EthanZhu90/WELL_PP,2017. 1[2] T.C.L.B. 书 院 所 有 关 于 鸟 类 。 info.allaboutbirds.org,2016年。[在线; 2016年6月19日访问]。二、五[3] Z. Akata,M.马林诺夫斯基,M。Fritz和B.席勒多线索零 射 击 学 习 与 强 监 督 。 arXiv 预 印 本 arXiv :1603.08754,2016年。二、五、六[4] Z.阿卡塔河佩罗宁Z. Harchaoui和C.施密特基于属性分类的标签嵌入。在IEEE计算机视觉和模式识别会议论文集,第819-826页,2013年。一、二[5] Z.阿卡塔河佩罗宁Z. Harchaoui和C.施密特用于图像分类的 标签 嵌入 . IEEE transactions on pattern analysis andmachine intelligence,38(7):1425一、二[6] Z. Akata、S.里德D.沃尔特,H.Lee和B.席勒细粒度图像分类的输出嵌入评估。IEEE计算机视觉和模式识别会议论文集,第2927-2936页,2015年。一、二、六、七[7] S. Antol,A.Agrawal,J. Lu,M.米切尔,D。巴特拉C. Lawrence Zitnick和D.帕里克Vqa:可视化问答。在Proceedings of the IEEE International Conference onComputer Vision,第2425-2433页2[8] R. H. Bartels和G. W.斯图尔特矩阵方程ax + xb = c [f4]的解。Commun. ACM,15(9):820-826,九月1972. 5[9] T. L. Berg,A. C. Berg和J.施噪声网络数据的属性自动描述与表征欧洲计算机视觉会议,第663-676页施普林格,2010年。2[10] S. Changpinyo,W.- L. Chao湾Gong和F.煞用于零射击学习的合成分类器。arXiv预印本arXiv:1603.00550,2016年。一、六、七[11] W.- L. Chao,S.昌皮纽湾Gong和F.煞广义零次学习在野外物体识别中的实验研究与分析。2016. 7[12] K. 乔湾,巴西-地 VanMerr ieenboer,C. Gulcehre,D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。自然语言处理经验方法会议(EMNLP 2014)。6[13] M. Elhoseiny,A.Elgammal和B.萨利赫编写分类器:从非结构化文本描述中预测视觉分类器。arXiv预印本arXiv:1601.00025,2015年。六、七[14] M. 埃尔霍塞尼湾Saleh和A.埃尔加马尔写一个分类器:使用纯文本描述的零次学习。在IEEE计算机视觉国际会议的Proceedings,第2584-2591页,2013年。一、二、三、五、六、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功