没有合适的资源?快使用搜索试试~ 我知道了~
3741用于不可见属性-对象识别的昆伟1,杨木丽1,王浩1,邓成1,2,刘祥龙3,1西安电子科技大学电子工程学院西安2腾讯人工智能实验室,深圳5180573北京航空航天大学软件开发环境国家重点实验室,北京100191{weikunsk,muliyang.m,haowang.xidian,chdeng.xd}@ gmail.com,xlliu@nlsde.buaa.edu.cn摘要识别从未出现在训练数据中的不可见属性-对象对是一项具有挑战性的任务,因为对象通常指代特定实体,而属性是抽象语义描述。此外,属性与对象高度相关,即,属性倾向于描述各种对象的不同视觉特征。现有的方法主要采用两个分类器分别识别属性和在本文中,我们提出了一种新的对抗性细粒度组合学习模型,用于不可见属性对象对识别。考虑到它们的内在差异,我们利用多尺度特征集成来从给定图像中捕获有区别的细粒度特征。此外,我们设计了一个五元组损失来描述更准确的属性和对象之间的相关性对抗性学习被用来建模属性和对象之间的差异和相关性。在两个具有挑战性的基准上进行的大量实验表明,我们的方法始终优于最先进的竞争对手。1. 介绍理解视觉概念一直是计算机视觉的圣杯。与监督学习不同,零触发学习处理的是并非所有样本都被分配了标签的情况,因此需要进行深入的解释以识别在训练期间从未出现的样本在本文中,我们考虑了零镜头识别的情况下,每个样本分别由一个属性和一个对象(即一个形容词加一个名词)。如图1所示,我们用两组样本young tiger和old car进行训练,并期望*通讯作者彪旧车老老虎图1.不可见属性-对象识别综述例如,期望从训练数据中学习“老”和“老虎”的概念,并预测测试数据中的成功地识别出了一只看不见的老老虎样本。 这是一项具有挑战性的任务,因为:1)属性和对象本质上是不同的,因为对象是物理实体,而属性属于语义描述,倾向于呈现不同的视觉内容。因此,很难同时和显式地捕获属性和对象的一致特征; 2)属性与对象高度相关,与对象相比具有更大的视觉多样性。例如,“老老虎”和“旧车”中的属性这种属性和对象之间的不平衡往往导致识别不可见属性对象对的结果更不令人满意。传统的方法,如[18],通过分别训练对象和属性的分类器,将此类问题视为一般识别任务。这些方法分别学习属性和对象特征,但忽略了火车测试3742它们之间的内在差异和相关性。直观地说,由于其巨大的视觉多样性,用固定特征表示属性是有问题的因此,我们应该探讨属性与对象之间的内在差异与联系,并以统一的观点来看待它们。此外,其他方法[19,20]试图对属性和对象的不同组成进行建模,并将组成以及图像视觉特征投影到具有正则化的公共嵌入空间然而,三元组丢失法仅将阴性样本视为属性和客体均不同于锚点的样本,无法捕捉属性-客体对之间的复杂关系。根据我们在实验中的观察,这些方法容易被相似的图像(部分不同的图像,例如,“youngtiger” and “old tiger”) when 因此,探索更细粒度的属性-对象关系来描述相似图像的本质和细微差异是至关重要的在本文中,我们提出了一个对抗性的细粒度组合学习模型,用于识别不可见的属性-对象对,旨在建立完整的属性-对象关系。首先,我们设计了一个五元组损失,以规范图像和属性对象对之间的关系,在一个共同的嵌入空间。与三重态损失不同,我们将仅部分不同于锚的样本定义为半阴性样本。我们可以将锚样本、正样本、半负样本和负样本一起构成一个五元组,以便在公共嵌入空间中更详细地描述属性-对象关系。其次,我们用GAN [9]来构造我们的模型,以组成正样本和(半)负样本。受益于对抗学习,我们可以获得最具区分力的属性和对象特征,从而可以很好地保留和增强属性-对象关系,以用于随后的识别任务。第三,由于属性和对象的视觉表现不同,我们发现属性往往带有细节,而对象往往关注整体概念。因此,我们采用多尺度的特征集成,以获得更多的区别表示的属性和对象的功能。我们在两个具有挑战性的基准上评估我们提出的方法,即,[12]第12话和第13话。与五个国家的最先进的方法的比较表明,我们的方法consipendum实现了最好的结果,由一个大的利润。进一步的消融研究表明,所采用的每一种技术,即:细粒度多尺度特征集成、五元组损失设计和对抗性学习有助于提高我们方法的性能。总而言之,这项工作的贡献有三方面:• 我们把看不见的属性-对象对识别作为细粒度分类任务,并引入多尺度特征集成来捕获区分性细粒度特征。• 提出了一种新的五元组损失方法,对公共嵌入空间进行正则化,以深入解释属性-对象对之间的复杂关系。• 我们利用对抗学习来建立属性-对象关系。与现有方法不同的是,我们不是简单地生成训练样本,而是以对抗的方式灵活地组合正、(半)负对。2. 相关工作Zero-Shot Learning ( Zero-Shot Learning , ZRL ) 是transfer learning的一个子问题,其目标是将监督学习扩展到没有足够的标签可用于所有类的情况。可将该问题扩展到更一般的问题,即,Generalized BLOG L(GLOG L),其中模型使用可见和不可见标签进行测试,而可见标签被排除在GLOG L之外。在这样的设置中,期望我们能够利用辅助信息,可见样本的属性近年来,在以不同方式解决这一问题方面取得了很大进展,通常可分为两类:基于嵌入的方法[1,22,2,25,15,30,28]旨在建立一个空间来桥接图像及其相应的语义特征,以及基于生成的方法[3,5,14],其包括生成模块来合成看不见的类别的特征。生成对抗网络(GAN)[9]由于其有前途的性能,已经参与了大量的计算机视觉和机器学习任务[34,32,31]。 一般来说,GAN包括两个组件,即,产生器和鉴别器。生成器学习模拟训练样本的分布并生成模仿训练样本的假样本,而鉴别器试图将生成的假样本与真实样本区分开。通过隐式地定义损失函数,并使用经过逆向训练的生成器,基于GAN的方法可以更灵活地捕获图像与零次学习中相应的类标签之间的语义关系一般来说,大多数基于GAN的GAN方法[3,5,26,8]继承了cGAN [17]的灵感,cGAN通过输入条件变量以及噪声向量将GAN从无监督学习扩展到半监督设置。我们提出的方法也是用GAN结构来表示的,但与现有方法不同的是,我们使用GAN来合成和增强不同的属性对象对关系,3743全局平均多尺度ResNet-18功能输入图片:池化公共嵌入空间鉴别器年轻年轻虎猫彪L老猫L老不艾属性年轻小单词嵌入Word全连通矢量层五联湿旧锚:������������,阳性:阴性,������阴性老虎catSemi-Negative:猫半阴性,猫半阴性建筑柠檬属性:“年轻”对象:Semi-Negative:半阴性,半阴性对象生成器L负:负,������负,负图2.我们所提出的方法的框架,其中包括一个预训练的特征提取器,一个发电机和一个神经网络。给定图像,提取器捕获其多尺度特征,然后将其投影到公共嵌入空间作为锚。同时,生成器将四个样本与连接的属性-对象词向量组合,并且将正样本发送到具有辅助分类损失Laux的分类器。然后我们在公共嵌入空间中构造一个五元组,用这个五元组正则化lossLquin. 该算法将锚和正样本作为输入,并确定哪个输入来自具有对抗性损失Ladv的生成器。船舶在共同的嵌入空间,而不是简单地合成训练样本。不可见属性-对象对识别。这篇文章的重点是一个特殊的情况下,零杆学习sce- nario。具体来说,我们研究的情况下,样本分别由一个属性(形容词)和一个物体(名词)。在这种情况下,我们可以使用仅在可见样本上训练的模型来识别看不见的属性-对象对。为了解决这个具有挑战性的问题,传统的方法[4,18]利用一个或多个分类器来组成看不见的属性-对象对与原始的可见属性-对象对最近的一项研究[19]提出将不同的属性建模为运算符,并将属性-对象对建模为由运算符转换的最近,Nanet al.[20]建议找到一个具有编码器-解码器机制的内在属性-对象表示。在这篇文章中,我们探索了公共嵌入空间中的属性-对象关系,并在基于GAN的框架下构建了学习到的关系。3. 方法本文的目标是在没有附加信息的情况下识别一幅不可见图像的属性对象对例如,使用“年轻的老虎”和“老汽车”的图像进行训练挑战包括:1) 对于零射击学习,模型对训练中从未出现的测试属性-对象对知之甚少;2) 如前所述,该任务在某种程度上涉及细粒度识别问题。因此,如何获取具有鉴别力的细粒度特征是关键;3) 物体往往比属性起着更主导的作用,这可能会使识别任务无效。为了解决这些挑战,我们设计了一个五元组损失规则化的属性对象对的组成。我们采用GAN来对抗性地组合和保留区分性的属性-对象特征。最后,采用多尺度特征集成的方法获取细粒度特征。在下面的小节中,我们将描述五元组损失、对抗性学习框架、多尺度特征集成、总体目标函数以及训练和推理过程。3.1. 五重损失给定图像Ia,o,我们的目标是预测其对应的属性-对象对标签Ia,o。为了简单起见,我们使用““来表示一个n g at i v e标签,例如,a,o我的天啊如图2所示,图像la,o被馈送到预先训练的特征提取器中,并且提取其视觉特征向量。然后,将视觉特征向量投影到公共嵌入空间中作为三元组的锚点,3744锚阳性样本半阴性样本其中λ1、λ2和λ3是折衷参数,其被重新设置为1、0。5,0。5在所有实验中。3.2.组合对的对抗学习我们构建了一个GAN来模拟属性-对象对的组成,并通过对抗学习增强属性-对象关系。GAN由一个生成子G和一个谓词D组成,G用于组成属性-对象对,D用于区分属性-对象对是否由生成子G组成。具体地,生成器G将对应于锚xa,o的属性词向量wa和对象词向量wo作为输入。然后,两个词向量是一致的。图3.拟议的五胞胎损失的说明。精细化为xa,o,这在传统方法中被广泛采用[19,20,29]。除了锚xa,o之外,三元组还包含来自生成器的两个其他合成样本(参见子节3.2中的细节),i. 例如,aa iv esamplexa,oandan eg at iv eonexa <$,o<$. 标准三重态损失确保锚xa,o接近于非线性样本xa,o并且远离negativ eonexa<$,o<$,其被公式化为:被链接并投影到公共嵌入空间作为合成属性-对象对向量,其被定义为可重构样本x_a,o。 相应地,对于不同的输入w阶向量(wa,wa<$,wo和wo<$),生成器将 x_a ,o<$,x_a<$ ,o和x_a<$ ,o<$ 合 成 为半n_g_iv e和n_g_i v e样本。所述BHD将所述子载波xa,o和所述合成的子载波样本xa,o作为输入,并且确定哪个输入由所述生成器G产生。 CNOD被设计为多层感知器,它促进生成器G组合具有整体对抗性损失的区分性属性-对象特征:Ltriplet(xa,o,xa,o,xa<$,o<$)=.E=Ex.ΣlogD(xa,o)Max 0,d(xa,o,xa,o)−d(xa,o,xa<$,o<$)+m,(1)a,o+Ew,w.日志..1−D G(wa,wo)ΣΣΣ、 (3)其中d(·,·)表示欧几里德距离,并且m是m-aOGIN值(设置为0。5在所有涉及的实验)。三元组损失仅将xa<$,o<$视为锚xa,o的neg at esample。然而,对于识别看不见的属性-对象对的任务,实际上,样本是不够的。因此,我们设计了一个五重损失来正则化公共嵌入空间。 如图3所示,我们认为x<$a<$,o和x<$a,o<$(例如,“小猫”和“老老虎”)应该位于更靠近锚X A,O的位置(例如,“年轻的老虎”)比阴性样本x a <$,o <$(例如,“老猫”)在公共嵌入空间中执行。我们还观察到,大量的分类错误发生在被预测为a,o或a,o而不是地面真实值a,o的样本中。因此,我们把xa <$,o和xa,o<$看作“半n g ati v e样本 ”。 结合锚点xa,o、嵌入样本xaa,o和非嵌入样本xa<$a <$,o<$,我们可以构造一个五元组,以便更好地描述公共嵌入空间中的属性-对象关系。五重态损失被公式化为三重态损失的总和:Lquin(xa,o,xa,o,xa<$,o<$,xa<$,o<$,xa<$,o)=λ1Ltriple t(xa,o,xa,o,xa<$,o<$)+λ2Ltriple t(xa,o,xa,o,xa,o$>)+λ3Ltriple t(xa,o,xa,o,xa<$,o), (二)其中G(wa,wo)=x<$a,o,G试图最小化Ladv而D试图最大化它。3.3. 多尺度特征集成如第1节所述,识别看不见的属性-对象对需要细粒度的区分属性特征。事实上,常用的特征提取器(ResNet-18 [10])是在ImageNet数据集[23]上预先训练的,该数据集是为对象识别任务收集的。结果,所提取的视觉特征向量包含比属性特征多得多的对象特征,使得图像Ia,o和Ia′,o的视觉特征(例如,“年轻的老虎”和“老老虎”)可以非常相似。为了解决这个问题,我们引入了多尺度特征集成。在没有微调预训练的特征提取器的情况下,特征从不同深度的层融合,如图2所示。与仅从最后一层提取的特征相比,低层特征包含了更多的细粒度信息,这有利于获得更具鉴别力的视觉特征。通过全局平均池化和拼接,我们可以得到最终的视觉特征向量。多尺度特征集成的有效性将在第4节的实验部分中得到证明。你好������,你好彪你好,你好你好������,你好老猫〈�������,���������〉年轻老虎〈�������,������〉老老虎的小猫37453.4. 总体目标函数在我们的方法中,属性对象对的组合是灵活的。在合成过程中,无论是属性还是对象都有可能起着突出的作用,这就可能导致属性和对象之间的不平衡。这种不平衡往往会导致主分类器的分类精度高,而另一个分类器的分类精度低,从而导致整体属性-对象预测不准确。因此,我们引入辅助分类损失,其指导合成过程,其被公式化为:Laux=ha(x<$a,o,a)+ho(x<$a,o,o),(4)其中,ha(·)和ho(·)都是完全连接的层,交叉熵损失被训练为分别对属性和对象进行分类。在辅助分类损失的监督下,成分中可以保留属性和对象的特征。最后,G和D的目标写为:LD= −Ladv,(5)LG=Ladv+λ quinL quin+λ auxL aux,(6)其中λquin和λaux是权衡参数,在所有涉及的实验中分别设置为1和10003.5. 训练和推理在训练期间,我们将每个图像Ia,o投影到公共嵌入空间中作为锚xa , o。 属性和对象w阶向量wa 、wa<$、wo和wo<$被生成器G连接并投影到公共嵌入空间中,作为四个样本xa,o、xa ,o<$、xa<$,o和xa<$,o<$。 我们注意到,wa<$和wo<$是随机选择的,与wa和wo 不 同。五元组的损失使xa,o接近xa,o,而xa ,o<$,xa<$,o,xa<$,o<$a偏离xa,o。 损失保证了有前途的分类结果的生成的组合物的歧视。为了推理,给定一个不可见的图像I,其向量为x,在公共嵌入空间中,我们从所有可用的词向量中生成候选词对的计算和排序x和每个候选对x之间的距离。然后,将对应于最短距离的候选对x∈a,o视为预测,即,不可见的图像I被断言为Ia,o。4. 实验在本节中,详细介绍了所有涉及的数据集、评估指标和基线然后,我们将介绍我们的方法和几个最先进的竞争对手的实施细节以及实验结果。最后,两个消融研究将证明我们提出的方法的有效性。4.1. 数据集我们在两个流行的数据集上评估我们的方法[12]有着广泛的目标和贡献。它包含245个对象类,115个属性类,总共有53,753幅图像。每个图像都用属性-对象对进行注释,例如“young tiger”。由于在现实世界中并非所有的对都有意义,因此它包含1962个属性-对象对,而不是28,175个对。我们使用成分分裂[18],即,1262对(34,562张图像)用于训练,700对(19,191张图像)用于测试。训练对和测试对是不重叠的。UT-Zappos[33]包含50,025个带有属性标签的鞋子图像,其中有16个属性类和12个对象类。遵循[19]中的相同设置,我们使用83个属性-对象对(24,898张图像)进行训练,33对用于测试(4228张图像)。4.2. 评价我们评估的方法,前1级的准确性,看不见的属性对象对。通过三个指标报告准确性:关闭:测试对候选者仅限于未看到的对.在测试阶段,我们测量给定图像与未见过的对之间Closed度量减少了测试候选项的数量,通常可以实现更好的准确性,但对于现实世界的应用程序来说并不实用开放:测试对候选者对所有可见和不可见的对开放。在测试过程中,我们将可见和不可见的组合对作为识别的候选,这是更实际和具有挑战性的。该算法首先测量给定图像与候选图像对之间的嵌入距离,然后将该图像预测为最接近的合成图像对。H-Mean:Harmonic Mean测量Closed和Open指标的总体性能,定义为:一 =2×AC×AO,(7)HAC+AO其中AH、AC和AO分别表示具有H均值、闭合和开放度量的准确度。作为广泛使用的评估指标[14,26,5,24],Harmonic Mean平衡了Closed和Open指标之间的性能。4.3. 比较基线我们的方法与以下基线进行了比较:VisProd[16]训练两个分类器分别预测分类器采用线性支持向量机,总体精度计算为属性和对象的单独精度的乘积。374614.613.914.0112.513.513.111.112.311.411.75.05.33.93.13.32.41.40.10.050.20.40.112.03.4分类准确度(%)Chance VisProd(SVM)AnalogousAttrRedWine16标签嵌入AttOperator我们的(无多)我们的60145012401083062041020闭合和打开H均值(a) 麻省理工学院-国家。0关闭开放(b) UT捷步达康H均值图4.基于两个数据集的三种评价指标的不可见对识别的分类准确率。我们注意到AnalogousAttr[4]在看到的属性-对象对上训练线性SVM分类器,并使用训练的分类器预测看不见的对。RedWine[18]使 用预 先 训 练的 分 类器 权 重 (线 性SVM)来组成单词向量表示,并训练神经网络来识别看不见的属性-对象对。LabelEmbed[7]使用预训练的GloVe [21]单词嵌入来组成单词向量表示,这是与RedWine相比的区别。AttOperator[19]将属性视为操作符,并将属性-对象对组合模拟为属性条件转换。训练和测试对也是不重叠的。4.4. 执行对于每幅图像,我们使用在ImageNet数据集[23]上预训练的ResNet-18 [10]提取960维多尺度视觉特征向量对于每一个属性-对象对,我们提取了一个960维的语言特征向量的属性和对象与词嵌入。我们的模型使用PyTorch1实现,并在NVIDIA GTX 1080Ti GPU上通过ADAM优化器进行优化。学习率和批量大小分别设置为0。0001和512。对于MIT-States数据集,训练时间大约为1000个epoch的5小时。对于UT-Zappos数据集,训练1000个epoch需要大约2小时4.5. 结果和分析图4显示了我们的方法与基线的比较结果。我们的方法始终优于1https://pytorch.org/所有的基线和所有的指标都有很大的差距。在MIT-States数据集上,与现有技术相比,我们的方法将分类准确率提高了1.2%(封闭),2.1%(开放)和2.3%(H均值)。在UT-Zappos数据集上,我们的方法的准确性增加了6.4%(封闭),25.1%(开放)和23.2%(H均值)。实验结果充分证明了该方法的优越性由于基线直接使用从ResNet-18的最后一层提取的视觉特征,为了公平比较,我们还展示了我们的方法的结果,没有多尺度特征集成(表示为我们的分类精度比最终结果略差,但仍优于基线。与UT-Zappos相比,MIT-States具有更多的属性、对象、不可见对、更复杂的背景,并且每个属性-对象对的训练样本更少,因此更难以学习不可见对的鲁棒组合。因此,麻省理工学院的收益相对低于UT-Zappos。使用Closed度量,通过人为地减少对标签候选的数量,可以相对容易地产生令人满意的结果。如图4所示,除了Att- Operator和我们的方法之外,所有其他方法在具有挑战性的Open度量上的表现都比Closed度量差得多,这表明数据集上的过度拟合。图5显示了两个数据集的一些定性结果。 在MIT-States数据集上,我们的方法能够识别出“古建筑”、“杂乱的柜子”和“巨大的狗”等具有明显属性和对象的样本。对于“Broken Laptop”,属性“Broken”相对明显,而对象“Lap- top”可以在很大程度上变化,这导致错误预测为“Broken a,o <$n”。至于52.153.150.250.748.448.546.840.333.227.525.823.418.37.58.75.23.04.15.94.00.93.52.11.3分类准确度(%)3747古代杂乱巨大破碎芯切割皮革麂皮尼龙皮革羊皮皮革建筑柜狗笔记本苹果水果乐福鞋履踝靴中小腿靴牛津鞋拖鞋凉鞋(a) 图片来自MIT-States(b)UT-Zappos中的图像。图5.我们的方法在两个数据集上的定性结果 对于每个数据集,左侧三列(以绿色标记)显示具有正确预测的样本a,o,nexttwo列(橙色)显示具有正确预测的样本a,o表1.消融研究:三种不同模块的分类准确度(%)麻省理工-州UT捷步达康方法关闭开放H均值关闭开放H均值基地13.44.56.737.49.415.0+Lquin12.811.312.049.947.748.8+L高级14.04.46.743.416.023.3+多13.95.37.747.811.218.2+ Lquin+Ladv13.912.313.152.148.450.2+Lquin+ Multi14.112.913.551.047.849.3+L高级+多项15.05.88.452.516.324.9+Lquin+Ladv+ Multi14.613.514.053.148.550.7“Apple”对于此外,某些属性的易混淆性和某些对象的外观相似性也是导致错误预测的主要原因之一。例如,属性在UT-Zappos数据集上,由于属性-对象对的数量较少,因此结果相对较好。我们可以观察到,一些属性或对象与不明显的视觉线索,可以识别错误,如4.6. 消融研究我们进行了两组实验来研究这三个模块的有效性。我们的基础模型添加不同模块的结果如表1所示。基础模型受到三重态损失的约束,当添加“L quin“时,三重态损失将被我们的五重态损失所取代。如表1所示,对抗性学习(表示为增加“Multi”的改进表明多尺度特征融合能够通过融合不同深度层的输出来捕获更具鉴别力的细粒度视觉特征。增加“L adv“的改进然而,这两个模块不能最小化Closed和Open指标之间的性能差异,这表明模型仍然过度拟合3748表2.消融研究:分类准确度(%),在MIT状态上具有三重/五重丢失。“Attribute-Object”, “Attribute”, and “Object” respectivelyindicate the performances for predicting the attribut-object pairs, only attributes, and only关闭开放方法属性-对象属性对象属性-对象属性对象Ours(withLtriplet)15.023.025.95.816.424.3Ours(withLquin)14.623.424.413.522.024.9表3.消融研究:UT-Zappos上的三重/五重丢失的分类准确度(%)。“Attribute-Object”, “Attribute”, and “Object” respectivelyindicate the performances for predicting the attribut-object pairs, only attributes, and only关闭开放方法属性-对象属性对象属性-对象属性对象Ours(withLtriplet)52.255.577.316.330.467.2Ours(withLquin)53.156.278.448.552.578.4表4.消融研究:对麻省理工学院国家的部分正确预测的数量。我们注意到测试集中有19,191张图像已关闭的未决方法阿瓜岛拉瓜岛阿瓜岛拉瓜岛Ours(withLtriplet)2096161635362029Ours(withLquin)1875159821911632表5.消融研究:对UT-Zappos的部分正确预测的数量。我们注意到测试集中有4228张图像。关闭开放方法你好你好Ours(withLtriplet)1047 1282152 593Ours(withLquin)1072 1301265 168两个数据集。通过在基础模型中加入最后,我们结合这三个模块,在两个数据集上使用所有三个评估指标获得最佳结果我们还进行了另一个实验,以评估我们的方法的能力,以抵抗预测的情况下,Ia,o作为a,o′′或a′,o′ ′。在表2和表3中,我们报告了我们的方法在具有三重/五重损失的两个数据集上的结果(分类属性-对象对、仅属性和仅对象的准确性)。我们注意到闭合度量的准确性似乎不受用五重丢失替换三重丢失的影响,其原因是干扰候选的数量(即, a,o这种情况与精确度大幅提高的开放度量相反。如表4和表5所示,我们将预测的图像计数为a,o或a,o,而不是具有两个损失的地面真实值a,o因为三重丢失在五元组的情况下,我们看到在两个数据集上使用开放度量的部分正确预测的相当大的减少。我们可以从表2、3、4和5中推断出,只有属性(或只有对象)的分类准确度增加,只是遵循部分正确预测减少的模式。因此,我们可以得出结论,我们提出的五重态损失能够抵抗部分正确样品的干扰。5. 结论在本文中,我们提出了一种新的对抗性细粒度组合学习模型来识别不可见的属性对象对。我们设计了一个五元组损失来规范公共嵌入空间,实现了对固有的和复杂的属性-对象关系的更好的解释。对抗学习策略被用来对属性和对象的组成进行建模,并保留属性-对象关系。我们引入了多尺度特征集成来获得更具鉴别力的细粒度特征。实验表明,我们的方法优于国家的最先进的竞争对手的大利润率在两个基准数据集与所有封闭,开放,和谐波平均指标。在未来,我们计划继续研究属性和对象之间的关系,并处理涉及多个属性和对象的组合。确认我们的工作得到了国家自然科学基金61572388和61703327的部分支持,部分得到了重点研发计划-陕西省重点产业创新链项目2017 ZDCXL-GY-05-04-02,2017 ZDCXL-GY-05-02和2017 ZDCXL-GY-05- 03的支持。2018 ZDXM-GY-176,部分由中国国家重点研发计划资助2017 YFE 0104100。3749引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid。用于图像分类的标签嵌入。 IEEETrans. 模式分析机器内部,38(7):1425[2] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价。在CVPR,第2927-2936页,2015年。[3] MaximeBuche r,Ste'phaneHerbin和Fre'd e'ricJurie。生成零炮分类的视觉表示。在ICCV,第2666-2673页[4] Chao-Yeh Chen和Kristen Grauman。推断相似的属性。在CVPR,第200-207页[5] 陈龙,张汉旺,肖军,刘伟,张世福.使用语义保持对抗嵌入网络的零射击视觉识别。在CVPR中,第1043-1052页[6] Cheng Deng , Zhaojia Chen , Xianglong Liu , XinboGao,and Dacheng Tao.用于跨模态检索的基于三元组的深度哈希网络IEEE传输图像处理。,27(8):3893[7] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写一个分类器:使用纯文本描述的零镜头学习。在ICCV,第2584-2591页[8] Rafael Felix 、 Vijay BG Kumar 、 Ian Reid 和 GustavoCarneiro。多模态循环一致性广义零激发学习。在ECCV,第21-37页[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS,第2672-2680页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[11] Elad Hoffer和Nir Ailon使用三重网络的深度度量学习Simbad,第84-92页。施普林格,2015年。[12] Phillip Isola,Joseph J Lim,and Edward H Adelson.图像集合中的逆覆盖状态和变换。在CVPR,第1383-1391页[13] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[14] Vinay Kumar Verma、Gundeep Arora、Ashish Mishra和Piyush Rai。通过合成示例的广义零镜头学习。在CVPR中,第4281-4289页[15] Yan Li,Junge Zhang,Jianguo Zhang,and Kaiqi Huang.零射击识别的潜在特征的识别学习。在CVPR中,第7463-7471页[16] 卢策武,兰杰·克里希纳,迈克尔·伯恩斯坦,李菲菲.具有语言先验的视觉关系检测。参见ECCV,第852-869页。施普林格,2016年。[17] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。[18] Ishan Misra,Abhinav Gupta,and Martial Hebert.从红酒到红番茄:有背景的作文。在CVPR中,第1792-1801页[19] Tushar Nagarajan和Kristen Grauman。作为运算符的属性:分解看不见的属性-对象组合。在ECCV,第169-185页[20] Zhixiong Nan,Yang Liu,Narming Zheng,and Song-Chun Zhu. 用 生成 模型 识别 不 可见 属性 对象 对 。在AAAI,2019年。[21] 杰弗里·潘宁顿,理查德·索彻,克里斯托弗·曼宁.Glove:单词表示的全局向量。在EMNLP,第1532-1543页[22] Bernardino Romera-Paredes和Philip Torr一种简单得令人尴尬的零射击学习方法。在ICML,第2152-2161页[23] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein,et al.图像网大规模视觉识别挑战。国际计算机目视,115(3):211[24] 王倩和陈珂。零触发人类动作识别的替代语义表示。见ECML-PKDD,第87-102页。Springer,2017.[25] Yongqin Xian,Zeynep Akata,Gaurav Sharma,QuynhNguyen,Matthias Hein,and Bernt Schiele.零激发分类的潜在嵌入。在CVPR,第69-77页,2016年。[26] Yongqin Xian , Tobias Lorenz , Bernt Schiele , andZeynep Akata.零次学习的特征生成网络。在CVPR中,第5542-5551页[27] Yongqin Xian,Bernt Schiele,and Zeynep Akata.零射击学习-好的,坏的和丑陋的。在CVPR中,第4582-4591页[28] Xinyi Xu,Cheng Deng,and Feiping Nie.多视图降维的自适应图加权。信号处理,2019。[29] Xinyi Xu、YanhuaYang、Cheng Deng和Feng Zheng。通过丰富的关系挖掘进行深度非对称度量学习。在CVPR中,第4076-4085页[30] 杨慕丽,邓成,聂飞平。多视图分类的自适应加权判别回归。模式识别,88:236[31] 徐阳,登成,冯铮,严俊池,刘伟。使用双自动编码器网络的深度谱聚类。在CVPR中,第4066-4075页[32] 自立一、张浩、谭平、龚明伦。Dualgan:图像到图像翻译的无监督双重学习。在ICCV,第2849-2857页[33] Aron Yu和Kristen Grauman。细粒度视觉比较与本地学习。在CVPR中,第192-199页[34] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。InICCV,2017.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- GO婚礼设计创业计划:技术驱动的婚庆服务
- 微信行业发展现状及未来发展趋势分析
- 信息技术在教育中的融合与应用策略
- 微信小程序设计规范:友好、清晰的用户体验指南
- 联鼎医疗:三级甲等医院全面容灾备份方案设计
- 构建数据指标体系:电商、社区、金融APP案例分析
- 信息技术:六年级学生制作多媒体配乐古诗教程
- 六年级学生PowerPoint音乐动画实战:制作配乐古诗演示
- 信息技术教学设计:特点与策略
- Word中制作课程表:信息技术教学设计
- Word教学:制作课程表,掌握表格基础知识
- 信息技术教研活动年度总结与成果
- 香格里拉旅游网设计解读:机遇与挑战并存
- 助理电子商务师模拟试题:设计与技术详解
- 计算机网络技术专业教学资源库建设与深圳IT产业结合
- 微信小程序开发:网络与媒体API详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功