没有合适的资源?快使用搜索试试~ 我知道了~
作为运算符的属性:分解不可见属性-对象组合Tushar Nagarajan1和Kristen Grauman2德克萨斯大学奥斯汀分校2Facebook人工智能研究tushar@cs.utexas.edu,grauman@fb.com*抽象。我们提出了一种新的方法来建模的视觉属性。先前的工作将属性转换为与对象类似的角色,学习其中属性(例如,切片的)被分类器以与对象(例如,苹果)。然而,这种常见的方法无法将训练期间观察到的属性与它们与之组合的对象分离,使得当遇到新的属性-对象组合时无效。相反,我们建议将属性建模为操作符。我们的方法学习了一种语义嵌入,该语义嵌入显式地从其伴随对象中分解出属性,并且还受益于表达属性运算符的效果的新颖正则化器钝的应该消除锋利的效果)。我们的方法不仅在概念上与属性作为修饰语的语言角色相一致,而且还概括了识别对象和属性的不可见成分。我们在两个具有挑战性的数据集上验证了我们的方法,并展示了对最先进技术的显着改进。此外,我们表明,我们的模型不仅可以在开放世界环境中鲁棒地识别看不见的组合物,还可以推广到对象本身在训练过程中看不见的组合物。1介绍属性是传达对象属性的语义描述属性已被证明是人脸和人物的有效表示[26,36,44,49,29,45,32],目录产品[4,24,57,17],以及通用对象和场景[28,11,27,37,19,1]。因为它们是用自然语言表达的,所以属性促进了关于视觉内容的人机通信。例如,在一个实施例中,用于图像搜索[26,24],零拍摄学习[1],叙述[25]或图像生成[55]中的应用。属性和对象是根本不同的实体:对象是物理事物(名词),而属性是这些事物的属性(形容词)。尽管存在这个事实,但是用于属性的现有方法在很大程度上以与现有技术的对象识别方法相同的方式进行。也就是说,根据存在的属性标记的图像示例被用于训练判别模型,例如。例如,在一个实施例中,用卷积神经网络[49,29,45,32,57,47]。由这样的模型学习的潜在向量编码被期望捕获对象不可知的属性表示。然而,实现这一点是有问题的,无论是在* 从德克萨斯大学奥斯汀分校(grauman@cs.utexas.edu)休假。2T. Nagarajan和K. 格劳曼切片运算符原型“汽车”实例看不见的物体原型“切片”实例图1:我们的想法的概念概述。左:与对象不同,很难为属性学习一个可预测的视觉原型。例如,在一个实施例中,如这里所示的“切片”)。此外,标准的视觉识别流水线易于过拟合到在训练期间观察到的那些对象-属性配对右:我们建议将属性建模为运算符,学习它们如何转换对象,而不是它们本身的样子。一旦学会,属性运算符的效果就可以推广到新的、看不见的对象类别。数据效率和泛化。具体地,假设在训练期间,1)已经结合所有潜在对象(不现实且不可缩放)观察到属性,和/或2)属性例如,在一个实施例中, 我们观察到,由于属性参见图1(左侧)。鉴于这些问题,我们建议将属性建模为运算符-目标是学习一个属性-对象组合模型,该模型本身能够显式地从其伴随的对象表示中分解出属性首先,我们不是将属性编码为某个嵌入空间中的点,而是将其编码为(学习的)转换,当应用于对象编码时,修改它以适当地转换其外观(见图1,右)。特别是,我们制定了一个嵌入目标,其中组合物和图像投影到相同的语义空间,允许识别新图像中看不见的属性-对象配对。3其次,我们在训练过程中引入新的正则化器,利用属性作为运算符的概念。例如,一个正则化器要求将属性然后将其反义词应用于对象的效果应该在对象编码中产生最小的变化(例如,钝的应该3我们强调,这与传统的零拍摄对象识别不同[28,21,1],其中一个看不见的对象由其(以前学习和类不可知)属性定义。在我们的例子中,我们有看不见的对象和属性的组合。作为运算符的3属性对修改对象时的状态(例如,一个切成薄片的红苹果红苹果片)。我们在两个具有挑战性的数据集上验证了我们的方法:[33 ]第33话:“你是我的朋友”它们一起跨越数百个对象、属性和组合。结果表明,属性作为运营商的优势,在识别看不见的属性对象组合物的准确性。我们观察到该任务的最先进方法有显著改进[5,33],绝对改进为3%-12%。最后,我们表明,我们的方法是同样强大的,无论是识别看不见的组合物上自己或在公司看到的组合物,这是在现实的,开放的世界设置识别具有很大的实用价值。2相关工作视觉属性。视觉属性的早期工作[26,28,11,36]建立了从图像推断中级语义描述研究界已经探索了许多属性的应用,包括图像搜索[26,24,44],零拍摄对象分类[28,21,1],句子生成[25]和时尚图像分析[4,18,17]。自始至终,学习属性的标准方法与用于学习对象类别的方法非常相似:具有标记示例的判别分类器。特别是,今天多任务属性训练方法说明不同属性之间的相关性[32,23,19,44]。我们的方法从根本上背离了上述所有内容:我们认为属性是将可视数据从一个条件转换到另一个条件的算子,而不是将属性实例视为可分类的某些高维空间中的点。语言与视觉的组合。在自然语言处理中,形容词和名词的组合被建模为单个组合[13,34]或转换(即,转换)。例如,应用于名词向量的形容词变换)[3,46]。将这种语言概念与视觉数据联系起来,一些工作探索了语言和视觉领域中颜色对象对的相似性得分之间的相关性[35]。视觉中的组合已经在建模复合对象[39](剪贴板=剪辑+板),动宾交互[42,58](骑马)的背景下进行了=人+骑+马),以及形容词-名词组合[5,33,9](fluffy towel = towel被fluffy修饰 所有这些方法都利用了关键的洞察力,即组合实体的特征可能与其组成部分非常不同;然而,它们都赞同将成分表示为向量,并且将组合表示为这些向量的黑盒修改的传统概念。相反,我们将成分建模为以成分为条件的独特算子(例如,例如,在一个实施例中,对于属性-对象组合,对每个属性进行不同的修改)。关于属性-对象组合的有限的先前工作考虑了看不见的组合,也就是说,在训练期间看到每个成分,但在测试时看到新的看不见的组合[5,33]。这两种方法都使用预训练的线性分类器为“看到的”原始概念构建复合概念的分类器最近的工作将这个概念扩展到由逻辑运算符连接的表达式[9]。我们也会处理看不见的成分。然而,在这方面,4T. Nagarajan和K. 格劳曼而不是把属性和对象一样的分类器向量,并放置在一个单一的网络学习的负担,我们提出了一个因素的表示的成分,建模属性-对象组合作为一个属性特定的可逆变换对象向量。我们的配方还使新的正则化的基础上的属性的语言意义。我们的模型自然地扩展到对象本身在训练过程中不可见的组合,不像[5,33]那样需要为每个新对象训练SVM分类器。此外,不是像[33]中那样专门预测看不见的成分,我们还研究了更现实的场景,其中所有成分都是识别的候选者。视觉转换。视觉“状态”的概念已经从几个角度进行了探讨。给定一组图像[20]或延时视频[60,27],方法可以发现对象状态之间的映射变换,以创建新图像或可视化它们的关系。给定视频输入,动作识别可以看作是学习视觉状态转换,即学习视觉状态转换.例如,在一个实施例中,一个人如何操纵一个对象[12,2]或活动前置条件如何映射到后置条件[51]。给定相机变换,其他方法从指定的新视点[22,59]可视化场景虽然我们分享捕捉视觉变换的一般概念,但我们是第一个提出将建模属性作为改变对象状态的操作符的人使用样本合成的低拍摄学习。最近的工作探索了为很少出现的类生成合成训练示例的方法,无论是在特征[10,14,31,52,61]还是整个图像[57,8]方面我们新颖的正则化方法的一部分还涉及假设的属性转换示例。然而,尽管先前的工作显式地离线生成样本以增强数据集,但我们的特征生成是一个隐式的过程来正则化学习,并与其他新的约束(如逆一致性或可交换性)协同工作(见第3.3节)。3方法我们的目标是识别属性-对象组合(e。例如,在一个实施例中,切片香蕉,毛茸茸的狗)的图像。传统的分类方法受到复杂概念的长尾分布[42,30]和推广到看不见的概念的有限能力的影响。相反,我们对合成过程本身进行建模。我们分解出训练过程中看到的底层原始概念(属性和对象),并将它们用作构建块来识别推理过程中看不见的组合。我们的方法是由基本叙事驱动的:如果我们看到了一个切片的橙子,一个切片的香蕉和一个腐烂的香蕉,我们能预测腐烂的橙子是什么样子吗?我们围绕属性的功能角色建模的组成过程。而不是把对象和属性等同于向量,我们模型的可逆运营商的属性,和组合作为一个属性条件的转换应用到对象向量。然后,我们的识别任务变成了一个嵌入学习任务,在这个任务中,我们将图像和成分投影到一个共同的语义空间中,以识别当前的成分我们用与属性的语言行为一致的新正则化器来指导学习作为运算符的5g(pFC预测“切片”预测“香蕉”f(x-1香蕉香蕉香蕉≈香蕉≈≈M-1切片M熟M熟M不熟M切片M成熟M M成熟输入图像:xf(x)真对:p(切片香蕉)切片去皮腐烂熟丁 未成熟ResNetg(p)=ga(o)属性运算符负对:p'香蕉梨橙色葡萄新组合物g(p')苹果番茄无花果看不见的物体(葡萄丁)对象矢量(a) 拟议模式。我们提出了一个因子分解模型的属性对象组合的对象是向量(如。例如,在一个实施例中,GloVe [38]向量,右下角),属性是运算符(右上角矩阵),组合是对象向量(g(p))的特定于属性的变换。我们将图像x和组合物p嵌入到一个空间中,其中距离表示它们之间的兼容性(中心)。由于成分被分解的方式,已知的属性可能会与看不见的对象相结合,从而使我们的模型能够识别图像中新的、看不见的成分(左下)。请注意,这里的对象向量是类别级嵌入,而不是图像。(b) 建议正则化。我们提出了几个正则化,符合语言意义的属性。Laux确保属性/对象的标识在组合期间不丢失;Linv交换出属性以隐式地合成用于训练的新组成;蚂蚁模型反义词(“不成熟”应该撤销“成熟”的影响);而Lcomm则对属性的交换属性进行建模(一个熟香蕉切片与一个熟香蕉切片相同)。图2:拟议办法概述最好在颜色看在下文中,我们首先在3.1节中正式描述嵌入学习问题。然后,我们在3.2节中描述我们的属性和对象嵌入方案的细节。我们在3.3节中介绍了优化目标和辅助损耗项。最后,我们在3.4节中描述了我们的培训方法。3.1作为嵌入学习的不可见对识别我们训练一个模型,该模型学习从一组图像X到一组属性-对象对P=A × O的映射。例如,“old-dog”是一个我们将对的集合分成两个不相交的集合:Ps,这是在训练期间看到的一组对,用于学习因子组合模型,以及Pu,这是在训练期间看不到的一组对,但在测试时完全有效虽然Ps和Pu是完全不相交的,但它们的组成属性和对象在某些情况下是可以观察到的6T. Nagarajan和K. 格劳曼(其他)训练期间的作文。我们的图像包含具有与之关联的单个属性标签的对象,即。例如,每个图像具有唯一的对标签p∈ P。在训练过程中,给定图像x∈ X及其对应的对标签p∈Ps,我们学习两个嵌入函数f(x)和g(p)以将它们投影到公共语义空间中。对于f(x),我们使用预训练的ResNet18 [15],然后是线性层。对于g(p),我们引入了一个属性-运算符模型,在3.2节中详细描述。我们学习嵌入函数,使得在这个空间中,图像嵌入f(x)和正确对嵌入g(p)之间的欧氏距离最小化,而到所有不正确对的距离最大化。这个空间中的距离表示兼容性-i。例如,图像和对嵌入之间的低距离意味着该对存在于图像中重要的是,一旦学习了g(p),即使是看不见的对也可以投射到这个语义空间中,并且可以评估其与图像的兼容性。参见图2a。在推断期间,我们使用我们先前学习的组合函数g(. )的情况。当呈现新图像时,我们像往常一样使用f(. ),并识别该对嵌入中的哪一个最接近它。注意P如何包括在训练中看到的两对以及看不见的属性-对象组合;承认后者是不可能的,如果我们在以前看到的组合中做了一个简单的分类3.2组合的属性-算子模型如上所述,传统方法将属性视为对象,两者都占据嵌入空间中的某个点/区域[44,49,29,45,32,47,23,19]。一方面,为“无属性对象”变出一个潜在的表示是有意义的-例如,狗在我们将其专门化为斑点或毛茸茸的事实上,在知觉心理学中,一种表征所谓的基本层次范畴的方法是通过其单一心理原型的启示[40]。然而,另一方面,召唤一个“无对象属性”是有问题的。将“fluffy”作为一个概念映射到语义嵌入空间中意味着什么“毛毛”的视觉原型是什么见图1我们认为,描述属性的一种更自然的方式是它们如何修改它们所引用的对象一只“狗”和一只“毛茸茸的狗”的图像此外,这些修饰强烈地以它们所描述的对象为条件(在这个意义上,属性行为与几何变换有一些相似之处。例如,旋转可以完美地表示为作用于向量的正交矩阵将旋转表示为向量,并将其动作表示为一些附加函数,将是不必要的复杂和不直观的。考虑到这一点,我们将每个对象类别o∈ O表示为D维向量,其表示原型对象实例。具体来说,我们使用GloVe词嵌入[38]用于对象向量空间。每个属性a∈ A是一个参数化函数ga:RD→RD,它修改对象表示以展示该属性,并将其带到图像所在的语义空间为了简单起见,我们考虑ga的线性变换,由D×D矩阵Ma表示:g(p)=ga(o)=Mao,(1)作为运算符的7′ ′′一O尽管所提出的框架(不包括逆一致性正则化器)自然也支持GA的更复杂的函数。参见图2a,右上角。有趣的属性产生于我们的属性操作符设计。首先,将组合分解为矩阵-向量乘积有助于转移:可以通过将学习的属性运算符应用于适当的对象向量来表示未见过的对(图2a,左下)。其次,由于图像和合成物驻留在相同的空间中,所以可以通过应用变换的逆来从图像中移除属性;可以将多个属性连续地应用于图像;并且属性空间的结构可以被编码成变换如何表现。下面我们讨论如何利用这些属性来正则化学习过程(第二节)。3.3)。3.3作为运算符的属性的学习目标我们的训练集由n个图像和它们的成对标签{(x1,p1),. . . ,(xn,pn)}。我们设计了一个损失函数来有效地学习将图像和组合对投影到一个共同的嵌入空间。我们从标准的三重丢失开始具有对标签p=(a,o)的图像x的损失由下式给出Ltriplet=max(0,d(f(x),Mao)−d(f(x),Ma′o)+m),a/=a∨o=/o,其中d表示欧几里得距离,并且m是边缘值,我们将其保持固定在0.5我们所有的实验。换句话说,嵌入图像应该比其他属性-对象配对更接近由指定属性a变换的其对象到目前为止,损失在精神上类似于基于嵌入的零激发学习方法[54],并且更一般地类似于基于三元组损失的表示学习方法[7,16,43]。我们强调,我们的重点是学习组合操作的模型;基于三重损失的嵌入仅仅是一个适当的框架,促进这一点。在下文中,我们扩展了这个框架,以有效地适应属性作为操作符,并注入我们的新的基于语言的正则化。对象和属性辅助词。在我们的模型中,属性操作符和对象向量以及它们的组合都是可学习的参数。组合的一个元素(属性或对象)可能在优化期间占主导地位这可能会导致一个组合表示,其中一个组件没有充分的功能。为了解决这个问题,我们引入了一个辅助损失项,迫使组合表示是有区别的,即。例如,它必须能够预测组合中涉及的属性Laux= −Σi∈Aδailog(pi)−Σi∈Oδoilog(pi),(3)其中δyi=1,当y=i时,并且pa和po分别是被训练以区分属性和对象的softmax线性分类器的输出。这种辅助监督确保了属性和对象的身份不会在组合表示中丢失-实际上,强烈地激励了因子分解表示。逆一致性我们利用属性的可逆性来隐式地合成新的训练实例,以进一步正则化我们的模型更具体地说,我们8T. Nagarajan和K. 格劳曼−1从训练示例中换出实际属性a,以用于随机选择的属性a’,并构造另一个三元组损失项以考虑新的组合:′ −1f(x):=Ma′Maf(x)′ ′(四)Linv=max(0,d(f(x),Ma′o) −d(f(x),Mao)+m),其中三重态损失符号与等式2的形式相同。这里Ma′Ma表示去除属性a以达到图像的因此,f(x′)表示一个具有新属性-对象对的伪实例,帮助模型更好地泛化。这里生成的伪实例固有地是有噪声的,并且将它们直接地(作为新实例)分解可能妨碍训练。为了减轻这一点,我们选择我们的负面例子来针对更直接的,因此更简单的交换结果。例如,当我们把“切片的”换成可交换属性运算符。 接下来,我们约束属性以遵守可交换属性。例如,在“成熟”运算符之后应用“切片”运算符与在“切片”之后应用“成熟”相同,或者换句话说,成熟的切片香蕉与切片的成熟香蕉相同。该交换损耗表示为:ΣL=a,b∈AMa(Mbo)−Mb(Mao)(五)这种损失迫使属性转换尊重我们在语言上下文中观察到的属性可组合性反义词一致性。我们的目标是利用属性的最终语言结构是反义词例如,我们假设为此,我们考虑在反义词属性对(a,a′)上操作的损失项:Lant= Σa,a′∈AMa′(Mao)−o(六)对于MIT-States数据集(参见秒4),我们手动识别了30对反义词,如古代/现代,弯曲/直,钝/尖。图2b概括了所有的正则化器。3.4训练和推理我 们 在 所 有 训 练 图 像 上 最 小 化 组 合 损 失 函 数(Ltriplet+Laux+Linv+Lcomm+Lant),并端到端地训练我们的网络可学习的参数是:f(x)的线性层,每个属性Ma的矩阵,a∈A,对象向量o∈O和辅助分类器的两个全连接层在训练期间,我们使用f(x)将每个标记图像x嵌入语义空间中,并将其属性运算符ga应用于其对象向量o以得到组合表示作为运算符的9ga(o).三元组的丢失将这两个表示推到一起,同时将不正确的对嵌入分开。我们的正则化器进一步确保组合是有区别的;属性服从交换属性;它们撤销反义词的影响;并且我们隐式地合成具有新组合的实例。为了推断,我们计算并存储所有候选对的嵌入,ga(o),o∈ O和当新图像q到达时,我们通过预计算的嵌入到图像嵌入f(q)的距离对预计算的嵌入进行排序,并识别具有最低距离的距离计算可以在我们的有几千对的数据集。可以采用智能修剪策略来减小用于较大属性/对象词汇表的搜索空间我们强调新图像可以被分配到训练图像中不存在的一个看不见的组合。我们在最近的组合pq=(oq,aq)上评估准确性,因为我们的数据集支持具有单个属性的实例。4实验我们的实验探讨了作为运营商的建模属性的影响,特别是识别看不见的对象和属性的组合。4.1实验装置数据集。我们在两个数据集上评估我们的方法:– MIT-States[20]:该数据集有245个对象类,115个属性类和115个属性类。53K images.有许多不同的对象(e)。例如,在一个实施例中,鱼、柿子、房间)和属性(e.例如,在一个实施例中,长满苔藓的、泄气的、脏的)。平均而言,每个对象实例都会被修改它提供的九个属性之一我们使用[33]中描述的组合分裂进行实验,导致不相交的对集-Ps中约1.2K对用于训练,Pu中约700对用于测试。– UT-Zappos 50 k[57]:该数据集包含具有属性标签的鞋的50 K图像。我们考虑包含鞋的材料属性的注释的33K图像的子集(e.例如,在一个实施例中,皮革,羊皮,橡胶);见附录。对象标签是鞋的类型(e. 例如,在一个实施例中,高跟鞋、凉鞋、运动鞋)。我们将数据随机分成不相交的集合,在Ps中产生83对用于训练,在Pu中产生33对用于测试,超过16个属性类和12个对象类。数据集是互补的。虽然麻省理工学院-国家涵盖了广泛的日常物品和属性,UT-Zappos专注于细粒度的鞋子领域。此外,MIT状态中的对象注释非常稀疏(一些类仅具有4个图像),而UT-Zappos子集每个对象类具有至少200个图像。评估指标。我们报告的顶部-1识别对组合物的准确性。我们以两种形式报告这种准确性:(1)只在看不见的对上,我们称之为封闭世界设置。在测试期间,我们计算我们的图像嵌入和仅未见过的对Pu的对嵌入之间的距离,并选择最近的一个。封闭世界设置人为地将允许的标签池减少到测试时间只到看不见的对。这是[33]报告其结果的设置10T. Nagarajan和K. 格劳曼(2)在可见和不可见的对上,我们称之为开放世界设置。期间测试时,我们考虑P中的所有对嵌入作为识别的候选。这是更现实和更具挑战性的,因为没有假设的组成礼物我们的目标是在这两种设置中实现高精度我们报告这些精度的调和平均值,由h-平均值=2*(开*闭)/(开+闭)给出,作为一个统一的度量。与算术平均值不同,它会惩罚设置之间的大性能差异。建议使用调和平均值来处理“广义”零触发学习中可见/不可见精度之间的类似差异并且现在被广泛采用作为评估度量[48,53,6,50]。实作详细数据。对于所有实验,我们使用ImageNet [41]预训练的ResNet-18[15]来处理f(x)。为了公平比较,我们不微调这个网络。我们将我们的图像和构图投射到D=300-dim.嵌入空间。我们使用GloVe [38]词向量初始化我们的对象和属性嵌入,并使用单位矩阵初始化属性运算符,因为这会导致更稳定的训练。所有模型都在PyTorch中实现使用具有学习率1e-4和批量大小512的ADAM通过学习训练属性运算符速率1e−5,因为它们遇到梯度值的较大变化我们的代码可在github.com/attributes-as-operators网站。基线和现有方法。我们比较以下方法:– VISPR0D使用独立的分类器对图像特征进行预测属性和对象。它表示不显式地对组合操作进行建模的方法。一个对的概率就是每个成分的概率的乘积:P(a,o)=P(a)P(o)。 我们报告了两个版本,不同之处在于用于生成上述概率的分类器的选择:VISPR0D(SVM)使用线性SVM(如在[ 33 ]中使用的),并且VISPR0D(NN)使用单层软最大回归模型。– NALOGOUSATTR[5]为每个可见对训练线性SVM分类器,然后使用贝叶斯概率张量分解(BPTF)来推断未见过组合物的分类器权重。我们使用与[5]相同的现有代码4来重新创建此模型。– REDWINE[33]训练神经网络将组成概念的线性SVM转换为不可见组合的分类器权重。由于作者我们用与我们的模型一致的图像特征训练SVM。我们验证了我们可以用VGG(他们使用的网络)重现他们的结果,然后将其功能升级到ResNet,以便与我们的方法更具竞争力。– LABELEMBED类似于RED WINE模型,除了它组成词向量表示而不是分类器权重。我们使用预训练的GloVe [38]词嵌入。这是[33]中指定的LabelEmbed基线。– LABELEMBED+是LABEL EMBED的改进版本,其中(1)我们使用前馈网络将组成输入和图像特征嵌入到D维的语义嵌入空间中,以及(2)我们允许在训练期间优化输入参见补充有关详细信息4https://www.cs.cmu.edu/www.example.com~lxiong/bptf/bptf.html作为运算符的11UT美捷步关闭开放+objh均值关闭开放+objh均值C舞0的情况。10的情况。050的情况。90的情况。13 .第三章。00的情况。9六、31 .一、3VIS PROD(SVM)11个国家。1二、4 21岁63 .第三章。9四十六岁。84.第一章1十七岁87 .第一次会议。5VIS PROD(NN)十三岁9二、8二十二岁64.第一章749.94.第一章8十八岁18. 8A NALOGOUS A TTR[五]《中国日报》1 .一、40的情况。2二十二岁40的情况。4十八岁33 .第三章。5十六岁9五、9REDWINE [33]12个。53 .第三章。1十八岁3五、0 四十3 二、110个。54.第一章0LABEL EMBED十三岁43 .第三章。3十八岁8五、3 二十五8五、211个国家。18. 7LABEL EMBED +14.8五、7二十七岁28. 2三十七49 .第九条。419号。4十五岁0OURS12个。011.449.311.7三十三岁。223.438.327.5表1:未看见对检测的准确度(%)。我们的方法优于所有以前的方法在开放世界设置。它也是最强的统一调和平均值(h均值)度量,占开放和封闭的设置。当我们通过在对所有方法(“+obj”)的推理期间提供oracle对象标签来消除由稀缺对象训练数据引起的压力时,我们的方法调和平均值仅在开放和封闭设置上计算(它不计入+obj)。据我们所知[5,33]是最相关的比较方法,因为它们也解决了看不见的对象-属性对的识别。对于所有方法,我们使用与我们的方法相同的ResNet-18图像特征;这确保了任何性能差异都可以归因于模型而不是CNN架构。对于所有神经模型,我们确保参数的数量和模型容量与我们的相似。4.2定量结果:识别对象-属性组合探测看不见的成分。表1示出了结果。我们的方法优于所有先前报告的结果和基线上的两个数据集由一个很大的保证金-约6%的麻省理工学院-国家和14%的UT-捷步达康在开放世界设置-表明它学会了一个强大的模型视觉组成。这两个数据集的绝对准确度相当不同。与UT-Zappos相比,MIT-States由于大量的属性、对象和看不见的对而更加困难此外,它对原始对象概念的训练示例较少,导致整体准确率较低。实际上,如果oracle在测试实例上提供真实的对象标签,则准确度在两个数据集之间更加一致(表1中的这实质上是将搜索空间缩小到所讨论的对象所提供的属性,并作为每个方法准确性的上限在MIT-States上,没有对象标签,最强基线和我们的方法之间的差距约为6%,当提供对象标签时(对所有方法),差距显著扩大在UT-Zappos上,所有的方法都在使用对象oracle的情况下得到了改12T. Nagarajan和K. 格劳曼进,但是有和没有对象oracle的差距更大(14%比10%)。19%)。这与数据集在标签分布方面的差异是一致的; UT-Zappos上的模型自己学习良好的对象表示。NALOGOUS A TTR [5]在两个数据集之间变化显著;它依赖于具有张量形式的部分完整的组合物集合,并使用该信息来“填补空白”。对于UT-Zappos,这个张量完成了43%,与MIT-States相比,完成任务相对简单,MIT-States的张量仅为43%。作为运算符的13UT美捷步关闭开放 h均值关闭开放h均值BASE14.2二、13 .第三章。746.2十三岁120块4+存货十四岁0二、74.第一章5四十五7十四岁221岁7+辅助10个。39 .第九条。59 .第九条。9三十三岁。2二十六岁529岁5+AUX+INV10个。49 .第九条。810个。1三十三岁。1二十六岁229岁2+AUX+COMM11个国家。410个。811个国家。1三十八岁。129.733.4+AUX+ANT8. 98. 88. 8---+AUX+INV+COMM12个。011.411.7三十三岁。223岁4二十七岁5表2:使用的调节剂的消融研究。辅助分类器的损失是必不可少的,我们的方法。在大多数情况下,添加与属性功能一致的其他正则化器也会提高准确性,突出了将属性视为操作符的优点。完成4%我们认为,由于这种极端稀疏性而导致的过度拟合是我们在该数据集上观察到ANALOGOUSATTR的低准确度的原因在封闭世界设置中,我们的方法的性能不如其他一些但是,该设置是人为的,并且可以说是模型性能的较弱指示在封闭世界中,由于在推理过程中人工修剪标签空间,方法很容易产生有偏差的结果例如,属性由于在测试期间包含鬣蜥的所有图像都是在实际应用中,分离成可见和不可见对是由于自然数据稀缺。在这种情况下,在已知成分存在的识别看不见的成分的能力,即。例如,开放世界是一个关键指标。封闭世界中的较低性能似乎是防止过拟合到封闭世界组合物的子集的副作用除了我们的模型之外,所有模型在封闭世界和开放世界的准确性之间都有很大的差异。我们的模型在两种设置下都运行得很好,在每种设置下都保持相似的精度。我们的模型在调和平均度量方面也优于其他模型,在MIT- States和UT-Zappos上分别约为3%和12%。正则化器的效果。表2检查了每个提出的正则化器对我们模型性能的影响。我们看到,辅助分类损失显着稳定了学习过程,并导致两个数据集的准确性大幅提高。对于MIT状态,包括逆一致性和交换算子正则化器在一起使用时提供小的提升和合理的增加。对于UT-Zappos,逆一致性的效果不太明显,可能是因为对象训练数据的丰富性使其变得冗余。交换正则化子提供了4%的最大改进。反义词的一致性对麻省理工学院的学生来说不是很有帮助,也许是因为一些反义词之间存在很大的视觉差异。例如,例如, [5]这些消融实验显示了推动我们的模型与属性的运作方式保持一致的优点5UT-Zappos的属性都是围绕着鞋子的材料(皮革,棉花),因此缺乏反义词,这阻止了我们对规则化器的实验。14T. Nagarajan和K. 格劳曼麻省理工学院最近的图像-美国UT-Zappos最近的图像雕刻照相机破碎的相机多云天空黑暗天空磨损的帽子图3:未看见的组合物的最佳检索结果。看不见的组合被设置为MIT-States(左)和UT-Zappos(右)上的文本查询。这些属性-对象对在训练期间是完全不可见的;使用我们的分解合成模型来生成它们的表示。我们用绿色边框突出显示正确检索的实例,用红色突出显示不正确的实例。最后一行显示失败案例。总的来说,两个具有挑战性和多样性的数据集上的结果强烈支持我们的想法,模型属性作为运营商。我们的方法始终优于最先进的方法。此外,我们看到了将新的语言/语义操作注入属性学习的前景4.3定性结果:检索图像中看不见的描述接下来,我们展示了我们的方法在工作中识别看不见的成分的例子不可见成分的图像检索。有了一个学习过的组合模型,我们的方法可以检索相关图像,用于在训练过程中看不到的对象-属性对的文本查询。查询本身是以属性a和对象o的形式;我们将它们以及所有图像候选x嵌入到我们的语义空间中,并选择最接近我们所需组合的图像。我们强调,这些组合物是全新的,产生于我们的模型图3示出了示例。查询以文本形式显示,嵌入空间中前5个最近的图像显示在旁边。我们的方法准确地区分属性“状态”的最后一行显示失败案例。我们观察到的特征失败的成分,涉及一些代表性不足的对象类的训练对。例如,涉及我们还观察到涉及模糊标签的常见故障(发霉面包的例子也经常在数据中切片域外合成的图像检索。图4将此任务进一步推进了两步。首先,我们执行检索的图像数据库不相交的训练demonstrate鲁棒性域转移在开放世界的设置。图4(左)显示了来自ImageNet验证集的检索,一组与MIT-States不相交的50 K图像即使在这个数据集上,我们的模型也可以检索具有不可见成分的图像。作为羊皮踝靴皮革踝靴牛磨砂凉鞋橡胶凉鞋尼龙拖鞋作为运算符的15燃烧的蜡烛在线客服黑暗天空雕刻钱币图4:在域外设置中的顶级检索结果。图像是从一个看不见的域ImageNet中检索的。左图:我们的方法可以成功地从野外的图像中检索看不见的成分右:域外组合的检索。包含甚至不存在于我们的数据集中的对象(如锁和谷仓)的组合可以使用我们的模型的因子分解表示来检索可以预料的是,变化要大得多例如,ImageNet中的瓶盖-一个在MIT状态中不存在的对象类-被误解为硬币。其次,我们执行检索不相交的数据库和问题的组合物,既不是在训练集,也不是测试集的查询。例如,在任何属性组合下,对象barn或cycle在MIT-States中都不会出现。我们将这些组合物称为域外组合物。我们的方法通过将属性运算符应用于GloVe对象向量来处理它们。图4(右)示出了示例。这种推广对于我们的方法是直接的,而它被现有的方法R ED-WINE [33]和ANALOGOUS ATTR [5]所禁止它们依赖于所有组成概念的预训练SVM。为了允许具有新对象类别的域外组合,这些方法需要收集该对象的标记图像,训练SVM,并重复其完整的训练管道。5结论我们提出了一个模型的属性-对象组合的思想我们将这种组合建模为对象向量的属性条件变换,并将其纳入嵌入学习模型以识别未见过的组合。我们引入了几个受语言启发的辅助损失项来正则化训练,所有这些都利用了属性的运算符模型。实验表明,相当大的收益超过现有的模式。我们的方法推广到看不见的组成,在开放的世界,封闭的世界,甚至域外设置。在未来的工作中,我们计划探索扩展,以适应相对属性比较,并处理涉及多个属性的组合。鸣谢:本研究得到ONR PECASE N 00014 -15- 1-2291和Amazon AWS机器学习研究奖的部分支持。我们非常感谢Facebook的GPU捐赠。ImageNet中最近的图像ImageNet中最近的图像锈锁旧谷仓雕刻饰板现代周期16T. Nagarajan和K. 格劳曼引用1. Al-Halah,Z.,Tapaswi,M.,Stiefelhagen,R.:恢复丢失的链接:预测无监督零射击学习的类-属性关联。In:CVPR(2016)1,2,32. Alayrac,J.B.,Sivic,J.,拉普捷夫岛Lacoste-Julien,S.:对象状态和操作动作的联合发现。ICCV(2017)43. Baroni,M.,Zamparelli,R.:名词是向量,形容词是矩阵:形容词-名词结构在语义空间中的表征。在:EMNLP(2010)34. Berg,T.L.,Berg,A.C.,Shih,J.:从有噪声的网络数据中自动发现和表征属性。载于:ECCV(2010)1、35. Chen,C.Y.,Grauman,K.:推断相似的属性。见:CVPR(2014)3、4、10、11、146. Chen,L.,中国地质大学,张洪,肖,J.,刘伟,Chang,S.F.:使用语义保持对抗嵌入网络的零镜头视觉识别。在:CVPR(2018)107. 郑,D.,Gong,Y.,Zhou,S.,王杰,Zheng,N.:基于改进三重丢失函数的多通道部件cnn的人员再识别在:CVPR(2016)78. Choe,J.,公园,S.,Kim K Park,J.H.,Kim,D.,Shim,H.:使用生成对抗网络进行低拍摄学习的人脸生成。In:ICCVW(2017)49. Cruz,R.S.,Fernando,B.,Cherian,A.,Gould,S.:分类器的神经代数WACV(2018)310. Dixit,M.,Kwitt,R.,Niethammer,M.,Vasconcelos,N.:Aga:属性引导增强。在:CVPR(2017)411. Farhadi,A.,恩德雷斯岛Hoiem,D.,Forsyth,D.:按属性描述对象。见:CVPR(2009)1,312. Fathi,A.,J. M. Bogg:通过状态更改对操作进行建模。In:CVPR(2013)413. Guevara,E.:分布语义中形容词-名词组合性的回归模型在:ACL自然语言语义几何模型研讨会(2010年)314. Hariharan,B.,Girshick,R.:通过缩小和幻觉特征进行低镜头视觉识别。In:ICCV(2017)415. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习In:CVPR(2016)6,1016. Hoffer,E.,Ailon,N.:使用三重网络的深度度量学习在:SIMBAD(2015)717. Hsiao,W.L.,Grauman,K.:学习潜在的外观:从时尚图像中无监督地发现风格一致的嵌入。ICCV(2017)1,318. 黄,J.,费里斯河陈昆,Yan,S.:基于双属性感知排序网络的跨域图像检索。In:ICCV(2015)319. Huang,S.,(1996年),中国科学院,Elhoseiny,M.,Elgammal,A.,Yang,D.:学习hypergraph-regularized attribute predictors。见
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功