解开视觉嵌入中的属性和对象之间的联系

178 浏览量更新于2023-10-25 收藏 1.33MB PDF 举报

组合学习

对象属性

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13658解开属性和对象的视觉嵌入马里兰大学帕克分校（University of Maryland，CollegePark）摘要本文研究了组合零次学习在对象属性识别中的应用问题。先前的工作使用通过骨干网络提取的视觉特征，预先训练用于对象分类，因此不捕获与属性相关联的微妙的区别特征。为了克服这一挑战，这些研究采用了来自语言空间的监督，并使用预先训练的词嵌入来更好地分离和组合属性-对象对以进行识别。类似于语言嵌入空间，它已经有了独特的和不可知的嵌入对象和属性，我们把重点转移到视觉空间，并提出了一种新的架构，可以解开属性和对象的功能在视觉空间。我们使用视觉分解特征来产生代表所见和新颖成分的嵌入，以更好地规则化我们模型的学习。大量的实验表明，我们的方法在三个数据集上以显著的余量优于现有的工作：麻省理工学院，UT美捷步，和一个新的基准创建的基础上暴力。代码、模型和数据集分割可以在https上公开获得//github.com/nirat1606/OADis网站。1. 介绍现实世界中的对象可以以不同的属性出现，即，不同的颜色、形状、材料等。例如，苹果可以是红色的或绿色的，可以是切开的或去皮的，可以是生的或熟的，甚至可以是脏的或干净的。理解对象属性可以极大地有益于各种应用程序，例如，鲁棒对象检测[5，14，15，26]，人类对象交互[7，49，51]，和活动识别[1，3，4，16，18，34]。由于现实世界中可能的属性-对象对的总数非常大，因此收集图像样本并训练多个分类器是不切实际的。先前的工作提出了组合学习，即，学习组合已知属性和对象概念的知识，以识别新的属性-对象组合。MIT- States [24]和UT-Zappos [56]等数据集通常用于研究此任务，其中联合属性-对象识别用于不同但有限的对象和属性集。图1. 方法说明：给定一个去皮苹果的输入图像I，我们使用两个其他图像：（1）一个具有相同的对象，不同的属性Iobj-切片苹果，（2）一个具有相同的属性，不同的对象Iattr-去皮橘子。我们提出了一种新的架构，采取我和我的attr，并提取他们的视觉相似性特征去皮和视觉相异特征的橙色。类似地，使用I和Iobj，可以提取苹果的视觉相似性特征和切片的相异性特征。我们将这些原始的视觉特征想象一对看得见的去皮苹果，和一对看不见的切好的橘子，用来正则化我们的嵌入空间。请注意，这是一个嵌入空间组成的可视化，我们不生成图像。组合学习是指将简单的原始概念组合起来理解复杂的概念。这个想法可以追溯到Biederman [6]的识别和合成理论，以及Hoffman [22]在视觉领域的早期工作，其中提出了通过部分进行姿势估计的识别先前的工作在一定程度上探索了组合性，通过特征共享和共享嵌入空间。其中，大多数的研究工作是利用语言学上的损失来分离共享嵌入空间中的属性和对象，然后利用这些原始知识来合成新的复对。使用语言嵌入是有帮助的，因为：（1）在嵌入空间中，属性和对象有明显的区别，（2）这些嵌入已经包含了相似对象和属性的语义知识，这对合成是有帮助的。然而，与单词嵌入不同，很难区分-Iattr：去皮橘子I：去皮苹果我的目标：苹果片橙色剥离苹果切片英文名：Sliced Orange英文名：PeeledApple视觉解缠视觉合成输入图像13659在可视嵌入空间中指定对象和属性。这是由于图像特征提取器通常被预先训练用于对象分类，通常与图像增强（例如，颜色抖动），其倾向于产生属性不变的图像表示，因此不单独地学习对象和属性。在本文中，我们提出了一个新的方向，专注于视觉线索，而不是使用语言线索明确的新的组成。类似于语言嵌入，我们的工作重点是在视觉空间中解开属性和对象。我们的方法，对象属性解纠缠（OADis），学习不同的和独立的视觉嵌入去皮和苹果去皮的苹果的视觉特征。如图1所示，对于去皮苹果的图像I，我们使用另外两个图像：一个具有相同的对象和不同的属性Iobj（例如，切片苹果），以及具有相同属性和不同对象Iattr（例如，去皮的橙子）。OADis获取I和Iobj，并学习第二个图像相对于第一个图像的相似性（ apple ）和相异性（sliced）类似地，使用I和Iattr，也可以提取它们之间的共同性（去皮）和遗漏的离散性（橙色）此外，这些提取的视觉基元的合成被用来分别对可见和不可见的对，去皮的苹果和切片的橙子进行幻觉化。对于组合学习，在组合新的看不见的属性-对象对之前，有必要首先分解。作为人类，我们有能力想象一个看不见的复杂概念，使用其原始概念的先前知识。例如，如果有人看到小丑和独角兽，他们可以想象小丑在独角兽上，即使他们在现实生活中从未见过这种组合[20，43]。这种想象力是各种作品的基础，如GANs [12]，CLIP [47]和DALL-E [48]。然而，这些工作依赖于较大的数据集和高计算能力进行训练。我们研究这个想法的想象力的一个较小的设置，通过组合新的复杂的概念，使用解开属性和对象的视觉特征。我们的工作集中在回答这个问题，是否有去皮和苹果的视觉嵌入，从去皮苹果的视觉特征分离？我们的贡献如下：• 我们提出了一种新的方法，OADis，解开attribute和object的视觉特征，其中，去皮的视觉嵌入是不同的，独立于苹果的嵌入。• 我们在视觉空间中使用不纠结的特征在组合零拍摄学习（CNOML）设置之后，我们在标准数据集上显示了与先前工作相比的竞争性改进[24，56]。• 我们使用现有的属性数据集VAW [45]提出了一个新的大规模基准测试，并表明OADis优于现有的基线。2. 相关工作视觉属性。视觉属性是理解物体视觉属性和低层语义的这些属性有助于进一步改进各种下游任务，例如对象检测[5，11，14，15，26，36]、动作识别[1，3，4，16，18，34]、图像captioning [25，40]以及零拍摄和半监督分类[2，10，11，27，39，41，50]。与对象的多类分类类似，属性理解的初始工作使用判别模型[26，42]，而不理解属性。其他作品[8，15，23，32]探索了相同属性和不同对象之间的关系，以学习视觉属性。特别地，在[17，19]中探索了从属性特征中分离对象特征。虽然，这些作品使用聚类和概率模型来学习对象的属性。组成零射击学习。组合学习的概念最早是在部分识别中引入的[22]。最初，[35]将这个概念用于对象和属性。与零次学习（zero-shot learning，CNOL）不同，CNOL要求模型学习从已经学习的基本组件中组合看不见的概念[8，35]提出了原始组件的分离分类器，并将所有分类器合并为最终分类器。大多数先前的工作使用语言启发的辅助损失项来正则化嵌入空间的训练，例如：[38]将属性建模为对象的线性变换，[30]使用对称规则来理解状态，[55]分层学习属性的组合和另一组研究使用语言先验知识来学习看不见的属性-对象对，无论是在特征空间还是多个网络中[31，46，52]。其他最近的作品使用图结构来利用图卷积网络[33，37]在可见到不可见的对之间进行信息传输，[54]使用基于关键字查询的注意力，以及具有消息传递的模块化网络来学习原始概念之间的关系。3. 对象属性分解（OADis）与之前的工作[30，37，38，55]相反，我们明确地专注于在视觉空间中分离属性和对象特征更确切地说，TMN [46]使用词嵌入来生成注意力层，以探测与给定对相对应的图像特征，GraphEmbedding [37]利用标签的词嵌入之间的依赖性，HiDC [55]主要使用词嵌入来组成新的对，并为其三重丢失生成更多示例据我们所知，没有一个现有的作品探讨了属性和对象的视觉特征解纠缠。我们假设，属性和对象的视觉特征可以分离时，考虑图像对之间的视觉特征的相似性和差异。组合这些分解的元素有助于正则化共同的嵌入空间，以提高识别性能。13660L∈∈∈ ∪ ∩∅∈∈剥离苹果橘子片图2. 系统概述：给定图像I，对于去皮的苹果，我们考虑两个图像：我喜欢切片的苹果，还有一个同样的属性，我喜欢去皮的橘子。(1)对象条件网络使用GloVe词嵌入来组成对词嵌入。(2)标签嵌入器使用图像I并使用损失cls嵌入视觉特征vattr，obj以及单词嵌入wattr，obj。(3)属性相似性网络和对象相似性网络分别从图像对I，Iattr和I，Iobj中解开相同的属性和对象。剥离（vattr）和苹果（vobj）的分解视觉特征与属性（wattr）和对象（wobj）的词嵌入一起使用，以计算Lattr和Lobj。（4）利用解纠缠特征，对可见和不可见的组合损失L seen和L unseen，我们合成了可见的去皮苹果对（vattr，vobj）和不可见的切片橘子对（va′ttr，vo′bj）。更具体地说，我们从[17]和[35，55]中获得线索，学习基于辅助损失利用视觉属性组成看不见的属性-对象对。3.1. 任务制定我们遵循传统的组合零射击学习（CZSL）设置，其中在训练和测试中使用不同的属性-对象组合。每个图像I被标记为y=yattr，objY，其中yattr和yobj分别是属性和对象标签。数据集被分成两部分，可见对ys Ys和不可见对yu Yu，使得Y=Ys Yu，Ys Yu=。尽管yu=yattr ，objYu由属性yattr和对象yobj组成，它们在训练中从未一起看到，但它们是分开看到的。我们采用广义CNOL设置并将它们嵌入到公共对嵌入空间中。接下来，使用Ob-object Affinity Network计算I和Iobj之间的视觉相似性，该Ob-object Affinity Network提取对象vobj的视觉特征。凡是不相似的，都被认为是不相似的。因此，与I的视觉特征最不相似的I obj的视觉特征被认为是I obj中的属性特征va′ttr，其在该示例中被切片。相似地，属性亲和网络以I和Iattr为对象，提取去皮的视觉相似特征vattr和Iattr的视觉相异特征vo′bj作为橘子的目标特征。然后使用解纠缠的特征来组成可见和不可见的对。我们将在以下几节中讨论详细信息图像编码器（ IE ）。我们使用 ImageNet 预训练的ResNet-18 [13，21]的AveragePool之前的倒数第二层来提取所有图像的特征。这是一个单一的convolu-[46]见，见。确认和测试集详见表1。如图所示跨图像I、I生成它们的图像特征，表示为attr 我目标在图2中，对于图像I，标签为peeled apple，我们选择了两个额外的图像：一个具有相同的对象和不同的属性Iobj（例如，切片苹果），以及具有相同属性和不同对象I属性另一图像（例如，去皮的橙子）。注意图像符号的下标，attr在Iattr中，表示与I的相似性，而su-perscript表示可见和不可见的集合。3.2. 解开视觉特征我们从预训练的网络中提取图像和标签嵌入特征（ResNet [21]和GloVe [44]）。如图2所示，我们使用图像编码器（IE）和对象条件网络（OCN），分别用于图像和文字嵌入功能。与[38]类似，我们使用标签嵌入器（LE）作为图像特征的附加FC层。LE和OCN学习图像和单词嵌入f 、fattr 和fobj，其中每个fRn×49和n是IE的输出维数。标签嵌入器（LE）。受[38]的启发，我们的LE输入来自ResNet [21]，Averagelet的空间特征，并通过线性层提取用于对嵌入的最终特征vattr，obj，其与从对象条件网络（OCN）提取的单词嵌入最终特征wattr，obj具有相同的维度（图2）。这是主分支，并且仅用于输入图像I。对象条件网络（OCN）。这需要属性embattr和对象embobj的词嵌入，连接特征并通过多个层。对象条件的命名是因为因为对象特征与最终属性特征连接，并且输出特征为wattr，obj∈Y。我们讨论手套：去皮橘子MLPMLP对象条件网络属性亲和网络CosCls：苹果片CosCls对象亲和网络可见对CosCls不可见对CosCls标签嵌入器CosCls：去皮苹果ResNet图像编码器13661·AA···f属性I Iattr（一）（b）第（1）款图3.（a）属性亲和度模块：我们计算f和fattr中的块之间的余弦相似度（等式2中的S）。 3），然后应用行和列softmax（和'），随后是相应的列和和行和以获得m和mattr。 m表示其中fattr与f高度相似的区域（因此，我们将m与fattr整形并相乘），并且mattr表示其中f与fattr高度相似的区域（因此，mattr f）。类似地，S′表示特征fattr与特征f不相似的区域（更多细节见3.2节）。最后一行显示了真实的样本和覆盖在图像上的生成的注意力地图。给出了图像的荷叶边袋和荷叶边花，我们证明了属性荷叶边在中心mattrf和m fattr处突出显示。而m′objfattr则显示了Iattr与I. r.t不同的区域。（b）显示了以不同损失学习的三个嵌入空间使用与图2相同的符号。这一点在第4.3节中有详细说明。余弦分类器（CosCls）。类似于[33，37]中使用的兼容性函数，我们使用交叉熵和余弦相似性来获得每对的最终得分。对于视觉特征vattr、obj（来自LE）和合成词em-beddingswattr ， obj（来自OCN），CosCls为图像I提供logits。例如，假设v：X→Z，w：Y→Z。 Z是word类似于[53]，其计算具有相应视觉块的单词概念之间的注意力，我们计算两个图像I和Iattr之间的注意力。由于两个图像具有相同的属性，即，剥离后，我们的亲和网络学习图像之间的视觉相似性，这表示属性。相似矩阵S是余弦相似-f和fattr之间的关系，使得S∈R49×49为：fTfattr嵌入w和可视嵌入v。然后分类器S=f联系我们（三）单位CosCls给出了标签y∈Ys为C的分数：vT wh（v，w）=cos（v，w）=δ·vw（1）eh（v，w）（2）其中，元素Sij表示第i个el之间的相似性f的元素与f的第j个元素attr。此外，设si和sj分别表示S的第i行和第j然后，si捕获fattr中所有元素的相似性关于f的第i个元素。要知道最相似的C（v，w）=y∈Ys eh（v，y）元素之间的f属性关于ithf的元素，我们可以其中δ是温度变量。每个损失函数使用相同的CosCls评分评估器，具有不同的输入。对象和属性相似性模块。我们的主要结论是提出的亲和模块和成分损失。受图像字幕的启发[9，28，29]，OADis使用图像的相似性和差异来识别视觉特征在S上取行softmax。类似地，对于f attr的第j个元素，列sj表示与f的所有元素的相似性。使用列式softmax，我们可以相对于fattr的第j个元素解释f的最相似和最不相似元素，如图3所示。因此，通过应用列和行softmax，我们得到两个矩阵A和A′（A，A′∈Rd×d，d=49），对应于属性和对象。对象亲和网络-eλsi′eλs∗jwork（OAN）使用f和fobj，而属性亲和网-Ai=100deλsij和 Aj=100deλsij 、（四）work（AAN）使用f和fattr。为了简洁起见，我们解释了j=1i=1AAN，而OAN遵循相同的架构。记住f和fattr都∈Rn×49.其中λ是温度参数的倒数。我们分别计算A和A′的行和F列和行和列和=行softmax=柱softmax=行softmax可见对不可见对213662和列和，以得到最终的13663SSγs′DΣLLLLLLLLDdLL相似性图，M和Mattr，m j=Aij，mattri= A′ij.（五）i=1j=1类似地，这两个图像f和表1.此表显示数据集拆分。Ys和Yu分别是可见和不可见的成分。我们提出了一个新的基准，VAW-CQML [45]，其中每个都有超过10×的成分与其他数据集相比。训练集验证集测试集f属性是对象标签，yobj. 因此，我们使用否定作为图像差，表示为“。然后，fattr关于f的差将是差矩阵的行方向softmax，由D表示。因此，通过执行在D上的列和，我们得到差分映射，m′obj，后者是与LE提取的组合视觉特征。埃吉D=而M′=10D。（六）在这里，我们使用L看到的损失，它需要的组成，JDi=1 埃γ斯伊季目标iIJj=1纠缠的特征，并学习使构图更接近wattr，obj。此外，从OAN和属性vattr和对象对于AAN和OAN，vo′bj可以计算为：vattr=m·fattr+mattr·f，vo′bj=m′obj·fattrAANe 提取 va′ttr 和 vo′b j ，它们组成一个看不见的对（va′ttr，vo′b j）。我们使用看不见的是看不见的损失，因为在我、我的属性和我的对象之间，从来没有看到过有光泽的作品。目标 =m·fobj +mobj · f和沃阿特尔=m′attr· fobj（七）.L看见=C（（vattr，vobj），wattr，obj）（九）使用玩具示例的更多细节可以在图3中看到。使用vattr和vobj的串联以及单个Lin-ear层，组成一对去皮苹果，由（vattr，vobj）表示。类似地，解纠缠的视觉特征va′ttr和vo′b j用于组成不可见的对切片橙，并表示为（va′ttr，vo′b j）。3.3. 嵌入空间学习目标如图3 b所示，我们学习了三个嵌入空间：（1）属性空间，（2）对象空间，（3）属性-对象对空间。属性和对象空间用于解开两者，而对嵌入用于最终的对组合和推理。OADis具有用于解开和合成的单独损失函数。所有损失函数都用前面定义的CosCl主分支cls的损失函数使用来自LE的组合视觉特征vattr，obj和来自OCN的词嵌入特征wattr，obj。CLS用于对嵌入空间。类似地，attr和obj用于在其各自的嵌入空间中学习视觉属性和对象特征。attr将attribute的视觉特征推向更接近单词嵌入的位置。obj对对象嵌入空间中的对象执行相同的操作图3b.这些损失涵盖了解缠结的概念，并且可以表示为：L不可见=C（（va′ttr，vo′bj），wa′ttr，obj）组合损失函数在所有训练图像上最小化，以训练OAD端到端。每个损失的权重（α）是根据经验计算的：L= L cls + α1L attr + α2L obj + α3L seen + α4Lunseen。4. 实验4.1. 数据集和指标我们展示了三个数据集的结果：MIT-states [24]，UT- Zappos [56]，以及用于在野外对象图像上评估CNOML的新基准，称为VAW-CNOML。VAW-CQML是基于具有来自VAW数据集的对象和属性标签的图像创建的[45]。MIT- states [24]和UT-Zappos [56]都是以前研究中用于此任务的常见数据集。MIT状态覆盖了广泛的对象（即，笔记本电脑、水果、鱼、房间等）和属性（即，苔藓的、脏的、生的等），而UT-zappos具有较少的对象（即，鞋类型：靴子、拖鞋、凉鞋）和细粒度属性（即，皮革、毛皮等）。提出新的基准。在对MIT-states [24]和UT-Zappos [56]进行实验时，我们发现了这些数据集的几个缺点，并在使用这些数据集的所有基线中发现了问题：Lcls=C（v attr，obj，w attr，obj）Lattr=C（v attr，w attr）;L obj=C（vobj，w obj）（八）• 这两个数据集都很小，最多有2000个属性对象对和30k个图像，导致过拟合相当快。对于构图，我们使用可见和不可见。在所见的图像（I、Iattr和Iobj）中，解纠缠的特征vobj和vattr组成与（vattr，vobj）相同的一对，我们称之为所见的组合。注意，（vattr，vobj）与vattr，obj不同，因为前者是具有分离的属性和对象视觉特征的组合的幻觉特征数据集attr. 物镜YsYs/YuYs/Yu美国麻省理工学院[24]115 2451262三百/三百四百/四百[第56话]16128315 /1518 /18[45]第四十五话440 541 11175 2121 /23222449 /247013664• 随机种子初始化使性能显著波动（ 0.2-0.4%AUC）。此外，[2]在麻省理工学院国家的人类注释标签中发现了70%的噪音[24]。• 在[37]中引入了一个新的数据集C-GQA，但数据集仍然很小，我们发现了很多差异（请参阅附录）。13665表2.我们展示了MIT状态[24]和UT-Zappos [56]的结果。在[37，46]之后，我们使用具有不同偏倚项的可见和不可见成分之间的AUC（%），以及Val，Test，属性和对象准确度。HM是Harmonic Mean。OADis在大多数类别上都表现出色，并有显著的增量。UT美捷步模型Val@1测试@1HM看到看不见属性对象Val@1测试@1HM看到看不见属性对象[第38话]2.52.010.716.618.422.924.729.922.838.155.554.438.670.0标签嵌入+[38]3.52.311.516.221.225.627.535.522.637.753.358.640.969.1TMN [46]3.32.611.822.717.121.324.235.928.444.058.258.040.868.4Symnet [30]4.53.413.824.820.026.125.727.427.742.556.761.644.070.6CompCos [33]6.94.816.926.924.528.331.940.826.941.157.762.843.373.0GraphEmb [37]7.25.318.128.925.027.232.533.924.738.958.861.044.072.6OAD7.65.918.931.125.628.433.240.830.044.459.565.546.575.5表3.我们显示VAW-CQML的结果由于这是一个更具挑战性的数据集，具有显著大量的成分，以区分不同基线之间的性能，我们显示了Val和Test集的前3和前5 AUC（%）Val. 设置测试集型号V@3 V@5 V@3 V@5 HM可见不可见属性物镜[第38话]1.42.51.42.69.116.411.713.7三十四点九标签嵌入+[38]1.52.81.62.89.816.213.213.435.1Symnet [30]2.33.92.33.912.2 19.115.818.640.9TMN [46]2.23.92.34.011.9 19.915.415.9三十八点三CompCos [33]3.15.63.25.614.2 23.918.016.9四十一点九GraphEmb [37]2.75.32.95.113.0 23.416.816.9四十点八OAD3.56.03.66.115.2 24.918.717.5四十三点三为了解决这些限制，我们提出了一个新的基准VAW-CNOML，它是VAW [45]的一个子集，是一个多标签属性对象数据集。我们对每个图像的一个属性进行采样，从而产生比表1所示的先前数据集大得多的数据集（详见附录）。评价我们使用广义CNOL设置，定义在[46]中，数据集统计数据见表1。如在先前的作品[37，46]中所观察到的，在一组标签Ys上训练的模型不能很好地推广看不见的对Yu。因此，[37，46]使用标量项来克服看不见的对的负偏差。我们使用相同的评估方案，其计算曲线下面积（AUC）（以%）之间的准确性，看到和看不见的组成与不同的偏见条款[46]。较大的偏置项导致更好的结果，而较小的偏置导致更好的结果，为看到的对。报告调和平均值，以平衡偏倚。我们还报告了属性和对象的准确性看不见的对，以显示由于视觉解纠缠的功能的改善我们新的VAW基准子集[45]遵循与其他数据集类似的划分此外，我们对所有方法进行了图像增强的所有实验（在第4.3节中讨论）。4.2. 结果和讨论基线。我们与相关的最近和突出的先前作品进行比较：AttrOp [38]、LabelEmbed+ [38]、TMN [46]、[30]、[33]和[37]。我们不与BMP [54]进行比较，因为它使用了连接13666∼∼所有四个ResNet块（960-d特征）的特征，从而导致比所有其他设置更高的输入特征和网络参数数量。此外，GraphEmb [37]是最先进的;因此，与之相比，我们的工作可以与其他已经表现出色的基线[37]进行比较。为了保持一致，我们声明了所有模型（包括GraphEmb [37]）的性能，这些模型使用冻结的主干ResNet而不微调图像特征，并使用GloVe [44]进行对象和属性词嵌入。在通过主干之前，训练图像用水平翻转和随机裁剪来增强。与其他基线相比，OAD使用卷积特征而不是AvgPooled，因为它更容易在空间域中分离属性和对象的视觉特征。此外，其他研究[33，37]也在IE之上使用了额外的FC层，我们认为这使得我们可以公平地使用OAD的预合并功能。结果在MIT-States。MIT-states有相当大的标签噪声[2]，但仍然是这项任务的标准数据集。我们在该数据集上显示了显着的改进（报告在表2中），与先前的最先进的GraphEmb相比，其具有7.2 Val AUC和5.3Test AUC。请注意，我们没有报告具有微调骨架的GraphEmb结果，因为我们发现它与没有将微调作为其提出的方法的一部分的其他基线不可比较总的来说，我们的模型在所有指标上的表现都明显优于关于UT Zappos UT-Zapopos也有类似的改善趋势（见表2）。尽管如此，正如GraphEmb所解释的那样，很难在该数据集中平衡Val和Test集的最佳问题是测试集中的7/36（20%）个属性未出现在验证集中。因此，改善Val set AUC并不一定改善UT-Zappos的Test AUC其他基线也有类似的趋势：CompCos具有最好的ValAUC，但与TMN和Symnet相比，在测试集上表现不佳。即使是GraphEmb在他们的最终表格中也显示冻结的骨干网络的性能比TMN低得多然而，OADis在UT-Zappos上总体表现良好，Val和Test AUC、HM、不可见和对象准确性提高了4.0。13667∼LLLLLLVLL（一）黑色挂染色大理石在墙上Onthe wall – ClockLarge – ClockOrnate – Clock黑色字母白色黑色字母切割半朦胧朦胧远（b）第（1）款放松二手黄色成熟蓬松软垫图4. 定性结果：我们使用MIT状态和UT-Zappos的幻觉看不见的组成特征显示最近的邻居。虽然所有的邻居都不正确（用红色轮廓表示），但它们看起来与真正的类标签非常相似：（a）第一排：水果泥，第二排：雕刻的硬币，第三排：巨大的塔。（b）我们显示了VAW-CNOML中图像的前3个预测表4.我们定量地表明，所提出的架构和不同的损失有助于解开和组成的看不见的对。实验在MIT状态[ 24 ]上进行，其中准确度的变化以绿色和红色显示，分别基于前一行的增量或减量。破折号（-）表示变化不超过（±0.1）。详细信息请参见第4.2节。损失值AUC@1检测AUC@1 可见不可见属性对象Lcls7.24 5.43 29.92 25.33 28.03 33.10L cls + L attr--31.09（+2.0）-28.30（+0.3）--一种L cls + L obj-25.50（+0.2）-33.38（+0.2）L cls + L attr + L obj7.49（+0.2）5.73（+0.2）--28.50（+0.2）--一种L cls + L attr + L obj + L seen-5.44（-0.5）31.21（+0.2）-28.18（-0.4） -L cls + L attr + L obj + L不可见-5.73（+0.3）-25.80（+0.4）28.51（+0.4） --一种Lcls+ Lattr+ Lobj+ Lseen+ Lunseen7.62（+0.2）5.94（+0.2）31.64（+0.4）25.60（-0.2）28.51 33.20表5.不同网络的词嵌入结果。具有属性的对象条件化性能最好，因此用于OAD（第4.3节）。线性MLP目标条件网络Val@16.67.07.6测试@15.05.25.9关于 VAW-Coffel的结果。我们的模型表现良好的VAW-CQML，并始终优于其他方法在几乎所有的指标。如表1所示，VAW-CNOL在每个分割中的配对数是MIT-States的6-8倍，这表明该基准是多么具有挑战性。由于top-1 AUC太小，无法量化任何学习和方法之间的比较，我们报告了top-3和top-5 AUC。这也是因为自然界中的对象倾向于描述多个可能的属性;因此，仅评估我们提供了定性的结果，我们的模型如何使对象-属性组合预测VAW-CNOML的供应商。解开和产生幻觉对你有帮助吗？以前的工作在很大程度上依赖于词嵌入来完成这项任务，但是为了提高视觉系统的能力，必须探索视觉领域中的可能性。我们做了广泛的研究，以了解我们的直觉是否与OAD一致（表4）。以下是一些要点：• 仅使用cls，我们得到了基于架构贡献的基准性能，例如LE和ONC。当添加attr时，可以在表4中看到属性准确性的显着性能提升。• 使用cls添加对象丢失obj，使对象准确性更好，但Val和Test AUC没有变化这表明需要两种损失来平衡影响。使用Lattr和Lobj两者在所有测量中给出改进。• 添加所见AUC升高，但AUC下降，测试AUC，其中有看不见的对和看到的对。使用看不见的损失会增加测试和属性的准确性。• 最后，添加看不见的组合损失和看不见的损失，模型在大多数指标上都有所改进。每一个损失都发挥作用，并使其他损失的影响正规化。视觉解缠真的发生了吗？特征空间中的视觉解纠缠在可视化方面具有挑战性，因为：（a）图像的属性部分和对象部分难以区分，因为属性是对象的各个方面;(b)OADis是端到端训练的，损失是为了解开属性和对象嵌入的特征，这与对嵌入空间是分开的。受[30，38]的启发，我们在图5中展示了一些定性结果。使用所有训练图像，每个属性的原型特征attr可以通过使用AAN对包含该属性vattr的所有图像的特征进行平均来计算。类似地，利用OAN，也计算原型类型对象特征对于每个测试图像，我们从这些原型fea中找到前3个最近的邻居新教堂垂饰项链切片水果13668∼弯叶盘篮清洁能源商用是增加还是不增加？增强是一种减少过拟合和提高泛化能力的常用技术。令人惊讶的是，先前的作品不使用任何图像增强。未加用OAD的AUCAttr：弯曲、尖锐、弯曲Attr：盘绕、刺穿、薄Attr：有光泽、干净、开裂对象：刀，刀片，手柄对象：篮子，碗，桶对象：卡车，公共汽车，玩具图5.定性结果显示测试图像中的前3个属性和对象，使用在训练数据上计算的原型解纠缠特征。（图5）。因此，解纠缠的属性和对象的原型特征用于分类看不见的图像。请注意，表1中报告的结果使用对嵌入空间进行属性和对象分类，而在这里，我们使用辅助属性和对象嵌入空间（图3b）进行相同的任务。如果解缠结特征不稳健，则组合特征也将不有效。我们还表明，使用未见过的对，从测试集的相关图像可以发现，在Suppl.局限性。尽管OAD在所有基准测试中的表现都优于以前的工作，但我们仍然注意到在这个问题领域中存在一些突出的缺陷。首先，与[37]类似，OAD通常在包含多个对象的图像上挣扎，其中它不知道对哪个对象进行预测。一种可能的解决方案是利用对象条件注意力，其允许模型聚焦并可能输出多个对象的属性。其次，从定性研究VAW-CNOML，我们注意到有很多情况下，OADis作出正确的预测，但被认为是不正确的图像标签。这是由于这样一个事实，即在野外的对象大多是多标签（包含多个属性），没有一个当前的单标签基准试图解决。4.3. 消融研究在本节中，我们展示了支持OAD设计选择的所有消融均针对MIT状态[24]完成λ，δ和不同的词嵌入的经验结果可以在suppl.为什么是对象条件网络？ LabelEmbed-der [38]使用线性层并连接属性和对象的单词嵌入。我们尝试其他网络：MLP具有两层多参数和ReLU和对象条件网络，使用剩余连接进行对象嵌入。我们的直觉是，相同的属性对每个对象的贡献不同，即，荷叶边的袋子和荷叶边的花很不一样。因此，属性以对象为条件为最终的属性嵌入添加对象嵌入的我们在表5中以经验证明了客体条件作用的帮助（参见附录）。对于MIT状态，Val和5.1% AUC在测试集上。因此，我们对OAD使用了增强，并重新实施了表2中的其余基线，表明增强有助于改善1.0-1.5% AUC的所有方法。我们使用水平翻转和随机裁剪作为增强。4.4. 定性结果为了定性分析我们的幻觉成分，我们对所有三个数据集进行了最近邻搜索。我们挑选使用非纠缠特征组成的看不见的组合物，并从验证和测试集中找到它们的前5个最近邻。图4（a）展示了我们的一些结果。请注意，这些对在训练中从未出现过。基于分离的属性和对象的幻觉组合，我们能够从这些看不见的组合中检索样本。在图4（b）中，我们显示了VAW-CSZL上OAD的前3个预测。第1列显示了可见的结果，第2列和第3列显示了不可见的成分，顶部有地面实况标签（黑色粗体）。在所有示例中，我们的前3个预测准确地描述了图像的视觉内容，即使在许多情况下，地面实况标签没有在前1中预测。对于第3列，我们特意展示了我们的模型预测与地面真实标签完全不同的示例，但仍然正确地描述了每张图像中的视觉信息。与[37]类似，这解释了对象属性识别的多标签性质，以及为什么我们报告了VAW-CQML基准的前3和前5个指标。5. 结论在这项工作中，我们展示了在视觉特征空间中解开对象和属性的能力，用于产生新的复杂概念，以及规则化和获得更好的对象-属性识别模型。通过大量的实验，我们证明了我们的方法的有效性，并超过以前的方法在三个不同的基准。此外，我们还提出了一个新的基准，用于组合零拍摄学习任务，使用野外物体的图像，我们相信这可以帮助将社区的重点转移到更复杂场景中的图像上最后，我们还强调了我们工作的局限性，包括对象属性中的多标签问题，我们希望这将鼓励未来的工作开始解决CSZL更现实的场景。鸣谢。这项工作得到了空军的支持（ STTR 奖项FA865019P6014，FA864920C0010），DARPA SAILON计划（W911NF2020009）和Adobe协作支持基金的礼物。13669引用[1] Jean-Baptiste Alayrac，Josef Sivic，I.Laptev和S.拉科斯特-朱利安。对象状态和操作动作的联合发现。2017年IEEE国际计算机视觉会议，第2146-2155页，2017年。一、二[2] Y. Atzmon，F.克鲁克大学Shalit和Gal Shalhik。合成零激发识别的因果观。ArXiv，abs/2006.14610，2020。二、五、六[3] Nach w aAbouBak r，J. 哭吧，还有我的罗恩·法尔德。从状态转换中识别操作动作。ArXiv，abs/1906.05147，2019。一、二[4] Nach w aAbouBak r、R e'miRon fard和J. 哭吧。烹饪视频中食物的识别和定位。在CEA/MADiMa一、二[5] Gedas Bertasius和Lorenzo Torresani Cobe：从叙述教学视频中嵌入上下文对象，2020年。一、二[6] 欧文·比德曼按组件识别：一种人类图像理解理论。Psychological Review，94 2：115-147，1987。1[7] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议，第3

下载后可阅读完整内容，剩余1页未读，立即下载