11316定宾作文中的对称与群李永璐,徐跃,毛晓涵,卢策武上海交通大学{李永禄,silicxuyue,mxh 1999,lucewu}@ sjtu.edu.cn摘要属性和对象可以组成不同的组合。为了对这些一般概念的组合性质进行建模,通过转换(例如耦合和解耦)来学习它们是一个不错的选择但是,复杂的转换需要满足特定的原则,组合性+苹果去皮-苹果语境性V.S.还要吗对称+苹果皮-苹果皮保证合理性。 在本文中,我们首先提出了一个去皮苹果苹果Apple以前忽略的属性-对象转换原则:对称性例如,将peeled-apple 与 属 性 peeled 耦 合 应 该 得 到peeled-apple,而将peeled与apple解耦仍然应该输出apple。通过对对称性原理的阐述,建立了一个受群论启发的变换框架,即:SymNet。SymNet由耦合网络和解耦网络两个模块组成.以群公理和对称性为目标,我们采用深度神经网络实现SymNet,并在端到端的范式中对其进行训练。此外,我们提出了一种基于相对移动距离(RMD)的识别方法,利用属性的变化,而不是属性模式,自我分类属性。 我们的对称学习可以用于组合零次学习任务,并且在广泛使用的基 准 上 优 于 最 先 进 的 技 术 。 代 码 可 在https://github.com/DirtyHarryLYL/SymNet上找到。1. 介绍属性描述通用对象的属性,例如材料、颜色、重量等。理解属性将直接促进许多需要深度语义的任务,例如场景图生成[15]、对象感知[33,9,40,35,7,20]、人机交互检测[3,16,17]。作为辅助信息,属性也可以用于零触发学习[8,39,38,37,12,41]。一些著作[14,28,39,29]沿着传统分类设置的道路,卢策武是通讯作者,中国上海交通大学人工智能研究所青元研究院和MoE人工智能重点实验室成员(a)(b)第(1)款图1.定宾结构除了具有组合性和语境性外,还具有对称性。例如,一个去皮的苹果在“添加”了去皮属性后不应该改变类似地,苹果在“移除”peeled属性后应该保持相同,识别与典型的判别模型的对象和实现性能差。这是因为属性不能很好地独立于上下文表达[24,25](图1(a))。随后,研究人员重新思考属性的性质,并将其视为线性操作[25]来操作这两个一般概念,例如。向对象“添加”属性(耦合)或从对象“移除”属性(解耦)。虽然这些新的观点促进了这一领域的发展,但现有的在本文中,我们重新思考了属性-对象的物理和语言属性,并提出了一个以前被忽视但重要的属性-对象转换原则:对称性,这将促进属性-对象学习。对称性描述了变换下的不变性,例如。圆在旋转下具有旋转对称性而不改变其外观。“添加”或“删除”属性的转换也应该满足对称性:一个对象应该保持不变,如果我们“添加”一个属性,它已经有,或“删除”一个属性,它没有。例如,如果我们在一个去皮的苹果上如图1(b),除了满足组合性和语境性外,还应满足对称性,以保证合理性。有鉴于此,我们首先11317引入了对称性,并提出了SymNet来描述它。在这项工作中,我们的目标是桥梁属性对象学习和组理论。因为群理论的优美性质在很大程度上会以一种更有原则性的方式提供帮助,因为它具有巨大的理论潜力。因此,为了从理论上涵盖变换中的原理,借用群论的原理来模拟对称性。 在德-在tail中,我们定义了三个转换{ 为了实现这些目标,SymNet采用耦合网络(CoN)和解耦网络(DecoN)来实现耦合/添加和解耦/移除。另一方面,为了满足群论的基本要求,对称性和群公理闭包、结合性、单位元、可逆元都被实现为SymNet的学习目标。自然地,SymNet在各种属性和对象的耦合和解耦期间考虑组合性和上下文性。所有上述原则将在端到端范例中的统一模型下学习。通过对称学习,我们可以应用SymNet来解决组合零次 学 习 ( CompositionalZero-ShotLearning ,CNOML),其目标是对由可见属性和对象组成的不可见组合进行分类。我们采用了一种新的识别范式,相对移动距离(RMD)(Fig.2)。 也就是说,给定一个特定的属性,可以通过隐藏在潜在空间中的“添加”和“删除”转换来操纵当这些变换满足对称性原理时:如果输入对象已经具有该属性,则添加后的输出应靠近原始输入对象,移除后的对象应远离输入。当然,如果对象不具有给定的属性,则移除后的对象应该比添加后的对象更接近输入。因此,属性分类可以通过比较输入和两个输出之间的相对移动距离来同时完成利用RMD识别,我们可以利用稳健的属性变化来进行属性分类,而不是仅仅依赖于非常不稳定的视觉属性模式。大量的实验表明,我们的方法在CNOML基准测试中取得了显著的改进[12,41]。本文的主要贡献是:1)我们提出了属性-对象组合变换的一个新性质:对称性,并设计一个受群论启发的框架,在群公理的监督下学习它。2)基于对称学习,提出了一种基于相对移动距离的属性推断3)我们在属性-对象组合零射击学习任务中取得了实质性的改进。2. 相关工作视觉属性。将视觉属性引入到计算机视觉中,以缩小视觉模式和对象概念,例如降低对象识别的难度[8]或充当零激发学习的中间表示[14]。在此之后,属性被广泛应用于人脸识别[19],人[1],行人[6]或动作[34],人Re-ID[18,30],零-镜头学习[37,39],字幕生成[13,27]等等。因此,属性识别是促进视觉概念理解的基本问题.属性识别的典型方法是训练与对象分类相同的多标签判别模型[14,28,39,29],其忽略了属性的内在属性,例如组合性和上下文性。Farhadi等人[8]在考虑跨类泛化的基础上,提出了一种基于视觉特征选择的属性识别方法。后来,一些工作开始考虑的属性,利用属性-属性或属性-对象的相关性[11,4,22]。考虑到上下文的属性,Nagarajan等。[25]将属性视为对象嵌入后的线性变换,Misra等人。[24]将属性映射到模型权重空间以获得更好的表示。组成零射击学习。CNOML是组合学习和零触发学习的交叉领域。在CNOML设置中,测试组合物在训练期间是不可见的,而每个组分在训练集和测试集Chen等人[4]利用权向量的张量完备化构造未知成分的线性分类器。Misra等人[24]考虑到模型空间更加光滑,因此通过训练对应分量的二进制线性支持向量机将属性或对象投影到模型空间中。为了处理CNOML任务,它将模型空间中的属性和对象嵌入组合为组合表示。Wang等人[36]通过依赖于属性词嵌入[23]变换的条件嵌入修改来Nan等人[26]将图像特征和词向量[31]映射Nagarajan等人[25]将属性视为对象嵌入的线性操作,并将图像特征和变换后的对象嵌入映射到共享的潜在空间中。然而,线性和显式矩阵变换可能不足以表示不同复杂度的各种属性概念,例如,将“红色”和“破碎”表示以往的方法往往忽略或不完全考虑属性和对象之间耦合与解耦的自然规律有鉴于此,我们提出了一个统一的框架启发群论学习这些重要的原则,如对称性。3. 方法图2给出了我们的方法的概述。我们的目标是学习属性-对象组合中的对称性11318T+(剥离)T+(剥离)耦合网络T?-苹果去耦网络“Group”&““Te苹果群公理:闭包结合性恒等元可逆元交换性(条件)苹果皮SymNet目标相对运动距离对称去皮ƒD+d潜在空间TOooo o ooTe,T+,Td+=||Ted-=||−||2−||2剥皮?ifd+