基于语义一致正则化的零炮识别

119 浏览量更新于2023-10-16 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6060基于语义一致正则化的零炮识别Pedro Morgado Nuno Vasconcelos电气和计算机工程加州大学圣地亚哥{pmaravil，nuno}@ ucsd.edu摘要语义在零射击学习中的作用被认为是-德。以往的方法的有效性进行了分析，根据提供的监督形式。有些人独立学习语义，有些人只监督训练类解释的语义子空间。因此，前者能够约束整个空间，但缺乏建模语义相关性的能力。后者解决了这个问题，但留下了部分语义空间不受监督。这种互补性在一个新的卷积神经网络（CNN）框架中得到了利用，该框架提出使用语义作为识别的约束。尽管为分类训练的CNN没有转移能力，但这可以通过学习隐藏的语义层以及用于分类的语义代码两种形式的语义约束，然后介绍。第一种是基于损失的正则化器，它在每个语义预测器上引入泛化第二个是码字正则化器，它支持与先前语义知识一致的语义到类的映射，同时允许从数据中学习这些映射。在几个数据集上实现了对最先进技术的1. 介绍随着深度卷积神经网络（CNN）的引入，最近已经实现了对象识别的显著进步这种方法的主要限制是：1）收集和注释训练这些模型所需的数百万张图像，2）从头开始训练CNN事实上，大多数最近的计算机视觉论文都使用或适应了一小部分流行模型，例如AlexNet [28]，GoogLeNet [54]和VGG [51]，这些模型是从Imagenet数据集[13]中学习的。因此，人们对迁移学习的技术感兴趣，其中这项工作由葡萄牙科学和教育部的研究生奖学金SFRH/BD/109135/2015和国家科学基金会的NRI赠款IIS-1208522和IIS-1637941资助在数据集上学习的模型用于识别未在其中表示的对象类。理想情况下，迁移学习方法将复制人类从一些示例图像甚至从一些语义词汇中的概念描述中识别对象的能力。这促使引入用于对象识别的语义表示[34，44，45，55，56]，其依赖于视觉概念的预定义词汇表来定义语义空间S和一组分类器来将每个图像映射到该空间中。这些分类器的分数然后可以用作对象分类的语义特征。此外，因为可以先验地设计简单的经验法则来根据这些语义描述新的对象类，所以可以利用映射到S的图像来识别先前未见过的对象。这被称为零射击学习（zero-shot learning，缩写为learning）[2，4，14，31，48，49]。最基本的困难是，训练不能由分类器的最终目标来指导。虽然识别器是从一组训练类中学习的，但它必须提供准确的预测，以便将图像分类为一组非重叠的看不见的或零拍摄（ZS）类。从历史上看，早期的努力致力于识别良好的语义为EML。这促使收集包含关于语义（如视觉属性）注释的图像的数据集[14，31]。随后的工作解决了语义空间S的设计，使用先前在语义表示文献中提出的两种策略之一。第一种是使用独立语义（RIS）的识别，包括学习每个语义的独立分类器[34，55，56]。由于其简单性，RIS在属性识别文献中变得广泛流行[14，31，42，48，53，58]。尽管在区分属性发现[9，14，30，42，46]或不确定性建模[25，31，58]方面做出了努力，但独立学习语义证明太弱，无法保证可靠的ZS预测。这促使我们转向第二种策略，即通过学习一个单一的多类分类器来将S的设计与识别目标联系起来，该分类器可以最佳地区分所有训练类[44，45]。将这种方法扩展到XML的困难在于，6061不是阶级本身。[2]对这个问题提出了一个有效的解决方案，注意到在兴趣的语义和类标签之间存在固定的线性变换或嵌入这是通过使用标签嵌入函数φ，将每个类y映射到属性空间中的向量φ（y）来实现的最近，各种作品提出了这种方法的变化[1，4，35，43，47 ， 49] 。我们将这类方法称为使用语义嵌入的（RULE）。通过同时学习所有语义，RULE能够利用概念之间的依赖关系，从而解决RIS的主要局限性。在这项工作中，我们研究了基于深度学习和CNN的两种实现方法的优点和缺点。我们表明，在这种情况下，这两种方法简化为CNN架构上的一组约束：RIS学习一组独立的CNN，而RULE在最后一层使用具有固定权重的单个CNN。由此可见，这两种方法的性能受到在图像属性空间A上提供监督的形式的约束。当RIS独立地沿着每个维度提供监督时，RULE沿着由标签嵌入方向φ（y）所跨越的子空间这样做。由于属性的数量通常大于类的数量，这就暴露了这两种方法的优缺点。一方面，RIS超级- pervises所有的属性，但不能模型的依赖关系。另一方面，RULE对依赖关系进行建模，但使A的大量维度不受约束。为了利用这种互补性，我们提出了一个新的框架表示语义一致的regularization- tion（SCoRe），利用RIS和规则的优点。这是通过认识到这两种方法利用语义作为识别的约束来实现的。RIS强制执行一阶约束（单一语义），而RULE关注二阶约束（线性组合）。然而，这两种方法都不是最佳的。RIS忽略了训练类的识别，牺牲了语义依赖的建模，而RULE忽略了A的一个大的子空间并固定了网络权重。SCoRe通过利用CNN作为多维分类代码的最佳分类器的观点来解决这些问题，在CNN顶层实现。它将此代码解释为语义（最后一层之前的层）和类（最后一层）之间的映射然后，它通过1）约束语义预测的类似RIS的基于损失的正则化器和2）有利于与RULE嵌入一致的分类代码的码字正则化器的组合来实施一阶和二阶正则化约束2. 以前的工作语义语义是传达关于图像x∈ X的含义的视觉描述，并且可以包括任何可测量的视觉特性：离散的或连续的，数值的或分类的。给定一个语义词汇表V={v1，. . . ，vQ}，语义特征空间S被定义为与每个语义vk相关联的向量空间Sk的笛卡尔积，S=S1×· · ·×SQ。如果分类器在S上操作，则它是去标注语义的.作为示例，对于多媒体识别，可以使用包含视觉信息的语义词汇表。属性，例如V ∈ {毛茸茸的，有腿，是棕色的，等等。}，通常与它们相应的向量空间一起定义。在这种情况下，由于所有语义都是二进制的，Sk=R，其中大的正值表示属性存在，大的负值表示属性不存在。早期的语义识别方法[45]使用要识别的图像类集作为语义向量。基本原理是创建一个特征空间，高级抽象，其中可以更鲁棒地执行图像搜索[44]或分类[34，45最近，人们对迁移学习的语义特征空间产生了浓厚的兴趣，迁移学习使用了由中级视觉概念定义的辅助语义词汇。三个主要类别的概念已被探讨，包括视觉属性，语义和词向量表示。属性在[14，31]中被引入，并迅速在许多其他作品中被采用[2，8，21，23从层次/分类中提取的语义概念后来在[2，4，48，60]中进行了探索，并且单词/实体在[4，8，16，18，20，41，43，47，60]中。目前大多数针对Zero-shot learning的解决方案主要分为两类：RIS和规则。早期采用RIS策略。其中最流行的方法之一是直接属性预测（DAP）方法[31]，该方法使用SVM独立学习属性，并通过假设属性独立性的最大后验规则推断ZS预测。已经提出了几种增强措施来解释后验属性相关性，例如，通过使用CRF来建模属性/类别相关性[10]，定向贝叶斯网络将属性预测合并到类别得分[58]，或者学习随机森林以减轻不可靠属性的影响[25]。最近，[37]提出了一个乘法框架，使类特定的属性分类器，[5]学习独立的属性，这些属性是从Word2Vec表示中预先发现的。RULE是另一种策略，它利用语义和对象类之间的一对一关系。中心思想是定义一个嵌入φ（·），它将每个类y映射到一个Q维的属性状态向量φ（y）中。双线性相容函数h（x，y;T）=φ（y）TTTθ（x）（1）然后在图像x的特征向量θ（x）∈Rd与其编码之间定义了参数T∈Rd×Q6062i=1i=1Ky级。在RULE的第一个实现中，T是通过结构化SVM的一个变体来学习的。已经提出了几种变体，例如添加不同的正则化项[43，49]，使用最小二乘损失进行更快的训练[49]，或者改进从多个文本源学习的对象的语义表示[1，47]。表1. 记法。符号意义Φ/ΦZS 用于训练/ZS类的语义码字矩阵φ（y）类y的语义码字（Φ的列）φk（y）语义状态码字（W分类码字矩阵（与Φ至（11）相关）wy分类码字（W列）A′有效属性空间Φ/ΦZS的列所张成的A′的A′/A′子空间3. 语义学和深度学习我们现在讨论RIS和RULE的CNN实现。为了简单起见，我们假设属性语义。第5节和第6节将论述扩展到其他概念。为T ZS其中Φ =[φ（1），. . . ，φ（C）] ∈ RQ×C. 给定训练集D={（x（i），y（i））N}，其中y（i）是图像x（i）的类别标签，通过最小化快速咨询，表1总结了本文其余部分使用的重要符号。ΣR[h， D]= iL.h（x（一）;T，Θ），y（i）一般事务人员（6）3.1. 深度RIS在RIS的独立性假设下，CNN实现简化为学习Q个独立属性预测器。受多任务学习的成功启发，有利的是跨属性共享CNN参数，并且依赖于参数Θ的公共特征提取器θ（x; Θ），其可以用文献中流行的CNN之一来实现。因此，Deep-RIS的每个属性预测器ak采用以下形式：其中L是一些分类损失，通常是softmax输出ρ（v）的交叉熵L（v，y）=−log（ρy（v））。3.3. 关系Deep-RIS和Deep-RULE都有优点和缺点，可以通过比较（3）和（6）的风险来观察。由于属性ak（x）是APDL感兴趣的量，因此理解这两种方法如何对at的空间A提供监督是有用的ak（x;tk， Θ）=σ. tTθ（x;Θ）K（二）致敬从（3），Deep-RIS提供对各个属性a（x）的监督。由于a（·）=1Ta（·），其中k kk其中σ（·）是S形函数，并且tk是参数vec-to r。 Gi表示训练集D={（x（i），s（i））N}，其中s（i）=（s（i），. . . ，s（i））是属性标签，tk和Θ是1k是标准基中的第k个向量（1在第k个位置），在其他地方为0），监督是沿着A的规范方向。另一方面，（5）-（6）仅取决于1Q是a（·）沿向量encod的投影φ（y）Ta（x）通过将风险ΣΣR[a1，. . . ，aQ，D]=Lb（ak（x（i）;tk，Θ），s（i））（3）I k其中Lb是二进制损失函数，通常交叉熵损失Lb（v，y）=−ylog（v）−（1−y）log（1−v）。3.2.深度规则RULE的实现直接遵循（1）的双线性形式。注意，φ（y）是从属性空间到类标签空间的固定映射。例如，如果有Q个二进制属性和C个类标签，φ（y）是一个Q维向量，用于编码类y中Q个.所有训练类的ingsφ（·）因此，RULE仅提供对Φ的列空间C（Φ）的监督。在实践中，我们经常使用图1的机制，其中属性的数量Q大于训练类的数量C。因此C（Φ）可以是相当低维的（维度C），而左零空间N（ΦT）可以是相当高维的（维度Q-C）。因此，当RIS约束所有属性时，RULE使Q-C属性维不受约束。在这种情况下，不能期望具有与C（Φ）不对齐的语义码ΦZS的ZS类被准确地预测。在极限情况下，当φZS垂直于C（Φ）时，如图1中的φZS（1），RULE完全不足以区分ZS类。这表明RIS优于RULE。由于RIS独立监督属性，它没有学习能力φk（y）=1如果类y包含属性k，−1如果类y缺少属性k。（四）属性依赖性，例如“有翅膀”与“生活在水中”具有较强的负相关性。我们将φ（y）表示为类y的语义码。为了在CNN中实现（1），只需使用一种流行的模型来计算θ（x;Θ），添加Q个单元和参数T的全连接层，使得a（x）=TTθ（x; Θ）是属性得分的向量，并定义CNN类输出h（x;T，Θ）= ΦTa（x）= ΦTTTθ（x;Θ），（5）6063这些依赖关系可以被认为是减少属性空间的有效维度的约束它们意味着自然图像的属性向量a（x）不跨越A，而只是一个有效的属性子空间A ′，其维数为Q′

下载后可阅读完整内容，剩余1页未读，立即下载