基于结构对齐的零样本识别方法

154 浏览量更新于2023-10-13 收藏 12.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Huajie Jiang1,2,3,4[0000−0002−1158−6321], Ruiping Wang1,4[0000−0003−1830−2595],Shiguang Shan1,4[0000−0002−8348−392X], and Xilin Chen1,4[0000−0003−3024−4404]0通过结构对齐学习类别原型进行零样本识别01 中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，中国北京市，100190 2中国科学院上海微系统与信息技术研究所，中国上海市，200050 3上海科技大学，中国上海市，200031 4 中国科学院大学，中国北京市，100049huajie.jiang@vipl.ict.ac.cn, { wangruiping, sgshan, xlchen } @ict.ac.cn0摘要。零样本学习（ZSL）旨在识别在训练阶段未见过的新类别的对象，这是通过利用语义信息和辅助数据集实现的。它主要受到人类识别新对象的行为的启发。例如，如果告诉孩子斑马看起来像马（辅助数据集），但有条纹（语义信息），他们在以前从未见过斑马也没有问题识别斑马。目前，大多数ZSL方法侧重于学习视觉-语义嵌入，将知识从辅助数据集传递到新类别。然而，很少有研究探讨语义信息对于识别任务是否具有区分性。为了解决这个问题，我们提出了一种耦合字典学习方法，利用类别原型来对齐视觉-语义结构，其中利用了在视觉空间中存在的具有区分性的信息来改善不太具有区分性的语义空间。然后，可以通过使用学习到的类别原型在不同的空间中使用简单的最近邻方法进行零样本识别。在四个基准数据集上进行了大量实验证明了所提出方法的有效性。0关键词：零样本学习，视觉-语义结构，耦合字典学习，类别原型01 引言0目标识别在近年来取得了巨大的进展。随着大规模图像数据库的出现[28]，深度学习方法[17, 31, 29,13]展示了它们在识别物体方面的强大能力。然而，这些监督学习方法需要大量的图像来训练稳健的识别模型，并且只能识别固定数量的类别，这限制了它们的灵活性。众所周知，收集大量图像是困难的。一方面，图像的数量通常遵循长尾分布[41]，很难为一些罕见的类别收集图像。另一方面，一些细粒度的注释需要专家知识[33]，这增加了注释任务的难度。所有这些挑战推动了零样本学习的兴起，其中不需要标记的示例来识别一个类别。The domestic cat (Felis silvestris catus or Felis02 H. Jiang, R. Wang, S. Shan, X. Chen0图像文本0视觉空间0猫0狗0马0语义空间0依赖的0家猫是一种小型的、通常有毛的、食肉的哺乳动物...0图1：说明了视觉特征空间和语义空间不一致的示意图。语义信息是手动定义或自动提取的，与视觉样本无关。两个空间中的黑线表示不同类别之间的相似性。0零样本学习旨在识别在训练阶段未见过的对象，这需要辅助数据集和语义信息来执行此类任务。它主要受到人类识别新对象的行为的启发。例如，如果告诉孩子斑马看起来像马（辅助数据集），但有条纹（语义信息），他们在以前从未见过斑马也没有问题识别斑马。当前的ZSL方法通常包括三个步骤。首先，选择一个语义空间来建立已见（辅助数据集）和未见（测试）类别之间的关系。最近最流行的语义信息包括手动定义的属性[19, 9]和从辅助文本语料库中自动提取的词向量[10,2]。其次，从辅助数据集中学习通用的视觉-语义嵌入，其中图像和类别语义可以投影到一个共同的空间[1,5]。第三，在共同的空间中通过不同的度量学习方法执行识别任务。传统的ZSL方法通常使用固定的语义信息，并且更加关注学习更稳健的视觉-语义嵌入[19, 10, 1, 15, 24,38]。然而，大多数这些方法忽视了一个事实，即语义信息，无论是人工定义还是自动提取的，都是不完整的，并且可能不足以区分不同的类别，因为对类别的描述是有限的。如图1所示，由于不完整的描述，一些类别在语义空间中可能非常接近，即猫和狗，因此在该空间中执行识别任务可能不太有效。由于图像是不同类别的真实反映，它们可能包含无法描述的更具区分性的信息。此外，语义信息是独立于视觉样本获取的，因此视觉空间和语义空间之间的类别结构不一致。在这种情况下，视觉-语义嵌入将过于复杂以学习。即使嵌入被正确地学习，它们很有可能过拟合已见类别，并且对未见类别的扩展性较差。0通过结构对齐学习零样本学习的类原型 30为了解决这些问题，我们提出通过对齐视觉-语义结构来学习类原型。我们的框架的新颖之处在于三个方面。首先，与学习图像嵌入的传统方法不同，我们在自动学习的类原型上进行结构对齐，以进行识别任务。其次，我们提出了一种耦合的字典学习框架，用于在视觉空间和语义空间之间对齐类结构，其中视觉空间中的判别性属性和语义空间中的广泛属性在对齐空间中合并。第三，利用未见类的语义信息进行领域自适应，增加了我们模型对未见类的扩展性。为了证明所提方法的有效性，我们在四个流行的零样本识别数据集上进行实验，取得了优秀的结果。02 相关工作0在本节中，我们从语义信息、视觉-语义嵌入和零样本识别三个方面回顾了零样本学习的相关工作。02.1 语义信息0语义信息在零样本学习中起着重要作用。它建立了已见类和未见类之间的关系，从而使零样本识别成为可能。最近，最流行的语义信息包括属性[19, 9, 1, 3, 14]和词向量[2, 7,22]。属性是对象的一般描述，可以在不同类之间共享。例如，毛茸茸可以在不同的动物之间共享。因此，可以通过一些辅助类来学习这些属性，并将它们应用于新颖类别的识别。词向量是从大量文本语料中自动提取的，其中不同词向量之间的距离显示了不同类别之间的关系，因此它们也能够建立已见类和未见类之间的关系。由于可以收集的知识有限，通用目的中获得的语义信息通常对于在特定领域中对不同类别进行分类来说不够有区分性。为了解决这个问题，我们提出利用视觉空间中的判别性信息来改进语义空间。02.2 视觉-语义嵌入0视觉-语义嵌入是零样本学习的关键，大多数现有的零样本学习方法都专注于学习更鲁棒的视觉-语义嵌入。在早期阶段，[19,9]提出使用属性分类器来执行零样本学习任务。这些方法独立地学习每个属性分类器，这在具有大量属性的大规模数据集上不适用。为了解决这个问题，出现了标签嵌入方法[1, 2]，其中将所有属性视为一个整体来处理。4H. Jiang, R. Wang, S. Shan, X. Chen0为了提高这种嵌入模型的性能，[35]提出了潜在嵌入模型，其中学习多个线性嵌入来逼近非线性嵌入。此外，[10, 30, 34, 26, 38,22]利用深度神经网络来学习更鲁棒的视觉-语义转换。虽然一些工作关注于学习更复杂的嵌入函数，但其他一些工作从不同的角度处理视觉-语义转换问题。[23]通过已见类语义的凸组合形成未见样本的语义信息。[39,40]利用类别相似性，[14]提出了具有判别性潜在属性的更有效的嵌入空间。[4]通过共享语义空间和视觉空间之间的结构来合成未见类别的分类器。[5,20]通过从语义空间到视觉空间的学习嵌入函数来预测视觉样本。[3]利用度量学习技术，利用相对距离来改进嵌入模型。[27]将图像分类器视为相应类别语义的函数，并使用附加正则化器来学习嵌入函数。[16]利用自动编码器框架来学习视觉-语义嵌入。[8]利用低秩约束来学习语义字典，[37]提出了一种带有流形正则化的矩阵三因子分解方法。为了解决嵌入领域转移问题，[15,11]使用迁移学习技术将零样本学习扩展到传导设置中，其中未见类样本也在训练过程中被利用。与学习图像嵌入或合成图像分类器的现有方法不同，我们提出通过联合对齐视觉空间和语义空间之间的类结构来学习类原型。02.3 零样本识别0零样本识别最广泛使用的方法是概率模型[19]和最近邻分类器[1, 39,14]。为了利用语义流形上丰富的内在结构，[12]提出了语义流形距离来识别未见类别样本，[4]通过在语义空间和视觉空间之间共享结构直接合成未见类别的图像分类器。考虑到更真实的条件，[6]将传统的ZSL问题扩展为广义ZSL问题，在测试过程中也考虑了已见类别。最近，[36]为不同数据集提出了更合理的数据划分，并在这种实验设置下评估了不同方法的性能。03 方法0所提出的方法的一般思想是通过在视觉空间和语义空间之间共享结构来学习类别原型。然而，这两个空间之间的结构可能不一致，因为语义信息是独立于视觉示例获取的。为了解决这个问题，我们提出了一种耦合字典学习（CDL）框架，以同时对齐视觉-语义结构。因此，视觉空间中的判别信息和语义空间中的关系可以相互共享，以互相受益。图2显示了我们方法的框架。该框架包括三个关键子模块：原型学习、结构对齐和领域自适应。Feature ExtractionPrototype LearningPrototype LearningStructure AlignmentStructure AlignmentcatdoghorsezebraDomain AdaptationPZCD1D2Assume a labeled training dataset contains K seen classes with ns labeled sam-ples S = {(xi, yi)|xi ∈ X, yi ∈ Ys}nsi=1, where xi ∈ Rd represents the imagefeature and yi denotes the class label in Ys = {s1, ..., sK}. In addition, a disjointclass label set Yu = {u1, ..., uL}, which consists L unseen classes, is provided, i.e.Yu � Ys = Ø, but the corresponding images are missing. Given the class seman-tics C = {Cs � Cu}, the goal of ZSL is to learn image classiﬁers fzsl : X → Yu.0通过结构对齐学习类别原型进行零样本识别 50图像文本0图2：耦合字典学习框架以对齐视觉-语义结构。实心形状表示已见类别的原型，虚线形状表示未见类别的原型。黑线显示不同类别之间的关系。棕色字符对应于方程的公式。0假设一个带有K个已见类别和n_s个标记样本S={(x_i, y_i)|x_i∈X,y_i∈Y_s}的标记训练数据集，其中x_i∈R^d表示图像特征，y_i表示类别标签在Y_s={s_1, ..., s_K}中。此外，提供了一个不相交的类别标签集Y_u={u_1, ...,u_L}，其中包含L个未见类别，即Y_u∩Y_s=Ø，但相应的图像缺失。给定类别语义C={C_s∪C_u}，ZSL的目标是学习图像分类器f_zsl:X→Y_u。03.1 问题形式化03.2 框架0如图2所示，我们的框架包含三个子模块：原型学习、结构对齐和领域自适应。原型学习我们框架提出的结构对齐方法是在类别原型上进行的。为了在视觉空间和语义空间之间对齐类别结构，我们必须首先在两个空间中获取类别原型。在语义空间中，我们将已见/未见类别的类别原型表示为C_s∈R^m×K/C_u∈R^m×L，其中m是语义空间的维度。这里，C_s/C_u可以直接设置为C_s/C_u。6H. Jiang, R. Wang, S. Shan, X. ChenLs =minPs,D1,D2,Zs ∥Ps − D1Zs∥2F + λ ∥Cs − D2Zs∥2F ,s.t.||di1||22 ≤ 1,||di2||22 ≤ 1, ∀i.(2)Lu =minPu,D1,D2,Zu ∥Pu − D1Zu∥2F + λ ∥Cu − D2Zu∥2F ,s.t.||di1||22 ≤ 1,||di2||22 ≤ 1, ∀i.(3)0然而，在视觉空间中，只提供了已见类别样本X_s∈R^d×n_s及其相应的标签Y_s，因此我们应该首先在视觉空间中学习类别原型P_s∈R^d×K，其中d是视觉空间的维度。原型学习的基本思想是样本应该在视觉空间中靠近其相应的类别原型，因此损失函数可以表示为：L_p=min P_s∥X_s−P_sH∥_F，(1)0其中，H ∈ R K × n s的每一列是一个独热向量，表示相应图像的类别标签。由于类别的语义信息是独立于图像定义或提取的，直接在语义空间中共享结构以形成视觉空间中未见类别的原型不是一个好的选择，因此首先应进行结构对齐。因此，我们提出了一个耦合字典学习框架来对齐视觉-语义结构。我们的结构对齐方法的基本思想是在每个空间中找到一些基向量来表示每个类别，并强制新的表示在两个空间中相同，从而实现结构对齐。损失函数的公式为：0其中，P s 和 C s 分别是视觉空间和语义空间中已见类别的原型。D 1 ∈ R d × n b 和D 2 ∈ R m × n b 是对应空间中的基向量，其中 d、m是视觉空间和语义空间的维度，n b 是基向量的数量。Z s ∈ R n b × K是已见类别的共同新表示，它在对齐两个空间中起到关键作用。λ是一个参数，控制视觉空间和语义空间的相对重要性。d i 1 表示 D 1 的第 i 列，d i 2是 D 2 的第 i列。通过在每个空间中探索新的表示基向量来重新定义每个类别，我们获得了视觉空间和语义空间中相同的类别表示，从而使得两个空间中的类别结构一致。域自适应在结构对齐过程中，仅利用了已见类别的原型，这可能会导致域偏移问题[11]。换句话说，学习在已见类别上学到的通用结构对齐方法可能不适用于未见类别，因为已见类别和未见类别之间存在一些差异。为了解决这个问题，我们进一步提出了一个域自适应项，它在视觉空间中自动学习未见类别的原型，并使用未见原型来辅助结构学习过程。损失函数可以表示为：L = Ls + αLu + βLp,(4)L =minPs,Pu,D1,D2,Zs,Zu(∥Ps − D1Zs∥2F + λ ∥Cs − D2Zs∥2F )+α(∥Pu − D1Zu∥2F + λ ∥Cu − D2Zu∥2F ) + β(∥Xs − PsH∥2F ),s.t.||di1||22 ≤ 1,||di2||22 ≤ 1, ∀i.(5)0通过结构对齐学习类原型的零样本学习 70其中，P u ∈ R d × L 和 C u ∈ R m × L分别是视觉空间和语义空间中未见类别的原型，Z u ∈ R n b × L是未见类别的共同新表示。总的来说，我们的完整目标可以表示为：0其中，α 和 β 是控制相对重要性的参数。03.3 优化0所提出框架的最终损失函数可以表示为：0很明显，方程式5对于 P s 、P u 、D 1 、D 2 、Z s 和 Z u同时不是凸函数，但对于它们中的每一个单独来说是凸函数。因此，我们采用交替优化方法来解决这个问题。初始化在我们的框架中，我们将字典基向量的数量 n b设置为已见类别的数量 K，并使得 Z的每一列都是与所有已见类别的相似度。首先，我们将 Z u初始化为未见类别到已见类别的相似度，即语义空间中未见类别原型与已见类别原型之间的余弦距离。其次，我们通过方程式3的第二项得到 D2，它有闭式解。然后，我们通过方程式2的第二项得到 Z s。接下来，我们将 P s初始化为每个类别样本的均值。然后，我们通过方程式2的第一项得到 D1。最后，我们通过方程式3的第一项得到 Pu。这样，我们的框架中的所有变量都被初始化。联合优化在我们的框架中，所有变量都被单独初始化后，我们将它们联合优化如下：（1）固定 D 1、Z s，更新 Ps。子问题可以表示为：0arg min P s ∥ P s − D 1 Z s ∥ 2 F + β ∥ X s − P s H ∥ 2 F (6)0(2) 固定 P s ，D 1 ，D 2 ，通过公式2更新 Z s 。 (3) 固定 P s ，P u ，Z s ，Z u，通过公式1更新 D 1 。该子问题可以表示为：0arg min D 1 ∥ P s − D 1 Z s ∥ 2 F + α ∥ P u − D 1 Z u ∥ 2 F s.t. || d i 1 || 22 ≤ 1 , � i. (7)0(4) 固定 Z s ，Z u ，通过公式3更新 D 2 。该子问题可以表示为：0arg min D 1 ∥ C s − D 2 Z s ∥ 2 F + α ∥ C u − D 2 Z u ∥ 2 F s.t. || d i 2 || 22 ≤ 1 , � i. (8)0(5) 固定 P u ，D 1 ，D 2 ，通过公式3更新 Z u 。08 H. Jiang, R. Wang, S. Shan, X. Chen0(6) 固定 D 1 ，Z u ，通过公式3的第一项更新 P u。在我们的实验中，我们将最大迭代次数设置为100次，优化通常在十几次迭代后收敛，通常少于50次。103.4 零样本识别0在提出的框架中，我们可以在不同的空间（即视觉空间P u，对齐空间Z u，语义空间Cu）中获得看不见类别的原型，从而可以使用最近邻方法执行零样本识别任务。在视觉空间中进行识别。在测试过程中，我们可以直接计算测试样本（Xi）与看不见类别原型（P u）之间的相似度Simv，即余弦距离，并将图像分类到与其最相似原型相对应的类别中。在对齐空间中进行识别。要在该空间中执行识别任务，我们必须首先通过以下方式获得图像在该空间中的表示：0arg min Z i ∥ X i − D 1 Z i ∥ 2 F + γ ∥ Z i ∥ 2 F (9)0其中X i表示测试图像，Zi是对应的对齐空间中的表示。然后，我们可以计算测试样本（Zi）与看不见类别原型（Z u）之间的相似度Sima，并使用与视觉空间中相同的识别方法。在语义空间中进行识别。首先，我们应该通过C i = D 2 Z i计算图像的语义表示。然后，通过计算测试样本（Ci）与看不见类别原型（C u）之间的距离，可以获得相似度Sims。识别任务可以以与视觉空间中相同的方式执行。结合多个空间。由于视觉空间具有辨别性，语义空间更具生成性，对齐空间是一种折中，结合多个空间将提高性能。在我们的框架中，我们简单地将每个空间中获得的相似度组合起来，即通过Sim va = Sim v +Sim a将视觉空间和对齐空间组合起来，并使用相同的最近邻方法执行识别任务。03.5 与相关工作的差异0在先前的工作中，与我们最相关的工作是[4]，其中也利用了语义空间和视觉空间中的结构。然而，这两个工作的关键思想是非常不同的。[4]使用固定的语义信息，并直接将其结构共享到视觉空间中形成看不见类别分类器。它不考虑两个空间是否一致，因为语义信息是独立于视觉示例获取的。而我们的方法侧重于对齐视觉-语义结构，然后将对齐的结构共享到不同空间中形成看不见类别原型。此外，01 CDL的源代码可在http://vipl.ict.ac.cn/resources/codes获取。0通过结构对齐学习类别原型的零样本学习90表1：属性数据集aPY，AwA，CUB和SUNA的统计数据，包括图像数量（Img），属性数量（Attr），训练+验证可见类别数量（Seen）和不可见类别数量（Unseen）0数据集 Img Attr Seen Unseen0aPY [9] 15,339 64 15 + 5 12 AwA [19] 30,475 8527 + 13 10 CUB [32] 11,788 312 100 + 50 50SUNA [25] 14,340 102 580 + 65 720[4]独立于语义信息学习视觉分类器，而我们的方法通过联合利用语义信息在视觉空间中自动学习类原型。此外，为了使模型更适应未见类以应对具有挑战性的领域转移问题（[4]未解决），我们提出利用未见类语义进行域自适应。另一项工作[34]也使用结构约束来学习视觉-语义嵌入。然而，它处理的是样本结构，保持样本之间的距离。而我们的方法对齐类结构，旨在学习更稳健的类原型。04 实验04.1 数据集和设置0数据集。根据[36]提出的新数据划分，我们在四个基准零样本识别数据集上进行实验，即aPascal & aYahoo（aPY）[9]，Animals withAttributes（AwA）[19]，Caltech-UCSD Birds-200-2011（CUB）[32]，SUNAttribute（SUNA）[25]，以验证所提出框架的有效性。所有数据集的统计数据如表1所示。设置。为了进行公平比较，我们使用[36]提供的类语义和图像特征。具体来说，属性向量被用作类语义，图像特征由101层ResNet[13]提取。所提出框架中的参数（λ，α，β，γ）在[0.001，0.01，0.1，1，10]范围内进行微调，使用[36]提供的训练和验证划分。有关参数的更多详细信息，请参见补充材料。我们使用每类的平均top-1准确率来衡量模型的性能。04.2 不同空间的评估0所提出的框架涉及三个空间，即视觉空间（v），对齐空间（a）和语义空间（s）。如上所述，可以在每个空间中独立进行零样本识别，也可以在组合空间中进行，以及AwACUBSUNAaPY4050607080vasv + aa + sv + sv + a + s010 H. Jiang, R. Wang, S. Shan, X. Chen0数据集0准确率（%）0图3：通过不同的评估空间进行零样本识别的结果，即视觉空间（v），对齐空间（a），语义空间（s），视觉空间和对齐空间的组合（v +a）以及其他组合，如第3.4节所述。0识别结果如图3所示。可以看出，视觉空间的性能高于语义空间，这表明不完整的语义信息通常辨别性较差。通过对齐视觉-语义结构，语义空间的辨别性得到了很大改善，这可以从对齐空间和语义空间之间的比较中推断出来。此外，通过结合视觉空间和对齐空间，识别性能将进一步提高，因为视觉空间更具辨别性，对齐空间更具广泛性。对于AwA，最佳性能在视觉空间中获得。可能视觉空间已经具有足够的辨别性，并且与其他空间不互补，因此将其与其他空间结合会降低其性能。04.3 与最先进技术的比较0为了证明所提出框架的有效性，我们将我们的方法与几种流行方法进行比较，并在表2中展示了四个数据集上的识别结果。我们在每个数据集的最佳空间中报告我们的结果，如第4.2节所分析的。可以看出，我们的框架在三个数据集上取得了最佳性能，并且与CUB上的最佳方法相当，这表明我们的框架的有效性。SAE[16]在aPY上的性能较差，可能是由于它对已见类和未见类之间的弱关系不具有鲁棒性。我们将CDL的成功归功于结构对齐过程。与其他方法不同，其他方法利用固定的语义信息执行识别任务，我们通过对齐视觉-语义结构来自动调整语义空间。由于视觉空间更具辨别性，语义空间更具广泛性，通过对两个空间的结构进行对齐，它们将互相受益。与[4]相比，我们在CUB上的结果稍低，这可能是由于较少的辨别性类结构。CUB是一个细粒度数据集，其中大多数类别非常相似，因此在视觉空间中可能无法获得较强的类关系。而[4]学习更复杂的图像分类器以增强视觉空间的辨别性。0通过结构对齐学习类别原型的零样本学习110表2：aPY、AwA、CUB和SUNA上的零样本识别结果（%）0方法 aPY AwA CUB SUNA0DAP [19] 33.8 44.1 40.0 39.9 IAP [19] 36.6 35.924.0 19.4 CONSE [23] 26.9 45.6 34.3 38.8 CMT[30] 28.0 39.5 34.6 39.9 SSE [39] 34.0 60.1 43.951.5 LATEM [35] 35.2 55.1 49.3 55.3 ALE [1] 39.759.9 54.9 58.1 DEVISE [10] 39.8 54.2 52.0 56.5SJE [2] 32.9 65.6 53.9 53.7 EZSL [24] 38.3 58.253.9 54.5 SYNC [4] 23.9 54.0 55.6 56.3 SAE [16]8.3 53.0 33.3 40.30CDL（我们的方法）43.0 69.9 54.5 63.604.4 提出框架的有效性0为了证明我们框架中每个组件的有效性，我们将我们的方法与不同的子模型进行比较。根据数据集，识别任务在最佳空间中进行。具体而言，对于CUB、SUNA、aPY，我们通过结合视觉空间和对齐空间来评估性能；对于AwA，我们在视觉空间中评估性能。图4显示了不同子模型的零样本识别结果。通过比较“NA”和“CDL”的性能，我们可以发现通过对齐视觉-语义结构，模型的性能会有很大提升，并且较少具有区分性的语义空间将在具有区分性的视觉空间的帮助下得到改善。然而，如果已知类别的原型被固定，就很难对齐两个空间之间的结构，模型会严重退化，这可以通过“CDL”和“CDL-Pr”的比较看出。此外，通过利用未知类别的语义信息来调整学习过程，模型将更适合未知类别，这可以通过“CDL”和“CDL-Ad”的比较来说明。04.5 类别结构的可视化0为了直观理解结构对齐，我们在aPY上可视化了视觉空间和语义空间中的类别原型，因为aPY中的类别更容易理解。在视觉空间中，我们通过每个类别所有样本的平均特征向量得到类别原型。在语义空间中，我们直接从语义表示中获取类别原型。然后，我们使用多维缩放（MDS）方法[18]可视化类别原型，以保留所有类别之间的关系。原始的语义空间和视觉空间中的类别结构如图所示。AwA(v)CUB(v+a)SUNA(v+a)aPY(v+a)304050607080NACDLCDL-AdCDL-PrCDL-Ad-Pr012 H. Jiang, R. Wang, S. Shan, X. Chen0数据集（评估空间）0准确率（%）0图4：不同基线方法的比较。NA：在初始化阶段未对视觉-语义结构进行对齐。CDL：提出的框架。CDL-Ad：没有自适应项（第二项）的CDL。CDL-Pr：没有原型学习项（第三项）的CDL，其中P s固定为每个类别中视觉样本的平均值。CDL-Ad-Pr：没有自适应项和原型学习项的CDL。0在图5的第一行中。为了使图形更直观，我们手动将类别分为三组，即车辆、动物和房屋。我们可以看出语义空间中的类别结构不够具有区分性，例如动物之间的结构紧密，而视觉空间中的结构更具有区分性。此外，这两个空间之间的结构严重不一致，因此直接将语义空间中的结构共享到视觉空间以合成未知类别的原型将降低模型的性能。因此，我们提出在每个空间中学习表示基来重新构建类别原型，并在一个公共空间中对齐类别结构。可以看出，在结构对齐后，语义结构变得更具有区分性。例如，在原始的语义空间中，狗和猫大部分重叠，但在与视觉空间中它们之间的关系的帮助下，它们在结构对齐后被分开。因此，对于不同的类别，对齐后的语义空间变得更具有区分性。此外，两个空间中的对齐结构比原始空间中的结构更一致。04.6 类别原型的可视化0一个类别的原型应该位于属于相应类别的样本附近。为了检查原型是否被正确学习，我们在视觉空间中可视化原型和相应的样本。为了更直观地理解，我们从AwA中选择了10个已见类别和5个未见类别。然后我们使用t-SNE[21]将视觉样本和类别原型投影到二维平面上。可视化结果如图6所示。可以看到，大多数原型位于属于同一类别的样本附近。尽管由于没有提供相应的图像进行训练，未见类别的原型偏离了相应样本的中心，但它们仍然具有足够的区分能力来对不同的类别进行分类，这表明了我们结构对齐方法在原型学习方面的有效性。aeroplanebicyclebirdboatbottlebuscarcatchairdiningtabledogsofamonkeywolfzebracentaurmugbuildingbagcarriageSemantic SpaceVehicleAnimalHouseaeroplanebicyclebirdboatbottlebuscarcatchairdiningtabledogsofamonkeywolfzebracentaurmugbuildingbagcarriageVisual SpaceVehicleAnimalHouseaeroplanebicyclebirdboatbottlebuscarcatchairdiningtabledogsofamonkeywolfzebracentaurmugbuildingbagcarriageSemantic→AlignedVehicleAnimalHouseaeroplanebicyclebirdboatbottlebuscarcatchairdiningtabledogsofamonkeywolfzebracentaurmugbuildingbagcarriageVisual→AlignedVehicleAnimalHouseantelopekiller+whaletigermooseelephantfoxrabbitwolfzebrapighorseratbobcatwalrusdolphin0通过结构对齐学习类别原型的零样本学习 130图5：在语义空间和视觉空间中对aPY的已见类别原型进行结构对齐前后的可视化。为了使其直观，将类别手动分为三组，即车辆、动物和房屋。0已见类别0未见类别0图6：在AwA上通过t-SNE在特征空间中可视化类别原型。原型用“*”表示，颜色对应于类别。为了使它们可见，我们用黑色圆圈标记它们。0我们的结构对齐方法在原型学习方面的扩展性可视化结果可以在补充材料中看到。04.7 广义零样本学习0为了证明所提出的框架的有效性，我们还将我们的方法应用于广义零样本学习（GZSL）任务，其中在测试过程中也考虑了已见类别。GZSL的任务是学习图像分类器f gzsl：X→Y s ∪ Yu。我们采用了[36]提供的数据划分，并将我们的方法与几种流行的方法进行比较。表3显示了四个数据集上的广义零样本识别结果。可以看到，大多数方法在未见类别样本上的准确率较低，这是因为过度拟合了已见类别，而我们的框架在未见类别上取得了更好的结果。14H. Jiang, R. Wang, S. Shan, X. ChenHDAP [19]4.878.39.00.088.70.01.767.93.34.225.17.2IAP [19]5.765.610.42.178.24.10.272.80.41.037.81.8CONSE [23]0.091.20.00.488.60.81.672.23.16.839.911.6CMT [30]1.485.22.80.987.61.87.249.812.68.121.811.8CMT* [30]10.974.219.08.486.915.34.760.18.78.728.013.3SSE [39]0.278.90.47.080.512.98.546.914.42.136.44.0LATEM [35]0.173.00.27.371.713.315.257.324.014.728.819.5ALE [1]4.673.78.716.876.127.523.762.834.421.833.126.3DEVISE [10]4.976.99.213.468.722.423.853.032.816.927.420.9SJE [2]3.755.76.911.374.619.623.559.233.614.130.519.8EZSL [24]2.470.14.66.675.612.112.663.821.011.027.915.8SYNC [4]7.466.313.38.987.316.211.570.919.87.943.313.4SAE [16]0.480.90.91.877.13.57.854.013.68.818.011.80表3：aPY、AwA、CUB和SUNA上的广义零样本学习结果。ts =测试未见类别样本的Top-1准确率，tr = 测试已见类别样本的Top-1准确率，H =谐波平均值（CMT*：带有新颖性检测的CMT）。以百分比表示的Top-1准确率。0方法 aPY AwA CUB SUNA0CDL（我们的方法）19.8 48.6 28.1 28.1 73.5 40.6 23.5 55.2 32.9 21.5 34.7 26.50通过同时对齐视觉-语义结构并利用未见类别的语义信息进行适应，我们的模型在已见类别上有较少的过拟合倾向，从而实现了在已见和未见类别之间更加平衡的结果。05 结论0本文提出了一种耦合字典学习框架，用于零样本学习中的视觉-语义结构对齐，其中通过共享对齐的结构来学习未见类别的原型。对四个基准数据集进行了大量实验证明了所提方法的有效性。CDL的成功应归功于三个特点。首先，我们的结构对齐方法不是使用固定的语义信息来执行识别任务，而是共享视觉空间中的判别性属性和语义空间中的广泛属性，这互相受益并改善了不完整的语义空间。其次，通过利用未见类别的语义来调整学习过程，我们的模型更适合于未见类别。第三，通过共享对齐的结构自动学习类别原型，使得可以直接使用简单的最近邻方法执行识别任务。此外，我们结合多个空间的信息来提高识别性能。致谢。本工作得到了中国自然科学基金（合同号61390511、61772500）、973计划（合同号2015CB351802）、中国科学院前沿科学重点研究项目（合同号QYZDJ-SSW-JSC009）和中国科学院青年创新促进会（合同号2015085）的部分支持。0通过结构对齐学习类别原型的零样本学习0参考文献01. Akata, Z., Perronnin, F., Harchaoui, Z., Schmid, C.: 基于标签嵌入的属性分类.计算机视觉与模式识别会议论文集. pp. 819–826 (2013) 2. Akata, Z., Reed, S., Walter, D., Lee,H., Schiele, B.: 输出嵌入在细粒度图像分类中的评估. 计算机视觉与模式识别会议论文集. pp.2927–2936 (2015) 3. Bucher, M., Herbin, S., Jurie, F.:通过度量学习提高零样本分类的语义嵌入一致性. 欧洲计算机视觉会议论文集 (2016) 4.Changpinyo, S., Chao, W.L., Gong, B., Sha, F.: 零样本学习的合成分类器.计算机视觉与模式识别会议论文集. pp. 5327–5336 (2016) 5. Changpinyo, S., Chao, W.L., Sha,F.: 零样本学习中未见类别的视觉示例预测. 国际计算机视觉会议论文集. pp. 3496–3505 (2017) 6.Chao, W.L., Changpinyo, S., Gong, B., Sha, F.:广义零样本学习在野外物体识别中的实证研究与分析. 欧洲计算机视觉会议论文集 (2016) 7.Demirel, B., Cinbis, R.G., Ikizler-Cinbis, N.: 基于属性的无监督零样本学习的判别模型.国际计算机视觉会议论文集. pp. 1241–1250 (2017) 8. Ding, Z., Shao, M., Fu, Y.:用于零样本学习的低秩嵌入集成语义字典. 计算机视觉与模式识别会议论文集. pp. 6005–6013(2017) 9. Farhadi, A., Endres, I., Hoiem, D., Forsyth, D.: 通过属性描述对象.计算机视觉与模式识别会议论文集. pp. 1778–1785 (2009) 10. Frome, A., Corrado, G.S., Shlens,J., Bengio, S., D

下载后可阅读完整内容，剩余1页未读，立即下载