无监督发现语义嵌入以提高零次学习中的文件性能

63 浏览量更新于2023-10-25 收藏 4.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9316VGSE：用于零次学习的基于视觉的语义嵌入徐文佳1、7、8冼永琴2王九牛5、7、8BerntSchiele3Zeynep Akata3、4、61北京邮电大学2苏黎世联邦理工学院3马普信息学研究所4图宾根大学5香港城市大学6马克斯·普朗克智能系统7中国科学院大学8中国科学院航天信息研究院摘要人类注释的属性在零射击学习中充当强大的语义嵌入。然而，他们的注释过程是劳动密集型的，需要专家监督。当前的无监督语义嵌入，即，单词嵌入，使知识转移类之间然而，词嵌入并不总是反映视觉相似性，并导致较差的零拍摄性能。我们建议发现语义嵌入包含歧视性的视觉特性的零拍摄学习，而不需要任何人的注释。我们的模型从视觉上划分一组图像从看到的类到集群的局部图像区域，根据他们的视觉相似性，并进一步施加他们的类歧视和语义相关性。为了将这些聚类与以前看不见的类相关联，我们使用外部知识，例如，并提出了一种新的类关系发现模块。通过定量和定性评估，我们证明了我们的模型发现了语义嵌入，这些语义嵌入模拟了可见和不可见类的视觉属性。此外，我们在三个基准测试中证明，我们的视觉接地语义嵌入进一步提高了各种BML模型中单词嵌入的性能。代码可在https://github.com/wenjiaXu/VGSE1. 介绍为每个类聚合的语义嵌入存在于一个向量空间中，该向量空间关联不同的类，即使这些类的可视示例不可用。因此，它们促进了零射击学习（ Zero-shotlearning）中的知识转移[1，28，42，59]，并用作其他计算机视觉任务中的辅助信息，如时尚趋势预测[4，23，64]，人脸识别和操纵[11，27，29]，以及领域适应[10，24]。人类注释的属性[19，36，55]，由人类专家注释的对象的特征属性，被广泛图1. 人工注释的属性（左）是劳动密集型的收集，可能会忽略一些类之间共享的本地视觉属性。我们建议通过视觉聚类图像补丁和预测类关系来发现语义嵌入作为语义嵌入[61，62]。然而，获取属性通常是一个劳动密集型的两步过程。首先，领域专家仔细设计属性词汇表，例如，颜色、形状等，然后人工注释者指示图像或类中属性的存在或不存在（如图1所示）。致力于人类注释属性的标记工作阻碍了其在现实环境中对更多数据集执行零射击学习的适用性[30]。以前的作品通过使用类名的单词嵌入来解决这个问题[31，38]，或者从在线百科全书文章中使用语义嵌入[3，39，67]。虽然它们在不使用人类注释的情况下对类之间的语义关系进行建模，但这些关系中的一些可能无法被机器视觉检测到，从而导致零触发学习的性能较差类似地，区别性视觉线索可能并不都在那些语义嵌入中表示。为此，我们提出了视觉接地语义嵌入（VGSE）网络发现语义嵌入与最小的人类监督（我们只使用类别标签看到类图像）。我们的网络明确地探索了将不同类别的图像区域关联起来的视觉集群，这对于零拍摄学习设置下的类之间的知识转移非常有用（请参见我们的9317n=1图1中的学习集群）。为了充分挖掘不同类别之间共享的视觉特性，我们的模型通过根据视觉相似性将图像块分配到不同的聚类中来发现语义嵌入。此外，我们还进一步增加了语义嵌入的类别区分和语义相关性，以利于它们在语义学习中的类间传递知识。总之，我们的工作作出了以下贡献。(1)我们提出了一个视觉接地语义嵌入（VGSE）网络，学习视觉集群从看到的类，并自动预测每个类别的语义(2)在三个零射击学习基准测试（即AWA2，CUB和SUN）上，我们学习的VGSE语义嵌入一致地提高了五种SOTA方法的词嵌入性能(3)通过定性评估和用户研究，我们证明了我们的VGSE嵌入包含丰富的视觉信息，如细粒度属性，并传达人类可理解的语义，促进类之间的知识转移。2. 相关工作Zero-Shot Learning旨在对训练过程中未出现的新类别中的图像进行分类。现有的语义学习方法通常假设可见类和不可见类共享一个公共的语义空间，因此实现语义学习的关键是将知识从可见类转移到不可见类。为了将图像分配给语义类嵌入，许多经典方法学习兼容性函数来关联视觉和语义空间[1，20，48，58]。最近的工作主要集中在用生成模型合成图像特征或分类器权重[43，60，61]，或者用视觉注意力[66，68]或局部原型[62]训练增强的图像特征提取器。语义嵌入在将不同类别与共享特征相关联方面是至关重要的，即，语义空间。尽管它们很重要，但语义嵌入在零射击学习中相对来说还没有得到充分的研究。人类注释的贡品[19，36，55，59]，即，诸如颜色和形状之类的对象的属性是零激发学习中虽然属性可以区分每个类别，但它们的注释过程是劳动密集型的，需要专业知识[50，55，65]。我们建议通过图像数据集上的块级聚类来发现视觉特性，并自动预测语义嵌入，而无需额外的人工注释是必需的，除了所看到的类图像的类标签。具有最小监督的语义嵌入在图像分类中引起了人们的注意[6，9，26，40，45]，从文本语料库是替代手动注释，其中包括从大型语料库学习的词嵌入[31，38，49，63]，语义关系，如知识图[9，26，56]和语义相似性[12，57]等。最近，[3，39，41，67]从描述每个类别的在线百科全书文章中收集属性类关联语义相似性可以通过分类学层次结构或通过将文档内的词的共现统计数据合并来编码然而，这可能不反映视觉相似性，例如，sheep在语义上与dog接近，因为它们经常在在线文章中同时出现，而sheep在视觉上更接近于鹿。我们专注于发现图像空间中基于视觉的语义嵌入，并进一步将类之间的语义关系融入到我们的语义嵌入中，以实现更好的零触发知识转移。从图像补丁中学习视觉属性。发现用于分类的中间级表示的先前尝试包括通过学习二进制代码或类素表示来探索图像级嵌入[6，40，51]，并进一步在循环中引入人类以发现本地化和可命名的属性[18，35]。然而，这些方法发现了整个图像中描述的属性，这可能导致难以解释的覆盖多个对象（部分）的多个语义的组合[35]。视觉Transformer [17]和BagNets [8]表明，图像块可以作为强大的视觉词，传达用于类别区分的视觉线索视觉词袋（BOVW）模型[13，47]提出对图像块进行聚类以学习码本并形成图像表示。然而，BOVW提取手工制作的特征，然后进行k-means聚类，而我们通过深度神经网络以端到端的方式学习聚类。针对上述问题，本文提出通过图像块聚类来学习图像的视觉特性，并利用图像块聚类所描述的视觉特性来预测语义嵌入与我们的工作更密切相关的是那些学习区分图像区域的图像区域，这些区域可以通过局部补丁的聚类来表示每个类别[15，16，45，46]，例如，寻找代表性元素来区分一个类与其他类。我们的目标不是挑选每个类中最突出的补丁，而是学习数据集中出现的大多数图像补丁在不同类之间共享的视觉属性。此外，与将图像划分成正方形块的网格的一些上述方法不同，我们提出使用基于分割的区域提议来获得语义图像区域（例如，整个头部可以表示一个语义区域）。3. 基于视觉的语义嵌入我们感兴趣的是（广义）零射击学习任务，其中训练和测试类是不相交的集合。的迁移学习[10，37，54]和低射击学习概率训练集{（xn，yn）|xn∈Xs，yn∈Ys}Ns包括Lems [3，25，33，44，50，65]。语义嵌入从可见类Ys中收集图像xn及其标签yn。在9318{|}∈∈→NT{|}图2.我们的基于视觉的语义嵌入网络由两个模块组成补丁聚类（PC）模块从补丁图像中学习类关系（CR）模块使用从外部知识学习的不可见和可见类关系来预测不可见类嵌入GSE（ym），例如，word2vec.例如，使用所见类的语义嵌入来预测未见类sheep的嵌入，例如，羚羊、牛、鹿等等。在GML设置中，借助于语义嵌入空间，将测试图像分类为看不见的类Yu，并且在GML设置中，将测试图像分类为Ys和Yu人类注释属性。由于人类注释的属性是昂贵的获得，而以前的无监督语义嵌入是不完整的描述丰富的视觉世界，我们提出了au-身体部位或场景中的物体为了获得覆盖整个语义图像区域（例如动物头部）的图像块，我们通过无监督紧凑分水岭分割算法将图像分割成规则形状的区域[32]。如图2所示，对于每个图像xn，我们找到完全覆盖每个片段的最小边界框自动地发现一组Dv视觉聚类作为语义，uS将x裁剪成Nt块{xnt}Nt涵盖了不同的tic嵌入，表示为ΦV GSE R =0（|Y|Y|Y|)×Dv . 的t=1部分图像。根据经验，贴片的数量Nt是seen类的语义嵌入GSE（y）y是的，描述每个类别的不同视觉属性，是在所看到的类别图像Xs上学习的。不可见类的语义嵌入GSE（y）yYu预测在无监督的词嵌入的帮助下，例如，W2v设定为9左右，正如我们在最初的实验中观察到的那样，较大的面片可能包含太多的属性，而较小的面片可能包含太多的补丁将太小，无法包含任何视觉属性。通过这种方式，我们重建了由im组成的训练集年龄补丁{（xnt，yn）|xnt∈Xsp，yn∈Ys}Ns ，这里2016年10月28日，《中国日报》（|Yu|+|Ys|）×Dw.|Xsp| =NsNt ，Ns是火车的尺寸n=1我们的视觉接地语义嵌入（VGSE）网络（见图2）由两个主要模块组成。(1)补丁聚类（PC）模块将训练数据集作为输入，并将图像补丁聚类为Dv视觉聚类。给定一个输入图像xn，PC可以预测指示图像将包含出现在每个聚类中的视觉属性的可能性的聚类概率anRDv(2)由于在训练过程中无法观察到看不见的类图像，因此我们提出了类关系（CR）模块来推断看不见的类的语义嵌入。最后，学习的语义嵌入ΦV GSE可以用于执行下游任务，例如，零射击学习。3.1. 补丁聚类（PC）模块补丁图像生成。补丁级嵌入允许我们探索局部图像区域中出现的视觉属性[17，55]，例如，动物的形状和质地补丁聚类。我们的补丁聚类模块是一个可移植的中间层，同时学习图像补丁表示和聚类。如图2（左）所示，我们从一个深度神经网络开始，提取斑块特征θ（xnt）RDf，其中我们使用在ImageNet [14]上预训练的ResNet [ 22 ]，就像在其他RationalL模型[59，61]中一样。之后，聚类层H：RDfRDv将特征表示聚类为聚类得分：ant=H<$θ（xnt），（1）其中k（NT的第k个元素）表示将图像块XNT分配给聚类k的概率，例如，图2中的斑点状皮毛和蓬松的头部。可以采用借口任务以无监督的方式获得语义上有意义的表示[21，34，53]。我们的借口任务[53]强制执行图像补丁xnt及其邻居被预测到相同的集群。我们补丁程序群集（PC）模块CNN......NTICSEMAtion分类类关系（CR）模块word2vec空间看到的类：看不见的类PC总和PC模块...集群9319NBNTNB◦LΣNT→|◦L→WNBNB2∈SΣΣmin<$w（ym）−rT<$w（Ys）<$NT=NT通过面片特征的L2距离<$θ（xnt）− θ（xi）<$2检索x nt的最近面片邻居作为X sp，其中xi∈ Xsp且xi<$=xnt. 聚类损失定义为Lclu= −log（aTai），（2）类似地，我们通过平均属于yn的所有图像的嵌入来计算yn的语义嵌入：1Σ|我我|j∈Iixnt∈Xspxi∈Xsp其中ai=H θ（xi）。CLU为Xnt及其邻居强加一致的集群分配为了避免所有图像都被分配到同一个集群，我们按照[53]添加熵惩罚如下：D其中Ii是属于类别yn的所有图像的索引，并且aj表示第j个图像的图像嵌入。3.2. 类关系（CR）模块虽然可以看到语义嵌入可以使用Eq. 8、如何计算看不见的自我，Lpel=vk=1klogak，K1ntNsNt xn<$t∈Xspk，（3）Mantic嵌入并不简单，因为它们的训练图像不可用。由于语义相关的类别共享共同的属性，例如，羊和牛都活下去确保图像均匀地分布在所有集群上。阶级歧视。为了将类别区分信息强加到学习的聚类中，我们建议应用聚类到类别层Q：RDvR|Ys|为了将每个图像的聚类预测映射到类别概率，即，p（y xnt）=softmax（Q θ（xnt））。我们用下面的交叉熵损失来训练这个模块，草原，我们建议学习类关系模块，以制定可见类Ys和不可见类Yu之间的相似性。一般来说，任何外部知识，例如，word2vec [31，38]或人工注释的属性，可以用来制定两个类之间的关系。这里我们使用从大型在线语料库中学习的word2vec以最小化人工注释工作。下面，我们提出了两种学习类关系的方法：（1）直接平均-exp（p（yn|xnt））（四）从邻居看到的类中提取语义嵌入Lcls= −logy∈Ys.exp（p（y）|xn t））在word2vec空间中，（2）优化相似度矩阵语义相关性。我们进一步鼓励学习的视觉集群在类之间可转移，以利于下游的零射击学习任务。我们学习语义相关类之间共享的聚类，例如，马犁铧看不见的和看得见的类之间的关系。加权平均值（WAvg）。对于不可见类ym，我们首先通过在w2v嵌入空间上用2距离度量的相似性来检索可见类中的几个最近类邻居，并将邻居类集记为ys。更多的语义信息与鹿比海豚。我们通过映射学习的聚类概率来实现这一点y的语义嵌入向量NBm计算为到由w2v嵌入Φw构成的语义空间。所见语义嵌入的加权组合[5聚类到语义层S：RDvRDw通过回归每个类的w2v嵌入来训练，Lsem=Sant−（yn）2，（5）GSE（ym）= 1|Ys|y∈Yssim（ym，y）·VGSE（y），（九）其中yn表示地面真值类，并且RDw 表示类yn的w2v嵌入。训练模型的总体目标如下：L= Lclu+ λLpel+ βLcls+ γLsem。（六）预测看到的语义嵌入。在我们学习了视觉聚类之后，给定一个输入图像块xnt，模型提取特征θ（xnt），然后预测聚类概率ant=H <$θ（xnt）∈RDv 其中，每个维度-sim（ym，y）=exp（−ηw（ym）−ηw（y）），（10）其中exp代表指数函数，η是用于调整相似性权重的超参数。我们用加权平均策略学习的语义嵌入表示为VGSE-WAvg。相似矩阵优化（SMO）。给定w2v嵌入W（Ys）R|Ys| ×Dw的可见类和嵌入式w（ym）的不可见类ym，我们学习的相似性映射r ∈ R|Y|，其中ri表示Sion指示图像块Xnt被分配给该模块学习的某个集群。不可见类ym和第i个可见类。通过以下优化问题学习相似性映射图像嵌入an∈RDv 对于xn，计算公式为：a¯一a¯∈GSE（yn）=aj，（八）9320ΣΣn对该图像中的补丁嵌入进行R2SNt|Y|（十一）a=1aNtt=1.（七）S.T.α

下载后可阅读完整内容，剩余1页未读，立即下载