基于情感结构嵌入的零镜头情感识别

162 浏览量更新于2023-10-12 收藏 945KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1151幸福悲伤敬畏愤怒兴奋厌恶恐惧惊喜来自未知类别的信任期待基于情感结构嵌入的零镜头情感识别迟占1，佘东宇1，赵思成2R，程明明1，杨巨峰1R1南开大学2加州大学伯克利分校{chizhan nt，sherry6656}@ 163.com，schzhao@gmail.com，{cmm，yangjufeng}@nankai.edu.cn摘要图像情感识别由于其广泛的应用前景，近年来引起了人们的广泛关注.它旨在理解人类的情感反应，其中候选情感类别通常由特定的心理学理论定义然而，随着心理学理论的发展，情绪类别变得越来越多样化、细粒度和难以收集样本。在本文中，我们研究了零射击学习（ZERO-SHOT LEARNING，ZERO-SHOT LEARNING）问题在情感识别任务中，其目的是识别新的看不见的情感。具体来说，我们提出了一个情感结构嵌入框架，利用中层语义表示，即，形容词-名词对（ANP）特征，以构造中间嵌入空间。通过这样做，学习的中间空间可以弥合低层次视觉特征和高层次语义之间的情感鸿沟。此外，我们引入对抗性约束，将视觉和情感嵌入结合起来，从而在训练过程中保留视觉特征的区分能力和语义特征的情感结构信息。我们的方法进行了评估，在五个广泛使用的情感数据集和实验结果表明，该算法优于国家的最先进的方法。1. 介绍随着社交媒体的快速发展，越来越多的人喜欢通过视觉内容记录他们的生活和表达意见，例如，视频和图片[47]特别是，在线图像情感的计算理解由于其多种应用而引起了学术界和工业界越来越多的关注，意见挖掘[30]、在线广告[15]和社交网络[18]。在过去的几年里，许多方法[38，39，43，49]在图像情感识别方面取得了巨大的进展，其目的是对图像内容引起的情感进行分类。大多数现有的方法遵循心理学的一般观点，即特定的情绪可以被识别为固定的情绪。图1.零触发情感识别问题综述。每个类都有一个原型（用星号表示）。培训班上的流形上有不同的颜色。测试看不见的类是红色的，并提供辅助信息来确定看不见的类的位置为了对一个看不见的图像进行分类，我们给它分配一个与最近的看不见的原型相对应的标签。一些基本的情感。Peng等人 [28]训练回归模型来预测Ekman的六种基本情绪的概率[11，10]，包括快乐，悲伤，厌恶，愤怒，恐惧和惊讶。还有一些方法采用不同的心理学理论进行情感建模。例如，Yang等人 [40]根据Mikels的轮[24]联合优化了情绪分类和分布学习任务，它用娱乐，内容，敬畏和兴奋取代了Ek-man基本情绪中的快乐和惊讶。然而，随着心理学理论的发展，基本情绪类别变得越来越细。传统的监督学习方法只能识别可见的类，喜、怒等四种情绪在流形上，如图所示。1.当根据不同的心理学理论探索新的类别时，这种在预先定义的类别上训练的识别模型不能动态地识别情绪。此外，收集稀有情感类别的样本是劳动密集型和耗时的。零拍摄学习（Zero-shot learning，简称ZRL）[37]旨在识别训练集中不存在的新类别，已广泛用于各种视觉任务[9，34，51]。传统的零触发学习方法通常建立一个共同的1152空间的基础上看到的图像和它们的类语义表示之间的对应关系。空间也由可见类和不可见类共享，它们依赖于边信息（例如，属性和Word2vec）关于看不见的类如何在语义上与可见的类相关。然后，零拍摄学习可以简化为最近邻搜索任务，测试图像将被分配到公共嵌入空间中最近的未见过类。这种语义表征范式依赖于视觉特征和类语义表征之间的跨模态相似性。低层图像特征和高层情感语义之间存在情感鸿沟[23，46，50]，直接计算相似度难以正确描述它们之间的相似关系。因此，零拍摄情感识别变得更具挑战性。在本文中，我们提出了一个情感结构嵌入框架，使用中间层语义表示，即。形容词-名词对（ANP）[6]特征，以构造中间嵌入空间。视觉和类语义特征都被嵌入到学习的嵌入空间中，并与ANP特征的情感结构对齐。因此，我们的方法可以有效地弥合情感的差距，解决了零杆以及广义零杆学习问题的情感识别。请注意，在零触发设置中，训练和测试类是不相交的，而在更现实的广义零触发设置中，训练类在测试时存在。在训练过程中，视觉嵌入和情感嵌入都是动态变化的，很难将它们直接有效地结合起来。我们还引入了一个情感对抗约束，迫使视觉嵌入选择一个嵌入空间，保留情感的结构信息。我们的贡献总结如下：1.我们提出了一个端到端的情感结构嵌入框架，学习一个中间空间，并保留情感相关的信息，在其中学习视觉和类语义特征。据我们所知，这是第一个关于图像情感识别的零拍摄学习工作。2.在训练过程中，我们应用了一个情感对抗约束来保留视觉特征的区分能力和语义特征的情感结构信息。在5个公共数据集上的实验结果表明了该方法的优越性。2. 相关工作2.1. 图像情感识别以前的图像情感识别方法主要集中在利用手工特征或深度学习特征的分类问题上。在早期，许多方法设计手工制作的功能与不同的识别图像情感的水平。对于低级特征，Machajdik等人[23]根据美学和心理学理论定义了手工制作特征的组合，包括颜色，纹理和组成。Zhao等人。 [48]进一步研究了与艺术原则相关的更强大的视觉特征作为中级表示。在另一项研究[7]中，形容词-无对被视为中级语义特征，并提出了一个视觉情感分类器库（SentiBank）用于图像情感分析。最近，卷积神经网络（CNN）[17，14]已被应用于图像情感识别任务，并取得了令人满意的结果。受研究[7]的启发，DeepSentiBank [8]采用深度CNN模型来构建基于形容词-名词对的视觉情感概念检测器。 You等人[42]提出了一种新的渐进式CNN架构PCNN，利用大量嘈杂的网络数据进行二进制情感分类。Yang等人。 [38]通过深度度量学习探索情绪之间的关系，并采用多任务框架同时优化检索和分类。后来的几种方法[41，39]考虑了图像情感识别的全局和局部信息。所有上述方法都采用有监督的方式来学习图像视觉内容与情感之间的关系，这取决于预先定义的心理学理论。此外，最近的许多方法[5，22]表明，情绪的类型比我们假设的要多得多。由于情感定义的多样性，实际上很难将一个情感图像赋予现有的刻板标签。我们研究的重点是分类一个新的情感类，它没有出现在训练集。2.2. Zero-Shot学习Zero-shot学习的目标是在没有任何训练数据的情况下对看不见的类进行分类。为了应对这一挑战，大多数方法[12，45，1，35]利用描述跨类属性的语义属性将语义知识从可见类转移到新的不可见类。然而，语义属性需要手动定义和注释，这限制了上述方法的可扩展性。几种方法[13，2，31]使用词向量表示[25]探索零射击学习，该词向量表示由大规模文本语料库以非监督方式构建。对于没有属性标注的情感数据集，我们选择词向量表示作为类语义特征。许多零拍学习方法都是采用基于嵌入的方法，在不同的嵌入空间中度量视觉特征和类别语义特征之间的相似性。例如，DeViSE [13]使用排名损失函数直接学习从图像空间到语义空间的线性映射。[2]优化了结构。1153情感结构嵌入DeepSentiBankANP特征ANP特征编码器解码器…CNN视觉嵌入语义嵌入word2vec文本嵌入模型标签（）愤怒悲伤…喜悦…损失函数恐惧我Input Image（）…幸福的微笑悲伤的脸...阳光大道伤心的狗图2.所提出的零触发情感识别方法的流水线给定训练图像，我们首先使用预训练的DeepSentiBank检测器提取ANP同时，视觉特征也被嵌入到潜在ANP空间中，以与嵌入的语义特征对齐，并测量零镜头情感识别的相似性整个框架通过端到端的方式优化多损失函数来训练自然SVM损失函数学习双线性相容性，视觉空间和语义空间之间的统一。SAE [21]提出了一个语义自动编码器来正则化模型。它首先将图像特征投射到语义空间，再将其重构回视觉空间。DEM [44]选择将语义特征嵌入视觉空间。PSR [3]在映射过程中进一步考虑了类间语义关系。此外，许多零射击学习方法[19，20，32]学习将视觉和语义特征嵌入到潜在的中间空间中。然而，所有上述的情感识别方法都无法捕捉到特定的情感信息，从而导致情感识别问题。视觉语义特征和类语义特征位于不同的结构空间中，两者都独立于情感。我们的模型利用中间层的语义表示来构造一个中间空间。它可以保留情感相关信息，有效地弥合情感鸿沟。还有一些最近的方法，利用对抗学习方法和生成对抗网络（GAN）来解决零射击学习问题。视觉和情感特征之间的差距。3. 方法在本节中，我们首先将零镜头情感任务形式化，然后介绍所提出的情感结构嵌入模型。如图2.提出了一种独立于传统视觉语义嵌入的情感结构嵌入。具体而言，将前ANP特征输入自动编码器以学习潜在ANP空间，然后将视觉和类别语义特征嵌入到学习的ANP空间中，从而有效地弥合情感差距。此外，我们引入了一个情感对抗约束，有效地结合视觉和ANP特征，以保持区分能力和情感结构信息。3.1. 问题定义在传统的零射击学习问题之后，我们将情感数据集分为可见类和不可见类。训练集定义为DS=GANOL [52]利用GAN来想象视觉效果，{（xs，ys）}ns，其中xs∈ XS表示的第i个i i i=1 i从维基百科的嘈杂的文字描述中得到的结果所见的类和ys∈ YS是对应的类la-CVAE-BRL [27]建议使用条件变分贝尔我们将测试集定义为DU={（xu，yu）}nu得双曲余切值.j j j=1autoencoder为看不见的类生成样本。f-xu∈ XU表示第j个不可见图像，yu∈ YU为J JCLSWGAN [36]应用GAN生成图像特征条件类属性。GAN和对抗学习方法的思想是训练一个生成器，类标签。可见类和不可见类是不相交的，即。YSYU=。另外，我们选择向量这个词zs和zu由NLP模型[29]获得，作为类别se-I j骗一个骗子来混淆基因的分布真实和真实的样品。最大-最小训练过程可以引导生成器对数据分布进行建模。我们的方法类似于GAN在特征层的应用。在本文中，我们采用对抗学习来弥合疯狂的特征注意，在训练阶段，只有在语义信息zs的帮助下，使用所看到的类图像来学习分类器模型。给定测试图像xu和语义特征zu，我们的目标是预测相应的类yu。...语义特征潜在特征视觉特征...11542222作为2 23.2. 情感结构对齐通常通过测量视觉和类语义特征之间的相似性来解决语义问题。因为情感数据集，例如，FI数据集，缺乏类语义特征的属性注释，我们利用基于文本的模型，即，Word2vec [26]，它以无监督的方式从大规模文本语料库中学习，需要很少或不需要人工注释。然而，它们只能捕捉不同类之间的弱语义关系，并且没有足够的区分力来分类。更重要的是，直接从预训练的CNN模型中提取的视觉特征也受到情感差距的限制。为了使视觉和类语义特征与潜在中间空间中更多的情感结构相匹配，我们引入了一种独立的情感结构嵌入。首先，我们利用中间层的语义表示ANP功能，构建一个中间潜在空间。给定训练图像x，我们选择预训练的ANP特征可以学习与潜在情感概念更好地关联的情感相关类表示。情感结构对齐损失被公式化为：L=h（x）− φ（z）<$2+ Ch− φ（z）<$2。（二）总情感结构嵌入通过重构损失和情感结构对齐损失的组合来优化：Lae=Lre+ Las。（三）3.3. 情感对抗约束为了解决零镜头学习问题，我们还嵌入视觉和类别语义特征来构建视觉语义嵌入模型和度量相似性。Sup-poseθ（·）表示视觉特征嵌入过程，视觉和语义特征对齐的损失定义为：检测器DeepSentiBank[8]S（·）来提取ANP特征S（x）∈Rd。学习有效的潜在空间，Lzl =<$θ（x）− φ（z）<$2。（四）原始情感fea的紧凑情感表示turesS（x），我们采用自动编码器模型。假设自动编码器的输入为包含n个样本的d维ANP特征S（x）∈Rd×n自动编码器的编码部分使用FC层将输入嵌入到l维潜在空间h（x）中，其可以定义为：h（x）=f（W1S（x））。同样，解码器的目的是侦察-将输入构造为 S （ Wx ） ∈Rd×n ： S （ Wx ） =f（W2h（x））.W1和W2是FC层的权重矩阵，并且f（·）是激活函数。学习自动编码器参数-因此，自动编码器的输入和输出应通过优化以下损耗来足够接近：目前，传统的视觉语义嵌入和情感结构嵌入都有助于识别未知情感。视觉特征具有更好的区分能力，而ANP特征包含了情感结构信息，弥补了情感鸿沟，有利于零激发情感学习。然而，在训练过程中很难有效地结合这两种嵌入，因为视觉和情感结构嵌入都是动态变化的。我们的目标是保留vi的辨别能力sual特征θ（x），并结合了h（x）中保存的丰富的情感结构信息。为此，我们应用了一个对抗性约束，它试图欺骗一个网络-Lre =S（x）− S（x）2。（一）工作D，使得输出的视觉特征与嵌入的ANP特征一样相似：同时，对应于训练图像x的类别语义特征z也通过非线性嵌入φ（·）投影到学习的潜在ANP空间中。换句话说，我们希望最小化嵌入类语义特征φ（z）和学习的潜在ANP特征h（x）之间的距离。损失函数的第一部分定义为h（x）−φ（z）另一方面，类语义空间和学习潜空间具有不同的类间结构。由于自动编码器用于重构ANP特征并使潜在特征保留情感相关信息，因此我们寻求在学习的潜在空间中匹配类别语义特征和ANP特征的结构。受[16，33]的启发，我们将类语义特征投影到对应的ANP特征的均值上，上课。因此，损失函数的第二部分定义为<$Ch−φ（z）<$2，其中Ch表示每个类别的潜在ANP特征h（x）的平均向量。通过优化上述所有约束，Ladv=Ex（logD（h（x）+Ex（log [1-D（θ（x））]），（5）其中θ（·）试图最小化Ladv，而tD试图最大化它。考虑到这种对抗性学习很难优化，为了获得更好的训练稳定性，我们采用WGAN的策略[4]。请参阅[4]了解更多详情。结合所有上述约束，整个模型由以下损失函数训练：L=Lzl+Lae+ Ladv.（六）3.4. 预测给定测试图像x和候选情感类的类语义特征集Z，我们可以通过简单的最近邻搜索来分类未见过的情感类。更具体地说，测试图像和候选类11552将语义特征分别送入视觉嵌入分支和语义嵌入分支，得到θ（x）和φ（Z）。然后，通过计算测试图像与潜在空间中的类别语义嵌入特征的距离来识别测试图像：yt=minθ（x）−φ（Zy）<$2，（7）y∈YU其中Z表示与情感标签y相关联的语义特征。对于广义的BRL设置，我们只需要将标签的候选空间修改为y∈ YU<$YS。4. 实验在本节中，我们首先介绍详细的实验设置，包括数据集、实现细节和评估指标。然后与现有的方法进行比较，并对结果进行分析。4.1. 数据集我们在五个数据集上进行了实验，包括Flickr 和Instagram（FI）[43]，IAPSa [24]，ArtPhoto [23][28]第23话，一个人的幸福。FI数据集是从Flickr和Instagram的300万个弱标记的网络图像中收集的，通过标记Mikels的八个情感类别。亚马逊雇用了225名土耳其机器人工人来标记这些图像。总共有23，308张图像在FI数据集中包含了至少三个工人之间的协议。国际情感图片系统（IAPS）是一个被广泛应用于视觉情感分析研究的系统，它包含了395幅来自IAPS的图片，并标注了Mikel的八种情感类别。ArtPhoto包含来自照片分享网站的806张艺术照片，每张照片的所有者都提供了地面真实标签。抽象绘画包括228幅由纹理和颜色组成的抽象绘画。从Flickr收集的情感预测，其中包含1980个图像，并通过七个情感类别进行注释。4.2. 实现细节我们使用ResNet-50模型作为CNN网络的骨干，并使用ImageNet上预训练模型的权重初始化我们的框架。此外，我们应用预训练的DeepSentiBank [8]检测器来提取2089维ANP特征。对于自动编码器，潜在ANP特征的尺寸固定为1024。我们在ReLU层之前使用了一个完全连接的层，以便将视觉和语义特征嵌入到潜在的ANP空间中。CNOD由两个完全连接的层和一个ReLU层组成，并将1024-d特征作为输入。随机梯度下降（SGD）的学习率为1 e-4，权重衰减为1 e-3。动量设定为0.9。我们用Pytorch实现了我们的模型，并在NVIDIA GTX 1080TiGPU上运行了所有实验对于类语义特征，我们选择使用Word2vec [26]，其中每个实例由300维向量表示。这些特征是从大型未标记文本语料库自动构建的，无需额外的手动注释。4.3. 评估指标遵循之前的CNOL方法[37]，我们采用平均每类准确度作为评估指标。对于广义的CNOL设置[37]，当预测标签集是可见和不可见类的并集时，我们计算不可见类（ AU→T ）上的平均每类准确度和可见类（AS→T）上的平均每类准确度。我们还计算了可见类和不可见类的调和平均值（H）类，即，H=2<$（AU→T<$AS→T）/（AU→T+AS→T）。4.4. 结果和分析为了评估我们的模型在零触发情感识别中的有效性，我们将其与各种包括常用的 BPL 方法（即，[35][36][37][38][39][3最新的EML方法（即，[20][21][22][23][24][25][26][27]][28][29]由于DeepSentiBank检测器提取的ANP特征可以用作图像情感识别中的视觉特征，因此我们还报告了使用提取的ANP特征的零拍摄识别结果。我们在五个情感数据集上评估了所提出的零拍摄情感识别方法的性能。如表1所示，为了证明所提出的方法的有效性和鲁棒性，我们使用两种分裂策略对每个数据集进行了实验。具体地，对于具有8种情绪的数据集，训练类和测试类的分裂为6：2和4：4;对于具有6种情绪的数据集，训练类和测试类的划分是4：2和3：3。对于6：2分割设置的FI数据集，我们的方法达到68.87%，略高于CDL报告的最新水平（67.07%）。在比较的方法中，CDL的性能最好，其次是DEM（65.49%），而SSE的性能最差。本文的方法和CDL算法在嵌入过程中都考虑了不同空间的结构信息，因此性能要优于其他方法。此外，我们的方法还考虑了与情感识别相关的特定情感结构信息。更重要的是，当两个特征在训练过程中发生变化时，我们可以利用情感对抗约束来自动找到组合两个特征的最佳解决方案。因此，我们的方法可以获得最佳的性能。对于4：4的分割设置，我们的方法已经实现了高达3.77%的增益高于DEM（50.96%）。对于其他小数据集，我们的方法仍然可以实现1.29%~ 3.97%的改进。我们还观察到ANP特征（S）具有类似1156Fi艺术照片摘要IAPa咨询6设置六比二四比四六比二四比四六比二四比四六比二四比四四比二三比三[19]S 61.44± 0.5136.88± 0.4248.57± 0.7925.81± 0.6753.64± 0.6222.62± 0.4651.00± 0.5935.74± 0.6056.97 ±0.7840.10 ±0.67我们M 67.07± 0.4841.37± 0.5248.35± 0.7029.22± 0.7255.19± 0.6427.42± 0.5348.73± 0.7333.92± 0.7853.86 ±0.6437.91 ±0.6068.87±0.7954.73±0.6453.22±0.9735.58±1.0364.71±1.1734.45±0.9357.82±0.8238.30±0.7559.94±0.8642.83±1.14表1.所有方法在FI、ArtPhoto、Abstract、IAPSa和Approximation6数据集上的零拍摄情感识别准确率（%）。我们用几种基线零射击学习方法来评估所提出的模型S表示DeepSentiBank特征，而D表示基于CNN的特征，M表示DeepSentiBank和基于CNN的特征的级联。57.79± 0.4438.59± 0.5342.98± 0.3225.26± 0.8649.04± 0.2222.39± 0.3043.74± 0.7425.26± 0.6355.91±0.1543.37± 0.0321.04± 0.0442.85± 0.0426.83 ±0.0644.73±0.0517.64 ± 0.0250.73±0.07 27.47± 0.0253.18 ±0.0454.66±0.00 31.60±0.00 51.70±0.00 22.88±0.00 42.11±0.00 25.49±0.00 53.85±0.00 32.43±0.0045.45±0.0043.97± 0.1729.36± 0.3443.51± 0.2022.34±0.1645.44±0.1015.24±0.3235.71 ± 0.1422.68 ±0.4140.04 ±0.2662.06± 0.4834.70± 0.6348.97± 0.5331.35± 0.6660.53± 0.7432.35± 0.6046.15± 0.5330.18 ±0.7751.66 ±0.6150.34± 0.7931.57± 1.0244.23± 0.8823.79± 0.7142.51± 0.7216.55± 0.6543.31± 0.6130.76 ±0.7752.45 ±0.98表2.在FI数据集上的6：2分割设置和FI数据集和Profiltion6数据集之间的所有方法的交叉数据集识别准确性之后的广义ProfilL识别准确性AU→T表示对不可见类的识别准确度，而AS → T表示所见类别的平均识别准确率。H表示调和平均值。而属于其他类别的图像作为测试集。零射击学习问题。我们的方法利用深度特征与ANP特征作为补充，并显示了同时考虑区分性视觉特征和情感结构信息的有效性。我们还使用ANP和深度特征验证了所有比较方法，并在表1中标有M的行中报告了结果。这也表明，直接应用这两个特征不会带来性能增益，而我们的方法有效地改善了零拍摄情感识别性能方法AU→TAS→THFI→ 106106 →FI我们进一步报告了广义的BRL识别accu。LATEM [35]1.8255.313.5451.2126.436：2分割后FI数据集上所有方法的活性[32]第三十二话3.2362.566.1459.8529.22设置在表2中。对于看不见的类[45]第四十五话[44]第四十四话7.5113.4353.5756.2513.1721.6851.3256.5229.4022.36AU→T，CDL获得最好的性能26.48%，其中法援署[20] 20.83 59.46 30.85美国汽车协会[21] 24.25 65.59 35.42CDL [19] 26.48 54.87 35.7252.27 21.03 比较方法，而SAE达到65.59%时，54.70 30.03它涉及到所见类AS→T的准确性，即55.15 32.34比CDL好得多对于AU→T和AS→T，我们的方法通过在ImageNet上预训练的深度学习模型提取的深度特征（D）的性能。例如，在Appltion6数据集上，使用ANP 特征的结果通常优于使用深度特征，例如，LATEM、SSE、SAE、DEM和CDL。对于其他数据集，如FI数据集，使用ANP特征的性能在大多数情况下略低。这表明，ANP特征包含一些情感结构信息，这些信息可能对分类任务没有区分性，但使用-在小CDL的情况下，我们的方法在FI数据集上将调和平均值提高了3.82%。我们的方法在所有三种情况下都优于所有的COM方法。4.5. 消融研究我们进行消融实验来说明表3中情感结构对齐和情感对抗约束的有效性。特别地，D[35]SM53.32±0.4258.25±0.3632.73 ±0.3237.57 ±0.4238.57 ±0.2544.35 ±0.8827.66 ±0.7624.17 ±0.1956.71±0.5442.37 ±0.7924.64 ±0.4825.68 ±0.1149.81 ±0.3141.24 ±0.5225.57±0.2229.35±0.4352.88 ±0.5255.12 ±0.2132.42 ±0.4429.89 ±0.3234.82 ±0.31D[45]SM42.67 ±0.0442.02 ±0.0133.61 ±0.0433.55±0.0545.57 ±0.0240.63 ±0.0826.55 ±0.0120.51 ±0.0547.36 ±0.0549.64 ±0.0421.41 ±0.0422.33 ±0.0241.34 ±0.0144.51±0.0922.97±0.0730.62±0.0142.12±0.1152.85±0.0528.99±0.0727.98 ±0.0731.21±0.06D[21]SM61.12 ±0.0057.82±0.0037.34±0.0026.57±0.0049.66±0.0045.58±0.0023.45±0.0023.45±0.0060.53±0.0052.63±0.0029.41±0.0028.43±0.0049.04±0.0048.08±0.0029.73±0.0029.28 ±0.0044.24±0.0054.55±0.0038.89 ±0.0037.88 ±0.0035.86 ±0.00D[20]SM51.44 ±0.1344.18 ±0.1134.94 ±0.3126.53 ±0.2541.27 ±0.2442.18±0.1820.53 ±0.2222.03±0.2843.21 ±0.1842.11±0.2713.75 ±0.4223.53±0.3338.42 ±0.2550.96±0.1427.66 ±0.1718.83±0.2545.36 ±0.3347.27±0.2533.65 ±0.2928.34 ±0.2132.93 ±0.18D[44]SM65.49 ±0.5264.73 ±0.4349.37 ±0.7350.96 ±0.7848.30 ±0.3950.33 ±0.4929.66 ±0.4827.97 ±0.6463.42 ±0.8860.71 ±0.8832.35 ±0.6330.72 ±0.5347.12 ±0.7144.52 ±0.7634.69 ±0.8331.38 ±0.7850.61 ±0.5750.43 ±0.6233.74 ±0.4936.36 ±0.5131.28 ±0.46D[32]SM64.97 ±0.8363.99 ±0.8047.83 ±0.9249.31 ±0.8940.45 ±0.8747.14 ±0.9128.86 ±0.6825.32 ±0.5357.85 ±0.6956.16 ±0.8226.69 ±0.7429.52 ±0.6440.57 ±0.8543.98 ±0.7632.43 ±0.6733.62 ±0.8856.51 ±0.8249.85 ±1.0739.49 ±0.9329.21 ±0.9133.64 ±0.84D67.03 ±0.5441.28 ±0.4550.52 ±0.7230.46 ±0.6152.11 ±0.5324.11 ±0.5152.88 ±0.7630.56 ±0.6951.67 ±0.7036.36 ±0.48我们28.1266.5739.5461.9434.48分别获得28.12%和66.57%。与大多数的...1157作为表3.FI数据集上的消融实验“Base”表示使用基本的视觉语义嵌入来进行零拍摄情感识别。Las和Lre表示情感的两部分表4.在不同测试类选择的情况下，FI数据集上的零触发情感识别准确率（%）。请注意，重复测试意味着我们在相同的train/test下选择不同的测试类结构嵌入L*表示结构对准损失无线电对应表1。在这里，我们把没有第二部分。 Ladv表示使用情感副词-sarial约束。“sadness”情绪作为4：4分割设置的测试类设置LATEM SSE SAE LADCDL DEM RN Ours6：270.4763.7367.7861.8468.70 71.9872.4174.034：4.0027.0937.9442.2438.3041.95 37.8439.8742.92六比二六比二厌恶愤怒敬畏兴奋四比四(a) 传统视觉空间四比四(b) 我们的ANP潜在空间这表明了这些贡献的互补性。我们还探讨了表4中不同测试类在表1中相同列车/测试无线电下的影响。对于6：2的分割设置，我们将为4：4 的分裂设置，我们把所有的负面情绪作为测试类（即。“恐惧”、“悲伤”、“厌恶”和“愤怒”）和所有积极情绪作为训练类，而在表1中训练和测试类都是两种积极情绪和两种消极情绪。可以看出，当测试情绪为两种极性时，几乎所有比较方法的性能都有所提高，而当测试情绪均为负且相互接近时，性能都有所下降。我们的方法实现了与不同情绪预测配置一致的最先进的结果。图3.来自传统视觉空间和我们的ANP潜在空间中的FI数据集的不可见类视觉样本的分布的t-SNE图。零触发情感识别，其中视觉和类别语义特征被直接嵌入到公共空间中并测量相似性。从结果中，我们可以清楚地看到，情感对抗约束在FI数据集上将零射击识别准确率提高了1.12%方面发挥了重要作用。实验结果验证了将两个嵌入式视觉和ANP特征相结合的对抗学习优于直接组合或手动组合规则。Las和Lre优化的情感结构嵌入进一步提高了1.29%和2.16%的语义学习准确率。在情感结构嵌入中将类语义特征与潜在ANP特征的中心对齐也导致0.95%的性能改进。实验结果表明，考虑情感结构信息，将视觉特征和语义特征结合起来，对零镜头情感识别有很大的帮助。图3示出了在传统视觉空间和我们的ANP潜在空间中不可见类视觉样本的分布。它清楚地表明，嵌入的视觉特征与ANP空间中的其他类更加分离。最后，我们通过训练所有组件来获得最佳性能，4.6. 交叉数据集识别为了更好地评估零激发学习在图像情感识别任务中的性能，我们进一步进行了跨数据集情感识别实验。传统的零拍学习方法假设测试图像与训练图像的采样分布相同，这与实际情况不符。因此，我们试图在不同的数据集中识别看不见的情感类别。FI和Approtion6数据集共享四个情感类别，包括悲伤、厌恶、恐惧和愤怒。具体来说，我们将一个数据集的四个情感类别作为训练集，将另一个数据集的其他类别作为测试集。理想情况下，我们专注于图像情感识别，这意味着与情感相关的特征和嵌入越多，性能越高。表2显示了交叉数据集识别的结果。在两个实验中，该方法都取得了与其他零炮方法相一致的最佳结果。特别地，所提出的方法实现了在FI→ FI 6设置下识别率提高了2.08%，在FI →FI 6设置下识别率提高了2.14%。ANP特征所提供的情感结构信息在不同的数据集之间是共享的。同时考虑了情感结构信息和情感增强视觉特征，保证了该方法的跨数据集识别能力。基地√√√√√√LadvL作为√∗L作为Lre√√√√√√√√Fi65.1265.4666.4167.5367.2868.871158预测CDL：我们的：预测CDL：我们的：预测CDL：我们的：预测CDL：我们的：exexexAWex一个AW一个（一）一个AW一个ex一个ex一个diAWdiAWdididiexexdi一个di一个AWAWdiAW兴奋敬畏愤怒厌恶预测CDL：我们的：预测CDL：我们的：预测CDL：我们的：图4.CDL和我们的方法对FI（a）和F6（b）的定性结果两个数据集的不可见类标签的预测按概率从上到下列出，最可能的预测位于顶部。地面实况标签为红色。情感之间没有关系。另一方面，我们的方法不仅可以输出正确的预测，而且对于接近地面真相的情绪输出更高的预测概率，而相反情绪的概率较低。图5示出了交叉数据集识别的一些结果。当看不见的类属于conception6数据集时，我们的模型会自动区分“喜悦”和“惊喜”类。对于最后一个例子，当看不见的类是FI数据集，我们的模型预测“敬畏”类的“兴奋”。这可能是因为这样的军事图像可以唤起不同的人不同的情绪。有趣的是，我们用四种消极情绪的图像训练模型，我们的模型可以识别FI和PRACTION6数据集中不同的积极情绪。图5.在FI和Proption6数据集上进行交叉数据集识别的定性结果错误分类的图像用红色边界框标记4.7. 定性结果我们在图1和图6中的FI和Approximation 6数据集上对我们提出的al-出租m和CDL进行了一些定性分析。4.如图4（a），类的形象“兴奋”和“愤怒”可以正确地预测在四个看不见的类。而类“厌恶”的示例图像被预测为类“愤怒”。在情感理论中，两种情感类别是相似的，同一幅图像在不同的情境下可能会唤起两种情感。事实上，在预测中，地面事实“厌恶”排在第二位，仅次于“厌恶”。对于Emo-tion 6数据集Fig. 4（b），我们的模型预测混淆了类“悲伤”和“惊喜”。这些结果进一步证明了情绪的模糊性，即使是人们也很难区分这种相似的情绪。与最具竞争力的方法相比，我们还可以看到我们的方法在这些示例中明显优于CDL。虽然CDL在某些情况下仍能给出一些正确的结果，但其预测结果与文献[1]中的结果基本一致。5. 结论在本文中，我们提出了一个新的情感结构嵌入框架的零拍摄情感识别问题。通过利用ANP特征构建情感嵌入空间，可以有效地弥合视觉特征和语义特征之间的情感鸿沟。此外，我们引入了一个情感对抗约束，迫使视觉嵌入选择一个嵌入空间，既保留了情感结构信息，又保留了区分能力。在五个广泛使用的情感数据集上的实验表明，我们的方法在零拍摄情感识别方面明显优于最先进的方法。确认本工作得到了国家自然科学基金（NO.61876094，61701273 ， U1933114 ），天津市自然科学基金（NO.18JCYBJC 15400，18ZXZNGX 00110），美国国家模式识别实验室开放项目计划、中央大学基础研究基金和伯克利深度驱动。预测CDL：我们的：惊喜恐悲伤厌恶愤怒惊喜喜悦喜悦恐悲伤厌恶愤怒FI → 106106 → FI兴奋游乐知足敬畏jojojo苏苏苏josa（b）第（1）款苏sasajojosasajosa苏苏sasajo苏苏喜悦惊喜悲伤惊喜1159引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。用于图像分类的标签嵌入 IEEEtransactionsonpatternanalysisandmachineintelligence，38（7）：1425[2] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.用于细粒度图像分类的输出嵌入的评估。CVPR，2015。[3] Yashas Annadani和Soma Biswas。为零次学习保留语义关系。在CVPR，2018年。[4] 马丁·阿乔对凯，SoumithChintala，和Le'onBottou。Wassersteingan arXiv 预印本 arXiv ： 1701.07875 ，2017。[5] 丽莎·费尔德曼·巴雷特情感是自然的吗？Perspectiveson psychological science，1（1）：28[6] Damian Borth，Tao Chen，Rongrong Ji，and Shih-FuChang.Sentibank：大规模本体和分类器，用于检测视觉内容中的情感和情绪InACM MM，2013.[7] Damian Borth ， Rongrong Ji ， Tao Chen ， ThomasBreuel，and Shih-Fu Chang.使用形容词名词对的大规模视觉情感本体和检测器InACM MM，2013.[8] Tao Chen，Dam

下载后可阅读完整内容，剩余1页未读，立即下载