可扩展的视觉情感特征学习方法及其在大规模数据集上的优势

28 浏览量更新于2023-10-23 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1从Web数据Wei Zijun1，Jianming Zhang1，Zhe Lin1，Joon-YoungLee1，Niranjan Balasubramanian2，Minh Hoai2，DimitrisSamaras21 Adobe Inc.，2石溪大学摘要我们提出了一个可扩展的方法来学习强大的视觉特征的情感识别。情感识别中的一个关键瓶颈是缺乏可用于学习视觉情感特征的大规模数据集。为此，我们策划了一个网络衍生的大规模数据集，StockEmotion，它有超过一百万个图像。StockEmotion使用690个与情感相关的标签作为标签，为我们提供了一组细粒度和多样化的情感标签，避免了手动获取情感注释的困难。我们使用该数据集来训练特征提取网络，pactionNet，我们使用联合文本和视觉嵌入以及文本蒸馏进一步我们的实验结果表明，在StockEmotion数据集上训练的Emotion-Net在四个不同的视觉情感任务上优于我们的联合嵌入训练方法的另一个好处是，在一个可扩展的视觉情感数据集EMOTIC上，针对完全监督的基线，ApritionNet实现了具有竞争力的零射击识别，这进一步突出了学习的情感特征的可推广性。1. 介绍理解图像或视频中传达的情感是一项重要的计算机视觉任务，从数字内容管理[3，6，19，45]和营销[17，27，50]到教育[10，35]和医疗保健[7]的广泛应用。在本文中，我们需要一个通用的视觉情感表示。我们提出了一个卷积网络，它可以获取任何输入图像并输出一个代表输入图像中传达的情感的特征向量。然后，输出特征向量可以用于各种下游任务，如情感识别，条件图像字幕和生成-就像在ImageNet上预训练的ResNet [13]的特征向量可以用于许多下游视觉识别任务，如图像分类，对象检测，人物跟踪和语义分割。心理状态换句话说，用于视觉情感的AppltionNet类似于用于对象类别的预训练VGG16。情感网络是一个情感特征提取网络.人们可能会质疑它相对于其他一般特征提取网络的优点，例如在ImageNet上预训练的ResNet[9]。不幸的是，这种一般的特征提取网络不适合情感分析，在我们的实验中证明。这是可以理解的，因为ImageNet预训练主要迫使网络区分对象类别，而不是视觉情感。检测情感需要的不仅仅是能够识别对象类别-同一个为了建立一个有用的特征提取模型，有相关的训练数据是至关重要的;在我们的例子中，一个像ImageNet这样规模的情感数据集，包含一百万张图像和数百个类别的定义良好的分类法是理想的。不幸的是，很难使用与ImageNet相同的方法由于语言的模糊性和情感定义的抽象性，当在数百个类别上没有明确的情感分类时，识别图像中的情感是比标记对象类别更困难的任务。大多数现有的视觉情感数据集只提供有限规模的一小部分情感类别的注释。因此，在这种有限的数据集上学习的特征对其他情感数据集的通用性很差[16，33]。在本文中，我们提出了通过杠杆老化网络数据来学习网络.我们使用商业库存图片及其相关标签作为我们的数据源和注释。与之前基于有限类别的预定义情感分类手动标记的数据集不同，我们基于690个与更细粒度和开放的情感类别相关的常见标签来管理我们的股票图像数据集。由此产生的数据集StockEmotion由超过一百万张库存图像组成，涵盖了与人类，场景和符号相关的各种情感概念。然而，带注释的库存图像标签可能是不完整的和有噪声的。图像的所有者或创建者可能只为每个图像提供几个标签，或者可能将图像与不相关的概念相关联，或者仅与图像远程关联。1310613107到图像。因此，我们需要解决如何从嘈杂和部分标记的图像中学习基于视觉数据的表示（例如，输入图像）和文本数据（相关联的标签）应该在语义上彼此接近，标签和图像中的相关信息可以用作图像表示的正则化器。为此，我们提出了一种用于训练联合文本和视觉嵌入的方法，该方法（1）减少Web注释标签中的噪声，（2）诱导可用于跨模态任务的联合空间从经验上讲，我们证明了在StockEmotion数据集上训练的标准Con- vNet架构ApritionNet确实对各种情感识别基准非常有用。此外，通过从文本模型中提取知识来杠杆化图像标签，可以进一步增强网络。我们研究了在无监督和半监督环境中学习的文本模型和嵌入。文本模型用于对关键字标签进行降噪，并强制进行联合视觉-文本嵌入，以使视觉特征学习所得到的联合视觉-文本情感嵌入空间也可用于零触发情感识别。我们在具有挑战性的EMOTIC数据集上实现了与全监督方法的竞争性能[21]。总而言之，我们的贡献如下：1. 我们介绍了一个大规模的图像数据集的视觉情感内容1。2. 我们提供了一个通用的情感特征提取网络。这种特征表示在不同领域的几个视觉情感基准上实现了学习的联合视觉-文本嵌入实现了有竞争力的零拍摄学习性能。3. 我们提出的方法来处理嘈杂的，部分注释的数据，通过文本模型蒸馏和联合视觉文本嵌入改善视觉特征学习。2. 相关工作心理学研究中的情感。情绪及其关系的研究是心理学的一个重要研究领域。在描述情感时，有两种相互竞争的方法：分类[8，11，34，36]将情感分为基本类别和维度[38，51]，将情感投射到连续流形中。我们的工作回避了这一争论，因为我们构建了大量的情感词汇，并以数据驱动的方法学习情感表征。通过大量的情感词，我们的模型隐含地具有比心理学中使用的传统二维到三维模型高得多的维度，使我们能够捕捉情感中的细微差异1 该数据集可在 https ：//github 上用于研究。 © 2019 www.cvlab-stonybrook.版权所有并保留所有权利语言在体验和感知情感方面发挥着重要作用[24]。考虑到这一点，我们的方法将视觉情感特征连接到从文本嵌入中学习到的潜在情感空间。我们的工作使用语言模型来学习从文本关键词与图像相关联的情感嵌入。有关文本中情感检测的详细回顾，请参见[49视觉情感数据集。视觉情感检测通常被定义为在少量预定义的情感类上定义的分类问题[21，22，25，32，33]。然而，这样一个有限的分类分类法无法捕捉丰富的变化和混合的情感表达的图像，并限制了检索图像的多样性。有一些数据集具有大量的类别，将情感词与名词及其描述性上下文结合起来[2，5]。我们的工作更进一步，并引入了一个更丰富的描述集，用于使用分配给图像的关键字的自然分布来建模情感从噪声数据中学习。本文在分析了现有文献的基础上，我们开发了一种用于从有噪声注释的web数据中训练特征提取网络的方法。处理带有噪声标签的数据是一个研究得很好的领域，有许多解决方案（例如，[14，42，43]），我们请读者参考[12]，以全面概述标签噪声和鲁棒算法。在我们的工作中，我们约束图像接近他们的关键字在联合空间引起的视觉空间到文本空间的转换。此类多视图结构保留约束已在计量学习文献中进行了探索[15，28，39]。然而，与以前的工作需要一小部分干净的数据[48]不同，我们的工作不需要任何干净的标签，因为很难为库存图像收集干净的标签。因此，我们开发了一种训练方法，其中在有噪声的标签上添加正则化项以减轻标签噪声本身。3. StockEmotion数据集我们从Adobe Stock中收集了一个大规模的图像数据集，其中包含从图像上传者提供的原始图像关键字中提取的情感关键字。一些样品如图所示。1.一、3.1. 数据收集我们使用AdobeStock来搜索图像，使用了一组过于完整的情感关键字来覆盖各种情感概念。最初，我们使用语言情感词典（如NRC- emotion [31]和WordNet-Affect [40]）构建了一个情感关键词列表。然而，我们发现这些情感词汇不适合计算机视觉任务。例如，在这些词典中，许多形容词如beau- tiful和white被标记为情感，但这些关键词通常与不传达相应情感信息的图像相关联得到13108幸福坚持，成功，团结，庆祝忧郁的，严肃的，焦虑的得罪不安，绝望，遗憾，痛苦，悲伤，年轻，困惑，独自，问题，关心，沮丧，美丽，白色，女性，压力，问题，悲惨，女孩，思考，坐着，仍然，青少年，灰色问题、虐待、疼痛、疾病挑战，斗争，困难拥抱葬礼图1：左：图像数据的示例每个图像都带有一组由图像上传者提供的关键字（表示为keyword-full）其中一些与情绪有关（红色），而另一些则与情绪无关（黑色）。中间：传达一系列细粒度情感的示例与基本的情绪类别（快乐、悲伤、愤怒等）相比，情绪相关的关键词提供了更丰富、更细粒度的词汇来描述情绪。）用于当前数据集[32，33，52]。右：来自StockEmotion数据库的各种情感类别的图像样本（每个类别四个样本）。注意每个类别中涉及的对象和场景的多样性。一个更好的关键词列表，我们从Adobe Stock中随机抽取了400万张图片，并按频率对与图片相关的关键词进行排名。去除低频关键词后，我们得到了大约2000个候选关键词。然后，我们手动选择关键字，要么：1）与情绪有关（例如，抑郁、愤怒、疯狂），2) 描述情绪感受（例如，浪漫，混乱），3) 描述直接触发情绪反应的行为或事件（例如，欺负，圣诞节）。最后，基于我们内部注释者的多数投票，我们保留了690个情感关键词（在补充材料中列出）。选项卡. 1显示了每个类别中的一些代表性关键字关键词类型示例失望，紧张，沮丧，我们收集库存图像的方法是由情感标签与现有情感分类的映射很差这一事实驱动的。情感分类法中的许多类别名称很少用于标记库存图像，导致数据收集的图像检索结果不佳。此外，还有许多情感标签没有包括在分类学的词汇表中虐待，危险和挑战，这可以为识别细粒度的情绪提供有用的语义背景。3.2. 统计StockEmotion由117万张图像组成，我们随机将其分为训练（1.06 M），验证（33K）和测试（71K）子集。平均每张图片有48.9个关键词，其中7.04个是情感关键词，情感情感行动不满，沉思，困扰不幸，严重，安静的，浪漫的，混乱的争吵，威胁，叫喊祈祷微笑拥抱在我们的690个关键词列表中。由于StockEmotion是通过网络搜索策划的，因此它包含了嘈杂的标签。为了估计标签中的噪声量，我们随机抽取了1000张图像的子集，并要求我们的实验室同事手动检查正确性圣诞节，万圣节，婚礼葬礼，噩梦表1：情绪关键词的不同示例使用这些情感关键词，我们检索了400万张图像以及与每张图像相关的完整关键词列表然后，我们使用透视哈希2删除重复项。这给我们留下了超过一百万张图像用于我们的StockEmotion数据集。对于每个图像，我们的情感关键字列表中包含的关键字被用作其弱情感标签。2http://www.phash.org/弱情绪标签的一部分情感标签的错误率约为15%，因此适合用于训练深度卷积网络[37]。大约有60万张图像包含一个或多个由开源面部/身体检测器检测到的人[4]。600K图像中约有280K图像中有一张清晰的脸。很大一部分图像不包含人类，可以是与情感有关的场景，物体和符号，如图所示。1.一、查看关键字的共现矩阵，我们发现只有一小部分关键字频繁共现。690个类别中的大多数是相互独立的。共生矩阵的可视化是13109在补充材料中提供。3.3. SE 30 K8对于验证和对照研究，我们收集了“更干净”的注释，尽管是不同类型的，用于图像的子集。从Ekman的情绪分类法[ 11 ]：愤怒、快乐、惊讶、厌恶、悲伤、恐惧出发这导致了一组八种情绪类别。我们使用Amazon Me- chanical Turk（AMT）为33 K图像的子集收集了八种情感类别的人类注释。对于每幅图像，注释者被要求选择图像中表达的所有情感类别每个图像由五名AMT工作人员注释（在鉴定任务之后）。工作人员提供的注释相当一致：超过85%的图像具有至少三个注释者的相同注释。这些图像中的许多都清楚地传达了情感，但很难用基本类别来描述它们[11，36]。4. 情感网络QuestionNet是一个通用的情感特征提取网络，在StockEmotion数据集上训练，该数据集拥有超过一百万张图像的情感关键字。在大多数来自网络的注释中，图像的情感关键字列表关键字在列表中的存在或不存在并不一定意味着图像必须或必须不与该关键字相关联。这被称为标签噪声，我们估计大约有15%的标签噪声。不幸的是，这将影响在StockEmotion数据集上训练的特征提取网络的性能，特别是那些通过最小化数据负对数似然来训练的网络。图2：训练的administrationNet。图像的非情感关键词用于预测与图像相关联的情感将预测的情感和原始（噪声）情感关键词组合以形成目标类分布。通过最小化两个损失来训练PredictionNet：多标签分类损失和联合嵌入损失。联合嵌入损失要求图像的视觉嵌入与相关联的关键字的文本嵌入兼容。- 是的喜悦的微笑为了减轻噪音问题，我们建议使用一个额外的数据类型，也与股票即时通讯关键词单词嵌入Conv1D + ReLu平均池FC年龄：文本！除了情感关键词列表之外，我们数据集中的每张图像还带有其他非情感关键词，这些关键词也应该被利用。根据定义，非情感关键词不传达情感，但它们之间存在相关性。例如，一张带有星期天、年轻人、户外等关键词的图片很可能会唤起积极的情绪。我们建议使用非情感关键字列表来推断缺失的情感关键字;特别地，我们训练基于文本的分类器，该分类器从非情感关键字列表中预测情感关键字情感关键词的预测分布与标记的情感关键词组合现在被用作用于训练特征提取器的平滑标签。此外，我们还通过强制视觉特征与关联于它们的情感关键词的文本派生表示兼容来正则化视觉特征。我们提出的模型的概述如图所示。二、图3：文本到情感网络的架构。文本到情感网络使用这种架构，将无序的关键字列表映射到多个情感类别的概率向量。许多词嵌入已经存在，最先进的模型通常利用文本的顺序和组成性质[41，44]。然而，在我们的情况下，与每个股票图像相关联的文本是一个无序的关键字集合，没有顺序或组成方面。因此，我们使用一个简单的模型，结合多个单词的特征嵌入，以产生一个固定长度的特征向量。虽然简单，但这些模型已被证明对多个文本分类任务有效[1，18，46]。图3显示了我们的文本到情感分类器的组件。分类器是文本CNN[20]和13110K深度平均网络（DAN）[18]。分类器使用word2vec嵌入[30]将关键字表示为嵌入矩阵中的行。CNN组件使用内核大小为1的1D卷积和ReLU激活将单词嵌入特征转换为特征图。DAN组件使用平均池化层对特征图进行平均，然后应用一个全连接层进行非线性变换。将得到的特征向量投影到K=690个情感关键词类别上。我们将这个文本模型表示为 TextCNN 。我们在StockEmotion数据集的训练集上训练这个TextCNN然后，将来自文本到情感分类器的预测概率与原始二进制指标组合，以产生如下的增强标签分布：′yk+yk其中λ控制嵌入损失项的强度。为了简单起见，我们在所有实验中都将λ设置为1，并且没有为了更好的性能而对其进行调整对于这种多模态表征学习问题，有许多其他高级解决方案（[47]中的详细调查）。在这里，我们选择了一个简单但有效的方法，如我们的实验所示5. 实验本节描述了一些实验，以评估情感分析任务的好处首先，我们使用QuestionNet作为特征提取器，在情感数据集上训练简单的线性分类器，并在这些数据集上测量识别性能。第二，我们评估了Zero-Shot学习的QuestionNet。最后，我们定性地比较了情感网络和另一种通用特征提取网络的特征，yk=K1+i=1、（1）yi图像检索任务。其中，yk是由情感关键词k和输入图像x的tex-情感分类器预测的概率，yk是关键词k是否在图像的原始key词之中的二进制指示符，并且y'是结果软标签。然后，多标签分类损失表示为：K5.1. 网络和实施细节我们使用ResNet50，一个有50层的剩余网络[13]，作为我们的骨干网络。我们使用ImageNet预训练的权重初始化模型，并使用随机梯度下降在StockEmotion上继续训练30个epoch，最小批量为256，学习率为0.001，动量为0.9，权重衰减为10−5。我们降低L= −1Σ′ylog（P（x））。（二）在第10和20个时期，学习率提高了10倍。当CLSKKKk=1训练收敛，测试集上690个情感类别的前1预测准确率稳定在50%左右。我们引入的第二种正则化类型是基于观察到标签为图像中传达的情感提供了替代视图。因此，我们可以使用基于文本的嵌入来帮助训练视觉嵌入。其主要思想是确保视觉情感特征与基于文本的特征兼容。我们使用关键字嵌入的平均值作为基于文本的表示，并将视觉特征映射我们在训练损失中添加了一个正则化项，以鼓励文本和转换后的视觉特征之间保持较小的余弦距离。对于mally，一对图像x和一列关键字y的嵌入损失由下式给出：Lembed=1 −cos（ft（y），Wfv（x）），（3）其中ft（y）是所有关键字特征的平均值，fv（x）是输入图像x的视觉嵌入，W是将视觉特征映射到联合嵌入空间的线性变换。最后，对于一对图像x和相关的关键字y，我们最小化分类损失和嵌入损失之间的组合损失函数：L=Lcls+λLembed，（4）我们的实验表明，在StockEmotion上从头开始训练的防御网络模型达到了类似的准确率值，但它们的训练需要更长的时间才能收敛。TextCNN模型在[18]之后使用AdaGrad进行训练，初始学习率为1 ，每 10个 epoch下降10 倍，持续 30个epoch 。我们使用公开可用的 word2vec[30] 通过GoogleNews训练来生成词嵌入。我们还通过将与每个图像相关联的关键字列表视为一个句子来实验从我们的数据集中学习的word2vec嵌入，但没有观察到任何改进。5.2. 学习图像特征的评估我们通过将学习到的特征用于由其他情感数据集定义的情感类别预测任务来评估它们我们使用在StockEmotion上训练的ResNet50来提取图像特征。提取的特征按原样使用，而不对目标任务数据集进行任何微调。我们使用简单的线性分类器进行情感类别预测，以证明由AnchorionNet返回的视觉特征的实用性。评价方案。我们冻结了情感网络的所有层，并将最后一个完全连接的层替换为一个新的层，该层将学习到的特征投射到输出类别。13111[52]第五十二话乌布[33][32]第三十二话SE30K8EMTIC-B [21]EMTIC-I [21]度量精度地图以前的SOTA61.13 [33]74.30 [33]57.31[54]-25.44 [21]22.48 [21]ResNet-5058.3060.2640.1752.5224.3426.03情感网络65.8181.4553.4369.7829.2430.96表2：多个情绪数据集上的情绪检测性能：一个简单的线性分类器训练与StockEmotion上学习的视觉功能超过SOTA结果的五个数据集之四。我们提出的无监督文本正则化方法提供了较小的额外增益。目标数据集的图像。我们在目标数据集上单独训练最后一层。可训练的全连接层包含12K到60K的参数，具体取决于类别的数量。对于所有数据集，我们使用与[33]相同的训练超参数。数据集。我们对以下数据集进行评估：DeepEmotion[52]使用了最近一项心理学研究中得出的八种情绪[29]。它有23K从Flicker和Instagram收集的图像，由Amazon Mechanical Turk工作人员注释。我们遵循了[33]中为情感识别任务设置的实验，其中作者使用23K图像中的80%进行训练，剩余的20%用于测试。UnBiasedEmotion[33]包含从Google下载的3000张图像，这些图像对相同的对象具有不同的情感，以减少对象偏见。每幅图像都被标记为六个情感类别之一。我们遵循[33]中的评估设置。EMOTIC[21]由来自MSCOCO [23]、Ade20k [55]的图像以及使用Google搜索手动下载的图像组成。该数据集是真实环境中的人的图像的集合，并且包括从一组26个情感类别中提取的他们的明显情感的注释。它包括18，316张图像，共23，788条注释。我们报告了我们的模型在两种情况下的性能，表示为EMOTIC-B（ody）和EMOTIC-I（mage）。我们遵循[21]中使用的培训和评估程序。AffectNet[32]包含大约40万个带注释的面部图像，每个图像都由一个编码器标记。它包括10个类别的5K标记图像作为验证集。接下来[53]，我们选择了大约280K图像作为训练样本，并选择了3.5K图像进行验证。这些标签包括六种基本情绪和一个中性类别。为了提高效率，在每个训练阶段，我们随机抽取30K个图像，覆盖七个类别，并训练最终的全连接层10个阶段。SE 30 K8是我们的StockE-运动数据集的手动注释子集，如第10节所述三点三我们使用随机选择的22K图像子集作为训练样本，3K用于验证。我们测试5K图像。我们再次遵循[33]中的评估设置。上面列出的数据集在图像方面是多样的来源、情感类别和展示地点。图像中传达的情感可以从面部表情、人体姿势或整个场景中推断出来。比较方法和结果。我们直接比较了每个数据集上以前最先进的算法：[33]使用课程训练算法在DeepEmotion[52]和UnBiasedEmotion [33]上实现了最先进的性能。Kosti等人[21]通过结合分类和连续的情感信息，报告了EMOTIC [ 21 ]的最新性能。Zeng等人。[53]通过在多个数据集上进行训练并自动过滤不一致性，报告了[32]的最佳性能。与这些方法相比，我们的模型相对简单，是一个线性分类器，在视觉情感特征的基础上为了建立视觉情感特征在通用图像特征上的效用，我们还将其与在ImageNet上预训练的通用特征提取器ResNet-50的特征进行了比较。Tab中的结果2表明：（1）使用来自ImageNet的特征训练的分类器优于之前五种最先进算法中的四种;（2）来自ResNet-50（一种为对象识别训练的网络（ImageNet））的特征对于情感预测没有用处。数据集方法DEUBEAffectNet EMTIC-B EMTIC-I情感网络65.81 81.4553.4329.2430.96+额外年份。65.53 81.4553.6928.9830.99-软损失64.76 80.1352.6628.6130.66-嵌入损失65.85 80.2952.7128.7430.83-嵌入软65.29 78.9852.5128.5830.52表3：消融实验。用额外的注释训练pathitionNet并不一定有帮助。软标签分类损失和联合文本视觉嵌入损失都很重要。5.3. 消融研究我们进行消融研究，以进一步了解StockEmotion数据集的价值和ObservationNet的组成部分。13112额外监督的好处。我们是否可以通过额外的监督来提高自动化网络的性能？为了回答这个问题，我们进行了一个实验，我们还在 SE30K8 上训练了AnchorionNet，SE30K8是 StockEmotion数据集的一个子集，其中包含八种基本情绪的人类注释我们首先训练一个基于文本的分类器，该分类器从关键字列表中预测八个由该文本分类器产生的表示是由图像传达的情感的替代视图。我们用它来指导视觉嵌入网络的学习，迫使变换后的特征向量与8-情感嵌入特征向量兼容。关于这一设置的更多细节可在补充材料中找到。选项卡. 图3比较了在有和没有额外监督的情况下训练的AdmissionNet的性能。可以看出，增加额外的监督并不能提供一致的好处。额外的监督在五分之二的情况下提供了微小的收益，而在其他情况下则会略微降低性能。这可能是由于额外注释的大小有限（只有30K）或情感类别的数量很少（只有8个）。在任一情况下，增加手动注释的图像的数量或手动指定的注释的数量另一方面，在我们的网络衍生StockEmotion数据集上训练的Emo- tionNet不会受到这些可扩展性问题的影响。不同损失函数的优点。除了与预测随图像而来的情感关键字相关的原始损失之外，还使用嵌入损失来训练Advertisement Net，其目的是最小化相关标签的视觉表示和文本表示之间的距离以及软标签损失。软标签丢失是指由PredictionNet预测的标签分布与由文本到情感分类器预测的情感概率之间的差异选项卡. 图3显示了消融研究，其中我们评估了软标签分类损失和嵌入损失的贡献可以看出，去除这些损失项中的一个或两个会降低性能。大型情绪分类法的好处。StockEmotion有690个情感类别。我们进行实验来理解拥有如此大量的类别的好处。我们考虑特征提取网络的两种变体，使用不同的监督信号进行训练：（1）使用30K关键字的完整集合，而不是仅使用690个情感相关关键字来训练特征提取器。(2)只使用八种基本的情绪类别。我们首先学习一个文本分类器，该分类器预测给定图像关键字作为输入的八种情感类别。我们在SE30K8的30K图像上训练这个分类器，并用它来预测StockEmotion其余部分的我们使用这些预测的标签作为图像的情感伪标签（由于图像关键字通常包含明确的情感指标，因此这种伪标签具有高准确性，产量高达90%）。在top-2精度中）。然后，我们训练图像特征提取器来预测这些情感伪标签。选项卡. 4比较了用不同的情感关键词或标签集训练的特征提取网络的性能。可以看出，用30K标签训练的特征提取网络比单独用情绪相关关键词训练的网络（用690或8种情绪）差得多这表明了关注与情感相关的概念的好处。用8个情感标签训练的特征提取网络不如用690个情感训练的网络这表明了拥有一个细粒度的情感类别列表的好处数据集#类别DEUBE AffectNet EMTIC-B EMTIC-I864.20 78.9645.5728.1329.5430K63.41 74.5446.5727.6028.9669065.29 78.9852.5128.5830.52表4：消融实验。在同一组图像上训练的不同特征提取网络的性能，但具有不同数量的注释类别。大规模数据集的好处我们通过在StockEmtion的子集上训练特征提取器来进一步研究数据集大小对情感识别任务的影响。更具体地说，我们仍然将类别的数量固定为690，但通过随机抽样减少了示例的数量。如Tab.所示。5、随着更多的图像用于训练，UnBiasedEmo-tion分类任务的准确性增加这一趋势与之前关于数据集大小对对象识别问题的影响的研究[16，26]相似%股票情绪10 25 50 75 100准确度52.45 66.34 72.24 76.63 78.98表5：消融实验。在UnBiasedEmotion（UBE）数据集上使用StockEmotion的各种子集训练的特征提取器的性能。对于到目前为止的所有实验，我们使用了GoogleNews训练的公开可用的word2vec来生成词嵌入。我们还试验了从我们的数据集和文本分类模型的变体中学习的word2vec[30]嵌入，但没有显著的改进。我们在补充材料中报告了这些详细的实验。5.4. 零触发学习性能ObjectionNet使用分类和联合视觉文本嵌入损失进行训练。这种方法的一个好处是，可以通过13113害怕，恐惧，恐惧闹鬼神秘图4：使用最近邻搜索检索的两个图像示例对于每个示例，左：查询图像及其情感关键字。Top：ImageNet featuressearch返回。底部：由StockEmotion数据集训练的特征返回。用于零触发学习，给出了将图像特征映射到与文本特征相同的空间的能力我们在EMOTIC数据集[21]上评估了Zero-Shot学习，其中26种情绪类别中的每一种我们在文本情感空间中为这些类别中的每一个创建一个表示，方法是通过前面提到的文本到八种情感分类器处理描述中提到的情感关键字。为了对任何图像进行分类，我们首先使用文本蒸馏模型在文本情感空间中产生图像的表示然后，我们根据每个类别与文本情感空间中图像表示的余弦相似度对每个类别进行评分。选项卡中的结果。6表明，零杆学习使用- ing的PromotionNet接近EMOTIC-B上的全监督SOTA方法，并优于 EMOTIC-I 上的 SOTANote that in theseexperiments, we do not perform any training on theEMOTIC dataset.结果显示了AdmissionNet的强大泛化能力以及在StockEmotion数据集上学习的方法EMOTIC-B EMOTIC-I上一个SOTA25.44 22.4823.2924.24表6：EMOTIC5.5. 图像检索和定性结果由QuestionNet可以用来寻找具有相似情感内容的图像。给定一个查询图像，我们可以在情感特征空间中检索查询的最近邻居。图4比较了ImageNet和PredictionNet特征在图像检索中的性能。图中左侧显示了四个查询示例。右边的图像是由ImageNet特征（顶行）或Emotion获得的最近邻居。净特征（底行）。可以看出，ImageNet特征返回具有相关对象类别但不相关情感属性的最近邻居。例如，对于左下角的查询图像，ImageNet功能返回的图像都没有传达情感恐怖。相比之下，使用QuestionNet功能，我们可以检索其他恐怖图像。6. 结论许多计算机视觉任务的进展已经建立在大规模数据集之上，如ImageNet。如此大的数据集使学习有效的表示，可转移到各种下游任务。在这项工作中，我们介绍了一种可扩展的方法，用于获取具有丰富的情感相关标签的使用这种方法，我们创建了一个包含超过100万张图像和690个情感相关关键词的数据集我们还提出了基于文本的提取方法来缓解标签噪声的问题，创建了情感内容的通用在多个数据集上的实验表明，ApritionNet可用于各种下游情感分析任务，包括情感识别、零镜头学习和图像检索。鸣谢。该项目得到了NSF IIS-1763981、合作大学基金、SUNY 2020基础设施运输安全中心和Adobe的部分支持。该材料也是基于部分由美国国防部高级研究计划局空军研究实验室（AFRL）支持的KAIROS计划的研究，该计划的协议编号为FA 8750 -19-2-1003。美国政府被授权复制和分发重印政府的目的，尽管有任何版权的符号。ImageNet我们ImageNet我们13114引用[1] Sanjeev Arora，Yingyu Liang，and Tengyu Ma.一个简单但难以击败的句子嵌入基线在2017年学习和代表国际会议上4[2] Pooyan Balouchian，Marjaneh Safaei和Hassan Foroosh。LUCFER：用于深度学习视觉情感的大规模上下文敏感图像数据集。在2019年IEEE计算机视觉应用冬季2[3] Sarah Adel Bargal 、 Emad Barsoum 、 Cristian CantonFerrer和Cha Zhang。使用图像从视频中进行野外情感识别在2016年第18届ACM多模态交互国际会议上1[4] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和字段的实时多人2D姿势估计。在arXiv：1812.08008，2018。3[5] 陈涛，达米安 · 伯斯，特雷弗 · 达雷尔，张世福 .Deepsentibank：使用深度卷积神经网络进行视觉情感概念分类。arXiv：1410.8586，2014年。2[6] 陈艳良，张嘉玲，叶金生。youtube视频的情感分类。决策支持系统，101：40-50，2017。1[7] J.F. Cohn，T.西蒙岛Matthews，Y.杨，M. H. 阮M. Tejera，F. Zhou和F.德拉·托雷从面部动作和语音韵律检测抑郁。在情感计算和智能交互国际会议论文集，2009年。1[8] Alan S Cowen和Dacher Keltner。自我报告捕获27个不同类别的情绪连续梯度桥接。美国国家科学院院刊，114（38）：E7900-E7909，2017。2[9] J. Deng，W.东河，巴西-地Socher，K.李L.- J.Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。 IEEE计算机视觉与模式识别会议论文集，2009年。1[10] 安德鲁唐斯和保罗斯特兰德。情绪识别训练对发展迟缓幼儿的效果。 Journal of Early and Intensive BehaviorIntervention，5（1）：75，2008. 1[11] 保罗·埃克曼和达彻·凯尔特纳。情绪的普遍面部表情：一个古老的争议和新的发现。Ullica Segerstrale和PeterMolnar，编辑，Nonverbal communication：Where naturemeets culture，第27一九九七年。二、四[12] 贝诺特·弗雷奈和米歇尔·韦莱森。标签噪声存在下的分类研究综述。IEEE transactions on neu-ral networks andlearning systems，25（5）：845-869，2014。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。一、五[14] 放大图片作者：Thomas F.亚戈·维森特，明怀，迪米特里斯·萨马拉斯。使用惰性注释和堆叠cnn进行大规模阴影注释和检测。IEEE Transactions on Pattern Analysisand Machine Intelligence，2019。2[15] Junlin Hu，Jiwen Lu，and Yap-Peng Tan.用于野外人脸验证的判别式在IEEE计算机视觉和模式识别会议上，2014年。2[16] Minyoung Huh，Pulkit Agrawal，Alexei A Efros. 是什么让imagenet适合迁移学习？arXiv：1608.08614，2016。1、7[17] Zaeem Hussain ， Mingda Zhang ， Xiaochong Zhang ，Keren Ye ， Christopher Thomas ， Zuha Agha ， NathanOng，and Adri-ana Kovashka.自动理解图像和视频广告。在IEEE计算机视觉和模式识别会议论文集，2017年。1[18] Mohit Iyyer，Varun Manjunatha，Jordan Boe-Graber，and Hal Daumé III.深度无序组合与文本分类的句法方法相媲美。在计算语言学协会和自然语言处理国际联合会议的上，2015年。四、五、七[19] Dhiraj Joshi，Ritendra Datta，Elena Fedorovskaya，XinLu，Quang-Tuan Luong，James Z Wang，Jia Li，andJiebo Luo.关于场景图像的美学和情感：一个计算的视角。场景视觉：让我们明白我们所看到的，2014年，第241页。1[20] 金允。用于句子分类的卷积神经网络 arXiv ：1408.5882，2014年。4[21] Ronak Kosti ， Jose M Alvarez ， Adria Recasens ， andAgata Lapedriza.在上下文中识别情感。在IEEE计算机视觉和模式识别会议上，2017年。二、六、八[22] Peter J Lang，Margaret M Bradley，and Bruce N Cuthbert.国际情感图片

下载后可阅读完整内容，剩余1页未读，立即下载