视觉情绪：数据集偏差和Webly监督学习

84 浏览量更新于2023-10-13 收藏 2.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

思考视觉情绪：理解和克服数据集偏差Rameswar Panda1、Jianming Zhang2、Haoxiang Li3、Joon-Young Lee2、Xin Lu2和Amit K. 罗伊-乔杜里11加州大学河滨分校ECE系。{rpand002 @，amitrc @ ece. }@ ucr.edu2Adobe Research. {jianmzha，jolee，xinl} @ adobe.com3艾比hxli@aibee.com抽象。虽然视觉情感识别的机器学习方法提供了很大的希望，但目前的方法考虑在覆盖有限视觉情感概念的小规模数据集上训练和测试模型我们的分析确定了一个重要的，但长期被忽视的问题，现有的视觉情感基准的数据集偏见的形式我们设计了一系列的测试，以显示和测量如何这样的数据集偏见obstruct学习一个概括的情感识别模型。基于我们的分析，我们提出了一个网络监督的方法，利用大量的股票图像数据。我们的方法使用了一个简单而有效的课程指导的训练策略学习歧视性的情绪特征。我们发现，使用我们的大规模股票图像数据集学习的模型表现出显着更好的泛化能力比现有的数据集，即使没有一个标签的手动收集此外，使用我们的方法学习的视觉表示在不同的图像和视频数据集上的各种任务中有很大的希望。关键词：情绪识别，Webly监督学习1介绍最近，用于对象识别和相关任务的算法已经变得足够熟练，现在可以追求对象之外的新视觉任务。其中一项任务是识别图像所表达的情感，这在过去几年中在学术界和工业界都获得了发展势头[63，30，40，43，62，4]。教机器识别不同的情绪是一个非常具有挑战性的问题，具有巨大的应用潜力。让我们考虑图1.a所示的图像。你能识别出这张图片所表达的基本情感吗？实际上，这不应该是困难的任务，因为快速扫视可以很好地揭示图像的总体情感影响是负面的（我们实验室10个学生中有9个做对了！）.事实上，这是新奥尔良六旗主题公园的形象，自从2005年8月卡特里娜飓风袭击路易斯安那州以来，该公园一直关闭。44图片取自Google Images，搜索关键词为sad amusement park。来源：https://goo.gl/AUwoPZ2R. Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-ChowdhuryFig. 1. （a）具有负面情绪（悲伤）的游乐园的示例图像（来源：GogleImages）。（b）-（c）从DeepEmotion数据集中的“情感”和“情感”类别中提取的N个样本，显示出强烈的数据偏差。我们使用在Deep Emotion数据集上训练的ResNet-50中的pool 5特征来提取这些最近邻图像。出于好奇，我们决定使用卷积神经网络（CNN）来进行一个玩具实验我们在当前最大的Deep Emotion数据集[63]上训练的ResNet-50 [22]模型预测了与h99的“a mus emen t /joy”的情绪。图1中图像的9%置信度。a. 为什么会这样？我们对图1.b/c中最近邻图像的初步调查显示，数据集偏差似乎是罪魁祸首。具体而言，Deep Emotion数据集[63]存在两种类型的偏差。第一个是正集合偏置，这使得数据集中的娱乐类别中充满了游乐园的照片（见图1.b）。这是由于在收集源图像时缺乏视觉概念的多样性第二个是负集合偏差，其中数据集的其余部分不能很好地代表世界的其余部分，即，数据集中没有悲伤公园的图像（见图1.c）。在本文中，我们不是专注于在最新数据集上击败最新的基准数据，而是后退一步，提出一个重要的问题：现有的数据集在新兴的视觉情感识别领域中总体上叠加得如何？我们首先进行了一系列的测试，包括一个新的情感和对象/场景类别之间的相关性分析，以分析在现有的基准存在的偏见。然后，我们提出了一些可能的补救措施，主要提出了一个新的弱标记的大规模情感数据集收集的股票网站和一个简单而有效的课程指导的训练策略学习的区别性特征。我们的系统分析，这是第一次在情绪识别，将提供见解，研究人员在这一领域的工作，以专注于正确的培训/测试协议，并更广泛地模拟dis-missing。社区中关于情绪识别中数据集偏差我们还希望我们在这项工作中发布几个情感基准的努力5本文件的主要内容可归纳如下：– 现有的视觉情感数据集似乎有显着的偏见。我们进行了广泛的研究和实验，用于分析情感识别数据集（Sec. （3）第三章。我们的分析揭示了存在重大偏见5我们所有的数据集、模型和补充材料都可以在我们的项目页面上公开获取：https://rpand002.github.io/emotion.html思考视觉情感3目前的基准数据集，并呼吁重新思考目前的方法，训练和测试情绪识别模型。– 使用大量Web数据进行学习有助于缓解（至少最小化）数据集偏差的影响。我们发现，使用大规模股票数据学习的模型在新的看不见的数据集上进行测试时表现出更好的泛化能力。5.1）。我们进一步提出了一个简单而有效的课程指导培训策略（第二节）。4）用于学习区分性情感特征，其在不同图像和视频数据集上的各种任务上实现最先进的性能（Sec.5.2）。例如，我们通过插入我们的情感特征，展示了最先进的视频摘要算法[41]的改进性能（在前5 mAP中<3%）– 新数据集。我们引入了从不同来源收集的多个图像情感数据集，用于模型训练和测试。我们的库存图像数据集是视觉情感分析领域最大的数据集之一，包含25个细粒度情感类别的约268，000张高质量库存照片。2相关工作情感之轮心理学中已经研究了各种类型的情绪轮，如情绪轮、情绪轮和情绪轮。G. ，Ekman模型[13]和Plutchik模型[ 45]。我们的工作基于具有情感的P 这种分层分组更具可解释性，并且可以通过利用结构来潜在地帮助学习更好的识别模型。图像情感识别。研究视觉情绪识别的许多现有工作集中在分析面部表情[31，12，16，14，15，47，12，7]。具体来说，这些作品主要预测图像的情绪，涉及一个清晰的背景与人作为主要的主题。从用户生成的视频[29，27，60]，社交媒体图像[57，60，56]和艺术照片[65，1]预测情绪也是情绪识别的一些最新趋势。虽然这些方法在这种受控的情感数据集上获得了合理的性能，但它们尚未考虑如本文所讨论的从自然图像预测情感。与我们沿着从自然图像中识别情绪的方向工作最相关的是[63，38，30，43]的工作，这些工作从Flickr和Instagram抓取的图像中预测情绪。作为一个例子，[63]中的作者学习了CNN模型来识别自然图像中的情感，并且在Deep Emotion数据集上表现得相当好[63]。然而，它需要昂贵的人工注释，并且难以扩展以覆盖不同的情感概念。相反，我们专注于CNN的网络监督学习，它可以通过利用来自不同概念的大量弱标记数据来避免（至少最小化）数据集设计偏差。Webly监督学习直接从网络数据学习识别模型的视觉社区一直受到关注，因为网络上的图像可以涵盖各种各样的视觉概念，更重要的是，可以用于学习计算模型，而无需使用实例级人类注释[35，5，10，28，17，37，18，49，32，36]。虽然现有的作品已经表明4 R。Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-Chowdhury通过手动清理数据或开发用于降低噪声水平的特定机制来使用Web数据的优点，我们证明了噪声Web数据可以与用于从自然图像识别细粒度情感的课程引导学习策略一起令人惊讶地有效课程学习。我们的工作与课程学习有关[33，11，64，19，44，2]，它通过逐渐在训练中包括容易到复杂的样本来学习模型，以增加训练样本的熵然而，与这些通常关注于输入训练数据的演变的现有工作不同，我们的方法集中于输出域的演变，即，情绪类别从预测容易到预测困难的演变。分层识别。类别层次结构已经成功地在几个识别任务中被杠杆化：图像分类[61，58，20，34，3，8]，对象检测[9，39]，图像注释[52]和概念学习[24]（参见[46]的概述）。基于CNN的方法[48，61，58，55]也使用了大规模图像分类的类与这些主要使用干净的手动标记数据集来学习层次结构的方法不同，我们采用心理学[42]的情感我们的基本思想是，情感层次结构可以提供指导，学习更困难的任务，在一个顺序的方式，也提供正则化的标签噪声。3理解情感数据集目标.我们在本节中的主要目标是使用一系列测试来识别、显示和测量现有情感识别数据集中的数据集偏差。数据集。我们选取了三个有代表性的数据集，包括我们新创建的一个：（1）Deep Sentiment [62]数据集，包含来自Twitter的1269张图像(2) 目前最大的Deep Emotion数据集[63]，（3）我们的Emotion-6数据集，包含8350张图像（愤怒：1604，恐惧：1280，喜悦：1964，爱：724，悲伤：2221，惊讶：557），由五个人类主体从Google和Flickr收集的最初150 K图像中标记（见supp）。我们创建Emotion-6数据集的主要动机是重复现有工作[63，62]使用的标准数据收集/注释协议，并查看它在数据集偏差方面的表现如何测试1.命名为Dataset Game。为了对不同数据集之间的关系有一个初步的了解，我们通过运行NameThat Dataset Game开始分析，如[51]所示。我们从三个数据集的训练部分中随机抽取500张图像，并在ResNet-50特征上训练一个3类线性分类器。然后，我们对来自每个测试集的100个随机图像进行测试，并观察到分类器在区分不同数据集方面相当出色，性能为63.67%混淆矩阵中的明显对角线（图2.a）表明，这些数据集具有导致偏倚存在例如，从图2.b中的测试集视觉检查高置信度正确预测表明，Deep Emotion数据集对主要集中在公园（第2行）的户外场景具有强烈的偏好，而Emotion-6倾向于偏向单个对象以干净背景和规范视点为中心的图像（第3行）。思考视觉情绪5深情深情情绪-6混淆矩阵（a）（b）图二. （a）混淆矩阵。（b）从上到下，分别描绘了来自深度情感、深度情感和情感-6数据集的高置信度正确预测的示例。表1. 二进制跨数据集泛化。对角线数字是指在同一数据集上进行训练和测试，而非对角线数字是指在一个数据集上进行训练并在其他数据集上进行测试。%下降是指对角线上的性能下降和非对角线数字的平均值测试日期：培训时间：深情深情情绪-6%下降深情78.7468.3849.7624.98深情61.4184.8169.2222.99情绪-654.3364.2877.7223.69测试2.二进制跨数据集泛化。给定所有三个数据集，我们训练ResNet-50分类器来显示跨数据集泛化，即，在一个数据集上训练，同时在另一个数据集上测试对于Deep Emotion和Emotion-6，我们随机抽取80%的图像进行训练，并保留其余20%用于测试，而在Deep Sentiment上，我们使用90%的图像进行训练，并保留其余用于测试，如[62]所示由于确切的情感类别可以从一个数据集到另一个数据集而变化，因此我们报告了通过将预测的标签变换为两个基本情感类别来计算的二元分类准确度（正对负），从而得到Parrot的情感类别[ 42]。我们称之为二元交叉数据集泛化测试，因为它要求CNN模型从图像中预测最微不足道的基本情感类别如果一个模型在这个简单的测试中不能很好地泛化，那么它就不能在更细粒度的情感类别上工作此外，二进制泛化测试只涉及模型预测的最小后处理，因此它可以更公平地评估不同的数据集表1显示了结果总结从表1中，可以得出以下观察结果：（1）正如预期的那样，在同一数据集上进行训练和测试在所有情况下都提供了最佳性能（以红色标记）。(2)在一个数据集上进行训练并在另一个数据集上进行测试，结果显示准确率显著下降，例如，在Deep Emotion数据集上训练的分类器在其他两个数据集上进行测试时，准确率平均下降了22.99%。为什么会这样？我们的观察结果表明，在大多数情况下，由于它的大小相对较小，这导致了由于视觉概念缺乏多样性而导致因此，使用这样的数据学习的模型基本上将所有的信息都存储起来，并且失去了实现的能力。6 R。Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-Chowdhury表2. 量化负偏差。Self是指在原始测试集上进行测试，而Others是指在一个集合上进行测试，其中阳性来自原始数据集，但阴性来自另一个数据集。%下降是指自身和他人的性能下降“其他”中的值表示平均数。WEBEmo指的是我们发布的数据集，我们将在下一节中讨论任务+ve设置：-ve设置：深情情绪-6WEBEmo愤怒vs非愤怒自身/其他/下降百分比 90.64/78.98/12.86 92.40/83.56/9.57 83.90/83.37/0.63恐惧vs不恐惧自身/其他/下降百分比 85.95/80.77/6.05 81.14/76.02/2.56 82.97/84.79/-2.19悲伤vs非悲伤自身/其他/下降百分比 81.90/61.35/25.09 89.20/82.07/7.99 89.89/90.55/-0.73测试3.量化负偏差。我们在Deep Emotion和Emotion-6数据集上选择了三个常见的情绪类别（愤怒、恐惧和悲伤）来测量不同数据集上的负面集合偏差对于每个数据集，我们训练一个二元分类器（例如，愤怒对非愤怒），而对于测试，阳性来自该数据集，但阴性来自其他数据集。我们在从每个数据集中随机选择的500张阳性和2000张阴性图像上训练分类器然后进行测试，我们使用来自其他数据集的200张阳性和4000张阴性图像表2总结了结果。对于这两个数据集，我们观察到性能显着下降（Deep Emotion数据集关于悲伤情绪的最大值约为25%），这表明来自其他数据集的一些新的负面样本与正面示例混淆。这表明数据集的其余部分不能很好地表示视觉世界的其余部分，导致过度自信，并且不是非常有区别的分类器。测试4.与对象/场景类别的相关性分析。给定现有的对象/场景识别模型，该测试的目的是查看情绪与对象/场景类别的相关性如何，以及分析相关性是否可以帮助识别情绪数据集中的偏差的存在我们使用在ImageNet上预训练的ResNet-50和在Places 365上预训练的ResNet-152分别作为对象和场景识别模型我们开始我们的分析，预测对象/场景类别从图像中使用的三个常见的情感类别在前面的任务。然后，我们从每个情感类中选择前200个最常见的对象/场景类别，并计算每个对象/场景类别在特定情感的正面和负面集合上的条件熵通过数学计算，给出了一个对象 ject/scenecategory 和Σemotioncategorye，我们可以组成条件熵为H（Y|X =c）= −y{e，e}p（y|X=c）log p（y|X =p nc)其中Ep和En分别表示情感的正和负集合（例如，愤怒和不愤怒）。具有零条件熵的更多数量的对象/场景类别将最有可能导致有偏见的数据集，因为它显示这些对象/场景类别在情感的正或负集合中的存在，从而导致视觉世界的不平衡表示（图1）。图3显示了DeepEmotion和Emotion-6数据集的对象/场景类别的分布情况。在图3.a中分析对象和悲伤情绪之间的相关性时，我们观察到约30%的对象类别（零条件熵）仅存在于悲伤或非悲伤类别中，然后进一步检查这些类别。思考视觉情绪7(a)悲伤情绪的对象类别（b）愤怒情绪的场景类别。图3.第三章。基于条件熵的对象/场景类别分布。（一）悲伤的对象情绪，（b）场景中的愤怒情绪。两个数据集都显示出强烈的偏倚。我们发现它们中的大多数会导致数据集偏差（见supp）。例如，像气球、糖果店和降落伞这样的物体只存在于悲伤的负面集合中。像气球这样的类别与幸福感密切相关，但仍然应该有一些消极的气球图像，例如在消极集合6中的悲伤气球。完全缺失阴性球囊图像将导致数据集偏倚。与Deep Emotion相比，Emotion-6似乎偏差较小，但它仍然有25%的对象类别在[0，0.5]的熵范围类似地，在分析图1中的愤怒情绪的场景类别时。3.b，我们看到两个数据集都偏向于特定场景类别，例如，对于Deep Emotion，大约55%的场景类别具有零条件熵，而在Emotion-6中大约20%的类别具有零熵补充资料中包含更多结果我们从这些系列测试中得出的主要结论表明，尽管所有三个数据集都是从互联网上收集的，并且使用涉及多个人类的类似范式进行标记，但它们似乎具有严重阻碍的强烈偏见学习可推广的识别模型。4课程引导的网络监督学习目标.本节的主要目标是提出对上述数据集偏差问题的可能补救措施，主要提出一个大规模的网络情感数据库，称为WEBEmo和一个有效的课程指导策略，用于学习区分性情感特征。我们的基本想法是，我们可以潜在地避免（至少最大限度地减少）数据集设计偏见的影响，利用大量的免费提供的网络数据，涵盖了各种各样的情感概念。情感分类。情绪可以分为不同的类别。大多数公司都有几个新的目标，例如：G. 、Ekmas的模型[ 13]或Plut chik的模型[ 45]。首先，我们选择了Parot的高级元素模型[ 42]，用于两个人工智能版本。首先，通过利用具有关键字的相关联列表的这种层次结构，我们能够通过使图像搜索多样化来消除搜索引擎的偏见。其次，我们能够通过逐步解决不同的任务来学习区分特征。在[42]之后，我们设计了一个三级情绪层次结构，从第一级的两个基本类别（积极和消极），第二级的六个类别（愤怒，恐惧，喜悦，爱，悲伤和惊讶）到第二级的25个细粒度情绪类别。6因为举例来说，参见：https://tinyurl.com/yazvkjmv8号河Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-Chowdhury见图4。样本图像来自我们的WEBEmo数据集，跨越六个次要情感类别。这些图像涵盖了广泛的视觉概念。最好用彩色观看。级别-3（所有类别见图5请注意，虽然数据驱动学习[54，34]可以用于构建这样的层次结构，但我们选择在之前的心理学研究[42]之后设计它，因为情绪在心理学中已经得到了很好的研究从Web检索图像。我们使用一个股票网站来检索Web图像，并使用这些图像，而无需任何额外的手动标签。下面，我们提供了数据集的简要描述，并参考补充资料了解详细信息。图五. WEBEmo数据集中图像的分类分布。超过30K图片总数：2，67，441350003068330000在快乐类别上有629个图像，而在迷恋情感类别上只有629个图像。类别根据相应类别中的图像数量从最高（左）到最低（右）进行排序。最好看放大版。2500020000150001000050000234332125416552162641527314871138631172711452 1129810415928792448719820578186193577838823450274124321978629为了收集用于情感识别的网络图像，我们按照[42]为每25种细粒度情感组装一个关键字列表（如supp所示），专注于不同的视觉概念（见图4）。然后，我们使用整个关键字列表来查询一个股票网站，并检索所有图像（10，000）以及每个查询返回的标签通过这种方式，我们能够收集大约300，000个弱标记图像，即，由查询标记。然后，我们删除图像与非英语标签，也使用标题与前5名的标签，以消除重复的图像。在重复数据删除之后，我们最终获得了大约268，000张高质量的库存图像。图5显示了WEBEmo数据集中图像的分类分布。我们的WEBEmo数据集中的图像总数大约是当前最大的DeepEmotion数据集的12倍[63]。课程指导培训。我们的目标是直接使用我们的WEBEmo数据库学习用于情感识别的判别特征。虽然似乎可以直接用这些数据训练CNN，如[32]中的图像分类，但我们发现很难为我们的任务学习好的特征，如情绪思考视觉情绪9本质上是细粒度的，模棱两可的，Web数据更容易出现标签噪声。然而，正如心理学[42]所示，情绪是以层次结构组织的，从积极或消极等基本情绪开始，到更细粒度的情绪，如感情，满足，乐观和愤怒等。与将图像分类到这种细粒度的情感相比，将图像分类到两种基本情感是更容易的任务。因此，我们想要的是一种可以以顺序方式学习视觉表示的方法，就像我们人类通常以有组织的方式学习困难的任务一样。受课程学习[2]和心理学[42]的情感轮的启发，我们开发了一种课程指导策略，用于以顺序方式学习区分性特征。我们的基本思想是逐渐将信息注入学习器（CNN），以便在训练的早期阶段，捕获数据的粗尺度属性，而在后期阶段学习更细尺度的特征。此外，由于标签噪声的量在粗类别中可能要少得多，因此它可以产生正则化效果并增强所学习的表示的泛化。令C是细粒度情感类别的集合（在我们的情况下= 25）并且k∈{1. . . K}是训练的不同阶段。假设CK= C是我们想要预测的细粒度情感类别;也就是说，我们的目标是在学习的最后阶段预测这些情感标签K.在我们的课程引导学习中，我们需要一个阶段到阶段的情感映射算子F，它将阶段k的输出标签C k投影到一个较低维的Ck−1，与C k l a b el s的预测相比，C k −1更容易预测。我们将Parrot的情绪分组[ 42]作为将C K类别分组为六个二级和两个初级情绪的映射操作，如前所具体地，CNN（在ImageNet上预先训练）首先在级别1用2个基本情绪（积极/消极）进行微调，然后它用于初始化在级别2区分六个情绪类别的第二个情绪类别，并且该过程最终在级别3对25个细粒度情绪类别重复5次实验目标. 我们进行严格的实验，有以下两个主要目标：(a) 我们新引入的WEBEmo数据集以及当前引导的学习在减少数据集偏差方面的帮助有多大？（第二节）5.1）(b) 我们使用WEBEmo数据集学习的视觉表示在识别图像和视频情感方面有多有效？情感特征是否有益于其他视觉分析任务，比如视频摘要？（第二节）5.2）实施详情。所有网络都使用Caffe工具箱[25]进行训练。我们选择ResNet-50 [22]作为我们的默认深度网络，并从ImageNet检查点进行初始化，同时使用Web数据进行学习[50]。在训练过程中，所有输入图像的大小调整为256× 256像素，然后随机裁剪为224× 224。我们在所有卷积层之后使用批量归一化，并使用随机梯度下降进行训练，小批量大小为24，学习率1010R. Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-Chowdhury3.我的世界 Cross-DatasetGeneralization。“S e l f”r e r s t o t r a i n g和t e s t e t t i n g o n sa m e d a t at 使用基于web的监督学习的现代数据集可以很好地推广到其他数据集。测试日期：培训时间：深情深情情绪-6WEBEmo自我代表别人[62]第六十二话78.7468.3849.7647.7978.7455.31[63]第六十三话61.4184.8169.2259.9584.8163.52情感-6（Sec.第三章54.3364.2877.7264.3077.7262.30WEBEmo（我们的）68.5071.4278.3881.4181.4172.760.01，动量0.9，重量衰减0.0001。我们将学习率降低到1，同时在我们的课程指导培训中进行过渡。5.1用我们的方法重新审视数据集偏差实验1：量化负偏差。我们使用相同数量的图像（总共2500张用于训练，4200张用于测试），并遵循第12节中提到的完全相同的测试协议。3：测试2，分析我们的WEBEmo数据集的负偏差。表2显示在我们的数据集上训练的分类器确实似乎不受所有三种情绪类别的新的外部负面集合的影响（参见表2中最右边的列）。这是因为WEBEmo数据集受益于负面示例的巨大可变性，因此更全面地代表了情感的视觉世界。见图6。WEBEmo数据集上对象/场景类别的分布w.r.t条件熵。(a)悲伤中的对象，（b）愤怒情绪中的场景。实验二：相关分析与对象/场景类别图6显示了我们的WEBEmo数据集中情感和对象/场景类别之间的相关性。从图6.a中可以看出，对于悲伤情绪，小于10%的对象类别在熵范围[0，0.6]内，导致偏差小得多的数据集。该结果也与先前实验中针对悲伤与非悲伤图像分类训练的分类器的性能一致（参见表2）。我们还观察到，更多数量的场景类别具有较高范围内的熵（见图6.b），这表明大多数场景在我们的数据集中很好地分布在积极和消极情绪集中请注意，无论我们的数据集的大小如何，负偏差仍然存在，涵盖了各种各样的概念（一些对象/场景类别仍然具有零熵）。我们可以通过添加与零熵类别相关联的弱标记图像来进一步最小化偏差，使得正集和负集都可以具有平衡分布。这个实验表明，我们的相关性分析可以帮助检测和减少数据集中的偏差。思考视觉情绪11表4. 不同网路监督学习策略之探索性研究。方法深情深情情绪-6WEBEmo自我代表别人直接学习62.2067.4874.7376.6576.6568.13自我导向学习64.5668.7676.1578.6978.6969.82联合学习66.7169.0875.3678.2778.2770.38课程学习68.5071.4278.3881.4181.4172.76实验3：二进制跨数据集泛化。表3对结果进行求和我们从表3中获得了以下关键观察结果：（1）与使用手动标记的情感数据集训练的模型相比，我们认为这是因为利用网络数据进行学习有助于通过覆盖各种各样的情感概念来最大限度地减少数据集偏差。（2）更有趣的是，在Emotion-6数据集上，使用我们的股票图像训练的模型甚至优于使用来自相同 Emotion-6 数据集的图像训练的模型（ 77.72% vs78.38%）。这是非常值得注意的，因为我们的模型只使用网络图像进行训练，没有任何强有力的监督。探索研究。为了更好地理解课程引导学习策略的有效性，我们通过与以下方法进行比较来分析跨数据集泛化性能：（1）直接学习-使用25个细粒度情感类别的嘈杂网络图像直接学习，如[63，32，28];（2）自我指导学习-从一个小的干净集（500张图像）开始学习，然后逐步适应如[62，18]中所述，通过细化有噪声的网络数据来建立模型;(3) 联合学习-详情请参阅我们的补充材料。我们从表4中获得以下关键观察结果：（1）与我们的课程指导学习相比，直接学习基线的表现要差得多这并不奇怪，因为情绪是高度复杂和模棱两可的，直接学习模型来分类这种细粒度的细节无法学习区分特征。(2)与直接学习相比，自指导学习具有更好的泛化能力，但仍然受到初始标记数据的要求。(3)联合学习基线更具竞争力，因为它从多个任务中学习共享表示然而，课程引导学习在其他数据集的泛化方面仍然优于它（70.38% vs72.76%）。我们认为这是因为通过以顺序方式从容易到困难地排序训练，它能够学习更多用于识别复杂情绪的判别特征情感类别的影响。我们比较了我们的三阶段课程学习策略（2-6-25）和只涉及六种情绪类别的两阶段学习策略（2-6）。我们发现后者的结果较差，在自我测试集上的准确率为78.21%，在其他两个数据集上的平均准确率为70.05%，而三阶段计算的准确率分别为81.41%和72.76%。同样，这是一个 2的比值。与25种情绪类别的训练相比，6种情绪类别的训练在直接学习基线的安全性上提高了31%。总之，我们注意到，十二河Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-Chowdhury见图7。来自我们具有挑战性的UnBiasedEmo测试集的样本图像。请参阅补充文件以获取不同对象/场景的更多示例图像。最好用彩色观看。学习模型的泛化能力随着细粒度情感类别数量的增加而增加。最先进的结果。请注意，表3中的所有数字都表示我们在不使用测试数据集的任何地面真实训练数据的情况下实现的二进制精度。通过微调，我们的模型在对Deep Emo- tion数据集[63]上的八种情绪进行分类时达到了61.13%的最新准确率，在Emotion-6数据集上达到了54.90%的准确率同样，通过利用来自Deep Sentiment数据集的训练数据，我们的模型实现了82.67%的准确率，比之前的工作提高了约8%[62]。5.2学习情绪特征表5. 在我们的Un- BiasedEmo测试数据集上的实验结果。使用课程学习学习的功能优于所有其他基线功能，包括ImageNet。实验1：跨域无偏数据测试。在这个实验中，我们引入了一个新的无偏见的情绪测试集，UnBiasedEmo，从Google下载了大约3000张图像，以评估我们学习的模型在识别非常具有挑战性的情绪方面的能力，例如，不同的情绪与相同的对象/场景（见图7）。由于该测试集的来源与我们的WEBEmo数据集不同，它有助于我们缓解评估中的数据集偏倚问题，因此，我们可以比较各种学习策略的泛化能力，在一个更少的偏见的方式。请注意，开发包含数十万图像的大规模无偏数据集例如，我们只能从大约60，000张图像的集合中获得六个情感类别的3045张情感图像（与Emotion-6数据集相同）补充资料中包含了关于该无偏数据集收集和注释的更多详细信息我们使用我们学习的模型作为特征提取器。我们将80%的图像用于训练，其余20%用于测试。表5示出了通过使用不同方法学习的特征所实现的分类我们从表5中得到以下观察结果：（1）我们的课程学习策略在从自然情绪中识别细粒度情绪方面显著优于所有其他基线方法准确度（%）ImageNet64.20直接学习71.64自我导向学习72.45联合学习71.64课程学习74.27思考视觉情绪13图像. (2)其中，自主学习基线是最具竞争力的。然而，我们的方法仍然优于它，因为事实上我们使用情绪层次结构通过以顺序方式聚焦任务来学习区分特征。(3)与使用我们的课程指导的网络监督学习学习的特征相比，ImageNet特征的性能要差得多（64.20% vs 74.27%）。这是预期的，因为ImageNet的功能是针对对象/场景分类定制的，而情感则更细粒度，可以与对象/场景类别正交，如图7所示。我们还研究了使用当前最大的Deep Emotion数据集[63]在此无偏测试集上识别图像情感时学习的特征质量，发现它产生了较差的结果，准确率为68.88%，而我们的课程指导的网络监督学习策略在WEBEmo数据集上的准确率为74.27%。我们相信这是因为有效地利用了大规模的网络数据，涵盖了各种各样的情感概念。表6. 在Im-age Advertisement数据集上的实验结果。我们的课程学习模式表现最好。方法准确度（%）ImageNet43.27直接学习45.67自我导向学习46.18联合学习47.25知识转移[59]45.10课程学习49.22表7. VideoStory- P14 数据集上的实验结果。使用我们提出的课程学习的功能优于知识转移方法约4%的利润率。实验2：情绪分析。我们进行这个实验，以验证我们的功能，在识别情绪从在线广告- ment图像的有效性我们使用图像广告数据集[23]进行实验，该数据集由标记有30个情感类别的30，340个在线广告图像组成（例如，活跃的、警觉的、女性化的等-更多细节参见[23]）。我们使用模型权重作为初始化并微调权重[23]。我们使用2403张图像进行测试，其余的用于训练[23]。我们遵循[23]并选择最常见的情绪作为每个广告图像的地面真实标签。表6示出了在广告数据集上预测图像情感的不同方法的结果。从表6中，可以进行以下观察：（1）再一次，我们的课程引导学习在预测来自在线广告图像的情绪方面显著优于所有其他基线（2）我们在ImageNet基线上实现了约6%的改进，显示了我们在自动广告理解任务中学习到的特征的优势。实验3：视频情感识别。本实验的目标是评估我们的功能在识别用户视频中的情绪的质量。我们在VideoStory-P14情感数据集[59]上进行实验，该数据集由626个用户和Plut chik的14个情感数据集组成。我们使用视频数据集来查找这些视频，并使用每个类别中80%/20%的视频进行训练。方法准确度（%）ImageNet23.42直接学习25.43自我导向学习24.92联合学习26.18课程学习27.96十四河Panda，J.Zhang，H.Li，J.李，X。Lu和A.K. Roy-Chowdhurying/testing.为了产生针对整个视频的预测，我们对从视频中随机选择的20个帧的帧级预测进行平均。从表7中，可以得出以下观察结果：（1）我们可以看到，使用WEBEmo数据集训练的所有模型都优于ImageNet和传输编码特征[59]，这表明我们学习的特征在识别视频情感方面具有普遍性。(2)我们进一步观察到，课程引导学习提供了约2%的联合学习基线的改善实验4：视频摘要。我们在这个实验中的目标是看看我们学习的功能是否可以从用户视频中提取高质量摘要的摘要算法我们相信这是可能的，因为准确的摘要应该保持原始视频传达的情感内容我们在CoSum数据集[6]上进行实验，该数据集包含51个视频，涵盖来自SumMe基准[21]的10个主题我们遵循[41，6]并将视频分割成多个非均匀镜头进行处理。我们首先从在我们的WEBEmo数据集上使用课程学习训练的网络中提取pool5特征，然后使用时间均值池来计算单个镜头级特征向量，如下[41]。我们遵循与[41]完全相同的参数设置并且通过仅替换视觉特征来比较概括结果。通过使用我们学习的情感特征，最近的摘要方法[41]的前5个mAP得分比C3D特征[53]提高了约3%（68.7% vs 71.2%）。这种改进归因于以下事实：好的摘要应该简洁，但也提供对原始视频的内容的良好覆盖。这是一种在我们的工作中无法找到的方法，并且这可以在很大程度上使从事视频摘要工作的研究人员在生成高质量视频摘要的同时考虑情感的重要性。补充实验。我们分析了我们学习到的特征在从有说服力的图像预测交际意图中的有效性（例如，政治家照片）[26]，并看到我们的方法以显著的优势优于所有其他基线（比ImageNet功能提高了约8%）。我们还在补充材料中提供了样本预测结果。6结论在本文中，我们提供了一个彻底的分析现有的情感基准，并研究了学习识别模型的问题，直接使用Web数据，没有任何人类的注释。我们引入了一个新的大规模图像情感数据集，其中包含从股票网站抓取的约268，000张高质量图像，以训练可推广的识别模型。然后，我们提出了一个简单的可操作的课程指导的培训策略，学习区分情绪的功能，持有大量的承诺，各种各样的视觉情绪理解任务。最后，我们证明了我们学习的情感特征可以改进最先进的视频摘要方法鸣谢。这项工作部分得到了NSF资助1724341和Adobe的礼物的我们感谢UCR CS的Victor Hill建立了com-将基础设施用于这项工作。思考视觉情绪15引用1. Alameda-Pineda，X.，Ricci，E.，Yan，Y.，Sebe，N.：使用非线性矩阵完成从抽象绘画见：CVPR（2016）2. Bengio，Y.，Louradour，J.，科洛伯特河Weston，J.：课程学习。In：ICML（2009）3. Cesa-Bianchi，N.，詹蒂莱角Zaniboni，L.：分层分类的增量算法。JMLR（2006）4. 陈，T.，Borth，D.，Darrell，T.，Chang，S.F.：Deepsentibank：使用深度卷积神经网络进行视觉情感概念分类。arXiv预印本arXiv：1410.8586（2014）5. 陈旭，Gupta，A.：卷积网络的Webly监督学习。In：ICCV（2015）6. Chu，W. S.，Song，Y.，Jaimes，A.：视频共同总结：通过视觉共现的视频摘要。参见：CVPR（2015）7. Chu，W. S

下载后可阅读完整内容，剩余1页未读，立即下载