情感图像字幕中对比数据收集的方法与结果

195 浏览量更新于2023-10-25 收藏 20.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

NewPaintingNearest NeighbourArtemisArtemis 2.0 Similar New OldSimilar Old Old Old New NewPaintingPaintingSimilarPaintingSimilar212630在情感图像字幕中克服情感偏见的对比数据收集0Youssef Mohamed, Faizan Farooq Khan, Kilichbek Haydarov, MohamedElhoseiny King Abdullah University of Science and UST)0{ youssef.mohamed,faizan.khan,kilichbek.haydarov,mohamed.elhoseiny }0这幅画看起来的0高高的脚手架梯来像是一个迷宫般的梯子，容易摔倒和受伤0恐惧0卧室里的一束美丽的花0卧室的桌子0它们死了，它们的颜0褪色0敬畏0看起来非常精心制作的一件0作品0恐惧0这幅画看起来像一系列的0高高的脚手架梯子，看起来像是一个迷宫般的梯子，容易摔倒和受伤0恐惧0看起来像是女人在保护孩子免受即将到来的东西的伤害0远处。大红色的窗帘0看起来不祥0兴奋0那看起来非常逼真，我喜欢0两位女士的细节，她们非常0满足0我喜欢它舒缓和宁静的颜色，以及画面中人们的宁静0这个图像0愤怒0看起来像一大波浪打破了0码头，渔民和划船者用来0满足0满足0深蓝色和紫色给这个深度，使水果显得突出0出去0厌恶0腐烂水果上的绿色霉菌0桌子上令人讨厌0满足0满足0满足0图1：对比收集数据集的示例。每个示例的左侧是查询绘画，上面是最常见的情感。右侧显示了一幅类似的绘画，基于VGG特征图，它唤起了相反的情感。我们展示了所选图像的旧话语和新话语，以突出对细节的增加关注。尽管配对的绘画具有非常相似的风格，但触发的情感和话语却非常不同。0抽象0捕捉视觉、语言和情感之间联系的数据集有限，导致对人类智能情感方面的理解不足。作为朝着这个方向迈出的一步，ArtEmis数据集最近被引入为一种大规模的数据集，其中包含对图像的情感反应以及对这些情感的语言解释。我们观察到情感偏向于实例丰富的情感，使得经过训练的神经说话者在描述代表性不足的情感时不够准确。我们表明，以相同方式收集新数据不能有效地减轻这种情感偏差。为了解决这个问题，我们提出了一种对比数据收集方法，以平衡ArtEmis和一个新的互补数据集，使得一对相似的图像具有对比的情感（一个积极和一个消极）。我们使用提出的方法收集了260,533个实例，将它们与ArtEmis结合，创建了数据集的第二次迭代。这个新的组合数据集被称为ArtEmisv2.0，具有平衡的情感分布和揭示的解释。0与有偏见的数据集相比，我们的实验表明，训练在新数据集上的神经说话者在CIDEr和METEOR评估指标上分别提高了20%和7%。最后，我们还展示了神经说话者在所有情感类别上的性能都得到了改善，尤其是在代表性不足的情感上。收集的数据集和代码可在https://artemisdataset-v2.org获得。01. 引言0情感体验受感官信息的刺激是人类本质的核心。它们为我们提供了了解人类智能的丰富但不太被理解的方面的窗口。情感在决定人类内在状态以及随后的行为方面起着核心作用。因此，研究情感体验及其表达对于理解人类行为至关重要。情感受到外部刺激的影响很大，特别是视觉和语言。因此，拥有捕捉不同模态之间关系的情感数据集是至关重要的。212640不同的模态用于研究感官信息和情感之间的关系。这些数据集使机器能够更好地理解情感，并最终增加与人类互动的AI应用的社会接受度。已经提出了几个将情感与感官信息联系起来的情感数据集。最值得注意的是GoE-motions数据集[16]，它捕捉了Reddit评论背后的潜在情感。它的规模足够大，可以训练深度学习模型，使机器更接近理解情感。然而，GoE-motions和类似的数据集[10, 12, 13,14]的一个主要缺点是它们将情感体验归因于单一刺激。多模态数据集，如MS-COCO字幕[24]和VQA[2]，革命性地改变了AI领域，并使机器能够超越简单的文本/图像问题，转向复杂的视觉语言理解任务，如视觉问答和图像字幕。这些开创性的数据集使机器更接近人类水平的智能。Achlioptas等人[1]认识到情感建模需要类似的多模态数据集来更好地理解情感及其构建方式。他们引入了ArtEmis数据集，通过从WikiArt数据集[29]中收集对视觉艺术品的情感语言解释，连接情感、视觉艺术和语言。0数据集偏见Plous[30]认为偏见和偏见是人类进化的一部分。他将偏见视为一种优化大脑功能的方法，而无需昂贵的人类注意力。他认为偏见是由人类环境和经验创造和修改的。这就是为什么偏见极其难以消除，但只能尽量减少其影响。自然而然地，人类在标记数据集时，不可避免地在收集的数据中引入了他们的偏见。这些偏见有时可能很轻微，但在道德判断和与人类互动的应用中，它们可能非常有问题[17, 21, 31,36]。Gino等人[17]表明，人们在道德上谴责某些行为是基于不好的结果，即使结果是随机确定的。当偏见造成更多伤害而不是好处时，人们通常能够识别出偏见。然而，机器学习模型没有类似的检测和推理偏见的能力。因此，如果模型从一个有偏见的数据集中学习，它们将做出有偏见的决策。因此，减少数据集中的偏见对于增加对机器学习模型的接受和信任至关重要。在训练模拟人类情感或直接与人类互动的模型时，检测数据集中的偏见尤为重要，特别是在情感数据集中。Goyal等人[18]发现了VQA数据集[2]中的一个偏见，使得在该数据集上训练的模型不能正确依赖视觉模态，只能依赖语言模态。0这种偏见是在数据收集过程中引入的，并且后来在对这个数据集进行深度学习模型训练时观察到了意外的结果。有偏见的VQA1.0在给定问题的答案分布上存在根本性问题，对训练模型产生了不利影响。检测和解释这种异常并不容易，因为VQA1.0的分布是有偏的。因此，测试集是有偏的，尽管评估指标很高，给人以模型训练得当的错觉；这些模型不适用于实际场景，因为测试集不代表真实世界。受此启发，我们观察到ArtEmis在训练的神经说话者的结果中存在差异，一个简单的最近邻模型表现异常好。这主要原因是情感和通用字幕的分布不平衡。分布不平衡是由于人们对绘画感到积极的倾向所致。ArtEmis中62%的字幕被标记为积极情感，而26%为消极情感，其余是其他情感。另一方面，通用字幕没有提及所描述绘画的具体细节，导致具有相似风格的绘画之间的多样性较少。例如，图1右下角的两幅画具有相似的风格。在ArtEmis中，旧字幕描述了颜色，给人一种总体满足的感觉，因此可以与邻近的任何字幕匹配。另一方面，新字幕将绿色斑块识别为霉菌，引起厌恶的感觉。这个详细的字幕非常具体于这幅画，不能用于任何邻近的画。这种多样性和对细节的关注是ArtEmis所缺乏的，我们尝试通过使用我们在图2中开发的界面收集互补数据集来解决这个问题。我们以对比的方式收集补充数据，精心设计以减轻ArtEmis中的偏见。将我们的补充数据集与ArtEmis相结合，我们得到了情感标签更加平衡的分布，其中积极和消极情感占数据集的47%和45%。通过与神经说话者的实验，我们还展示了这种对比数据收集方法相对于扩大ArtEmis规模的优越性。0贡献。0•我们表明，ArtEmis数据集的数据收集过程导致情感和通用字幕的分布不平衡，从而对训练的神经发声者的质量产生不利影响。我们还使用对比数据收集方法收集了一组补充数据集，从而缓解了ArtEmis中的问题。0•我们表明，联合数据集中的字幕更能代表在GoEMotions[16]中研究的语义空间理论的细粒度情感。212650(a) 最相似的绘画选择（24个，仅显示4个）0(b) 正面情绪解释界面。0(c) 负面情绪解释界面。0图2.对比数据收集界面。左侧界面显示一幅画和24幅相似的画，用户从中选择最接近原始画作并引发相反情感的画作。还可以选择“无图像可用”选项。根据原始画作的情感，用户将看到正面或负面情感字幕界面（右侧界面）。0•我们训练了多个神经发声者来反映使用对比数据收集来补充ArtEmis的优势。我们表明，在我们的联合数据集上训练的发声者在多个方面明显优于在ArtEmis上训练的发声者。02. 相关工作0收集情感数据集的几次尝试导致了可以帮助理解感官信息和情感之间联系的数据集。Cowen等人[10,12,13,14]收集了由不同感官信息引起的情感体验。然而，这些数据集的规模较小，限制了它们在训练深度学习模型方面的效益。GoEmotions数据集[16]成功捕捉到情感体验和Red-dit评论之间的关系。它的规模也足够大，可以训练文本到情感的深度学习模型并取得良好的结果。然而，所有这些数据集都将情感体验归因于单一的刺激。另一方面，ArtEmis[1]是第一个捕捉到情感、视觉艺术和语言相互作用的多模态数据集。ArtEmis[1]数据集独特地捕捉到了视觉刺激、情感以及语言之间的复杂关系。例如，图3中最左边的画中的火山由于其壮丽可以唤起敬畏情感，或者由于其威胁性可以唤起恐惧情感。0当观众想到熔岩和火山爆发引起的破坏时，这种想象力和象征性是ArtEmis数据集中至关重要的。我们在这项工作中主要考虑ArtEmis数据集，因为据我们所知，它是唯一捕捉到视觉、语言和情感相互作用的数据集。大规模字幕数据集的普及为许多基于深度神经网络的字幕方法的发展提供了可能[26,27,28,37,40,41]。我们对本文中应用字幕模型感兴趣，因此我们选择了最先进的标准模型，特别是Xu等人[38]使用了带有注意力机制的LSTM模型和Cornia等人[9]采用了Transformer进行字幕任务。我们表明，使用我们的补充数据集训练神经发声者隐含地提高了性能和字幕的特异性。0与情感理论的联系。我们将ArtEmis视为一种独特的数据集，可以作为不同情感理论之间的桥梁，特别是已经建立起来的构建情感理论[3,4,5,6]和最近提出的语义空间情感理论[11]。从观看艺术作品中唤起的情感体验的语言解释最好在构建情感理论的背景下进行观察。这个理论认为语言是传达情感体验的主要方式，而愤怒等情绪类别是主观的，因人而异，使它们的效果较差。In order to introduce more emotional diversity, we col-lected the new complementary dataset in a contrastive man-ner. We defined an emotional score for each painting as212660另一方面，语义空间理论认为情感类别/标签是一种更好的传达情感体验的方法。他们确定了一系列情感类别，根据刺激物的不同而在18到25之间变化。此外，他们表明这些类别之间存在平滑的边界，与情感类别是离散的观念相反[7, 8,15, 20,35]。ArtEmis通过提供语言和情感类别来融合这两种理论。它提供了一个机会来发展一个使用语言和情感类别来解释情感体验的统一情感理论。然而，我们在ArtEmis中发现的偏见极大地限制了它的能力，因为它的情感分布不平衡，并且标题与其绘画的具体性较低。03. 动机0[1]报告了在ArtEmis数据集上训练多个神经说话者架构的结果。其中，他们使用了一个简单的最近邻（NN）检索模型，该模型从训练绘画中识别与测试绘画最接近的邻居，并随机从该邻域中选择一个话语。他们还训练了MeshedMemory Transformers [9]以及“Show, Attend andTell”模型[38]。最近邻模型在METEOR和ROUGE指标上分别达到了0.102和0.210的得分，而网格内存变换器和show,attend andtell模型分别达到了0.140和0.280以及0.142和0.297的得分。与其他模型相比，最近邻模型的性能出乎意料地好。这种高性能可以归因于每幅绘画的邻域缺乏多样性。这对最近邻模型非常有帮助，因为每个样本的局部上下文中的话语是相似的。然而，使用ArtEmis训练的神经说话者表现出对目标图像的具体性缺乏，并且倾向于产生通用的标题。ArtEmis中的注释非常主观，一些绘画根据注释者的不同会引发相反的情感。然而，对于大多数数据集来说，绘画并不引发相反的情感情绪，并且相邻的绘画具有相似的情感情绪。我们遵循[1]的定义，将积极情感情绪定义为满足、敬畏、兴奋或娱乐中的一种；将消极情感情绪定义为愤怒、厌恶、恐惧或悲伤中的一种。我们确定了33987幅具有单一情感情绪的绘画，即它们不会引发相反的情感。对于每幅单一情感绘画，其具有相似情感的邻居绘画的比例在2-10的K值范围内为40%。考虑到ArtEmis的主观性质，这个数字非常高，也是最近邻模型高性能的主要原因。进一步的检查还发现了许多情况，其中所选情感的话语非常通用，如图3底部所示。0尽管绘画表达了真实的对象并提供了良好的上下文，但注释中并未提及细节，这使得话语无法更好地利用。这种缺乏细节和许多绘画周围缺乏对比的情感邻域对神经说话者的表现产生了负面影响，因为这些标题是通用的，并且对于类似的情感来说彼此相似。我们提出收集一个补充数据集来缓解上述问题。我们的目标是在单一情感绘画的邻域中引入更多的多样性。我们还旨在提高数据集的话语质量，使其更加与绘画相关/具体。通过这样做，对新的增强数据集进行训练的神经说话者将学会更加关注每幅绘画的细节，以便有一个能够恰当解释引发的情感的高质量话语。04. 对比数据集04.1. 数据收集接口0N i 表示第 i 幅画中的正面情绪和负面情绪的数量，而 N i是与第 i幅画相关的情绪总数。我们确定情绪偏倚的画作的绝对情绪得分大于0.3。然后对于每幅这样的画作，我们检索最近的100个邻居。最近的邻居是基于从VGG16网络的fc7层提取的高级语义特征进行识别的[34]。在这100个邻居中，我们选择了24幅画作。前12幅是最近的12个邻居，而最后12幅是在剩余具有相同情感的画作中情绪得分最高的画作。因此，这24幅画作包含了在视觉上相似的画作，并唤起了与查询画作相似的情绪体验。按设计，这鼓励参与者更多地关注构成相反情绪体验的对比细节；见图1。在获取了已确定画作的完整邻居列表后，我们在Amazon MechanicalTurk（AMT）上进行了收集实验。我们有两个任务：在第一个任务中，我们使用图2a所示的界面。给定一个随机的查询画作及其情绪列表，我们要求AMT工作者从其24个视觉最近邻中选择最相似的画作，该画作唤起了相反的情绪。如果工作者找不到合适的画作，我们允许他们选择“无可用图像”选项，以避免对他们施加情感偏倚。在第二个任务中，一旦选择了画作，我们要求注释者使用与[1]相似的界面指定他们通过观察所选画作而感受到的主要情绪。图2b和2c所示的界面要求工作者选择一种情绪并提及原因。我们在第4.2节报告了有关数据收集任务的统计信息。我们仔细审查了所有收集到的数据，以确保其高质量。In total, we identified 52933 emotionally biased paint-ings. We collected a total of 260,533 instances, allowingat least five submissions per painting. Out of the collecteddata, only 7752 had the No Image Available option selected,accounting for 3% of our dataset. This small number re-veals that turkers, upon closer inspection, can extract detailsfrom most paintings that may elicit contradicting emotions.To measure the diversity of the dataset, we calculated theentropy of emotions in the K visual neighbors for everypainting. For K = 20, ArtEmis has an entropy of 0.805while combining the complementary dataset with ArtEmisresulted in entropy of 0.855, a total of 6% increase, reflect-ing an increase in the local diversity of every painting. Wename our complementary data as Contrastive and com-bine it with a random subset from ArtEmis resulting in adataset of the same size. We name this dataset Combinedand mainly compare it to ArtEmis highlighting the advan-tages of using contrastive data collection. To guarantee fair-ness, we make sure all the datasets have similar sizes.212670图3. 第一行：使用对比方法收集的新话语。注意每组中引用的图像细节的差异。第二行：从ArtEmis数据集中收集的原始话语。04.2. 收集到的数据统计04.3. 定性分析0对比数据集的样本如图1所示。左侧显示查询图像，右侧显示最接近的唤起相反情绪的画作，以及一个旧的话语和一个新收集的话语。所选画作的原始解释反映了它们的肤浅性和对细节的缺乏关注。对工作者施加选择唤起相反情绪的画作的限制使他们关注每个图像的细节并进行更多的情感联想。例如，0例如，在右下方的示例中，查询的绘画唤起了满足情感，而最近的绘画原本也唤起了满足情感。然而，通过观察绘画，注释者因为绿色调而感到恶心，这类似于霉菌。我们在图3中突出了对细节的更多关注，其中展示了三幅具有不同艺术风格的绘画。底部和顶部行分别显示了旧和新的话语，对比了细节的改进深度。例如，左侧绘画的新话语描述了火山以及注释者担心它可能爆发；相比之下，ArtEmis中的标题非常通用，适用于任何绘画。在中间的绘画中，尽管旧话语提到了女人，但与新话语中提到的细节相比，显得相形见绌。最后，在右侧的绘画中，新话语提到了独特的比喻，与旧话语进行了相同的对比。04.4. 定量分析0情感分布我们的数据收集设置天然地平衡了ArtEmis中的情感。这可以从图4a中显示的情感分布中看出。最初，ArtEmis数据集中62%的情感是积极的，而只有26%的情感是消极的（其余是其他情感），这使得大多数查询的绘画具有积极情绪。因此，工人在大多数任务中只能选择消极情感或“无图像”选项，从而最终平衡了情感分布。因此，Combined数据集具有更平衡的分布，其中47%的样本是积极的，45%是消极的。请注意，这里对话的情感进行对比，而不是具体的情感。这就是为什么在情感分布水平上明显存在平衡的原因。我们通过扩展细粒度情感集进一步分析了合并数据集的情感分布。212680(a) 负面情感的数量有所增加，但某些情感仍未被标注。0(b) 当合并数据集时，情感的语义分布更加平衡。0图4.将补充数据集与ArtEmis相结合，可以得到更平衡的情感分布。注意，补充数据集自然地为ArtEmis中未标注的情感提供了更多的注释。0根据语义空间理论[11]，我们在GoEmotions数据集上对RoBERTa[25]语言模型进行微调。在图5中，我们使用该模型预测了Combined和ArtEmis的扩展情感集。我们绘制了情感回应的直方图和所有情感类型之间的皮尔逊相关性。图中显示，与ArtEmis相比，Combined数据集更能代表语义空间理论情感，这可以从非对角线相关性较暗的情况看出。例如，恐惧和失望情感在Combined热图中的相关性较低，表明Combined数据集中的标题能够明显地表达这些情感。0词性分析我们在表1中比较了Contrastive、Combined和ArtEmis的标题的语言结构。这三个数据集的语言结构相似，只有细微的差异。这种相似性表明，Combined数据集没有不公平的语言优势，比如每个标题的词数较少。值得注意的一点是每个标题中动词的增加，这可能反映了关联数量的增加。关联主要用于关联绘画的不同部分，这可以解释为对绘画细节的更多关注。这些结果表明，0图5.语义空间理论细粒度情感分析。上图：我们绘制了来自GoEmotion的扩展情感集的直方图。注意Combined数据集的分布更加平衡。下图：我们展示了Combined和ArtEmis中情感之间的相关性。较暗的非对角线区域意味着Combined在不同情感之间的相关性较低，更能明显地表示它们。0数据集词语名词代词形容词介词动词0对比 15.8 3.8 0.9 1.5 1.8 3.3 ArtEmis [1] 15.9 4.0 0.9 1.6 1.9 3.0 Combined 15.93.9 0.9 1.6 1.9 3.20表1.标题的丰富程度，报告为每个单独标题的平均语言单位。对比是我们对比性收集的数据集，Combined是ArtEmis和对比的并集。0我们在第5节中取得的性能提升主要归因于平衡的情感分布以及对细节的关注。05. 实验0神经发声器我们在训练和评估不同的神经发声器（情感图像字幕模型）方面遵循[1]。第一个是基于K最近邻的简单模型。我们根据VGG16网络的fc7层提取的高级语义特征来识别最近的邻居。在推断过程中，我们从训练集中检索最近的3个邻居，并随机选择一个标题。我们还训练了“Show, Attend andTell”（SAT）[38]，它基于LSTM[19]和Meshed-MemoryTransformers（M2）[9]，是MS-COCO数据集上最先进的字幕模型。此外，我们还开发了一个修改版的M2transformer，更适用于艺术作品。M2transformer使用对象特征作为图像表示。BLEU-10.1450.5580.5650.628BLEU-20.0400.3380.3390.385BLEU-30.0130.2020.2010.226BLEU-40.0050.1230.1230.137METEOR0.0570.1470.1460.165ROUGE-L0.1240.3070.3090.339CIDEr0.0480.0910.0960.103212690指标 NN M2 modified M2 SAT0表2.在Combined数据集上训练的神经发声器的结果。我们在组合测试集上评估不同的神经发声器。SAT的性能优于其他模型，而最近邻（NN）模型的性能与[1]中的模型相比显著下降。0对于ArtEmis中的绘画作品来说，可能不适合于绘画，因为有些艺术作品并不描绘真实的物体（例如，抽象画）。因此，我们建议通过将绘画分成P×P个补丁来提取补丁特征。然后，我们从VGG16的最后一个卷积块中提取高级特征。我们将补丁特征与对象特征连接起来，以获得多样化的表示。在我们的实验中，我们设置P =4。为了公平比较不同模型之间的差异，我们降低了不同模型的隐藏大小，使它们具有大致相似的时间复杂度。除了NN基线模型外，每个模型在单个Nvidia V100GPU上需要4-5小时的训练时间。训练集。我们定义了三个数据集：对比包含我们收集的260,533个样本，ArtEmis包含原始ArtEmis数据集[1]中的所有样本，最后，Combined是对比和260,533个ArtEmis随机样本的并集。为了公平比较，我们随机从Combined中删除了65K个标题，使其与ArtEmis的大小相同，即455K。测试集。为了评估，我们在两个集合上进行测试。第一个是Combined的大小为10%的子集，而第二个是由[1]提供的名为ArtEmis C40的子集，该子集不包含在ArtEmis中，但以相同的方式收集。ArtEmis C40包含703幅绘画，每幅绘画至少有40种情感和相应的解释。我们选择ArtEmis C40，因为它每幅绘画有更多的样本，可以更准确地衡量给定情感的生成标题的质量。我们通过报告三个实验的结果来突出对比性数据收集的优势。第一个实验是对上述神经发声器的基准测试。其次，我们比较了在Combined、ArtEmis和对比数据集上训练的三个SAT模型的评估分数。最后，我们按情感分解了结果，显示在所有情感中性能显著提高，尤其是对于少数情感。0结果。我们使用Combined数据集进行了类似于[1]的基准测试。我们报告了评估指标的结果。0指标 Combined ArtEmis Contrastive0BLEU-1 0.855 / 0.540 0.837 / 0.511 0.820 / 0.521 BLEU-20.665 / 0.301 0.642 / 0.282 0.613 / 0.283 BLEU-3 0.480 /0.168 0.456 / 0.154 0.425 / 0.151 BLEU-4 0.338 / 0.0960.313 / 0.088 0.287 / 0.084 METEOR 0.218 / 0.144 0.212 /0.135 0.204 / 0.135 ROUGE-L 0.449 / 0.295 0.447 / 0.2840.433 / 0.284 CIDEr 0.086 / 0.111 0.076 / 0.091 0.080 /0.0930表3.在不同训练集上训练的SAT模型的性能。这四个不同的SAT模型在ArtEmisC40测试集上进行评估。我们在这个表格中报告每个标题（/之前）和每个情感（/之后）的结果。注意到使用Combined训练的SAT模型优于其他所有模型。0在Combined测试集上测量的指标。我们比较了NN、SAT和M2（原始版本和修改版本）。表2中报告的结果显示了原始NN模型在这个Combined数据集上的表现不佳。例如，对于METEOR和ROUGE-L得分，SAT相对于NN在ArtEmis[1]上的改进分别为28%和29%。而对于Combined数据集，这一改进变为65%和63%。NN性能的这种显著下降反映了Combined数据集中引入的多样性，使得NN模型难以表现良好。SAT是大多数评估指标中表现最好的模型，除了CIDEr。修改后的M2略优于M2，支持我们的观点，即仅使用边界框特征对于画作不合适。由于其优越性，我们在接下来的实验中使用SAT来探索Combined数据集的优势。0数据集比较。我们评估了四个基于情感的SAT模型，它们分别在Combined、ArtEmis和Contrastive数据集上进行训练。为了保证公平比较，我们使用了ArtEmisC40，因为它是由[1]收集的，并且其中没有包含新收集的样本。结果在表3中报告。在Combined数据集上训练的模型表现最好。这表明通过添加对比数据来使用平衡的训练集显著提高了神经说话者的性能。这可以归因于在视觉上相似但情感相反的图像上进行训练，从而改善了表示的区分性。值得注意的是，尽管尺寸只有一半，但在Contrastive数据集上训练的模型接近在ArtEmis数据集上训练的模型，这表明对比收集的标题对画作有更具体的描述。0按情感进行分析。我们通过对结果进行情感平均来深入分析得分。我们将ArtEmisC40中的样本按情感分组，然后分别计算每个情感的每个标题的评估指标；最后，我们报告每个情感的平均得分。图7展示了在每个情感上训练的Combined模型的优越性，特别是对于在ArtEmis中较少出现的代表性情感，如愉快、兴奋和所有负面情感。我们在表3中报告了每个情感的平均得分，CIDEr和METEOR分别提高了20%和7%。我们在图6中预览了一些生成的样本。顶部一行展示了非情感驱动的SAT模型生成的结果，而第二行展示了基于输入情感生成的标题。212700图6. 第一行：SAT模型生成的结果。第二行：基于情感的SAT模型生成的结果。这两个模型都是在Combined数据集上训练的。注意到每幅画作中对细节的关注。0表情感分析。我们通过对每个情感的结果进行平均来深入分析得分。我们将ArtEmisC40中的样本按情感分组，然后分别计算每个情感的每个标题的评估指标；最后，我们报告每个情感的平均得分。表3展示了性能差距的显著增加，CIDEr和METEOR分别提高了20%和7%。我们在图6中预览了一些生成的样本。顶部一行展示了非情感驱动的SAT模型生成的结果，而第二行展示了基于输入情感生成的标题。0图7.每个情感的得分。当在所有情感上使用Combined数据集训练时，SAT的性能显著提高。CIDEr和METEOR分别提高了20%和7%，同时注意到性能差异对于较少频繁出现的情感更为显著。0是高质量的，并反映了绘画作品的具体细节。0人类实验。我们还对100幅随机选择的绘画作品进行了人类评估（每幅作品5个回答），其中SAT在合并数据集和ArtEmis上进行了生成；73%的人更喜欢合并数据集的生成结果。06. 结论0本文发现了情感图像字幕任务中的偏见问题，特别是情感分布不平衡和通用字幕，对训练模型的质量产生了负面影响。我们引入了ArtEmisv2，这是ArtEmis的第二次迭代，以减轻情感偏见。我们以对比的方式收集了数据，旨在平衡ArtEmis并鼓励标注者对细节给予额外关注。我们分析了新的合并数据集，揭示了其优势，并进行了几个实验，展示了当在合并数据集上进行训练时神经说话者的更好表现。请注意，情感数据集可能存在其他尚未解决的偏见，包括对少数族裔和少数群体的偏见。在这项工作中，我们只关注情感偏见，希望我们的对比数据收集方法能够在情感视觉和语言数据集中减轻其他形式的偏见。致谢。本工作得到了KAUST的支持，奖励编号为BAS/1/1685-01-01。212710参考文献0[1] P. Achlioptas, M. Ovsjanikov, K. Haydarov, M. Elhoseiny,and L. Guibas. Artemis: 视觉艺术的情感语言. 在CVPR中, 2021.4322 , 4323 , 4324 , 4326 , 43270[2] S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L.Zitnick, and D. Parikh. Vqa: 视觉问答.在IEEE国际计算机视觉会议论文集中, 页2425–2433, 2015. 43220[3] L. F. Barrett. 解决情感悖论：分类和情感体验.个性与社会心理学评论, 10(1):20–46, 2006. 43230[4] L. F. Barrett. 情感是如何产生的：大脑的秘密生活. HoughtonMifflin Harcourt, 2017. 43230[5] L. F. Barrett.构建情感的理论：内部感知和分类的主动推理解释.社会认知与情感神经科学, 12(1):1–23, 2017. 43230[6] L. F. Barrett, K. A. Lindquist, E. Bliss-Moreau, S. Duncan,M. Gendron, J. Mize, and L. Brennan.鼠和人：哺乳动物大脑中的自然情感种类？对Panksepp和Izard的回应. 心理科学观点, 2(3):297–312, 2007. 43230[7] G. J. Boyle. 伊扎德的情感差异量表的可靠性和有效性.个体与个体差异, 5 (6):747–750, 1984. 43240[8] G. J. Boyle, D. H. Saklofske, and G. Matthews.选择和评估量表和测量的标准. 在个性和社会心理构念的测量中,页3–15. Elsevier, 2015. 43240[9] M. Cornia, M. Stefanini, L. Baraldi, and R. Cucchiara.网格化记忆变换器用于图像字幕生成.在计算机视觉和模式识别的IEEE/CVF会议论文集中,页10578–10587, 2020. 4323 , 4324 , 43260[10] A. S. Cowen and D. Keltner.自我报告捕捉到27个不同的情感类别，通过连续梯度相连.国家科学院院刊, 114(38): E7900–E7909, 2017. 4322 , 43230[11] A. S. Cowen and D. Keltner. 语义空间理论：情感的计算方法.认知科学趋势, 2020. 4323 , 43260[12] A. S. Cowen, H. A. Elfenbein, P. Laukka, and D. Keltner.通过简短的人类语音传达的24种情感. 美国心理学家, 74(6):698,2019. 4322 , 43230[13] A. S. Cowen, X. Fang, D. Sauter, and D. Keltner.音乐让我们产生何种感受：至少有13个维度组织了不同文化中与音乐相关的主观体验. 国家科学院院刊, 117(4): 1924–1934, 2020.4322 , 43230[14] A. S. Cowen，D. Keltner，F. Schroff，B. Jou，H.Adam和G.Prasad。全球范围内类似情境中出现的十六种面部表情。《自然》，589（7841）：251-257，2021年。4322，43230[15] C.Darwin。《人和动物的情感表达》。芝加哥大学出版社，2015年。43240[16] D. Demszky，D. Movshovitz-Attias，J. Ko，A. Cowen，G.Ne- made和S.Ravi。Goemotions：一种细粒度情绪数据集。arXiv预印本arXiv:2005.00547，2020年。4322，43230[17] F. Gino，D. Moore和M.Bazerman。无害，无犯：道德判断中的结果偏见。哈佛商学院，哈佛商学院工作论文，012008。doi：10.2139/ssrn.1099464。43220[18] Y. Goyal，T. Khot，D. Summers-Stay，D. Batra和D.Parikh。使VQA中的图像理解变得重要：在计算机视觉和模式识别IEEE会议论文集中，第6904-6913页，2017年。43220[19] S. Hochreiter和J.Schmidhuber。长短期记忆。神经计算，9（8）：1735-1780，1997年。43260[20] C. E. Izard，D. Z. Libero，P. Putnam和O. M.Haynes。情绪体验的稳定性及其与人格特质的关系。《个性与社会心理学杂志》，64（5）：847，1993年。43240[21] E. E. Kausel, S. Ventura和A.Rodr´ıguez。主观绩效评级中的结果偏见：来自（足球）领域的证据。《经济心理学杂志》，75：102132，2019年。ISSN0167-4870。doi：https://doi.org/10.1016/j.joep.2018.12.006。URLhttps://www.sciencedirect.com/science/ar

下载后可阅读完整内容，剩余1页未读，立即下载