情感图像检索中的注意力感知极性敏感嵌入

152 浏览量更新于2023-10-13 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1140查询图像注意力图情感嵌入空间检索积极询问娱乐满足敬畏兴奋恐惧愤怒厌恶悲伤负面向情感图像检索的注意力感知极性敏感嵌入姚兴旭1，佘东宇1，赵思成2，梁杰1，赖玉坤3，杨巨峰11南开大学2加州大学伯克利分校3卡迪夫大学{yxx hbgd，sherry6656}@ 163.com，liang27jie@163.comschzhao@gmail.com，LaiY4@cardiff.ac.uk，yangjufeng@nankai.edu.cn摘要由于社交网络的日益普及，图像对人们在线表达意见起着至关重要的作用。虽然情感图像检索系统是用于从海量的存储库中获取具有期望情感的视觉内容，但抽象和主观的特征使得任务具有挑战性。为了解决这个问题，本文引入了一个注意感知极性敏感嵌入（APSE）网络，以端到端的方式学习情感表示。首先，为了自动发现和建模的信息感兴趣的区域，我们开发了一个层次化的注意力机制，其中极性和情感特定的出席表示聚合的歧视性特征嵌入。其次，我们提出了一个加权的情感对损失，以考虑到内部和内部的极性关系的情感标签。在注意力模块的指导下，对样本对进行自适应加权，进一步提高了特征嵌入的性能。在四个流行的基准数据集上进行的大量实验表明，所提出的方法对最先进的方法表现良好。1. 介绍随着在线社交网络的日益普及，人们更倾向于通过在Flickr和In- stagram等社交平台上发布图片来表达自己的观点。最近，研究人类对视觉刺激的情感反应的情感图像分析由于其广泛的适用性而引起了心理学家[38，49，32]和计算机视觉研究人员[30，63]的关注。意见挖掘[36，39]、图像字幕[8，31]等。如何根据人的感知能力来检索情感图像是一个有意义而又具有挑战性的课题。已经提出了各种基于情感的图像检索（EBIR）系统[54，24，34，65]。与基于内容的图像检索（CBIR）相比，EBIR涉及到高层抽象图1.嵌入空间中情感意象的提取空间中的两个区域表示二进制发送极性，即。积极和消极。对于给定的查询图像，来自完全相同的情感类别的检索图像被示出在绿色框中，而来自相同极性但不同类别和相反极性的图像分别被示出在蓝色和红色框语义学和人类感知的主观性。为了弥合低级特征和高级情感语义之间的“情感鸿沟”，根据心理学和艺术理论提出了一些手工制作的特征[30，68]。为了捕捉情感图像之间的语义相似性，Zhaoet al. [72]基于包括低级颜色、纹理和有助于表达图像情感的其他高级特征的不同级别的特征，采用多图学习来进行情感图像检索。最近，深度学习已被用于通过将图像嵌入特征空间来预测图像引起的情绪[58，41，52，47]，这导致了突破性的性能。Pang等人[37]使用深度玻尔兹曼机在多模态空间上开发单位密度模型，这使得能够进行面向情感的跨模态检索。Yang等[57]提出多任务框架同时优化分类和检索损失，从而提高两项任务的性能。1141然而，视觉情感有两个重要的特征（如图所1），这些都是在现有的情感图像检索方法被忽视一方面，感兴趣的信息区域对图像情感至关重要（参见每个样本图像的热图）[12，3，50]，它可以唤起人们的情感刺激;另一方面，在具体范畴之外的情感标签空间中也存在情感极性。请注意，极性指示了粗糙层次的类别{积极，消极}，具体层次的情绪被定义为{娱乐，满足，敬畏，兴奋，恐惧，愤怒，厌恶，悲伤}，如[32，63]所述。在本文中，术语“类”被用来表示情感极性和情感类别。给定一个查询图像，我们的目标是按照与给定图像的关系对检索到的图像进行排序，顺序如下：相同的情感类别，相同的极性，但不同的情感类别，不同的极性。本文根据视觉情感的上述特点，提出了一种基于注意感知的极性敏感嵌入（APSE）网络的情感图像检索方法。具体而言，情感极性与低层次特征之间存在相关性[42，29，68]，而特定情感类别主要由语义内容决定。因此，在注意力模块中，我们在网络的较低层利用极性特定注意力，并在较高层利用情绪特定注意力。在嵌入过程中，我们引入了一个极性敏感的特征嵌入策略的基础上提出的加权情感对（WEP）的损失。我们在嵌入空间中分离二元情感极性，同时也有效地区分相同极性中的不同情感。在注意模块的指导下，对难反例施加更强的惩罚，以提高学习效率。统一架构通过由WEP和注意力损失组成的总损失来优化，以学习区分特征嵌入。我们的贡献是双重的。1)我们建议采取多级关注的局部特征，情感图像检索，基于观察，低级别和高级别的图像特征涉及不同层次的情感层次。2)我们引入了一个注意力感知的极性敏感嵌入（APSE）网络，它考虑了情感标签之间和内部的极性关系。我们提出的WEP损失有效地连接注意力模块和嵌入过程，以实现更有效的学习。大量的实验证明了该方法的有效性。2. 相关工作2.1. 视觉情绪分析在视觉情感分析领域，大多数现有的方法集中在情感预测[73，35，70，57，62，69、40、23]。早期的作品使用各种手工制作的特征[30，60]，包括形状特征[29]和艺术特征[68]，以表现图像引起的情感。此外，Borthet al. [2]提出了形容词名词对（ANP）来弥合低层特征和高层情感语义之间的情感鸿沟。随着深度学习模型的广泛应用，许多方法[52，41，74]利用卷积神经网络（CNN）来提取情感表示的深度特征，这些方法在图像情感分类[6，56，58]，情感标签分布预测，[71，67]和情感图像检索[72]。虽然许多方法都致力于图像情感预测，情感图像检索的关注远远不够。Wang等人[54]提出一个EBIR系统，允许用户使用情感语义执行检索，tic的话，和系统进一步改善不同的任务[24，34]。Zhao等人[72]利用多图学习来检索在情感上与查询图像相似的情感图像。在[57]中提出了一个同时优化分类和检索任务的深层框架。与现有方法不同，本文提出了一种基于多级关注特征的极性敏感嵌入方法，用于情感图像检索。2.2. 视觉注意机制注意机制广泛应用于各种视觉任务[44，55，1，66，5，4，11]，因为它可以找到在网络中起决定性作用的图像区域。Wang等人[51]通过引入基于注意力的学习方法来训练用于图像分类的深度残差网络。SCA-CNN网络集成了空间和通道方面的注意力，在[4]中提出了用于图像字幕。根据心理学理论[50，12]，情感内容比非情感内容更容易吸引人的注意力。与具有明确边界的特定显着对象不同，激发情感的区域可能是模糊和抽象的[56]。对于情感图像，现有方法[59，61]从众多候选边界框中检测情感注意区域，增加了计算负担。我们的方法以端到端的方式基于特征激活使用单镜头生成软注意力地图。此外，我们集成了来自多个层的特征，并建立了一个层次注意机制，用于学习嵌入空间中的鲁棒表示。也就是说，来自较低层的极性特异性特征和来自较高层的情感特异性特征在我们的框架.2.3. 特征嵌入学习最近，许多方法已经利用嵌入学习来测量各种任务的图像相似性[28，9，17，64，53，20]。基于流行的成对损失[10]，1142L NAtt下采样1Att 2嵌入HWEP丢失阿达玛Product锚点和阳性样本锚定极性中的阴性样本我n=1nLKf1 f1+f2+F+N下采样嵌入CLB紧凑l2-NWEP丢失A样本对构造和加权 ③嵌入过程锚f1锚点=f1，N 8Att.附件2VPF2F2+f1+拉Hadamard积锚点和正样本锚点极性中的负样本带锚钉的相反极性样品f1+f5+f6+F2+fN+F7+F8+F3+f4+Ve相反极性相同极性图2.拟议方法的管道在加权情感对（WEP）损失中，我们在FI数据集中使用相似的情感类别[63]，类别数量N= 8。在这里，四个类别是积极的，其他四个是消极的。图1中给出了生成注意力地图的过程的细节3.第三章。Att.1和Att.2分别代表极性特定注意力和情感特定注意力Vp和Ve表示样本对的极性和情感级别权重矩阵 CLB表示跨电平双线性操作。 fi和f+分别表示第i类中锚点和正例的特征。Song等人[33]利用由小批量的成对距离组成的矩阵来创建损失函数，该损失函数合并所有样本以形成提升的嵌入结构。为了产生有效的训练样本，Harwoodet al. [18]进行智能挖掘过程以有效地训练模型。此外，Duanet al.[15]采用深度对抗性学习，从简单的否定中生成硬否定，以构建更强大的模型。受情感类具有等级关系这一事实的启发，从粗略的极性到具体的情感，我们开发了极性敏感的WEP损失来衡量查询和检索图像的相似性。3. 方法我们提出了APSE网络，可以以端到端的方式进行训练。它包含两个主要的密切相关的组成部分，如图所示。2.首先，所提出的方法集成了由分层注意机制提取的极性和情感特定的注意特征（第二节）。第 3.1节）。第二，我们通过在注意力模块的指导下优化WEP损失来学习极性敏感和区分特征嵌入（第二节）。3.2）。3.1. 层次注意机制除了从深层网络中的高层获得的特定情绪区域外，我们还从较低层学习特定极性的目标区域。我们提出了一个简单而有效的注意力机制（图）。3）由注意头和输出头组成模块，注意头接收第l层特征激活作为输入，并输出Kl注意图，其中c，h和w是通道的数量，以及特征激活的高度和宽度，并且Kl表示层处的对应标签的数量。l级。首先，我们通过通道方向对接收到的特征激活张量进行求和因此，从3-D特征激活导出h×w2-DF l，即，A l=10c F l.然后，空间注意力掩模Zl通过对Al进行空间方向softmax运算来获得。基于Z 1，我们在特征激活F 1上实现空间方面的关注，从而产生空间关注的特征图，即， Fl=F lZl，其中表示阿达玛广播积，即对于F1的每个通道重复Z1。然后，采用1×1cov层来降低F矩阵的维数到Kl×h×w，表示为Sl∈RK×h×w，其中每个2-D特征激活对应于取决于水平的情感极性或特定情感类别。Sl放依次通过全局平均池化层和softmax层，得到置信度得分向量Cl，其元素位于[0，1]的范围内并且总和为1。第l级的输出头接收2-D特征激活Sl和相应的置信度分数。每个置信度得分c可以被视为对相应类别的倾向程度。因此，最终注意力图U是通过将所有由置信度得分加权的2-D特征激活Sj相加而获得的：U=norm（m，j，S，j），（1）j=1这适用于两个注意力水平。其中norm表示归一化操作。注意1143我NM（f，、我N（EP）损失由N对损失启发。在嵌入过程中，基于来自注意力模块的置信度分数对样本对进行进一步自适应加权，从而产生WEP损失。具体地说，锚负对越难分离，它们的权重就应该越高，以便在训练网络时增加它们的比例。关于N-pair loss 给定N个类别，[46]中提出的N对损失函数优化以识别位置，.它是来自N-101个gative ee示例的示例。定义11NN来自N个不同类别的数据，其中fi表示第i个类别锚点，f+代表积极的考试-第i类中的一个同时，f+也可以看作图3.注意力地图生成概述阶级意识作为jth的反例我范畴（j）。的激活和相应的置信度得分是在注意头。在输出头中，通过对每个激活图进行加权来获得注意力图。在较低层中，注意力模块生成极性特定的注意力图，而情感特定的注意力图在较高层中生成f的值与f和f+之间的相似性呈正相关。因此，N对损失函数可以用公式表示为：Lnp = 1<$log（1 +<$exp（f <$f + − f<$f+））。（三）Ni=1i/=j我JI我较低层中的K= 2表示二元情感极性，而较高层中的K=8表示Mikels轮中的八种情感类别[32]。之后，通过广播将U逐元素地与F相乘，以便生成区分关注特征Fw=F U。基于不同层次的标签因此，注意力损失可以用下面的统一公式得出：EP丢失。一般来说，N对损失可以有效地嵌入特征。然而，对于情感图像检索，该方法不能直接考虑图像的极性特征.因此，在学习特征嵌入时，有必要根据极性区分不同的反例。更具体地说，来自相同极性的图像特征应该比来自相反极性的图像特征更相似。因此，我们提出的极间损耗公式为：N1ΣΣL=1 log（1 + exp（1ff+我 JLatt = −M m=1j =1 1[zm=j] logcj，（2）除其他N i=1NQij∈Qi（四）-1Σff+）），其中，如果条件s为真，则1[s]= 1，否则为0M表示输入图像的数量，并且zm表示相应的图像的数量。NPiJj∈Pi，i/=j第m个输入图像Im的响应标签ID。注意力损失同时在较低层和较高层中被利用。不同的是，较低的层由二进制极性监督，而较高层由八个特定的情感类别监督。来自不同层的特征特别强调不同的信息[41，52，74]。为了有效地整合极性和情感特定的关注特征，我们使用双线性运算[26]使它们相互作用。我们首先从低级别层对参与特征激活输出进行下采样，从高级别层的参与功能激活。然后利用跨层双线性运算（CLB）来模拟不同层特征之间的相互作用，并建立通道之间的成对相关性。其中P1和Q1表示与来自第i个类别的锚具有相同和相反极性的情感类别的集合。 NPi和NQi是相应类别的编号。极性间丢失对于情感图像检索是非常重要的，因为它可以在很大程度上避免检索结果中含有许多相反情感极性的图像而导致的严重失败，这可能会给用户带来不愉快的体验。也就是说，极性间损失确保返回的图像在情感极性上与查询图像一致。此外，更具挑战性的任务是学习在相同极性内嵌入的区分特征。为了实现这一点，我们引入了一个新的极性内损失，以区分相同极性中的类似类别，如下所示：Lintra=1<$log（1 + <$exp（f<$f+−f<$f+））。（五）Ni=1j∈Pi，i/=j我JI我3.2. 极性敏感嵌入学习在这一部分中，我们考虑到情感的极性特征，提出了极性敏感情感对因此，EP损耗通过组合极性间损耗和极性内损耗获得为：L_ep= L_inter + L_intra。（六）注意头聚集间隙输出头注意力图Softmax1×1转换SoftmaxK作为N对卷积fea-1144我J我JIJIJ我˜N我NPJ我 J伊吉伊吉我的，我的i jij我我加权样本对。给定一个情感图像I，我们可以得到它在极性和情感方面的信心分数，如图2所示。第3.1条对于来自第i个类别的锚Ia和来自第i个类别的其负样本In之一，第j类，Iaw.r.t.第j类或Inw.r.t.第i个类别表示该对较难分离。因此，我们在训练过程中对这对分配了更强的惩罚项特别地，cp和ce代表Ia的置信度w.r.t.第j类极性和情感水平，而c+p和c+e表示Inw.r.t.的置信度第j从国际情感图片系统（IAPS）[32]收集的图像，而ArtPhoto包含806张按情感类别搜索的艺术照片。《抽象》由228幅同行评价的抽象画组成，其中包含丰富的色彩和纹理。4.2. 评估指标根据以前的工作[72，57]，我们采用以下指标作为我们的评估标准。检索结果的平均精度用平均精度（mAP）表示。我们关注的是八种情绪-伊季伊季在极性和情感层面上的分类。权重是形成为VP = exp（cp）·exp（c+p），（7）ve = exp（ce）·exp（c+e），（8）具体类别（mAP8）和两极的mAP（mAP2）。最近邻率（NN）表示属于相同类别的秩1样本的比例，查询。第一层（FT）和第二层（ST）分别代表伊吉伊吉其中vp表示由ijIa和In构成的对的极性级别权重，并且ve表示情感级别由Ia和In构成的对的重量。注意v p如果第i个和第j个类别属于发送检索结果的召回。FT表示top-n召回，而ST定义为top-2n召回。这里，n是所有正例的个数。贴现累积增益（DCG）[21]衡量相关样本在相关排序序列中不同位置的重要性。相同的极性。然后v p v e 形成权重矩阵VP Eij ij转的结果。F1得分是结合精度和V如图所示。2，其diago-NAL元素被设置为1（即，vp= 1，ve= 1）。最后”于是，他们的记忆，也就成了一种和谐。平均归一化重量v二二˜修正的检索秩（ANMRR）[16]认为秩-ij=vij·vij。vij（i/=j）的值决定了学习过程中的重要性。我们将任何锚定正对的权重设置为1，即，vii= 1。因此，我们引入WEP（加权EP）损失：在检索的结果中搜索相关图像的序列。较小的ANMRR值表示更好的检索结果，而对于其他评估指标，越大越好。L=1logg[（1+exp（1vf+4.3. 基线WEPNi=1NQij∈Qi伊日J我们比较了所提出的方法与不同的基础--1Σij∈Pi，ivijff+））（1+Jexp（vijff+线第一、我们提取低级局部描述符（即，SIFT和HOG），其维数固定为1000。我们-ff+））]。（九）我们定义了由注意力和WEP损失组成的总损失，以同时优化统一的嵌入网络：L总 =λLwep+（1 −λ）Latt，（10）其中λ是控制两种损失之间的权衡的权重。4. 实验在本节中，我们对最常用的情感数据集进行了广泛的实验，以评估所提出的算法对最先进的方法。4.1. 数据集我们在四个流行的数据集上进行了实验，包括Flickr和Instagram（FI）[63]，IAPS的子集A（IAPSa）[32]，艺术数据集（ArtPhoto）[30]和抽象绘画（Abstract）[30]。以Mikels的八种情绪为关键词，从社交网站上收集到23，308张带有标签的图片。协会a由395个还提取中级特征，包括1200维SentiBank的ANP检测器[2]，DeepSentiBank的2089维特征[7]和MVSO的4342维特征（英语）[22]。对于CNN方法，我们基于不同的架构（包括AlexNet、VggNet、GoogleNet和ResNet- 50）对具有softmax损失的深度模型进行微调，并从最后一个FC层中提取特征进行重新评估。此外，我们基于ResNet-50训练了不同的嵌入学习方法，包括对比损失[10]，三重损失[43]，N对损失[46]，并使用2048维特征检索图像。我们还比较了国家的最先进的情感图像检索方法，包括杨等。[57][72]第72话。4.4. 实现细节在[57]之后，FI数据集的测试集中的每个图像都被视为查询图像，以检索训练集中的相关图像。对于小规模的数据集，我们使用每个图像来检索其余的图像。我们根据检索到的图像与查询图像之间的相似性对检索到的图像进行排名。该框架基于在ImageNet [14]上预训练的ResNet-50 [19]。原始图像j∈Pi，i/=jpe1145表1. FI数据集上的检索性能。我们针对不同的算法，包括传统方法（TRA），现有的CNN模型（CNN）和嵌入学习方法（EMB），评估了所提出的方法。请注意，“S”表示使用softmax loss进行训练，“Dim.”表示特征的尺寸。方法Dim.mAP8↑mAP2↑FT↑ST↑NN↑DCG↑ANMRR↓SIFT [27]10000.17050.59130.18300.35130.24620.45070.6553TRAHOG [13]10000.21150.60020.19260.36200.32250.46390.6424Sentibank [2]12000.23370.61680.24220.42320.39900.52230.5934DeepSentiBank [7]20890.25590.62470.26580.44680.45830.55090.5655MVSO [22]43420.27980.63660.28770.47610.51580.57310.5346[25]第二十五话40960.27090.63280.27950.46930.50380.56330.5463CNN[45]第四十五话40960.30130.65520.30070.48870.55110.58600.5161[48]第48话20480.35830.67730.35710.56190.58160.64030.4517ResNet（S）[19]20480.43800.70680.42860.60790.60840.68160.3998WSCNet [56]40960.50600.73810.46530.62230.63580.69100.3872对比损失（ResNet）[10]20480.38420.69720.37680.57020.57110.65080.4396三重损失（ResNet）[43]20480.51300.71200.48640.62160.57100.68430.3860EMBN-pair loss（ResNet）[46]20480.52170.80620.47850.70750.53410.73100.3089Yang等（GoogleNet）[57]6400.48850.80980.48340.69780.60230.78020.3135Yang等（ResNet）[57]5440.63950.80810.59950.73540.61640.78660.2518APSE（我们的）5120.73440.90790.69850.78170.66130.81140.22011.00.81.00.81.00.80.60.60.60.40.40.40.20.20.20.0NN↑FT↑ST↑F1↑DCG↑ANMRR↓0.0NN↑FT↑ST↑F1↑DCG↑ANMRR↓0.0NN↑FT↑ST↑F1↑DCG↑ANMRR↓(a)（b）摘要（c）采购处a图4.三个小数据集（Artphoto，Abstract和IAPSa）的检索性能0.740.730.720.710.70.690.920.910.90.890.880.870.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9λ0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9λ100用于通过随机梯度下降（SGD）微调所有层，批量大小为32，确保每个情感的图像。我们通过SGD优化了框架的参数，权重衰减为0.0005，动量为0.9.从有效性和参数消耗两方面考虑，我们分别选择conv3和conv5最后一层的特征来表示低层和高层特征。对于对比度和三重态损失，我们将裕度γ分别设置为0.4和0.2。三重态损失采用半硬三重态取样方法。在我们的体系结构中，根据[26]的经验，压缩后的输出嵌入特征的维数为512。FI数据集被随机分为80%的训练集、5%的验证集和15%的测试集。小规模图5.总损失λ对mAP8和mAP2检测的影响FI数据集。注意，λ是Lwep的权重，1 −λ是Latt的权重。调整大小为256× 256，然后是中心224× 224裁剪。我们将学习率初始化为0.001，每40个epoch下降十分之一。epoch的总数是数据集，我们将FI上微调的网络参数传输给它们。5-执行折叠验证并报告平均性能。4.5. 检索性能在四个情感数据集上，我们评估了不同方法的检索性能如Tab.所示1、SIFTSentiBank生猪DeepSentiBankMulti-Graph Yang et al. Yang etal.（ResNet）我们的SIFTSentiBank生猪DeepSentiBankMulti-Graph Yang et al. Yang etal.（ResNet）我们的SIFTSentiBank生猪DeepSentiBankMulti-Graph Yang et al. Yang etal.（ResNet）我们的映射8地图21146表2.FI数据集上的消融实验基本框架是在ImageNet上预训练的ResNet-50这里，AT表示由两个softmax损失组成的注意力损失HA表示分层注意力，SA表示最后一个卷积层上的情感特定注意力CLB表示跨级双线性运算。 SO表示使用来自最后一个卷积层的特征，MO表示分别使用来自conv 3和conv 5的最后一个层的特征。当未选择CLB时，来自不同图层的要素直接连接。合并损失中各部分的重量相同。在N对EPWEPSAHACLB所以莫mAP8↑mAP2↑FT↑ST↑NN↑DCG↑ANMRR↓√√√√√√√√√√√√√√√0.43800.52170.56800.62250.64300.66800.70680.80620.85580.78160.82410.83250.42860.47850.52470.57790.60360.63650.60790.70750.71870.72550.74850.75040.60840.53410.56230.59750.61100.62780.68160.73100.76020.74510.78630.78850.39980.30890.27890.26230.25510.2421√√√√√√√√√√√√√√√√√√0.69380.70510.71900.73440.86050.87330.89120.90790.64170.66960.68240.69850.76040.75950.76770.78170.62900.63930.64950.66130.78830.79520.80520.81140.23960.23880.22940.2201我们将该方法与传统方法、基于CNN的方法以及其他嵌入学习方法在FI上进行了比较。我们可以看到，当前流行的深度表示优于手工制作的功能。一般来说，嵌入式学习方法在所有评价指标上都有显着的改进，而不是在表1中列出的NN。1，与通过softmax损失训练的CNN架构相比。这是因为softmax损失只涉及单个数据的位置，而不是度量空间中的整体分布此外，我们比较了我们的方法与其他竞争性和非线性嵌入学习方法以及最先进的算法。为了公平比较，我们还使用ResNet-50架构实现了最先进的[57]。与最先进的技术相比，我们的框架分别在mAP8和mAP2其他评价指标也得到了明显改善。对于其他三个小规模数据集，我们将在FI数据集上训练的模型转移到目标数据集上进行微调。如图所示。4.在小规模数据集上，我们得出了与FI相似的结论，在小规模数据集上，该方法仍然获得了最好的检索结果。这说明我们的框架具有强大的泛化能力。4.6. 参数λ在等式中(10)λ的大小决定了WEP损失和注意力损失之间的相对重要性。λ值越大，WEP损耗越重要。我们在FI数据集上使用两个基本度量mAP8和mAP2来说明λ如何影响FI上的总损失性能。注意，这两个损失不是绝对孤立的，所以我们只关心λ在0.1到0.9范围内的结果。如图5、我们可以通过曲线发现：（1）mAP 8比mAP 2对λ的变化更敏感;（2）当λ= 0. 5，mAP8和mAP2均达到最佳性能。总的这两个度量的值是稳定的，这表明我们的方法是鲁棒的情感图像检索。4.7. 消融研究为了证明所提出的方法中不同成分的贡献，我们通过FI数据集上的消融实验进一步检查每个成分的优势。首先，AT是注意力损失，包括分别在conv3和conv5上的两个softmax损失。如第一部分所示。2、我们的EP损失与softmax和N对损失相比具有明显的优势在所有的标准。mAP8和mAP2的结果表明，EP损失优化的架构提高了检索图像的精度，考虑了情感极性而不是特定情感。可以看出，整合AT和EP损失可以增强除mAP2之外的所有评估标准的性能，因为它们在训练过程中彼此受益。一方面，AT为EP丢失提供了类别特异性线索;另一方面，最后一个卷积层的AT忽略了极性之间的区别，导致mAP 2上的微弱下降，这可以在我们的注意力机制和多级输出中恢复。此外，还进行了实验来验证注意机制的效果，如表2部分所示。2. 与不加任何处理的框架相比，只使用SA的结果在mAP8和mAP2此外，当它们都利用conv3和conv5的特征时，层级注意机制也具有与SA相一致的明显益处。结果表明，不同层次的特征是互补的，从而提高了整体检索性能。为了使不同层次的特征能够有效地相互作用，采用跨层次双线性（CLB）方法对多层次信息进行集成，从而进一步提高特征的识别率。1147查询图像前5名检索图像使用N对损失前5名检索图像使用我们的方法(a)（b）（c）游乐知足敬畏兴奋恐惧悲伤厌恶愤怒图6.FI数据集样本查询图像的前5个结果（a）是来自FI的样本查询图像（b-c）分别是通过N对损失和我们的方法训练的网络的检索结果具有不同颜色的图像帧代表不同的情感。(a)(b)（c）第（1）款图7.从不同层次可视化注意力地图来自FI数据集的图像在列（a）中呈现，并且极性和情绪特异性注意结果的可视化分别在列（b）和列（c）中呈现两个样本图像的类别分别是厌恶和悲伤通过级联直接融合它们，这是对基线的改进。更重要的是，本文提出的自适应加权样本对的方法（即，WEP丢失）有效地提高了整体性能。4.8. 可视化我们显示了从FI数据集检索到的前5个图像。如图6（b）中，通过利用N对损失来嵌入特征来获得结果。对于前两个查询图像，检索到的结果包含几个负面情绪图像，这可能会极大地影响用户体验。所提出的方法的结果如图所示。6（c）.最后两个查询图像都在前5个结果中获得正确反馈。然而，在第一个查询图像的5级结果中有一个失败案例。我们可以看到，虽然失败图像属于满意范畴，但它也给观众的情绪带来了积极的影响我们在图中展示了一些样本的注意力可视化结果。7.极性特异性注意考虑可以代表某种情感倾向的独特颜色或纹理细节。虽然这些区域分散在图像中，但它们携带了重要的信息，有助于图像中涉及的特定情感。在第一张图片中，极性特异性注意区域覆盖了大量的血液。它以厌恶情绪为线索引导，并在一定程度上增强了高水平注意特征。第二幅图中的破旧墙壁受到极性特异性注意力的关注，而包含人的区域在情感特异性注意力图中受到更多关注。因此，极性特异性注意力可以补充情绪特异性注意力的不足。5. 结论提出了一种基于注意力感知的极性敏感嵌入网络用于情感图像检索。极性和情感特定的关注特征被有效地集成。我们提出了一个加权的情感对（WEP）损失，这限制了功能之间和内部的极性分别。然后根据注意力模型的置信度自适应地对样本对进行加权。最后，利用WEP和注意力损失的总损失来优化体系结构。在四个数据集上的大量实验表明，我们的方法优于最先进的方法。确认本工作得到了国家自然科学基金（No.61876094，61701273 ， U1933114 ），天津市自然科学基金（No.18JCYBJC 15400，18ZXZNGX 00110），美国国家模式识别实验室开放项目计划、中央大学基础研究基金和伯克利深度驱动。1148引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[2] Damian Borth ， Rongrong Ji ， Tao Chen ， ThomasBreuel，and Shih-Fu Chang.使用形容词名词对的大规模视觉情感本体和检测器InACM MM，2013.[3] 曼努埃尔湾Calvo和Peter J. Lang.观看情绪化图片时的凝视模式：动机性注意力偏差。动机和情感， 28（3）：221[4] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua.SCA-CNN：图像字幕卷积网络中的空间和通道注意力在CVPR，2016年。[5] Liang-Chieh Chen，Yi Yang，Jiang Wang，Wei Xu，and Alan L.尤尔。注意秤：尺度感知语义图像分割。在CVPR，2016年。[6] Ming Chen，Lu Zhang，and Jan P. Allebach学习图像情感分类的深度特征在ICIP，2015年。[7] Tao Chen，Damian Borth，Trevor Darrell，and Shih-FuChang. DeepSentiBank：使用深度卷积神经网络进行视觉情感概念分类arXiv预印本arXiv：1410.8586，2014年。[8] Tianlang Chen ， Zhongping Zhang ， Quanzeng You ，Chen Fang，Zhaowen Wang，Hailin Jin，and Jiebo Luo.事实或情感：具有自适应学习和注意力的风格化图像字幕在ECCV，2018。[9] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个用于人员再识别的深度四重网络。在CVPR，2017年。[10] Sumit Chopra Raia Hadsell和Yann LeCun。有区别地学习相似性度量，并应用于人脸验证。在CVPR，2005年。[11] Xiao Chu ， Wei Yang ， Wanli Ouyang ， Cheng Ma ，Alan L Yuille，and Xiaogang Wang.人体姿态估计的多上下文注意。arXiv预印本arXiv：1702.07432，2017。[12] 丽贝卡·J·康普顿情绪和注意力之间的界面：对心理学和神经科学证据的回顾。 Behavioral and CognitiveNeuroscience Reviews，2（2）：115[13] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图在CVPR，2005年。[14] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。CVPR，2009。[15] 段跃奇，郑文钊，林旭东，卢吉文，周杰。深度对抗度量学习。在CVPR，2018年。[16] 高岳、王梦、陶大成、季荣荣、戴琼海。基于超图分析的三维物体检索与识别IEEE Transactions on ImageProcessing，21（9）：4290[17] Weifeng Ge ， Weilin Huang ， Dengke Dong ， andMatthew R Scott.深度度量学习与分层三元组丢失。在ECCV，2018。[18] Ben Harwood ，Vijay Kumar BG，Gustavo Carneiro，Ian Reid，and Tom Drummond.深度度量学习的智能挖掘。InICCV，2017.[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[20] Junlin Hu，Jiwen Lu，and Yap-Peng Tan.可共享和个人的多视图度量学习。 IEEE Transactions on PatternAnalysis and Machine Intelligence，40（9）：2281[21] Kaler v oJ a？r v elinandJaanaKe ka？l a？inen.基于累积增益的红外技术评价。ACM信息系统学报，20（4）：422[22] Brendan Jou ， Tao Chen ， Nikolaos Pappas ， MiriamRedi，Mercan Topkara，and Shih-Fu Chang.世界各地的视觉影响：一个大规模的多语言视觉情感ontol- ogy。在ACM MM，2015年。[23] Hye-Rin Kim，Yeong-Seok Kim，Seon Joo Kim，andIn-Kwon Lee.构建情感机器：通过深层神经网络识别图像情感。 IEEE Transactions on Multimedia ， 20（11）：2980[24] Youn

下载后可阅读完整内容，剩余1页未读，立即下载