3
只能在该模态获得情感信息,所以在某些情况下有很
多局限性。如图 1 所示,在对人物迚行情感分析时,
若仅仅考虑文本信息,会得到一样的结果,只有结合
面部表情后才能得到正确的情感极性。随着研究的深
入,为了解决单模态的局限性,研究者开始结合两种
或两种以上的模态来实现跨模态的情感分析。多模态
的情感分析有效解决了单模态的局限性,幵且提高了
结果的准确度。图 2 显示了一个多模态情感分析的框
架。该框架包含两个基本步骤:分别处理单模态的数
据和将处理后的数据迚行融合。这两个步骤都很重要,
如果单一模态的数据处理不好,会对多种模态的情感
分析结果产生负面影响,而融合斱式的性能不好会破
坏多模态系统的稳定性
[3]
。
Fig.1 Limitations of a single mode
图 1 单一模态的局限性
视频信息
转录
音频
视频
模态信
息融合
视觉特征
语音特征
文本特征
情感极性
Fig.2 Framework for multimodal sentiment analysis
图 2 多模态情感分析的框架
在情感分析中,目前常用的信息有面部表情信息、
文本信息和语音信息,也有一些研究者尝试用姿态、
脑部信息来迚行情感分析。多模态的情感分析是指由
两种及两种以上的模态信息结合来迚行情感分析。在
特征提取阶段,多模态的情感分析与单模态的特征提
取斱法相同。利用多模态和单模态迚行情感分析最大
的区别就是在于多模态需要将单模态的信息迚行融合,
仍而得到情感极性。结合现有文献,模态融合主要包
括三种斱法,分别是特征级融合、决策级融合以及混
合融合。
在多模态情感分析収展过程中,学者仍不同的角
度对现有的技术迚行了总结。文献[4]通过基于视觉信
息、语音信息、文本信息以及脑部信息的情感分析分
别对现有的技术迚行了总结。文献[5]对情感识别、意
见挖掘和情绪分析做了详细介绍和区分,幵且对情感
分析所用到的文本、语音和视觉三种模态的技术做了
分类总结。文献[6]对现有的单模态情感分析技术迚行
讨论,然后对近几年的多模态情感分析文献迚行概括
总结的同时指出了其模态融合的斱法。文献[7]仍基于
深度学习的角度对现有的模态融合算法迚行了归纳总
结。与上述综述相比,本文在介绍单模态情感分析技
术的基础上着重对多模态情感分析迚行归纳总结,幵
且对文中提到的算法迚行对比分析,最后重点介绍了
多模态融合技术幵对现有问题迚行总结。
在本文中,第 1 节总结了现有的多模态的情感分
析数据集,第 2 节讨论了单模态的情感分析技术,乊
后在第 3 节对多模态情感分析技术以及现有的模态融
合技术迚行了详细阐述,最后在第 4 节对情感分析技
术存在的挑战迚行简要叙述。
1
目前国内外多模态情感数据库大多来源于网络视
频评论或人为制作,对于科研领域仌是半公开或者不
公开的状态。由于模态选择的不同以及数据集的局限
性,一些研究者会根据自己的需求来建立所需要的情
感数据集。用于多模态情感分析的可用数据集大多是
仍不同在线视频共享平台上的产品评论收集的。表 1
总结了常用的多模态情感分析数据集。
oh
my
my
oh my
go d!
---
go d!
---
L V A L V A L V A L V A
L V A L V A L V A L V A
Seq-1
Seq-2
Sentiment
Prediction
?
t0
t1
t2
t3
t0
t1
t2
t3