![](https://csdnimg.cn/release/download_crawler_static/87192089/bg3.jpg)
签空间增加损失不等式正则化,从而 MicroNet 收敛。Zhang 等
[15]
的工作中提出
深度互学习属于迁移学习中的一种,相比迁移学习的其他方法,深度互学习方法
在不借助跨域数据集的情况下,能够有效地缓解网络过拟合的情况并且网络之
间可以互相学习新的知识,进而有效提高网络的性能。本文首次将互学习策略
融 入 微 表 情 识 别 任 务 中 , 提 出 基 于 双 流 时 间 域 信 息 交 互 的 卷 积 网 络
(DSTICNN32 和 DSTICNN64)微表情识别。本文方法适用于不同的主干网
络,并且本文方法训练的网络除了在精度上具有优势以外,同时在鲁棒性上也具
有很大的优势
[14]
。通过常规的标签监督损失、不同时间尺度的 JS 散度(Jensen
Shannon divergence)损失以及均方差损失使得不同时间尺度的网络之间通过
不断进行信息交互分享学习经验,提高判别性能。此外,由于互学习机制增强了
各模态分 支 的判别能 力 ,测试 阶段只需 要 将 32 帧或者 64 帧 微表情序 列 输入
DSTICNN32 和 DSTICNN64 网络即可完成识别(即测试时使用单流网络)。
1 双 流时 间域信 息交互 的微 表情识 别
1.1 网络 结 构
本文对微表情序列进行处理,构建了 DSTICNN32 和 DSTICNN64 网络分别
对 32 帧和 64 帧微表情序列进行识别。由于时序特征对于微表情识别任务是至
关 重 要 的 ,本 文 DSTICNN 采 取 3D 卷 积 网 络 作 为 主 干 网 络 ,卷 积 核 的 尺 寸 为
W×H×I, W 和 H 为图像的长、宽尺度, I 为图像序列的时间尺度。Tran 等
[16]
提
出的 C3D 网络中指出维度为 3×3×3 的卷积核可以带来最好的效果。因此,本文
中的网络也采用了同等维度的卷积核应用在主干网络中。网络一共有 5 层,4 层
卷积层加上 1 层全连 接 层 ,4 层 网络的卷积核数量分别为 16、32、64 和 128。
DSTICNN32 和 DSTICNN64 的区别在于第一层卷积核的尺寸,前者为 3×3×4,
后者为 3×3×8,最终使得后面两流的特征图像维度保持一致。具体的 DSTICNN
网络结构如表 1 所示,Ss 代表卷积核的空间步长,Ts 代表卷积核的时间步长。
表 1 DSTICNN 网络结构
Table 1 Network structure of DSTICNN