CNN融合神经网络模块

53 浏览量更新于2023-10-20 收藏 921KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13289MMTM：用于CNN融合的Hamid Reza Vaezi Joze为微软工作hava@microsoft.comAmirreza Shaban扎哈佐治亚理工学院amirreza@gatech.eduMichael L.Iuzzolino† CU博尔德michael. colorado.edu小石田一人微软kazukoi@microsoft.com摘要在后期融合中，每个模态在单独的单峰卷积神经网络（CNN）流中处理，并且每个模态的分数在最后融合。由于其简单性，后期融合仍然是许多最先进的多模式应用中的主要方法。在这篇文章中，我们提出了一个简单的神经网络模块，用于在卷积神经网络中杠杆化来自多个模态的知识。该单位被命名为多-模式#1（一）模式#2模式#1（b）第（1）款模式#2模式#1（c）第（1）款模式#2模态转换模块（MMTM）可以被添加到特征层次结构的不同级别，从而实现缓慢的模态融合。使用挤压和激励操作，MMTM利用多种模态的知识来重新校准每个CNN流中的通道特征。与其他中间融合方法不同，所提出的模块可以用于具有不同空间维度的卷积层中的特征模态融合。所提出的方法的另一个优点是，它可以添加到单峰分支之间，其网络架构的变化最小，允许每个分支使用现有的预训练权重进行初始化。实验结果表明，我们的框架提高了知名的多模态网络的识别精度。我们在四个数据集上展示了最先进的或有竞争力的性能，这些数据集跨越了动态手势识别，语音增强和RGB和身体关节动作识别的任务领域1. 介绍不同的传感器可以提供关于相同背景的互补信息。多模式融合是从不同模态中提取和组合相关信息的行为，其导致比仅使用一种模态更好该技术广泛应用于各种机器学习任务，如视频分类[1，2]，动作识别[3]，情感识别[4]。[4，5]和视听语音增强[6，7]。*同等缴款。†在微软实习期间完成的工作。图1.（a）早期融合（b）晚期融合（c）中期融合Multimodal Transfer Module（MMTM）MMTM在CNN流之间操作，并使用来自不同模态的信息来重新校准每个模态中的通道特征。一般而言，融合可以在输入级（即早期融合）、决策级（即，后期融合）或中期融合[8]。虽然神经科学[9，10]和机器学习[1，3]的研究表明，中级特征融合可能有益于学习，但后期融合仍然是用于多模态学习的主要方法[11这主要是由于实际原因。例如，可以使用简单的池运算符[14，15]或注意力机制[16]来融合每个流的一维预测分数然而，不同模态的中间水平特征后期融合流行的另一个原因是每个单峰流的架构经过多年的精心设计，以实现每种模态的最先进性能。这也使得多模态框架的CNN流能够通过已经用大量单峰训练样本预训练的权重来初始化。然而，中间融合需要对基本网络架构进行重大更改，这使得在大多数情况下使用预训练权重变得复杂，并且需要从随机初始化状态重新训练网络[17，18]。图1示出了三种常见的多模态融合技术。所提出的方法的目标是克服中间融合的上述问题。受单峰卷积神经网络的挤压和激励（SE）模块[19]的启发，我们提出了一个多模态传输模块来重新校准通道方式的fea。网#1网#1层层层层层层层层层层+网#1网#1层层层MMTM层层MMTM层层MMTM层层层++层层层层层净13290不同的CNN流。MMTMs可插入任何晚期融合骨干结构的中间节段。每个MMTM有两个单元：a）多模态挤压单元，其在跨分支的给定表示级别处从所有模态接收特征，生成这些特征的全局联合表示，以及b）激励单元，其使用该联合表示来在所有模态中自适应地强调更重要的特征并抑制不太重要的特征挤压单元聚集空间维度，允许在全局表示中使用来自所有模态的具有全局感受野的信息。它还使得能够从具有不同空间维度的模态虽然模块设计是通用的，并且可以潜在地添加到网络层次结构中的任何级别，但是模块的最佳位置和数量对于每个应用是不同的。我们设计的应用程序特定的网络手势识别，视听语音增强，动作识别任务，并研究在其架构中添加MMTM的好处我们从这些应用中得出以下初步观察结果首先，将MMTM添加到中级和高级特征是有益的，而对于低级特征则不是如此。我们认为，这是因为低层次特征的模态间相关性低于中级和高级特征。这一点在以前的研究中也得到了强调[20]。其次，即使在手势识别中，RGB和深度模态在空间上对齐，并且可以在没有挤压操作的情况下进行融合，挤压通过提供具有全局感受野的信息来显著提高性能。最后，通过门控操作的激励优于通常用于残差学习的求和操作，突出了强调和抑制机制。总之，本文做出了以下贡献：首先，我们提出了一个新的神经网络模块，称为MMTM融合知识的单峰CNN的中间特征。其次，我们为三种不同的多模态融合应用设计了不同的网络架构：使用多种视觉模态的手势识别、视听语音增强以及使用RGB和身体关节的动作识别。我们证明，通过这些任务上的实验，MMTM提高了性能超越后期融合的方法。2. 相关工作在后期融合中，每个单峰流的预测被融合以做出最终的预测。融合可以通过逐元素求和、加权平均[15]、双线性乘积[21]或更复杂的秩最小化[22]方法。后期融合的另一种方法利用注意力来为每个输入信号挑选最佳专家[16]。门控多模态单元[23]通过以下方式扩展了该方法：从而能够在中间特征级进行选通。最近，Huet al. [24]提出了一种用于分层联合特征学习的密集多模态中间融合网络。与[23]类似，[24]中的密集融合算子假设不同流的空间维度相同。尽管这些方法与我们的工作相似，但它们的适用性仅限于多模态特征的空间维度相同的层，或者在空间维度已经聚合的网络的最末端。在这项工作中提出的挤压操作允许融合的模态与不同的空间维度在任何级别的功能层次结构。在一个相关的多模态学习主题中，称为跨模态学习，来自多个模态的信息被用来提高任何单个模态内的学习性能。假设在训练期间存在来自所有模态的数据，但仅在一种模态上测试性能[25]。MTUT [12]使用时空语义对齐损失来提高手势识别中每个流我们相信跨模态学习方法与我们的工作是正交的，因为通过这些方法学习的改进的单峰网络可以初始化我们模型中CNN流的权重。视频[1，14，26]和骨架[11，27，28]模态中的多模态动作识别这些方法中的每一种都有其自身的缺点。由于缺乏明确的人体模型，基于视频的动作识别方法对背景杂波和非动作运动处理得很差[11]。另一方面，通过仅依赖于身体姿势，视频中存在的大部分上下文和全局线索将丢失。最近的方法开发架构融合这些模态，以进一步提高性能的动作识别。在[28]中，提出了一种用于联合姿态估计和动作识别的端到端可训练多任务网络。PoseMap [11]利用双流网络分别处理时空姿态热图和在[29]中采用了在模态和时间方向上分别汇集输入特征的双线性汇集块。视听语音增强（AVSE）AVSE中的工作受到鸡尾酒会效应的强烈激励，鸡尾酒会效应是指人类神经科学的实验已经证明，视听信号的跨模态整合可以改善目标声学信号的听觉质量[30受生物学研究结果的启发，最近的研究集中在用视觉信息（如嘴唇运动）增强纯音频语音增强方法。使用深度神经网络的最新AVSE模型已经实现了最先进的结果[6，7，33，34]。AV融合的主要方法是晚期融合[13]，13291′其中音频和视频信息被分开处理，然后通过逐通道级联在奇点处被积分。手势识别通过机器学习算法解释手势在人机交互中非常重要。我们回顾了基于3D卷积神经网络的手势识别算法[35-N2N1A$*A**（挤压+挤压N2A）、1- （. ）的方式$EA$$'E（在其他分支中排列数据[40在[35]中，提出了一种新的3D CNN，用于集成深度和图像梯度值以识别动态手势。Molchanov等人[36]采用多流3D CNN来融合来自多个传感器的数据流，包括短程雷达，M2M1（$′-（.）的方式M2M1$′颜色和深度传感器进行识别。在[37]中提出了一种实时方法，用于同时检测和分类视频中的手势。Camgoz等人[38]提出了一种后期融合方法，用于融合单峰3DCNN流的分数。Miao等人提出ResC3D [39]，这是一种3D CNN架构，它使用注意力模型组合多模态数据。MFFs [44]开发了一种用于RGB和光流的数据级融合方法。FOANet [45]提出了一种用于手势识别的稀疏融合技术。FOANet分解每个输入模态（RGB、深度和2种类型光流）到单独的聚焦通道（全局，右左手），并在独立的单峰网络中处理这12个聚焦最后，它学习一个稀疏连接的后期融合网络，以避免过拟合。与我们的方法不同，FOANet依赖于检测器的输出来找到视频中的焦点区域。挤压和激励（SE）网络[19]我们提出的图2.两种模态的MMTM架构A和B表示两个单峰CNN的给定层的特征，是模块的输入为了更好的可视化，我们将其空间维度的数量限制为2。MMTM使用挤压操作从每个张量生成全局特征描述符通过使用连接和全连接层将两个张量映射到联合表示Z激励信号EA和EB是使用联合表示生成的。最后，激励信号用于门控每个模态中的通道特征。挤压卷积层输出特征中的信息受到其感受野大小的限制，并且缺乏全局上下文。如[19]所建议的，我们首先通过输入特征的空间维度上的全局平均池化将空间信息挤压到信道描述符中方法可以被看作是对SE模块的概括这是针对单峰深度神经网络提出的。的1SA（c）=QKΣA（n1，. - 是的- 是的，nK，c）（1）SE模块使用自激励自适应重新校准i=1Nin1，...，nK通道特征响应。我们的工作采用SE多模态特征重新校准模块。1SB（c）=QLΣB（m1，. - 是的- 是的，mL，c）.（二）3. 多模式传输模块在本节中，我们讨论两个不相交的CNN流CNN1和 CNN2 之间融合的最简单情况。设A∈RN1×···×NK×C ， B∈RM1×···×ML×C′表示 CNN 1 和CNN 2的给定层处的特征。这里，Ni和Mi表示空间维度。其中，C和C′表示通道数，CNN1和CNN2中的相应特征。MMTM接收特征A和B作为输入，从它们学习全局多模态嵌入，并使用该嵌入来重新校准输入特征。这在下面描述的两步多模态挤压和激发过程中完成。1一般来说，可以有两个以上（例如，3D卷积中的时间维度可以被视为空间维度）或不被视为空间维度（例如，完全连接的层）空间维度。i=1 Mim1，.，ML重要的是，挤压操作使得能够在具有任意空间维度的特征的模态之间进行融合。请注意，虽然我们使用简单的平均池，但在此步骤中可以使用更复杂的池方法。多模态激励该单元的功能是生成激励信号EA∈RC和EB∈RC，该激励信号可用于重新校准输入特征A和B、通过简单的选通机制：A<$=2×σ（EA）<$AB<$=2×σ（EB）<$B，其中σ（. ）是S形函数，而λ是信道乘积运算。这使N13292得抑制或在每个流中激发不同的滤波器。注意规则化MMTM权重，以便将EA和EB的接近度控制为零。具体而言，增加13293EA的正则化权重推动选通信号2×σ（EA）更接近单位向量，限制了选通对特征A的影响。门控信号必须基于相同的输入表示对不同的模态我们通过首先从压缩信号预测联合表示Z∈RCZ来实现这一点Z=W[SA，SB]+b，（3）骨干网络的内核被扩展到3D中，使得能够进行有效的空间-时间特征处理。我们在最后6个初始模块之后应用MMTM（连接性类似于图1）。请注意，3D卷积的输出除了高度、宽度和通道维度外，还具有时间维度我们的经验发现，最好的性能时，挤压操作是applied在所有的尺寸，除了通道尺寸。然后通过两个独立的全连接层唇框混合波形增强波形EA=WAZ+bA，EB=WBZ+bB。（四）这里，[·，·]表示级联运算，W∈幅度混合幅度增强幅度RCZ×（C+C′），W∈RC×CZ，WB∈RC′×CZ 是′权，且b∈RCZ，bA∈RC，bB∈RC是偏见完全连接的层。如[19]所述，我们使用CZ=（C+C′）/4来限制模型容量并提高泛化能力。为了融合两个以上的模态，我们简单地通过连接来自等式3中的所有模态的压缩特征来概括这种方法，并预测具有独立的完全连接层的每个模态的激励信号，如等式4所示。以这种方式学习联合表示允许一个模态的特征重新校准另一模态的特征。例如，在手势识别中，当手势在RGB相机中模糊并且在深度模态中更明显时图2总结了所提出的MMTM的整体架构。4. 应用MMTM是通用的，可以很容易地集成到任何多模态CNN架构。在本节中，我们将探讨一些可以从MMTM中受益的应用程序，并描述支持多模态融合所需的架构更改我们在实验部分评估了所提出的多模态模型的性能。4.1. 手势识别手势识别是一个视频分类任务。它示出了互补的感觉信息，如深度和光流，提高了手势识别的性能[12，37，41，44]。有多个多-可用于此任务的timodal数据集[37，41，46，47]和几种先前的融合方法已经报告了它们在这些数据集上的结果[36我们设计了一个手势识别网络，通过MMTM融合RGB，深度和光流视频流。为了处理时间输入，我们使用I3 D网络架构[48]，其中所有流都具有膨胀的inception-v1 [49]主干在I3D网络中，卷积和池化图3.概述我们的AVSE架构。4.2. 视听语音增强用于AV语音增强的主要方法使用后期融合方法经由通道级级联（CWC）来组合音频和视觉信号。作为MMTM的一个应用，我们探索了使用MMTM代替基于CWC的后期融合的语音增强任务的AV融合模型细节如下所示，我们的AVSE架构的概述可以在图3中找到。我们使用[50]提出的时空残差网络，它由3D时空卷积和2D ResNet-18 [51]组成。在2D卷积操作中处理3D特征是通过将时间维度t打包到批量维度中来实现的。网络随机初始化，并与AVSE任务同时训练。音频网络我们的音频网络是一个具有跳过连接的自动编码器;我们遵循[52]中详细介绍的设计图3（顶部）描述了音频处理策略，该策略遵循[6]的音频处理过程，并在第5.2节中详细描述。该网络以log-mel混合幅度谱图log-mel（Xmix）作为输入，并输出预测的理想比率掩模M。增强的幅度频谱图Xenh通过Xenh=M<$Xmix获得，其中<$表示逐元素乘法。通过最小化重建损失来训练网络，增强的幅度Xenh和目标幅度，对数梅尔掩码预测编码器ResBlock解码器σResBlock瓶颈ResBlockiSTFT相STFTResBlockResBlockResBlockResBlockResNet-18视觉流时空3D转换MMTMMMTMSkipskip跳过一上采样/Conv 2D上采样/Conv 2D上采样/Conv 2D上采样/Conv 2D13294一一vvXspec，其中Xspec通过短时傅立叶变换（STFT）从目标波形获得优化目标由L=||X增强− X规格||1 .一、令Fj 表示自动编码器的层j处的音频特征，其中Fj∈Rb×t×f×ca，其中b、t、f和ca是批次、时间、频率，和音频通道尺寸。设Fi表示视觉网络的ResNet-18的第i层的视觉特征I3D网络HCN网络其中Fi ∈Rb·t×h×w×cv，其中h，w为空间维数，sions和b、t、cv是批处理、时间和可视通道尺寸，分别。我们从批处理中取出t通过整形使Fi ∈ Rb×t×h×w×cv.vv图4.建议的多模式架构的行动承认，MMTM将Fa和Fv作为输入，并执行融合手术详见第3节。对于AVSE，最终输出来自音频塔;因此，MMTM不会在视觉网络上进行选通。4.3. 人体动作识别人类活动识别中的最新方法结合了视频和3D姿态信息，以进一步提高动作识别的性能[11，28，29]。按照同样的方法，我们利用MMTM之间的视觉和骨架的网络中间融合。与手势识别应用程序类似，我们使用I3D用于RGB视频流，并使用HCN（如[53]所建议的那样）用于骨架流。虽然HCN不是基于动作识别的最先进的方法，但其设计的简单性使其适合我们的方法。如图4所示，HCN由两个2D卷积子网络组成：一个分支处理原始骨架数据，另一个分支处理运动这两个子网络通过通道级连接融合，然后进行两个卷积运算（conv5和conv6），最后是全连接层（fc 7）。图4展示了我们提出的完整网络我们添加了3个MMTM，它们接收来自I3D的最后三个初始模块以及HCN 网络的 conv5 、 conv6 和 fc 7 的输入。设A∈Rt×w×h×C表示I3D特征，其中t表示时间维，w，h表示空间维. 设B∈Rt×n×C′表示conv5和conv6层后的HCN特征，其中t为时间维数，n为人体关节维数。HCN网络全连通层（fc7）的输出是一个一维矢量，没有空间维数。在MMTMs中，我们聚合了输入A和B的所有维度，除了通道。发送到MMTM（A和B）的I3D和HCN特征的尺寸不匹配，但MMTM5. 实验结果在本节中，我们评估了所提出的方法在手势识别、语音增强、第每个“Inc.”块表示[48]中描述的初始模块。和动作识别任务。由于大量的实验，我们使用一个简单的规则来决定每个架构中的MMTM的数量，而无需广泛的架构调整方案。我们在网络的后半部分的每个模块之后使用MMTMs，深度最小。这是6个用于手势识别实验的MMTM，2个用于语音增强，3个用于动作识别实验。关于手势识别任务中MMTM数量的研究，请参见第5.45.1. 手势识别在本节中，我们评估我们的方法对国家的最先进的动态手势方法。我们在两个最近公开的多模态动态手势数据集上进行实验：自我手势[41，46]和NVGes-tures [37]数据集。图5（a）、（b）显示了来自这些数据集的不同模态的样本帧。实施详情：在我们的方法的设计中，我们采用I3D网络的架构[48]作为每种模态的骨干网络。体系结构的详细信息可以在第4.1节中找到。我们从公开可用的ImageNet [56] + Kinetics [57]预训练网络开始，用于我们在I3D上的所有实验我们使用动量，使用标准SGD优化器优化目标函数的0。9 .第九条。我们从10−2的基本学习率开始，当损失饱和时，将其降低10倍在训练阶段，我们使用包含64帧（对于EgoGesture为32帧）片段的批量大小为4 我们使用以下空间以及在训练阶段期间的时间数据扩充。对于空间增强，视频被调整为256×256像素，然后随机裁剪为224×224补丁。生成的视频随机水平翻转为时间增强，从视频中随机选取64个连续帧。较短的视频在两侧进行零填充以获得64帧。在测试过程中，我们使用224×224中心裁剪，将模型应用于整个视频，并对预测进行平均。Max-Pool平均池平均池平均池+Diff.FC8Conv1Conv1Conv2Conv2Perm.Perm.Conv3Conv3Conv4Conv4Conv1x1x1SoftMaxMMTMMMTMMMTMFC7Conv6康卡特Conv5Conv7x7x7Conv1x1x1Inc.Conv3x3x3Inc.Inc.Inc.Inc.13295（a）（b）（c）（d）图5.来自多模态数据集的样本序列：（a）EgoGesture [41]（b）NVGesture [37]（c）VoxCeleb 2 [54]（d）NTU-RGBD [55]方法输入模态精度方法输入模态精度I3D [48]RGB90.33I3D [48]RGB78.42I3D [48]深度89.47I3D [48]选购配件流83.19VGG 16 [58]RGB+深度66.5I3D [48]深度82.28VGG16 + LSTM [59]RGB+深度81.4HOG+ HOG 2 [64]RGB+深度36.9C3D [60]RGB+深度89.7I3D晚期融合[48]RGB+深度84.43C3D+LSTM+RSTTM [41]RGB+深度92.2我们RGB+深度86.31I3D晚期融合[48]RGB+深度92.78两个流CNN [14]RGB+可选流65.6我们RGB+深度93.51iDT [62]RGB+可选流73.4表1.不同多模态融合手势方法在EgoGesture数据集上的准确性[41]。5.1.1自我手势数据集EgoGesture数据集[41，46]是为自我中心手势识别任务收集的大型多模态手势数据集。该数据集包含24161个手势片段，其中83个手势类由50个子动作执行。此数据集中的视频包括使用英特尔实感SR 300设备在多个室内/室外场景中以RGB-D模式捕获的静态和我们评估我们的方法的性能与各种手势识别方法出版。表1比较了I3D在单独模态上的单峰测试精度和通过RGB和深度融合的不同手势方法的测试精度VGG16[58]独立处理每个帧，VGG16+LSTM [59]将这种方法与递归架构相结合，以利用时间信息。可以看出，基于3D CNN的方法C3D [60]，C3D+LSTM+RSTMM [41]和I3D [48]优于基于VGG16的方法。然而，在3D CNN架构中，我们的方法比表现最好的I3D后期融合的性能高出0。百分之七十三5.1.2NVGesture数据集NVGestures数据集[37]是用多个传感器捕获的，用于研究人机界面。它包含了1532个动态手势记录从20个主题在一边的汽车模拟器与人工照明条件。该数据集包括25类手势。用SoftKinetic DS 325设备作为RGB-D传感器和DUO-3D用于红外流来记录手势。此外，通常使用光流和红外视差图模态来增强预测结果。根据以前的工作[37，44]，我们在实验中仅使用RGB，深度和光流模态光流R3DCNN [37] RGB+Opt.流量79.3MFF [44]RGB+可选流84.7I3D晚期融合[48]RGB+可选流84.43我们RGB+可选流84.85R3DCNN [37]RGB+深度+光学流83.8I3D晚期融合[48]RGB+深度+光学流85.68我们RGB+深度+光学流86.93人类[37]88.4表2. NVGesture数据集上不同多模态融合手势方法的准确性[37]。使用[61]中提出的方法计算。RGB和光流模态在该数据集中对齐良好，然而，深度图包括更大的视场。表2给出了我们的方法与最新技术水平方法的比较结果：HOG+ HOG 2、改进的密集轨迹（iDT）[62]、R3DCNN [37]、双流CNN [14]和MFF [44]。我们还报告了人类标记的准确性进行比较。iDT [62]方法通常被认为是具有手工设计特征的最佳执行方法[63]。与之前的实验类似，我们观察到基于3D-CNN的方法优于其他手势识别方法，其中，我们的方法在所有模态中提供了最佳性能。FOANet [45]方法使用稀疏融合方法在该数据集上实现了91.28%。然而，该结果与表2中的方法不可比较，因为FOANet依赖于单独的预训练网络来检测手。5.2. 视听语音增强在本节中，我们评估我们的MMTM方法在视听语音增强。使用PESQ和STOI客观措施，我们证明了我们的慢融合MMTM方法优于最先进的后期融合，通道级级联AVSE方法。我们使用Vox-Celeb 2[54]，这是一个从YouTube获得的大型视听数据集，包含6，112位名人的超过100万条话语。训练、验证和测试数据集按名人ID（CID）划分，使得这些集不相交深度RGB的深度RGB声音RGB骨架RGB13296方法融合方法PESQSTOI目标-4.641.000混合-2.190.900AVSE [6]†化武公约2.590.650AO基线-2.430.930AV基线化武公约2.670.938我们MMTM2.730.941表3. VoxCeleb2数据集[54]上3个同时说话者的语音增强评估。CWC：逐行级联。†仅供参考而不是CID此外，CHiME-1/3 [65，66]，NonStation-aryNoise [67]，ESC 50 [68]，HuCorpus [69]和私人数据集用于加性噪声。视频帧以25FPS和S3FD [70]的速度提取，执行人脸检测.在[50]之后，我们通过从面部对齐网络[71]获得的面部标志裁剪嘴部区域来丢弃冗余的视觉信息。唇框被调整为122×122，转换为灰度，然后使用来自训练集的全局均值和方差统计进行音频波-按照[6，72]的方法从视频中提取形式。我们指定窗口长度为40 ms，跳数为10 ms，采样率为16 kHz，以将一个视频帧与四个音频步长对齐。短时傅里叶变换使用汉宁窗函数将波形转换为频谱图，Xspec∈RT×F，频率分辨率为F=321，表示0−8kHz的频率批量大小为4的训练样本在运行中生成为唇帧和频谱图对（Xvid，Xspec）。从Vox-Celeb 2集合中采样干涉光谱图X_inter。我们在训练过程中逐渐增加干扰扬声器的数量，从一个开始，每50个epoch增加一个，直到我们达到最多四个。噪声频谱图，Xn，是随机抽样，从噪声数据集。通过Xmix=Xspec+αXinter+βXn构建混合频谱图，其中α，β是实现特定SNR的混合系数。训练和测试SNR的采样范围为0- 20 dB和2.5- 2.5dB。17.5dB的范围，分别。将Xmix变换为log-mel表示，logXmel∈RT×F，其中T=116且F=80。我们通过随机裁剪（±5像素）和左右翻转来增强嘴唇帧，Xvid增强帧的大小调整为112×112，并输入视觉网络。客观评价结果见表3。我们使用语音质量感知质量（PESQ）[73]和短时客观不清晰度（STOI）[74]评估增强语音。在没有视觉网络的情况下训练仅音频（AO）模型，并建立AO语音增强基线。AV基线模型为主要AVSE方法建立了基线，该方法通过AV特征的CWC进行晚期融合。我们将AV基线模型架构中的融合机制与[6]中的融合机制紧密对齐，并且我们将样本生成与[ 6]中的表4.NTU-RGBD数据集上不同多模态融合动作识别方法的准确性[55]。在现有信息的情况下，我们将尽可能地采取行动和培训程序。我们报告[6]仅供参考我们的AVSE模型在PESQ和STOI两个客观指标上都优于AO和AV基线。我们的表现优于AO基线0.3 PESQ和0.01 STOI，表明视觉信息提高了语音增强性能。此外，我们的性能优于AV基线CWC融合0.06 PESQ，表明通过缓慢融合的MMTM提供了最大的性能改善。我们的模型可以推广到训练过程中看不见的说话者，因为CID在训练集/测试集之间是不相交的。5.3. 动作识别NTU-RGBD数据集[55]是一个众所周知的大规模多模态数据集。它包含了从40名受试者在80个视点执行60类活动中捕获的56，880个每个动作剪辑包括RGB视频上的最多两个人以及3D坐标空间上的25个身体关节。我们遵循跨学科评估[55]，将40个受试者分为训练集和测试集。为了与以前的作品进行公平的比较，我们只使用RGB和姿势（骨架）模态。体系结构的详细信息可以在第4.3节中找到。我们遵循第5.1节进行训练设置以及RGB数据准备和增强。表5显示了我们的方法与NTU-RGBD数据集上最近最先进方法的比较结果。表格的第一部分显示了我们的单峰基线，其中RGB上的I3D和骨架上的HCN [53]。我们使用3D骨架并遵循32帧子采样方法从原始文件。为了简单起见-的机制，我们实现了多人缓慢融合方法[53]。因此，我们报告的HCN准确度低于[53]中的结果第二部分展示了通过整合RGB和骨架专门为动作识别设计的最先进的方法。我们提出的融合方法优于所有最近的动作识别算法。据我们所知，这是NTU-RGBD数据集上RGB+Pose的最新结果[55]。接下来，我们使用[17]最近发布的代码来在该数据集上组合几种通用多模态融合算法。我们在这个框架内实现和训练所提出的方法。有一套一模一样方法输入模态精度HCN我们的构成77.96I3D [48]RGB89.25[75]第七十五话RGB+姿势74.86双线性学习[29]RGB+姿势83.02D/3D多任务[28]RGB+姿势85.5[第11话]RGB+姿势91.71晚期融合（I3D + HCN，我们）RGB+姿势91.56我们RGB+姿势91.9913297与其他方法相比，我们使用膨胀的Resnet-50 [76]进行视频处理，并在此框架中提供HCN [53]表4示出了这些单峰网络以及不同的最先进的多峰融合方法的性能。MFAS [17]是一种架构搜索算法，它利用顺序架构探索方法来找到最佳融合架构。除了双流CNN [14]，这是一种后期融合算法，我们还报告了两种中间融合算法门控多模态单元（GMU）[23]和CentralNet [18]的结果我们的方法优于最先进的MFAS方法，而无需对该数据集进行广泛的模型搜索。我们相信，通过全面的架构调优可以进一步提高性能方法输入模式准确度[53]第五十三话Infalated Resnet-50 [76] RGB 83.91两条溪流[14]RGB+姿势88.60GMU [23]RGB+姿势85.80[第18话]RGB+姿势89.36MFAS [17]RGB+姿势90.04我们RGB+姿势90.11表5. NTU-RGBD数据集上最先进的多模态融合算法的比较[55]。所有方法都使用HCN和Infalated Resnet-50骨干单峰架构。5.4. 网络分析为了了解我们的一些模型选择的影响，我们探索了我们的模型在NVGesture数据集上的一些变化的性能[37]。特别是，我们比较我们的融合方法与不同的架构中的传输层。当所有实现细节与第5.1.2节中描述的RGB+深度手势识别网络相同时，我们还探索使用不同数量的传输层。由于空间维度在这个问题中是对齐的，我们可以直接连接卷积特征，而不会在MMTM中挤压它们为了在整个模块中保持这些特征的空间维度，我们还需要将MMTM中的所有全连接层更改为内核大小为1的卷积层。这确保了参数的数量保持不变。我们将这种方法称为卷积MMTM。此外，我们还使用卷积MMTM的变体，求和操作而不是选通操作。该方法与残差学习密切相关[51]，并且已被提出用于具有对齐空间维度的多模态融合[77]。最后，我们评估了原始挤压和激励（SE）方法的性能，其中每个单峰流使用自激励来重新校准自己的通道功能。这些单峰的分数方法精度触发次数#参数早期融合78.84247海里12个。3米后期融合84.43405米二十四岁6M对流MMTM84.43二十五24G31岁6M对流MMTM（带求和操作）84.65二十五24G31岁6MSE [19] +晚期融合85.06小行星47231岁6MMMTM86.31小行星47231岁6M表6. NVGesture数据集上不同MMTM架构的比较。网络在最后通过后期融合来融合。表6比较了这些变化的准确性，以及它们的FLOPS和参数数量与后期融合和MMTM。令人惊讶的是，卷积MMTM变化并没有显示出比后期融合方法有任何明显的改进这一结果突出了在挤压单元中利用全局感受野信息提取信息的重要性我们还注意到，不使用挤压块会使FLOPS的数量增加约5倍。最后，没有中间融合的自激励方法的结果清楚地表明，MMTM中的大部分性能增益是由于模态的缓慢融合，而不是纯粹的挤压和激励方法。正如我们在4.1节中提到的，我们在最后6个初始模块之后使用MMTM。在最后一项研究中，我们评估了RGB+深度手势识别网络的性能，MMTM应用于不同数量的初始模块。图6显示了性能如何随MMTM的数量而变化。实验结果表明，当最后一个起始模块中的一半（12个中的6个）的输出被MMTM融合时，性能达到最佳。这表明，中级和高级功能比低级功能从这种方法中受益更多86.585.584.51 6 12图6.精度与NVGesture数据集上的#MMTM。6. 结论我们提出了一个简单的神经网络融合模块，用于利用卷积神经网络中多模态的知识。所提出的模块可以添加在不同级别的功能层次结构，允许缓慢的模态融合。在不同模态的应用上进行的大量实验表明，该模块在手势识别、语音增强和人体动作识别等方面都具有很好的应用前景。MMTM后期融合13298引用[1] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模CVPR，2014。一、二[2] Xiaodong Yang，Pavlo Molchanov，and Jan Kautz.用于视频分类的深度神经网络的多层和多模态融合。2016年在多媒体国际会议上1[3] Andrew Owens和Alexei A Efros。具有自我监督多感官特征的视听场景分析。在ECCV，2018。1[4] Yelin Kim，Honglak Lee和Emily Mower Provost。深度学习用于视听情感识别中的鲁棒特征生成载于ICASSP，2013年。1[5] 刘伟，郑伟龙，卢宝良。使用多模态深度学习的情感识别。在NIPS，2016年。1[6] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man.对话内容：深度视听语音增强。arXiv预印本arXiv：1804.04121，2018。一、二、四、七[7] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上聆听：一种用于语音分离的与说话人无关的视听模型。arXiv预印本arXiv：1804.03619，2018。一、二[8] Dhanesh Ramachandram和Graham W Taylor.深度多模态学习：最新进展和趋势综述IEEE信号处理杂志，2017年。1[9] 查尔斯·施罗德和约翰·福克斯。多感觉对低水平单一感觉加工的贡献。神经生物学的最新观点，2005。1[10] 埃米利亚诺·马卡鲁索感觉特定皮质区的多感觉处理。神经科学家，2006年。1[11] Mengyuan Liu和Junsong Yuan。将人类动作识别为姿态估计图的演变。在CVPR，2018年。一、二、五、七[12] Mahdi Abavisani，Hamid Reza Vaezi Joze，and Vishal MPa- tel.利用多模态训练提高单模态动态手势识别的性能。在CVPR，2019年。二、四[13] Aggelos K Katsaggelos ， Sara Bahaadini ， and RafaelMolina.视听融合：挑战和新办法。IEEE Proceedings，103（9），2015年。一、二[14] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NIPS，2014。一、二、六、八[15] Pradeep Natarajan ， Shuang Wu ， Shiv Vitaladevuni ，Xiaodan Zhuang ， Stavros Tsakalanji ， Unsang Park ，Rohit Prasad，and Premkumar Natarajan.多模态特征融合用于网络视频中的鲁棒事件检测。CVPR，2012。一、二[16] Robert A Jacobs，Michael I Jordan，Steven J Nowlan，Geoffrey E Hinton，et al.当地专家的适应性混合。神经计算，1991年。一、二[17] 胡安-马努埃尔·佩雷斯-鲁阿、瓦连京·维尔措夫、圣埃法内·帕托、莫埃斯·巴库什和弗雷德里克·朱利。多模态融合架构搜索. CVPR，2019年。一、七、八[18] Valen t inVielzeuf，Al exisLechervy，Ste'phanePateux，andFr e'd e'ricJurie. Centralnet：一种多模态融

下载后可阅读完整内容，剩余1页未读，立即下载