基于时态数据的深度多模态表示学习

133 浏览量更新于2023-10-16 收藏 993KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5447基于时态数据的深度多模态表示学习杨锡通1，Palghat Ramesh2，Radha Chitta23，Sriganesh Madhvanath23，Edgar A.贝尔纳尔4和罗杰波51马里兰大学帕克分校2PARC3 Conduent Labs美国4联合技术研究中心5罗切斯特大学1xyang35@cs.umd.edu，2Palghat. parc.com，3{Radha.Chitta，Sriganesh.Madhvanath}@conduent.com，4bernalea@utrc.utc.com，5jluo@cs.rochester.edu摘要近年来，深度学习已成功应用于多模态学习问题，旨在学习数据融合应用中有用的联合表示当可用的模态包括时间序列数据，如视频，音频和传感器信号，它成为必要的融合过程中考虑其时间结构。在本文中，我们提出了相关递归神经网络（CorrRNN），一种新的时间融合模型，用于融合本质上是时间的多输入模态。我们提出的模型的主要特点包括：（i）同时学习模态之间的联合表示和时间依赖性，(ii)在目标函数中使用多个损失项，包括最大相关损失项，以增强对交叉模态信息的学习，以及（iii）使用注意力模型来动态地调整不同输入模态对联合表示的贡献。我们通过对两个不同任务的实验来验证我们的模型：基于视频和传感器的活动分类，以及视听语音识别。我们实证分析了所提出的CorrRNN模型的不同组成部分的贡献，并在多个数据集上证明了其鲁棒性，有效性和最先进的性能。1. 介绍在广泛的现实世界场景中的自动决策通常涉及从多个源获取和分析数据。例如，使用摄像机和可穿戴运动传感器的组合可以比使用摄像机和可穿戴运动传感器中的任一个*在施乐公司PARC工作期间开展的工作图1. 不同的多模态学习任务。(a)非时态数据的非时态模型[21]。(b)时态数据的非时态模型[13]。(c)提出的CorrRNN模型：时态数据的时态模型。感知模式本身。在分析自发的社会情绪行为时，研究人员可以使用来自视频，音频和生理传感器（如心电图）的多模态线索[17]。然而，融合来自不同模态的信息通常是不平凡的，因为模态的低级别特征[21]之间具有不同的统计特性和高度非线性关系先前的工作表明，多模态学习通常在检索、分类和描述等任务上提供更好的性能[9，13，21，12]。当被融合的模态本质上是时间的时，设计用于时间多模态学习（TML）的模型变得合乎需要，该模型可以同时融合来自不同来源的信息，并且捕获数据内的时间结构。在过去的五年中，已经提出了几种基于深度学习的方法用于TML，特别是用于视听数据。早期的模型提出了audiovi-5448语音识别（AVSR）是基于使用非时间模型，如深度多模态自动编码器 [13] 或深度受限玻尔兹曼机（RBM）[21，22]，应用于多个连续帧的级联数据。最近的模型已经尝试对时间数据的固有顺序性质进行建模，例如，条件RBM [1]、用于AVSR的递归时间多模态RBM（RTMRBM）[7]和用于说话人识别的多模态长短期记忆网络[16]。我们认为，一个好的TML模型应该同时学习多模态输入的联合表示此外，该模型应能够动态权衡不同的输入模态，以强调更有用的信号，并提供对噪声的鲁棒性，这是AVSR的已知弱点[8]。第三，模型应该能够推广到不同类型的多模态时态数据，而不仅仅是视听数据。最后，该模型应该是易处理的和有效的训练。在本文中，我们介绍了相关递归神经网络（CorrRNN），一种新的无监督模型，满足上述需求。来自许多应用场景的多模态时间数据的一个有趣的特征是，模态之间的换句话说，多模态时态数据中的模态是相同现象的十种不同表示，这通常不是其他多模态数据（如图像和文本）的情况，这些数据由于共享高级语义而相关。受此观察的启发，我们的CorrRNN试图通过最大化基于相关性的损失函数来明确捕获模态之间的相关性，并最小化基于重建的损失以保留信息。关于相关输入的这一观察已经推动了先前使用深度规范相关自动编码器（DC-CAE）[25]和相关神经网络[4]进行多视图表示学习的工作。我们的模型在两个重要方面扩展了这项工作。第一、引入了使用门控递归单元（GRU）[5]的基于RNN的编码器-解码器框架来捕获时间结构以及跨模态的长期依赖性和相关性。第二，在对输入序列进行编码时使用动态加权，以基于输入模式对融合表示的贡献将不同权重分配给输入模式。本文的主要贡献如下：• 我们提出了一种新的通用模型的时间多模态学习，结合了编码器-解码器多模态GRU、多方面学习目标和动态加权的机制;• 我们的经验表明，我们的模型在两个不同的应用程序任务上优于最基于视频和传感器的活动分类和视听语音识别;以及• 与RTMRBM和其他专为TML设计的概率模型相比，我们提出的方法更易于处理，训练效率更高。本文的其余部分组织如下。节中2、回顾了多模态学习的相关研究我们在第二节中描述了所提出的CorrRNN模型3 .第三章。秒4介绍了我们实验中使用的两个应用程序任务和数据集以秒为单位4.1和4.2，我们提出的实证结果证明了所提出的模型的鲁棒性和有效性。最后一节提出了结论和未来的研究方向。2. 相关工作在本节中，我们简要回顾了基于深度学习的多模态学习和时态数据融合的一些相关工作。一般来说，从动态性的角度来看，融合框架可以基于它们支持的数据类型（例如，，时间与非时间数据）和用于融合数据的模型的类型（例如，，时间与时间非时间模型），如图所示。1.一、2.1. 多模式深度学习在数据融合应用的背景下，深度学习方法已被证明能够弥合不同模态之间的差距，并产生有用的联合表示[13，21]。一般来说，两种主要方法已用于基于深度学习的多模融合。第一种方法是基于共同的表示学习，从输入模态学习联合表示。第二种方法是基于典型相关分析（CCA）[6]，它学习输入模态的单独表示，同时最大化它们的相关性。第一种方法的一个例子，多模态深度自动编码器（MDAE）模型[13]，能够学习预测任一输入模态的联合表示。这是通过同时执行自重建（在模态内）和交叉重建（跨模态）来实现的。 Srivastava等人 [21]提出使用多模态深度玻尔兹曼机（MDBM）在多模态输入空间上学习联合密度模型。一旦经过训练，它就能够通过吉布斯采样来推断缺失的模态，并且即使在某些模态不存在的情况下也能够获得联合表示。该模型已用于构建实际的AVSR系统[22]。Sohn等人 [19]提出了一个新的学习目标来改善多模态学习-5449ing，并显式地训练他们的模型，通过最小化信息的变化来推理缺失的另一方面，基于CCA的方法旨在学习不同模态的分离特征，使得它们之间的相关性相互最大化。它们通常用于多视图学习任务。为了提高CCA的灵活性，提出了使用深度网络学习非线性投影的深度 CCA（DCCA）[2]Weirang等人。 [25]通过将DCCA与多模态深度自动编码器学习目标相结合来扩展这项工作[13]。相关神经网络模型[4]的相似之处在于它将两种类型的学习对象集成到单个模型中以学习公共表示。然而，它不是在硬CCA约束下优化目标函数，而是仅最大化学习投影的经验相关性。Xtytx t-1 yt-1xt-lyt-l多模编码器CorrCorr Corr副本多模态解码器x t-ly t-lxt-1 yt-1x tyt图2.拟议模型的基本架构（yn，yn，.， yn），其中xm表示m维FEA。1 2Tt2.2. 多模态学习的时间模型与使用非时态模型的多模态学习相比，使用时态模型融合时态数据的文献很少。Amer等人 [1]提出了一种用于融合视听数据的混合模型，其中条件限制玻尔兹曼机（CRBM）用于对短期多模态现象进行建模，而判别条件随机场（CRF）用于增强模型。在最近的工作[7]中，提出了递归时间多模态RBM，它学习联合在时间t时模态X的真实性。为了简单起见，我们省略了上标m和n在下面的大部分讨论。为了实现时间多模态学习，我们通过考虑它们的当前状态和历史，在时间t融合这两种模态。具体而言，在时间t，我们将最近的每模态历史应用于当前样本xt和yt，以获得扩展表示xt={xt− l，.，xt−1，xt}和yt={yt− 1，.，yt−1，yt}，其中l表示考虑的历史范围。给定N多模态数据序列s{（x∈i，y∈i）}i=1或目标的粒子数是训练特征学习模型M，该模型学习d-表征和时间结构。该模型产生在ASVR数据集AVElet上的最先进性能-维数联合表示、湖里，Ni=1其中simultane-和AVLetters2.一个有监督的多模态LSTM是在[16]中提出了使用面部和音频序列进行说话人识别。通过对多模态高级特征的长期依赖性进行建模，该方法被证明对干扰项和图像退化都是鲁棒的。3. 该模型在本节中，我们将描述所提出的CorrRNN模型。我们首先从数学上阐述时间多模态学习问题。为了简单起见，并且不失一般性，我们考虑融合两种模态X和Y的问题;然而，应该注意的是，该模型无缝地扩展到两种以上的模态。然后，我们将概述模型架构，该架构由两个组件组成：多模式编码器和多模式解码器。我们描述了多模态编码器，提取联合数据表示，在第二节。3.3，和多模态解码器，它试图重建- struct的联合表示在第二节的个别形式三点四分。3.1. 时间多模态学习让我们把这两个时间模态表示为序列长度为T，即X=（xm，xm，...，xm）和Y=将来自两种模态的信息进行融合，底层的时间结构3.2. 模型概述我们首先描述基本模型架构，如图所示。二、我们实现了一个编码器-解码器框架，它能够实现序列到序列学习[23]和以无监督方式学习序列表示[20]。具体来说，我们的模型由两个回流神经网络组成：多模态编码器和多模态解码器。多模态编码器被训练为将两个输入序列映射到联合表示中，即，一个共同的空间。多模态解码器尝试从由编码器获得的联合表示重构两个输入序列在训练过程中，模型学习一个联合表示，该表示尽可能多地保留来自两种模态的信息。在我们的模型中，编码器和解码器都是两层网络。多模态输入首先被映射到单独的隐藏层，然后被馈送到一个共同的层称为融合层。类似地，在发生多模态输入的重构之前，首先对联合表示进行解码以分离隐藏层。标准编码器-解码器框架依赖于1 2T5450不不tt联合表象ht−1htht+1CorrCorrCorrDWGRUDWGRUDWGRU模式Xxt−1Xtxt+1模态Yyt−1ytyt+1时间图3.多模式编码器的结构它包括三个模块：动态加权模块（DW），GRU模块（GRU）和相关模块（Corr）。（重建）损失函数仅在解码器中。如第1节所述，为了获得时间多模态学习的更好的联合我们还考虑了不同类型的重建损失，以增强模态内和模态之间的信息捕获。一旦使用一对多模态输入训练模型，多模态编码器就扮演了特征提取器的角色。具体地，在编码器中的融合层在最后时间步处的激活被输出作为序列特征表示。根据模型输入，可以获得两种类型的特征表示：如果两个输入模态都存在，则我们获得它们联合表示;另一方面，如果仅存在模态之一，则我们获得“增强的”单峰表示。通过最大化所有模态对之间的相关性之和，该模型可以扩展到两个以上的模态。这可以通过向多模式编码器添加更多的相关模块来实现。3.3. 多模编码器多模态编码器被设计为将输入模态序列融合成共同的表示，使得相干输入被赋予更大的重要性，并且相应的多模态编码器被设计为将输入模态序列融合成共同的表示，使得相干输入被赋予更大的重要性。• GRU模块（GRU）：融合输入模态以生成融合表示。该模块还捕获序列的时间结构，忘记并更新盖茨。• 相关模块（Corr）：将GRU模块产生的中间状态作为输入，计算基于相关性的损失。多模编码器的结构和三个模块之间的关系如图所示。3.第三章。我们现在详细描述这些模块的实现动态加权模块根据其随时间的相干性的评估在给定时间步长处向每个模态输入分配权重。参考最近关于注意力模型的工作[3]，我们的方法可以被描述为一种软注意力机制，该机制使模型能够专注于具有更有用信号的模态，例如，当另一个模态被噪声破坏时。分配给输入模态的动态权重基于它们的当前输入与来自前一时间步的融合数据表示之间的一致性。这是基于这样的直觉：当与“干净”输入相比时，被噪声破坏的输入将与来自先前时间步的融合表示不太一致。我们使用双线性函数来评估相干性两种模式的评分α1和α2α1=xtA1hT，α2=ytA2hT，输入之间的间隔被最大化。因此，三t t−1tt−1多模式编码器在每个时间步长使用主模块。• 动态加权模块（DW）：通过评估输入信号的相干性与他最近的过去-其中 A1∈Rm×d， A2∈Rn×d是在模块训练期间学习的参数。的权重两种模态是通过使用拉普拉斯平滑：1 +exp（αi）tory。wi=Σ2+k不exp（αk），i=1，25451RRt1zzt1不不XXRtztXXXH1赫拉特不XX正+ +XhtX+不H不ti不不Niht-1Xtht-1XtXtht-1ht-1ht其中，σ是逻辑S形函数，σ是双曲正切函数，r和z是重置和更新的输入，h和h代表激活的输入，标准GRU的候选激活[5]。请注意，我们的模型对不同的输入X和Y使用单独的权重，这与[16]中然而，当我们执行一个显式的(a) 单峰GRU在融合过程中，我们的模型ht-1Xt2Xt1Xt2Xt1ht-1Xt2Xt1ht-1Corr原则上可以捕获跨模态的相关性和每个模态的特定方面。相关性模块计算模态输入h1和h2ob的投影t t从GRU模块中提取形式上，给定N个映射ht2ht 11 1N2 2Nht-1两种模式的Ht ={hti}i=1且Ht ={hti}i=1at时间t，相关性计算如下：ht中国1 1 2 2(b) 多模式GRUcorr（H1，H2）=.i=1（hti−Ht）（hti−Ht）ttN1122222图4.单模态和多模态GRU模块的框图说明i=1（hti−Ht）ΣNi=1（hti−Ht）ΣN其中H111妮缇和h21小时2分。我们GRU模块（见图4（b））是标准GRU（见图4（b））的多模扩展。4（a）），并载有将基于相关性的损失函数表示为Lcorr=corr（H1，H2），并最大化两个变量之间的相关性。不同的门控单元，用于调制模块内部的信息流GRU模块将xt和yt作为时间步长t处的输入，并跟踪三个量，即融合表示ht和模态特定表示h t。站h1，h2。融合的表示ht构成了一个sin-最大限度地发挥这一功能。实际上，EM-在一个小批量的大小N.3.4. 多模态解码器t t历史多模态输入的角度表示，沿着时间轴进行推理，以保持概念的一致性并了解其时间结构。模态特定的表示h1，h2可以被认为是多模态解码器尝试从由多模态解码器计算的联合表示ht同时重建各个模态输入序列X和Y测试上述模态编码器把侦查工作降到最低保持模态输入，以便测量可以计算它们的相关性。该模块内的计算可以正式表示如下：I.iii训练时的结构损失，所得到的联合表示保留尽可能多的来自两个模态的信息。为了更好地在模态之间共享信息，我们引入了两个额外的重构损失项rt=σWrXt+ Urht−1+br，i= 1，2（1）I.iiizt=σ WzXt + Uzht−1 +bz，i=1，2（2）进入多模态解码器：交叉重建和自我-重建这两个条款不仅有利于联合我是阿吉我我i iΣ）+b，i=1，2（3）表示，而且还提高了ht=0WhXt+ Uh（rtht−1h.Σ在仅存在一种模态的情况下建模，rt=σΣ2 wiWiXi+bii+Urht−1）（四）如第4.1节所示。总之，我们的多模态解码器包括三个重建损失：trtri=1. Σ 2ΣΣ• 融合重建损失。重建中的错误zt=σwiWiXi+bi+ Uzht−1）（5）tztzi=1i gx∈i和y∈i从j中表示为hi=f（x∈i，y∈i）。. Σ 2ΣΣL=L（g（f（x≠，y≠）），x≠）+βL（g（f（x≠，y≠），y≠））h=wiWiXi+bi+U（rh）（六）融合我我我我我我tththi =1Htt−1• 自我重建损失。重建中的误差hi=（1−zi）<$ht−1+zi<$h<$i， i=1，2（7）x从x到y，y从y到y。t t t t t tRtztXX赫拉X+==5452ht=（1−zt）ht−1+ztht（8）Lsel f=L（g（f（xi）），xi）+βL（g（f（yi），yi））5453• 交叉重建损失。由y_i重建x_i的误差，以及由x_i重建y_i的误差。Lcros s=L（g（f（yi），xi）+βL（g（f（xi）），yi）其中β是用于平衡两个输入模态的损失函数值的相对尺度的超参数，并且f、g分别表示由多模态编码器和解码器实现的函数映射。因此，用于训练我们的模型的目标函数可以表示为：ΣN数据。然后，使用分类器（SVM或逻辑回归分类器）将每个多模态学习设置实施为监督分类任务（为了保持一致性，分类器的选择取决于基准测试实施中涉及的方法）。4.1. 视频传感器数据实验在本节中，我们将CorrRNN模型应用于人类活动分类任务。为此，我们使用ISI数据集[10]，这是一个多模态数据集，其中11名受试者执行与胰岛素自我调节相关的7个动作L=i=1（L融合+L交叉 +Lself ）−λLCorr注射活性。数据集包括以自我为中心的视频使用Google Glass可穿戴相机获取的数据，以及使用Invensense运动手腕传感器获取的运动数据其中λ是用于缩放相关损失项的贡献的超参数，并且N是训练阶段中因此，目标函数将由解码器计算的不同形式的重构损失与作为编码过程的一部分计算的相关损失相结合。我们使用具有自适应学习率的随机梯度下降算法来优化上述目标函数。4. 实证分析在下面的部分中，我们描述了实验来证明CorrRNN在建模时间多模态数据时的有效性我们通过在多个数据集上评估它来证明它对多模态学习问题的普遍适用性，这些数据集涵盖两种不同类型的多模态数据（视频传感器和音频视频）和两种不同的应用任务（活动分类和音频视频语音识别）。我们还在三个多模态学习设置[13]中评估了每个任务的模型。我们在表1中回顾这些设置。特征学习监督培训测试多式融合X+YX+YX+Y交叉模态学习X+YX+YXYXY共享共享资源-情感学习X+YX+YXYYX表1. 多模式学习设置，其中X和Y是不同的输入模式对于每个应用程序任务和数据集，CorrRNN模型首先使用所描述的输入模态和复合损失函数以无监督方式进行训练然后，训练的模型用于提取融合的表示和排序每个受试者这些视频中的每一个被进一步分割成固定长度的短视频剪辑。4.1.1实现细节我们首先在时间上同步的视频和运动传感器的数据与相同的采样率为30 fps。我们使用GoogLeNet [24]为每个视频帧原始运动传感器信号通过应用宽度4. 传感器特征是通过计算深度卷积和LSTM（DCL）网络[ 14]的最后一个卷积层（第5层）的输出来获得的，该深度卷积和 LSTM （ DCL ）网络 [14] 是在OPPORTUNITY数据集[18]上预先训练的，以平滑传感器数据输入。所提取的特征是448维元素的时间序列。我们根据视频和传感器数据建立序列，我们-以步长2的8帧的滑动窗口，从2秒的持续时间采样，得到13，456个序列。这些视频和运动序列用于训练CorrRNN模型，使用随机梯度下降，将小批量大小设置为256。将β和λ的值设定为1和0。分别为1;使用网格搜索方法优化这些值。4.1.2结果图5显示了所提出的CorrRNN模型的活动识别准确性我们在表1列出的各种多模态学习设置下评估了模型中每个组件的贡献。为了理解CorrRNN设计的不同方面的贡献，我们还评估了表2中总结的不同模型配置。基线结果是通过首先训练具有512个隐藏单元的单层GRU递归神经网络来获得的第512章次元5454配置相关性融合0.46自我0.67横0.76Corr0.95Corr-DW0.93表3.不同模型配置的归一化相关性表2.评估的CorrRNN模型配置图5. ISI数据集上不同模型配置然后，使用PCA将从每个网络获得的隐藏层表示减少到256维，并连接以获得512维融合表示。我们观察到，使用CorrRNN获得的融合表示比这个基线融合表示有显着改进。每个损失分量都有助于更好的表现，特别是在跨通道学习和共享表征学习的环境中。由于交叉重建损失分量，在存在较差保真度或噪声模态（例如，运动传感器模态）的情况下的性能包括相关损失和动态加权进一步提高了精度。在表3中，我们比较了不同模型配置的模态输入投影之间的相关性。这种相关性的测量计算为在最后的训练时期的训练数据上的平均编码器损失，除以融合层中隐藏单元的数量。这些值表明，基于相关性的损失项的使用最大化了两个投影之间的相关性，从而导致更丰富的联合和共享表示。4.2. 音视频数据实验使用多模态深度学习的视听语音分类任务在文献[7，13]中得到了很好的研究。在本节中，我们将重点比较在AVLetters和CUAVE数据集上使用其他已发表方法的拟议模型的性能：• AVLetters[11]包括10个说话者每人说出三次英语字母的音频和视频。我们使用前两次对应的视频进行训练（520个视频），第三次用于测试（260个视频）。该数据集提供了预提取的唇重建，每个视频帧具有60×80像素的缩放比例，音频具有26维Mel频率倒谱系数（MFCC）特性• CUAVE[15]由36个扬声器的视频组成，这些扬声器发出数字0-9。遵循[13]中的协议，我们使用每个视频的第一部分，包含面向正面的扬声器，每个数字发音5次。偶数的扬声器用于训练，奇数的扬声器用于测试。训练数据集包含890个视频，测试数据包含899个视频。我们对视频帧进行预处理，只提取包含嘴巴的感兴趣区域，并将每个图像重新缩放为60×60像素。使用26维MFCC特征来表示音频。4.2.1实现细节我们使用PCA白化将两个数据集的视频特征的维数降低到100，并连接表示每3个连续音频样本的特征，以便对齐音频和视频数据。为了训练CorrRNN模型，我们使用步长2生成长度为8的序列。使用随机梯度下降进行训练，小批量的大小设置为32。隐藏层中的隐藏单元数量被设置为512。在以无监督的方式训练模型之后，CorrRNN生成的联合表示被视为融合特征。与[7]类似，我们首先将每个说话示例的融合特征分解为一个和三个相等的切片，并在每个切片上执行均值池。然后将每个切片的均值池化特征连接起来，并用于以超监督的方式训练线性SVM分类器。Config描述基线每个模态的融合Objective仅使用L融合术语自我目的使用L融合L自身横物镜使用L融合L交叉所有目的采用L融合、L自体L交叉Corr目标使用所有损失术语Corr-DW目标使用所有损失项dyn。权重54554.2.2结果表4展示了在AVLetters和CUAVE数据集上使用Corr-DW配置的提议CorrRNN 模型的分类性能使用Cor-rRNN模型生成的音频-视频数据的融合表示用于训练和测试SVM分类器。我们观察到CorrRNN表示比非时间模型（如多模态深度自动编码器（MDAE），多模态深度信念网络（MDBN）和多模态深度玻尔兹曼机（MDBM））生成的表示更准确的分类。这是因为CorrRNN模型能够学习两种模态之间的节奏依赖性。CorrRNN还优于条件RBM（CRBM）和RTM-RBM模型，这是由于引入了相关损失和动态加权机制。CorrRNN模型还为每种模态产生了丰富的表征，如表5中的跨模态和共享表征学习实验结果所示。实际上，相对于仅使用音频和视频模态的原始特征的场景，使用CorrRNN特征在准确性方面有显著的例如，与仅使用视频特征学习相比，通过使用音频和视频学习视频特征，CUAVE数据集的准确性提高了两倍在共享表示学习实验中，我们使用音频和视频模态来学习特征表示，但监督训练和测试使用不同的模态进行。结果表明，CorrRNN模型很好地捕捉了模态之间的相关性。为了评估CorrRNN模型对噪声的鲁棒性，我们将SNR为0dB的高斯白噪声添加到CUAVE数据集中的原始音频信号Un-与先前的模型一样，由于噪声的存在，其性能显著下降（12-20%），CorrRNN模型的准确度仅轻微下降约5%，如表6所示。这可以归因于CorrRNN学习的融合表示中嵌入的跨模态信息的丰富性5. 结论在本文中，我们提出了CorrRNN，一种新的模型，用于多模态融合的时间输入，如音频，视频和传感器数据。该模型基于编码器-解码器框架，通过利用跨模态的相关性来学习多模态输入的联合表示该模型以无监督的方式（即，通过最小化输入-输出重建损失项和最大化基于交叉模态的相关项），这消除了对标记数据的需要，并结合了GRU方法精度AVLetters曲线MDAE [13]62. 0466岁。70MDBN [21]63岁267岁20MDBM [21]六十四769岁。00RTMRM [7]66岁。04-CRBM [1]67岁1069岁。10CorrRNN83岁40九十五9表4.AVLetters和CUAVE数据集上视听语音识别的分类性能，与文献中发表的最佳结果相比，使用两种模式的融合表示火车/测试方法精度AVLetters曲线交叉-模态学习视频/视频原38.0842.05CorrRNN81.8596.22音频/音频原57.3188.32CorrRNN85.3396.11共享表示学习视频/音频MDAE-24.30CorrRNN85.3396.77音频/视频MDAE-30.70CorrRNN81.8596.33表5.跨模态和共享表征学习设置的分类准确性MDAE结果来自[13]。方法精度干净的音频有噪音频MDAE94.477.3音频RBM95.875.8MDAE +音频RBM94.482.2CorrRNN96.1190.88表6. CUAVE数据集上的视听语音识别的分类精度，在干净和嘈杂的音频条件下。在OdB SNR下将高斯白噪声添加到音频信号。基线结果来自[13]。以捕获输入中的长期依赖性和时间结构我们还引入了动态加权机制，允许编码器动态修改每个模态对正在计算的特征表示的贡献。我们已经证明，CorrRNN模型在各种时间融合应用中达到了最先进的精度在未来，我们计划将该模型应用于更广泛的多模态学习场景。我们还计划扩展该模型以无缝地摄取异步输入。5456引用[1] M. R. 阿梅尔湾 Siddiquie，S. 汗，A. Divakaran，以及H. 索妮使用动态混合模型的多模态融合在IEEE计算机视觉应用冬季会议上，第556-563页IEEE，2014。[2] G.安德鲁河Arora，J. Bilmes，and K. Livescu深度典型相关分析。第30届国际机器学习会议论文集，第1247-1255页，2013年[3] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器in ICLR 2015，abs/1409.0473，2014.[4] S. M. M. Khapra，H.Larochelle和B.拉文德兰相关神经网络神经计算，2015年。[5] K. 乔湾在M e rri enboer，C. Gu？l cehre，D. 巴达瑙，F.布加雷斯Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语表示用于统计机器翻译。在Proceedings ofthe 2014 Conference on Empirical Methods in NaturalLanguage Processing，EMNLP 2014，October 25-29，2014，Doha，Qatar，A meeting of SIGDAT，a SpecialInterest Group of the ACL，pages 1724[6] D. R. Hardoon，S. Szedmak和J.肖-泰勒典型相关分析：学习方法的应用概述。神经计算，16（12）：2639[7] D. Hu，X.李等人，视听语音识别中的时间多模态学习。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第3574[8] A. K. Katsaggelos，S. Bahaadini和R.莫利纳视听融合：挑战和新方法。Proceedings of the IEEE，103（9）：1635[9] R.基罗斯河Salakhutdinov和R.泽梅尔多模态神经语言模型。第31届国际机器学习会议（ICML-14）论文集，第595-603页，2014年[10] J. Kumar，Q. Li，S. Kyal，E. Bernal和R.巴拉飞行中的手检测训练及其在自我中心行为识别中的应用在IEEE计算机视觉和模式识别研讨会会议集，第18[11] I. 马修斯，T.F. Cootes，J.A. Bangham，S.Cox和R. 哈维唇读视觉特徴撷取之研究。IEEE Transactionson Pattern Analysis and Machine Intelligence，24（2）：198[12] N.内韦罗瓦角沃尔夫G. Taylor和F.内布自适应多模态手势识别。 IEEE Transactions on Pattern Analysis andMachine Intelligence，38（8）：1692[13] J. Ngiam，A.科斯拉，M。金，J.南，H。Lee和A.Y. Ng.多模态深度学习。第28届国际机器学习会议（ICML-11）论文集，第689-696页，2011年[14] F. J. 或者是一个人。罗根用于多模态可穿戴活动识别的深度卷积神经网络和lstmSensors，16（1）：115，2016.[15] E. K. Patterson ， S. Gurbuz ， Z. Tufekci 和 J. N. 天啊Cuave：一个新的多模态人机界面研究视听数据库在声学、语音和信号处理（ICASSP）中，2002 IEEE国际会议，第2卷，第II-2017页。IEEE，2002年。[16] J. Ren，Y.胡，Y.- W.泰角，澳-地王湖，加-地Xu，W.太阳和Q. 燕. 看、听、学--一种多模态说话人识别lstmarXiv预印本arXiv：1602.04364，2016。[17] F.林瓦尔湾舒勒M. Valstar，S. Jaiswal，E. 马尔基，D.拉兰讷河Cowie和M.惊慌失措av+ ec 2015多模态情感识别挑战：桥接音频、视频和生理数据。第五届ACM国际视听情绪挑战研讨会论文集。ACM，2015.[18] D. Roggen，A.Ca latron i，M.Ro ssi，T.好吧，K。首先，G. Tr oüster，P. L ukow i cz，D. B annach，G. Pirkl，A. Fe rs cha等。在高度丰富的网络传感器环境中收集复杂的活动数据集在 Networked Sensing Systems（INSS），2010年第七届国际会议上，第233IEEE，2010。[19] K.孙，W。Shang和H.李你改进的多模态深度学习与信息的变化。神经信息处理系统的进展，第2141-2149页，2014年。[20] N. Srivastava、E. Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的非监督学习 arXiv 预印本 arXiv ：1502.04681，2015年。[21] N. Srivastava和R. R.萨拉赫季诺夫多模态学习与深度玻尔兹曼机。神经信息处理系统的进展，第2222-2230页，2012年[22] C. Sui，M.Bennamoun和R.托涅里用眼睛听：使用深度玻尔兹曼机的实用视觉语音识别系统。在IEEE计算机视觉国际会议论文集，第154- 162页[23] I. Sutskever，O.Vinyals和Q.诉乐用神经网络进行序列到神经信息处理系统的进展，第3104-3112页，2014年[24] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页[25] W.王河，巴西-地阿罗拉角 Livescu和J.比尔梅斯深度多视图表示学习。在第 32 届国际机器学习会议（ICML-15）的会议记录中，第1083-1092页

下载后可阅读完整内容，剩余1页未读，立即下载