多模态训练提升动态手势识别

185 浏览量更新于2023-10-19 收藏 1021KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1利用多通道训练提高单通道动态手势识别性能罗格斯大学mahdi. rutgers.eduHamid Reza VaeziJoze Microsofthava@microsoft.com维沙尔湾约翰霍普金斯大学vpatel36@jhu.edu摘要我们提出了一种有效的方法，利用多模态的知识训练单峰3D卷积神经网络（3D-CNN）的动态手势识别的任务。而不是明确地结合多模态信息，这是常见的许多国家的最先进的方法，我们提出了一个不同的框架中，我们嵌入的知识，多模态在各个网络，使每个单峰网络可以实现更好的性能。特别是，我们为每个可用的模型提供单独的网络，并强制它们进行协作和学习，以开发具有共同语义和更好表示的网络。我们引入了一个此外，我们用我们提出的“焦点正则化参数”来正则化这种损失，以避免负知识转移。实验结果表明，该框架提高了单峰网络的测试时间识别精度，在各种动态手势识别数据集上均具有最1. 介绍计算机视觉和模式识别的最新进展使手势识别成为不同类型应用的可访问和重要的交互工具特别是，具有视频序列的深度3-D卷积神经网络（3D-CNN）的最新发展显着提高了动态手势识别的性能[27，24，26]。大多数最先进的手势识别方法利用多个传感器，例如可见RGB相机、深度相机或计算像光流这样的额外模态。以提高他们的表现[21，50，47，23]。多-图1.不同类型识别系统的训练和测试方案(a)该系统采用多种模态进行训练和测试。(b)该系统的训练和测试与一个单一的形式。(c)该系统利用了多模态训练的优点，但在测试期间可以作为单峰系统运行。模态识别系统对手势识别的准确性提供了显著的改进[25]。多模态识别系统使用多个数据流进行训练，并在测试期间对多模态观察结果进行分类[35，4]（图1（a））。另一方面，单模态识别系统仅使用单一模态数据进行训练和测试（图1（b））。本文介绍了第三种类型的框架，它利用多模态数据在训练过程中的知识，并提高了性能的单峰系统在测试过程中。图1（c）概述了拟议框架。所提出的方法使用每个模态流单独的3D-CNN，用于主要训练它们以识别基于它们的输入模态流的动态手势。在动态手势识别系统中可用的模态流通常是空间上和时间上对齐的。例如，RGB和1165培训测试(a)多模态识别(b)单峰识别(c)多模态培训/单模态测试程序（拟定）。单峰测试多模式学习单峰测试单峰学习多模态测试多模式学习1166利用运动感测设备捕获的深度图和从RGB流计算的光流通常被对准。因此，我们鼓励个体模态网络对不同模态的时空内容达成共识我们通过在整个学习过程中分享他们的知识，通过最小化引入的时空语义对齐（SSA）损失来做到这一点我们进一步改善学习过程中，通过正则化SSA损失与自适应正则化参数。我们称这个正则化参数为焦点正则化参数。该参数防止负面知识的传递换句话说，它确保知识从更准确的模态网络转移到不太准确的网络，而不是相反。一旦网络被训练，在推理期间，每个网络已经学会从其专用模态识别手势，而且还获得了从其他模态传递的知识，这有助于提供更好的综上所述，本文做出了以下贡献。首先，我们提出了一个新的框架，单模态网络的动态手势识别任务，从多模态学习。该框架导致多模态训练/单模态测试（MTUT）方案。其次，我们引入SSA损失来共享单模态网络的知识。第三，我们开发的焦点正则化参数，以避免负转移。在我们的实验中，我们表明，学习与我们的方法提高了测试时间性能的单峰网络。2. 相关工作动态手势识别：动态手势识别方法可以根据其所使用的视频分析方法进行分类。许多手势方法已经基于提取手工特征而被开发[48，37，42，29]。这些方法通常导出诸如外观、运动线索或身体骨架之类的属性来执行手势分类。动作识别方法的最新进展和各种大型视频数据集的引入使得可以利用时空深度神经网络架构对未处理的视觉数据流进行有效分类[9，44，38]。在文献中已经介绍了各种基于3D-CNN的手势识别方法。在[24]中引入了一种基于3D-CNN的方法，该方法集成了归一化深度和图像梯度值以识别动态手势。在[25]中，提出了一种3D-CNN，它融合了来自多个传感器的数据流，包括短程雷达，颜色和深度传感器。在[26]中提出了一种实时方法，该方法同时检测和分类视频中的手势。Camgoz等人[6]提出了一个独立于用户的系统，3D-CNN的时空编码。Miao等人提出了ResC 3D [23]，这是一种3D-CNN架构，它结合了多模态数据并利用了注意力模型。此外，一些基于CNN的模型还使用递归架构来捕获时间信息[50，8，11，52]。本文的主要重点是提高基于3D-CNN的手势识别方法的性能。如稍后将描述的，我们假设我们的网络具有包含位置、时间和通道维度的4-D特征映射迁移学习：在迁移学习中，首先，一个Agent在源任务上独立训练，然后另一个Agent通过重新利用学习到的特征或转移它们来使用源Agent的知识来改进其学习目标任务[32，43]。这种技术已被证明是成功的，在许多不同类型的应用程序 [5、30、19、17、49、34]。虽然我们的方法与迁移学习密切相关，但我们的学习代理（即模态网络）被同时训练，并且在网络之间以两种方式发生转移。因此，它更好地归类为多任务学习框架[10，31]，其中每个网络都有三个任务：向其他网络提供知识，从它们那里接收知识，最后根据它们的专用输入流进行分类。多式融合：在多式融合，模型明确地接收来自多个模态的数据，学习融合他们[28，3，33]。融合可以在特征级（即，早期融合）、决策级（即，晚期融合）或中期融合[35，2]。一旦模型经过训练，在测试期间，它会从多个模型接收数据进行分类[35，28]。虽然我们的方法涉及多模态融合，但它不是一种融合方法。我们没有明确地融合来自不同模态的表示相反，我们通过利用来自不同模态的知识来改进我们的个体模态网络的表示学习在推理过程中，我们不一定需要多个模态，而是每个模态网络独立地对数据进行分类。3. 该方法在我们提出的模型中，每种模态，训练一个假设数据流在M种模态中可用，我们有M个分类器网络，这些网络具有基于其对应输入进行分类的类似架构。在训练过程中，虽然每个网络都是用相应模态的数据进行初级训练的，但我们的目标是通过在不同模态的网络转移的知识作为一种额外的监督，除了类标签。我们通过调整网络为输入提供的深层表征的语义来共享网络知识。我们通过在网络中选择一个深入的层来做到这一点-1167i，j，ti，j，ti，j，ti，j，tσi，j，tFFMM×i，j，tµi，j，t图2.来自NVGesture数据集[26]的RGB和光流流的示例。可以看出，虽然对于静止帧RGB提供了更好的表示，但是光流为动态帧提供了更好的表示。工作并强制它们共享一个共同的相关性高级内容表示（语义）[16]。那个...所有模态网络的深层这fmi，j，t ∈RC在Fm中表示某个是通过最小化它们之间的距离来完成的矩阵在训练阶段。此外，我们通过自适应参数来规则化这种损失，该参数确保损失充当单向门，仅将知识从更准确的模态网络转移到准确度较低的模态网络，而不是其他方式。3.1. 时空语义对齐在理想情况下，我们模型的所有M分类器模态网络应该对输入视频具有相同的理解尽管它们以不同的模式出现在时间和空间位置块有理由期待网络m用于为输入中具有相似内容和语义的时空块开发Fm中的因此，在理想情况下，Fm中的相关元素应该具有Fn中的相关对应元素。Fm中所有元素之间的相关性由其相关矩阵表示，定义如下c或r（Fm）=F<$m<$T∈Rdd，（1）其中F<$m∈Rd×C包含Fm在其行中，d=WHT是F m中的元素数。元素fm归一化为为此外，由于我们假设，fmi，j，tfmi，j，twherem是m的大小得双曲正弦值.输入视频在时间和空间位置上对准，在理想情况下，期望网络具有相同~fm计算公式为： i，j，t=fm−i，j，t，其中μi，j，t和跨不同模态理解和共享输入视频的空间位置和帧的语义然而，在实践中，与一些其他模态相比，在一种模态中可以更好地捕获一些时空特征例如，在图2所示的可见RGB和光流帧的流中，可以观察到，对于静态帧，RGB模态提供了更好的信息。σi、j、t分别为样本均值和方差，元素我们鼓励第m和第n模态的网络共享Fm和Fn的特征图的公共相关矩阵，以便它们可以对输入视频具有类似的理解，同时可以自由地具有不同的风格。我们通过最小化它们的时空语义对齐损失来做到这一点，而对于动态帧，光流具有较少的噪声信息。这导致了不同的语义下-SSA =ρm，n<$corr（Fm）−corr（Fn）<$2，（2）站在各个模态网络上。因此，期望设计一种协作框架，该协作框架鼓励网络学习针对相同输入场景的跨不同模态的共同理解。这样，如果在训练迭代中，其中一个网络无法在其特征图中学习特定区域或时间的正确表示，则可以使用来自其他网络的知识来改进其表示。在训练过程中，这种事件的反复发生会导致网络以协作的方式开发更好的表示。设Fm，Fn∈RW×H ×T×C分别为第m模态和第n模态对应的两个网络的深度特征图，其中W，H，T，C表示宽度，特征图的高度、帧数和通道数。一个深入的特征图应该包含时间光流RGB洗脱液联系我们ℓ1168其中ρm，n是3.2节中定义的自适应正则化参数。时空语义对齐损失与域自适应方法中的源和目标特征图的协方差矩阵对齐密切相关[41，40]。此外，在一些风格转换方法中，特征图的Gram矩阵是对齐的[15，16]。与我们的方法相反，对齐Gram矩阵会丢弃位置信息并对齐样式。相比之下，我们的方法对齐的位置和时间的信息和丢弃的风格。3.2. 避免负迁移如前所述，与其他模态相比，某些模态可能提供较此外，即使是强有力的模式，有时也会腐败或难以实现。1169CLSCLSCLS=SSACLS1.61.41.210.80.60.40.20电话：+86-0511 - 88888888传真：+86-0511 - 88888888图3.聚焦正则化参数（ρm，n）的值，对于不同的分级损失值，β= 2，cls和cls。与网络的分类性能成正比，n，该参数调整SSA损失，以专注于传递积极知识。图4.用网络n的知识训练网络m。训练网络m主要是关于其分类器来完成的损失（ρm），但与ρn相比，ρm，n决定是否涉及cls在他们的训练集的例子。在这些情况下，将来自其他网络的表示的时空语义与周网络的语义对齐可能导致性能降低。在这种情况下，出现了负迁移。希望开发一种方法，在网络之间产生正的知识转移，同时避免负转移。我们框架中的这种方法应该强制网络只模仿SSA损失是必要的，如果是，它通过重新调整来规范这种损失两种网络性能的差异请注意，在测试时间内，两个网络独立运行。0，因为当前网络模态的分类性能的置信度增加（使用SNR测量）。如果模态网络n的性能下降（由Wn测量），则该缩放因子可以自动降低共享知识的权重更准确的网络在学习代表的语义为他们的艰难榜样。为了解决这个问题，焦点正则化参数ρm，nCLS被用作我们用自适应正则化参数（称为焦点正则化参数）来正则化我们的SSA损失。该参数在等式（2）中表示为ρm，n为了衡量网络模态的性能，我们可以使用它们的分类损失值。作为-调整相关矩阵时的正则化因子的相关矩阵，第n个模态网络中的Fn3.3. 模态网络拉克莱姆和乌恩是指净损失的分类损失结合上述目标，我们的全面...分别对应于第m个和第n个的作品m和n用于训练对应于第m个的网络的目标第n模态。此外，令= mncls 是他们M-模态任务中的模态如下差一个正的网络n表示网络n工作正常比网络M更好。因此，在训练网络m时，对于ρ m，n的大正值，我们希望ρm，n的值大，以强制网络模仿M mCLSΣM+λn=1SSA（四）网络N。当网络n→0+时，网络n的辅助作用就减弱了。因此，我们的目标是具有更小的ρm，ns以更好地其中λ是正正则化参数。注意对于n=m，ρm，n= 0，因此ρm，n= 0。分类任务。最后，负的ρm表示网络n没有比网络m更好的表示，因此ρm，n应该为零以避免负转移。为了解决这些性质，我们定义焦点正则化参数如下.图4显示了表示因为第n个模态影响学习第m个模态中的表示由于ρm，n是可微的，因此可以以端到端的方式进行训练。我们的模型鼓励网络在训练阶段改善其表示学习在测试期间，ρm，n=S（eβ∆ℓ -1）=eβ−1>00 ℃≤ 0（3）每个网络单独执行因此，一旦网络训练后，可以使用单独的模态网络来获得有效的识别。但是，值得男人-其中β是非线性聚焦参数r，并且S（·）是零处的阈值函数利用我们的框架，在测试阶段应用决策级模态融合也是可能的。事实上图3显示了不同的ρm，n值s和实验结果表明，该方法不仅mcls 当β= 2时，∈[0，2]。可以看出，参数提高了单峰网络的性能，但它可以是动态缩放的，其中缩放因子衰减以也提高融合性能。不`mCLSnc…网络m分类损失网络nC信道Fmρm，nSSA损失Fn不…分类损失C信道nsCL模态m模态，模态HH--ℓℓ1170时间（一）时间时间（b）第（1）款时间（c）第（1）款图5.来自所用数据集的不同模态的样本序列。 (a)VIVA手势数据集[29]。 (b)NVGesture数据集[26].(c)自我姿态[8，51]。可以看出，VIVA和EgoGesture数据集中的模态对齐良好，而深度图与NVGesture中的RGB和光流图不4. 实验结果在本节中，我们评估我们的方法对国家的最先进的动态手势方法。我们进行我们的实验上三个公开的多模态动态手势数据集。以下数据集用于我们的实验。• VIVA手势数据集[29]是一个多模态动态手势数据集，专门设计用于用于研究真实世界驾驶环境中的自然人类活动的杂乱背景、不稳定照明和频繁遮挡的困难环境该数据集使用Microsoft Kinect设备捕获，并且包含从8个受试者收集的19个手势类的885个可见RGB和深度视频序列（RGB-D）• EgoGesture数据集[8，51]是一个大型的多模态手势数据集，收集用于自我中心的任务。真实的认知该数据集包含由50名受试者执行的83类手势的24，161个手势片段。此数据集中的视频包括使用英特尔实感SR 300设备在多个室内和室外场景中以RGB-D模式捕获的静态和动态手势• NVGestures数据集[26]已使用多个传感器从多个角度捕获，用于研究。人机界面。它包含了1532个动态手势记录从20个科目内的汽车模拟器与人工照明条件。该数据集包括25类手势。用SoftKinetic DS 325装置作为RGB-D传感器和DUO-3D用于红外流记录这些图形。此外，光流和红外视差图模态可以分别从RGB和红外流计算我们在实验中使用RGB，请注意，该数据集中的IR流与RGB、深度和光流模态不共享相同的视图。使用[14]中提出的方法计算光流。图5（a）、（b）和（c）显示了我们的研究中使用的这些数据集的不同模态实验请注意，RGB和深度模态在VIVA和EgoGesture数据集中对齐良好，但在NVGestures数据集中未完全对齐。对于所有数据集，我们将我们的方法与两种最先进的动作识别网络I3D [9]和C3D [44]以及在所用数据集上报告的最先进的动态手势识别方法进行了在表格中，我们将我们的方法的结果报告为实施详情：在我们的方法的设计中，我们采用I3D网络的架构作为我们的模态网络的骨干网络，并采用其建议的实现细节[9]。该网络是Inception-V1 [18]的膨胀版本，它包含几个3D卷积层，然后是3D最大池层和膨胀的Inception-V1子模块。详细的架构可以在[9]中找到。我们选择最后一个inflated Inception子模块我们的模态网络中的特征图，用于应用SSA 损失（2）。在所有的实验中，λ被设置为50×10−3，β= 2。焦点正则化参数中的阈值函数由ReLu层实现。对于我们的方法和I3D基准测试的所有实验，除非换句话说，我们从公开可用的Ima-geNet [12] + Kinetics[20]预训练网络开始。我们将动量设置为0.9，并使用标准SGD优化器优化我们从10−2的基本学习率开始，当损失饱和时减少10倍在训练阶段，我们使用的批大小为6，包含64帧片段。对模型进行在Tensor-Flow 1.9中实现[1]。对于我们的方法，我们从一个预训练阶段开始，只在模态网络上应用分类损失60个epoch，然后继续使用SSA损失训练另外15个epoch。我们在训练阶段采用以下空间和时间数据对于特殊的增强，视频被调整大小为256像素的较小视频大小，然后用224×224补丁随机裁剪。此外，所产生的视频是随机的，但con-水平翻转。对于时间扩增，深度RGB光流深度RGB深度RGB1171测试模态测试模态方法RGB深度方法RGB深度HOG+ HOG 2 [29]52.358.6VGG 16 [39]62.562.3[24]第二十四话57.065.0VGG16 + LSTM [1]74.777.7C3D [44]71.2668.32C3D [44]86.488.1I3D [9]78.2574.46C3D+LSTM+RSTTM [8]89.390.6MTUT（我们的） 81.3381.31I3D [9]90.3389.47表1. 8-不同手势方法在VIVA手势数据集上的跨受试者平均准确度[29]。表现最佳者用黑体字表示。从视频中随机选取64个连续帧较短的视频在两侧随机填充零帧以获得64帧。在测试过程中，我们使用224×224中心裁剪，在整个视频中卷积应用模型，并平均预测。请注意，对于使用I3D方法[9]和我们的方法的实验，我们同样遵循上述实施细节I3D方法和我们的MTUT之间的唯一区别在于它们的学习目标。在我们的例子中，它也包括引入的约束。4.1. VIVA手势数据集MTUT（我方）92.48 91.96表2.不同手势方法在EgoGesture数据集上的准确性[8]。表现最佳者用黑体字表示大规模手势数据集，EgoGesture [8]。表2比较了不同手工方法的单峰测试精度。VGG16 [39]是一种基于帧的识别方法，VGG16+LSTM [13]将这种方法与递归架构相结合，以利用时间信息。可以看出，基于3D-CNN的方法C3 D、C3 D +LSTM+RSTMM [8]和I3 D优于基于VGG 16的方法。然而，在基于3D-CNN的方法中，我们的方法在RGB域中的表现优于最佳表现者2。15%，在深度域中为1。百分之九在这组实验中，我们将我们在VIVA数据集上的方法与手工制作的方法（HOG+ HOG 2 [29]），基于CNN的递归方法（CNN：LRN [24]），在Sports-1 M数据集[19]上预训练的C3 D [44]模型以及I3 D方法进行了7(a) MTUT（我们的）7(b) i3D目前在行动识别方面拥有最好的结果[9]。所有的结果都是通过平均的分类精度超过8倍交叉学科交叉验证报告。表1显示了在VIVA数据集的可见和深度模态上测试的动态手动方法的性能从该表中可以看出，I3D网络的性能明显优于HOG+HOG2和CNN：LRN。这在一定程度上是由于I3 D在ImageNet和Kine- matic数据集上的预训练所包含的知识。尽管如此，我们观察到，我们的方法与I3D网络共享相同的架构和设置，仅在学习过程中有所不同，显著改善了I3D方法3。08%的RGB网络性能提升，6. 深度网络性能提高85%实验结果表明，该方法能够整合两种不同模态之间的互补信息，从而学习出有效的表征，提高其各自的表现。4.2. 自我手势数据集我们评估了我们的方法的性能，以及各种手势识别方法发表在图6.对于来自EgoGesture数据集的样本输入，对应于不同网络中的层“Mixed 5c“的特征图的可视化这些图示出了（a）用I3D方法训练的RGB和深度网络中的平均特征图（在1024个通道上）的序列。(b)用我们的方法训练的RGB和深度网络。强度显示幅值。在图6中，我们可视化了使用I3D和我们的方法训练的 RGB 和深度网络的一组特征图。我们将来自EgoGesture数据集的给定输入馈送到不同的网络，并计算特征的平均值。映射到层“Mixed 5c“中的通道我们在四个7×7块中显示结果序列。这里时间维度是4，空间内容是7 ×7。层我们将SSA损失应用于其上。我们观察到，用我们的模型训练的网络已经学会了检测给定输入的相似结构（图6（a））。另一方面，使用I3D模型训练的网络并不局限于开发类似的结构。因此，即使两种模态的输入表示相同的内容，特征图也可能检测到不同的结构（图6（b））。时间时间7深度RGB7深度RGB1172RGB-OFRGB-D所有所有RGB-DRGB-D所有012345678910（1 1a12）131415161718192021222324（b）第（1）款1.00.80.60.40.20.0测试模态方法RGB深度选购配件流HOG+ HOG 2 [29]24.536.3-两个流CNN [38]54.6-68.0C3D [44]69.378.8-iDT [46]59.1-76.8R3DCNN [26]74.180.377.8I3D [9]78.4282.2883.19MTUT（我们的）81.33 84.85 83.40图7.混淆矩阵是通过比较来自RGB网络的真值标签和预测标签获得的，该网络通过（a）I3D [9]模型和（b）我们的模型在NVGesture数据集上训练。最好在电脑上看到，在彩色和放大。4.3. NVGesture数据集为了在具有两种以上模态的任务上测试我们的方法，在本节中，我们报告了NVGesture数据集的RGB、深度和光流模态的分类结果[26]。RGB和光流模态在该数据集中很好地对齐，然而，深度图包括更大的视场（参见图5（b））。表3列出了我们的方法与最近最先进方法的比较结果：HOG+HOG2、改进的密集轨迹（iDT）[46]、R3DCNN [26]、双流CNN [38]和C3D以及人类标记准确性。iDT [46]方法通常被认为是最好的然而，我们观察到，与之前的实验类似，基于3D-CNN的方法优于其他手势识别方法，其中，我们的方法在所有模态中提供了该表证实了我们的方法可以通过在训练阶段利用来自多个模态的知识来提高单峰测试性能。尽管事实上该数据集中的深度图与RGB和光流图不完全对齐。图7评估了预测人体标记准确率：88.4表3. NVGesture数据集上不同单峰手势方法的准确性[26]。表现最佳者用黑体字表示。根据单峰预测的平均值计算的决策级融合。不同模态流的决策级融合是目前最常见的融合技术，用于顶级动态动作识别方法[9，44，38]。在表4和表5中，我们将我们的方法的多模态融合版本（MTUTF）与分别在VIVA手势和EgoGesture数据集上测试的最先进的多模态手势识别系统进行了比较。可以看出，我们的方法在两个数据集上都显示出最佳的多峰融合性能。这些表格表明，如果在测试时有多个模态可用，则通过使用我们的模型训练获得的单峰网络的改进性能也可以在测试时提高多模态融合性能。相似地，在表6中，我们报告了NVGesture数据集上的多模态融合结果。请注意，由于该数据集包括三种模态，因此基于我们在训练阶段包括的模态，我们报告了我们方法的多个版本。我们报告我们的方法的版本，包括所有三个模态在训练阶段作为MTUTF，和版本，只涉及（RGB+深度）和（RGB+光流）在他们的训练作为MTUTF标签和地面真理在我们的方法，并比较它与关于MTUTF分别表示。虽然我们方法优于其他多模态融合方法，I3D用于NVGesture数据集的RGB模态。这相干性由它们的混淆矩阵计算我们...表6，MTUTF和MTUTF， F服务于我们的方法在输入类之间具有较少的混淆，并且通常提供更加对角化的混淆矩阵。这种改进在第一个中观察得更好。RGB+Depth的融合值得强调。 MTUT全部在这个实验中也接受了缺席模态，光流，而MTUTF仅六节课。4.4. 单模态改进对多模态融合如前所述，我们的方法被设计用于在单峰网络中嵌入来自多个模态的知识，以提高其单峰测试性能。在本节中，我们将研究通过我们的方法训练的增强型单峰网络是否也可以提高在RGB和深度模式上训练。我们观察到MTUTF成功地集成了缺席模态的知识，并在测试时提供了更好的性能。4.5. 网络分析为了了解我们的一些模型选择的影响，我们探索了我们的模型在VIVA数据集上的一些变化的性能特别是，我们比较了我们的方法与没有焦点正则化参数和0.86零点一四000000000000000000000000零点九四000000000000000000.06200000000.820.12000.059个单位000000000000000000000.0530.840000.05300000000000000 00.053000000.79000000000000000.16 0.053000000000.091 0.86000000000000000.0450000000000零点九十六000000.037000000000000000000010000000000000000000000000零点九五0000.048000000000000000000000100000000000000000000000000.920000.04200000000.04200000000000001000000000000000000000000010000000000000000000000000.037 0.9600000000000000000000000001000000000000000000000000010000000000000.260000000000000.6700000.037 0.0370 0000000000000000000.89000 00.05600.056000000000零点二四000000000.760000000000000000000000000100000000000000000000000001000000000000000000.059000000.05900.8800 0000000000000.1300000000.067 0.06700.730 000000000000000000000000100000000000000.0500000000000零点九五0.91零点零九一000000000000000000000000100000000000000000000000000.940.059000000000000000000000000零点九五000000000000000.0530000000000零点九五0000000.053000000000000000000.045 0.9500000000000000000000000000.960.037000000000000000000000000100000000000000000000000001000000000000000000000000010000000000000000000000000100000000000000000000000001000000000000000000000000010000000000000000000000000.037 0.9600000000000000000000000001000000000000000000000000010000000000000.30000000000000.7000000000000000000000000010000000000000000零点一八000000000.8200000000000000.04800000000000零点九五00000000000000000000000001000000000000.059000000000000.05900.8800 00000000零点零六七00000000000000零点九三000000000000000000000000010000000000.050000000000.050000 00.9242322212019181716151413121110987654321024232221201918171615141312111098765432101173alal方法融合模态精度HOG+ HOG 2 [29]RGB+深度64. 5CNN：LRN [24] RGB+深度74.4CNN：LRN：HRN [24] RGB+深度77.5C3D [44]RGB+深度77.4I3D [9]RGB+深度83.10MTUTF（我们的）RGB+深度86.08表4. VIVA数据集上不同的基于多模态融合的手势方法的准确性[29]。表现最佳者用黑体字表示。方法融合模式精度VGG 16 [39]RGB+深度66.5VGG16 + LSTM [1]RGB+深度81.4C3D [44]RGB+深度89.7C3D+LSTM+RSTTM [8]RGB+深度92.2I3D [9]RGB+深度92.78MTUTF（我们的）RGB+深度93.87表5.不同多模态融合手势方法在EgoGesture数据集上的准确性[26]。表现最佳者用黑体字表示。方法融合模态精度HOG+HOG2 [29] RGB+深度36.9I3D [9] RGB+深度83.82测试模态方法RGB深度C3D 53.05 55.65C3D+SSAMTUTC3D56.56 58.71I3D 65.72 67.30I3D+SSA65.8366.96MTUT68.4371.26表7. MTUT的变化与从头开始训练的C3D和I3D骨干的比较。化参数从表7中的结果可以得出几个有趣的观察结果。如表所示，基于I3D的方法通常比基于C3D的方法表现更好。这与以前的报告一致[9]。此外，在RGB网络的情况下，C3D+SSA和I3D+SSA方法显示出改进，并且在深度模态的情况下，分别与其基础网络C3D和I3D相比具有可比的结果然而，在这两种模式中，表现最好的是我们在这些基础网络上应用的方法的完整版本这清楚地表明，当在模态之间传递知识时，我们的焦点正则化参数在避免负传递方面的重要性。请注意，在本实验中，C3D、I3D和MTUT是从头开始训练的，而在表1中，我们重新训练了它们。FRGB-D （我们的）RGB+深度85.48将他们的表现移植到用预先训练好的网络上，所有RGB-OFMTUT Fl（我们的）RGB+Opt. 流量85.48R3DCNN [26] RGB+深度+光学流量83.8I3D [9] RGB+Depth+Opt.流量85.68MTUT Fl（我们的）RGB+深度+光学流量86.93人体标记准确率：88.4表6. NVGesture数据集上不同多模态融合手势方法的准确性[8]。表现最好的用黑体字表示.特种部队损失。除了我们基于I3D的方法之外，我们还在不同的骨干网络C3D上分析了这些变化[44]。C3D是最近提出的另一种活动识别架构。我们将此方法命名为MTUTC3D。此外，我们使用C3D+SSA和I3D+SSA来指代我们的方法的具有C3D和I3D主干的版本，其包含SSA损失的变化，其不具有焦点正则化参数。对于MTUTC3D和C3D+SSA，我们在最后一个最大池化层（“MaxPool3d 5“）的特征图上应用SSA损失为了提供公平的比较设置，我们在VIVA数据集上从头开始训练这些网络，并在表7中报告它们的性能。可以看出，表现最好的是我们基于I3 D的网络，具有SSA和焦点常规-训练的重量5. 结论我们提出了一个新的框架，以利用知识的多个模态时，训练单峰网络，可以独立地工作在测试时间推断，提高准确性。我们的模型根据可用的模态训练单独的3D-CNN，并通过引入时空语义对齐损失来共享它们的知识。我们还使用焦点正则化参数对这种损失进行了正则化，该参数确保在模态网络之间仅传递正知识，并避免负传递。我们的实验证实，我们的方法可以提供显着的改善单峰网络在测试时。我们还表明，使用我们的方法训练的增强型单峰网络也可以在测试时提高多模态融合性能。将我们的方法用于多模态学习在其他应用中是一个进一步研究的课题。引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ，ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在操作系统中-MTUTMTUTF（我们的）RGB+深度86.10两个流CNN [38]RGB+可选流65.6iDT [46]RGB+可选流73.4I3D [9]RGB+可选流84.43MTUTF（我们的）RGB+可选流85.481174项目设计和实施，第16卷，第265- 283页[2] Mahdi Abavisani和Vishal M Patel。深度多模态子空间聚类网络。 IEEE Journal of Selected Topics in SignalProcessing，12（6）：1601[3] Mahdi Abavisani和Vishal M Patel。多模态稀疏低秩子空间聚类。信息融合，39：168[4] BehnamBabagholami-Mohamadabadi 、 SeyedMahdiRoost-aiyan 、 AliZarghami 和 MahdiehSoleymaniBaghshah。多模态远程度量学习：绝对非参数方法。欧洲计算机视觉会议，第63-77页。Springer，2014.[5] Yoshua Bengio无监督学习和迁移学习的表示深度学习。ICML无监督和迁移学习研讨会论文集，第17-36页，2012年[6] Necati Cihan Camgoz，Simon Hadfield，Oscar Koller和Richard Bowden。使用卷积3d神经网络进行与用户无关的连续手势识别。在专利识别（ICPR），2016年第23届国际会议，第49-54页IEEE，2016.[7] Necati Cihan Camgoz，Simon Hadfield，Oscar Koller和Richard Bowden。Subunets：端到端手形和连续手语识别。在计算机视觉（ICCV），2017年IEEE国际会议上，第3075-3084页IEEE，2017年。[8] Congqi Cao，Yifan Zhang，Yi Wu，Hanqing Lu，andJian Cheng.使用具有时空变换器模块的循环3d卷积神经网络进行自我中心手势识别。在IEEE计算机视觉和模式识别会议论文集，第3763- 3771页[9] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。[10] 瑞奇 · 卡鲁阿纳多任务学习。Machine learning ， 28（1）：41[11] Runpeng Cui，Hu Liu，and Changshui Zhang.递归卷积神经网络通过阶段优化用于连续手语识别。在IEEE计算机视觉和模式识别会议（CVPR），2017。[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第248-255页。Ie

下载后可阅读完整内容，剩余1页未读，立即下载