递归卷积神经网络用于连续手语识别的弱监督框架

141 浏览量更新于2023-10-15 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7361递归卷积神经网络用于通过阶段优化的崔润鹏刘虎张昌水清华大学智能技术与系统国家重点实验室清华大学信息科学与技术国家实验室（TNList），北京，中国{crp16@mails，liuhu15@mails，zcs@mail}. tsinghua.edu.cn摘要本文提出了一种基于深度神经网络的弱监督框架，用于基于视觉的连续手语识别。在该框架中，手语句子的视频中有有序的注释标签，但没有我们的方法通过引入用于时空特征提取和序列学习的递归卷积神经网络来解决视频片段到注释的映射。我们为我们的架构设计了一个三阶段的优化过程。首先，我们开发了一个端到端的序列学习方案，并采用连接主义时间分类（CTC）作为目标函数的比对建议。其次，我们把对齐支持作为更强的监督来调整我们的特征提取器。最后，利用改进的特征表示方法对序列学习模型进行优化，并设计了弱监督检测网络进行正则化。我们apply- ply所提出的方法，一个真实世界的连续手语识别基准，我们的方法，没有额外的监督，实现的结果与国家的最先进的。1. 介绍手语被认为是手势交流中语法结构最完整的一类。手语的这一特性使其成为开发解决运动分析和人机交互等问题的方法的理想试验平台连续手语识别不同于孤立的手势分类[7，20]或符号识别[8，23，30]，其是从视频流中检测预定义的符号，并且监督包含每个符号的精确时间位置。在连续手语的问题上*前两位作者对本书的贡献相当识别中，每个手语句子的视频被提供有其有序的注释标签，但每个注释没有时间边界。（我们通常使用“光泽”来表示自然语言中最接近意义的符号[24]。因此，连续手语识别可以看作是一个弱监督问题，其主要问题是学习图像时间序列与注释序列之间的对应关系。最近，使用深度卷积神经网络（CNN）的方法在手势识别[20]和符号识别[23，30]方面取得了突破，并且递归神经网络（RNN）在学习符号识别中的动态时间依赖性时显示出显著的结果[21，26]。然而，使用深度神经网络进行连续手语识别仍然具有挑战性和重要性。在这个问题中，要求识别系统能够从弱监督的未分割视频流中实现表示和序列学习。由于视频序列和光泽度标签是以手势级别给出的，因此训练数据的量将急剧增加，以使模型正确地对齐手势和光泽度标签，而不会过度拟合。尽管RNN在处理符号识别中的复杂动态变化方面表现出优于隐马尔可夫模型（HNN）的性能[21，26]，但在训练数据量有限的情况下，RNN更倾向于以过拟合结束。此外，尽管深度CNN已被证明在几乎所有计算机视觉任务中优于手工制作的特征，但在这个问题上，CNN使用CNN作为视觉特征提取器的复杂这提出了构建合适的语义学习目标来指导特征提取器的训练过程的挑战。本文提出了一种从连续图像中进行真实世界手语识别7362图1.这是我们的阶段性培训方法的概述：（1）用特征和序列学习组件端到端训练完整架构以预测比对建议;（2）用比对建议训练特征提取器;（3）用改进的表示序列作为输入训练序列学习组件，该改进的表示序列由微调的特征提取器给出。溪流我们工作的主要贡献可以概括如下：(1) 我们用递归卷积神经网络开发了我们的架构，以在这个弱监督问题中实现与最新技术相当的性能，而无需导入额外的信息;(2) 我们充分利用深度卷积神经网络的表示能力，将句子级标签分割为大量带有注释标签的时间段(3) 我们设计了一个三阶段的优化过程来训练我们的深度神经网络架构（见图1）。1），并在有限的训练集上取得了显著的效果;(4) 据我们所知，我们是第一个提出完全基于深度神经网络的真实世界连续手语识别系统的人，我们从具有挑战性的连续手语视频流中证明了其适用性。2. 相关工作大多数手语识别系统包括一个特征提取器来表示手语的空间和时间变化，以及一个序列学习模型来学习特征序列和注释序列之间的对应关系此外，连续手语识别[16，18，19]也与弱监督学习问题密切相关，其中无法获得注释的本文从这几个方面介绍了时空表征。在符号分析领域[8，16，22，25]中的许多先前的工作使用手工制作的时空表示特征。近年来，由于深度神经网络的卓越表现能力，人们对特征提取的兴趣越来越大。神经网络方法采用-手势分析中使用的工具包括CNN [17，18，26]，3D C-NN [21，23，30]和时间卷积[26]。然而，由于连续手语学习问题中的数据不足，深度神经网络的训练往往以过拟合而告终。为了缓解这个问题，Kolleret al.[18]将CNN集成到弱监督学习方案中。他们使用带有手形的弱标记序列作为初始化，迭代地调整CNN，并使用期望最大化（EM）算法优化手形标签Koller等人[17]还采用手指和手掌方向作为用于调谐CNN的弱监督。与[17，18]不同的是，我们的方法不需要额外的注释，我们直接使用光泽级对齐建议而不是子单元标签来帮助网络训练。序列学习手语识别的目的是通过序列学习模型学习输入序列与手语标签之间的对应关系。障碍被广泛用于手语分析中，用于从连续时间序列中进行序列最近，RNN在符号识别任务中表现出了最先进的性能[21，26]。Pigou等人[26]提出了一种具有时间卷积和双向递归的端到端深度架构。Molchanov等人[21]使用具有CTC的他们的体系结构与我们的体系结构相关，但是期望简单地应用他们的方法将在连续的手语识别中工作得很好是不平凡的，因为他们的目标不是识别整个手语句子，而是句子内的孤立的修饰。据我们所知，我们是第一个完全基于深度神经网络开发连续手语识别架构的公司。弱监督学习由于图像序列中的符号修饰缺乏时间边界，连续手语识别也是一个典型的弱监督学习问题。Cooper和Bowden [6]使用数据挖掘的方法从视频中提取相似区域，然后使用Mean Shift [5]方案进行细化7363t=1t=1t=1t=1nJIJn=1n=1n=1t=1t=1时间域中的位置。Buehler等人[3]设计一个基于多实例学习的评分函数来定位感兴趣的标志。Pfister等人[25]使用时空特征萃取器让{xt}T=（x1，···，xT）是作为具有时间T的图像序列的输入视频流。我们使用函数F来表示CN-字幕、口型和手部动作的线索来搜索N，其变换输入帧{xt}T一个空间代表-通过歧视性的MIL方法。但大部分表示向量序列{t}T=F（{xt}T）与这些方法涉及从大量标志视频中挖掘感兴趣的孤立标志的问题一个相关的工作，我们最近提出的科勒等人。[19]第10段。他们开发了一种混合CNN-HMM方法，该方法将CNN的输出视为贝叶斯后验，ft∈Rc.我们将具有零填充和时间池操作的堆叠时间卷积设置为函数P：R×c→Rd，具有感受野、时间步幅δ和输出维度d，并且具有长度的每个片段被变换成时空表示：使用HMM预测的帧级隐藏状态，收听CNN。我们的方法和他们的方法之间有关键的区别：（1）而不是给定带有噪声的帧级标签{sn}N=P（{ft}T ）=P（F（{xt}T）），（1）es作为CNN的训练目标，我们考虑了时间变化，并采用光泽级对齐来训练时空特征提取器;（2）我们的方法是自包含的，不需要其他系统的结果来初始化帧状态对齐。3. 方法基于视觉的连续手语识别系统通常以手语者的表情图像序列为输入，学习自动输出正确顺序的注释标签。在这项工作中，我们提出的方法采用CNN与时间卷积和池化，从视频剪辑中进行时空表示学习，并采用RNN与长短期记忆（LSTM）模块其中N=T/δ表示段的数量，并且Sn∈Rd表示线段n的表示。与时间操作P F堆叠的CNN的结构是时空特征提取架构，其将视频片段转换为近似的光泽级表示。在我们的实验中，我们将感受野设置为10帧，这等于[9]提供的孤立注释的中值长度。因此，我们称之为近似双向LSTM 双向LSTM（BLSTM）通过从t=1到τ向前迭代和从t=τ到1向后迭代来组合LSTM的输出序列来计算隐藏状态序列，其可以简单地表示为：{hc}N=R（{sn}N），（2）学习特征序列到掩饰n n=1n=1为了有效地训练我们的深度架构，我们引入了一个三阶段的优化过程：（1）通过利用特征提取器和序列学习组件端到端训练完整架构来找到比对建议;(2)通过使用注释级段和分类之间的对应关系其中R表示BLST的时间建模函数其中hc是BLSTM最后，我们采用了一种完全一致的方法--与softmax连接的层将BLSTM的输出转换为具有K个类别的光泽标签的分类概率：Cc ce[（hj）]i从对齐建议中计算概率;（3）调整具有改进的特征表示的序列学习组件，Pij=[σcls（hj））]i=∑Kk=1e[h（c）]k、（3）作为输入。为了改进序列预测的结果，我们提出了一个符号检测网络，并将检测与序列学习输出联合起来作为序列学习的正则化。我们的方法的概述如图所示。1.本节的其余部分将详细讨论我们的方法。其中P∈[0，1]K×N，Pc是标签i在时间j的发射概率，σcls表示在类上执行的softmax函数，而σ cls表示全连通层r到R K的线性映射。这里我们用[·]i来表示向量的第i个元素.探测网。在建议的检测网络中，我们在空间上使用堆叠的时间卷积操作3.1. 网络架构时间特征向量{sn}N，就像是一个滑动-我们提出的架构包括一个CNN与TEM-窗口检测方式沿着光泽度水平特征se-序列堆叠时间卷积C变换用于空间和局部时间的局部卷积和池化特征提取，用于全局序列学习的双向LSTM [13]，以及用于细化{sn}N保护：长度为N的表示序列，序列学习结果。{hd}N=C（{sn}N）的情况。（四）n n=1n =17364πn，nt=1n=1t=1∑图2.优化过程的端到端学习阶段概述。表1.我们的建筑结构。时间卷积的参数表示为“conv 1D-[感受野]- [通道数]"。时间池化层用stride标注，双向LSTM（用“BLSTM”表示）用其隐变量的维数标注。在我们的架构中，全连接层的输出维度等于光泽词汇表的大小。其中πn是π在时间n的标号，Pc是πn在时间n的发射概率。如[11，12]所示，由于空白分隔光泽标签的方式不同，相同的输入和目标序列（没有空白）可能具有不同的对齐方式。我们将比对的多对一映射定义到目标序列y为B，观察到y的概率是所有对应的比对的概率之和我们传递序列{hd}N通过softmax层获取致它：n n=1检测评分如下：DPr（y|x）=∑Pr（π|（十）、（七）d de[（hj）]iπ∈B−1（y）Pij=[σdet（σ（hj））]i=∑Nd，（5）（h）k=1eki其中B-1（y）={π|B（π）=y}是所有对齐的集合。其中， Pd∈[0 ， 1]K×N ，表示R K 的线性变换 .Softmaxσdet与σcls不同。在检测网络中，σdett比较每个类别的时间建议，并选择那些与得分较高的类别匹配的片段，而σcls预测每个时间步的可能类别。我们提出的架构的配置在表1中呈现。3.2. 通过端到端学习提出调整建议条款。CTC损失函数定义为：LCTC（x，y）= − log Pr（y|X）。（八）设S为训练集，S为图像序列及其有序标签序列（x，y）的集合，w为提出的深度架构，我们将训练目标定义为：L=λw2+1L（x，y），（9）在端到端培训阶段，我们的完整架构使用特征提取器和序列学习模型2|S|（x，y）∈SCTC图像序列x={xt}T作为输入，并学习以端到端的方式输出有序的光泽标签y（见图2）的情况。由于我们没有关于符号在未分割图像流中出现的位置的先验知识，因此在这里我们采用连接主义时间分类（CTC）[12]作为我们完整架构的目标函数。CTC是一个目标函数，它整合了输入序列和靶序列之间所有可能的比对。我们在gloss词汇表中添加了一个额外的类“blank”，以显式地对两个相邻符号之间的过渡进行建模。CTC对齐π则是空白和光泽的序列其中λ是正则化的超参数。通过在端到端训练策略中，对于每个输入序列x，我们的体系结构在每个时间步输出分类分布pn，并且我们将它们作为对齐命题Pα（x）={pn}N。我们使用对齐建议作为更强的监督，以进一步调整我们的深层架构，以便在后期进行特征提取。3.3. 具有对齐建议的特征学习我们的端到端培训阶段提供以下输出：长度为N的标签。设x={xt}T，概率BLSTM作为视频片段之间的近似对齐，Pr（π|π的x）由概率的乘积给出：项和光泽标签。为了充分利用Pr（π|x）=中国n=1时空特征提取器CNN（VGG-S /GoogLeNet）Conv1D-3-1024maxpool1D-2conv1D-3-1024maxpool1D-2递归神经网络检测网BLSTM-512全连接层softmaxConv1D-2-256conv 1D-2-256全连接层7365Pr（πn|x）=中国n=1Cπn，n、（6）深度架构的特征学习能力，我们在每个时间步，将分类得分作为片段的注释级监督，并且我们使用这些片段，P7366n=1n=1knknn=1图3.特征学习过程和对齐建议的概述类概率作为更强的监督，以直接调整深度时空特征提取器（见图2）。（3）第三章。在这里，我们用softmax层φ扩展光泽级编码架构P F，它将输入x转换为：φ（P <$F（x））={φ（sn）}N、（10）图4.这说明了整合分类和检测分数的方法其中φ（sn）∈[0，1]K是时间步长n的预测分类分布。给定对齐建议Pα（x）={pn}N，它提供了目标在每个时间步的分类分布，我们定义了目标对于光泽级别对齐：预测光泽序列，而且还将标签与根据视频片段更精确地对齐，从而提高模型的泛化能力。与图像中的视觉对象检测不同[2]，没有建议的方法来分割和生成候选项-Lalign（x，Pα（x））=1∑NNn=1dKL（pn<$φ（sn）），（11）时间序列中感兴趣的时间间隔。因此，我们构建检测网络，如3.1节所介绍的，沿着其中我们使用 Kullback-Leibler 散度 dKL 来度量 φ（sn）和pn之间的分布差异。从而提出了本阶段的培训目标如：光泽级特征序列。我们使用Pc和Pd的元素乘积，并对时间过程中的得分进行求和1L=|S|∑（x，y）∈SL对齐（x，Pα（x））。（十二）zk= ∑Nn=1c·Pd，（13）我们将对齐建议作为将学习目标分配给时间段，这提供了具有更强监督的大量光泽级训练样本，并且我们使用该方案来调整特征提取器以获得更好的时空表示。其中，我们将zk∈（0，1）作为该手语视频中出现的注释k图4示出了整合检测和分类的分数的方法。我们设Y是目标序列y中包含的注释集，A是没有“空白”的注释字典。然后，训练检测网络的目标函数由下式给出：3.4. 从表示学习序列在这个阶段，我们采用调谐特征提取器来提供视频流x的表示序列{sn}N，Ldet（x，y）=∑k∈A\Ylog（1−zk）+∑k∈Ylogzk.（十四）我们进一步训练序列学习模型，具有CTC损失的有序标签，将表示作为输入。我们把Ldet作为预测tem的正则化poral位置，以及训练该阶段的序列学习模型如下：为了进一步提高我们的递归神经网络的泛化能力，避免过拟合，L=λw2+1∑ （LCTC+µLdet）（x，y），（十五）在[2]中提出的弱监督对象检测方案中，我们提出了符号掩盖的检测网络，以隐式地在时间序列中定位它们。通过结合CTC目标函数优化检测方案，深度网络架构不仅可以学习P73672| S|（x，y）∈S其中λ和μ是正则化的超参数，w是我们提出的序列学习架构中所有滤波器参数的堆叠向量。7368通过将序列预测和光泽检测的得分结合在一起，该模型不仅使用序列线索，而且还考虑了检测中的上下文，并且期望预测与检测输出相一致的更精确的对齐。此外，检测网络可以被看作是多任务学习的一个组成部分，具有用于表示的共享权重，这鼓励了序列学习的进一步改进。4. 实验在本节中，我们分析了我们的方法在连续手语识别上的性能。4.1. 实现细节数据集和评价。我们在 RWTH-PHOENIX-Weathermulti-signer 2014 [10]上评估了我们的方法，这是一个公开的连续手语识别基准数据集。该数据集包含5，672个用于训练的德语手语句子，总共有65，227个符号注释和799，006个帧。这些视频由9名签名者表演，每个视频包含一个单独的注释句子。为了定量地评价系统的性能，我们采用了连续手语识别中广泛使用的误词率（WER）作为评价标准。WER测量将参考序列转换为假设的最少置换、#sub +#del +#ins3帧间隔内的一个句子作为正补丁对，来自另一个句子的一个帧作为负补丁，其中没有共享注释。我们训练网络使用-随机梯度下降（SGD），固定学习率为5×10−5，动量为0.9。我们将批处理大小设置为48，并在16，000次迭代后停止预训练。通过端到端学习提出调整建议。我们从预训练的VGG-S模型中移除最后一个完全连接的层，并向其添加堆叠的时间卷积和池化作为时空特征提取器。我们提出了一个BLSTM作为序列学习模型，我们使用Eq.9，λ=5×10−4，以训练完整架构。我们采用ADAM [15]作为随机优化方法，固定学习率为5×10- 5。我们应用高达±20%的时间缩放作为数据增强的方法，以增加视频序列的可变性特征学习与对齐建议。我们开始用端到端训练阶段给出的对齐建议来训练特征提取器。该对齐方案被用来生成大量的视频片段，并以相应的分类分数作为监督。我们以10：1的比例分割训练和验证对集，并保证从同一句子中提取的视频片段属于同一集合。在调整表示学习架构的阶段，我们采用在ILSVRC-2014 [27]上预训练的GoogLeNet [28]作为CNN模型，它在大规模图像分类问题上表现出更好的性能WER=、（十六）引用中的单词数第为了扩展其时间感受野以与视频片段兼容，我们对Con进行了修改其中#sub、#del和#ins分别代表所需取代、缺失和插入图像预处理为了提供可比较的结果，所有输入图像都被向右裁剪（主图像）。t）由RWTH-PHOENIX-Weather multi-signer 2014数据集提供的手补丁。裁剪的补丁大小为92×132像素。在我们的实验中，这些作物的大小大小为101×101（对于VGG-S [4]）或224×224（对于[28]《明史》：“明史之乱，必有乱。ed.CNN训练在这个阶段，我们专注于在堆叠的一维时间卷积和池化之前对CNN进行空间表示的预训练。我们首先使用在ILSVRC- 2012数据集上预训练的VGG-S模型初始化CNN [27]。我们选择这种然后，我们将tanh的非线性应用于最后一个完全连接的层，并在训练集上对网络进行微调，训练集包含三个补丁，包括正对和负对，就像PN-Net [1]的工作一样我们选择两个相邻的帧，vNet通过在GoogLeNet的每个分类器之前插入具有最大池化层的堆叠时间卷积。我们采用ADAM [15]作为随机优化方法。我们将固定的学习率设置为5 × 10−5，批量大小设置为20，并在16，000次迭代后停止微调。从表示学习序列。在训练序列学习模型的阶段，我们从微调GoogLeNet的层“pool5/7x7s1”中提取特征图作为视频流中右手的每个补丁的表示。我们使用特征序列作为输入来调整序列学习架构，目标函数定义在等式中。15，其中我们设置λ = 5 × 10−4，µ = 0。5和将学习率固定为5×10−5。4.2. 结果设计选择。我们分析了其性能和效果。测试我们提出的方法中的每个单独组件。在端到端的对齐训练阶段，我们研究了我们的特征和序列学习架构的成分。我们用3D-CNN [21，29]代替我们提出的具有堆叠时间卷积的CNN，7369池化，并且我们还评估了从视频帧预训练具有PN-Net[1]中采用的损失的C-NN的效用此外，我们也尝试找出不同的递归序列学习模式的效果这些实验的连续手语识别结果列于表2中。我们使用我们从表2中观察到，我们提出的以稍后融合方式进行时空表示的方法[14]在这个问题中的表现大大优于递归3D-CNN我们认为，具有时间卷积的CNN表现更好的原因是，与具有相同层数的3D-CNN相比，参数较少，因此不太容易过拟合。我们还注意到，在训练视频中的右手补丁上预训练我们的模型进一步提高了性能，因为网络从手形流的相似性和连续性中学习。在序列学习阶段，我们分析了序列学习模型中各个组成部分的作用，在序列学习阶段，我们从特征提取中获得时空表示模型设置验证del / ins /WER测试del / ins /WERC3d+BLSTM45.6/ 2.5 /76.846.9 2.8 /77.6ConvTC+RNN19.5/ 6.8 /53.818.9 1996年7月至1997年7月，ConvTC+LSTM21.4/ 6.3 /50.920.7/ 6.8 /51.3ConvTC+BLSTM16.8/ 6.8 /47.815.8/ 7.9 /47.3+预训练16.3/ 6.7 /46.215.1/ 7.4 /46.9表2. RWTH-PHOENIX-Weather 2014多签名者数据集上端到端训练阶段的识别结果，以[%]表示。“C3d” stands for the3D-CNN structure employed in [21, 29], “ConvTC” for ourproposedfeatureextractionarchitecturewithVGG-Snetpretrained on ISLVRC 2012, and “+pretrain” for our modelfurther pretrained with PN-Net [1] loss on the right hand patchesfrom training模型设置验证del / ins /WER测试del / ins /WEROur-end2end16.3/ 6.7 /46.215.1/ 7.4 /46.9RNN19.6/ 5.4 /45.018.1/ 6.2 /44.8LSTM18.1 1999年12月31日至1999年12月31日17.1/ 6.6 /43.6BLSTM14.9/ 6.7 /41.415.1/ 7.1 /41.9BLSTM+det net13.7/ 7.3 /39.412.2/ 7.5 /38.7tor并调优经常性组件。为了理解我们提出的检测网络的实用性，我们在这个实验中将其从我们的模型中我们还用不同的递归模型代替所用的BLSTM。在表3中，我们观察到BLSTM在递归模型中提供了最好的性能请注意，与单独使用BLSTM学习顺序映射相比，使用检测网可以获得始终如一的优越实验结果证明了我们提出的时间检测网络的有效性此外，我们观察到，通过使用对齐程序微调特征提取器，不同序列学习模型给出的所有结果在端到端训练阶段都优于最佳结果。这表明表示学习过程是至关重要的，并大大有助于性能的校准评估。我们进一步分析了我们提出的方法从对准性能的角度。我们观察图。5，仅具有CTC损失的BLSTM在错误率和定位精度方面均显示出比完整模型差的预测。我们指出CTC只优化了序列间的对应关系，而没有考虑比对。我们的基于滑动窗口的检测网络隐式地将片段级检测分数与顺序预测对齐，这导致更好的对齐。因此，我们的检测网络的就业更倾向于拥有更好的推广性能的整个模型。表3. RWTH-PHOENIX-Weather 2014多签名者数据集上序列学习阶段的识别结果，以[%]表示。我们评估了不同的循环模型和我们提出的检测网络的性能。“BLSTM+det net” standsfor the employed model with bidirectional LSTM and detectionnet,and“Our-end2end”forthefullmodelwithbestperformance in the stage of end-to-end从图5中，我们还观察到在微调特征提取器之后对准性能的显著增益。该观察结果与表3中的WER结果一致。多个签名者的结果。在我们的实验中，没有专门针对签名者之间的变化而采取或设计任何方案。9个签名者的训练样本量在该数据集中是不平衡的，其中三个最多的签名者占26.0%，22.8%，14.7%，三个最少的签名者占0.5%，0.8%，2.9%，而这些签名者在验证集上的WER（以%计）分别为36.0%，38.6%，43.8%和45.8%，43.3%，38.7分别这表明我们的系统可以学习不同签名者之间的共享表示，并在一定程度上处理签名者之间的变化。比较。在表4中，我们评估了我们提出的方法以及RWTH-PHOENIX-Weather多签名器2014数据集上的最新技术。我们观察到，我们的方法实现了相当的性能，以国家的最先进的，而不使用额外的监督，其中包含一个手语词典映射的迹象，手形序列。此外，我们的方法只使用信息-7370图5.来自测试集的注释句子视频的定性对齐结果的两个示例。颜色用于表示不同的注释，横轴用于表示时间。“Our-end2end”stands for the full model at end-to-end stage, “Ours” stands for the top- performing model with BLSTM and detection net at sequencelearning stage, and “Ours w/o det net” stands for the BLSTM sequence learning 我们通过与RWTH-PHOENIX-Weather 2012数据集[9]提供的光泽样本进行比较来手动注释地面实况模型设置额外监督模态右向轨迹脸验证del/ins WER测试del /insWERHOG-3D [16]C25.8/4.260.923.2/4.158.1[16]CMLLR[18]第十八话CCCCC21.8/3.919.1/4.155.051.620.3/4.517.5/4.553.050.2[16]第十八话：一个人的世界CCCC16.3/4.647.115.2/4.645.1[19]第十九话CC12.6/5.138.311.1/5.738.8Our-end2endC16.3/6.746.215.1/7.446.9我们C13.7/7.339.412.2/7.538.7表4.不同连续手语识别方法在RWTH-PHOENIX-Weather 2014多签名者数据集上的性能比较“r-hand”代表右手，“traj”代表轨迹运动。“Extra supervision” imported in [18]来自优势手的信息甚至比那些多模态方法好很多。这些结果可以定量地证明我们的方法的有效性。请注意，我们的方法对CNN-Hybrid系统进行了改进[19]。应该澄清的是，我们的系统是独立的，不需要从其他系统导入的初始对齐。而在CNN-混合系统中，在[18]+[16]的方法提供的初始对准的帮助下实现了最佳性能。因此，多模态信息和外部监督被隐含地引入，以帮助其系统的优化然而，似乎适当地利用额外监督是显著提高绩效的关键，我们可以在未来的工作中对此进行研究。此外，还需要将算法扩展到多模态版本，以整合互补线索，以便进一步改进。5. 结论在本文中，我们提出了一种用于连续手语识别的递归卷积神经网络深度架构我们设计了一个阶段优化-用于训练我们的深度神经网络架构的过程。我们充分利用C-NN的表示能力，对大量的光泽级段进行调整，并有效地避免了与深层架构的过拟合我们还提出了一种新的检测网络，用于正则化序列预测和检测结果之间的一致性。我们的方法的有效性在一个具有挑战性的基准上得到了证明，我们已经实现了与最先进的性能相当的性能。确认本工作得到了国家自然科学基金973计划（2013 CB329503）（批准号：61473167号61621136008），和德国研究基金会（DFG）在项目跨模态学习DFC TRR-169。引用[1] V. Balntas，E.约翰斯湖Tang和K.米科莱奇克PN-Net：用于学习局部图像描述符的联合三重深度网络。arXiv，2016.7371[2] H. Bilen和A. 维达尔迪弱监督深度检测网络在Proc.CVPR，2016中。[3] P. Buehler，A.Zisserman和M.Everingham 通过看电视学习在Proc.CVPR，2009中。[4] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。在Proc. BMVC，2014年。[5] D. Comaniciu和P.米尔Mean Shift：A Robust ApproachToward Feature Space Analysis（Mean Shift：一种稳健的特征空间分析方法）IEEE模式分析与机器智能学报，24（5）：603[6] H. Cooper和R.鲍登从字幕中学习符号：一种弱监督的手语识别方法在Proc.CVPR，2009中。[7] H. Cooper，E. J. Ong，N. Pugeault和R.鲍登使用子单元的手语识别。Journal of Machine Learning Research，13：2205[8] G. D.埃万格尔湾Singh和R.霍罗德从关节姿势进行连续手势识别。在ECCV工作-商店，2014年。[9] J. Forster，C. Schmidt，T.霍尤岛科勒大学Zelle，J. H.Piater和H.内伊RWTH-PHOENIX-Weather：一个大型的虚拟手语识别和翻译语料库。2012年语言资源与评估会议[10] J. Forster，C.施密特O. Koller，M. Bellgardt和H.内伊手语识别和翻译语料库 RWTH-PHOENIX-Weather的扩展。在语言资源和评估会议，2014年。[11] A. Graves. 基于递归神经网络的监督序列标记。Springer，2012.[12] A. Gr av es，S. Fern a`ndez，F. Gomez和J. 施米德胡贝河连接时态分类：用递归神经网络对未分段序列数据进行标记。国际禁止洗钱委员会程序，2006年。[13] A. Graves和J.施密特胡博使用双向LSTM和其他神经网络架构进行逐帧音素分类。神经网络，18（5）：602[14] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和F.- F.李用卷积神经网络进行大规模视频分类。在Proc. CVPR，2014。[15] D. Kingma和J. BA. Adam：一种随机优化方法。InProc.ICLR，2015.[16] O. Koller，J. Forster，and H.内伊连续手语识别：面向处理多个签名者的大词汇量统计识别系统计算机视觉和图像理解，141：108[17] O. Koller，H. Ney和R.鲍登连续手语的HamNoSys亚基的自动识别。在语言资源和评估会议研讨会- s，2016年。[18] O. Koller，H.Ney和R.鲍登Deep Hand：如何在100万张手部图像上训练CNN，当你的数据是连续的和弱标记的。在Proc. CVPR，2016中。[19] O. Koller，S. Zargaran，H. Ney和R.鲍登深度符号：用于连续手语识别的混合CNN-HMM。InProc. BMVC，2016.[20] P. Molchanov，S.古普塔角Kim和J.考茨使用3D卷积神经网络进行手势识别在CVPR研讨会，2015年。[21] P. Molchanov，X. Yang，S.古普塔角Kim，S.泰瑞，还有J. 考茨基于递归3D卷积神经网络的动态手势在线检测和分类在Proc. CVPR，2016中。[22] C. Monnier，S. German和A.奥斯特多尺度增强检测器，用于高效和鲁棒的手势识别。在ECCV研讨会，2014年。[23] N. 内韦罗瓦角沃尔夫G.Taylor和F.内布用于手势检测和定位的多尺度深度学习。在EC-CV研讨会，2014年。[24] S. Ong和S.兰加纳特自动手语分析：词汇意义之外的调查与未来。IEEE模式分析与机器智能学报，27（6）：873[25] T. Pfister，J.Charles和A.齐瑟曼。通过看电视大规模在Proc.BMVC，2013.[26] L. Pigou，A. v. d. Oord，S. Dieleman，M. M. Van Her-reweghe和J.丹布尔除了临时池：视频中手势识别的递归和时间卷积。arXiv，2015.[27] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和F.- F.李ImageNet大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211[28] C.塞格迪W.刘先生，Y.贾，P.SermanetS.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在Proc.CVPR，2015中。[29] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用三维卷积网络学习时空特征。在Proc. ICCV，2015中。[30] D. 吴先生， L. 庇古， P. - J. Kindermans， N. 乐 L.邵J. Dambre和J. - M.奥多贝兹用于多模态手势分割和识别的深度动态神经网络 IEEE Transactions on PatternAnalysis and Machine Intelligence，38（8）：1583

下载后可阅读完整内容，剩余1页未读，立即下载