视频手语识别中基于知识传递的模型设计与优化

26 浏览量更新于2023-10-23 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视频手语识别中的跨领域知识传递李东旭1，2，于欣1，2，3，徐晨晨1，4，Lars Petersson1，4，李洪东1，21澳大利亚国立大学，2澳大利亚机器人视觉中心（ACRV），3悉尼科技大学4DATA 61-CSIROfirstname. anu.edu.au摘要词级手语识别是手语翻译中的一项基本任务。它要求模型从视频中识别孤立的符号词。然而，注释WSLR数据需要专业知识，从而限制了WSLR数据集的获取。相反，互联网上有大量的带字幕的标志新闻视频。由于这些视频没有单词级注释，并且与孤立的标志存在很大的领域差距，因此它们不能直接用于训练WSLR模型。我们观察到，尽管存在大的领域差距，孤立和新闻标志共享相同的视觉CON-孤立符号词网络新闻标志语定位器域不变特征知识转移概念，如手势和身体动作。受此观察的启发，我们提出了一种新的方法，该方法通过将字幕新闻符号的知识转移到WSLR模型中来学习域不变描述符并对其进行施肥。为此，我们使用基本WSLR模型提取新闻标志，然后设计一个分类器，该分类器在新闻和孤立标志上进行联合训练，以粗略地对齐这两个为了学习每个类中的域不变特征并抑制特定于域的特征，我们的方法进一步诉诸于外部存储器来存储对齐的新闻标志的类质心然后，我们设计了一个时间注意力的基础上学习的描述符，以提高识别性能。在标准WSLR数据集上的实验结果表明，该方法的性能明显优于现有的方法。我们还证明了我们的方法的有效性，自动定位标志从标志新闻，实现28.1 AP@0.5。1. 介绍词级手语识别作为一种基本的手语翻译任务，旨在克服聋人的交流障碍然而，WSLR是非常具有挑战性的，因为它包括复杂和细粒度的手势在快速运动，身体运动和面部表情。最近，深度学习技术已经证明，图1：我们的模型将知识从Web通过学习领域不变特征，将新闻符号转化为WSLR模型。图中的示例帧被我们的模型识别为最好地概括手势的签名。他们在WSLR任务上的优势[21，14，28，16]。然而，注释WSLR数据集需要特定于领域的知识，因此即使是最大的现有数据集也具有有限数量的实例，例如，平均每个单词10到50个实例[21，14，26]。这比常见的视频数据集[5]要小，例如。行动学习和认知[5，44]。用于标志识别任务的有限数量的训练数据可能导致过度拟合或以其他方式限制WSLR模型在现实世界场景中的性能。另一方面，有丰富的字幕标志新闻视频很容易从网络上获得，这可能是有益的WSLR。尽管有迹象新闻视频的可用性，转移这些知识WSLR是非常具有挑战性的。首先，细微之处只提供了弱标签的出现迹象，没有时间的位置或类别的注释。第二，这样的标签是嘈杂的。例如，一个微妙的词不一定表明，如果这个词是有符号的。第三，新闻标志通常跨越9-16帧[4]，这与用于训练WSLR模型的视频（平均60帧[21，14]）在手势速度方面有很大不同因此，直接扩充WSLR62056206具有新闻标志示例的数据集不能提高识别性能。本文提出了一种在新闻符号中传递跨领域知识的方法，以提高WSLR模型的性能。更具体地说，我们首先开发了一个符号词定位器，通过采用滑动窗口方式的基本WSLR模型提取符号词。然后，我们建议通过使用新闻标志和孤立标志联合训练分类器来粗略对齐两个域。在获得粗对齐的新闻词表示之后，我们计算并存储在外部存储器中的每类粗对齐的新词的质心，称为原型存储器。由于这些领域之间共享的视觉概念对于识别标志是重要的，因此我们利用原型记忆通过将原型与孤立的标志进行比较来学习这样的域不变描述符。特别地，给定一个孤立的符号，我们首先测量孤立符号和新闻符号之间的相关性，然后结合原型记忆中的相似特征来学习一个域不变描述符。通过这种方式，我们获得跨领域共享的视觉概念的表示。在获得域不变描述符之后，我们提出了一个记忆增强的时间注意力模块，该模块鼓励模型关注不同标志之间可区分的视觉概念，同时抑制常见的手势，例如在孤立的标志视频中演示手势（举手和放下手）。因此，我们的网络专注于每个类别中共享的视觉概念，而忽略那些通常出现在不同类别中的视觉概念，从而实现更好的分类性能。综上所述，（i）我们提出了一种粗略的领域对齐方法，通过联合训练新闻标志和孤立标志的分类器来减少它们的领域差距;（ii）我们开发原型记忆，并为每个孤立的符号学习域不变的描述符;（iii）我们设计了一个记忆增强的时间注意力模型，引导模型集中学习每个类别中常见视觉概念的特征，同时抑制分散注意力的特征，从而促进分类器学习;（iv）实验结果表明，我们的方法在识别准确率上明显优于最先进的WSLR方法，WLASL和MSASL的识别准确率分别为12%和6%。此外，我们证明了我们的方法的有效性本地化标志词从句子自动，实现28.1 AP@0.5。因此，我们的方法在这一过程中具有突出的潜力。2. 相关作品我们的工作可以被看作是一个半监督学习方法从弱和噪声标记的数据。在本节中，我们简要回顾了相关领域的工作。(a)（b）第（1）款图2：在粗域对齐之前（a）和之后（b）使用t-SNE [25]可视化来自两个域的符号词训练样本。实心圆圈是孤立的符号;空十字是新闻信号。颜色代表不同的类。2.1. 单词级手语识别早期的WSLR模型依赖于手工制作的功能[39，35，38，2，9，8]。使用HMM [33，32]或DTW [24]对时间依赖性进行建模。深度模型使用2D卷积网络学习空间表示，并使用递归神经网络对时间依赖性进行建模[21，14]。一些方法还采用3D卷积网络来同时捕获时空特征[13，40，21，14]。此外，一些作品[18，17]利用人体关键点作为循环网络的输入。众所周知，训练深度模型需要大量的训练数据。然而，注释WSLR样本需要专业知识，并且现有的WSLR视频数据集[14，21]仅包含少量示例，这限制了识别准确性。我们的方法旨在解决这个数据不足的问题，并通过从互联网上收集低成本的数据来改进WSLR模型。2.2. 基于Web视频的半监督学习一些作品[23，41，10]试图通过易于访问的网络数据来学习视觉表现。特别是，[23]结合课程学习[1]和自定进度学习[20]来学习概念检测器。 [41]介绍了一种基于Q学习的模型来选择和标记Web视频，然后直接使用所选择的数据进行训练。最近，[10]发现在百万级网络数据上进行预训练可以提高视频动作识别的性能。这些作品展示了网络视频在半监督环境中的有用性。请注意，所收集的视频被视为先前作品中的个体样本。然而，我们收集的新闻视频往往在一个视频中包含多个标志，这给我们的任务带来了更多的挑战。2.3. 原型网络和外部存储器原型网络[31]旨在在有限的数据范围内学习分类模型[42]。在测试过程中，原6207IJJi=1i=1IJJj ijij ij典型的网络计算测试数据和原型之间的距离测量，并使用最近邻原理进行预测。一个原型网络提供了一个基于距离的嵌入空间的分区，并促进检索的基础上最近的相邻原型在其本质上。外部存储器为深度神经网络提供了利用上下文信息的能力。它们最初是为自然语言处理中的文档级问答（QA）问题提出的[37，34]。最近，外部记忆机制已被应用于视觉跟踪[27]、图像字幕[7]、图像分类[43]和电影理解[41]。一般来说，外部存储器通常用作在训练和测试期间向模型提供额外离线信息的来源3.3. 构建原型记忆3.3.1从弱标记视频为了利用新闻广播中的数据，我们需要从带字幕的视频中定位和提取新闻符号具体来说，我们首先通过lemmatiz-ing [29 ， 22] tokens 来预处理字幕，并将lemmas转换为pages。然后，对于每个孤立的符号类c j，j = 1，.，K，我们收集在处理的字幕中包含单词c j的视频片段。为了做到这一点，我们应用一个预先训练的分类器F，孤立的迹象Ds到收集的视频在一个滑动的胜利-道的方式。对于每个窗口，我们获取分类-每个类别的得分cj。对于每个视频Si，我们选择实现最高分类得分的滑动窗口对于cj，即，s* =argmaxsiSiF（c）j|si），其中si=Side-3. 该方法3.1. 符号具有N个标记训练样本的WSLR 数据集表示为Ds={I i，L i}N，其中I i∈Rl×h×w×3是输入RGB视频; l是帧的数量（平均64）; h和w分别是帧的高度和宽度，L i∈RK是K个类别的标签。我们还认为符号新闻数据的互补集合，由Dn=注意，si是来自Si的滑动窗口。最后，我们丢弃类得分低于阈值的窗口。我们使用Sj来表示为cj收集的新闻标志视频剪辑的集合，即， S={s|i ：F（cj|s）>}。3.3.2用于粗域对准的联合训练虽然F可以利用从孤立符号中学习到的知识在一定程度上识别新闻符号，但我们观察到F很难做出自信的预测。在{Si，Ti}M. 类似地，Si是RGB视频，但是具有特别是，F产生许多假阴性，因此平均300帧。 Ti是英语表示对应于S1的字幕的令牌。3.2. 概述我们观察到，尽管从新闻广播和孤立的标志之间的域差异，从同一类的样本共享一些共同的视觉概念，如手势和身体动作。换句话说，这些共享的视觉概念更适合于表示跨领域的知识和不变性的领域差异。出于这种直觉，我们鼓励模型学习这种跨域特征，并利用它们来实现更好的分类性能。为此，我们首先从Si中提取新闻标志，并使用新闻和孤立标志联合训练分类器以这种方式，我们能够在嵌入空间中粗略地对齐这两个域。然后，我们利用原型来表示新闻符号并存储在外部原型存储器中（第二节）。3.3）。此外，对于每个孤立的标志视频，我们通过测量其与每个存储器单元中的内容的相关性来从外部存储器中学习域不变描述符（第二节）。第3.4段）。基于我们学习的域不变描述子，我们设计了一个记忆增强的时间注意模块，在本地化步骤期间错过有效的新闻标志这是这并不奇怪，因为它承认了这个领域的差距。这种现象主要源于新闻符号与孤立符号之间的域差如图2a所示，孤立标志和新闻标志的特征呈现出不同的分布，这在这两个领域之间传递知识时是不希望的。为了解决这个问题，我们建议首先使用来自两个域，用F表示。我们使用I3D [5，36]作为F和F的骨干网络。对于特征提取，我们将其分类头移除，并使用来自最后一次膨胀的池化特征图初始子模块。图2b示出了在粗略域对准之后这两个域视频的特征表示，其中域间隙显著减小。3.3.3原型记忆在对孤立的符号进行分类时，为了充分利用新闻符号的知识，我们采用了外部分类的思想。我们建议将新闻符号的知识编码到原型记忆中，其中原型[31]存储在记忆单元中。具体来说，对于类cj，我们将其原型mj定义为cj中所有样本的特征嵌入的均值：表示集中在时间上相似的手势，从而提高分类精度。图3：这是我们方法的概述。mj=1|S*|Σs<$∈S<$F（s）.（一）国际新闻报6208δ′′M孤立的迹象新闻标志粗提取领域对齐粗对齐特征提取的新闻标志网络新闻视频域对齐器定位器Softmax原型记忆输入视频内积i3D骨干P域不变描述子时间注意力分类器预测图3：我们使用域不变描述符和记忆增强的时间注意力将粗略对齐的新闻符号的知识转移到WSLR模型的方法概述。一个原型记忆M ∈ RK×d被构造为一个原型数组，即：M=[m 1，m 2，...，其中d是原型特征的尺寸尽管有大量的标志新闻视频，但由于领域的原因，提取的样本数量要少得多间隙回想一下，我们的分类器F_n能够最小化域间隙。利用氟离子进行再收集是一种解决方案样品然而，我们观察到分类器F*在WSLR上的性能降低，并且使用F*来选择n个新闻标志视频剪辑不会生成更多的新闻标志样本。这种现象也可以在图2b中解释以来如果目标是最小化域间隙，则每个群集变为这两个领域的共同概念对于一个原始典型的记忆M ∈ RK×d和一个孤立的符号特征X∈Rt×d，其中t由视频帧的数目决定，我们的目标是生成一个类特定的com.从原型记忆中分离出来。由于xi和mi是由两个不同的骨干网络工作F和F1提取的，因此这些特征被嵌入到不同的空间中因此，为了测量X和M之间的相关性，我们采用两种不同的投影矩阵。首先将这两个空间投影到一个公共空间，然后在公共嵌入空间中计算它们的归一化点积：较不集中，这导致分类精度的降低。r（X，M）=σΣXWX（MWM）TΣ、（二）原型表示为我们提供了一种健壮的方法z Σz在有限的数据体系中代表新闻符号。它诱导其中σ（·）是softmax函数，即，σ（z）i=ei/jej基于给定的相似性度量对嵌入空间进行划分，这有助于有效地检索在新闻符号中编码的相似视觉概念。通过将它们排列在外部存储器中，我们将我们的分类模型链接到高级视觉特征的知识库。在下一节中，我们将解释如何使用这些记忆单元来学习域不变描述符，然后使用域不变特征来提升WSLR模型。3.4. 学习域不变描述子在两个域被粗略对齐之后，我们的方法将专注于使用原型记忆来学习域不变描述符通过这种方式，我们能够提取按行应用;WX∈Rd×d和W∈Rd×d分别是X和M的两个投影矩阵。当量2定义了孤立符号与公共嵌入空间中原型记忆单元中的特征之间的相关性。根据特征描述，我们在公共嵌入空间中对存储器中的特征重新加权，如下所示：U=r（X，M）M（WM+Wδ），（3）其中扰动矩阵W∈Rd×d′允许我们的6209模型补偿域对齐期间的误差1为了简单起见，我们也将这两个分类器的主干称为F和F。6210PQ′′′′是的。然后，我们将U作为X的残差映射回输入空间，并最终通过maxpooling获得域不变描述符P∈R1×d表1：数据集的统计。我们使用#class来表示每个数据集中不同类的数量;train，validation，test表示每个分割中的视频样本数量。Z=UWu+X，（4）其中WuP=maxpool（Z），（5）∈Rd′×d是一个线性映射. 接下来，我们解释如何利用P来学习单词符号表示。3.5. 记忆增强的时间注意由于从连续句子中收集孤立的标志涉及费力的逐帧注释过程，因此现有的孤立标志数据集大多在受控环境中收集以用于演示目的。特别是，孤立数据集中的手势通常由令人不安的手势组成这将增加学习WSLR分类器的难度，因为常见的手势出现在所有类中。一个好的WSLR模型应该关注那些有区别的时间区域，同时抑制恶魔手势。我们的注意力模块被设计为使用领域之间的相似性来捕获显著的时间信息，不变描述子P和孤立符号表示我们评论Eq.8沿着通道聚合特征，因此学习通道非互斥关系，而[12]聚合空间维度上的特征图，以生成每个通道的描述符。然后，我们通过将V作为残差添加到P中以进行最终分类，来补充孤立符号的特征表示通过这种方式，我们的模型学习专注于突出的节奏区域的特征，并显式地最小化不相关手势的影响。3.6. 优化我们采用二进制交叉熵损失函数[5]。具体地，给定不同类别的符号上的概率分布p，损失L被计算为：X.由于域不变描述符P是从原型存储器中获取的，因此我们将注意力集中为：1 ΣNL=− NKΣKΣΣyij log（ pij）+（1− yij） log（1− pij）记忆增强的时间注意力具体来说，由于P和X表示不同的语义并且位于它们自己的特征空间中，我们通过首先将它们投影到共享的公共空间中来计算它们的相似性矩阵S∈R1×tS=PWP（XWQ）T，（6）其中W，W是Rd×d′′中的线性映射.该操作以成对方式将域不变描述符与每个时间区域上的孤立符号的特征进行比较。然后，我们使用softmax函数对相似性映射进行归一化，以创建注意力映射A ∈R1×t：A=σ（S）。（七）当量7表示注意图A描述了嵌入公共空间中P和X的相似性。为了获得孤立符号的关注特征，我们设计了一个类似于挤压和激励的方案[12]。特别地，我们首先引入线性映射WV ∈Rd×d到将X嵌入到低维空间以用于注意力操作-然后利用线性映射WO∈Rd×d（d′′新闻中心>公司新闻>公司新闻micrtop1O.top5宏。100万RCNN [21，14]25.9755.0425.2854.1319.3146.5618.9345.7615.7539.1216.3439.168.8426.008.4925.94I3D [21，14]65.8984.1167.0184.5856.1479.9456.2478.3880.9193.4681.9494.1374.2990.1275.3290.80I3D +无水61.6382.5662.1882.7254.1980.6954.7180.9977.7093.5975.4190.3475.4090.3476.6890.69我们77.5291.0877.5591.4268.5689.5268.7589.4183.0493.4683.9193.5280.3191.8281.1492.24并在两个数据集上实现了最先进结果。RCNN。在RCNN中，它使用2D卷积网络来提取帧上的空间特征。然后，递归神经网络，如GRU [6]或LSTM[11]，被堆叠在卷积网络之上，以对时间依赖性进行建模。在我们的实验中，我们使用[21]中的实现，该实现在VGG-16之上使用两层GRU。I3D I3D [5]是一个3D卷积神经网络，它扩展了2D卷积网络的卷积滤波器和池化层。I3D最近适用于WSLR[21，14]，并实现了突出的识别精度。对于WLASL，我们使用[21]作者的预训练权重。对于MSASL，我们报告我们的再现结果。4.4. 定量结果4.4.1识别性能比较我们根据两个指标报告识别性能：（i）宏观平均精度（macro.），独立测量每个类别的准确度并计算平均值，如[14]所述;（ii）微平均精度（micro.），它计算每个实例的平均准确度，如[21]中所报告的。我们在表2中总结了结果。在表2中，I3D+n.w.结果表明，直接将新闻符号添加到训练集中对训练没有帮助，在大多数情况下甚至损害模型的性能。这表明了畴隙的影响。此外，性能的下降也揭示了将知识从新闻词转移到WSLR模型的挑战我们还注意到，在MSASL 200上，尽管有很大的领域差距，但添加新闻词后的虽然改善是轻微的，这表明我们收集的新闻标志视频的有效性。如表2所示，RCNN表现不佳主要是因为其捕获时间运动依赖性的能力有限。我们提出的方法在两个数据集上都超过了以前最先进的I3D模型。因为我们使用相同的骨干网络（I3D）作为基线模型，我们得出结论，改进来自于从新闻词转移的知识。因为新闻词汇不表现出不相关的伪像，如空转和手臂抬起，他们让模型更多地关注孤立词中的实际签名部分，并产生更强大的功能。我们观察到，我们提出的模型在WLASL上的性能大大优于传统的最先进的模型。这是因为与MSASL（ 40-50 ）相比， WLASL 的示例更少（每个类 13-20）。对于完全监督模型，WLASL中的示例数量非常稀少，需要一种有效的方法来学习良好的表示。在这方面，我们提出的方法是能够转移的知识，从新闻词，并帮助学习过程中，在这样一个有限的数据学习制度。4.4.2作为时间定位器的缺乏训练数据是单词级和手语级手语识别任务的主要障碍之一[3]。手势水平符号识别的一个这样的问题是缺乏符号的准确时间边界我们采用我们的词级分类器作为一个时间定位器，提供自动注释的时间边界的标志词在句子中。Setup. 由于没有ASL数据集提供帧-级别时态标注，我们手动标注时态120个随机的新闻词实例来验证我们的想法。这些词类来自WLASL100。我们的专家注释者提供了一个新闻句子和一个孤立的标志视频。被试被要求识别新闻句中标志词的起始框架和结束框架。注释质量控制。我们使用时间IoU（tIoU）来验证注释质量，这被广泛用于评估时间动作定位结果[30]。对于两个时间间隔I1和I2，它们的tIoU计算为tIoU =（I1<$I2）/（I1<$I2）。注释之间的初始平均tIoU为0.73。我们丢弃那些tIoU为0.5的条目<。对于其余条目，协议通过讨论达成。我们保留了102个注释条目。结果我们证明了改进的词rec- ognizer的定位精度。为此，我们采用9-16帧的滑动窗口方式的分类器，6213表3：通过mAP对符号词的时间定位的比较列的高度不同。朝声0.10.30.50.7普通I3D [21，14]27.423.915.302.4我们42.838.128.108.1如果预测的类概率大于0.2，则识别符号词。我们通过计算不同tIoU下的mAP来比较I3D与我们的模型。如表3所示，我们的方法实现了更高的定位性能。并且提供了用于自动时间注释的选项。4.5. 分析和讨论我们通过在WLASL 100上进行实验来研究我们模型的不同组成部分的效果。粗略域对齐的效果。我们首先研究的效果，如第二节中提到的粗域对齐3.3.2. 为此，我们使用分类器F提取新闻标志的特征，而不进行粗对齐，并存储类质心作为记忆。在表4中，当使用粗对准时，该模型实现了更好的性能。通过在来自两个域的样本上联合训练F，分类器将do-表4：粗域对齐对识别准确度的影响（%）。“哇。粗调”行表示没有粗略域对齐的设置。“W。粗调”行显示了粗略域对齐的结果。micro.宏。100万彩票网哇。粗调。70.93 87.21 71.30 86.25W. 粗调。77.55 91.42表5：标志新闻对识别准确度的影响（%）。不同的设置对应于不同的设置，以产生外部存储器。提取特征，F表示普通I3D，F表示后向I3D粗对准孤立的迹象（iso.）或者说，新闻是一种新闻。微型模型存储器宏。中国香港66.67 86.05 67.27 86.13嵌入空间中的电源当粗糙域如果不应用对齐，则域间隙导致不太相关的原型，并且阻止学习良好的域不变特征。跨领域知识的影响。为了研究跨领域知识的影响，我们探索了产生原型记忆的三种设置：（i）模拟只有孤立标志的情况。作为替代方案，我们使用F来提取孤立标志的特征，并使用它们的类质心作为记忆。在剩下的两个设置中，我们调查了新闻符号的有效性，体型为此，我们使用F_∞来提取两者的特征孤立和新闻标志词：（二）使用质心只有孤立的词的功能作为记忆;（iii）使用孤立的和新闻词的功能来计算质心。如表5所示，只有使用带有新闻符号的对齐模型作为内存才能实现最佳性能。我们进一步分析性能下降在其他设置如下。设置（i），模型仅从孤立的标志中检索信息，因此不能受益于跨域知识。设置（ii），孤立符号的表示由于粗略对准而受损，因此提供比（i）更差的质心。设置（iii），平均跨域样本产生噪声质心，因为它们的嵌入没有很好地聚类。5. 结论在本文中，我们提出了一种新的方法来提高手语识别模型的性能，通过杠杆-中国台湾77.52 91.08 77.55 91.42带字幕的新闻视频中的跨领域知识老化。我们通过联合训练来粗对齐孤立的标志和新闻标志，并提出将类质心存储在原型记忆中以用于在线训练和离线推理的目的。然后，我们的模型为每个孤立的符号学习一个域不变描述符。基于域不变描述子，我们采用时间注意机制来强调类的特定特征，同时抑制不同类共有的特征。通过这种方式，我们的分类器专注于从类特定的表示中学习特征，而不会分心。受益于我们的域不变描述符学习，我们的分类器不仅优于国家的最先进的，但也可以从句子中自动定位标志词，显着减少了繁琐的标记过程。谢谢。HL的研究部分由ARC机器人视觉卓越中心（CE140100016），ARC发现（DP 190102261）和ARC-LIEF（190100080）资助，以及百度在自动驾驶方面的研究资助。作者感谢NVIDIA公司捐赠的GPU。我们感谢所有匿名评论者和AC的建设性意见。iso.新闻top1top5top1top5F✓✗72.4889.9272.8089.80F✓✗72.0987.2172.3886.756214引用[1] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。第26届机器学习国际年会论文集，第41-48页ACM，2009年。[2] 贝尼特斯-基罗斯，卡迪尔-戈kg-奥兹，罗尼-比尔-布尔和马丁内斯。美国手语中非手语的判别特征和时间结构。PloS one，9（2），2014.[3] Danielle Bragg ， Oscar Koller ，Mary Bellard ， LarwanBerke ， Patrick Boudreault ， Annelies Braffort ， NaomiCaselli ， Matt Huenerfauth ， Hernisa Kacorri ， TessaVerhoef，et al.手语识别、生成和翻译：一个跨学科的视角。在第21届国际ACM SIGACCESS计算机和无障碍会议上，第16-31页。ACM，2019年。[4] 帕特里克·比勒，安德鲁·齐瑟曼，马克·艾弗林汉姆.通过看电视学习手语（使用弱对齐字幕）。2009年IEEE计算机视觉与模式识别会议，第2961-2968页。IEEE，2009年。[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[6] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv：1412.3555，2014。[7] Cesc Chunseong Park，Byeongchang Kim，and GunheeKim.关注您：使用上下文序列记忆网络的个性化图像字幕。在IEEE计算机视觉和模式识别会议论文集，第895-903页[8] Helen Cooper ， Eng-Jon Ong ， Nicolas Pugeault ， andRichard Bowden. 使用子单元的手语识别 Journal ofMachine Learning Research，13（Jul）：2205[9] Liya Ding和Aleix M Martinez.美国手语中语言成分的模拟与识别图像和视觉计算，27（12）：1826[10] Deepti Ghadiyaram、Du Tran和Dhruv Mahajan。视频动作识别的大规模弱监督预训练。在IEEE计算机视觉和模式识别会议论文集，第12046[11] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[12] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[13] Jie Huang，Wengang Zhou，Houqiang Li，and WeipingLi. 使用三维卷积神经网络的手语识别在2015年IEEE多媒体和博览会国际会议上，第1-6页IEEE，2015年。[14] Hamid Reza Vaezi Joze和Oscar Koller。Ms-asl：一个理解美国手语的大规模数据集和基准。arXiv预印本arXiv：1812.01053，2018。[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[16] PVV Kishore，G Anantha Rao，E Kiran Kumar，M TejaKiran Kumar和D Anil Kumar。使用卷积神经网络进行自拍手语International Journal of Intelligent Systems andApplications，10（10）：63，2018。[17] Sang-Ki Ko 、 Chang Jo Kim 、 Hyedong Jung 和Choongsang Cho。基于人类关键点估计的神经手语翻译。应用科学，9（13）：2683，2019。[18] 高相基，孙在基，郑惠东。基于人体关键点检测的递归神经网络手语识别。在2018年自适应和收敛系统研究会议论文集，第326- 328页。ACM，2018。[19] Oscar Koller，Sepehr Zargaran，and Hermann Ney.重新标记：用深循环cnn-hmms重新对齐端到端序列建模。在IEEE计算机视觉和模式识别会议论文集，第4297-4305页[20] M Pawan Kumar，Benjamin Packer，and Daphne Koller.潜变量模型的自定进度学习。神经信息处理系统进展，第1189-1197页，2010年。[21] Dongxu Li，Cristian Rodriguez，Xin Yu，and HongdongLi.来自视频的单词级深度手语识别：新的大规模数据集和方法比较。在IEEE计算机视觉应用冬季会议上，第1459-1469页[22] Hongwei Li，Sirui Li，Jiamou Sun，Zhenchang Xing，Xin Peng，Liu Liu，and Xuejiao Zhao.挖掘api警告知识图提高api警告可访问性在2018年IEEE软件维护和演进国际会议（ICSME）上，第183 - 193页。IEEE，2018年。[23] Junwei Liang，Lu Jiang，Deyu Meng，and Alexander GHauptmann. 学习从webly标记的视频数据中检测概念[24] Jeroen F Lichtenauer，Emile A Hendriks，and Marcel JTReinders.统计dtw与独立分类相结合的手语识别。IEEETransactionsonPatternAnalysisandMachineIntelligence，30（11）：2040[25] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579[26] Aleix M Mart 'ınez，Ronnie B Wilbur，Robin Shay，andAvinash C Kak.用于美国手语自动识别的普渡rvl-sllasl数据库。在诉讼中。第四届IEEE多模态接口国际会议，第167-172页。IEEE，2002年。[27] Seil Na，Sangho Lee，Jisung Kim，and Gunhee Kim.一种用于电影故事理解的读写存储网络。在IEEE计算机视觉国际会议论文集，第677-685页[28] 莱昂内尔·庇古，米克·范·海瑞维奇，琼尼·丹伯。基于时间残差网络的手势和手语识别。在IEEE国际计算机视觉会议（ICCV）研讨会上，2017年10月。6215[29] HinrichSchütze，ChristopherDManning和PrabhakarRaghavan。信息检索导论在Proceedings of theInternational Communication of Association for ComputingMachinery Conference，第260页，2008年。[30] 郑寿，王东港，张世福基于多级cnn的未裁剪视频中的时间动作定位在IEEE计算机视觉和模式识别会议论文集，第1049-1058页[31] 杰克·斯内尔凯文·斯沃

下载后可阅读完整内容，剩余1页未读，立即下载