自互蒸馏提升连续手语识别：融合视觉与上下文模块

PDF格式 | 1.52MB | 更新于2025-01-16 | 67 浏览量 | 举报

连续手语识别（Continuous Sign Language Recognition, CSLR）是深度学习领域的一个重要研究方向，特别是在视频信号处理中，它旨在理解和翻译手语表达。近期，深度学习技术极大地推动了CSLR的发展，特别是通过构建复杂的网络结构，如结合视觉模块和上下文模块来捕捉空间、短时和长时信息。传统的CSLR模型通常包括： 1. 视觉模块：专注于捕捉手势的空间布局和短期时间特征，它通过深度神经网络（DNN）学习手部、身体动作和环境背景等视觉元素。然而，由于反向传播中的链式规则限制，视觉模块的优化可能受到限制，无法完全适应最佳视觉特征提取。 2. 上下文模块：负责关注更长时间序列中的上下文信息，如手势之间的关联性和动态变化。主流方法使用条件随机场（Conditional Random Field, CRF）或连接主义时间分类（Connectionist Temporal Classification, CTC）损失函数来训练网络，使得上下文模块在优化过程中主要关注上下文而非视觉特征。为了克服这种不平衡，本文提出了自互蒸馏学习（Self Mutual Knowledge Distillation, SMKD）方法。SMKD的主要创新在于： - 共享分类器：视觉和上下文模块共享同一分类器的权重，这样两个模块可以相互学习，增强对时空信息的理解，同时提高它们区分短期和长期特征的能力。 - 光泽度分割：引入到视觉模块中的技术，用于减少图像中的峰值现象，如饱和度，从而更好地提取和利用关键帧的视觉信息。 - CTC损失优化：尽管CTC损失有助于选择关键帧，但它可能导致其他帧信息丢失。SMKD通过改进的策略，保持了整体序列的信息完整性。在实验部分，作者在两个CSLR基准测试集，即PHOENIX14和PHOENIX14-T上验证了SMKD的有效性。结果表明，与传统方法相比，SMKD不仅提升了识别准确率，还实现了视觉和上下文模块的均衡优化，从而在连续手语识别任务中取得了显著的进步。这一研究对于提高手语识别系统的性能，特别是对于促进听力障碍人群的无障碍沟通具有实际意义。

11305

视觉模块

模块

CNN

Δt

CNN

BiLSTM

CNN

光泽分割

...

分类器

Δt

CNN

...

BiLSTM

CNN

Δt

CNN

...

BiLSTM

Δt

CNN

...

分类器

CNN

推断结果

分类器

∈

ΣΣ

∥

关于

我

们

不

上下文

HEUTE / NACHT / FLUSS /DREI

不

图

拟定

SMKD

的流程图。该过程包括使用

2D-CNN+1D-CNN

（视觉模块）的视觉提取和使用

BiLSTM

（上下文模块）的上下

文集成。视觉和上下文模块共享其相应分类器的权重，并同时使用

CTC

和光泽分割进行训练注意，只有来自上下文模块的预测

序列有助于推断阶段期间的识别，如虚线框所示。

学生模型，通过提供软目标 [11]或直接继承教师然

而，如[32]所示，朴素知识蒸馏存在两个问题：知识

转移效率低，教师模式设计困难。为了解决这些问

题，Zhang

等

。[32]提出了自蒸馏的思想，即从模型本

身提取知识，以提高泛化性能。此外，一些作品[33，

31]建议完全免除教师，并允许学生合奏教每个

bel序列l

其中G是注释词汇表。为了对映

射进行建模，所提出的方法包含如Sect.2.1.所提出的方

法的结构如图所示。2，详情如下。

特征提取。视觉模块

由分别编码空间和短期时间信

息的2D-CNN和1D-CNN形成。然后，我们得到局部视

觉特征（LVF）：

另一种称为互蒸馏。在这项工作中，我们建议将模型

的不同模块视为多个模块。

⇒

.Σ

−

、

...

、

（一

）

通过共享学生网络的权重矩阵实现知识转移

自互知识蒸馏

提出了一种SMKD方法，以充分利用视觉模块的能

力我们首先提出的框架和制定所提出的方法（节。第

3.1节）。然后，我们重新审视CTC损失（第二节）。

3.2）

其中

，

T/S表示LVF的持续时间，S是下采样率，并

且r表示视觉模块的时间接收场。对于上下文模块

，

利用两层BiLSTM来编码视觉信息。

在一些实施例中，所述方法包括：存储由视觉模块提

供的长期上下文信息，并且将所述长期上下文信息与

内部状态一起存储。然后，获得全局上下文特征

（GCF）：

并给出了权重分配的细节，以促进视觉模块的贡献

（Sect.3.3）。之后，我们显示

∈

⇒

.Σ

，

…

，

（二

）

Sect.3.4，随后是添加光泽分割以强制视觉模块在更多

帧中提供视觉特征的所提出的解决方案（Sect.3.5）。

最后，我们提出了一个三阶段的优化方法的网络的训

练（节。3.6）。

识别. 与A-softmax损失类似[20]，我们不-

将分类器的权重

平均化并忽略其偏置项（即

，

）。给定学习的特征向量

，

类别

处的

tcosθ

，

（

）

3.1.

框架和制定

给定图像序列

∈

其中

。

不

∈

不

是在软-

通过T图像，CSLR旨在学习

将图像序列变换为其对应的光泽度la-

最大激活函数，θ

表示

和

。基于提取的fea-

逐帧特征

视觉特征

连接时态分类

HEUTE NACHT FLUSS DREI

剩余10页未读，继续阅读

cpongm

粉丝: 6

自互蒸馏提升连续手语识别：融合视觉与上下文模块

一种用于手语识别的中国手语分类方法

手语识别手语识别手语识别手语识别手语识别手语识别

基于深度学习的印巴连续手语识别技术

Indo-Sign-Language-Recognition:印度-巴基斯坦手语的连续手语识别

基于深度学习的连续手语语句识别算法.pdf

基于深度学习的手语识别

基于深度学习的手语识别综述

增强一致性：深度学习改进的连续手语识别模型

视觉对齐约束提升连续手语识别性能

递归卷积神经网络在弱监督连续手语识别中的应用

最新资源