类间距离特征空间传递：提升语义分割效率

130 浏览量更新于2024-06-19 收藏 606KB PDF 举报

"本文主要探讨了在语义分割任务中，如何通过知识蒸馏技术有效传递类间距离特征，以提升轻量级学生网络的性能。传统的语义分割知识蒸馏方法多关注像素级特征对齐和类内特征的提取，而忽略了类间距离这一关键信息的传递。为解决此问题，文章提出了一种名为类间距离分布（IDD）的方法，旨在将教师网络的类间距离特征空间有效地传递给学生网络。同时，考虑到语义分割任务对位置信息的敏感性，文章还设计了一个位置信息蒸馏模块，以增强学生网络对位置信息的编码能力。实验结果证明，这种方法能显著提高学生网络在Cityscapes、PascalVOC和ADE20K等数据集上的语义分割准确率，实现了最先进的性能。例如，它使基准模型（PSPNet+ResNet18）在Cityscapes数据集上的性能有所提升。本文的研究为深度学习驱动的语义分割模型的轻量化和高效化提供了新的思路。" 在语义分割任务中，深度学习，特别是基于卷积神经网络（CNN）的方法已经取得了显著的进步。然而，这些模型往往计算量大，不适用于对效率有严格要求的场景。为了解决这一问题，研究者们致力于开发轻量级的网络架构，如ENet、ESPNet、ICNet和STDC等。尽管这些网络在减少计算成本方面取得了一定的成果，但在保持高精度的同时，往往难以找到理想的平衡点。本文的核心贡献在于提出了一种新的知识蒸馏策略，即类间距离特征空间传递。传统知识蒸馏主要关注像素级别的特征对齐以及类内的特征一致性，而类间距离作为区分不同类别的重要指标，却没有得到充分重视。教师网络通常能够捕获更丰富的类间距离信息，而学生网络由于结构简单、参数较少，往往无法达到同样的效果（见图一）。为此，文章引入了类间距离分布（IDD），通过这个方法，教师网络的类间距离特性可以被有效地转移到学生网络，从而提升学生网络的分割精度。此外，考虑到语义分割对图像位置信息的高度依赖，作者还构建了一个位置信息蒸馏模块。这个模块有助于学生网络更好地学习并编码位置信息，这对于执行语义分割任务至关重要。实验结果显示，结合IDD和位置信息蒸馏，学生网络的性能得到显著增强，特别是在多个常用的语义分割数据集上，如Cityscapes、PascalVOC和ADE20K，都达到了最先进的水平。这项工作不仅强调了类间距离在知识蒸馏中的重要性，也为轻量级模型的性能优化提供了一个新的视角，对于推动深度学习在资源受限环境下的语义分割应用具有重要意义。

+v：mala2277获取更多论

文

输入

蒸馏

转移

类令牌

距离

垂直水平

教师

网络

位置

信息

类间

距离

、

{V E}

{

}

∈

我

∈

我

来控制体重损失。L

dis

（）是损失函数，例如均方误差

损失。显然，现有的方法ig-

、

输入

学生

网络

输出

图2：我们用于语义分割的IDD方法的网络。我们设计了一个图来编码教师网络中的类间距离，并将类间距离传输到学生网络。

此外，我们将教师网络中隐式编码的丰富位置信息传输到学生网络。

tar

是交叉熵损失，GT是地面实况，

和FT

分别

表示学生

网络和教师网络的特征图。

（）

表示一个映射函数。D

（GT）

和D

（

）

分别表示所有像素的地面真值和学生

网络N是像素的数量，D

（GT

）

表示

第

k个像素

其中，D（

）是

第

k个像素

它表示第i类和第

类之间的特征距离，Dis是欧几里得距

离。由于网络深度大、参数多，教师网络类间距离大。

受此特性的启发，为了使学生网络能够在类间距离方面

更好地模拟教师网络，我们设计了类间距离损失函数

，其定义为：

N N

由学生网络制作λ是一个超参数

。

−

，

（

）

更重要的是将教师网络中的班级间距离转移到学生网

络。如图2所示，我们

其中

而

代表

、

教师网络

提出了IDD方法，将教师的类间距离和位置信息传递给

学生。我们将在以下小节中详细介绍每个模块。

3.2

级间远距离蒸馏模块

语义分割是一个逐像素的分类任务。受网络结构简单、

参数少的限制，学生网络的判别能力较差，类间距离较

小。我们提出了类间距离蒸馏模块来应对这一挑战。

如图

所示，我们构造一个图

，

以编码类间类别距离，其中

，

. N

是一组节点，

表示到

处理后图像的分割类别总数

和学生网络。

3.3

位置信息提取模块

语义分割是一个依赖于位置的任务。这是在

[

伊斯兰

等

报道。

，2020

]

CNN具有编码位置信息的能力。伊斯兰

教

（

Islamet al.

）

，2020

]

，我们进一步引入位置信息提

取模块来增强学生网络预测位置信息的能力。因此，学

生网络可以在其输出特征中编码更多的位置信息，这些

信息可以用于提高分割精度。

具体来说，我们使用AR

C× H × W

代表了... 放特征

图。首先，我们将A输入到预先训练好的位置信息网络

中，以获得位置信息掩码

所以

{

、

, ... N

;

，

. N

;

}

表示

HOR

H× W

和P

VER

，它们分别代表横

坐标和纵坐标。在P

HOR

中，每列

一组边。

表示第

类的令牌，

是

通过对具有相同特征

具有相同的值，我们使用

HOR

（

∈

，

]）

rep-

类别标签

i. e

、

是两个点

重新发送列

的值，其中V

HOR

。在P

VER

中，

第

和第

类别的类令牌，其被定义为：

，

Dis

（

，

）

（

二）

每行都有相同的值，我们使用V

VER

（

，

]）

以表示行

的值，其中V

。

我们构造了一个损失函数

Lpi

来将教师网络的位置信息

传递给学生网络，

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

类间距离特征空间传递：提升语义分割效率

深度学习的语义分割：端到端教.md

虚拟现实和增强现实之场景理解算法：语义分割：增强现实中的实时语义分割.docx

虚拟现实和增强现实之场景理解算法：语义分割：卷积神经网络在语义分割中的应用.docx

知识蒸馏提升语义切分：类间距离特征空间转移与位置信息融合

深度学习驱动的语义分割：类间距离知识迁移与位置信息强化

解析图像特征提取的奥秘：语义分割中的卷积神经网络

垃圾分类的图像分割问题：语义分割与实例分割

赋能边缘设备上的图像理解：语义分割中的实时推理

提升模型对关键区域的关注：语义分割中的注意力机制

虚拟现实和增强现实之场景理解算法：实例分割：语义分割与实例分割的区别与联系.docx

最新资源