深度学习驱动的语义分割：类间距离知识迁移与位置信息强化

特征空间

9 浏览量更新于2024-06-16 收藏 606KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了在深度学习驱动的语义分割任务中，如何有效地利用类间距离信息以提升模型性能。传统的语义分割方法，如知识蒸馏，往往侧重于像素级别的特征对齐和类内特征变异的提取，而忽视了对整个分割任务至关重要的类间距离信息。类间距离在特征空间中的传递能够帮助模型理解不同类别之间的区分度，从而提高分割的精确性。作者提出了一种创新的方法，即类间距离分布（IDD），旨在从一个预训练的教师网络中提取并传递类间距离特征到学生网络。教师网络，作为具有丰富经验的模型，能够在特征空间中展现出显著的类别界限，而学生网络由于网络结构简单、参数较少，往往无法充分捕捉这些信息。通过IDD，学生网络得以模仿和学习教师网络在不同类别间的距离分布，从而增强其分割决策的能力。同时，考虑到语义分割任务的定位敏感性，作者还开发了一个位置信息蒸馏模块，用于强化学生网络对空间关系的理解。这个模块有助于学生网络更好地编码和利用位置信息，这对于保持像素级别的细节和整体场景的理解至关重要。实验结果在Cityscapes、PascalVOC和ADE20K等常用数据集上展示了IDD方法的有效性，它显著提升了基准模型（如“PSPNet+ResNet18”）的准确率，特别是在处理城市景观等复杂场景时。尽管存在计算成本与精度之间的权衡问题，但通过IDD，论文作者成功地在一定程度上实现了这一目标，展示了在轻量化模型设计中，关注类间距离知识的重要性。总结来说，这篇文章的核心贡献在于引入了类间距离分布的概念，以及开发了包含位置信息蒸馏的策略，从而优化了深度学习语义分割模型的性能，尤其是在提升大类间距离理解和分割精确度方面。这种方法对于寻求在效率和精度之间取得平衡的实时应用具有重要意义。

资源详情

资源推荐

+v：mala2277获取更多论

文

输入

蒸馏

转移

类令牌

距离

垂直水平

教师

网络

位置

信息

类间

距离

、

{V E}

{

}

∈

我

∈

我

来控制体重损失。L

dis

（）是损失函数，例如均方误差

损失。显然，现有的方法ig-

、

输入

学生

网络

输出

图2：我们用于语义分割的IDD方法的网络。我们设计了一个图来编码教师网络中的类间距离，并将类间距离传输到学生网络。

此外，我们将教师网络中隐式编码的丰富位置信息传输到学生网络。

tar

是交叉熵损失，GT是地面实况，

和FT

分别

表示学生

网络和教师网络的特征图。

（）

表示一个映射函数。D

（GT）

和D

（

）

分别表示所有像素的地面真值和学生

网络N是像素的数量，D

（GT

）

表示

第

k个像素

其中，D（

）是

第

k个像素

它表示第i类和第

类之间的特征距离，Dis是欧几里得距

离。由于网络深度大、参数多，教师网络类间距离大。

受此特性的启发，为了使学生网络能够在类间距离方面

更好地模拟教师网络，我们设计了类间距离损失函数

，其被定义为：

N N

由学生网络制作λ是一个超参数

。

−

，

（

）

更重要的是将教师网络中的班级间距离转移到学生网

络。如图2所示，我们

其中

而

代表

、

教师网络

提出了IDD方法，将教师的类间距离和位置信息传递给

学生。我们将在以下小节中详细介绍每个模块。

3.2

级间远距离蒸馏模块

语义分割是一个逐像素的分类任务。受网络结构简单、

参数少的限制，学生网络的判别能力较差，类间距离较

小。我们提出了类间距离蒸馏模块来应对这一挑战。

如图

所示，我们构造一个图

，

以编码类间类别距离，其中

，

. N

是一组节点，

表示到

处理后图像的分割类别总数

和学生网络。

3.3

位置信息提取模块

语义分割是一个依赖于位置的任务。这是在

[

伊斯兰

等

报道。

，2020

]

CNN具有编码位置信息的能力。伊斯兰

教

（

Islamet al.

）

，2020

]

，我们进一步引入位置信息提

取模块来增强学生网络预测位置信息的能力。因此，学

生网络可以在其输出特征中编码更多的位置信息，这些

信息可以用于提高分割精度。

具体来说，我们使用AR

C× H × W

代表了... 放特征

图。首先，我们将A输入到预先训练好的位置信息网络

中，以获得位置信息掩码

所以

{

、

, ... N

;

，

. N

;

}

表示

HOR

H× W

和P

VER

，它们分别代表横

坐标和纵坐标。在P

HOR

中，每列

一组边。

表示第

类的令牌，

是

通过对具有相同特征

具有相同的值，我们使用

HOR

（

∈

，

]）

rep-

类别标签

i. e

、

是两个点

重新发送列

的值，其中V

HOR

。在P

VER

中，

第

和第

类别的类令牌，其被定义为：

，

Dis

（

，

）

（

二）

每行都有相同的值，我们使用V

VER

（

，

]）

以表示行

的值，其中V

。

我们构造了一个损失函数

Lpi

来将教师网络的位置信息

传递给学生网络，

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习驱动的语义分割：类间距离知识迁移与位置信息强化

基于深度学习的语义分割问题研究综述

深度学习用于语义分割

深度学习语义分割论文

如何利用深度学习提升语义分割的性能？

语义分割和实例分割_【图像分割模型】实例分割模型—DeepMask

unet语义分割的种类

语义分割unet部署

在maskformer出现后，可不可以帮我想几个关于语义分割或实例分割或全景分割或视频方向的分割的论文题目以及创新点研究方向

写一个yolov5结合Biset语义分割的程序

关于pointnet模型在semantic3d数据点云分割上的应用

描述Resnet深度学习网络模型

基于Swin Transformer图像分割

Python深度学习基本原理

deeplabv3+ cityscapes 加载预训练模型

paddlex模型在python部署

深度残差网络可以用来处理数据嘛？

resnet16神经网络模型

常用的深度学习神经网络

图像分割pytorch DEEPLAB

deeplabv3plus主干网络

最新资源