来控制体重损失。L
dis
()是损失函数,例如均方误差
损失。显然,现有的方法ig-
输入
输出
图2:我们用于语义分割的IDD方法的网络。我们设计了一个图来编码教师网络中的类间距离,并将类间距离传输到学生网络。
此外,我们将教师网络中隐式编码的丰富位置信息传输到学生网络。
L
tar
是交叉熵损失,GT是地面实况,
FS
和FT
分别
表示学生
网络和教师网络的特征图。
()
表示一个映射函数。D
(GT)
和D
(
FS
)
分别表示所有像素的地面真值和学生
网络N是像素的数量,D
(GT
k
)
表示
第
k个像素
其中,D(
FS
)是
第
k个像素
它表示第i类和第
j
类之间的特征距离,Dis是欧几里得距
离。由于网络深度大、参数多,教师网络类间距离大。
受此特性的启发,为了使学生网络能够在类间距离方面
更好地模拟教师网络,我们设计了类间距离损失函数
L
id
,其被定义为:
k
N N
更重要的是将教师网络中的班级间距离转移到学生网
络。如图2所示,我们
提出了IDD方法,将教师的类间距离和位置信息传递给
学生。我们将在以下小节中详细介绍每个模块。
3.2
级间远距离蒸馏模块
语义分割是一个逐像素的分类任务。受网络结构简单、
参数少的限制,学生网络的判别能力较差,类间距离较
小。我们提出了类间距离蒸馏模块来应对这一挑战。
如图
2
所示,我们构造一个图
=
,
以编码类间类别距离,其中
=
v
i
i
=
1
,
. N
是一组节点,
N
表示到
-
处理后图像的分割类别总数
和学生网络。
3.3
位置信息提取模块
语义分割是一个依赖于位置的任务。这是在
[
伊斯兰
等
报道。
,2020
]
CNN具有编码位置信息的能力。伊斯兰
教
(
Islamet al.
)
,2020
]
,我们进一步引入位置信息提
取模块来增强学生网络预测位置信息的能力。因此,学
生网络可以在其输出特征中编码更多的位置信息,这些
信息可以用于提高分割精度。
具体来说,我们使用AR
C× H × W
代表了... 放特征
图。首先,我们将A输入到预先训练好的位置信息网络
中,以获得位置信息掩码
|
i
=
1
, ... N
;
j
=
1
,
. N
;
i
=
j
}
表示
P
HOR
R
H× W
和P
VER
R
H
×
W
,它们分别代表横
坐标和纵坐标。在P
HOR
中,每列
一组边。
v
i
表示第
i
类的令牌,
v
i
是
通过对具有相同特征
重新发送列
j
的值,其中V
HOR
=
j
。在P
VER
中,
第
i
和第
j
类别的类令牌,其被定义为:
e
i
,
j
=
Dis
(
v
i
,
v
j
)
.
(
二)
每行都有相同的值,我们使用V
VER
(
i
[1
,
W
])
以表示行
i
的值,其中V
V
ER
=
i
。
我们构造了一个损失函数
Lpi
来将教师网络的位置信息
传递给学生网络,