G
{
|
{\fnSimHei\bord1\sha
d1\pos
(
200
,
288
)
}
通过分层聚合的少镜头图像分类5
设定图像和相应原型的图像。使用经验风险最小化(ERM)的每个事
件的最终损失函数定义如下:
其中
d
(
i
)表示距离函数(
例如,
,ProtoNet方法的平方欧几里德距
离遵循原始论文[36])。
4
方法
4.1 FSL中的Pretext任务
辅助少量学习的预文本任务有两种设置:数据增强(DA)和自我监
督学习(SSL)(见图1中的示意图)。我们首先定义一组预文本任务
操作符
=
g
j
=
1
, ,
J
,其中
g
表示使用第j个借口任务的运算符,
J
是借口任务的总数。此外,我们还使用
M
来表示通过使用针对每个
原始图像的第j个借口任务生成的增强图像的数量,并且该任务的伪
标签
集
被
定义
为
Y
j
=
0
, ,
M
.一
、
例如
,
对于
2D旋转
算子,每个
原始图像将以90直角的倍数旋转(
例如,
,90
°
,180
°
,270
°
),其中
增强图像是
M
旋 转
=
3, 并且
伪
标签
集合
是
Y
旋 转
=
{
0
,
1
,
2
}
。
Given
a
r
a
w
epis o
de
T
=
{S
,
Q
}
,
如
第3.1中,我们依次利用G中的这些预文本任
务 算 子 来 增 强 T e 中 的 每 幅 图 像 。 这 导 致 J 个 增 强 片 段 的 集 合 为
T
=
{
(
,
,
,
j
)
|
y
∈
,
y
∈Y
,
i
=
1
,
···
,
M
×
l
,
M
×
(
l
+
1)
,
···
,
M
×
(
l
+
l
)
,
j
=
1
,
···
,
J
}
,
其中第一图像
M
×
l
来自扩充支持集
S
,其余图像
M
×
l
来自扩充查询集
Q
。
数据扩充。
对于DA设置,我们使用组合事件T
=
{{S
,
Q
}|
r
=
0
,
···
,
J
}
,
其中{S
0
,
Q
0
}是原始片段,并且{{S
,
Q
}|
R
=
1
,
···
,
J
}
是增强的片段。当
r
≥1时
,
除非另有说明,否则等于
j
。
T
中的每个图像(
,
)采用相同的类标
签
(来自人类注释)用于监督学习以提高FSL的性能。目标是最小
化交叉熵损失:
L
=
1
L
(
S
,
Q
)
.
(三)
使用基于相同标签空间的经验风险最小化(ERM)算法(
例
如,
,y
)
来学习原始和增强的特征表示。然而,如果增强的图像具有
模糊的表示,这种优化方法可能会干扰FSL模型的语义学习。
自我监督
学习。
对于SSL设置,Te中的每个原始图像
(
,
)
使用
类
标签
用于
支
持
学习,
而
aug中的
每个
增强
图像
(
,
)
携带伪
标签
用于自
支持
学
习。
多任务
学习
损失(FSL主任务和SSL辅助任务)通常采用如下:
L
=
L
(S
,
Q
)+
δ
β
L
,