图
3
:我们的基于像素对比学习的语义分割网络架构的详细说明
chorI)从几
个底片
(从训练集随机抽取的图像,不包
括I),基于样本之间的相似性原理。一个流行的损失
函数
其中,1
c
<$
表示
c
<$
的独热编码,
log
算法
被定义为逐元素
的,并且
softmax
(
y
c
)
=
exp(y
c
)
. 这样的培养目标设计主要受
对比学习,称为InfoNCE [27,55],需要以下内容-
两个限制。1)它独立地惩罚逐像素预测,但忽略像素
之间的关系[86]。
2)由于使用softmax,损失仅取决于
其中
V
+
是
I
的正的嵌入,
I
包含
负的嵌入,
表示内部
(点)积,并且
τ>0
是温度超参数。注意,损失函数中的
所有嵌入都是
l2
归一化的。
内存库。正如最近的研究[73,13,31]所揭示的,一
大组负面(
即
,
I
)在无监督的对比表示学习中至关重
要。由于阴性的数量受到小批量大小的限制,最近的
对比方法利用大的外部存储器作为库来存储更多的导
航样本。具体地,一些方法[73]直接将所有训练样本
的嵌入存储在存储器中,然而,容易遭受异步更新。
其他一些选择保留最后几个批次的队列[68,13,31]
作为内存。在[13,31]中,存储的嵌入甚至通过
CNN
的
编码器网络的动量更新版本实时更新。
3.2.
监督对比分割
逐像素交叉熵损失。
在语义分割的上下文中,图像
I
的
每个像素
i
必须是分类的。
[56]关于学习的陈述。这两个问题很少被注意到;通过
考虑像素相似性[40]、优化交集大于并集测量[2]或最大
化地面实况和预测图之间的交互信息[86],仅设计了几
个结构感知损失来解决1)。然而,这些可选损失仅考
虑图像内像素之间的依赖性(
即
,局部上下文),而
不管图像上的像素之间的语义相关性(
即
,全局结
构)。像素间对比度。在这项工作中,我们开发了一
种基于像素的对比学习方法,通过正则化嵌入空间和
探索训练数据的全局结构来解决1)和2)我们首先扩
展Eq.(1)到我们的监督的、密集的图像预测设置。
基本上,我们的对比损失计算中的数据样本是训练图
像像素。另外,对于像素i
利用其地面实况语义标签
c
’
,假设样本是也属于类别
c
’
的其他像素,而假设样本是属于其他类别的像素。
c
¯
。我们的
监督式像素对比度损失定义为:
将此任务视为像素分类问题。
具体地,设
fFCN
是FCN编码器(
例如
,ResNet [32]),