
Yiheng Zhang
†
, Zhaofan Qiu
†
, Ting Yao
‡
, Chong-Wah Ngo
§
, Dong Liu
†
, and Tao Mei
‡
{yihengzhang.chn, zhaofanqiu, tingyao.ustc}@gmail.com
cscwngo@cityu.edu.hk, dongeliu@ustc.edu.cn, tmei@jd.com
9621
0
转移和规范化预测用于语义分割
0
†中国科学技术大学,中国合肥‡京东AI研究,中国北京§香港城市大学,中国九龙
0
摘要
0
语义分割通常需要大量具有像素级别注释的图像。鉴于专家
标注的成本极高,最近的研究表明,使用具有计算机生成注
释的照片逼真的合成数据(例如计算机游戏)训练的模型可
以适应真实图像。尽管取得了这一进展,但在没有对真实图
像的预测进行约束的情况下,模型很容易在合成数据上过拟
合,因为存在严重的域差异。在本文中,我们新颖地利用语
义分割的内在属性来缓解模型转移中的这种问题。具体而言
,我们提出了一种预测转移正则化器(RPT),以无监督的
方式将内在属性作为约束来规范模型转移。这些约束包括不
同级别图像形成中的基于图像块、基于聚类和基于上下文的
语义预测一致性。由于转移是无标签和数据驱动的,因此通
过选择性地涉及图像区域的子集来解决预测的鲁棒性问题。
我们进行了大量实验证实了RPT在将在GTA5和SYNTHIA(
合成数据)上训练的模型转移到Cityscapes数据集(城市街
景)时的提升。当将RPT集成到基于对抗的分割框架中时,
我们报告了迄今为止最好的结果:从GTA5/
SYNTHIA转移到Cityscapes时的mIoU分别为53.2%/51.7%
。
0
1.引言
0
语义分割旨在为图像的每个像素分配语义标签。利用CNNs
[18,22,42,45,
46],在这一基本任务上已经取得了显著的进展[6,7,30,
36]。然而,现有方法的一个缺点是需要大量的像素级别注
释,例如在VOC[15]中。
0
本工作在京东AI研究中进行。
0
COCO[28]和Cityscapes
[11]数据集,用于模型训练。在像素级别上对语义进行标注
是昂贵且耗时的。例如,Cityscapes数据集由5000个高质
量的像素级别注释图像组成,据报道,对单个图像的注释需
要超过1.5小时。另一种选择是利用合成数据,这些数据在3
D引擎(例如SYNTHIA[41])和3D电脑游戏(例如GTA5
[40])中广泛可用。这些数据的真实语义可以自动生成,无
需手动标注。然而,在合成数据与真实图像不同的情况下,
域差距可能很难弥合。无监督域自适应通常被认为是解决域
差距问题的一种有吸引力的方法。现有的方法包括通过在域
之间转移图像来缩小差距[14,32,
50],以及通过对抗机制学习域不变表示[13,31,
49]。在本文中,我们认为源域中的模型过拟合是域不匹配
的主要原因。如图1(a)所示,虽然全卷积网络(FCN)通过
正确标记像素完美地分割合成图像,但直接将该模型部署到
真实图像上会产生较差的结果。本文不是利用目标域中的训
练样本进行模型微调,而是探索无标签约束来缓解模型过拟
合问题。这些约束在语义分割的背景下是内在且通用的。图
1(b)
(d)说明了正在研究的三个无标签约束。前两个约束,即基于
图像块和基于聚类的一致性,分别在图像块中的像素之间和
在共享相似视觉属性的图像块聚类之间引导分割。最后一个
准则,即空间逻辑,基于图像块之间的空间关系对标签的预
测进行上下文化。基于这些准则,我们提出了一种新颖的预
测转移正则化器(RPT),用于将在合成数据上训练的模型
转移到真实图像的语义分割。