MSeg：统一多领域语义分割数据集的方法

103 浏览量更新于2023-10-23 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1MSeg：一种用于多领域语义分割的John Lambert1，3，ZhuangLiu 1，2，Ozan Sener1，James Hays3，4和Vladlen Koltun11英特尔实验室、2加州大学伯克利分校、3佐治亚理工学院、4Argo AI输入图像地面实况ADE20K模型Mapillary模型COCO模型MSeg模型图1：MSeg通过协调分类和解决不兼容的注释来统一多个语义分割数据集。这使得训练模型能够在各个领域保持一致，并更好地泛化此图中的输入图像（从上到下）来自ScanNet [8]，WildDash [44]和Pascal VOC [10]数据集，在训练过程中没有看到摘要我们提出了MSeg，一个复合数据集，统一了来自不同领域的语义分割数据集。由于不一致的分类法和注释实践，组成数据集的简单合并会产生较差的性能我们通过重新标记80，000多张图像中的220，000多个对象遮罩来协调分类并使像素级注释对齐所得到的复合数据集使得能够训练单个语义分割模型，该模型跨域有效地起作用，并且推广到在训练期间未看到的数据集我们采用零次交叉数据集传输作为基准来系统地评估模型的鲁棒性，并表明与在单个数据集上进行训练或在没有所提出的贡献的情况下对数据集进行朴素混合相比，MSeg训练产生了更强大的模型。在MSeg上训练的模型在WildDash排行榜上排名第一，具有强大的语义分割能力，在训练期间没有对WildDash数据的干扰。* 同等贡献1. 介绍当Papert在1966年首次提出计算机视觉作为夏季项目时，他将主要目标描述为一个程序系统，它将把一个视频显示器图像分成像是物体、像是背景区域和混乱的区域。五十年后，计算机视觉是一个蓬勃发展的工程领域，Papert描述的任务被称为语义分割[5，15，20，33，42，45]。我们达到帕普特的目标了吗对文献的粗略检查表明我们有。每年都有数百篇论文发表，报告了Cityscapes[7]、Mapillary [25]、COCO [19]、ADE 20K [46]等语义分割基准的更高准确性然而，一个简单的演习可以表明，这项任务尚未完成。当你穿越一系列环境时，拿一台相机开始记录：例如，在你的房子里打包一些用品，进入汽车，穿过你的城市到郊区的森林，徒步旅行。现在对录制的视频进行语义分割有没有一种模式可以成功地完成这项任务？计算机视觉专业人员可能会求助于多-28792880三个模型，每个模型都在不同的数据集上训练。可能是在纽约大学数据集上训练的模型用于室内部分[34]，在Mapillary上训练的模型用于驾驶部分，在ADE 20K上训练的模型用于徒步旅行。然而，这并不是一个令人满意的事态。它使开发人员负担开发多个模型并实现控制器，该控制器决定在任何给定时间应该使用哪个模型。这也表明我们还没有达到一个令人满意的视觉系统：毕竟，动物可以用一个单一的视觉器官穿越相同的环境，这个视觉器官始终在履行它的感知职责。一个自然的解决方案是在多个数据集上训练一个模型，希望结果在任何给定的环境中都能表现得和最好的专用模型一样好正如我们在实验中所观察到并证实的那样，结果远不能令人满意.一个关键的潜在问题是不同的数据集有不同的分类：也就是说，它们对构成视觉实体的“类别”或“类”有不同的定义。来自不同领域的数据集之间的分类冲突和不一致的注释实践（例如，室内和室外、城市和自然、领域特定和领域不可知）大大降低了在多个数据集上训练的模型的准确性。在本文中，我们将采取措施解决这些问题。我们提出了MSeg，这是一个复合数据集，它统一了来自不同领域的语义分割数据集：COCO [19]，ADE20K [46]，Mapillary [25]，IDD [40]，[43 ][44][45][46][47][对这七个数据集的分类法进行简单的合并将产生300多个类，在定义和注释标准方面存在大量的内部不一致性。相反，我们调和分类法，合并和拆分类，以达到一个统一的分类法与194个类别。为了使像素级注释符合统一的分类法，我们通过Mechanical Turk平台进行了大规模的注释工作，并通过重新标记对象掩码来生成跨数据集的兼容注释。由此产生的复合数据集可以训练统一的语义分割模型，更接近于实现Papert的愿景。MSeg训练产生的模型对训练期间未看到的数据集表现出更好的泛化能力我们采用零次交叉数据集传输作为模型在“现实世界”中预期性能的代理在这种模式下，MSeg训练比在单个数据集上的训练或在没有报告的分类协调的情况下在多个数据集上的训练实质上更鲁棒。特别是，我们的MSeg训练模型为强大的语义分割设定了WildDash基准的新技术水平[44]。我们的模型在WildDash排行榜上排名第一，在训练过程中没有看到任何2. 相关工作跨领域语义分割。混合分段数据集主要是在单个领域和应用程序（如驾驶）中完成的。罗斯等人。[30]汇总了六个驾驶数据集。Bevandic等人[1]混合MapillaryVistas，Cityscapes，WildDash验证集和ImageNet-1 K-BB（ImageNet的子集[9]，可使用边界框注释），用于WildDash上的联合分割和离群值检测[44]。在较小的规模上，[16，22]混合Mapillary，Cityscapes和德国交通标志检测基准。与这些工作相比，我们专注于跨多个领域的语义分割，并在更深层次上解决数据集之间的不一致性，包括重新标记不兼容的注释。Varma等人[40]评估用于驾驶的语义分割数据集的传输性能。它们只使用16个通用类，没有任何数据集混合。他们观察到，跨数据集传输明显劣于在目标数据集上训练当模型在单个数据集上训练时，或者当数据集被天真地混合时，我们Liang 等人 [18] 通过混合 Cityscapes 、 ADE20K 、COCO Stuff和Mapillary来训练模型，但不评估跨数据集泛化。Kalluri等人[14]混合数据集对（Cityscapes +CamVid，Cityscapes + IDD，Cityscapes + SUN RGB-D）进行半监督学习。阻碍统一语义分割进展的一个根本问题与上述尝试相反，我们通过导出一个连接来自多个域的数据集的一致分类来直接解决这个问题。域适应和泛化。训练数据集是有偏差的，在现实世界中的部署为训练模型提供了与训练期间所见不同的数据[38]。这被称为协变量移位[32]或选择偏差[13]，可以在适应或泛化设置中解决。在适应中，来自测试分布（部署环境）的样本在训练期间可用，尽管没有标签。一般来说，我们希望模型在接受来自多个领域的数据训练后，能够推广到以前看不见的环境。我们在泛化模式下运行，旨在训练在新环境中表现良好的鲁棒模型，在训练期间没有来自目标域的数据。许多领域泛化方法都基于这样的假设，即对训练域不变的学习特征将有助于泛化到新的领域[21，23]。Volpi等人[41]通过将域差异视为数据分布空间中的噪声来使用分布鲁棒优化。Bilen和Vedaldi [2]建议使用实例归一化来学习统一的表示并消除特定于域的Mancini等人[21]修改批标准化统计，使FEA-2881结构和激活域不变。上述领域泛化方法表明，同一个分类器可以应用于所有环境.这依赖于视觉类别的兼容定义。我们的工作是互补的，可以通过提供一个compat- ible分类和一致的注释跨语义分割数据集从不同的领域，促进在不同领域的视觉学习。Visual Do- main Decathlon [28]引入了一个超过10个图像分类数据集的基准，但允许在所有这些数据集上进行训练。更重要的是，它的目的不是训练一个单一的分类器。相反，他们希望域通过在多任务设置中传递归纳偏差来相互帮助。Triantafillou等人[39]提出了一个元数据集，用于基准测试少数分类算法。对于单目深度估计的问题，Ranftl等人。[27]使用多个数据集并通过多任务学习框架将它们混合。我们受到这项工作的启发，旨在促进语义分割中数据集混合和跨数据集泛化的进展。与Ranftl等人的工作不同，在处理几何任务（深度估计）时，我们面临着跨数据集的语义标记的不一致性，并为解决这些问题做出了贡献3. MSeg数据集表1列出了MSeg中使用的语义分割数据集。这组数据集是考虑了大量候选人的选择过程的结果未使用的数据集以及未包括它们的原因列于补充材料中。我们选择训练/测试数据集分割的指导原则是，大型的现代数据集对训练最有用，而较旧和较小的数据集是测试的良好我们在这些数据集的验证子集上测试零射击交叉数据集性能。请注意，来自测试数据集的数据（包括其训练分割）从不用于MSeg中的训练。为了验证，我们使用表1中列出的训练数据集的验证子集。我们使用免费的学术版Mapillary Vis- tas [25]。在这方面，我们放弃了对交通标志、交通灯和车道标记的非常详细的分类，而支持更广泛地访问MSeg。对于COCO [19]，我们使用COCO Panop- tic的分类法作为起点，而不是COCO Stuff [4]。COCOPanoptic分类法将COCOStuff的一些基于材料的类别合并到与其他数据集更兼容的通用类别中。(E.g.、地板-大理石、地板-其他和地板-瓷砖合并为地板。）简单地组合组件数据集会产生大约20万张具有316个语义类的图像（在合并具有同义名称的类之后）。我们发现表1：MSeg中的组件数据集。数据集名称Origin domain #Images训练验证[19]第19话+ [4]第四季第10集[46]第四十六话日常物品22,210[25]第二十五话驾驶（全球）20,000国际直拨电话[40]驾驶（印度）7,974BDD [43]驾驶（美国）8,000CITYSCAPES [7]驾驶（德国）3,475[36]第三十六话室内5,285测试PASCAL VOC [10]Everyday objects1，449 PASCALCONTEXT [24] Everyday objects5，105 CAM VID [3] Driving（英国）101[44]第44届中国国际汽车工业展览会[11]第11话：我的世界SCAN NET-20室内5，436在简单组合的数据集上训练会产生低准确性和差的泛化。我们认为，造成这种失败的主要原因以下小节解释了这些问题和我们的解决方案。3.1. Taxonomy为了训练一个跨领域的语义分割模型，我们需要一个统一的分类法。我们遵循一系列决策规则（如图3所示）来决定组件数据集分类法上的拆分和合并操作。我们通过将组件数据集合并为194个类的统一分类法来完整的列表在图4中给出，并在补充中进一步描述和可视化。这些类中的每一个都是从组件数据集中的类派生的。在设计MSeg分类法时，我们有两个主要目标。第一，要尽可能多地保留阶级。例如，护栏不应该仅仅因为COCO、BDD或IDD没有注释它而被丢弃。合并类会降低结果模型的判别能力。其次，分类法应该是扁平的，而不是分层的，以最大限度地与标准训练方法兼容。MSeg类别可以与组件数据集中的类具有以下关系之一：（a）它可以直接对应于组件分类法中的类，(b)它可以是合并来自组件分类法的多个类的结果，（c）它可以是拆分组件分类法中的类的结果（一对多映射），或者（d）它可以是从组件分类法中的不同类拆分的类的联合。2882建筑电话亭建筑袋隧道大楼电视楼层地毯扶手椅长凳主席-其他奥斯曼座椅凳子转椅沙发吊灯灯其他灯路灯跑道人行道道路积雪山人（非骑手）自行车葡萄酒酿制机械-其他自行车摩托车其他-窗帘浴帘船浴室柜台柜台-其他厨房岛书桌床头柜桌台球桌图2：从每个数据集到统一分类法的类映射子集的可视化此图显示了194个类中的40个每个实心圆表示数据集中存在具有该名称的类，而空圆表示数据集中没有该类的像素。矩形表示执行了拆分和/或合并操作以映射到MSeg中的指定类。矩形在右侧面板中放大。合并操作用直线示出，并且拆分操作用虚线示出。（最好是彩色的）。骑手摩托车手-其他自行车摩托车椅子扶手椅长椅-其他奥斯曼座椅凳子转椅沙发浴计数器柜台柜桌餐桌橱柜-其他厨房台台球桌抽屉表浴其他厨房设备-其他厨房设备表人非驾驶者骑手-其他路面路跑道路面-人行道无附加条款自行车骑手摩托车手其他自行车人行道路径人行道山希尔雪山船船游艇窗帘其他窗帘浴帘道路停车可驾驶后备路人行道遏制人行道人行道路缘石行人专用区路面窗帘其他窗帘浴帘坑洼停车路自行车道服务车道人行横道车道标记Crosswalk路建造摩天大楼布斯霍维尔塔看台建筑光吊灯灯Sconce路灯光-其他人非驾驶者骑手-其他扶手椅篮式长凳-其他奥斯曼椅子座椅慢速轮式物体凳子转椅灯吊灯灯灯光-其他Sconce葡萄酒酿制机械-其他地毯地板地毯计数器浴厨房设备-其他书桌28836图3：确定MSeg分类法中类别集的过程。更多详情请参见补充资料。图2显示了40个类的这些关系。例如，COCO和ADE20 K中的类“person”对应于Mapillary数据集中的四个类（“person”、“rider-other”、“bicy-clist”和“motorcyclister”）。因此，COCO和ADE20K中的“人”标签需要根据上下文分为上述四个Mapillary类别之一。 (See 图 2 中的框 COCO-E 和 ADE 20 K-D 。）Mapillary 比其他驾驶数据集更细粒度，并分别对Pothole，Parking，Road，Bike Lane，Service Lane，Crosswalk-Plain ， LaneMarking-General ， LaneMarking-Crosswalk进行分类。这些类合并为统一的MSeg(See方框Mapillary-C（见图2）。从组件数据集中合并和拆分类有不同的缺点。合并很容易，可以通过编程来执行，不需要额外的标签。其缺点是牺牲了投入到原始数据集中的标记工作，并且结果分类法具有较粗的粒度。另一方面，拆分是劳动密集型的要从组件数据集中拆分类，需要重新标记该类的所有掩码。这为最终的分类法提供了更细的粒度，但会花费时间和人力。图3中总结的过程是我们权衡这些成本的方法。3.2. 拆分类我们利用Amazon Mechanical Turk（AMT）重新标记需要拆分的类的掩码。我们重新诠释only the datasets used for learning, leaving the evaluationdatasets intact.而不是重新计算边界，我们公式化的问题，多路分类，并要求一个notators分类每个面具到细粒度的类别从MSeg分类。我们包括一个示例标签-ING屏幕，工作流程和标签验证过程中的补充。我们总共拆分了31个类，重新标记了221，323个掩码。我们在图2中可视化了一些拆分操作，并在补充中提供了更多细节。AMT工作人员有时会提交不准确，随机，甚至是对抗性的决定[35]。为了确保注释质量，我们在每批工作中嵌入这些哨兵任务的基础事实是明确的，并由我们手动注释。我们使用哨兵来自动评估每个标注的可靠性，以便我们可以直接工作到更可靠的标注。五个工人注释每个批次，并且重新提交工作然后，类别由多数票决定;不满足这些标准的类别由专家注释者（作者之一）在内部手动标记。4. 实验结果实作详细数据。我们使用HRNet-W 48 [37]架构作为模型。我们使用具有动量和多项式学习率衰减的SGD，从0.01的学习率开始当从多个数据集形成大小为m的minibatch时，我们将minibatch平均划分为训练数据集的数量n，这意味着每个数据集将为每个minibatch贡献m/n个示例。因此，在我们的训练过程中，统一数据集没有“epoch”的例如，在单个有效的我们训练，直到每个数据集的图像中有100万种组件数据集之间的图像分辨率不一致。例如，Mapillary包含许多图像分辨率为2000×4000，而大多数ADE20K图像的分辨率为300×400。在训练之前，我们使用2×或3×超分辨率[17]首先将具有较低分辨率的训练数据集上采样到较高分辨率（至少1000便士）。在训练时，我们将来自不同数据集的图像调整为一致的分辨率。具体来说，在我们的实验中，我们调整所有图像的大小，使其短边为1080像素（同时保持纵横比），并使用713×713px的裁剪大小在测试时，我们调整图像三项不同决议之一（360/720/1080，图像分辨率级别（360/720/1080）是根据数据集设置的。更多详情见补充资料。28841071090 25 50 75100在保留的数据集上使用MSeg分类法。在推理时，在每个像素处，我们获得统一分类法的mu个类别上的概率向量。这些统一的分类概率必须分配给测试数据集分类桶。例如，在我们的统一分类中，我们有三个独立的概率，分别是我们把这三个加在一起来计算城市景观的“骑手”概率。我们实现这种从mu类到mt类的重新映射，作为从mu到mt的线性映射P。矩阵权重Pij是二进制0/1值，并且在训练或评估之前是固定的;权重通过检查测试数据集的标签图来手动确定。如果统一分类法类j对评估数据集类i有贡献，则P ij被设置为1，否则Pij= 0。零发射传输性能。我们使用MSeg训练集来训练统一的语义分割模型。表2列出了模型到MSeg测试数据集的零激发传输结果。请注意，这些数据集在训练期间都没有被模型看到。为了进行比较，我们列出了在用于组成MSeg的各个训练数据集作为参考，我们还列出了在测试数据集的训练分割上训练的“or-cle”模型的性能。请注意，WildDash没有训练集，因此没有表2中的结果表明，在特定测试数据集上的良好性能有时可以通过在具有兼容先验的特定训练数据集上进行训练来获得。例如，对COCO的培训在VOC上产生了良好的性能，对Mapillary的培训在KITTI上产生了良好的性能。但是没有一个单独的训练数据集在测试数据集上产生良好的性能。相比之下，在MSeg上训练的模型在所有数据集上的表现都是一致的这在聚合性能中很明显，通过跨数据集的调和平均值进行求和。MSeg-trained模型实现的调和平均mIoU比最佳个体训练基线（COCO）的准确度高28%。训练数据集上的性能。表3列出了MSeg训练数据集上训练模型的准确性。我们在验证集上进行测试，并在数据集和MSeg分类法中共同存在的类的子集上计算IoU。除Cityscapes和BDD 100K外，所有训练数据集的验证集结果均无法与文献直接比较，因为MSeg分类法涉及合并多个类别。果然是单独训练出来的像素计数像素计数百分比模型通常在测试时表现出良好的准确性在同一个数据集上：在COCO上训练的模型图4：MSeg中的语义类。左：MSeg类的像素计数，以对数标度表示。右：每个组件数据集中贡献给每个类的像素的百分比。任何单一的数据集都不足以描述视觉世界。COCO等等。MSeg模型的总体性能通过数据集间的调和平均值进行总结。它比最佳个人训练基线（COCO）高出68%。2885WildDash基准。WildDash基准[44]专门评估了语义分割模型的鲁棒性。图像主要包含具有不寻常和危险条件的道路场景（例如，恶劣的天气、噪音、失真）。该基准测试旨在测试在其他数据集上训练的模型的鲁棒性，并且不提供自己的训练集提供了一小部分70张带注释的评估的主要模式是一个排行榜，带有一个测试服务器和一个带有隐藏注释的测试集。主要评估指标是Meta Average mIoU，它结合了与不同危害和每帧IoU相关的性能指标。我们将在MSeg上训练的模型的结果提交给WildDash测试服务器，并进行多尺度推理。请注意，WildDash不在MSeg训练集中，并且提交的模型在训练期间从未见过WildDash图像结果报告于表4。我们的模特在排行榜上排名第一值得注意的是，我们的模型优于在多个数据集上训练并在训练期间利用WildDash验证集的方法。与在训练过程中没有利用WildDash数据的最佳先验模型（如我们的模型）相比，我们的模型将准确性提高了9.3个百分点：相对提高了24%从多个领域学习的算法。我们评估算法方法的有效性，表2：MSeg测试数据集上的语义分割准确度（mIoU）。（零炮交叉数据集概化。）上图：在单个训练数据集上训练的模型的性能。中间：在MSeg上训练的相同模型（我们的结果）。底部：供参考，在测试数据集上训练的“oracle”模型的性能。最好的1%以内的数字用粗体表示最右边的一列是汇总度量：跨数据集的调和平均值。Train/TestVOC上下文CamVid WildDash KITTI ScanNet h. 是说73. COCO 7四十三1五十六6三十八岁。9四十八2三十三岁。9四十六岁。034 .第三十四章6二十四岁0五十三5三十七044. 3四十三8三十七122.martina.com 0十三岁582岁555. 268岁5二、19 .第九条。2IDD十四岁5六、3七十5四十650块71 .一、6六、5BDD十三岁5六、9七十一052岁155. 01 .一、4六、1城市景观12个。1六、5六十五3三十1五十八11 .一、7六、7SUN RGBD 10个。24.第一章30的情况。11 .一、40的情况。7四十二20的情况。3MSeg七十8 四十二983岁163岁163岁7四十八4五十九077.honor honor 0四十六岁。079岁。1–五十七562. 2–表3：MSeg训练数据集上的语义分割准确度（mIoU）。（在验证集上进行评估。）上图：在单个数据集上训练的模型的性能。底部：在MSeg上训练的相同模型（我们的结果）。最好的1%以内的数字用粗体表示。最右边的一列是数据集的调和平均值。Train/TestCOCO ADE20K地图 IDD BDD Cityscapes SUN h. 是说52. COCO 619号。6二十六岁731岁044. 1四十六岁。229岁4三十二114. history of life 5四十五3二十四岁3二十七岁041544. 3三十五328岁76. 7六、2五十三2四十八260269岁。70的情况。 21.4IDD3. 13 .第三章。1二十四岁3六十四八点四十三750块20的情况。62. 82886表4：提交时WildDash排行榜的结果。我们的模型，转移零射击，排名第一，并在训练过程中使用WildDash数据的模型。Meta AVG mIoU见过WildDash数据吗？48.第48章大结局3 ✗[1]第四十六章. 9 ✓[1]第四十二章. 7 ✓41 .第四十一章0 ✓[22]第二十九章：一个人0✗多领域学习，特别是领域泛化和多任务学习。我们使用最先进的多任务学习算法[31]和域泛化（DG）算法[23]。多任务学习算法MGDA [31]找到了一个帕累托最优解，可以在不同的数据集上权衡损失。DG基线，分类和对比语义对齐（CCSA）[23]，强制跨数据集的表示不变性。我们将MGDA和CCSA与表5中均匀混合数据的简单策略进行了比较。对于本实验，我们仅使用COCO、Mapillary和ADE 20K，分辨率降低（大致为QVGA，较短的图像侧为240 px）。（我们在补充中提供了所有7个训练数据集的高分辨率结果我们发现，在大多数测试数据集上，多任务学习与批量混合来自不同数据集的数据相比，会稍微损害The DGalgorithm ap- pears to hurt performance significantly.补充资料中提供了更多详细信息表5：域泛化算法（CCSA）和多任务学习算法（MGDA）与普通混合策略的比较。[31]第三十九章：一个女人 439957533546169. honeymoon243163九点三十四6487定性结果。图5提供了来自不同测试数据集的图像的定性结果。不像基线，MSeg模型在所有领域都是成功的.在ScanNet上，我们的模型提供了比提供的地面事实更准确的椅子预测。相比之下，ADE20K模型对表是盲目的，Mapillary训练的模型在ScanNet的室内机制中完全失败。在CamVid上，Mapillary和COCO训练的模型不正确地预测了路面上的人行道; ADE 20K和COCO训练的模型没有骑手的概念，并将骑自行车的人误认为行人。在Pascal VOC上，我们的模型是唯一一个正确识别站在飞机移动楼梯上的人的模型;ADE 20 K训练的模型错误地预测船，而Mapillary模型看到的是汽车。在另一个Pascal图像上，ADE20K没有马类，相应的模型无法识别它。消融研究。表6报告了对照评价VOCWildDashCamVidScanNeth. 是说[23]第四十八章. 9三十六052岁4二十七岁0 3972887输入图像地面实况ADE20K模型Mapillary模型COCO模型MSeg模型图5：MSeg测试数据集图像的定性结果。零发射转移。从上到下：ScanNet-20（顶部两行）、WildDash、CamVid和Pascal VOC（底部两行）。我们的两个贡献：统一分类法（第3.1节）和兼容的重新标记（第3.2节）。“朴素合并”基线是在复合数据集上训练的模型，该复合数据集使用朴素合并的分类法，其中类是所有训练类的联合，并且每个测试类仅在它们共享相同名称时映射到通用类。The ‘MSeg (w/orelabeling)’ base- line uses the unified MSeg taxonomy,but does not use the manually-relabeled data for splitclasses (Section 在所呈现的复合数据集（“MSeg”）上训练的模型表6：统一分类法和面罩重新标签的受控评价。零发射传输到MSeg测试数据集。这两种贡献都对泛化精度产生了积极的影响。Train/TestVOC Context CamVid WildDash KITTI ScanNet h. 是说朴素合并51岁923岁8五十六2五十九762. 6四十三444. 5MSeg（不带重新标记）七十9四十二983岁5六十四562. 644. 2五十八0MSeg七十8四十二983岁163岁163岁7四十八4五十九05. 结论我们提出了一种用于多域语义分割的复合数据集。为了构建复合数据集，我们协调了七个语义分割数据集的分类。在需要划分类别的情况下，我们通过Mechan- ical Turk平台进行了大规模的掩码重新标记。我们表明，由此产生的复合数据集可以训练一个统一的语义分割模型，该模型可以在各个领域提供一致的高性能。经过训练的模型可以推广到以前未见过的数据集，目前在WildDash排行榜上排名第一，用于强大的语义分割，在训练期间没有对WildDash数据进行扩展。我们认为，目前的工作是朝着更广泛地部署鲁棒计算机视觉系统迈出的一步，并希望它将支持未来的零杆泛化工作。代码、数据和训练模型可在https://github.com/ mseg-dataset上获得。2888引用[1] PetraB ev andi c´ 、 I v anKr esˇ o 、 MarinO rsˇic´ 和 Sin isˇaSˇegv ic´。同时语义分割和离群点检测领域转移的存在。在模式识别，2019年。二、七[2] Hakan Bilen和Andrea Vedaldi。通用表示法：面孔、文字、浮游生物和猫品种之间缺失的一环。 arXiv：1701.07275，2017年。2[3] Gabriel J. Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高清晰度地面实况数据库。模式识别Lett. ，30（2），2009. 3[4] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在CVPR，2018年。 3[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和完全连接的CRF进行语义图像分割。2015年，国际会议。1[6] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。InICCV，2017. 5[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele. Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。一、二、三[8] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Niessner.ScanNet：室内场景的丰富注释3D重建。在CVPR，2017年。第1、3条[9] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。CVPR，2009。2[10] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman. Pascal Visual Object Classes（VOC）挑战。IJCV，2010年。第1、3条[11] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 InternationalJournalofRoboticsResearch（IJRR），2013。3[12] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。LVIS：用于大词汇实例分割的数据集。在CVPR，2019年。5[13] 詹姆斯·J·赫克曼样本选择偏倚作为质量标准错误。计量经济学：《计量经济学会杂志》，1979年。2[14] Tarun Kalluri，Girish Varma，Manmohan Chandraker，还有C.V. Jawahar通用半监督语义分割。在ICCV，2019年。2[15] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边缘势的全连接CRF中的有效推理NIPS，2011年。1[16] 马可·莱昂纳尔迪，达维德·马兹尼，雷蒙多·舍蒂尼。在多个数据集上训练高效的语义分割CNN。图像分析与处理国际会议，2019年。2[17] Zhen Li ， Jinglei Yang ，Zheng Liu ，Xiaomin Yang，Gwang-gil Jeon，and Wei Wu.用于图像超分辨率的反馈网络。在CVPR，2019年。5[18] 梁晓丹，周鸿飞，邢伟。动态结构语义传播网络。在CVPR，2018年。 2[19] 作者：Michael Maire，Serge J. Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDol la'r，andC.劳伦斯·齐尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV。一、二、三[20] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。1[21] MasimilianoMancini，SamuelRotaBulo`，BarbaraCaputo，and Elisa Ricci.具有深度域概括的鲁棒位置分类.IEEERobotics and Automation Letters，3（3），2018。2[22] Panagiotis Meletis和Gijs Dubbelman。在多个异构数据集上训练卷积网络用于街景语义分割。在IEEE智能车辆研讨会（IV），2018年。二、七[23] 放大图片作者：Marco Piccirilli Adjeroh和Gi- anfrancoDoretto。统一的深度监督域自适应和泛化。InICCV，2017. 二、七[24] Roozbeh Mottaghi，Xianjie Chen，Xiaobao Liu，Nam-Gyu Cho ， Seong-Whan Lee ， Sanja Fidler ， RaquelUrtasun，and Alan Yuille.背景在野外物体检测和语义分割中的作用。CVPR，2014。3[25] GerhardNeuhold ， TobiasOllmann ， SamuelRotaBulo` ，andPeter Kontschieder.Mapillary Vistas数据集用于街道场景的语义理解。InICCV，2017. 一、二、三[26] Seymour A Papert.夏日愿景项目。1966. 1[27] Rene 'Ranftl，Katrin Lasinger，David Hafner，KonradSchindler和Vladlen Koltun。走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。 arXiv ：1907.01341，2019。二、三[28] Sylvestre-AlviseRebuffi ， HakanBilen 和 AndreaVedaldi。使用残余适配器学习多个视觉域。在NIPS。2017. 3[29] 斯蒂芬河Richter，Zeeshan Hayder，and Vladlen Koltun.为基准而战。 InICCV，2017. 5[30] 放大图片作者：SimonStent，PabloF. 阿尔坎塔里拉和渡边友树。训练约束解卷积网络用于道路场景语义分割。arXiv：1604.01545，2016年。2[31] Ozan Sener和Vladlen Koltun。多任务学习作为多目标优化。在NeurIPS中。2018. 7[32] 下平英寿通过加权对数似然函数改进协变量偏移下的预测推理。统计规划与推理杂志，90（2），2000年。2[33] 作者：John M.温恩，卡斯滕·罗瑟，安东尼奥·克里米尼西. TextonBoost用于图像理解：通过联合建模纹理，布局和上下文进行多类对象识别和分割。 IJCV ，81（1），2009年。1[34] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持RGBD图像的推理。ECCV，2012年。2[35] 瑞恩·斯诺，布兰登·奥康纳，丹尼尔·朱拉夫斯基，和吴安杰.便宜又快-但它是好的吗？评估自然语言任务的非专家注释。在自然语言处理的经验方法，2008年。52889[36] 作者：Samuel P. Lichtenberg，and Jianxiong Xiao. SUNRGB-D：RGB-D场景理解基准套件。CVPR，2015。二、三[37] Ke Sun，Yang Zhao，Borui Jiang，Tianheng Cheng，Bin Xiao，Dong Liu，Yadong Mu，Xinggang Wang，Wenyu Liu，and Jingdong Wang.用于标记像素和区域的高分辨率表示arXiv：1904.04514，2019。5[38] A. Torralba和A. A.埃夫罗斯无偏倚地看数据集偏倚。CVPR，2011。2[39] Eleni Tria

下载后可阅读完整内容，剩余1页未读，立即下载