鲁棒语义分割的季节变化和天气条件下强制标签一致性的方法

21 浏览量更新于2023-10-19 收藏 1.4MB PDF 举报

季节变化

分割算法

身份认证购VIP最低享 7 折!

30元优惠券

9532一种用于鲁棒语义分割的埃里克·斯滕博1，3拉尔斯·哈马斯特朗1，马克·波列夫2，4托尔斯滕·萨特勒1弗雷德里克·卡尔11查尔姆斯理工大学2苏黎世联邦理工学院计算机科学系3Zenuity4微软摘要在本文中，我们提出了一种方法，利用在不同的图像条件下拍摄的图像之间的2D-2D在匹配中强制标签一致性使得最终的分割算法对季节变化具有鲁棒性。我们描述了如何生成这些2D-2D的匹配，几乎没有人的互动，几何匹配点从3D模型建立从图像。创建了两个跨季节对应数据集，提供跨季节变化以及从白天到晚上的2D-2D匹配。这些数据集是公开的，可以促进进一步的研究。我们证明，在训练过程中添加对应关系作为额外的监督，可以提高卷积神经网络的分割性能，使其对季节变化和天气条件更具鲁棒性1. 介绍语义分割是为图像中的每个像素分配类别标签的任务，是计算机视觉中的基本问题之一。语义分割还被用于将更高级别的场景理解集成到其他计算机视觉问题中，例如，密集三维重建[6，13，14，23，28，31，55，56，61]，SLAM [7，35]，运动恢复结构[3]，3D模型对齐-[15，16，73]和位置识别[1，42，60]。视觉定位是估计图像的相机姿态的问题[8，34]，通常来自图像像素和3D场景点之间的一组2D-3D匹配。在长期视觉定位的背景下[58，63-由于季节变化。这些方法基于场景部分的语义对于这种变化是不变的因此，当仅基于图像外观的匹配失败时，语义用于建立姿态估计所需的2D-3D匹配图1. 2D-在不同条件下拍摄的图像之间的2D匹配，使用与3D点云的匹配建立。然而，到目前为止，相同的语义分割可以在不同条件下可靠地再现的假设这主要是由于用于训练语义分割算法本身的标记数据集仅限于少数条件。由于像素级注释是手动执行的，因此添加更多的训练数据既耗时又昂贵[17，44]。然而，与不使用语义信息相比，即使是相当嘈杂的分割也会提高局部化性能[58，65]。这自然会引出一个问题，即是否有可能建立一个反馈循环：语义分割算法可以通过视觉定位得到改进吗？这反过来又能带来更强大的本地化结果吗？作为相对于从图像构建的3D模型估计在一个条件下拍摄的图像的相机姿态的一部分，建立2D-3D匹配的集合。通常，参考3D模型是从图像构建的[54]。因此，2D-3D对应性导致在不同条件下拍摄的图像之间的一组2D-2D匹配，如图2所示。1.一、在本文中，我们表明，这些像素级的匹配可以用来改善语义分割算法。具体而言，本文做出了以下贡献：1）在不同条件下拍摄的两个图像之间的2D-2D匹配-9533输入条件提供了对训练过程的约束，即这两个像素应该接收相同的标签。我们使用这种见解来制定一个可以添加到训练过程中的损失函数，而无需修改分割算法的架构2）我们证明了所需的对应集可以在很少的人类监督下生成，尽管没有地面真值标签。这与创建标记的训练数据集形成鲜明对比，后者需要大量的人力[49]。我们将跨季节对应数据集公开1。3）我们表明，使用我们的基于对应性的损失，以及一些粗略注释的图像，以防止琐碎的解决方案，可以导致在不断变化的成像条件的背景下分割质量的显着改善如果基础训练集只覆盖单一条件，则改进尤其显著2. 相关工作语义分割。基于深度神经网络的进步，语义分割算法的性能在过去几年中有了很大的提高。Longet al. [37]表明，最初训练用于分类的卷积神经网络（CNN）可以转换为用于语义分割的全后续工作通过例如扩大感受野[10，72]，纳入更高水平的背景[76]或融合多尺度特征[11，50]来改善FCN。此外，已经彻底研究了FCN和结构模型（如连续随机场（CRF））的组合，无论是作为后处理步骤[10]还是作为网络的一部分[33，36，77]，都可以进行端到端培训。训练这些网络需要大量的注释图像，这对于语义分割来说可能是昂贵且耗时的。作为回应，许多弱监督方法已经被建议利用边界框[19，29，45]，图像级别标签[45，47，48，62]或点[4]形式的标签同样，我们改进的分割性能的FCN利用监督，需要更少的手动工作，以获取比像素级注释。然而，我们建议使用可以以半自动方式获取的数据，而不是使用较弱但仍然手动注释的标签。域适配。域自适应方法旨在学习在目标域中表现良好的模型，假设在源域中只有可用的注释。早期的工作包括[30，52]将特征转换为域不变特征空间[52]或源特征域[30]。几项工作集中在CNN模型的域适应上[21，38，39，67]。1https://visuallocalization.net这些方法通过对齐目标和特征分布[38，39]或使用对抗性训练设置来学习产生域不变特征的模型，从而鼓励域混淆[21，67]。最近，已经提出了用于密集预测任务的几种域自适应方法[12，26，53，66，68，69，78]。其中大多数[12，25，26，43，53，66，78]使用合成数据集，例如，[49，51]，能够自动生成大量带注释的合成图像。[25，43，53]中提出的方法都使用某种形式的图像转换方法，例如在执行分割之前将源图像转换到目标域另一种常见的方法是使用对抗性训练设置，如[26，68，69]中所示，鼓励网络产生欺骗域代理的特征。我们感兴趣的是提高我们的分割器在不同的图像上的性能。具体来说，我们的通信中包含的不同条件和季节可以被视为目标域。我们使用3D几何一致性作为监督信号，而不是使用无监督域自适应。我们的跨季节对应数据集促进了分割方法在不同目标域的适应，消除了依赖于纯粹无监督域适应方法的需要。语义3D映射。语义3D重建方法[6，13，14，23，28，31，41，55，56，61]使用语义图像分割来辅助重建过程。它们使用体素体积来表示场景，并共同推理几何和语义占用。使用语义通常导致更一致和完整的3D模型。这些3D模型可以投影到图像中以获得精细的语义分割[28]。然而，语义重建过程是显着更复杂的多视图立体过程相比，我们用来获得对应。存在联合预测深度和语义的方法[20，32]或使用深度信息来辅助语义分割[24]。然而，他们仍然依赖于标记的数据。我们不知道任何工作使用像素correspondences通过3D模型获得创建额外的约束语义分割。3D和语义数据集。室内[9，18，70]和室外场景[22，27]的大型数据库提供语义和3D几何结构，因此也可以用于通过几何结构进行语义注释的图像[71]。然而，我们不知道任何这样的数据集，捕捉不同的海洋和照明条件。从这个意义上说，我们的工作填补了文献中的空白。3. 语义对应丢失使用2D-2D图像对应的基本原理是，CNN最初在一个9534X我XRX我大规模数据集，如城市景观[17]，在有利条件下拍摄的图像上表现良好（即，与训练集中的条件类似）。然后，我们可以使用对应数据来加强在有利条件下捕获的图像与在具有挑战性的条件下捕获的图像之间的标记一致性。为此，我们定义和测试两个不同的损失函数的基础上铰链损失和交叉熵损失，这将鼓励标签的一致性。损失是针对CNN设计的，其中可以提取中间特征层的值，并且其中最终输出是每个输入像素的类标签上的概率分布的估计。我们将来自跨季节对应数据集的一个样本的内容表示为（Ir，It，xr，xt）。我在这里是来自参考遍历的图像，It是来自目标遍历的图像，并且xr和xt是参考和目标图像中的匹配点年龄，分别。参考遍历被选择为具有在最有利的图像条件期间捕获的图像的注意，参考图像取自同一遍历，而目标图像在所有其他可用遍历之间变化。对应损失函数Lcorr将是所有此类样本Σ在训练期间，我们最小化由基于标准交叉熵Lsup的完全监督数据的一个项以及一个对应项Lcorr组成的损失。由此产生的总损失为L=Lsup+λLcorr，其中λ是对应关系影响的加权项。4. 一个跨季节对应数据集本节介绍跨季节对应数据集的创建和内容。数据集的每个样本包含在不同季节或天气条件下拍摄的两个附近图像以及图像之间的一组2D- 2D点对应关系。使用两点之间的几何3D一致性自动建立对应关系。在不同条件下，几何形状通常比例如光度信息更稳定一些样品的可视化可以在图中看到。二、使用[54]中提供的数据集作为起点，我们创建了两个对应数据集。[54]使用的数据集最初分别基于CMU视觉定位数据集[2]和RobotCar数据集[40]对应数据集的创建可以分为四个主要步骤。首先，摄像机为所有Lcorr=（r，t）l（Ir，It，xr，xt），（1）所有条件下的图像都需要在一个共同的坐标系在我们的案例中，这些是由[54]的作者善意提供的。其次，一个密集的3D点云，其中l是铰链损失l铰链或交叉熵损失lCE，下面介绍令dx∈RF表示在像素位置x处长度为F的分割CNN的特征向量。这可以是网络的最后一层，其中F等于类或更早的中间要素层。我们将一个样本的对应铰链损失l铰链定义为为每个条件和遍历单独地创建周围的几何形状。第三，3D点云在各种条件下进行匹配。由于点云共享相同的坐标系，因此可以使用3D点的位置来这消除了对特征描述符的需要，特征描述符可能在不同条件下发生实质性最后，给定3D点云l铰链=.1ΣNMaxΣdTrdxt0，m−ii、（二）匹配，可以使用已知的相机来计算每个图像中的2D-2D对应的像素位置Ndxrdxti=1ii位置。每个步骤将分别为两个详细说明其中m是裕度参数，N是对应点的数量。损失将鼓励功能向量dxr和dxt对齐到一定角度，下面的数据4.1. CMU季节对应数据集我我滨海蒙特勒伊的在实验中，我们根据经验发现，设置m= 0。8（大约37磅）工作得很好。对于对应交叉熵损失lCE，我们开始通过取最终特征图的最大值的自变量，即，参考图像的最可能的类别。通过使用独热编码向量cxi来描述位置xi处的像素的最可能类别，损失可以写为收集了CMU视觉定位数据集[2]在美国匹兹堡的12个月里。一辆装有两个面向前/左和前/右的摄像头的车辆行驶了8.5公里长的路线，穿过中心和郊区。我们使用CMU Seasons数据集[54]中提供的不同季节和天气条件下的12次遍历中的相机姿势。使用SIFT点的光束法平差计算相机位姿，lCE=−1ΣNNi=1. ΣcTlogdt、（3）一些手动标注的图像对应关系不同的遍历，更多的细节我们参考[54]。该方法给出了准确的相机位置，其中位置其中，l〇 g（·）是逐元素的。该损失将鼓励目标图像中的像素具有与参考图像中的对应像素。估计误差小于0.10m。为了为每次遍历创建密集点云，我们使用[59]中提供的多视图立体（MVS）管道9535图2.从我们的跨季节对应数据集的样本的可视化左：CMU，右：RobotCar。每个紫色点标记相应图像中对应的像素位置。在另一个图像中绘制到匹配点的绿线。请注意，仅为每50个点对绘制线，以避免使图像混乱。MVS管道管道分为两个步骤。首先，深度和正常的信息估计使用几何和光度信息。其次，深度图和法线图被融合，形成密集的点云。这是使用软件 Colmap[57，59]和默认设置完成的。从CMU Sea- sons数据集的3D点云的例子可以在图中看到。1.一、为了找到来自两个不同遍历的图像之间的对应关系，我们在两个对应的3D点云。给定参考和目标遍历，我们使用欧几里得距离获取两个对应的密集3D点云和匹配点：对于第一个点云中的每个点，我们在另一个点云中搜索最近的相邻点，反之亦然。如果两个点是相互最近的邻居，我们就建立它们之间的对应关系对于结果匹配，我们检查在MVS期间每个匹配点是从哪些相机三角测量的，从而为我们提供点可见的相机。然后，我们通过每个相机对，其中一个来自参考，一个来自目标遍历，并调查可以在相机中看到的常见3D点的数量对于至少有500个公共点的对，并且两个摄像机之间的距离小于0。5米，我们做了一个额外的修剪步骤，以摆脱穷人的比赛。由于第一3D匹配步骤不强制点需要彼此太接近的任何约束，因此修剪是必要的。此外，对每个相机对强制执行接近度约束使我们能够使用取决于点和相机之间的距离这是有益的，因为通常以更高的精度重建要保持匹配，两个点之间的距离必须低于阈值，该阈值取决于点与相机之间的距离，如下所示||κD。||< κD .（四）这里X1和X2分别是参考和目标遍历中匹配的3D点的位置，D是从相机中心到X1的距离，κ是设置为0的无单位参数。01.这意味着10m表1. CMU跨季节对应数据集。每行显示条件、图像对的数量以及每次遍历每个图像对的平均对应数量。请注意，有几个遍历具有相同的条件。距离摄像机的距离需要小于0.1m，以保持对应关系。表1提供了最终CMU跨季节对应数据集的内容摘要4.2. Oxford RobotCar对应数据集最初的RobotCar数据集[40]是使用自动驾驶汽车收集的，该汽车在12个月内在英国奥克斯福德行驶了10公里的路线。类似地，对于CMU数据集，我们使用了[54]的作者提供的RobotCar Seasons数据集中可用的不同季节和天气条件下对于参考遍历，使用GPS/INS系统初始化这些相机姿态，并通过迭代地对3D点进行三角测量和执行光束法平差来细化。对于其他遍历，使用从安装在车辆上的LIDAR扫描仪使用迭代最近点算法[5]将每次遍历的LIDAR点云与参考遍历的LIDAR点云对齐，并在必要时进行手动校正RobotCar Seasons数据集中包含的图像是使用安装在汽车左侧、后部和右侧的三个同步全局快门Point Grey Grasshopper2相机记录的。不幸的是，图像质量总体上很差。很多图像曝光过度，有很多运动模糊。此外，夜间图像也存在大量的图像噪声。这使得我们用于CMU数据集的MVS管道生成条件图像对平均N阳光+绿叶318514361阳光+绿叶220017696多云+落叶331217711阳光+绿叶362018373阴天+混合叶330013770低日照+混合叶328615441低日照+混合叶338416081多云+混合叶272914111低太阳+无叶+雪202219060阴天+树叶17282009095361+λ条件图像对平均N黎明77259158黄昏64650159晚上64652238夜+雨78043066夏季+阴天80951722冬季+阴天67154466雨68353276雪82357578孙68148150表2. RobotCar跨季节对应数据集。每行显示条件、图像对的数量以及每次遍历每个图像对的平均对应数量请注意，有几个遍历具有相同的条件。点云的点太少了对我们来说毫无用处相反，我们使用原始RobotCar数据集中可用的LIDAR点云由于我们知道多摄像头系统在每个时间戳的姿态，以及汽车上各个摄像头和LIDAR传感器的姿态，因此我们可以将LIDAR点云转换为摄像头的坐标系。然后，我们在单独的步骤中确定哪些点为了确定哪些点在每个相机中可见，比较在图像中彼此靠近投影的点的深度。3D点的匹配和对应的修剪以与CMU Seasons数据集相同的方式完成。但是，由于RobotCar Seasons数据集没有那么多图像，因此我们对相机对之间的距离使用了更大的阈值，具体来说，二、0米。表2提供了最终RobotCar跨季节对应数据集的内容总结。5. 实现细节在CNN的训练过程中，我们将第3节中描述的损失L最小化。作为起点，我们使用在Cityscapes数据集[17]上预训练的PSPNet [76]网络。除了Cityscapes训练图像，我们还分别从CMU和RobotCar Seasons数据集中添加一些粗略注释的图像。这些注释的一些示例如图3所示。这是必要的，以防止CNN学习平凡的解决方案，其中为CMU和RobotCar图像上的所有像素预测相同的类，同时仍然为Cityscapes图像产生良好的分割。请注意，仅使用来自Cityscapes数据集的具有精细注释的我们还添加了一个动态对应细化步骤，其中，将参考图像中的像素位置分类为非固定类之一的所有对应都去除。所涉及的类是人、骑手、汽车、卡车、公共汽车、火车、摩托车和自行车.对于对应关系，如果参考图像中的像素被分类为非固定类，则意味着两件事之一：该像素实际上描绘了一个非静止物体，并被错误地添加到对应关系中图3.添加到训练集的手动标记图像的示例。顶行显示CMUSeasons数据集的图像（共66张图像），而底行显示RobotCarSeasons数据集的图像（共40张图像）。数据集，即，不能保证目标图像中的相应像素具有相同的语义类。另一种解释是CNN错误地对像素进行了分类。增加所述通信的损失对于这些情况中的任何一种都没有用。此外，我们在添加对应性损失之前使用500次迭代的预热期这确保了CNN已经为参考图像产生了合理的分割。在训练过程中使用的优化方法是具有动量和权重衰减的随机梯度下降。在所有实验中，学习速率被设置为二、5·10−5，而动量和重量衰减设置为0。分别为9和10- 4。此外，损失用1缩放以保持总损失重量为一。由于GPU内存限制，我们使用一个批量大小进行训练。我们训练网络至少30000次迭代，并使用在验证集上获得最佳平均交集的权重对于RobotCar和CMU Seasons验证和测试集，在计算mIoU时，我们仅对相应数据集中存在的类取平均值CMU Seasons和Robotcar的验证图像数量测试集的相应数量为33和27。培训和评估在PyTorch中实现[46]，代码是公开的2。所有评估和测试都是在原始图像尺度上的补丁中完成的。图像块的大小为713×713像素，在两个方向上以476网络的输出与插值权重映射配对，该映射对于补丁的236×236中心像素为1，并且在边缘处线性下降到0对于每个像素，使用插值贴图作为权重，计算包含该像素2https://github.com/maunzzz/跨季节分割9537表3. 损失L=Lsup+ λLcorr的λ参数研究（参见第3节）CMU数据集。所包括的对应损失是应用于最后和第二个到最后特征的交叉熵损失lCE和铰链损失lhinge，铰链C和铰链F，re-hinge。CMU验证集的所有值均为mIoU（%用于产生像素的类分数。插值背后的动机是网络通常在斑块的中心表现得更好，因为那里有更多关于周围环境的信息。6. 实验评价在本节中，我们将展示使用跨季节对应数据集训练CNN进行分割的结果两个主要的兴趣点是a），跨季节对应数据集如何影响数据集中图像的分割性能，即，CMU和RobotCar图像，以及b）使用数据集如何影响分割器对其他数据集的泛化性能。为了研究a），我们手动注释来自RobotCar和CMU数据集的一组测试图像，这些数据集取自不包括在对应数据集中的区域。为了回答b），我们使用WildDash数据集[75]。WildDash数据集旨在评估分割方法的鲁棒性，包含许多不同且具有挑战性的图像。我们还研究了使用correspondences以及不同量的注释训练图像进行训练的效果为此，我们只使用Cityscapes数据集[17]训练集进行实验，并在此基础上添加Mapillary Vistas数据集[44]的训练集。Cityscapes训练集包含2975张在有利天气条件和类似环境下拍摄的注释图像，而Vistas训练集包含18000张来自不同环境、季节和天气条件的图像[44]。由于Vistas数据集包含的注释类比Cityscapes数据集多得多，因此我们只考虑两个数据集中的类子集，并在训练过程中将其余部分视为未标记。对于所有分割实验，我们研究了三个对应损失函数：首先，我们使用应用于最终特征的对应交叉熵损失lCE。对于另外两个，我们分别将对应铰链损失l铰链应用于最后层和第二层到最后层参数研究。参数λ指定交易-表4. 在CMU对应数据（左）和RobotCar对应数据（右）上训练的模型的分割结果。CMU测试集、RobotCar（RC）测试集和WildDash（WD）验证集的结果以mIoU（%）表示对于底部五行，除了Cityscapes（CS）之外，还使用Vistas训练集第一列标记是否使用了来自CMU/RobotCar数据集的额外训练注释。第二列指定所使用的对应训练损失，即，应用于最后一层的对应交叉熵损失（CE）和应用于最后和第二到最后特征的铰链损失，分别为铰链C和铰链F。在注释训练集的完全监督交叉熵损失（Lsup）和对应性损失（Lcorr）之间。更高的λ意味着与完全最小化监督损失为了研究λ的影响，我们进行了一项参数研究，总结见表 3 。给出的结果是 CMU 验证集上的mIoU。从表中可以看出，对于最终特征（铰链C）上的对应交叉熵损失（CE）和铰链损失，λ的最佳选择是λ=1。而对于应用于第二至最后特征层（铰链F）的铰链损失，其为λ=0。1.一、因此，我们为剩下的实验选择这些值。细分表4总结了CMU以及RobotCar数据集上的分割实验对于在CMU数据集上训练的网络，CMU测试集和WildDash验证集上的mIoU针对几个基线以及使用对应数据集训练的网络进行了呈现对于在RobotCar数据集上训练的网络，使用RobotCar测试集而不是CMU测试集。比较两个基线，与仅使用Cityscapes训练的网络相比，使用Cityscapes和Vistas训练这是意料之中的，因为Vistas数据集在季节和天气条件方面具有更大的多样性，使得在其上训练的网络能够很好地推广到CMU或机器人汽车测试集。当调查对应数据集的效果时，将训练的网络与CS +远景CSλCE铰链C铰链F0的情况。0163岁362. 062. 20的情况。05六十四462. 662. 1额外CorrCMU机器人汽车CMUWDRCWDC31岁2七十三。6十六岁4三十七0二十二岁2四十五8十六岁4二十五4CCE79岁。339岁6五十三8二十七岁8C铰链C七十二4三十七950块6二十五2C铰链F75. 3三十八岁。755. 4二十七岁99538图像注释E E + C V + E V + E + C图4. CMU测试集的定性结果。比较了四种不同的网络，使用的符号为：E：用额外的CMU注释训练，C：用对应数据训练，V：用Vistas训练集训练。添加对应时最显著的性能差异这可以从第二行的树叶覆盖的地形区域以及第四行的积雪区域中看出。第四行的图像尤其具有挑战性，因为它包含大量的雪以及明显的镜头眩光。然而，用对应关系训练的网络仍然能够正确标记部分雪片。图像注释E E + C V + E V + E + C图5. RobotCar测试集上的定性结果。比较了四种不同的网络，使用的符号为：E：使用额外的RobotCar注释进行训练，C：用对应数据训练，V：使用Vistas训练集进行训练。添加对应时最显著的性能差异是针对夜间图像，第一行和第二行。比较E和E+ C的结果，我们可以看到添加对应关系使网络能够正确标记道路。然而，它无法正确标记天空和汽车，因为这些不包括在对应数据集中。9539额外的注释和用额外注释训练的网络以及对应性损失。如表4所示，当为使用Cityscapes和额外注释训练的网络以及使用Cityscapes，Vistas和额外注释训练的网络添加对应损失时，我们在mIoU方面得到了改进。这适用于CMU和RobotCar数据集。可以看出在图4中，给出了CMU测试集上的定性结果，增加对应性改进了对在海面之间视觉上非常不同的区域的分割。例如秋天地上的黄叶或冬天的雪。这些混淆了只在Cityscapes上训练的网络，因为训练集中没有这样的例子。同样在Vistas上训练的基线可以更好地处理这些情况，但是当添加对应训练时仍然有改进，特别是当涉及到，覆盖在雪中的斑块，因为这些不包括在两个数据集中存在的类的子集中，因此被排除在训练之外。对于RobotCar数据集，最普遍的改进是在夜间图像上，这可以在图1B中的一些示例分段中看到。五、其他定性结果见补充材料。值得注意的是，与添加整个Vistas训练集相比，我们仅使用一些粗略注释的图像和相应的数据集就可以获得更大的性能提升，跨季节通信数据集需要大约30个小时的体力劳动，每一个都以注释对应和验证姿势的形式进行。加上粗略注释一些图像所需的两个小时，总共需要32个小时的手工劳动。相比之下，注释Vistas训练集估计需要28200小时。性能最佳的对应性损失在数据集之间不同。在CMU数据集上，CE损失在有和没有Vistas训练集的情况下表现最好。然而，对于没有Vistas la bels的RobotCar数据集，表现最好的损失是铰链F。铰链F和CE之间的区别在于CE对网络的对应输出施加了更严格的约束。它基本上将网络在参考图像上的输出由于RobotCar跨季节对应数据集是使用LIDAR数据创建的，因此点测量值与图像不完全同步，这会导致某些对应出现轻微的不对齐。如果存在一些错误的对应关系，则具有硬约束可能对网络的性能有害在这些情况下，通过铰链F损失施加更软的约束，其基本上规定特征应该相似，可以给出更好的性能，特别是当使用强基线训练集时。增加函授培训确实提高了对于CMU数据集，WildDash图像的分割性能没有显著性能提升的原因可能是摄像头相对于车辆的姿态（面向前方）和图像分辨率对于 Cityscapes ， Vistas 和WildDash数据集非常相似对于CMU Seasons数据集，没有前置摄像头，只有一个面向前/左和一个面向前/右。因此，学习分割这些很好并不一定会提高WildDash上的分割性能此外，CMU和RobotCar图像的图像尽管如此，增加对应性损失改善了在CMU数据和没有Vistas的RobotCar数据上训练的网络的结果在其他天气条件下学习分割图像的优势似乎足够大，可以在WildDash验证集上产生影响。7. 结论在本文中，我们介绍了两个跨季节的 Corr-respondence数据集，每个数据集由一组在不同条件下拍摄的图像之间的2D-2D匹配组成。我们描述了如何在很少有人监督的情况下生成这些数据集，并通过训练图像分割网络证明了数据集的有用性。为此，我们提出并研究了三种不同的训练损失，基于交叉熵和铰链损失，可用于对应数据。我们的实验表明，在训练过程中添加对应关系作为额外的监督，可以提高网络的分割性能，使其对季节变化和天气条件更具鲁棒性。提高语义分割性能可以反过来导致更鲁棒的定位结果，这为迭代反馈循环提高定位和语义分割提供了第一步。改进的图像分割网络如何影响语义定位方法的研究留给未来的工作。重要的未来研究方向包括删除选项，以消除对一些手动注释图像的需要。可能的方法包括额外的无监督域自适应步骤，使分割算法适应相应数据集的参考图像。此外，跨季节相关数据集为其他应用提供了机会，例如训练鲁棒的特征检测器和描述符。致谢这项工作已由瑞典研究委员会资助（grant no. 2016-04445）、瑞典战略研究基金会（智能机器人的语义映射和视觉导航）和Vinova/ FFI（Perceptron，授权号：2017-01942）。9540引用[1] Relja Arandjelovic和Andrew Zisserman语义扭曲的视觉在Proc.ACCV，2014中。1[2] Her na'nBadino，DHube r，andTa k eoKanade. 视觉拓扑定位.InProc. IV，2011. 3[3] 锡德·英泽·鲍和西尔维奥·萨瓦雷斯。从运动中获得语义结构在Proc.CVPR，2011中。1[4] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。What’s the point：带有点监督的语义分割。在Proc. ECCV中。施普林格，2016年。2[5] P. J. Besl和N.D. 麦凯一种三维形状配准方法PAMI，1992年2月。4[6] 放大图片作者： MaroB la'ha ， ChristophVogel， Audr eyRichard ， JanD. Weg-ner，Thomas Pock， and KonradSchindler.大规模三维重建：一种用于多类体积标记的自适应多分辨率模型。在proc CVPR，2016年。一、二[7] SeanLBowman ， NikolayAtanasov ， KostasDaniilovich，and George J Pappas.用于语义SLAM的概率数据关联。InProc. ICRA，2017. 1[8] Eric Brachmann和Carsten Rother。学习越少越好- 经由3D表面回归的6D相机定位在Proc. CVPR），2018年。1[9] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从RGB学习室内环境中的三维数据。InProc. 3DV，2017. 2[10] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI，2018年。2[11] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在Proc. CVPR，2016中。2[12] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在Proc. CVPR，2018中。2[13] 放大图片作者：IanCherabie r，ChristianH？ne，MartinR.奥斯瓦尔德，和马克波勒费斯。使用体素块的多标签语义3D重建。在Proc.3DV，2016中。一、二[14] 作者：IanCherabi er，JohannesL. 请听我说，马丁·R. 作者声明：Author，ThomasW.语义3D重建的学习先验。Proc. ECCV，2018。一、二[15] 安德里亚·科恩，托尔斯滕·萨特勒，马克·波勒费斯。合并无与伦比的：缝合视觉上断开的SfM模型。在Proc.ICCV，2015中。1[16] 作者： AndreaCohen ， JohannesL.Scho¨nberger ，PabloSpeciale，Torsten Sattler，Jan-Michael Frahm，andMarc Pollefeys.室内-室外3D重建对齐。在procECCV，2016。1[17] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在Proc. CVPR，2016中。一二三五六9541[18] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Niessner.ScanNet：室内场景的丰富注释的3D重建。在Proc.CVPR，2017中。2[19] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proc. ICCV，2015中。2[20] David Eigen和Rob Fergus。预测深度，表面normals和语义标签与一个共同的多尺度卷积架构。在Proc.ICCV，2015中。2[21] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗JMLR，2016. 2[22] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 Proc.IJRR，2013年。2[23] 克里斯·蒂安·哈恩，尼克·克莱·萨文·奥沃，马克·波勒菲。使用表面法线的类特定3D对象形状先验。在Proc.CVPR，2014。一、二[24] Caner Hazirbas ， Lingni Ma ， Csaba Domokos ， andDaniel Cremers. Fusenet：通过基于融合的cnn架构将深度融入语义分割。在proc ACCV。施普林格，2016年。2[25] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。Cycada：周期一致的对抗性结构域适应。arXiv预印本arXiv：1711.03213，2017。2[26] Judy Hoffman，Dequan Wang，Fisher Yu，and TrevorDarrell.野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649，2016。2[27] Xinyu Huang，Xinjing Cheng，Qichuan Geng，BinbinCao，Dingfu Zhou，Peng Wang，Yuanqing Lin，andRuigang Yang.自动驾驶的apolloscape数据集。arXiv预打印arXiv：1803.06184，2018. 2[28] C. 赫内角Zach，A.Cohen和M.波勒菲斯密集语义三维重建。PAMI，2017年。一、二[29] Anna Khoreva 、 Rodrigo Benenson 、 Jan HendrikHosang、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在procCVPR，2017年。2[30] Brian Kulis Kate Saenko和Trevor Darrell 你看到的并不是你得到的：使用非对称核变换的域自适应。在Proc.CVPR，2011中。2[31] Abhijit Kundu，Yin Li，Frank Dellaert，Fuxin Li，andJames M.瑞格单目视频的联合语义分割与三维重建。在Proc.ECCV，2014中。一、二[32] LuborLadicky'，PaulSturgess，ChrisRussell，SunandoSengupta，Yalin Bastanlar，William Clocksin，and Philip H.S.乇目标类分割和密集立体重建的联合优化。IJCV，100（2），2012年。2[33] Ma˚nsLarsson，AnuragArnab，ShuaiZheng，PhilipTorr，andFredrik Kahl.使用基于梯度的推理重新访问用于像素级标记的深度结构化模型。SIIMS，11（4），2018年。29542[34] Yunpeng Li ， Noah Snavely ， Dan Huttenlocher ， andPascal Fua. 使用三维点云的全球姿态估计。在Proc.ECCV，2012中。1[35] 作者：Nektar i osLianos，JohannesL. 马克·波勒菲和托尔斯滕·萨特勒。视觉语义里程计。Proc. ECCV，2018。1[36] Ziwei Liu，Xiaoxiao

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

鲁棒语义分割的季节变化和天气条件下强制标签一致性的方法

深度学习用于语义分割

语义分割综述论文合集

语义分割中跨条件鲁棒性

实时语义分割与非实时语义分割

多尺度语义分割和单尺度语义分割有什么区别

CVPR2021语义分割

语义分割获得的伪标签打散

RGBD图像语义分割算法研究现状

语义分割研究历史和现状

matlab 语义分割数据增广

自动筛选语义分割数据集错误标签

医学ct图像怎么做语义分割

语义分割 注意力机制

RGBD图像语义分割基础

语义分割数据增强噪声

语义分割算不算多模态分割

基于深度学习的 RGBD 图像语义分割算法研究研究现状

CRF应用到图像语义分割中的具体方法

基于深度学习的语义分割

语义分割网络模型介绍

最新资源

语义分割注意力机制