基于超像素的多视图卷积神经网络用于语义图像分割

64 浏览量更新于2023-10-16 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14837STD2P：使用时空数据驱动池的杨和1，邱伟臣1，马格丽特·库伯2，马里奥·弗里茨11马克斯·普朗克信息学研究所，萨尔信息学院，德国萨尔布鲁根2曼海姆大学，曼海姆，德国摘要提出了一种新的基于超像素的多视图卷积神经网络用于语义图像分割。该网络通过利用来自同一场景的附加视图的信息来产生单个图像的高质量分割特别是在诸如由机器人平台或手持和身体佩戴的RGBD相机捕获的室内视频中，附近的视频帧提供不同的视点以及对象和场景的附加上下文为了利用这些信息，我们首先通过光流和基于图像边界的超像素来计算区域对应性。考虑到这些区域对应关系，我们提出了一种新的时空池化层来聚合空间和时间上的信息。我们在NYU-Depth-V2和SUN 3D数据集上评估了我们的方法除了对现有技术的总体改进之外，我们还展示了在多视图和单视图预测的训练期间利用未标记帧的好处。1. 介绍消费者友好和负担得起的组合图像和深度传感器，如Kinect，目前在商业上部署在游戏，个人3D捕捉和机器人平台等场景中。根据语义分割来解释这些原始数据是一个重要的处理步骤，因此受到了极大的关注。该目标通常被形式化为针对图像平面中的每个像素预测对应的语义类。对于许多上述场景，图像序列被自然地收集并且提供比单个图像实质上更丰富的信息源。同一场景的多个图像可以提供不同的视图，这些视图会改变观察到的上下文、外观、比例和遮挡模式。完整的序列提供了更丰富的观测-关键帧最终结果地面实况图1：图像序列可以为视觉识别系统提供丰富的上下文和外观以及未被遮挡的对象。我们的时空数据驱动池（STD2P）方法集成了多视图信息，以改善具有挑战性的场景中的语义图像分割。场景的分割和跨视图传播信息具有显著提高如图1所示的更具挑战性的视图中的语义分割的准确性的潜力。因此，我们提出了一种通过时空数据驱动池（STD2P）层的多视图聚合方法，这是一种将多帧合并到任何卷积网络架构中的原则性方法。与以前基于超像素的方法[12，4，2]的工作相比，我们计算随时间的对应关系，这允许在空间和时间上进行知识渊博和一致的预测。由于完整训练序列的密集注释是时间. ... ... ... ..STD2P单视图预测图像序列14838消耗并且在当前数据集中不可用，我们方法的关键特征是从部分注释的序列训练值得注意的是，我们的模型导致改进的语义分割的情况下，多视图观察，以及在测试时的单视图观察。本文的主要贡献是：• 我们提出了一种原则性的方法，将超像素和多视图信息纳入国家的-ART卷积网络用于语义分割。我们的方法是能够利用可变数量的帧与部分注释在训练时间。• 我们表明，训练序列与部分注释提高语义分割多视图观察以及单视图观察。• 我们在具有挑战性的语义分割数据集NYU-Depth-V2和SUN 3D上评估了我们的方法在那里，它优于几个基线以及最先进的。特别是，我们改进了其他方法无法很好地捕获的困难类。2. 相关工作2.1. 全卷积网络的上下文建模全卷积网络（FCN）[26]建立在深度分类网络[19，34]的基础上，将其成功带到了端到端可训练的语义分割网络上下文信息在语义分割中起着重要作用[28]，因此研究人员试图通过在网络中建模或提供上下文来Liu等人。[24]通过全局池化将全局上下文特征添加到特征映射中。Yu等人。[39]提出了扩张卷积来聚合更广泛的上下文信息。此外，图形模型被应用于模拟神经元激活的关系[5，40，25，22]。特别是Chen等人。[5]将条件随机场（CRF）的优势与CNN相结合，以改进预测，从而获得更准确的结果。Zheng等人。[40]将CRF公式化为递归神经网络（RNN），并对FCN和CRF-RNN进行端到端的训练。递归神经网络也被用来代替学习上下文依赖关系的图形模型[3，33，21]，这在复杂的场景中显示出了优势。最近，在卷积网络中引入超像素超像素不仅能够提供精确的边界，而且能够提供自适应的感受野。例如，Dai等人[8]设计了一个用于语义分割的卷积特征掩蔽层，该层允许网络在超像素的帮助下提取非结构化区域中的特征。Gadde等人。[12]使用具有双边初始的超像素卷积网络可以通过参数合并初始超像素并生成不同级别的区域。Caesar等人。[4]提出了一种具有自由形式ROI池化的新型网络，该网络利用超像素来生成自适应池化区域。Arnab等人[2]将超像素作为高阶势对CRF进行建模，并取得了比先前基于CRF的方法更好的结果[5，40]。这两种方法都显示了优点为网络提供超像素，这可以生成更准确的分割。与先前的工作不同[12，4]，我们在卷积网络的末端而不是中间层引入超像素，并且还将来自多个视图的响应与平均池化相结合，这已用于成功地取代分类[23]和定位[41]任务中的全连接层。2.2. 视频语义分割多视图语义分割的目的是利用来自不同视图的潜在更丰富的信息来改进来自单个视图的分割Couprie等人。[7]使用具有颜色和深度信息的学习特征执行单个图像语义分割，并在测试时间内应用时间平滑以提高逐帧估计的性能。Hermans等人。[16]使用贝叶斯更新策略融合新的分类结果和3D空间中的CRF模型，以平滑分割。 S tückler 等[35]使用随机森林来预测单视图分割，并通过同步定位和映射（SLAM）系统将所有视图融合到最终输出。Kundu等人。[20]建立了一个密集的3D CRF模型，其对应关系来自光流，以细化视频的语义分割。最近，McCor- mac等人。[27]提出了一种用于室内场景的基于CNN的语义3D映射系统。他们应用SLAM系统来建立对应关系，并将CNN预测的语义标签映射到3D点云数据。Mustikovela等人。[29]提出使用基于CRF的框架为辅助数据生成伪地面实况注释。有了辅助数据及其生成的注释，他们取得了明显的进步。与上述方法不同的是，我们利用光流和图像超像素建立区域对应关系，而不是使用图形模型来整合多视图信息，并设计了一种基于超像素的多视图语义分割网络。3. 具有区域对应性的全卷积多视图我们的目标是一个多视图语义分割方案，无缝集成到令人兴奋的深度架构中，并对单个视图进行高度准确的语义分割。我们进一步的目标是促进部分注释的输入序列的训练，以便现有的数据集14839区域通信光流最终结果Groundtruth光流它们在CNN架构中的对应关系。因此，我们将超像素分割和多视图聚合紧密集成到深度学习框架中，用于语义分割。3.1. 区域对应受最近在深度学习架构中基于超像素的方法的成功[12，4，1，9]和减少的计算负载的启发，我们决定采用基于区域的方法。在下文中，我们将激励并详细介绍我们建立稳健对应关系的方法。后输入：RGBD序列无标签帧目标帧无标签帧动机我们的方法的一个关键思想是将信息从潜在的未标记帧映射到目标帧，因为不同的视点可以提供额外的上下文并解决外观和遮挡方面的挑战，如图1所示。因此，我们不想假设对象在所有帧上的可见性或对应性（例如，在目标框架中的床头柜，如图2所示）。因此，诸如[13]的视频超体素方法强制帧间对应并且不提供任何置信度测量是不合适的。相反，我们建立了所需的图2：所提出的方法的流水线。我们的多视图语义分割网络建立在CNN之上。它以RGBD序列作为输入，并在未标记帧的帮助下计算目标帧的我们使用超像素和光流建立区域对应关系，并融合后，从多个视图与建议的时空数据驱动池（STD2P）。可以使用，并且注释工作对于新数据集保持适度为此，我们借鉴了以前的工作，高质量的非语义图像分割和光流输入到我们提出的时空数据驱动池（STD2P）层。概况. 如图2所示，我们的方法从图像序列开始。我们感兴趣的是提供一个准确的语义分割的一个视图中，在逐帧区域水平上的对应。超像素光流我们在每个帧中计算RGBD超像素[15]以将RGBD图像划分为区域，并在每对连续帧之间应用Epic流[31]为了利用深度信息，我们利用结构化边缘检测的RGBD版本[10]来生成边界估计。然后，在前向和后向计算Epic流.鲁棒时空匹配。给定目标帧和所有未标记帧中的预计算区域以及这些帧之间的光流，我们的目标是找到高度可靠的区域对应。对于目标帧ft中的任何两个区域Rt和未标记帧fu中的Ru，我们从它们的相交于并集（IoU ）计算它们的匹配分数让我们假设w.l.o.g.这是t。′然后，我们使用前向光学将Ru从fu弯曲到ft中的Ru′−→序列，称为目标帧，其可以位于图像序列中的任何区分我们的方法与用于语义分割的标准全卷积架构的两个组件我们首先计算每帧的超像素分割，并使用光流建立区域对应。然后，所提出的数据驱动池允许首先在超像素内聚集信息，然后沿着calflow R t和Ru之间的IoU表示为IoU tu。←−类似地，我们用后向光流计算IoUtu我们认为Rt和Ru是成功的配对如果他们的配对-←− − →得分满足min（IoUtu，IoUtu）> τ。我们留着那个如果Rt具有几个成功的匹配，则具有最高的匹配分数我们在图3中显示了NYUDv2数据集上区域对应的统计数据。它显示87.17%的区域相对较小（小于2000像素），右侧的图显示这些小区域通常只能在整个视频中找到不到10个匹配。从理论上讲，即使是稍微大一点的区域STD2P1484087.175.62.261.311.210.770.520.40.22 0.220.19匹配数210605045.5 48.050.052.552.856.754.557.8 58.41014039.79联系我们=n（i，c，j）<$I（i，c，x，y）<$O（i，c，j）<$I（i，c，x，y）30s20S s1公升=.（二）010108.5|n（i，c，j）|∂Os(i,c,j)02k 4k 6k 8k 10k12k14k16k18k20k>22像素数02k 4k 6k 8k10k12k14k16k18k20k>22像素数临时池化层。类似地，我们制定我们的时间池，它融合了来自N图3：统计区域通信NYUDv2数据集。（左）区域大小的分布;（右）区域大小上的平均匹配数的直方图。可以更容易地匹配，并且它们覆盖了大部分图像。他们通常有40多场比赛在一个将空间池层的输出帧 It∈ RN×C×P 压缩为一帧 Ot∈RC×P。这一层还需要超像素信息Iuij，其是第i个输入帧的索引为j的超像素。如果ij/=，则存在对应关系。前向传播可以表示为作为整个视频，从而为我们的多视图网络提供足够的信息O（c，j）=1tKΣIt（i，c，j）（3）3.2. 时空数据驱动池（STD2P）在这里，我们描述了我们的时空数据驱动池（STD2P）模型，该模型使用计算区域对应的时空结构来聚合视图间的信息，如图2所示。虽然所提出的方法与最近的CNN高度兼容吉吉∅对于信道索引c和区域索引j，其中K=|{i j = 1，1 ≤ i ≤ N}|其是第j个区域的匹配帧的数目。|,whichisthenumberofmatchedframes forj-th region. 梯度计算如下：L=<$I（i，c，j）<$O（c，j）<$I（i，c，j）和FCN模型，我们使用[26]建立每帧模型。更详细地说，我们改进了反卷积的输出，t t t1公升=.（四）使用超像素分层，并通过三个层聚合来自多个视图的信息：空间池化层、时间池化层和区域到像素层。空间池层。空间合并的输入图层是一个要素地图，对于N个帧，∈RN×C×H×WK Ot（c，j）区域到像素层。为了直接优化具有密集注释的语义分割模型，我们将基于区域的特征映射Ir∈RC×P映射到密集像素级预测Or∈RC×H×W。这一层需要一个超像素SC个通道，大小为H×W，超像素图S∈目标帧S上的映射目标 ∈RH×W执行-RN×H×W用区域索引编码。它产生输出Os∈RN×C×P，其中P是超像素的最大数目。超像素图S引导层的向前和向后传播这里，ij={（x，y）|S（i，x，y）=j}表示具有区域索引j的第i帧中的超像素。然后，前向传播可以用公式表示为正向和反向传播。前向传播表示为O r（c，x，y）=I r（c，j）， S目标（x，y）= j。（5）梯度计算如下：LΣ=r（c，x，y）O（i，c，j）=1ΣI（i，c，x，y）r（c，j）S目标r（c，x，y）（x，y）=jr（c，j）（六）百分比14841S|吉吉|S（x，y）∈nij（一）Σ=Starget（x，y）=jL.r（c，x，y）对于第i帧的每个信道索引c和第i帧中的区域，德克斯我们使用随机梯度下降来训练我们的模型。在我们的空间池化中，输入Is（i，c，x，y）的梯度，其中（x，y）∈Σij，通过反向传播计算[32]，14842Image GT CRF-RNN DeepLab-LFOV BI（3000）E2S2 FCN Singleview SP多视图像素我们的完整模型图4：NYUDv2上语义分割的可视化示例。第1列显示RGB图像，第2列显示地面实况（黑色表示未标记的像素）。第3至6列分别显示了CRF-RNN[40]、 DeepLab-LFOV[6]、 BI（3000）[12]和E2 S2[4]的结果。第7至9列显示了来自FCN[26]、单视图超像素和多视图像素基线的结果我们整个系统的结果显示在第10栏中。最好用彩色观看实作详细数据。我们将具有地面实况注释的帧视为目标帧。对于每个目标帧，我们以3帧的静态间隔在其周围等距采样多达100帧。接下来，我们使用相应源代码中提供的默认设置计算超像素[15]和Epic流[31]计算区域对应的阈值τ为0. 4（cf.第3.1节）。最后，对于每个RGBD序列，我们随机采样11个帧，包括目标帧，并将它们的对应映射作为我们网络的输入。我们使用RGB图像和HHA表示图像和654个测试图像。我们遵循[9]的实验设置，在65个标记帧上进行测试我们将不同设置的模型与先前最先进的多视图方法以及单视图方法进行比较，这些方法总结在表1中。我们使用与[26]相同的评估协议和指标报告标记帧的结果，像素准确度（Pixel Acc. ）、平均准确度（平均Acc. ）、区域交集对并集（MeanIoU）和频率加权交集对并集（f.w. IoU）。表1：竞争性方法深度[15]，并通过随机梯度训练网络动量项下降因为记忆力有限-RGB RGBD在此阶段，我们首先运行FCN并缓存输出池4 rgb第4集HHA然后，我们用一个新的网络对pool4之后的层进行微调，该网络是FCN中更高层的副本。我们使用的小批量大小为 10 ，动量为 0.9 ，权重衰减为0.0005，固定学习率为10−14。我们通过使用交叉熵损失对实验中的所有模型进行1000次迭代来微调我们的模型。我们使用Caffe框架[17]实现了所提出的网络，源代码可在https：//github.com/SSAW14/STD2P网站。4. 实验和分析我们在NYU-Depth-V2的4级[30]、13级[7]和40级[14]任务上评估我们的单视图[11，18][4，5，6，9，12，15，26，36，37，40]多视图/[7，16，35，27]4.1. NYUDv2 40类任务表2评估了我们的方法在NYUDv2 40级任务上的性能，并与最先进的方法和相关方法进行了比较[26，9，15，18，11，40，5，6、12、4]我们的方法包括三个版本：我们的超像素模型在没有额外未标记数据的单帧上进行训练，并使用单个目标帧进行测试。它在所有四个指标上都将基准FCN提高了至少2个百分点（pp），（NYUDv2）数据集[30]和SUN3D的33类任务数据集[38]。NYUDv2数据集包含518个RGBD视频，其中包含超过40万张图像。其中，有1449个密集标记的帧，这些帧被分割成795个火车-1对于[26，9，15，18，11]，我们从他们的论文中复制性能。为[40，5，6，12，4]，我们使用RGB+HHA图像运行作者提供的代码具体来说，对于[12]，我们还将超像素的最大数量从1000增加到3000。原始粗版和精版缩写为BI（1000）和BI（3000）。14843表2：NYUDv2上40类语义分割任务的性能。我们将我们的方法与各种最先进的方法进行比较：[26，15，18，11]也基于卷积网络，[5，40，6]是基于卷积网络和CRF的模型，[12，4，9]是区域标记方法，因此与我们的相关。我们用粗体标记所有方法中最好的性能，第二好的方法用下划线写。方法互斥约束[9]65.6 79.2 51.9 66.7 41.0 55.7 36.5 20.3 33.2 32.6 44.6 53.6 49.1 10.89.1RGBD R-CNN[15] 68.0 81.3 44.9 65.0 47.9 47.9 29.9 20.3 32.6 18.1 40.3 51.3 42.0 11.3 3.5[18]第十八话多尺度CNN[11]CRF-RNN[40] 70.3 81.5 64.6 51.4 50.6 35.9 24.6 38.1 36.0 48.8 52.6 47.6 13.2 7.6DeepLab[5] 67.9 83.0 53.1 66.8 57.843.4 19.445.5 41.5 49.358.3 47.8 15.5 7.3DeepLab-LFOV[6] 70.285.2 55.3 68.960.5 59.844.525.447.8 42.647.9 57.752.4 20.79.1BI（1000）[12]62.8 66.8 44.2 47.7 35.8 35.9 10.9 18.3 21.5 35.9 41.5 30.9 47.4 12.8 8.5BI（3000）[12]61.7 68.1 45.2 50.6 38.9 40.3 26.2 20.9 36.0 34.4 40.8 31.6 48.3 9.3 7.9E2S2[4] 56.9 67.8 50.0 59.5 43.8 44.3 31.3 24.6 37.9 32.7 46.1 45.051.8 15.8 9.1粤ICP备 16016966号-1我们的（超像素）70.9 83.4 52.6 68.5 54.1 56.0 40.4 25.5 38.4 40.9 51.5 54.8 47.3 11.3 7.5我们的（超像素+）72.484.3 52.071.5 54.3 58.8 37.928.2 41.9 38.552.3 58.2 49.7 14.3 8.1我们的（全型号）72.7 85.7 55.4 73.658.560.142.730.242.141.952.9 59.746.7 13.59.4方法互斥约束[9]47.627.642.5 30.232.7 12.6 56.7 8.9 21.6 19.228.028.6 22.9 1.6 1.0RGBD R-CNN[15] 29.1 34.8 34.4 16.4 28.0 4.760.5 6.4 14.5 31.0 14.3 16.3 4.2 2.1 14.2[18]第十八话多尺度CNN[11]CRF-RNN[40] 34.8 33.2 34.7 20.8 24.0 18.760.929.5 31.2 41.1 18.2 25.623.0 7.4 13.9DeepLab[5] 32.9 34.3 40.2 23.7 15.020.2 55.1 22.1 30.6 49.421.8 32.1 6.4 5.8 14.8DeepLab-LFOV[6] 36.0 36.9 41.432.5 16.0 17.8 58.4 20.545.148.0 21.041.59.48.0 14.3BI（1000）[12]29.3 20.3 21.7 13.0 18.2 14.1 44.7 10.9 21.5 30.4 18.8 22.3 17.7 5.5 12.4BI（3000）[12]30.8 22.9 19.5 13.9 16.1 13.7 42.5 21.3 16.6 30.9 14.9 23.3 17.8 3.3 9.9E2S2[4] 38.0 34.8 31.5 31.7 25.3 14.2 39.7 26.7 27.1 35.2 17.8 21.0 19.9 7.436.9粤ICP备 15036666号-1我们的（超像素）34.541.6 37.7 20.1 15.9 20.1 56.8 28.8 23.851.8 19.1 26.629.36.8 4.7我们的（超像素+）42.935.9 40.8 27.7 31.9 19.3 55.6 28.2 38.3 46.9 17.6 31.2 11.0 6.5 28.2我们的（全型号）40.744.142.034.5 35.6 22.255.929.841.752.521.134.4 15.57.8 29.2方法persnightoile水槽林浴袋otheotheothePixMeaMeaF.W互斥约束[9]9.630.648.441.828.127.609.87.624.563.8-31.548.5[15]第十五话0.227.255.137.534.838.20.27.16.123.160.3-28.647.0[18]第十八话----------68.045.832.4-多尺度CNN[11]----------65.645.134.151.4CRF-RNN[40]57.931.457.245.436.939.14.914.69.529.566.348.935.451.0DeepLab[5]55.337.757.947.740.044.76.618.012.933.868.746.936.852.5DeepLab-LFOV[6]67.041.869.746.840.145.12.120.712.433.570.349.639.454.7[12]第十二届全国政协委员45.915.856.532.224.717.10.112.26.721.957.737.827.141.9[12]第12话44.715.853.832.122.819.00.112.35.323.258.939.327.743.0E2S2[4]35.017.631.836.314.826.09.914.59.320.958.152.931.044.2[26]第二十六话57.630.161.344.832.139.24.815.27.730.065.446.134.049.5超像素（Superpixel）66.137.456.146.334.526.75.812.712.330.668.548.736.052.9我们的（超像素+）66.734.162.847.835.126.48.819.310.929.268.452.138.154.0我们的（全模型）60.742.262.747.438.628.57.318.815.131.470.153.840.155.7性能优于最近提出的基于超像素和CNN的方法[12，4]。我们的superpixel+模型在训练中利用了额外的未标记数据，而它只使用目标帧进行测试。它获得了3.4pp，2.1pp，1.1pp的改进，Mean Acc.上的超像素模型，Mean IoU和f.w. IoU，导致比许多最先进的方法更有利的性能[9，15，18，11，40，5，12，4]。这突出了利用未标记数据的好处。壁窗帘梳妆台对地板茨坦德内阁枕头镜不床地板垫椅子p沙发衣服天花板浴缸表书门r结构窗口冰箱电视鲁伊书架r道具图片纸毛巾el Acc.计数器n Acc.百叶窗浴帘框n IoU书桌.IOU货架白板14844表3：平均和最大时空数据驱动池的比较。54.053.853.6两边一边40.540.053.453.253.052.852.652.452.210 20 30 4050到目标帧的39.539.038.538.010 20 30 40 50到目标帧的我们的完整模型在训练和测试中都利用了额外的未标记数据。它在超像素+模型上实现了一致的改进，并在Mean Acc方面优于所有竞争对手。，Mean IoU和f.w.IOU由0。9页，0。共7页，1。0pp分别。在具有挑战性的对象类别上观察到特别强的改进，例如梳妆台（+7。2pp），门（+4。8pp），床（+4. 7页）和电视（+3。1页）。图4表明，我们的方法能够产生具有准确边界的平滑预测。我们在该图的第3至6列中呈现了最相关的方法，其应用CRF[40，6]或结合超像素[12，4]。通过对这些方法的定性比较，我们可以看到我们的方法的好处。它可以捕捉像椅子腿这样的小物体，也可以捕捉像地板垫和门这样的大区域。此外，我们还在图4的第7列和第8列呈现了FCN和超像素模型。FCN通过引入超像素来提升，但不如我们使用未标记数据的完整模型平均值与时空数据驱动汇集我们的数据驱动池聚合了来自一个段内和多个视图中的多个观察的本地信息。平均池化和最大池化是许多深度神经网络架构中使用的规范选择。在这里，我们在空间和时间池化层中测试平均池化和最大池化，并在表3中显示结果。所有的模型都是用多帧进行训练，并在多帧上进行测试。平均池在空间和时间池中表现最好。这个结果证实了我们的设计选择。区域与像素对应。我们比较我们的完整模型，这是建立在区域对应，与像素对应的模型。该算法仅利用光流场的逐像素对应关系，并采用平均池技术融合多视点信息。该基线的目视检查结果见图4的第9列。获得精确的像素对应是一项挑战，因为光流并不完美，并且误差会随着时间的推移而累积。因此，具有像素对应关系的模型仅比FCN基线略有改善，因为它也反映在表4中的数字中。建立与拟议的改革的区域联系，图5：不同最大距离的多视图预测性能。绿线显示使用未来和过去视图的结果蓝线显示仅使用过去视图的结果。表4：NYUDv2 40级任务方法像素Acc.平均加速平均IoUF.W.IOU[26]第二十六话65.446.134.049.5像素对应66.245.934.650.2超像素对应70.153.840.155.7在3.1节中描述的喷射策略看起来确实优于像素对应。我们的完整模型在所有4项措施中显示了比像素对应基线和FCN的显着改善。多视角预测分析。在我们的多视图模型中，出于计算考虑，我们从整个视频中对帧进行子采样。在近距离帧和远距离帧之间需要进行权衡。如果我们选择远离目标帧的帧，则它们可以提供对象的更多样化的视图，而匹配比接近帧更麻烦并且可能更不准确。因此，我们分析了所选帧到目标帧的距离的影响，并报告了Mean Acc。图5中的平均IoU。结果，提供更宽的视图是有帮助的，因为性能随着最大距离的增加而提高选择未来的数据，这是一种提供更广泛视图的另一种方式，也有助于性能的提高。4.2. NYUDv2 4类和13类任务为了展示我们多视角语义的有效性-tic分割方法，我们将我们的方法与先前最先进的多视图语义分割方法[7，16，35，27]在NYUDv2的4类和13类任务上进行比较，如表5所示。此外，我们还介绍了以前最先进的单视图方法[11，37，36]。我们观察到，我们的超像素+模型已经优于所有多视图竞争对手，并且所提出的时间池化方案进一步将像素累积和平均累积提高超过1pp，然后优于最先进的双方一侧平均加速平均IoU空间/时间像素Acc.平均加速平均IoUF.W.IOUAVG/AVG70.153.840.155.7AVG/MAX69.451.038.054.4MAX/AVG66.445.433.849.6MAX/MAX64.944.532.147.914845GT CRF-RNN DeepLab-LFOV BI（3000）E2 S2 FCN我们的完整型号图6：SUN3D数据集的验证结果。对于每个示例，图像从上到下，从左到右排列为彩色图像，地面实况，CRF-RNN[40]， DeepLab-LFOV[6]， BI[12]， E2 S2[4]， FCN[26]和我们的。表5：NYUDv2上4类（左）和13类（右）语义分割任务的性能。表6：SUN3D上33类语义分割任务的性能所有65个图像都用作测试集。方法像素Acc.平均加速像素Acc.平均加速方法像素Acc.平均加速平均IoUF.W.IOUCouprie等人[七]《中国日报》64.563.552.436.2互斥约束[9]65.7-28.251.0Hermans等人[16个]69.068.154.248.0CRF-RNN[40]59.8-25.543.3Stückler等[35]第三十五届70.666.8--DeepLab[5]60.930.724.044.1McCormac等人[27日]--69.963.6DeepLab-LFOV[6]62.335.328.246.2Wang等人[36个]-65.3-42.2[12]第十二届全国政协委员[12]第12话53.853.931.131.620.821.137.137.4Wang等人[37]第三十七届-74.7-52.7E2S2[4]56.747.727.243.3Eigen等人[第十一届]83.282.075.466.9[26]第二十六话58.838.526.143.9我们的（超像素+）82.781.374.867.0我们的（超像素+）62.540.829.447.8我们的（全模型）83.682.575.868.4我们的（全模型）65.541.232.951.5[11]第10段。特别是，McCor- mac等人[27]最近提出的方法也是建立在CNN上的，然而，他们在13类任务上的表现比我们差约5个百分点4.3. SUN3D 33类任务表6显示了我们的方法在SUN3D数据集上的结果和基线。我们遵循[9]的实验设置，在SUN3D中的所有65个标记帧上测试所有方法[9，40，5，6，12，4，26]，这些帧使用NYUDv2 40类注释进行训练。在计算了40类预测之后，我们将7个看不见的语义类映射为33个类。具体来说，地垫合并到地板，梳妆台合并到其他道具，其他五个类合并到其他道具。在所有方法中，我们实现了最好的Mean IoU得分，我们的超像素+和完整模型都是1。2页和4页。7.比[9]和[6]更好。对于像素Acc. ，我们的方法与以前的技术水平相当[9]。此外，我们观察到我们的超像素+模型将基线FCN提高了3。共7页，2。3页，3。3页，3。9页的四个指标，并应用多视图信息进一步提高3。0分，0分。共4页，3页。5页，3。7、分别。此外，我们的性能比DeepLab好得多-14846LFOV，这与我们在NYUDv2 40级任务上的模型相当。这说明了我们模型的泛化能力，即使没有对新的域或数据集进行微调。5. 结论提出了一种新的基于图像序列的语义分割方法。我们设计了一个基于超像素的多视图语义分割网络，该网络具有时空数据驱动的池，可以接收多幅图像及其对应关系作为输入。我们将多个视图中的信息传播到目标帧上，显著提高了目标帧上的语义此外，我们的方法可以利用大规模的未标记的图像进行训练和测试，我们表明，使用未标记的数据也有利于单图像的语义分割。致谢这项研究得到了德国研究基金会（DFG CRC1223）和ERC Starting Grant VideoLearn的支持。14847引用[1] P. 阿尔韦拉埃斯湾哈里哈兰角Gu，S.古普塔湖Bourdev，以及J·马利克使用区域和部分的语义分割。在CVPR，2012年。[2] A. Arnab，S. Jayasumana，S. Zheng，和P. H.乇深度神经网络中的高阶条件随机场。在ECCV，2016年。[3] W. Byeon，T.M. Breuel，F.Raue和M.利维基基于lstm递归神经网络的场景标注CVPR，2015。[4] H. 凯撒，J。Uijlings和V.法拉利基于区域的语义分割和端到端训练。在ECCV，2016年。[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。见ICLR，2014年。[6] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv预印本arXiv：1606.00915，2016。[7] C.库普里角法拉贝特湖Najman和Y.乐存。使用深度信息的室内语义分割。InICLR，2013.[8] J. Dai，K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽CVPR，2015。[9] Z. Deng，S. Todorovic和L.扬·拉特克。互斥约束下rgbd图像的语义分割。CVPR，2015。[10] P. 多尔和C。齐特尼克用于最快边缘检测的结构化森林CVPR，2013。[11] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在ICCV，2015年。[12] R. Gadde，V. Jampani，M. Kiefel和P. V. Gehler使用双边接收的超像素卷积网络。在ECCV，2016年。[13] M. Grundmann，V.Kwatra，M.汉和我艾萨高效的基于层次图的视频分割。CVPR，2010。[14] S. Gupta，P. Arbelaez，and J.马利克rgb-d影像室内场景之知觉组织与辨识。CVPR，2013。[15] S. 古普塔河，巴西-地Girshick，P. Arbe la'ez和J. 马利克从rgb-d图像中学习丰富的特征用于目标检测和分割。在ECCV。2014年[16] A. Hermans，G. Floros和B. Leibe基于rgb-d图像的室内场景密集三维语义映射InICRA，2014.[17] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。ACM Multimedia，2014年。[18] A.肯德尔湾Vijay和R.西波拉贝叶斯分段：用于场景理解的深度卷积编码器-解码器架构中的模型不确定性。arXiv预印本arXiv：1511.02680，2015。[19] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[20] A. 昆杜河谷Vineet和V.科尔顿。语义视频分割的特征空间在CVPR，2016年。[21] Z. Li，Y.甘，X.Liang，Y.Yu，H.Cheng和L.是林书lstm-cf：用lstms统一上下文建模和融合rgb-d场景标记。在ECCV，2016年。[22] G. 林角，澳-地申岛Reid等人用于语义分割的深度结构化模型的高效分段训练CVPR，2015。[23] M.林角，澳-地Chen和S.燕.网络中的网络。见ICLR，2014年。[24] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet：看得更宽，看得更好。arXiv预印本arXiv：1506.04579，2015。[25] Z. Liu，X.李，罗，C.- C. Loy和X.唐基于深度解析网络的语义图像在ICCV，2015年。[26] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[27] J. McCormac，A. Handa，A. Davison和S.罗伊特内格语义融合：用卷积神经网络实现稠密三维语义映射。arXiv预印本arXiv：1609.05130，2016年。[28] R. Mottaghi，X. Chen，X. Liu，N.- G.周S W.李，S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用CVPR，2014。[29] S. K. Mustikovela，M. Y. Yang和C.

下载后可阅读完整内容，剩余1页未读，立即下载