基于全卷积网络的超像素分割和视差估计

49 浏览量更新于2023-10-25 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13964基于全卷积网络的杨倩孙凤亭美国宾夕法尼亚州立大学网址：fuy34@psu.edu，uestcqs@gmail.com金海林土坯研究所hljin@adobe.com周子涵宾夕法尼亚州立大学zzhou@ist.psu.edu摘要在计算机视觉中，超像素已经被广泛地用作减少用于后续处理的图像基元的数量的有效方式。但只有少数尝试将它们纳入深度神经网络。一个主要原因是标准卷积运算是在规则网格上定义的，并且当应用于超像素时变得低效。受传统超像素算法通常采用的初始化策略的启发，我们提出了一种新的方法，该方法采用简单的全卷积网络来预测规则图像网格上的超像素。在基准数据集上的实验结果表明，该方法在约50fps的速度下实现了最先进的超像素分割性能。基于预测的超像素，我们进一步开发了用于深度网络的下采样/上采样方案，目标是为密集预测任务生成高分辨率输出。具体来说，我们修改了一个流行的立体匹配网络架构，同时预测超像素和视差。我们表明，改进的视差估计精度可以在公共数据集上获得。1. 介绍近年来，深度神经网络（DNN）在广泛的计算机视觉应用中取得了巨大成功。然而，新的神经结构设计和训练方案的发展往往带来对计算资源在算法和时间方面的考虑立体匹配任务作为一个例子。经验表明，与传统的2D卷积相比，4D体积上的3D卷积（高度×宽度×视差×特征通道）[17]可以更好地捕获上下文信息并学习表示对于每个视差水平，导致优越的视差估计结果。但是由于额外的特征维度，3D卷积通常在低于原始输入图像大小的空间分辨率上操作，以用于时间和存储器问题。例如，CSPN [8]，KITTI 2015基准测试中排名第一的方法，进行3D卷积以输入大小的1/4进行，并且使用双线性插值来对预测的视差量进行上采样以用于最终视差回归。处理高分辨率图像（例如，2000×3000），HSM [42]是Middlebury-v3基准测试中的top-1方法，它使用多尺度方法来计算输入大小的1/8、1/16和1/32处的视差体积再次应用双线性上采样以全分辨率生成视差图。在这两种情况下，对象由于上采样操作，边界和精细细节通常不能很好地保留在最终视差图中。在计算机视觉中，超像素通过将感知上相似的像素分组在一起来提供图像数据的紧凑表示。作为一种有效减少后续处理的图像基元数量的方法，超像素已被广泛用于视觉问题，如显着性检测[41]，对象检测[32]，跟踪[37]和语义分割[12]。然而，超像素尚未在DNN中被广泛采用以用于降维。一个主要原因是，卷积神经网络（CNN）中的标准卷积运算是在规则的图像网格上定义的。虽然已经进行了一些尝试来修改深度架构以合并超像素[14，11，20，34]，但在不规则的超像素网格上执行卷积仍然具有挑战性。为了克服这个困难，我们提出了一种深度学习方法来学习规则网格上的超像素我们的关键观点是，可以将每个超像素与常规图像网格单元相关联，这是传统超像素算法[22，36，10，1，23，25，2]通常使用的策略作为初始化步骤（参见图2）。因此，我们将超像素分割作为一项任务，旨在找到图像像素和规则网格单元之间的关联分数，并使用全卷积网络（FCN）直接预测这些分数。请注意，最近的工作[16]也提出了一种用于此任务的端到端可训练网络，但这种方法使用深度网络来提取像素特征，然后将其馈送到软K均值聚类模块以生成超像素。我们选择标准FCN体系结构的主要动机是它的简单性以及在常规网格上生成输出的能力。与预测的超像素，我们进一步提出了一个一般的框架下，13965FCN（superpixelseg.）QPSMNet图1.我们基于超像素的深度网络下采样/上采样方案的说明。在此图中，我们选择PSM- Net [7]作为立体匹配的任务网络。首先使用由我们的超像素分割网络预测的超像素关联矩阵Q对高分辨率输入图像进行下采样。为了生成高分辨率视差图，我们使用相同的矩阵Q对由PSMNet预测的低分辨率视差量进行上采样以用于最终视差回归。DNN中的采样/上采样。如图1所示，我们替换了用于下采样的常规操作（例如，跨距-2卷积）和上采样（例如，在任务网络（图中的PSMNet）中使用基于超像素的下采样/上采样方案来有效地保留对象边界和精细细节。此外，所得网络是端到端可训练的。我们的联合学习框架的一个优点是，超像素分割现在直接受到下游任务的影响在本文中，我们以立体匹配为例，展示了如何将流行的网络PSMNet [7]（许多最新的方法，如CSPN [8]和HSM [42]）应用于我们的框架。我们已经进行了广泛的实验，以评估所提出的方法。对于超像素分割，在公共基准（如BSDS500 [3]和NYUv2 [28]）上的实验结果表明，我们的方法与最先进的w.r.t.各种指标，而且速度也很快（运行速度约为50fps）。对于视差估计，我们的方法在SceneFlow [27]以及高分辨率数据集HR-VS [42]和Middlebury-v3 [30]上优于原始PSMNet，验证了将超像素纳入下游视觉任务的好处。总之，本文的主要贡献是：1.我们提出了一个简单的全卷积网络的超像素分割，实现了最先进的性能，对基准数据集进行管理。2.我们介绍了一个通用的基于超像素的下采样/上采样DNN的框架我们通过将超像素纳入流行的立体匹配网络，证明了视差估计的准确性提高。据我们所知，我们是第一个开发出同时执行超像素分割和密集预测的基于学习的方法的公司2. 相关工作超像素分割关于超像素分割有很长的研究，现在是许多视觉任务的标准工具。对于现有方法的全面调查，我们请读者参阅最近的论文[33]。在这里，我们专注于在初始化步骤中使用规则网格的方法。Turbopixels [22]以固定的间隔基于所需数量的超像素，并将它们生长成区域，直到形成超像素[36]通过使用嵌入结构和紧凑性约束的测地线距离来聚类像素来增长超像素SEEDS [10]将超像素划分在网格上，并通过在相邻超像素之间交换像素来不断细化边界。SLIC 算法 [1] 采用 K 均值聚类，基于 5 维位置和CIELAB颜色特征将附近像素分组为超像素。SLIC的变体包括将每个像素映射到10维特征空间并执行加权K均值的LSC [23]，将图像映射到2维流形以产生内容敏感的超像素的流形SLIC [25]，以及用非迭代区域生长方案取代迭代K均值聚类的SNIC [2虽然上述方法依赖于手工制作的功能，但最近的工作[35]提出使用DNN从大数据在[16]中，作者提出学习像素特征，然后将其馈送到可微K均值聚类模块以进行超像素分割。由此产生的方法SSN是第一个用于超像素分割的端到端可训练网络。与这些方法不同的是，我们训练了一个深度神经网络来直接预测像素-超像素关联图。超像素在深度神经网络中的应用有几种方法提出将超像素集成到深度学习管道中。这些工作通常使用预先计算的超像素来操纵学习的特征，使得重要的图像属性（例如，边界）可以更好地保存。例如，[14]使用超像素将2D图像模式转换为1D顺序表示，这允许DNN有效地探索长距离上下文以进行显着性检测。[11]引入了一个相反，我们使用超像素作为下采样/上采样的有效方法。此外，这些工作都没有尝试与下游任务联合学习超像素。此外，我们的方法也类似于可变形卷积网络（DCN）[9，47]，因为两者都可以实现。13966调整自适应相应字段。然而，DCN主要被设计为更好地处理几何变换和捕获上下文信息以用于特征提取。因此，与超像素不同，可变形卷积层不约束每个像素必须对输出特征有贡献（因此立体匹配立体匹配的基于超像素或分割的方法首先在[4]中引入，并且已经被广泛使用[15，5，19，38，6，13]。这些方法首先将图像分割成区域，并将参数模型（通常是平面）拟合到每个区域。在[39，40]中，Yamaguchiet al.提出了一种优化框架，用于将参考图像联合分割成超像素并估计视差图。[26]训练CNN来预测初始像素视差，这些视差使用倾斜平面MRF模型进行细化。[21]开发了一种有效的算法，该算法仅计算像素的随机子集的光致一致性。我们的工作是从根本上不同于这些基于优化的方法。代替将参数模型拟合到超像素，我们使用超像素来为DNN开发新的下采样/上采样方案。在过去的几年里，深度网络[45，31，29，44]利用大规模注释数据产生了令人印象深刻的立体匹配结果。采用3D卷积的最新方法[17，7，8然而，由于存储器约束，这些方法通常以较低分辨率计算视差体积。[18]双线性地将视差上采样到输出大小，并使用边缘保持细化网络对其进行细化。最近的工作[42]也探索了高效的高分辨率处理，但其重点是生成由粗到细的结果，以满足自动驾驶应用中随时按需深度感测的需求。3. 超像素分割方法在本节中，我们将介绍我们的基于CNN的超像素分割方法。我们首先在第3.1节中提出了直接预测规则网格上的像素-超像素关联的想法，然后在第3.2节中描述了我们的网络设计和损失函数。我们进一步将我们的超像素学习机制与最近的卷积空间传播（CSP）网络[8]联系起来，用于在第3.3节中学习像素亲和力。最后，在第3.4节中，我们在公共基准数据集上系统地评估了我们的方法。3.1. 在规则网格上学习超像素在文献中，用于超像素分割的常用策略[22，36，10，1，23，25，2，16]是首先使用大小为h×w的规则网格来分割H×W图像，并将每个网格单元视为初始超像素（即，一图2.图为Np。对于绿色框中的每个像素p，我们考虑分配红色框中的9个网格单元。“种子”）。然后，通过找到将每个像素p =（u，v）分配给种子s =（i，j）之一的映射来获得最终的超像素分割。在数学上，我们可以将映射写为gs（p）=gi，j（u，v）=1，如果第（u，v）个pi× el属于第（i，j）个超像素，否则为0。然而，在实践中，对于所有pixel-superpixel对计算gi，j（u，v）是不必要的，并且在相反，对于给定的像素p，我们将搜索约束到周围网格单元的集合Np。这是illus-在图2中显示。对于绿框中的每个像素p，我们只考虑红框中的9个网格单元格进行分配-是的。因此，我们可以将映射写为张量G∈ ZH×W×| Np|哪里|N p|= 9。虽然已经提出了几种方法[22，36，10，1，23，25，2，16]来计算G，但我们在本文中采取了不同具体来说，我们使用深度神经网络直接学习映射使我们的目标函数可微，我们用软结合映射Q∈RH×W× 代替硬分配G| Np|.这里，条目qs（p）表示将pi x elp分配给每个s∈ Np，使得s∈Npqs（p）=1. 最后，超级-通过将每个像素分配给具有最高概率的网格单元来获得像素：s=arg maxsqs（p）.虽然像素只能与9个相邻单元中的一个相关联似乎是一个很强的约束，这导致难以生成长/大的超像素，但我们想强调紧凑性的重要性。超像素法本质上是一种过分割方法。由于我们的超像素方法的主要目的之一是执行细节保留的下采样/上采样以辅助下游网络，因此更重要的是捕获局部区域中的空间相干性。对于9-cell区域之外的信息，将其分割成片段并将其留给下游网络以通过卷积运算聚合是没有问题的。我们的方法VS SSN [16].最近，[16]提出了SSN，一种用于超像素分割的端到端可训练深度网络。与我们的方法类似，SSN也计算软关联映射Q。然而，与我们的方法不同，SSN使用CNN作为提取像素特征的手段，然后将其馈送到软K均值聚类模块以计算Q。我们举例说明了这两种方法的算法方案13967输入图像CNN软K-means超像素段学习特征输入图像CNN超像素段(a) SSN（b）我们的图3.算法方案的比较SSN训练CNN来提取像素特征，这些特征被馈送到迭代K均值聚类模块以进行超像素分割。我们训练CNN通过预测像素-超像素关联图来直接生成超像素这里，回想一下，Np是p的周围超像素的集合，并且qs（p）是p与超像素s相关联的网络预测概率。在等式（1）中，每个和都是在所有像素上取的，有可能被分配给s。然后，任何像素p的重构属性和位置由下式给出：图4.我们简单的编码器-解码器架构用于超像素分割。请参阅补充材料，以了解-f′（p）=Σuss∈Np·qs（p），p′=ΣLss∈Np·qs（p）。（二）尾规格。图3中的SSN和我们的方法都可以利用CNN来学习复杂的特征，使用特定于任务的损失最后，我们的损失函数的一般公式有两个任期。第一项鼓励训练模型将具有相似感兴趣属性的像素分组，第二项强制超像素在空间上紧凑：功能协调发展的但与SSN不同的是，我们将特征提取和超像素分割结合到一个步骤中。因此，我们的网络运行速度更快，并且可以轻松集成到ex-cnn框架中用于下游任务（第4节）。L（Q）=Σdist（f（p），f′（p））+pmp −p′2，（3）S3.2. 网络设计和损失函数如图4所示，我们使用具有跳过连接的标准编码器-解码器设计来预测超像素关联图Q。编码器以彩色图像作为输入，并通过卷积网络产生高级特征图。然后，解码器通过去卷积层逐渐对特征图进行上采样，以使最终的特征图其中dist（·，·）是任务特定距离度量depend。ing on the pixel property f(p), S is the superpixel samplinginterval, and m is a weight balancing the twoterms.在本文中，我们考虑了f（p）的两种不同的选择。首先，我们选择CIELAB颜色向量，并使用CIELAB2范数作为距离度量。这导致类似于原始SLIC方法的目标函数[1]： Σ′m′预测，同时考虑到相应的特征响应编码器层。我们对所有层使用Leaky ReLU，除了预测层，其中应用了softmax。LSLIC（Q）=fcol（p）−fcol（p）<$2+S<$p −p<$2。（四）p与SSN [16]类似，我们的端到端可训练超像素网络的主要优势之一是其灵活性w.r.t.损失函数。回想一下超像素其次，在[16]之后，我们选择独热编码语义标签的向量，并使用交叉项E（·，·）作为距离度量：就是把相似的像素组合在一起针对不同的应用-ΣL（Q）=E（f（p），f′（p））+mp −p′。（五）因此，人们可能希望以不同的方式定义相似性一般来说，让f（p）是我们想要的像素属性，semsemp扫描电镜S2超像素保存。f（p）的实例包括3-在一个实施例中，颜色向量可以是N维CIELAB颜色向量，和/或N维CIELAB颜色向量。语义标签的独热编码向量，其中N是类的数量，以及许多其他。我们进一步通过像素的图像坐标p = [ x，y ]T来表示像素给定预测的关联图Q，我们可以计算任何超像素s的中心，cs=（us，ls），其中us是属性向量，ls是位置向量，如下所示：3.3. 连接到空间传播网络最近，[8]提出了卷积空间传播（CSP）网络，它学习一个亲和矩阵来将信息传播到接近空间的位置。通过将CSP模块集成到现有的深度神经网络中，[8]已经证明了在基于亲和力的视觉任务（如深度完成和细化）中的性能改进。在这Σp：s∈Np f（p）·qs（p）Σp：s∈Npp·qs（p）输入转换/去转换关联映射13968S部分，我们表明，超像素中心的计算使用学习的关联映射Q可以被写成：us =Σp：s∈Npq（p）， ls=Σp：s∈Np.qs（p）以CSP的形式进行，从而在(1)学习Q和学习亲和矩阵，如[8]中所示13969S给定输入特征量X∈RH×W×C，具有核大小K和步幅S的卷积空间传播（CSP）可以写为：K/2yi，j=κi，j（a，b）<$xi·S+a，j·S+b，（6）a，b=−K/2+1其中Y∈Rh×w×C是输出体积，使得h=Hw=W，κi，j是仿射网络ΣS实作详细数据。我们的模型使用PyTorch实现，并使用Adam优化β1=0。9和β2=0。999我们在等式中使用Lsem。（5）对于本实验，m=0。003.在训练过程中，我们随机将图像裁剪为208×208作为输入，并执行水平/垂直翻转以进行数据增强。初始学习速率设置为5×10−5，并在200k次迭代后减半。在大约30万次迭代时达到收敛。对于训练，我们使用单元大小为16×16的网格，使得K/2a，b=−K/2+1κi，j（a，b）=1，且n是元素-相当于设置所需的超像素数量明智的产品同时，如图2所示，为了计算与第（i，j）个网格单元相关联的超像素中心，我们考虑周围3S×3S区域中的所有像素：3个S/2到169。在测试时，为了生成不同数量的SU-perpixels，我们简单地调整输入图像到适当的大小。例如，通过将图像放大到480×320，我们的网络将生成大约600个超像素。此外，为了公平比较，大多数评估协议期望哪里ci，j=a，b=−3S/2+1qi，j（a，b）i·S+a，j·S+b、（7）超像素在空间上连接。为了实现这一点，我们将现成的组件连接算法应用于我们的输出，该算法将小于特定阈值的超像素与周围的超像素合并。2qi，jqi，j（u，v）（a，b）=103S/2，（8）a，b=−3S/2+1qi，j（u，v）评估指标。我们使用流行的度量标准评估超像素方法，包括可实现的分割，u=i·S+a，v=j·S+b.比较Eq（6）Eq.我们可以看到，计算大小为S×S的超像素的中心相当于使用从Q导出的3S×3S内核执行CSP。因此，ki，j（a，b）和qi，j（u，v）都表示输入体积中的空间位置（u，v）与输出体积中的空间位置（i，j）之间的学习权重在这方面，在我们的工作中预测Q可以被看作是学习一种亲和力矩阵[8]。尽管如此，我们指出，虽然这项工作和[8]中提出的技术具有相同的数学形式，但它们是为了非常不同的目的而开发的在[8]中，Eq.（6）被反复使用（S=1）来将信息传播到附近的位置，而在这项工作中，我们使用Eq.（7）计算超像素中心（S>1）。3.4. 实验我们在标准基准BSDS 500 [3]上使用分割标签训练我们的模型，并将其与最先进的超像素方法进行比较。为了进一步评估该方法的可推广性，我们还报告了其在另一个基准数据集NYUv2上没有微调的性能[28]。所有评价均使用[33]1提供的方案和代码进行。我们使用作者的原始实现运行LSC [23]、ERS [24]、SNIC[2]、SEAL [35]和SSN [16]，并使用[33]中提供的代码运行SLIC [1]和ETPS [43]。对于LSC，ERS，SLIC和ETPS，我们使用[33]中报道的最佳参数，对于其余的，我们使用原作者推荐的默认参数。1https://github.com/davidstutz/超像素基准分类准确率（ASA）、边界召回率和精确率（BR-BP）以及紧致性（CO）。ASA量化使用超像素作为预处理步骤的分割的可实现的准确性，BR和BP测量给定地面真实的超像素的边界粘附性，而CO表示超像素的紧凑性。这些分数越高，分割结果越好。如[33]所示，对于BR和BP评估，我们将边界公差设置为图像对角线的0.0025倍，四舍五入到最接近的整数。我们建议读者参考[33]以获得精确的定义。BSDS500上的结果。BSD 500包含200个训练图像、100个验证图像和200个测试图像。由于每个图像都有多个标签可用，因此我们遵循[16，35]并将每个注释视为单个样本，这导致1633个训练/验证样本和1063个测试样本。我们使用训练样本和验证样本来训练我们的模型。图5报告了所有方法在BSDS500测试集上的性能。Our method outperforms all traditional methods on allevaluationmetrics,exceptSLICintermofCO.Comparing to the other deep learning-based methods,SEAL and SSN, our method achieves competitive or bet-ter results in terms of ASA and BR-BP, and significantlyhigher scores in term of CO. Figure 8 further shows ex-ample results of different methods.注意，如[33]中所讨论的，在边界粘附性和紧凑性之间存在众所周知的权衡。虽然我们的方法在所有指标上都同样值得注意的是，通过获得更高的CO分数，我们的方法能够更好地捕获空间相干信息，并避免了2 代码和模型可在 https://github.com/fuy34/superpixel_fcn上获得。139700.980.970.960.950.940.93200 400 600 800 10001200超像素数0.150.140.130.120.110.10.090.080.070.8 0.85 0.90.95边界回忆0.450.40.350.30.250.20.150.1200 400 600 800 1000 1200超像素数图5.BSDS 500上的超像素分割结果从左至右：ASA、BR-BP和CO。0.960.950.940.930.920.910.90.89300 700 1100 1500 19002300超像素数0.260.240.220.20.180.160.140.120.8 0.85 0.90.95边界回忆0.50.450.40.350.30.250.20.150.1300 700 1100 1500 1900 2300超像素数1.510.50.20.10.050.020.01图6.NYUv2上的超像素分割结果从左至右：ASA、BR-BP和CO。尺寸为608×448，用于超像素评估。为了测试基于学习的方法的通用性，我们直接应用SEAL，SSN和我们的方法训练的模型。BSDS500到这个数据集没有任何微调。图6显示了所有方法在NYUv2上的性能。一般来说，所有基于深度学习的方法都表现良好，因为它们继续实现与传统方法相比具有竞争力或更好的性能。此外，我们的200 400 600 800 1000 1200超像素数图7.不同DL方法的平均运行时间，超像素的数量。请注意，y轴是以对数标度绘制的.过于关注图像细节和噪声。这一特点往往会导致更好的概括性，如NYUv2实验结果所示。我们还比较了基于深度学习（DL）的方法之间的运行时差异。图7报告了平均运行时w.r.t.在NVIDIA GTX1080Ti GPU设备上生成的超像素数量我们的方法比SSN快3到8倍，比SEAL快50倍以上。这是预期的，因为我们的方法使用简单的编码器-解码器网络来直接生成超像素，而SEAL和SSN首先使用深度网络来预测像素亲和力或特征，然后应用传统的聚类方法（即，graph cuts or K-means) to get superpixels.关于NYUv2 NYUv 2是最初为室内场景理解任务提出的RGB-D数据集，其中包含1，449个带有对象实例标签的图像。通过去除图像边界附近的未标记区域，[33]在400个测试图像方法比SEAL和SSN具有更好的泛化能力，这通过比较图5和图6中的相应曲线是明显的。具体而言，我们的方法在BR-BP和CO方面优于目视结果如图8所示。4. 应用于立体匹配立体匹配是一个经典的计算机视觉任务，其目的是找到一对校正图像之间的像素对应关系。最近的文献表明，深度网络可以通过构建4D成本体积来提高匹配精度计算（高度×宽度×视差×特征通道），并使用3D卷积[7，8，46]聚集信息然而，这样的设计由于额外的“视差”维度而消耗大量的一种常见的补救措施是双线性上采样预测的低分辨率视差体积，用于最终的视差回归。因此，对象边界往往变得模糊，细节丢失。在本节中，我们提出了一种基于预测超像素的下采样/上采样方案，并展示了如何将其集成到现有的立体匹配流水线中，以生成SLICSNICLSCERSETPS密封SSN我们SLICSNICLSCERSETPS密封SSN我们SLICSNICLSCERSETPS密封SSN我们SLICSNICLSCERSETPS密封SSN我们SLICSNICLSCERSETPS密封SSN我们SLICSNICLSCERSETPS密封SSN我们密封SSN我们ASA评分ASA评分边界精度Avg.时间（对数秒）边界精度CO评分CO评分13971输入GT段SLIC SEAL SSN Ours图8.示例超像素分割结果。与SEAL和SSN相比，我们的方法在对象边界粘附方面具有竞争力或更好，同时生成更紧凑的超像素。顶行：BSDS500。最下面一行：NYUv2。吃高分辨率的输出，更好地保留对象边界和细节。4.1. 网络设计与损失函数图1提供了我们的方法设计的概述我们选择PSMNet[7]作为我们的任务网络。In order to in- corporate ournew downsampling/upsampling scheme, we change all thestride-2 convolutions in its feature extractor to stride-1,and remove the bilinear upsampling operations in thespatial dimensions.给定一对输入图像，我们使用我们的超像素网络来预测关联图Ql、Qr，并使用等式（1）计算超像素中心图。（一）.中心地图（即，下采样图像）然后被馈送到修改的PSMNet中以得到低分辨率视差卷。接下来，低分辨率体积被上采样到原始分辨率，其中根据等式Q1（2），并且使用视差回归来计算最终视差。详细规格请参阅补充资料。与PSMNet [7]相同，我们使用3阶段平滑L1损失，权重α1=0。5，α2=0。7，α3=1。0用于视差预测。我们使用SLIC损失（方程式）。（4）进行超像素分割。最终损失函数为：受益于超像素和视差估计的联合学习，我们为我们的方法训练了两个不同的模型。在第一个模型Ours fixed中，我们固定了超像素网络中的参数，并训练了网络的其余部分（即，修改的PSMNet）用于视差估计。在第二个模型Ours joint中，我们联合训练图1中的所有网络。对于这两种模型，超像素网络使用SLIC损失在SceneFlow上进行预训练。实验在4块Nvidia TITAN XpGPU上进行。SceneFlow上的结果。SceneFlow是一个合成数据集，包含35，454个训练帧和4，370个测试帧，具有密集的地面真实差异。在[7]之后，我们在训练和测试时间中排除了视差大于192的在训练过程中，我们在SLIC损失中设置m=30，并将输入图像随机裁剪为512×256。为了像PSM-Net那样以1/4的输入分辨率进行3D卷积，我们预测网格单元大小为4×4的超像素来执行4×下采样/上采样。我们训练模型13个epoch，批量大小为8。初始学习速率为1×10−3，在11和12个epoch之后分别降低到5×10−4和1×10−4对于PSMNet，我们使用作者Σ3L=s=1. 1ΣNαs Np=1ΣsmoothL1（dp−dp）+λNLSLIC（Q）（九）时间表作为我们的方法。我们使用标准端点误差（EPE）作为评估指标，它测量预测视差与地面之间的平均像素欧氏距离其中N是像素的总数，λ是平衡这两项的权重。我们设置λ=0。1，所有实验。4.2. 实验我们在三个公共数据集上进行了实验，SceneFlow[27]，HR-VS [42]和Middlebury-v3 [30]，以将我们的模型与PSMNet进行比较。进一步核实真相如表1所示，我们的关节达到了最低的EPE。还要注意，我们的修复性能比原来的PSMNet差，这表明了重要性联合训练。定性结果示于图9中。可以看出，我们的固定和我们的联合都比原始的PSMNet更好地保留了细节。HR-VS的结果HR-VS是一个合成数据集，13972左图像GT视差PSMNet我们的固定我们的关节图9. SceneFlow和HR-VS的定性结果。我们的方法能够更好地保留细节，例如突出显示区域中的电线和镜像框架。顶行：场景流。底行：HR-VS。表1. SceneFlow和HR-VS上的终点错误（EPE）数据集PSMNet [7]我们的搞定了我们的关节SceneFlow1.041.070.93HR-VS3.833.702.77禁止驾车观看。它包含780张2056 ×2464分辨率有效视差范围为[9.66，768]。因为没有测试集发布，我们随机选择680帧进行训练，其余用于测试。由于数据量相对较小，我们在之前的实验中对SceneFlow上训练的所有三个模型进行了微调。由于原始PSMNet分辨率高、视差大，无法直接应用于全尺寸图像。我们遵循通常的做法，将输入图像和视差图都下采样到1/4大小进行训练，并将结果上采样到全分辨率进行评估。状态。对于我们的方法，我们预测网格单元大小为16×16的超像素执行16×下采样/上采样。在训练过程中，我们设置 m=30 ，并将图像随机裁剪为2048×1024。我们训练了200个epoch的所有方法，批量大小为4。初始学习速率为1×10−3，在150个历元后减少到1×10−4如表1所示，我们的模型优于原始模型PSMNet 。联合训练的 EPE 明显较低请注意，与SceneFlow相比，我们在此高分辨率数据集上观察到更大的性能增益，因为我们在HR-VS上执行16倍上采样，但在SceneFlow上仅执行4倍定性结果示于图9中。Middlebury-V3的结果。Middlebury-v3是一个高分辨率的真实世界数据集，包含10个训练帧，13个验证帧和15个测试帧。我们使用训练和验证框架来调整我们的联合模型，3在官方网站中被命名为附加数据集。SceneFlow，16×16超像素。我们设置m = 60，并以批量大小4训练模型30个epoch。初始学习率为1×10−3，在20个epoch之后除以10注意，对于实验，我们的目标不是实现官方米德尔伯里v3排行榜上的最高排名而是为了验证所提出的基于超像素的下采样/上采样方案的有效性。根据排行榜，我们的模型在所有指标上都优于PSMNet，其中一些指标如表2所示。结果再次验证了所提出的基于超像素的下采样/上采样方案的益处。表2.Middlebury-v3基准测试结果方法avgerrrms bad-4.0 A90PSMNet ROB [7]8.7823.329.222.8我们的关节7.1119.127.513.85. 结论本文提出了一种简单的全卷积网络用于超像素分割。在基准数据集上的实验结果表明，该模型具有较好的计算效率，并具有较好的泛化能力.此外，我们已经证明，通过使用超像素来保持对象边界和精细细节，可以在流行的立体匹配网络中获得更高的在未来，我们计划将所提出的基于超像素的下采样/上采样方案应用于其他密集预测任务，例如对象分割和光流估计，并探索在这些应用中使用超像素的不同方式。谢谢。这项工作得到了NSF奖#1815491的部分支持和Adobe的礼物。13973引用[1] RadhakrishnaAchanta ， AppuShaji ， KevinSmith ， Aure'lien Lucchi，PascalFua和SabineSüsstrunk。SLIC超像素与最先进的超像素方法的比较。IEEE Trans. 模式分析马赫内特尔，34（11）：2274一、二、三、四、五[2] RadhakrishnaAchanta和SabineSüsstrunk。超像素和多边形使用简单的非迭代聚类。在CVPR中，第4895-4904页，2017年。一、二、三、五[3] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测与分层图像分割。IEEE传输模式分析马赫内特尔，33（5）：898-916，2010. 二、五[4] 斯坦·伯奇菲尔德和卡洛·托马西。立体和运动与倾斜表面的多向切割。ICCV，第489-495页，1999年。3[5] 迈克尔·布莱耶和玛格丽特·格洛兹。一种基于图像分割和全局可见性约束的分层立体算法.ICIP，第2997-3000页，2004年。3[6] Michael Bleyer，Carsten Rother，and Pushmeet Kohli.表面立体与软分割.见CVPR，第1570- 1577页，2010年。3[7] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR中，第5410-5418页，2018年。二三六七八[8] Xinjing Cheng，Peng Wang，and Ruigang Yang. 使用卷积空间传播网络学习深度CoRR，abs/1810.02695，2018。一、二、三、四、五、六[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在ICCV，第764-773页，2017年。2[10] Michael Van den Bergh，Xavier Boix，Gemma Roig，and Luc J.范古尔SEEDS：经由能量驱动采样提取的超像素。 International Journal of Computer Vision ， 111（3）：298-314，2015. 一、二、三[11] Raghudeep Gadde ， Varun Jampani ， Martin Kiefel ，Daniel Kappler，and Peter V.盖勒超像素卷积网络-使用双边接收。在ECCV，第597-613页，2016中。一、二[12] 斯蒂芬·古尔德、吉姆·罗杰斯、大卫·科恩、加尔·埃利丹和达芙妮·科勒。基于相对位置先验的多类分割。International Journal of Computer Vision，80（3）：300-316，2008. 1[13] FatmaGuéne y和AndreasGeige r.Displets：使用对象知识解决在CVPR，第4165-4175页，2015年。3[14] 何胜峰，林森. H. Lau，Wenxi Liu，Zhe Huang，andQingxiong Yang. Supercnn ： A superpixelwise convolu-tional neural network for salient object detection. 国际计算机视觉杂志，115（3）：330-344，2015。一、二[15] 李红和乔治陈。基于图割的分段立体匹配。见CVPR，第74-81页，2004年。3[16] Varun Jampani ， Deqing Sun ， Ming-Yu Liu ， Ming-Hsuan Yang，and Jan Kautz.超像素采样网络。在ECCV中，第363-380页，2018年。一、二、三、四、五[17] Alex Kendall，Hayk Martirosyan，Saumitro Dasgupta，and Peter Henry.深度立体回归的几何和上下文的端到端学习。在ICCV，第66-75页，2017年。第1、3条[18] 放大图片作者：Sameh Khamis，Sean Ryan Fanello，Christoph Rhemann，Adarsh Kowdle，Julien P. C.瓦伦丁和沙赫拉姆·伊扎迪Stereonet：实时边缘感知深度预测的引导分层细化。在ECCV中，第596-613页，2018年。3[19] Andreas Klaus，Mario Sormann，and Konrad F.卡纳尔基于片段的立体匹配使用置信度传播和自适应相异性度量。载于ICPR，第153[20] Suha Kwak，Seunhoon Hong，and Bohyung

下载后可阅读完整内容，剩余1页未读，立即下载