混合CNNCRF立体声估计模型：一个新的和原则性的方法

157 浏览量更新于2023-10-16 收藏 1.55MB PDF 举报

CRF模型

数据驱动方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2339用于立体声的Patrick Kn öbelreiter1knoebelreiter@icg.tugraz.at克里斯蒂安·莱因巴赫1reinbacher@icg.tugraz.at亚历山大·谢霍夫佐夫1shekhovtsov@icg.tugraz.atThomas Pock托马斯·波克1，2pock@icg.tugraz.at1格拉茨理工大学计算机图形与视觉学院摘要2视觉、自动化控制中心AIT奥地利理工我们提出了一种新的和原则性的混合CNN+CRF立体声估计模型。我们的模型允许在统一的方法中利用卷积神经网络（CNN）和条件随机场（CRF）的优势CNN计算匹配和独特颜色边缘的表达特征，这些特征又用于计算CRF的一元和二元成本。作为推论，我们应用了最近提出的高度并行的对偶块下降算法，该算法只需要少量的固定迭代次数就可以计算出高质量的近似极小值。作为本文的主要贡献，我们提出了一种理论上合理的方法，基于结构化输出支持向量机（SSVM）来训练大规模数据端到端的CNN +CRF混合模型尽管我们使用的是浅层CNN，并且没有对CRF的最终输出进行任何后处理，但我们训练的模型表现非常好。我们在具有挑战性的立体声基准测试（如Middlebury 2014和Kitti 2015）上评估了我们的组合模型，并研究了每个单独组件的性能。1. 介绍立体匹配是一个基本的低层次视觉问题。这是一个不适定的反问题，要求从一对图像中重建深度这需要对各种视觉干扰的鲁棒性在深度神经网络数据驱动方法之前，已经使用全局优化技术[20，24，37，41，50]取得了进展，其特征在于鲁棒表面模型和遮挡机制。通常情况下，这些方法必须依赖于工程成本匹配，并涉及选择一些参数的实验。最近用于立体声的深度CNN模型[12，28，55]从数据中学习，对照明变化，遮挡，图1：架构：卷积神经网络，我们称之为Unary-CNN，计算每个像素的两个图像的特征。这些特征使用相关层进行比较。由此产生的配比成本量成为通用报告格式的一元成本。CRF的成对成本由边缘权重参数化，边缘权重可以遵循通常的对比敏感模型或由成对CNN估计。反射、噪声等。一个深层次的和可能的多尺度的架构是用来利用本地匹配到一个全球。然而，立体声的深度CNN模型也非常依赖于后处理，结合一组滤波器和类似优化的算法，以产生最终准确的结果。在这项工作中，我们将CNN与立体声的离散这使得复杂的局部匹配成本和参数化的几何先验可以在全局优化方法中放在一起，并从数据中进行端到端的学习。即使我们的模型包含CNN，它仍然很容易解释。这个属性使我们能够更多地了解我们的网络执行的学习。我们从CRF公式开始，用学习的术语替换所有手工制作的术语。我们提出了一个混合CNN-CRF模型，如图1所示。我们的Unary-CNN计算两个图像的局部特征，然后以固定的度量进行比较。我们的Pairwise-CNN还可以估计对比敏感的成对成本，以鼓励或阻止标签跳转。使用学习到的一元和成对成本，CRF试图找到一个联合解决方案，优化4-对比敏感/成对CNNI0一元CNN相关性CRFDI1一元CNN2340连通图该模型概括了现有的立体声工程方法，并增强了现有的完全学习的方法。Unary-CNN直接生成手动设计的匹配成本，例如基于颜色差异，采样不敏感变量 [5] ，局部二进制模式（例如， Census transform[51]）等。Pairwise-CNN概括了对比度敏感的正则化器[7]，这是用于分割和立体的MRF/CRF模型的最佳实践为了在CRF模型中执行推理，我们应用了[44]的快速方法，该方法改进了[12，28，55]中使用的结合多个后处理步骤的启发式方法。我们故意选择不使用任何后处理，以表明通过后处理获得的大部分性能增益可以由经过良好训练的CRF模型覆盖。虽然以前，基于LP松弛的方法被认为对于立体声来说过于昂贵，[44]报告了接近实时的性能，这使得这种选择肯定比全深度架构更快[55]，并且在速度上与诸如SGM [16]，MGM [14]等推理算法竞争。我们可以使用结构化支持向量机（SSVM）公式并通过网络传播其次梯度来训练图1训练这种规模的非线性CNN+CRF模型是一个具有挑战性的问题，以前没有解决过。我们证明了这是实际可行的，有一个快速的推断方法，并使用一个近似的次梯度格式。由于在测试时推理应用于完整的图像，因此我们也在完整的图像上训练它。这与用于训练的样本补丁的作品[28，52，55]SSVM方法更直接地优化了对训练集的完整图像的推理性能。虽然使用最大似然法时，重要的是要对硬否定示例进行采样（硬挖掘）[45]，但SSVM将难以分离的标签确定为最受违反的约束。我们观察到，混合CNN+CRF网络已经在浅CNN模型（如3-7层）上表现得非常好。有了CRF层，泛化差距比没有的要小得多（过拟合更少）。因此，混合模型可以使用比现有技术少得多的参数来实现有竞争力的性能。这导致更紧凑的模型和更好地利用训练数据。我们报告竞争力的性能基准使用-ING浅混合模型。定性结果表明，我们的模型往往能够准确地描绘对象边界，它也往往是强大的闭塞，虽然我们的CRF没有包括明确的闭塞建模。贡献我们提出了一种用于立体声的混合CNN+CRF模型，该模型利用CNN的表现力来组合CRF易于整合远程交互。我们提出了一种有效的方法来训练CNN+CRF模型。训练的混合模型被证明是快速的，并在具有挑战性的数据集上产生有竞争力的结果。我们不使用任何形式的后处理。复制结果的代码将公开1。2. 相关工作立体声CNN与我们的工作最相关的是[12，28]提出的立体声CNN匹配网络和[55]的快速他们使用类似的架构，使用连体网络[8]从两个图像中执行特征提取，并使用固定的相关函数（产品层）进行匹配。我们的模型的一部分（见图）。 1 ）被称为 Unary-CNN 和Correlation密切关注这些工作。然而，虽然[12，28，55]通过采样匹配和不匹配的图像块进行训练，但遵循更一般的匹配/图像检索的工作路线，我们从完整的图像进行训练。只有在这种情况下，才有可能扩展到模型的完整端到端训练，其中包括专门针对密集匹配中的最佳性能进行优化的CRF（或任何其他全局后处理）。[55]的精确模型通过完全连接的NN实现了特征的组合，这比他们的快速模型更准确，但明显更慢。所有这些方法都广泛使用了不可与CNN联合训练的后处理步骤：[55]使用代价交叉聚合、半全局匹配、子像素增强、中值和双边滤波;[28]使用基于窗口的代价聚合、半全局匹配、左右一致性检查、子像素细化、中值滤波、双边滤波和倾斜平面拟合;[12]使用半全局匹配，左右一致性检查，dispar- ity传播和中值滤波。[28]中比较没有后处理的裸网络的实验表明，他们的固定相关网络优于[55]的准确CNN匹配通用匹配网络是也与我们的工作有关[52]使用匹配的CNN补丁匹配，[13]使用它的光流和[29]使用它的立体声，光流和场景流。已经提出了网络的变体[13，29]，其显式地包括相关层;然而，然后将其用作特征的堆叠，并且随后进行回归密集匹配的上卷积（ up-convolution）。总的来说，这些网络具有大量的参数，并且需要大量的自适应合成训练数据。联合训练（CNN+CRF训练）CNN和CRF的端到端训练在许多应用中都很有帮助。完全连接的CRF [23]，在语义分离中表现良好心理状态，在[10，56]中通过展开迭代的推理方法（平均场）和反向传播进行了联合训练。设置好的一元和成对成本，并使用1https://github.com/VLOGroup2341（φ，φ通过它们来传播。不幸的是，这个模型似乎不适合立体声，因为典型的解决方案包含倾斜的表面，而不是分段恒定的表面（[23]中的滤波在前平行平面中传播信息）。相反，基于动态编程（如SGM [16]/MGM[14]）的简单算法通常用于工程立体方法中作为后处理。然而，他们遭受各种伪影，如[14]所示经过训练的推理模型，即使是相对简单的模型，例如树上的动态编程[36]，也可能变得非常具有竞争力。Scharstein[39] and Scharstein et al.[35]已经考虑了立体的、线性参数的训练CRF模型。据我们所知，CNN推理技术的训练尚未在立体声中得到证明。我们认为这是因为模型在具有数百个标签的像素上的推理相对较慢。采用[44]中提出的方法，这是GPU上LP松弛的一种变体，使我们能够克服这一限制。为了训练这种方法，我们需要看看一个合适的学习公式具体地说，近似边缘的方法通常用图一1.另外，参考图像10用于使用基于梯度的预定义模型或使用可训练的成对CNN来估计对比度敏感的边缘权重。然后，通过CRF推理将相关体积与成对权重一起融合，优化总成本。3.1. 一元CNN我们在Unary-CNN中使用3或7层，每层使用100个过滤器。第一层的过滤器尺寸为（3×3），所有其他层的过滤器尺寸为（2×2）。我们在所有卷积层之后使用tanh使用tanhi）使训练更容易，即不需要中间（批量）归一化层，以及i i）保持相关层的输出有界。相关工作[2，9]还发现tanh在相关补丁匹配方面比ReLU表现更好3.2. 相关性分别从左图像和右图像提取的特征φ0和φ1的互相关被计算为：近似最大似然[1，18，26，32，35，39]。01迭代可以差分的推理技术可以直接通过梯度下降展开和训练[27，33，34，38，42，47，56]。推理方法基于pi（k）=πe（φi，φi+k）01j∈Leii+ji ∈（一）⟩可以使用结构化SVM方法[11，15，21，48]有区别地训练LP松弛，其中模型的参数与松弛的双变量联合优化（混合学习和推理）。我们讨论了在我们的设置（理论和时间）应用这种技术的困难，并表明，而不是执行随机近似次梯度下降是更可行的和实际有效的。3. CNN-CRF模型在本节中，我们将描述模型的各个模块（图1）以及它们如何连接。我们考虑标准的整流立体设置，其中极线对应于图像行。左为左，因此，相关层输出softmax normal-对应特征向量的量化标量积。在实践中，标准化固定了我们的一元成本的规模，这有助于训练联合网络。由于相关函数对于所有视差都是齐次的，因此可以在具有不同数量视差的测试时间应用用某个固定数量视差训练的模型最佳匹配视差的逐像素独立估计xi∈arg maxpi（k）（2）K用于与完整模型进行比较。3.3. CRFCRF模型优化了完全差异标记的总成本右图像I0和I1，左图像被认为是参考图像，并且对于每个像素，我们寻求在可能的视差范围内找到I1的匹配像素dispar-minx∈X.f（x）：=Σi∈Vfi（xi）+Σij∈EΣf ij（x i，x j）.（三）像素 i ∈ L = dom I0 的性质由离散标签 xi ∈ L={0，. . . L − 1}。Unary-CNN提取I0的密集图像特征和I1，记为φ0=φ（I0;θ1）和φ1=φ（I1;θ1）。图1中一元CNN的两个实例共享参数θ1。对于每个像素，这些提取的特征然后在所有可能的视差处相关，以形成相关体积（匹配置信体积）p：n× L →[0，1]。置信度pi（xi）被解释为在第一图像I0中像素i周围的窗口匹配第二个像素i+xi其中V是图中所有节点的集合，即，像素，E是所有边缘的集合，X=LV是标记的空间。一元项fi：L →R被设置为fi（k）= −pi（k），匹配成本。成对项fij：L × L →R实现以下模型：iii（i）=i i i（i）= iii（|xi−xj|;P1，P2）。（四）权重wij可以设置为手动定义的对比度敏感权重[6]：wij=exp（−α|Ii−Ij|β）<$ij∈E，（5）23422我允许在强图像梯度上更便宜的视差跳跃，或者使用成对CNN的学习模型。函数ρ是一个鲁棒惩罚函数，定义为：100 如果|xi−xj|=0，p（|xi−xj|）=P1，如果|xi−xj|=1，P2否则，（六）图2：学习成本与固定成对成本：在立体声中很受欢迎[17]。成本P1惩罚小差异表示平滑表面的一个像素的偏差，并且P2惩罚表示深度不连续性的较大跳跃。我们只在4连通网格上使用成对交互。推理虽然（3）的直接解是难以处理的[25]，但有许多方法可以执行近似推理[11，19]以及专门为立体声设计的相关算法，如[14，17]。我们应用我们的双重最小化-最大化方法（Dual MM）[44]，这是合理的，因为它基于LP松弛，类似于TRW-S [19]，并且大规模并行，允许快速GPU实现。我们简要介绍了双MM，这也将需要考虑培训。设f表示所有一元项和成对项fi，fi，ij的连接成本向量. 该方法首先将f分解为水平链和垂直链，f = f1+ f2（即f1包括所有水平边和所有一元项，f2包括所有垂直边和零个一元项）。（3）中的最小值的下界为使用学习的Pairwise-CNN（左）和固定边缘函数（右）在水平方向上的两个相邻像素之间的成对成本。暗像素指示改变标签的低成本，而亮像素指示标签切换的高成本注意，暗像素如何跟随对象轮廓（其中深度不连续是可能的）以及纹理边缘如何倾向于被抑制（例如，在学习的版本中。pi x eli到权重（wij）的特征|i，j∈E），其中我们使用绝对值函数作为激活。这意味着，这对-明智的成本总是大于0，我们的Pairwise-CNN有能力自由地扩展输出。在实践中，这是可取的，因为它允许我们自动学习数据保真度和正则化之间的最佳权衡。该网络的参数将被表示为θ2。权重w可以存储为2通道图像（每个方向一个通道）。它们在成对项fij（4）中的（5）中定义的手动定义的对比度敏感权重上进行推广。直观地说，这意味着成对网络可以学习自适应地应用权重w，Maxλ.D（λ）：=min（f1X1+λ）（x1）+min（f2X2Σ-λ）（x），（七）在更广泛的邻域中的图像内容上。值P1、P2保持为全局参数。图2示出了成对CNN的示例输出。其中λ是对应于约束x1=x2的拉格朗日乘子的向量。对于任何λ，界D（λ）≤（3）成立，然而对于最优λ最大化括号中的和，界D（λ）Dual MM算法通过每次考虑所有垂直或水平链交替更新λ来执行朝向该最优值的并行处理。每次更新单调地增加下限（7）。最终的解决方案如下：xi∈argmin（f1+λi）（k），（8）K即，类似于（2），但对于重新参数化的成本f1+λ。如果推论已经收敛，并且（8）中的最小化器xi对于所有i都是唯一的，则x是能量最小化的最优解（3）[22，49]。3.4. 成对CNN为了使用成对CNN来估计边缘权重，我们使用了一个3层网络。我们使用64个大小为3×3的滤波器和前两层的tanh激活函数来提取一些合适的特征。第三层映射了4. 培训这项工作的一个主要目标是图1中完整模型的端到端训练。为了比较不同的组件，我们训练了3种类型的模型，增加了通用性：• Pixel-wiseUnary-CNN：其中CRF交互设置为零并且Pairwise-CNN关闭的模型。• 联合Unary-CNN+CRF模型，其中Pairwise- CNN被固定以精确复制对比敏感模型（5）。训练参数为：一元CNN和全局参数P1，P2。• 联合模型与训练的Unary-CNN和Pairwise- CNN（=完整模型）。训练参数为： Unary-CNN 、Pairwise-CNN和全局参数P1，P2.4.1. 在像素模型中训练一元CNN为了比较，我们以像素模式训练我们的一元CNN，类似于[12，28，55]。为此目的，我们将CRF交互设置为零（例如，通过2343我我我我我令P1=P2= 0），在这种情况下，所得到的判定退化为逐像素独立的argmax判定规则（2）。训练这样的模型可以用不同的方式来公式化，使用似然/交叉熵的梯度[28，53]，重新加权回归[12]或铰链损失[54]。在[28，53]之后，我们使用交叉熵损失训练一元CNN θ1其中δ（x） i是RL中的向量，其分量为（[[x i=k]]）|k∈L），即xi的1-hot编码，并且x<$是损失增广推理的（一般非唯一）解决方案问题x<$$>∈argmin<$f<$$>（x）：=f（x）−γl（x，x<$）<$.（十四）Xminθ1ΣΣi∈k∈Xpgt（k）logpi（k;θ1），（9）在加性损失函数的情况下，问题（14）是与（3）相同的类型，具有调整的一元项。我们促进了为什么SSVM选择其中pgt（k）是第i个像素的地面实况视差的独热编码。4.2. 培训联合模式我们在非线性设置中应用结构化支持向量机公式，也称为最大边际马尔可夫网络[46，48]。在简要介绍了SSVM方法之后，我们讨论了当不可能进行精确推理时的学习问题。我们认为[11，21]的混合学习和推理方法然后，我们讨论了所提出的训练方案近似一个固定数量的迭代对偶MM的次梯度。SSVM假设我们有一个训练样本，由输入图像对I=（I0，I1）和真实视差xx x组成。设x是我们做出的视差预测。我们考虑一个附加损失函数Σ通过将铰链损失（12c）重写为以下形式，min{R ∈ R|（x）n ≥ f（x≠）− f（x）+ γl（x，x≠）}，（15）其揭示了大的裕度分离特性：（15）中的约束试图确保训练解xk比所有其它解好裕度γl（x，xk），并且最违反的约束设置松弛量γ l的值。因此，参数γ控制裕度：大的裕度对于有限数据的更好的概括可能是有益的。在（15）中找到最多违反的约束正是损失增加的问题（14）。上述方法中的一个障碍是我们不能精确地解决损失增广推理（14）。然而，有一种方法解决其凸松弛，我们可以积分如下。将分解方法应用于（14）产生最小化的下限：（14）≥l（x，x）= li（xi，x），（10）D<$（λ）：=min（f<$1+λ）（x1）+min（f<$2−λ）（x2）（16）1x1x 2其中像素损失l i取为l i（x i，xn）= min（|x i−x|，τ），适合于立体重建。经验风险是几个图像的样本上的损失之和（10）然而，对于我们的目的，仅考虑单个图像对就足够了。当由CRF执行推理时，视差估计x是（3）的最小值，训练最佳参数θ=（θ1，θ2，P1，P2）可以以双层优化的形式公式化：minl（x，x∈ N）（11a）θS.T. x ∈ arg min f（x; θ）.（11b）x∈X观察到（11b）中的任何x∈argminf（x）必然满足f（x）≤f（x≠）。因此，对于任何γ >0，标度损失γl（x，x≠ 0）的上限可以为：对于所有λ。像这样的下边界（14）导致损失γ 1（x，xπ）和铰链损失（12a）的上边界：γl（x，x<$）≤（12 a）≤f（x <$）−D<$（λ）。（17）该界限对任何λ都有效，并且通过最大化D（λ）inλ.另一方面，学习问题是迷你-最大化θ中的损失。收紧λ中的界和最小化θ中的损失可以写成联合问题minf（x≠ 0;θ）−D<$（λ;θ）.（十八）θ，λ使用这个公式，我们不需要立即找到最佳λ;朝着最小化它迈出一步就足够了。这种方法被称为混合学习和推理[11，21]。这对我们的目的是不利的，原因有两个：i）在测试时，我们将使用固定的数量，Maxx：f（x）≤f（x≠ 0）≤ maxγl（x，x∈）（12 a）2344[f（x<$）−f（x）+γl（x，x<$）]（12 b）迭代的BER而不是最优λii）以这种方式在θ和λ中的联合优化将更慢，iii）它不是fea-x：f（x）≤f（x≠ 0）≤max [f（x<$）− f（x）+ γl（x，x<$）]。（12c）X（12 c）w.r.t.的次梯度。（f i|i∈ V）可以选择为δ（x）−δ（x<$），（13）可以存储训练中每个图像的中间λ设为λ，则具有一元成本体积的大小。近似次梯度我们感兴趣的是在推断方法的固定次数的迭代之后的（17）的子梯度，即，训练展开推理。次优λ（在固定次数的迭代之后）通常将2345我我df（k）当CNN参数θ以及CRF成本f变化时，虽然我们不完全回溯λ的子梯度（这将涉及回溯动态规划和对偶MM中的递归细分），但我们仍然可以检查它的结构并将近似推理的子梯度与精确推理的子梯度联系起来。第4.1段。设x<$1和x<$2是（16）中水平和垂直链子问题的极小化器，对于g iv enλ。设/=是一个节点的子集，其中x<$1/=x<$2。然后是次梯度4.4.实现细节我们使用具有随机梯度下降和动量的Theano [4为了训练没有成对成本的模型，我们将学习率设置为1×10−2，对于所有其他模型，我们将学习率设置为1×10−6。是-在将样本送入我们的模型之前，我们对其进行标准化，零均值和单位方差我们还对Middlebury样本进行了纠正。我们的完整模型是逐步训练的。我们从训练模型我我g的损失上限（17）w.r.t. fV=（f i|i∈ V）有以下表达式的组件g（k）=.δ（x）−δ（x<$1）（k）（19）iΣ。iΣ+Jij（k，x<$2）−Jij（k，x<$1），j∈/=以较低的复杂度，并继续通过训练更多的COM-plex模型，其中我们重复使用先前训练的参数并随机初始化新参数。由于我们使用完整的RGB图像进行训练，因此我们必须处理遮挡和无效像素，这些像素在训练过程中被屏蔽掉。此外，我们使用其中Jij （k，l）是一个子雅可比矩阵（匹配dλj（l），我C++/CUDA，以便在流媒体设置的实时环境中使用我们的训练模型。我们实现方向集合dfi（k））。更多细节见附录A我们猜想，当集合n/=很小时，对于许多节点，（19）中的和的贡献也很小，而（19）中的第一部分用精确推理（13）匹配次梯度提案4.2. 为了用对偶分解（如Dual MM）训练最小化推理，我们在固定次数的迭代后计算最小化器x<$1，并将次梯度近似为δ（x<$）−δ（x<$1）。学习成功的前提是-实际上使大部分像素一致。推理方法通过调整λ来实现这一点，使得约束x1=x2得到满足。在实践每秒3-4帧，我们完全训练的3层模型使用640×480像素的输入大小2。5. 实验在本节中，我们测试了我们提出的方法的不同变体。为了不混淆读者，我们使用以下命名约定：CNNx是argmax输出-如第4.1节所述训练的网络的输出;CNNx+CRF是同一网络用双MM作为后处理;CNNx+CRF+Joint是第4.2节中描述的联合训练网络，CNNx+CRF+Joint+PW是第4.3节中描述的完全训练方法。x表示层的数量。CNN的记者如果数据不太模糊，在固定次数的迭代之后已经满足了大量像素。一元成本的良好初始化，例如使用仅逐像素方法学习的那些初始化，可以帮助提高初始一致性并稳定该方法。4.3.在联合模型中训练一元和成对CNN为了使成对交互可训练，我们需要计算一个次梯度w。r. t. wij，P1，P2. 我们将类似于假设精确推理的一元项来计算它，然后用近似的x。（12 c）的次梯度是通过选择一个极小化子x′并估计极小化子x′的梯度得到的后者的分量由下式给出：∂ =p（|x−x|;P1，2）−ρ（|x<$i−x<$j|;P1，2），（20a）5.1. 基准数据集我们使用两个立体声基准数据集进行实验：Kitti2015 [30]和Middlebury V3 [40]。这两个基准都支持测试集，其中作者无法访问基本事实。我们调用可用于训练/验证设计集的具有真实数据的示例，并将其随机分为80%的训练集和20%的验证集。这样，我们获得了Kitti的160 + 40个示例和Middlebury的122 + 31个示例（包括另外提供的具有不同照明、曝光和完全/不完全矫正立体对的图像在所有实验中使用的误差度量是视差差大于x像素的像素的百分比（badx）。5.2. 单个组件的性能wij∂ =ΣI jw（[[|x−x|=1]]−[[|x<$−x<$|=1]]）、（20 b）在这个实验中，我们测量性能提高-CIP1=i jiji jΣwij（[|x−x|>1]]−[[|x<$i−x<$j|>1]]）。（20c）从CNNx到完整的联合训练模型。由于无法获得试验数据的地面实况，2ijij因此，我们获得了一个端到端的可训练模型，除了控制训练本身的超参数之外，没有任何手工参数。我们的比较是在完整的设计集上进行的[2]详细的时间表可在附录材料中找到。2346输入CNN +CRF +Joint+PW图 3 ： Unary-CNN ， CNN+CRF 和 CNN+CRF+Joint+PW 在Middlebury基准上的定性比较。3层（顶部）和7层（底部）的视差放大。注意联合训练的模型如何正确地修补遮挡。结果示于表1中。该实验表明，优化或后处理是必要的，因为所有测试的CNN的直接输出（在成本体积中进行简单的逐点最小搜索之后）包含太多的离群值而不能直接使用。图3中描述了对Middlebury的训练图像之一的定性比较。可以观察到，仅CNN方法的质量在很大程度上取决于层的数量，而CNN+CRF版本即使对于浅CNN也实现了良好的结果。表2还显示了ER-Kitti的设计集上的错误度量不好{2，3，4}，因为这些错误度量无法在线找到。5.3. 联合培训的好处在这个实验中，我们将我们的方法与最近提出的两种基于CNN的立体匹配方法进行了比较，Zbontar和LeCun的MC-CNN [55]以及Luo等人的Content-CNN。[28]第10段。为了对方法进行公平的比较，我们禁用了[28，55]的所有设计后处理步骤然后，我们通过在CNN输出的顶部添加CRF来统一后处理步骤。我们对整个设计集进行评估，因为我们不知道不同方法的训练/测试划分。为了支持比较的方法，我们使用网格搜索分别调整每种方法的CRF的参数P1，P2，α，β结果示于表1中。虽然我们的CNN的原始输出不如比较的方法，但使用CRF的后处理显着降低了性能差异。我们的CNN+CRF模型的联合训练进一步提高了性能，尽管使用了一个参数较少的相对较浅的网络。具体来说，我们的7层完整联合模型有281k个参数，而网络[28，55]分别有大约700k和830k个参数。5.4. 基准测试性能我们提交的测试图像的完整评估可参见Middlebury[40]和Kitti 2015 [30]的在线套件。该评价总结见表2。我们要强调的是，这些结果是在不使用任何后处理的情况下实现的，如遮挡检测和修复或子像素细化。表1：我们的方法（§5.2）的单个组件的影响以及与[28，55]的比较，没有后处理（第5.3节）。报告了标准误差度量（Middlebury的官方训练数据为bad4，Kitti的设计集为bad3我们针对一半大小的图像微调了性能最佳的模型（表1，CNN 7 +PW），并将其用于Mid- dlebury评估。表2显示了所有测试图像的均方根（RMS）误差度量和bad2误差度量。我们实现了最低的总体RMS误差。与其他方法相比，我们的bad2错误稍差这两个结果表明，我们错误计算的差异只是稍微接近。这种行为在图4底部的误差图中显示，其中在倾斜表面上可以看到许多小的离散化伪影。请注意，子像素细化将消除大部分这种错误.此外，我们提出了一个例子，我们的算法在大多数图像中实现对于 Kitti ，我们使用性能最好的模型（表 1 ，CNN7+PW），包括像素的x和y坐标作为特征。这是合理的，因为天空总是在图像的顶部，而道路总是在底部。图5中Kitti的误差图显示，大多数不正确的预测都发生在遮挡区域。图 6我们展示了基于CNN的方法在Kitti测试图像上的放大深度预测的定性比较。图左侧的深度叠加显示了算法恢复对象边界的准确程度，右侧的图像显示了评估系统提供的相应误差请注意，非常准确的预测部分被视为不正确的，以及竞争方法如何倾向于过拟合到肥胖的地面真相。我们的方法在图像的上三分之一处也非常有效，而竞争方法则会出血。6. 结论我们提出了一个完全可训练的立体声混合CNN+CRF模型及其联合训练过程。我们设计了一个没有后处理的干净模型，每个部分都有自己的职责，而不是依赖于各种后处理过程。因此，我们获得了在模型的每个组件中学习的内容的可解释性。这使我们了解到，使用定义良好的模型可以显著减少参数数量，同时仍然可以实现有竞争力的性能。我们已经证明基准法CNN +CRF +联合 +PW米德尔伯里CNN323.8911.189.489.45CNN718.589.358.057.88CNN328.386.336.114.75Kitti 2015CNN713.084.794.604.04[28日]5.994.31--[55个]13.564.45--2347方法米德尔伯里Kitti 2015方法非occ所有时间[29] 4.32 4.340.06秒[28] 2.54 1s[55]这是一个很好的例子。3.89 67秒[55]第22.4节[55]根据21.3[3]15.0我们的14.4[55] FST 9.47[55]根据8.29[3]8.62我们的12.51.6922.0 20.3 12.7 28.8 42.6 9.82 28.7 25.1 5.07 32.0 23.3 16.5 30.6 25.5 34.1150 20.8 19.6 9.6 28.6 67.4 7.67 23.2 15.7 8.49 31.816.7 13.9 38.8 18.7 28.6188 18.4 18.18.72 9.06 19.96.52 24.2 25.73.91 12.7 24.79.58 17.9 17.5 17.94.4615.9 16.2 10.7 10.311.2 14.013.7 13.1 4.11 14.3 19.2 11.9 22.5 20.6 25.51.697.35 5.07 7.18 4.71 16.8 8.477.37 6.97 2.82 20.7 17.4 15.4 15.1 7.9 12.6150 5.59 4.555.96 2.83 11.48.44 8.32 8.892.71 16.314.1 13.213.0 6.40 11.1188 6.05 5.16 6.24 3.2711.1 8.91 8.87 9.83 3.2115.1 15.912.8 13.5 7.049.994.464.09 3.97 8.44 6.9311.1 13.8 19.5 19.0 3.66 17.0 18.2 18.0 21.0 7.29 17.8[43]2.58 3.61 68秒我们的4.84 5.50 1.3s火车出错了。bad2 bad3bad4[28]3 7.39 4.31 3.14[55]3 11.4 4.452.93我们的6.01 4.043.15表2：截至提交时基准测试集的性能。对于这两个基准测试，我们将我们的结果与基于CNN的工作进行比较，以匹配成本并接受出版。我们报告了Middlebury基准和Kitti基准的相应标准误差度量bad2和bad3Kitti的下表显示了训练误差与不同误差度量badx的比较。我们[55个][29日][28日]我们[55个][29日][28日]图6：在选定的测试图像上与最先进的方法进行放大比较。左侧图像示出了深度预测和输入图像的叠加，并且右侧图像示出了相应的误差图。图4：选定测试图像的定性比较（从上到下：Djembe和十字军东征）的米德尔伯里立体声基准。左列示出了伪彩色的所生成的视差图像，右列示出了bad2错误图像，其中白色=误差小于2个视差，灰色=遮挡，黑色=误差大于2个视差。图5：Kitti 2015测试集的定性比较冷色=误差小于3个视差，暖色=误差大于3个视差。联合训练允许学习一元成本以及成对成本，同时具有增加的一般性总是改进性能的证据我们新提出的可训练成对项允许描绘对象边界-阿里更准确。对于SSVM训练，我们详细介绍了次梯度的近似，并通过实验证明了我们的训练过程是有效的。对于未来的工作，我们计划引入一个额外的遮挡标签，我们的模型，以进一步提高性能的闭塞区。此外，研究连续标签空间[31]以改善倾斜表面上模型的性能将是有趣的。确认这项工作得到了奥地利智能视觉研究计划的支持，该计划得到了AIT和奥地利联邦科学、研究和经济部HRSM计划（ BGBl ）的资助 II 编号 292/2012 ）和 ERC 启动赠款HOMOVIS，第292/2012号。640156引用[1]Alahari，K.，拉塞尔角和Torr，P. H. S.（2010年）。条件随机场的有效分段学习计算机视觉与模式识别。[2] 贝勒角Varanasi，K.和Stricker，D.（2016年）。基于CNN3使用我们的CRF作为后处理平均性能时间[秒]澳大利亚澳大利亚P自行车2教室2教室2E计算机十字军CrusadePDjembeDjembeL箍客厅纽库巴植物楼梯度量坏2RMS2348具有阈值铰链损失的光流的贴片匹配CoRR，绝对值/1607.08064。[3] Barron，J.T. 和Poole，B.（2016年）。快速双边求解器。在欧洲计算机视觉会议。[4]Bergstra，J.，布勒勒岛Bastien，F.，Lamblin，P.，帕斯卡努河Desjardins，G.，Turian，J.，沃德-法利，D.，和Bengio，Y.（2010年）。Theano：一个CPU和GPU数学表达式编译器。在Python for Scientific Computing会议上。[5]Birchfield，S.和Tomasi，C.（1998年）。一种对图像采样不敏感的像素相异性度量。IEEE传输模式分析马赫内特尔，20（4）：401[6]Boykov，Y. Jolly，M. P.（2000）。使用图形切割的交互式器官分割。医学图像计算和计算机辅助干预，第276[7]Boykov，Y. Jolly，M. P.（2001）。n维图像中目标最优边界区域分割的交互式图割。计算机视觉国际会议，第105[8]Bromley，J.，本茨，J.W.，博图湖居永岛LeCun，Y.，Moore，C. S a？ckinge r，E.，和Shah，R. （1993年）。利用连体时延神经网络进行签名验证国际模式识别与人工智能杂志，7（04）：669[9]布朗，M.Hua，G.和S.，W. （2010年）。局部图像描述符的判别模式分析与机器智能。[10] 陈湖，澳-地C.的方法，帕潘德里欧，G.，科基诺斯岛墨菲K 和Yuille，A. L.基于深度卷积网和全连接crfs的语义图像分割。arXiv预印本arXiv：1412.7062。[11] 陈湖，澳-地C.的方法，Schwing，A. G.，尤伊尔A. L.，和Urtasun，R.（2015年a）。学习深度结构化模型。国际机器学习。[12] 陈志，太阳，X.，Wang，L. ，美国，Yu，Y. ，和Huang，C.（2015年b）。立体匹配代价的深度视觉对应嵌入模型。在国际计算机视觉会议上，第972[13] Dosovitskiy ， A. ， Fischery ， P.Ilg ， E. ， Husser ，P.Hazirbas 角戈尔科夫 v. d. Smagt ， P. ， Cremers ， D.Brox，T.（2015年）。Flownet：使用卷积网络学习光流。国际计算机视觉会议，第2758[14] 法乔洛湾de Franchis，C.，Meinhardt，E.（2015年）。MGM：立体视觉的一种明显更全面的匹配。英国机器视觉会议。[15] Franc，V. and Laskov，P.（2011年）。基于易处理凸优化的最大边际马尔可夫网络学习。控制系统和计算机，第25[16] Hirsch müller，H. （2005年）的报告。利用半全局匹配和互信息进行精确高效的立体处理在计算机视觉和模式识别会议上，第2卷，第807-814页美国电气与电子工程师协会。[17] Hirsch müller，H. （2011年）。半全局

下载后可阅读完整内容，剩余1页未读，立即下载