没有合适的资源?快使用搜索试试~ 我知道了~
1信念传播重新加载:用于标记问题的BP层学习Patrick Knobelreiter1knoebelreiter@icg.tugraz.at克里斯蒂安·索尔曼1christian. icg.tugraz.at亚历山大·谢霍夫佐夫2shekhovtsov@gmail.comFriedrich Fraundorfer1fraundorfer@icg.tugraz.at托马斯·波克1pock@icg.tugraz.at1格拉茨理工2布拉格捷克技术大学摘要许多研究人员已经提出,将深度神经网络与图形模型相结合可以创建更高效,更好的正则化复合模型。在实践中实现这一点的主要困难是与合适的学习目标的差异,以及与推理的近似的必要性在这项工作中,我们采用最简单的推理方法之一,截断的最大乘积置信传播,并添加必要的内容,使其成为深度学习模型的适当组件:我们将其连接到边缘损失的学习公式,并计算反向传播操作。这个BP层可以用作卷积神经网络(CNN)中的最终或中间块,使我们能够设计一个由不同尺度的BP推理和CNN组成的分层模型。该模型适用于一系列密集预测问题,具有良好的可训练性,并在立体,光流和语义分割方面提供了参数高效和鲁棒的解决方案。1. 介绍我们考虑计算机视觉中的密集预测任务,可以用公式表示为每个像素分配一个分类值或实际值。特别感兴趣的是语义分割,立体深度重建和光流的问题。这些应用的重要性体现在新方法的积极开发和共同基准的激烈竞争上。卷积神经网络(CNN)已经大大突破了密集预测任务的极限然而,如果我们想提高鲁棒性和准确性,那么只组成CNN块虽然是一种通用的解决方案,但效率低下:随着块和相应参数的数量的增加,计算复杂度和所需的训练数据显著增长。特别是在处理长距离空间相互作用和结构约束方面的局限性,条件随机场(CRF)更适合。先前的工作已经图1:BP层的作用。BP层可用于密集预测问题,如立体(顶部)语义分割(中间)或光流(底部)。注意所有三项任务的尖锐和精确的边缘输入图像来自Kitti、Cityscapes和Sintel基准测试。结果表明,CNN+CRF模型的组合可以提供更高的性能,但在随机梯度训练中引入推理会带来一些困难。在这项工作中,我们考虑了CRF的几种简单推理方法:置信传播(BP)[43],树结构动态规划[2]和半全局匹配[13]的变体。我们介绍了一个通用框架,在这个框架中,我们将所有这些方法视为最大乘积BP更新的特定时间表该层在输入上采用分类概率,并在输出上产生与CRF的边缘相关联的细化分类概率这允许通过将梯度传播通过层来直接训练截断推理方法。所提出的BP层可以在其输出概率上具有相关联的损失函数,我们认为这比BP层的其他变体更实用。79007901通用报告格式培训。重要的是,它也可以用作网络的内层。我们提出了一种多分辨率模型,其中BP层以分层方式组合,并具有相关的损失函数以及相关的进一步处理块。我们证明了我们的BP层在三个密集预测任务上的有效性。BP层在像素级上执行信息的全局空间集成,并且能够准确地保留对象边界,如图中突出显示的。1.一、具有此层的深度模型具有以下有益特性:(i)它们包含更少的参数,(ii)具有比SoTA完全CNN替代方案更小的计算成本,(iii)它们具有更好的可解释性(例如,我们可以可视化和解释CRF成对交互成本)以及(iv)导致鲁棒的准确率。特别是,在高分辨率立体Middlebury基准测试中,在运行时间小于10秒的模型中,我们的模型达到了第二好的精度。CRF立体是特别有效的处理闭塞,例如有利于倾斜的表面和建模的可变视差范围。相比之下,许多CNN技术在架构中硬编码视差范围相关工作我们从学习公式、梯度计算和在稠密预测任务中的应用的角度讨论了相关的工作CRF学习CRF可以通过最大余量方法(例如,[17,22])或最大似然方法及其变体(例如,[1、20、27、35])。在前一种情况下,损失取决于最优(离散)解,很难优化。在后者中,似然的梯度通过边缘表示,并且可以使用近似边缘。然而,必须确保在学习期间执行足够的迭代,接近近似方案的收敛[8],这在大规模学习设置中是禁止相反,一些作品主张截断推理和损失函数直接制定的近似边缘[8,9,15]。这给出了学习和推理之间更紧密的联系,更好地对应于具有汉明损失的经验损失最小化,并且易于应用于不完整的地面真值标记。CRF的多种学习方法的实验比较[9]表明,在拟合模型本质上是近似的困难问题上,基于边缘化的学习比基于似然的近似更我们的框架遵循这种方法。可微CRF推理对于边缘损失的学习,Domke [9]引入了Back-Mean Field和Back-TRW算法,允许在重新计算中进行反向传播前瞻性推理方法反向置信传播[11]是一种适用于BP固定点的有效方法,最初应用于提高推理质量并且不适合于截断推理。虽然方法[8,9,11]考虑和积算法并反向传播其基本消息传递更新,但我们的方法一次反向传播链上的最大积BP更新序列最大积BP算法与Viterbi算法和动态规划算法有着密切的联系。然而,DP主要关心的是找到最佳配置。平滑技术[33]解决了区分最优解本身及其成本的问题。在不同的情况下,我们展示了最大边缘的反向传播用于语义分割的全连接CRF中的平均场推断[5,54]像我们的方法一样将标签概率映射到标签概率,是可良好训练的,并且在语义分割方面有所改进。然而,该模型不能捕获准确的边界[30],并且不能表达立体/流动所需的约束,例如非对称和各向异性的上下文相关电位。高斯CRF(GCRF)使用二次成本,如果解决方案表示为每个像素一个变量如果每个像素使用K个变量[46],则每次成对更新都需要大小为K×K的线性系统的解,并且传播范围仅与迭代次数成半全局匹配(SGM)[13]是一种非常流行的技术,由于其简单和有效性,许多立体声作品都采用了这种技术然而,其训练仅限于学习少数全局参数[33]或通过辅助损失函数[40]间接训练,避免反向传播SGM。虽然我们专注于不同的推理方法,但我们的框架允许简单地实现SGM及其端到端学习。非CRF传播许多方法通过展开迭代来训练神经网络内部使用的连续优化算法[21,39,47]。空间传播网络[28],其卷积变体[6]和引导传播[53]特别是在立体重建中应用线性空间传播模型。不同的是,我们训练了一个应用非线性空间传播的推理算法。从这个角度来看,它与经常性的非线性处理方法有关,例如PixelCNN[45]。2. 置信传播在本节中,我们将概述和积和最大积置信传播(BP)算法,并认为最大边际可以被视为边际的近似这允许以非标准的方式将学习与边缘损失[9]和最大乘积推理联系起来,其中输出不仅仅是近似MAP解,而是整个最大边缘量。设G=(V,E)是无向图,L是离散标号集.G上具有状态空间VL的成对马尔可夫随机场(MRF)[25]是一个概率图模型,7902+IJniΣΣ˜ΣΣZ˜我 我IJ我 J我 我ni我IJSnii∈V(i,j)∈Ep:VL→R+,可以写成以下形式:p(x)=1exp.n(x)+n(x,x)n(1)其中Z是归一化常数,函数gi:L →R是一元分数1,通常包含数据证据;函数fij:L2→R是衡量节点i和j处标签兼容性的成对分数。 A通用报告格式p(x|y)是MRF模型(1),其分数取决于输入y。置信传播[37]被提出来计算当图G是树时MRF(1)的边际概率。BP迭代地从节点发送消息Mij∈RL图2:高亮树上节点p的最大边际计算左:左-右-上-下BP [43]或等效树DP [2]。右:4-连通图上的SGM [13]。注意,节点p的SGM预测使用小得多的树,忽略来自树外节点的证据。i发送到节点j,并更新:Mk+1(t){gi(s)efij(s,t)Y} Mk(s),(2)对于任何元组(a1. . . an)。 先前的工作已经注意到,sn∈N(i)\j其中N(i)是节点i的相邻节点的集合,k是迭代次数。在树图中,消息Mij与以(i,j)结束的树分支的配置在j处选择标签t的边际概率成比例。迭代所有消息的更新,直到消息收敛。然后,边缘,或在一般的图信念,被定义为实际上,最大边缘可以用来评估不确定性。污点[23],即,它们可以被看作是对边缘的近似。扰动和MAP技术[36]使关系更加精确。在这项工作中,我们应用最大边际近似边际作为一个实用和快速的推理方法,预测时间和学习。我们依靠深度学习来弥补近似。特别地,学习可以通过按比例增加所有输入来收紧(6)。B(x)∈gi(xi)YM(x),(3)总而言之,我们对边缘的近似,构造是通过运行更新(4)与硬max,然后从log-信念(5)计算信念为其中比例常数确保sBi(s)=1。BP的上述和-积变体可以在对数域,其中与最大乘积BP的连接变得明显。 我们用max表示映射(a1,. -是的-是的an)到log即已知为对数和exp或平滑最大值。和积BP(2)的更新可以表示为mk+1 (t):=max.gi ( s)+fij (s,t)+mk(s),(4)n∈N(i)\jBi(xi=s)=softmaxbi(s),(7)S其中t的smaxsbi(s)=ebi(s)/sebi(s). 以这种方式构造的信念边缘或作为后续层的输入,类似于简单的逻辑回归模型如何组成以形成S形神经网络。这种方法类似于以前的工作,在随后细化步骤[18],但更好地解释和学习我们的方法。其中m是对数域消息,定义为加法常数。对数信念分别为3. 扫描BP层bi(xi)=gi(xi)+n∈N(i)mni(xi).(五)当BP应用于一般图时,更新的时间表变得重要。我们发现并行同步更新调度[38]需要太多的迭代log域中的最大乘积BP采用相同的形式与(4)相同,但具有硬最大操作。最大乘积解决了找到最大概率的配置x(MAP解决方案)的问题,并通过(5)计算最大边际。它可以被看作是边际问题的近似,因为以在图像上传播信息并且很少会聚。对于深度学习中的应用,我们发现[43]提出的在不同方向上进行顺序扫描的时间表更合适。对于给定的扫描方向,我们可以计算所有顺序更新的结果这允许任意最大值ai我≤maxai我≤maxai我+logn(6)在扫描方向远处,当在像素级上工作ppn∈N(i)[1]在最小化的背景下,负的分数被称为成本这使得这个时间表非常强大。7903我的天.Σ.Σ我我fLDPL→RMLfUDPU→DmUG+a+BfRDPR→LMRfDDPD→UmD在详细介绍BP的扫描变体[43]之前,让我们明确一下为了使操作成为端到端学习框架的一部分所需要的内容。让我们将损失函数L在变量y中的梯度表示为d<$y:=dL。如果算法1:扫描置信度传播输入:CRF评分g∈RV×L,f∈RE×L2;输出:信念B∈RV×L;′ ′dy在前向传递中计算的层y=f(x),梯度1标准杆。 对于每个水平链子图(V,E),2aV′:=maxmarginals(gV′,fE′);在x中,得到"“三杆。对于每个垂直链子图(V,E),d<$xj= (8)第一次见面J4bV′:=maxmarginals(aV′,fE′);称为层F的反向传播。对于BP层,输入5个回归信念Bi(s):=softmaxs(bi(s));概率x和输出信念y是包含所有像素和所有标签。因此,能够在线性时间内计算反向传播至关重要。3.1. 扫描BP动态规划[ 43 ]的BP变体(在那里称为左-右-上-下BP,在[42]中称为BP-M)在左→右,右→左,上→下,下→上的方向上执行扫描。对于每个方向,只有该方向上的消息按顺序更新,其余保持不变。我们观察到该扫描BP的以下性质:(i)左消息和右消息不依赖于彼此,也不依赖于上消息和下消息。因此,它们的计算可以在所有的氢化链中独立进行(ii)当左右消息固定时,它们可以组合成一元分数,这使得可以以类似的方式在所有垂直链中独立地计算向上和向下消息。这些属性使我们能够表达左-右-上-下BP,如算法1所示,如图1所示。2(左)。在算法1中,符号aV′表示a对V ′中节点的限制,即一条链子。它由动态规划子程序组成计算最大边际。由于每个循环中的各个链不相互作用,因此它们可以并行处理for)。水平链的最大边际a计算为:ai(s)=gi(s)+mL(s)+mR(s),(9)算法2:动态规划(DP)输入:有向链(V,E),从0到n的链方向上枚举的节点V=| V| −1,scores g∈ RV×L,f ∈ RE×L2;输出:链方向消息m∈RV×L1 Init:Set:m0(s):= 0;/*第一个节点*/2,i = 0。- 是的- 是的 n − 2 do/*计算消息:*/3mi+1(t):=maxgi(s)+mi(s)+fi,i+1(s,t);S/*将argmax保存为向后:*/4oi+1(t):=argmaxgi(s)+mi(s)+fi,i+1(s,t);S5 returnm;图3:算法1中的扫描BP到对数置信度b的BP层的计算图。在算法3中,利用反向传播使动态规划的计算节点(DP)可微. 成对项fL、fR、fU、fD示出了当成对得分fij是dif时的情况。我我其中,mL(s)表示从其左侧邻居发送给i的消息,mR(s)表示从其右侧发送给i的消息。最大边际(9)确实是左-右传递后的信念垂直链的最大边际b分别为:四个方向都有。算法3:反向传播DP输入:d<$m∈RV×L,链(V,E)上DP返回的消息m的损失梯度b(s)= a(s)+mU(s)+mD(s)。(十)V×LE×L2我我我输出:d<$g∈R,d<$f∈R的梯度仍然需要定义如何计算和反向传播消息m。给定链和处理方向(即,L-R对于左消息mL),我们在该方向上对节点进行升序排序,并在算法2中应用动态规划。算法2的雅可比矩阵定义良好,如果在每一步中的最大化是唯一的2。在这种情况下,我们在输入附近具有线性递归依赖性:mi+1(t)=gi(s)+mi(s)+fi,i+1(s,t),(11)2否则,我们采用任何最大化器,导致条件导数,如ReLU为0。7904DP输入g、f中的损失;1初始化:d<$g:=0;d<$f:=0;2 for i = n − 2 . - 是的- 是的0做3,对于t∈ Ldo4s:=oi+1(t);5z:=d<$mi+1(t)+d<$gi+1(t);6d<$gi(s)+=z;7d<$fi,i+1(s,t)+=z;8returnd<$g,d<$f;7905V.Tq(s)+B(s)。(13)iiΣ.Σ我算法4:半全局匹配输入:CRF评分g∈RV×L,f∈RE×L2;输出:信念b∈RV×L;1标准杆。 对于{L,R,U,D}中的每个方向k,2标准杆。 对于每个链(V′,E′),在方向k上,3mk′:=DP(gV′,fE′);4返回b=g+kmk;其中s=oi+1(t),即,标签最大化消息,如算法2中定义的。反向传播该线性依赖性类似于乘以转置矩阵,例如,对于gi(s)中的梯度,我们需要在gi(s)对其有贡献的所有元素上进行累加。这可以如算法3中所提出的那样有效地完成。因此,我们已经完全定义了扫描BP,进一步称为BP层,作为差分运算的组合。BP层的计算图如图所示。3可以使用标准规则和我们的Backprop DP进行反向传播,以便非常有效地计算所有输入中的梯度。3.2. 其他推理方法我们将其他几种推理技术映射到相同的简单DP操作,显示了所提出的框架的一般性。这使得它们可以自动微分,适合于在边际损失的情况下学习SGM我们可以使用BP(算法4)所需的相同DP函数来实现SGM,其中为了简洁起见,我们考虑了4连接网格图。如在相关工作中所讨论的,反向传播SGM的可能性是以前没有,可能有用。树结构DPBleyer和Gelautz [2]提出了一种改进SGM通过扩展本地树如图所示。2(左),后来用于例如在非常精确的立体匹配方法中[50]。似乎之前没有人注意到,4. 模型我们证明了BP层的有效性上的三个标签问题:立体,光流和语义分割。我们有两个CNN(表B.1),用于计算i)分数体积和ii)成对跳跃分数,分层使用的三个分辨率水平。图4示出了利用BP层对一个分辨率级别的处理来自这些预测的标签概率被认为是弱分类器,并且推理块将它们组合以输出更强的更高分辨率的分类。因此,一元分数gi(s),称为分数体积,从CNN预测概率qi(s)设置为gi(s)=Tqi(s),(12)其中T是可学习的参数。注意gi本身是指数模型(1)的线性参数前面的工作更常用的模型gi(s)=logqi(x),其中,在没有相互作用的情况下,恢复回输入概率。相比之下,模型(12)具有以下解释和性质:i)它可以被视为网络中的另一个非线性,增加了 灵活性;ii)在立体声和流动的情况下,它对应于特征空间中的鲁棒度量(见下文),特别是它对校准不良的CNN预测概率是鲁棒的。为了将来自较粗分辨率BP层的上采样信念B与较细分辨率证据q组合,我们对来自较低级别的信念进行三线性上采样,并将其添加到当前级别的分数体积,即起来我在输出上,我们有一个可选的细化块,这对于预测立体声和流量的连续值很有用。最简单的细化是取窗口中最大值附近的平均值扫描BP [43]完全等同于[2]的树结构DP,从我们的演示中可以清楚地看到。TRW和TBCA对铝合金进行了微小的修改y=d:|德-德吉|≤τdBi(d)d:|德-德吉|≤τB(d)−1,(14)已经定义好的DP子程序,可以实现,反向传播几个推理算法,解决CRF的LP松弛的对偶:Wainwright等人的树重加权(TRW)算法。[48]以及Sontag和Jaakkola的树块坐标上升(TBCA)[41],我们在附录A中显示。这些算法是并行的,结合了长程相互作用,避免了与循环BP相关的证据过度计数问题[48]。此外,TBCA算法是单调的,并具有收敛保证.因此,这些方法对于端到端学习是很好的选择,但是由于谨慎的单调更新,它们可能需要更多的迭代,这在我们考虑的应用中是不期望的。其中di=argmaxBi(d),我们使用阈值τ=3。与[ 16 ]中使用的完全平均值不同,这种平均值不受多峰分布的影响。作为一个更先进的在细化块中,我们使用细化的变体[18],其中一个上采样步骤还使用我们的预测的置信度作为额外的输入。4.1. 立体声对于纠正的立体声问题,我们使用附录B中详细描述的UNet变体的两个实例。该网络相对较浅,包含的参数比SoTA少得多将其应用于两个输入图像I0、I1,并产生两个密集特征图f0、f1。 的7906权重CNN评分CNN信仰我qi(u2)= softmaxmax−f2(i)−f(i+u)1布里尔我 我我 我iu1u2像素i处的视差k的初始预测由以下分布形成像素分数qi(k)=softmaxk ∈{0,1,...,D}.−<$f0(i)−f1(i−k)<$1<$,(15)其中,i-k表示对应于参考图像I0中的位置i的图像I1中的像素位置,分数体BP层k和D是最大视差。该模型与高成本[24]。 成对项fij与SGM模型[13]中的参数类似,但具有上下文相关参数。具体地,fij对相邻像素中的视差标签的差异进行评分。 高达3个像素的视差差异具有单独的分数,所有较大的视差跳跃具有相同的分数。 所有这些分数都依赖于上下文,通过用我们的第二个UNet从参考图像I0回归它们。4.2. 光流光流问题与立体声非常相似我们现在考虑视频中的两个连续帧I 0和I 1,而不是两个校正图像。我们使用相同的UNets来计算每像素特征和跳跃分数,就像在立体声设置中一样。不同之处在于流u=(u1,u2)的初始预测的计算。像素i的流由两个分布q1(u1)=softmaxmax.−<$f0(i)−f1(i+u)<$1<$,(16)二、01Σu2u1图4:BP层概述。权重和得分CNN从输入图像计算像素权重和得分体积。这被用作BP层的输入,BP层将信念作为输出返回。仅取决于边缘方向。我们将齐次成对项作为模型中的参数,并将其约束为非负。逐像素成对项使用与立体中相同的UNet从输入图像计算。我们遵循[32]的训练计划。5. 学习我们对所有三个任务使用相同的训练程序。只有损失函数适用于相应的任务。损失函数应用于粗到细方案中的每个BP层的输出这种训练计划被称为深度监督[26]。 对于BP输出信念B1,在在从粗到精的方案中,我们在每个像素i处应用负对数似然损失ΔNLL(Bl,dl)=−logBl(dl),其中Di 是尺度L处的地面实况差异。对于立体声和流动模型,其遵循Munda等人的可缩放模型[34]第三十四话存储M×N图像的所有匹配分数,其大小为M×N×D2。内部最大化步骤对应于近似MAP的第一次迭代,针对实值预测的块,我们根据Huber函数在每个像素处添加一个损失,该损失平均化与目标值的距离:参考文献[34]。它们形成光流的每个分量的分数体积的该方案可能是次优的,H(yi,yR22δ| −δ|− δ如果|R|≤δ,否则,(十八)u1和u2分量是独立推断的,其中y是模型的连续预测,y是细化层,但它可以很好地扩展到高分辨率,(the 搜索窗口大小D也需要随着分辨率而增长),并且允许我们容易地将与立体声相同的BP层模型应用于q1和q2输入概率。4.3.语义分割语义分割的任务是从多个类中为每个像素分配一个语义类标签。在我们的模型中,使用ESPNet [32]获得初始预测概率,这是一种用于像素语义分割的轻量级解决方案。该初始预测直接跟随BP层,BP层可以与两种不同类型的成对得分fij一起工作。非齐次各向异性成对项依赖于每个像素和边缘方向,而齐次各向异性得分地面实况和r = yi− yi。各级损失和连续损失-有值的输出与相等的权重3组合。6. 实验我们在PyTorch中实现了BP层和分层模型,并将CUDA扩展用于时间和内存关键功能(DP的向前和向后,评分体积预测)。4附录B和C载有执行细节和其他定性结果。3相对权重可以看作是超参数,但我们没有调整它们。4https://github.com/VLOGroup/bp-layers.、(十七)7907表1:场景流确认集的消融研究。我们报告所有指标的结果非遮挡和(所有像素)。#P以百万计粗体=最好,下划线=第二好。6.1. BP层带来的改进我们使用来自场景流数据集的合成立体数据[31]研究了立体任务中一般模型中不同架构选择的重要性。立体声中的标准误差度量是坏X误差,其测量与地面实况的距离大于X的视差的百分比。该度量用于评估立体声算法的鲁棒性。第二个度量是平均绝对误差(MAE),其对立体算法的(子像素)精度更敏感。表1显示了我们模型的所有变体的概述。我们从赢家通吃(WTA)模型开始,添加建议的BP层或多尺度模型(MS),然后添加使用Huber损失(H)训练的基本细化(14),然后添加细化[18](Ref(H))。表1中的列#P显示了我们模型的参数数量,显著小于适用于该数据集的SoTA方法。我们模型的每个部分都增加了最终的性能。我们的算法在鲁棒性度量badX中表现出色。消融研究还显示了所用损失函数的影响。结果表明,Huber损失函数对所有度量都是有益的,但对遮挡像素中的MAE是有益的。可选的改进产生了额外的改进,特别是在此数据上的遮挡像素中,但在Middlebury或Kitti数据集上训练和验证因此,我们选择BP+MS(H)模型作为更稳健的变体,用于在这些真实数据基准中进行评估。6.2. 立体声基准性能我们使用BP+MS(H)模型参与Middlebury 2014和Kitti 2015的公共基准测试。这两个基准都有真实世界的场景,Middlebury专注于高分辨率的室内场景,Kitti专注于低分辨率的自动驾驶室外场景。定性测试集结果如图所示。五、Middlebury基准是非常具有挑战性的,由于巨大的图像,大的最大视差,大的无纹理区域和困难的照明。这些特性使表2:使用相应基准的默认度量对Middlebury和KittiStereo基准的测试集的评估。顶部组:具有>1M参数的大型模型底部组:轻量型。粗体表示该组中的最佳结果。图5:Middlebury 2014(上)和Kitti 2015(下)数据集测试集的定性结果。左:彩色编码视差图,右错误图,其中白色/蓝色=正确,灰色=遮挡,黑色/橙色=不正确。注意我们的方法如何在所有结果中产生尖锐的边缘。很难甚至不可能将基蒂的大多数最佳表现方法用于米德尔伯里基准。由于我们的轻量级架构,我们可以很容易地将我们的模型应用于具有挑战性的Middlebury图像。测试集评估(表2)表明,我们是最好的执行方法之一,运行时间长达10秒,因此令人信服地显示了我们的轻量级模型的有效性。Kitti数据集面临的挑战是过饱和和欠饱和区域、反射和复杂的几何形状。我们的性 能 明 显 优 于 具 有 类 似 参 数 的 竞 争 对 手 , 如 MC-CNN,CNN-CRF和Content CNN,这证明了可学习的BP层的有效性。在Kitti上实现更好性能的方法伴随着拥有更多参数的高昂代价。6.3. 光流在这里,我们展示了我们的BP层的光流问题的适用性。我们使用FlyingChairs2数据集[10,14]对我们的模型进行预训练,然后使用Sintel数据集[3]。在光流设置中,我们将搜索窗口大小设置为109×109。方法#P[M]Middlebury 2014bad2time[s]Kitti 2015bad3time[s]PSMNet [4]5.242.1(47.2)2.622.14(2.32)0.41PDS [44]2.214.2(21.0)12.52.36(2.58)0.50MC-CNN [52]0.29.47(20.6)1.263.33(3.89)67.0[22]第二十二话0.312.5(21.9)3.534.84(5.50)1.30[29]第二十九话0.7--4.00(4.54)1.00模型#P时间坏1bad3MaeWTA(NLL) 0.13 0.07 10.3(18.0)5.27(13.2)3.82(15.1)BP(NLL)0.27 0.10 12.6(17.9)4.97(8.12)1.23(3.36)BP+MS(NLL)0.33 0.11 10.0(16.5)3.66(7.86)1.13(2.84)BP+MS(H)0.33 0.118.15(15.1)3.07(8.00)0.96(3.42)BP+MS+Ref(H)0.56 0.157.73(13.8)2.67(6.46)0.74(1.67)7908模型#P[M]时间坏2EPEWTA0.130.274.46(5.67)1.25(1.65)BP+MS(CE)0.340.442.56(3.46)0.83(0.94)BP+MS(H)0.340.442.24(3.19)0.66(0.79)BP+MS+参比品(H)0.560.492.06 (2.64)0.63(0.72)表3:Sintel确认套件的消融研究10号楼8天空6人车4road2总线未知图6:左:Sintel验证集的定性光流结果。右:终点误差的可视化图7:左上:使用BP层的语义分割结果。左下角:对应的错误,其中黑色=不正确,白色=正确。红色方块突出显示了精确重建细节的区域右:学习的垂直成对分数的可视化。方法pw mIOU CatmIOU #P时间当量(17)飞。图6显示了定性结果,表3显示了对Sintel数据集的验证集的消融研究在这项研究中,我们只使用流量不大于搜索窗口的场景。我们比较了端点误差(EPE)和EPE上的bad2误差。结果表明,我们的BP层可以直接用于光流计算,BP层是一个重要的构建块,以提高性能。6.4. 语义分割我们还将BP层应用于语义分割,以证明其普遍适用性。在表4中,我们显示了第4.3节中描述的模型变体的结果,使用与ESPNet [32]相同的CNN块,在Cityscapes[7]数据集上进行评估。所有使用BP层的模型变体都在ESPNet [32]上改进了类平均交集(mIOU)和类别mIOU。正如预期的那样,最好的模型是联合训练的逐像素模型,称为LBPSS联合。我们已将此模型提交给Cityscapes基准测试。表5显示了测试集的结果,我们可以看到我们的表现优于基线。图7示出了BP层通过将语义边界与图像中的实际由于长距离的相互作用,BP层也能够纠正大的不正确的区域,例如在。路上我们的模型的优点之一是可以解释学习的参数图7示出了学习到的非对称得分矩阵,其允许学习不同的得分,例如,人→车和车→人。上下三角矩阵表示两两得分时,跳跃向上和向下,图像,分别。我们可以从矩阵中读出,例如,不允许从空中跳到道路上。这证实了直觉,因为道路从来没有出现在天空之上。 因此,我们的模型自动学习了适当的表4:Cityscapes确认集的消融研究“pw”方法pw mIOU CatmIOU #P时间[32]2016年 12月28日星期一LBPSS接头C61.00 84.310.73 0.90表5:Cityscapes [7]测试集的基准结果。在先前的工作中已经手工制作的语义关系,[12 ]第10段。7. 结论我们提出了CNN和CRF技术的新组合我们采用了一个最简单的推理方案,展示了如何计算其反向传播,并将其与边际损失联系起来。以下设计选择对于实现高实用性是重要的:使用最大积快速计算和近似边缘的反向传播,在长范围内传播信息并具有顺序子问题;训练端到端,无需近似;在几个分辨率级别上进行由粗到精的处理;上下文相关的可学习的一元和成对成本。我们证明了该模型可以应用于三个密集预测问题,并给出了比可比CNN更有效的参数复杂性和时间预算的特别是在立体声和流动,该模型在遮挡区域进行强正则化,这种正则化机制是可解释的跳跃分数的鲁棒拟合。鸣谢这项工作得到了ERC启动赠款HOMOVIS(第2009号 ) 的 支 持 。 640156 ) 、 Pro2 Future ( FFG No.854184)和“布拉格CTU研究人员MSCA-IF II的国际流动性”项目(CZ.02.2.69/0.0/0.0/18070/0010457)。其中白色=正确,较暗的像素是错误的。ESPNet [32]-61.482.20.360.01LBPSS-62.883.00.370.11我们计算每个像素的1092相似度,而不存储LBPSSC63.683.70.730.90并计算两个成本值q1和q2,LBPSS接头C65.284.70.730.907909引用[1] Alahari,K.,拉塞尔角Torr,P.H.S.:条件随机场的有效分段学习。计算机视觉与模式识别会议(2010)[2] Bleyer,M.,Gelautz,M.:简单但有效的树结构,用于基于动态规划的立体匹配。In:In VISAPP. pp. 415[3] 巴特勒DJ Wulff,J.,Stanley,G.B.,布莱克,M.J.:一个用于光流评估的自然开放源代码电影。于:A.菲茨吉本等人(编辑)(编辑)欧洲计算机视觉会议(ECCV)pp. 611[4] 张J.R. Chen,Y.S.:金字塔立体匹配网络。在:IEEE计算机视觉和模式识别会议pp. 5410[5] Chen , L.C. , 帕 潘 德 里 欧 , G. , 科 基 诺 斯 岛 墨 菲KYuille,A.L.:基于深度卷积网和全连接crfs的语义图像分割载于:ICLR(2015)[6] Cheng,X.,王,P.,Yang,R.:使用卷积空间传播网络学习深度。CoRR abs/1810.02695(2018)[7] Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的cityscapes数据集。在:IEEE计算机视觉和模式识别会议(CVPR)(2016)[8] Domke,J.:截断消息传递的参数学习。IEEE计算机视觉与模式识别会议(CVPR)2937[9] Domke,J.:用近似边缘推理学习图模型参数. IEEETransactions on Pattern Analysis and Machine Intelligence35(10),2454-[10] 两个人在一起A. Fische r,P.,Ilg,E., Haüusser,P.,Hazırbas,C.,戈尔科夫v.d. Smagt,P.,Cremers,D.Brox , T. : Flownet : 使 用 卷 积 网 络 学 习 光 流 IEEEInternational Conference on Computer Vision ( ICCV )(2015)[11] Eaton,F.,Ghahramani,Z.:选择要钳制的变量:使用条件置信传播的近似推理。国际人工智能与统计会议( International Conference on Artificial Intelligence andStatistics)第5卷,第100页。145[12] Felzenszwalb,P.F.,Veksler,O.:使用动态编程的分层场景标记。2010年IEEE计算机协会计算机视觉和模式识别会议。pp. 3097[13] Hirschm uüller,H.:基于半全局匹配和互信息的立体图像处理IEEE Transactions on Pattern Analysis and MachineIntelligence 30(2),328[14] Ilg,E.,Saikia,T.,Keuper,M.,Brox,T.:遮挡,运动和深度边界与视差,光流或场景流估计的通用网络在:欧洲计算机视觉会议(ECCV)(2018)[15] Kakade,S.,Teh,Y.W. Roweis,S.T.:马尔可夫场的另一个目标函数(2002)[16] Kendall,A.,Martirosyan,H.,Dasgupta,S.,Henry,P.肯尼迪河Bachrach,A.,Bry,A.: 深度立体回归的几 何 和 上 下 文 的 IEEE International Conference onComputer Vision(ICCV)(2017)[17] Keshet,J.:优化绩效衡量(2014)[18] Khamis,S.,Fanello,S.,Rhemann,C.,Kowdle,A.,Valentin,J. Izadi,S.:Stereonet:实时边缘感知深度 预 测 的 引 导 分 层 细 化 。 欧 洲 计 算 机 视 觉 会 议(European Conference on Computer Vision,ECCV)pp.573[19] 金玛,D.P.,Ba,J.:Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980(2014)[20] Kirillov,A.,Schlesinger,D.,Forkel,W.,Zelenin,A.,Zheng,S.,中国科学院,Torr,P.H.S.,Rother,C.:用于语义分割的通用CNN-CRF模型的有效似然学习CoRR abs/1511.05067(2015)[21] Kn oübelreiter,P.,Pock ,T.:学会了立体声技术。在:德国模式识别会议(GCPR)(2019)[22] Kn oübelreiter,P., Reinbache r,C., Shekh o vts ov,A.,Pock,T.:用于立体声的混合cnn-crf模型的端到端训练。IEEE计算机视觉和模式识别会议(CVPR)。pp.2339[23] Kohli,P.,Torr,P.H.S.:测量图切割解决方案中的不确定性-欧洲计算机视觉会议(ECCV)pp. 30-43. 03The Dog(2006)[24] Kolmogorov,V. Monasse,P. Tan,P.:Kolmogorov和Zabih的图割立体匹配算法。Image Processing On Line4,220[25] Lauritzen,S.L.:图形模型。号17 in Oxford Statisti- calScience Series,Oxford Science Publ
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功