没有合适的资源?快使用搜索试试~ 我知道了~
4321多尺度连续CRF作为用于单目深度估计的徐丹1,Elisa Ricci4,5,欧阳万里2,3,王晓刚2,Nicu Sebe11特伦托大学2,香港中文大学3悉尼大学4布鲁诺·凯斯勒基金会5佩鲁贾大学{dan.xu,niculae.sebe}@ unitn.it,eliricci@fbk.eu,{wlouyang,xgwang}@ ee.cuhk.edu.hk摘要本文讨论的问题,从一个单一的静止图像的深度估计。受最近多尺度卷积神经网络(CNN)工作的启发深度模型,其融合从多个CNN侧输出导出的互补信息。与传统的积分方法不同,本文采用连续条件随机场(CRFs)方法进行积分特别是,我们提出了两种不同的变化,一个是基于级联的多个CRF,其他统一的图形模型。通过为连续CRF设计一种新的平均场更新CNN实现,我们证明了这两种模型都可以被视为序列深度网络,并且可以端到端进行训练。通过广泛的实验评估,我们证明了所提出的方法的有效性,并建立了新的国家的最先进的结果公开可用的数据集。1. 介绍虽然从单个图像估计场景的深度是人类的自然能力,但是设计用于从RGB数据准确预测深度信息的计算模型是具有挑战性的任务。过去已经进行了许多尝试来解决这个问题。特别是,由于强大的深度学习模型,最近的作品已经取得了显着的性能[8,9,20,24]。假设RGB深度对的大训练集可用,单目深度预测被视为像素级回归问题,并且通常采用卷积神经网络(CNN)在过去的几年中,研究界已经做出了重大努力,以提高CNN模型在像素级预测任务(例如语义分割,轮廓检测)中的性能。以前的工作表明,对于深度估计以及其他像素级分类/回归问题,更准确的估计,(a)(*(图1. (a)原始RGB图像。 (b)地面真相 通过考虑预先训练的CNN(例如VGG卷积-去卷积[23])并将多层表示(c)与[33]中的方法融合以及(d)与提出的多尺度CRF融合而获得的深度图。可以通过组合来自多个尺度的信息来获得估计值[8,33,6]。这可以以不同的方式实现,例如,融合对应于不同网络层的特征图或设计具有对应于不同分辨率的图像的多个输入的架构。其他工作已经证明,通过将条件随机场(CRF)级联添加到卷积神经架构中,可以大大增强性能,并且CRF可以完全集成在深度模型中,从而实现端到端的反向传播训练[36]。然而,这些工作主要集中在离散域(例如语义分割)的像素级预测问题。虽然是互补的,但到目前为止,这些策略仅被孤立地考虑,并且没有以前的工作在CRF推理框架内利用多尺度信息在本文中,我们认为,受益于图形模型的灵活性和表示能力,我们可以53545355最佳融合来自多个CNN侧输出层的表示,与传统的多尺度策略相比,提高了性能。通过利用这个想法,我们引入了一个新的框架来估计从单个静态图像的深度图。与以往通过平均或级联来融合多尺度特征的工作相反,我们提出了一种基于连续CRF的新方法来具体来说,我们提出了两种不同的方法。第一种方法是基于一个单一的多尺度CRF模型,而另一种方法则考虑了一系列特定尺度的CRF。我们还表明,通过在连续CRF中引入一个共同的CNN实现,这两个模型都相当于序列深度网络,并且可以设计端到端的方法进行训练。 通过广泛的实验评估,我们证明了所提出的基于CRF的方法比用于像素级预测任务的传统多尺度方法产生更准确的深度图[10,33](图1)。此外,通过在公开可用的NYU Depth V2[30]和Make3D[29]数据集上进行实验,我们表明我们的方法优于单目深度估计的现有方法。总之,本文的贡献有三个方面.首先,我们提出了一种从RGB输入预测深度图的新方法,该方法通过在CRF框架内融合来自CNN内层的多尺度估计来利用其次,由于像素级深度预测的任务意味着推断一组连续值,因此我们展示了如何将平均场(MF)更新实现为顺序深度模型,从而实现整个网络的端到端训练。我们相信,我们的MF实现将是有用的,不仅对研究人员的深度预测工作,但也对那些有兴趣在其他问题涉及连续变量。因此,我们的代码是公开的1。第三,我们的实验表明,所提出的多尺度CRF框架优于先前通过组合多个损失[33]或通过采用特征级联[10]来整合中间网络层信息的方法。我们还表明,我们的方法在公共基准上优于最先进的深度估计方法,并且所提出的基于CRF的模型可以与不同的预训练CNN架构结合使用,从而不断提高其性能。2. 相关工作深度估计用于从单个图像进行深度估计的先前方法可以被分类为三个主要组:(i)在手工制作的特征上操作的方法,(ii)基于图形模型的方法和(iii)采用深度网络的方法。1https://github.com/danxuhk/ContinuousCRF-CNN.git解决深度预测任务的早期作品属于第一类。 Hoiem等人[12]介绍了照片弹出,一种从单张照片创建基本3D模型的全自动方法。Karsch等人[14]开发了深度转移,这是一种非参数化方法,通过转移多个相似图像的深度,然后应用一些扭曲和优化程序来重建输入图像的深度。Ladicky[17]证明了将语义对象标签与深度特征相结合的好处其他作品利用了图形模式的灵活性从而重建深度信息。例如,De- lage等人[7]提出了一种动态贝叶斯框架,用于从室内场景中恢复3D信息。在[28]中引入了一种区分性训练的多尺度马尔可夫随机场(MRF),以最佳地融合局部和全局特征。在[21]中,深度估计被视为离散-连续CRF中的推理问题。然而,这些作品并没有使用深度网络。最近的深度估计方法是基于在CNN上[8,20,32,26,18]。例如,Eigen等人。[9]提出了一种用于深度预测的多尺度方法,考虑到两个深度网络,一个基于整个图像执行粗略的全局预测,另一个在这种方法在[8]中进行了扩展,以处理多个任务(例如语义分割,表面法线估计)。 Wang等人[32]介绍了用于联合深度估计和语义分割的CNN。使用分层CRF进一步细化获得的估计值。与我们最相似的工作是[20],其中深度CNN和连续CRF的代表性力量被联合用于深度预测。然而,[20]中提出的方法是基于超像素的,并且没有利用与多个尺度相关联的信息。多尺度CNN。最近,将来自多个尺度的信息组合用于像素级预测任务的问题受到了相当大的关注。在[33]中,提出了一种用于边缘检测的深度监督全卷积神经网络。跳层网络,其中从主网络的不同级别导出的特征图在输出层中被联合考虑,也变得非常流行[22,3]。其他作品考虑多流架构,其中多个并行网络接收不同规模的输入融合[4]。扩张的孔-解决方案(e. G. 膨胀或扭曲)也已经被应用于不同的深度网络模型中,以便聚合多尺度上下文信息[5]。 我们不知道以前的作品利用多尺度表示成一个连续的CRF框架。3. 深度估计的多尺度模型在本节中,我们将介绍我们的方法,深度估计从单一的图像。我们首先将问题5356i=1l=1前端卷积神经网络d?12345侧输出C-MFC-MF连续CRF的多尺度融合C-MFC-MFC-MFC-MFC-MFC-MFC-MFC-MF图2. 建议的深度架构的概述。我们的模型由两个主要部分组成:前端CNN和融合模块。融合模块使用连续CRF来整合前端CNN的多个侧输出图我们考虑了两种不同的基于CRF的多尺度模型,并通过堆叠几个基本块(C-MF块)将它们实现为顺序深度网络深度预测。然后,我们描述了两个变化的建议多尺度模型,一个是基于级联的CRF和其他一个单一的多尺度CRF。最后,我们展示了如何端到端地训练整个深度网络,介绍了一种新的CNN实现,用于连续CRF中的平均场迭代。3.1. 问题表述和概述在先前的工作之后,我们将从单目RGB输入进行深度预测的任务公式化为从IM学习非线性映射F:I→ D年龄空间I到输出深度空间D。更正式地说,令Q={(ri,d<$i)}Q是Q对的训练集,其中ri∈I表示具有N个像素的输入RGB图像,并且d<$i∈D表示其对应的实值深度图。为了学习F,我们考虑由两个主要建筑模块(图)2)的情况。第一个组件是具有一组中间侧输出的CNN架构S={sl}L,sl∈RN,由L个不同的层产生,映射函数fs(r;Θ,θl)→ sl. 为了简单起见,我们用Θ表示所有网络层参数的集合θl表示产生与第l层相关的侧输出的网络分支的参数(参见第4.1我们的实施细节)。在下文中,我们将这个网络称为前端CNN。我们模型的第二个组成部分是融合块。如在以前的作品中所示[22,3,33],生成的特征在下一级获得估计具体来说,我们介绍和比较两种不同的多尺度模型,都基于CRF,并对应于两个不同版本的融合块。第一个模型基于一个单一的多尺度CRF,它集成了从不同尺度获得的信息,并同时在相邻像素和相邻尺度的估计深度值之间实施平滑约束第二个模型实现了尺度特定CRF的级联:在每个尺度l处,采用CRF从侧输出图sl恢复深度信息,并且每个CRF模型的输出用作子模型的附加观测。在第3.2节中,我们详细描述了这两个模型,而在第3.3节中,我们展示了如何通过堆叠几个基本块来将它们我们称这些块为C-MF块,因为它们实现了连续CRF的平均场更新(图1)。2)的情况。3.2. 将侧输出与连续CRF我们现在描述所提出的基于CRF的模型,用于融合多尺度表示。多尺度CRF。G iv en是通过连接侧输出得分图而获得的L N维向量{s1,. . .,sL}和实值输出变量的LN维向量d,我们定义了一个CRF,该CRF对连续分布进行建模:从不同的CNN层捕获互补的信息,P(d|(s)=1exp{−E(d,s)}(1)第 所提出的融合块背后的主要思想是使用CRF来有效地整合我们的其中Z(s)=Z(dexp−E(d,s)dd是配分函数。前端CNN用于强大的深度预测。 我们的方法能量函数定义为:从直觉发展而来,这些表征可以在一个连续的框架内,即。执 行 ─ΣN ΣLE(d,s)=φ(dl,φs)+Σ Σn(dl,dk)(2)5357在一定的尺度上进行深度估计,然后细化我i=1 l=1i、jI jl,k5358我我我我L我我我我MM我MM而D1表示与比例L和像素i相关联的隐藏变量。第一项是二次一元项之和与Q(d)相关联的LN平均值的向量|(s). 我们在更精细的尺度L上取估计的变量定义为:φ(dl,φs)=.dl−sl Σ2(三)(即: µN,1,...,µN,L)作为我们预测的深度图d。我我我其中sl是像素i处的回归深度值,l由fs(r; Θ,θl)得到。 第二项是描述隐变量对dl和dk之间的关系的成对势的和,并且定义如下:级联CRF。级联模型基于一组L个CRF模型,每一个都与一个特定的尺度l相关联,它们被逐步堆叠,使得在前一个尺度下的估计深度可以用于定义下一个级别中的CRF模型每份CRF均为我ΣMn(dl,dk)= β wJ(i,j,l,k,r)(dl−dk)2(4)用于计算输出向量dl,并且考虑侧输出表示si和esti来构造它。我我mijm=1前一步的配合深度dl−1作为观测变量,其中,w_m(i,j,l,k,r)是权重,该权重指定像素i和j在I. e. ol=[sl,d<$l−1]。相关的能量函数被分解,罚款为:分别标度L和KΣNE(dl,ol)=φ(dl,ol)+Σ n(dl,dl). (九)为了执行推断QncewQe依赖于平均场近似,i ij蒂翁岛e. Q(d)|(1)=Ni=1Ll=1 Qi,l(dl|(s).Following[25],i=1i/=j通过考虑Ji,l=logQi,l(dl|s)并将其表达式重新排列为指数形式,可以导出以下平均场更新:一元项和成对项可以类似地定义统一的模式。特别是一元项,反映了观察到的i和隐藏的i之间的相似性。.γi,l= 2 1 +2ΣMΣΣβmΣwm(i,j,l,k,r)(五)深度值dl是:φ(yl,ol)=.Σ2dl−ol(十)我我我m=1Kj,i其中,ol是结合回归深度从µi,l=2γi,l.ΣMsl+ 2Σ ΣΣβmwm(i,j,l,k,r)µj,k侧输出sl和由CRF在前一个尺度下估计的地图d l −1。在我们的实现中,我们只考虑m=1Kj,iol=sl+dl−1,但也可以考虑其他策略。(六)为了定义权重wm(i,j,l,k,r),我们引入以下假设。首先,我们假设在尺度l处的估计深度仅取决于在预处理处估计的深度。我我我成对电位,用于迫使相邻像素具有相似的外观以具有接近的深度值的是:ΣMn(dl,dl)= βmKij(dl−dl)2(11)明显的规模。 第二,为了将相同和不同的像素相关联,I jm=1MIj上一个尺度,我们根据m高斯其中,我们考虑M=2个高斯核,一个用于ap,核函数Kij.= exphm−hm-ij2. 这里,hm和hm一个是像素特征,另一个是像素位置。m2θ2i j表示从像素i和j的输入图像r导出的一些特征。θm是用户定义的参数。以下类似于多尺度模型,在平均场近似下,可以导出以下更新:以前的作品[15],我们使用像素位置和颜色值作为特征,导致两个高斯内核(即外观和平滑内核)用于建模依赖。.γi,l= 2 1 +2ΣMβmm=1Σj/=iijΣM(十二)比例尺L处的像素的方向和用于使相邻比例尺处的像素相关的其它两个方向。在这些假设下,平均-µi,l=2γi,l.ΣMol+ 2ΣΣβmKijµj,l(十三)字段更新(5)和(6)可以重写为:m=1j i.γi,l= 2 1 +2Σ2βmm=1二、Σj/=iKij+2Σ2Σ4βmM=3ΣΣj,iijΣM(七)在测试时,我们使用与更精细尺度L的CRF模型对应的估计变量作为我们的预测深度图d。KK5359Mµi,l=γi,lsl+ 2βmm=1jKijµj,l,我3.3. 作为序列深度网络Σ4+2βmM=3Σj,iKijµj,l−1(八)Σ在本节中,我们描述了两个拟议的CRF-基于CNN的模型可以实现为顺序深度网络,从而实现整个网络模型(前端CNN和融合模块)的端到端训练。 我们首先表明给出一幅新的测试图像,最大化对数条件概率[25],i. e. d=如何平均场迭代推导出的多尺度和级联模型可以通过定义一个COM,argmaxdlo g(Q(d|S)),其中d=[µ1,1,...,µN,L]为mon结构,C-MF块,组成堆栈,5360Ll−1l=1l−12l=1CNN层。然后,我们提出了由此产生的顺序网络结构和详细的训练阶段。C-MF:两个模型的通用CNN实现。通过分析这两个CRF模型,我们可以观察到,平均场更新派生的级联和多尺度模型共享的条款。如上所述,两者之间的主要区别是在当前尺度下处理先前尺度下的估计深度的在多尺度CRFs中,相邻尺度之间的关系在隐变量空间中建模,而在级联CRFs中,在前一个尺度上估计的深度作为观测变量。从这个观察开始,在本节中,我们将展示如何计算Eq。(8)和(13)可以用共同的结构来实现。图3详细描述了这些计算。 接下来,为了为了清楚起见,我们引入矩阵。设 Sl∈RW× H是将N=WH个像素对应于侧输出向量sl重新排列而获得的矩阵,µt∈ RW× H是与尺度相关的估计输出变量的矩阵l和平均场迭代t。要在每次迭代t、µt−1和µ t时实现多尺度模型,进行卷积双边滤波加权µ<$t −1=K1µt −1gµt −1l和L l2β1µ<$t−1l和加权双边滤波2β1(γ1gJ)γ1=K1<$Jµt−1Lβ1β2β1β2空间滤波加权空间滤波µ<$t −1=K2µt −1gµt −1l,L l2β2µ<$t−1l,加权2β2(γ2gJ)γ=K2J2G2双边滤波加权t 1,1=K3µt 1l−l−2β3µtl−1,1加权双边滤波2β3γ3γ3=K3<$Jµtl−1G1β3β4β3β4空间滤波加权t l−1,2=K4µtl−12β4µtl−1,2加权2β4γ4空间滤波γ=K4J4tlγS添加一元项L正火µt=Sµ tLLLµt=µ tγ添加常数γ=JγL lµl不图3. 建议的C-MF块。J表示W×H矩阵,所有元素都等于1。符号、、和表示元素加、减、除和高斯卷积,分别。与[36]类似,带宽值θm是固定的,我们对高斯核β的权重进行差分计算。这样,β是自动学习的,l l−1m m两个高斯核。 在[15]之后,我们使用空间和双侧内核。由于高斯卷积代表了平均场迭代中的计算瓶颈,因此我们采用置换面体晶格实现[1]来近似滤波器响应计算,将计算成本从二次降低到线性[25]。参数βm的加权作为与a的卷积来执行1×1过滤器。然后,输出被组合并且被添加到侧输出映射S1。 最后,标准化步骤如下:低,对应于(7)的计算。考虑高斯核卷积和参数βm的加权,计算了正规化矩阵γ∈RW×H。值得注意的是,在我们的平均场更新连续CRF的标准化步骤基本上是不同于基于softmax函数的离散CRF[36]在级联CRF模型中,与多尺度CRF不同,作为观察变量。设计一个共同的C-MF块之间的两个模型,我们介绍了两个门函数G1和G2(图。3)控制计算流程并允许在两种方法之间容易地切换。两个门函数都接受用户定义的布尔参数(这里1对应于多尺度与反向传播有关。从平均场更新到顺序深度网络。 图4示出了使用上述C-MF块的所提出的两个基于CRF的模型的实现。在图中,每个蓝色框都与平均场迭代相关联。级联模型(Fig. 4-左)由L个单量表CRF组成。在第l个尺度上,执行t1个平均场迭代,然后在校正线性单元(ReLU)操作之后将估计的输出传递到后续尺度的CRF模型为了实现单个CRF,我们堆叠t1个C-MF块并使它们共享参数,同时我们为不同的CRF学习不同的参数对于多尺度模型,一个完整的平均场更新同时涉及L个尺度,通过组合L个C-MF块获得。我们进一步堆叠T次迭代用于学习和推断。与不同尺度和不同平均场迭代相对应的参数是共享的。通过这种方式,通过使用公共C-MF层,我们将两个提出的CRF模型实现为深度顺序网络,从而能够与前端网络进行端到端训练。训练整个网络。我们使用两阶段方案训练网络。在第一阶段(预训练),CRF和级联模型的0具体来说,如果G1是参数Θ和{θl}L前端网络的功能包括等于1时,门函数G1通过µt与高斯通过最小化L个不同侧损耗的总和来学习,如过滤块,否则将添加到一元加法块[33],对应于L侧外的P切口。我们用平方损失term. 同样,G2控制正常的计算在Q个训练样本中:LP=Ll=1Qi=1 是我,我是你。化项和(7)的计算之间的切换和(12)。重要的是,对于C-MF块中的每个步骤,我们实现了如[36]中的反向传播的误差微分的计算。 为了优化CRF参数,在第二阶段(微调),我们初始化前端在第一阶段中使用学习的参数对网络进行优化,并与所提出的多尺度CRF模型联合微调以计算参数Θ,{θl}L5361m=1D我我D12N⋆NiNi我¯我我⋆¯id我µtlLµ1LCCRF_1ReLUµt11µ02µ02CNN在尺度2CCRF_lS2d?输出β1,12β2,12βl,12µ12µ21β2,12µ2Lβ1,12βl,12β2,12β1,12β1、β222β1、β2LL规模1的CNNCCRF_2…规模为l的CNNSLLµ0Lµ0ReLUµt22µ22µ01S1µ11µTLβ3、β 4β1、β 2输出.β3,β 4 d?β1,β2β1,β 2µ2β3、β 41β1、β 2µ22…β1、β 2Lβ1、β 2µ1β3,β4µ1.β3,β 4 µ112Lβ1、β 2β1、β 2β1、β 2S1…µ0L规模1的CNN规模2的CNN规模为l的CNNµT1SLµ02S2µ01µT2图4. 提出的级联(左)和多尺度(右)模型作为一个顺序的深度网络。蓝色和黄色框分别表示估计变量和观测值。参数βm用于平均场更新。由于在级联模型中,不同CRF之间不共享参数,因此我们使用符号β 1、β 1来表示与第1个尺度相关联的参数。和β,其中β={βm}M. 整个网络都在学习CD)[23]和(v)ResNet50 [11]。 对于AlexNet,VGG16随机梯度下降(SGD)通过最小化a平方损耗LF=Q<$F(ri; Θ,θl,β)−dl<$2.和ResNet 50,我们从不同的侧面输出-输入卷积块,其中每个卷积层4. 实验i=1I2使用类似的如图[33]。AlexNet、VGG16和ResNet50的侧输出数量分别为5、5和4。作为为了证明所提出的多-在单目深度预测的大规模CRF模型中,我们在两个公开可用的数据集上进行了实验:[30]和Make3D [27]数据集。在下文中,我们描述了我们评估的细节。4.1. 实验装置数据集。NYU Depth V2数据集[30]包含120K个使用Microsoft Kinect捕获的唯一RGB和深度图像对数据集包括249个用于训练的场景和215个用于测试的场景。图像分辨率为640×480。为了加快训练阶段,遵循以前的作品[20,37],我们只考虑一个小的VGG-ED和VGG-CD已经被广泛用于像素级预测任务,我们也在分析中考虑它们。VGG-ED和VGG-CD都具有对称结构,我们使用VGG 16的相应部分作为其编码器/卷积块。然后从解码器/解卷积部分的卷积块中提取五个侧输出。评估指标。根据以前的工作[8,9,32],我们采用以下评估指标来量化评估我们的深度预测模型的性能。 具体而言,我们认为: (i)平均相对误差Error(rel):1|d<$− d|(ii)均方根误差.Σi图像的子集。该子集具有1449个对齐的RGB深度(rms):Σ1(d<$i-d)2;(iii)平均log 10误差(log10):对:795对用于训练,654对用于测试。福尔-在[9]之后,我们对训练样本进行数据增强。 RGB和深度图像以比率ρ∈ {1,1}缩放。二一5},深度除以ρ。此外,我们水平翻转所有样本,并将其双线性下采样为320×240像素。数据放大-站阶段总共产生4770个训练对。Make3D数据集[27]包含534个RGB深度对,分为400对用于训练,134对用于测试。我们将所有图像调整为460×345的分辨率,如[21]中所做的那样,以保持原始图像的纵横比。年龄 我们采用了与NYU Depth V2数据集相同的数据增强方案,但对于ρ={1. 二一5}我们每个生成两个样本,得到4K个训练样本。前端CNN架构。为了研究前端CNN的影响,我们考虑了几种网络架构,包括:(i)AlexNet [16],(ii)VGG 16 [31],(iii)从VGG(VGG-ED)导出的编码器-解码器网络[2], (iv)VGG卷积-反卷积(VGG-1log10(d<$i)−log10(d<$i)和(iv)准确度,阈值t:受max(di,di)影响的数据的百分比(%)=23iδ< t(t∈[1. 25,1。25,1。25])。实施详情。我们使用流行的Caffe框架[13]在具有12 GB内存的单个Nvidia Tesla K80 GPU上实现了所提出的深度模型如3.3节所述,训练包括预训练和微调阶段。在第一阶段,我们使用相应的ImageNet预训 练 模 型 初 始 化 的 参 数 来 训 练 前 端 CNN 对 于AlexNet、VGG 16、VGG-ED和VGG-CD,批量大小设置为12,ResNet 50设置为8。学习率初始化为10−11,大约每50 个epoch 降低10 倍总共执行80 个epoch用于预训练动量和权重衰减分别设置为0.9和0.0005。当预训练完成后,我们将前端CNN的所有侧输出连接到我们基于CRF的多尺度深度模型,以进行整个网络的端到端训练5362方法误差 (较低是更好)准确度(越高越好)rellog10RMSδ1。25δ <1.一、252δ <1.一、253HED[33]0.185 0.0770.7230.6780.9180.980超柱[10]0.189 0.0800.7300.6670.9110.978CRF0.193 0.0820.7420.6620.9090.976我们的(单级)0.187 0.0790.7270.6740.9160.980我们的-级联(3-s)0.176 0.0740.6950.6890.9200.980我们的-级联(5-s)0.169 0.0710.6730.6980.9230.981我们的-多尺度(3-s) 0.172 0.0720.6830.6910.9220.981我们的-多尺度(5-s) 0.163 0.0690.6550.7060.9250.981表1. NYU Depth V2数据集。 比较不同的多-尺度融合方案3-s、5-s分别表示3和5个尺度方法错误(越低越好)准确度(越高越好)rellog10RMSδ<1。25δ<1。252 δ<1。253外部→内部0.1750.0720.6880.6890.9190.979内部→外部0.1690.0710.6730.6980.9230.981表2. NYU Depth V2数据集。提出的模型和相关的预训练网络架构之间的比较。工作在这个阶段,批量大小减少到6,使用10−12预训练阶段的相同参数用于动量和权重衰减。高斯核的带宽权重通过交叉验证得到平均场迭代的次数被设置为5,以用于级联CRF和多尺度CRF的有效训练我们没有观察到显着的改善,使用超过5次迭代。在Make3D数据集上训练整个网络大约需要25个小时,在NYU v2数据集上训练大约需要31个4.2. 实验结果分析了不同的多尺度融合方法。 在第一系列实验中,我们考虑NYU Depth V2数据集。我们评估了所提出的基于CRF的模型,并将其与其他融合多尺度CNN表示的方法进行了比较。具体而言,我们认为:(i)[33]中的HED方法,其中多个侧输出损失的总和与融合损失联合最小化(我们使用平方损失,而不是交叉熵 , 因 为 我 们 的 问 题 涉 及 连 续 变 量 ) , ( ii )Hypercolumn [10],其中多个得分图被连接在一起,以及(iii)CRF应用于前端网络(最后一层)的预测后验(没有结束)。培训结束)。在这些实验中,我们将VGG-CD视为前端CNN。表3. NYU Depth V2数据集。提出的模型和相关的预训练网络架构之间的比较。层被使用。很明显,通过增加尺度的数量,性能得到改善。由于所提出的模型是基于从先前层中逐步改进所获得的预测结果的思想,因此我们还分析了堆叠顺序对级联模型性能的影响(表2)。我们比较了两种不同的方案:第一种表示级联模型从内层到外层操作,另一种表示相反的顺序。我们的结果证实了我们最初假设的有效性:从粗到细的方法导致更精确的深度图。不同前端深度的评估架构。如上所述,所提出的多尺度融合模型是通用的,并且可以在前端网络中采用不同的深度神经架构。本节我们评估此选择对深度估计性能的影响。我们的分析结果如表3所示,其中我们考虑了预训练模型(即, 仅采用侧损耗,而不采用CRF模型),用P表示,以及用级联CRF(CRF)表示的微调模型。在多尺度CRF的情况下也得到了类似的结果。正如预期的那样,在这两种情 况 下 , 更 深 入 的 模 型 产 生 了 更 准 确 的 预 测 ,ResNet50优于其他模型。此外,VGG-CD略优于VGG-ED,这两种模型的性能都优于VGG 16。重要的是,对于所有考虑的网络,当应用所提出的基于CRF的模型时,性能有显著的提高。图5描绘了预测深度图的一些示例。我们的比较结果如表1所示。很明显,使用我们的基于CRF的模型可以获得更准确的深度图,这证实了我们的想法,即在图形模型框架内整合从CNN侧输出图获得的互补信息比传统融合方案更有效。该表还比较了所提出的级联和多尺度模型。正如预期的那样,多尺度模型以增加的计算成本为代价产生更精确的深度图。最后,我们分析了采用多尺度的影响,并比较了我们的完整模型(5尺度)与他们的版本时,只有一个单一的和三个方面的输出在纽约大学深度V2数据集上。如图所示,所提出的方法能够生成鲁棒的深度预测。通过将使用预训练模型(例如使用VGG-CD和ResNet 50作为前端网络)获得的重建深度图像与使用我们的模型计算的深度图像进行比较,很明显,我们的多尺度方法显着提高了预测精度。与最新技术水平的比较。我们还将我们的方法与两个数据集上的最新方法进行了比较。对于以前的作品,我们直接报告的结果从原始文件。表4显示了NYU Depth V2数据集的比较结果。对于我们的方法,网络架构误差(低)更好)准确度(越高越好)rellog10RMS δ<1。25δ <1.一、252 δ <1.一、253AlexNet(P)0.2650.1200.9450.5440.8350.948VGG16(P)0.2280.1040.8360.5960.8630.954VGG-ED(P)0.2080.0890.7880.6450.9060.978VGG-CD(P)0.2030.0870.7740.6520.9090.979ResNet50(P)0.1680.0720.7010.7410.9320.981AlexNet(CRF) 0.2310.1050.8680.5910.8590.952VGG16(CRF)0.1930.0920.7920.6360.8960.972VGG-ED(CRF)0.1730.0730.6850.6930.9210.9815363RGB图像AlexNetVGG16VGG-CDResNetVGG-CD-我们的ResNet-OursGroundTruth图5.NYU v2数据集上的深度预测结果示例不同的网络架构进行了比较。表4. NYU Depth V2数据集:与最先进的技术相比。方法C1错误C2错误rellog10 RMSrellog10 RMSKarsch等人[14个]0.355 0.1279.200.361 0.148 15.10Liu等人[21日]0.335 0.1379.490.338 0.134 12.60Liu等人[20个]0.314 0.1198.600.307 0.125 12.89Li等人[19个]0.278 0.0927.190.279 0.102 10.27[18]第18话:我的世界0.223 0.0894.89--Laina等人[18](Huber损失)0.176 0.0724.46--我们的(ResNet 50-Cascade)0.213 0.0824.670.2214.798.81我们的(Resnet 50-多尺度) 0.206 0.0764.510.2124.718.73我们的(Resnet 50 - 10 K)0.184 0.0654.38 0.1984.538.56表5. Make3D数据集:与最先进的技术相比。考虑级联模型,并使用两个不同的训练集进行预训练:我们所有实验中使用的4.7K对的小集合和[18]中的95K图像的大集合。请注意,对于微调,我们只使用小集合。如表所示,我们的方法优于所有基线方法,并且当我们仅使用4.7K图像时,它是第二好的模型。这是值得注意的,例如,在[8]中,120K图像对用于训练。我们还在Make3D数据集上与最新技术进行了比较(表5)。 在[21]之后,在两个不同的设置中计算误差度量,即仅考虑(C1)地面实况深度小于70的区域,以及方法误差 (较低是更好)准确度(越高越好)rellog10RMSδ1。25δ <1.一、252δ <1.一、253Karsch等人[29]0.349-1.2140.4470.7450.897Ladicky等人[14]0.350.1311.20---Liu等人[21]0.335 0.1271.06---Ladicky等人[17]---0.5420.8290.941Zhuo等人[37]0.305 0.1221.040.5250.8380.962Liu等人[20]0.230 0.0950.8240.6140.8830.975Wang等人[32]0.220 0.0940.7450.6050.8900.970Eigen等人[9]0.215-0.9070.6110.8870.971罗伊和托多罗维奇[26] 0.187 0.0780.744---艾根和费格斯[8]0.158-0.6410.7690.9500.988Laina等人[18]0.129 0.0560.5830.8010.9500.9865364(C2)整个图像。很明显,所提出的方法明显优于以前的方法。特别是,与Laina等人[18](文献中表现最好的方法)相比,很明显,当Laina等人也采用平方损失时,我们的方法在级联和多尺度模型的情况下都明显优于[18]值得注意的是,在[18]中,考虑了15K图像对的训练集,而我们使用的训练样本要少得多。通过增加训练数据(即在预训练阶段为10K),我们的多尺度CRF模型在Huber损失(log10和RMS度量)。最后,将所提出的方法与Liu等人的方法进行比较是非常有趣的。[20],因为在[20]中,CRF模型也在深度网络训练的端到端中使用。我们的方法在准确性方面显著优于[20]。此外,在[20]中,报告了1.1秒的时间用于对测试图像执行推断,但未考虑超像素计算所需的时间。Opposite,使用我们的方法计算单个图像的深度图总共需要大约1秒。5. 结论我们介绍了一种用于从单个RGB输入预测深度图像的新方法,该方法对于其他跨模态任务也特别有用[34,35]。该方法的核心是一种基于连续CRF的新框架,用于融合来自CNN侧输出的多尺度表示。我们证明了这个框架可以与几种常见的CNN架构结合使用,并且适合端到端训练。大量的实验验证了所提出的多尺度融合方法的有效性。虽然本文专门解决了深度预测的问题,但我们相信,计算机视觉中涉及连续变量的像素级预测的其他任务也可以从我们在CNN框架内实现的平均场更新中受益5365引用[1] A. Adams,J. Baek,and M. A.戴维斯使用置换面体晶格的快速在Computer Graphics Forum,第29卷,第753-762页[2] V.巴德里纳拉亚南,A. Handa和R. 西波拉Seg- net:一个深度卷积编码器-解码器架构,用于强大的语义像素标记。arXiv预印本arXiv:1505.07293,2015年。[3] G. Bertasius,J. Shi和L.托雷萨尼Deepedge:一个多尺度分叉深网络,用于自顶向下的轮廓检测。CVPR,2015。[4] P. Buyssens,A. Elmoataz和O. 我爱你。多尺度卷积神经网络用于InACCV,2012.[5] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。ICLR,2015年。[6] L- C. Chen,Y.杨,J.Wang,W.Xu和A.L. 尤尔。注 意比例:尺度感知语义图像分割。CVPR,2016年。[7] E. Delage,H. Lee和A. Y. Ng.室内单幅图像自主三维重建的动态贝叶斯网络模型。CVPR,2006。[8] D. Eigen和R.费格斯。预测深度,表面法线和语义标签与一个共同的多尺度卷积架构。在ICCV,2015年。[9] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在NIPS,2014。[10] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR,2015。[11] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。[12] D. Hoiem,A. A. Efros,和M。赫伯特自动照片弹出。ACM图形交易(TOG),24(3):577[13] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快 速 特 征 嵌 入 的 卷 积 架 构 arXiv 预 印 本 arXiv :1408.5093,2014。[14] K. 卡尔施角Liu和S.B. 康深度转换:使用非参数采样从视频中提取深度
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功