没有合适的资源?快使用搜索试试~ 我知道了~
7683基于离焦深度线索训练的单幅图像深度估计希尔古尔特拉维夫大学shir. cs.tau.ac.il利奥尔·沃尔夫Facebook AI Research和特拉维夫大学wolf@cs.tau.ac.il摘要从单个RGB图像估计深度是计算机视觉中的一项基本任务,这是使用监督式深度学习最直接解决的问题。在从单个RGB图像进行深度的非监督学习的领域中,没有明确地给出深度。该领域的现有工作接收立体对、单目视频或多个视图,并且使用基于运动恢复结构的损失来训练深度估计网络。在这项工作中,我们依靠的是焦点线索的深度,而不是不同的视角学习是基于一个新的点扩散函数卷积层,它适用于位置特定的内核,产生于每个图像位置的混淆圈。我们评估了我们的方法的数据来自五个常见的数据集的深度估计和光场图像,并提出的结果是与监督的方法在KITTI和Make3D数据集和优于无监督的学习方法。由于散焦的深度现象不是特定于数据集的,因此我们假设基于它的学习将更少地过拟合到每个数据集中的特定内容我们的实验表明,情况确实如此,并且使用我们的方法在一个数据集上学习的估计器在其他数据集上提供了比直接监督方法更好的结果。1. 介绍在经典的计算机视觉中,为了从给定的一组图像中恢复深度,使用了许多深度线索。这些形状从X的方法包括结构从运动,这是基于多视图几何,形状从结构光,其中已知的光源扮演的角色的一个额外的视图,形状从阴影,和最相关的我们的工作,形状从散焦。在基于机器学习的计算机视觉中,兴趣主要从单个图像转移到深度,将问题视为多变量图像到深度回归问题,另外强调使用深度学习。从单个图像学习深度包括两种形式。有监督的方法,其中目标在-地层(深度)是明确给出的,而无监督方法,其中深度信息是隐含给出的。无监督学习中最常见的方法是为学习算法提供立体对或其他形式的多视图[37,41]。在这些方法中,训练集由多个场景组成,其中对于每个场景,我们都给出了一组视图。该方法的输出,类似于监督的情况下,是一个函数,给定一个单一的图像,估计在每个点的深度。在这项工作中,我们依靠,而不是多视图几何,从散焦的形状。在训练期间,我们的方法的输入是全聚焦图像和来自相同视点的相同场景的一个或多个聚焦图像。然后,该算法学习回归函数,在给定全聚焦图像的情况下,该回归函数通过重构给定的聚焦图像来估计深度。在经典的计算机视觉中,该领域的研究导致了各种应用[44,35,32],例如从手机图像中估计深度[33]。Anwar等人提出了一种基于深度学习的方法。[1],其在监督式深度学习中采用合成聚焦图像,以及Srinivasan等人的孔径超视深度学习。[31],他们以与我们使用散焦图像相同的方式使用光场图像。我们的方法依赖于一种新的点扩散函数(PSF)层,它在图像上执行局部操作,具有位置相关的内核,该内核根据每个位置处的PSF的估计参数“实时”计算。更具体地说,该层接收三个输入:全聚焦图像、估计的深度图和照相机参数,并输出在一个特定焦点处的图像。然后将该图像与训练图像进行比较以计算损失。该层的向前和向后操作都是使用专用CUDA内核高效计算的然后将该层用作新架构的一部分,结合成功的ASPP架构[5,9]。为了改进ASPP块,我们添加了密集连接[16],然后是自我关注[42]。我们在我们能够获得的所有相关基准上评估我们的方法。其中包括花光场数据集和多焦点室内和室外场景数据集,我们比较了生成不可见焦点7684图像与其他方法我们还对KITTI,NYU和Make3D进行了评估,这些都是单目深度估计数据集。在所有情况下,与具有类似监督水平的方法相比,我们显示出改进的性能我们注意到,我们的方法使用焦点线索进行深度估计,因此不评估散焦本身的任务。当从单个图像学习深度时,最主要的例如,在街景图像中,可以基于对象的类型(人行道、道路、建筑物、汽车)及其在图像中的位置来我们假设,当从焦点数据中学习时,局部图像统计的作用变得更占主导地位,并且这些图像统计在不同的视觉域之间更具全局性因此,我们与[9]的最先进的监督单目方法相比,我们的实验显示出我们的方法的明显优势2. 相关工作基于学习的单目深度估计在monocular深度估计中,给出单个图像作为输入,并且输出是与该图像相关联的预测深度。监督训练方法直接从地面真实深度学习,而所谓的无监督方法采用其他数据线索,如立体图像对。Saxena等人提出了该领域的第一种方法之一。[27],应用监督学习,提出了基于补丁的模型和马尔可夫随机场(MRF)。在这项工作之后,已经提出了各种方法,使用手工制作的表示[29,18,26,11]。最近的方法使用卷积神经网络(CNN),从学习条件随机场(CRF)模型的特征开始,如Liu等人。[22],学习由CRF细化的端到端CNN模型,如[2,40]。许多模型采用自动编码器结构[7,12,17,19,39,9],这对采用ResNets的非常深的网络具有额外的优势[15]。Eigen等人[8,7]表明,使用多尺度深度预测有助于降低编码器模型中发生的空间分辨率,并改善深度估计。其他工作使用不同的损失进行回归,例如Laina等人使用的反向Huber [24]。[19]降低平滑效果的L2规范,和最近的工作傅等。[9]他使用顺序回归每个像素与他们的间距增加离散化(SID)策略来离散深度。无监督深度估计用于无监督深度估计的现代方法依赖于场景的几何形状,Garg等人。[12]例如,建议我们-学习立体声对,引入可微逆翘曲。Godard等人[14]左,右。一致性约束的损失函数,利用其他几何线索。Zhou等[43]除了场景的自我运动外,GeoNet [41]还使用了场景的光流。Wang等人[37]最近表明,使用直接视觉里程计以及深度归一化大大提高了预测性能。聚焦深度/散焦深度聚焦深度和散焦深度之间的区别在于,在第一种情况下,相机参数可以在深度估计过程中改变第二种情况,这是不允许的。与上述基于运动的方法不同,这些方法使用透镜和光线的光学几何结构来获得深度第3.1条这一领域的工作主要侧重于分析技术。Zhuo等[44]例如估计边缘位置处的空间变化散焦模糊[20,36,30]提出使用编码孔径来改进深度估计。后来在这一领域的工作,如Suwajanakorn等人。[33],Tanget al. [35] Surhet al. [32]第三十二话- 具有不同焦距的同一场景的图像集-以及基于各种模糊环模型(如环差滤波器[32])的估计深度这些方法首先重建全聚焦图像,然后优化深度图,该深度图最好地解释了从全聚焦图像中重新渲染在这个领域,深度学习的工作并不多。Srinivasan等人[31]提出了一种新的花图像光场数据集。他们使用地面实况光场图像来渲染聚焦图像,并采用回归模型通过重建渲染的聚焦图像来估计离焦深度。[31]没有与其他RGB-D数据集[13,27,28,23]进行比较,他们的方法可以将任何全聚焦图像作为输入。我们使用我们的网络在KITTI数据集上评估[31]渲染过程。Anwar等人[1]利用这些数据集提供的深度将焦点渲染集成到完全监督的深度学习方案中。3. 可微光学模型我们回顾了PSF层所依赖的相关光学几何形状,然后转移到层本身。3.1. 散焦深度焦深法主要是基于薄透镜模型和几何形状,如图所示.第1(a)段。该图说明了光线轨迹和由焦点外的物体造成的模糊效果焦平面被定义为使得从其朝向透镜发出的光线落在相机传感器平面上的同一点处。如果一个物体到镜头的距离落在相机的景深(DoF)内,即物体在焦点平面上的清晰度可以接受的距离,则称该物体处于焦点内7685πCC(a) 镜头插图2015105016 32 48 64 80距离[米 ](b) CoC -KITTI内核7x7未聚焦-近聚焦-远(c) CoC -KITTI根据场景对于KITTI,我们认为最大深度为80米,对于NYU为10米。我们也考虑一个常数f数N= 2。8和不同的焦距为所有的数据集,为了降低深度模糊度降低自由度范围(见节。5.2更多详情)。我们现在参考另一个名为CoC- limit的测量,定义为仍将每个图1:(a)透镜原理说明蓝色光束代表-重新聚焦一个物体红色光束代表一个离得更远的物体,并且没有聚焦。有关符号定义,请参见文本。(b) CoC直径(相对于在KITTI中看到的物体距离。相机设置为:N= 2。8,F= 35,s= 2。(c)示例模糊内核。绿线表示深度边缘,蓝色表示相对模糊贡献w.r.t.CoC.人类的眼睛。DoF之外的对象在图像平面上看起来模糊,这是由光线当从标准观看距离在最终图像上观看时,被人眼视为点CoC限制还限制了用于渲染的内核大小,并且-因此,对运行时间有很大的影响(更大的内核导致更多的计算)。我们采用大小为7×7的内核,这反映了标准CoC限制为0。061毫米。在这项工作中,遵循[33,35],我们认为模糊模型是一个圆盘形的点扩散函数(PSF),由半径r=C/2的高斯核和核来自未聚焦物体的光线,形成所谓的在本文中,我们将使用以下术语-.1G(u,v,r)=2πr2exp−. u2 + v2双位数2R2(三)光学:全聚焦图像是其中所有对象都出现在焦点上的图像,而聚焦图像是其中观察到由透镜配置引起的模糊效果的图像。在该模型中,我们考虑以下参数来描述特定的相机:焦距F,其是透镜平面与初始平行光线被带到焦点的点之间的距离,光圈A,其是初始平行光线的焦点。透镜的直径(或光穿过的开口,因为我们在像素空间中工作,如果直径小于一个像素(C1),我们忽略模糊效果。<根据上述公式,可以从全聚焦图像和深度图生成聚焦图像设I是全聚焦图像,J是从深度图Do、CoC图C、相机参数A、F和Df导出的渲染聚焦图像,我们如下定义Jels)和焦平面Df(或焦距),焦平面D f是透镜平面和所有点都聚焦的平面之间的距离。根据薄透镜模型,我们2Fx,y(u,v)=2x为oh.exp. u2 + v2双位数-22x为oh(四)定义模糊的大小,即,CoC的直径,我们表示为Cmm,根据以下等式:Jx,y:=(IF)(5)∫Ix−u,y −vFx−u,y−v(u,v)dudvu,v∈|Do− Df|F=''、Cmm=AODf−F(一)u′,v′∈ Fx−u′,y−v′(u,v)dudv其中Do是物体到镜头之间的距离其中,k是与大小为m×m的核相关的偏移集:平面,A=F/N,其中N是所谓的:= .(u,v):u,v∈Σ ΣΣM m-我不知道. . 、0、. . . ,∈(六)相机的F数。虽然CoC通常在2 2在像素尺寸为10毫米(Cmm)的情况下,我们通过考虑p = 5的相机像素尺寸将其尺寸转换为像素。6µm(如[3]中所示),以及相机输出比例s,这是传感器尺寸和输出图像尺寸之间的比率。以像素C为单位的最终CoC大小计算如下:C= Cmm。(二)p·sCoC与深度直接相关,如图所示。1(b),其中每条线表示不同的焦距Df。可以看出,该关系不是一对一的,并且将导致深度估计中的模糊性。而且,不同的场景需要不同的相机设置D f=16 [m]D f=48[m]Df=64[m]D f=80[m]CoC限值= 7CoC[像 素 ]DN7686我们用函数核F表示卷积运算,用(x,y)表示图像位置索引,用(u,v)表示由核大小限定的偏移索引。基于等式如图5所示,给定同一场景的一组聚焦图像,可以优化模型以预测全聚焦图像和深度图。或者,给定聚焦图像及其对应的全聚焦图像,我们通过重构聚焦图像来预测场景深度。虽然[31]使用磁盘内核的加权和来渲染模糊,但我们的模糊内核是来自所有邻居的不同模糊贡献的高斯合成(等式10)。5)其中每个核系数由高斯函数w.r.t.一个不同的估计CoC,如图所示。第1段(c)分段。76873.2. PSF卷积层我们使用的PSF层可以被视为[ 34 ]的局部连接层的一个特殊情况,有一些区别:首先,在PSF层中,If(I)道g(I;D<$o;ρ)J<$损失应用于所有通道,而在局部连接层以及常规层(不包括深度卷积[6])中,局部算子在输入通道之间变化此外,PSF层不对结果求和,并在输出张量中返回与输入张量中相同数量的通道。PSF卷积层,设计用于从散焦的深度(DfD)的任务,是基于方程。5,其中内核在位置之间变化,并且根据在等式5中定义的函数F“在运行中”计算4.第一章因此,内核是对象距离的局部函数模糊内核应用于失焦像素。该层将全聚焦图像I、深度图D。和相机参数向量ρ作为输入,相机参数向量ρ包含光圈A、焦距F和焦深Df。然后,该层输出聚焦图像J。如前所述,我们固定了近距离和远距离限制以适应每个数据集,并使用上面提到的固定像素大小。渲染过程开始于首先根据等式2计算CoC-图C。1,然后应用等式1中定义的函数核卷积。五、我们在CUDA中实现以下操作并计算其导数如下:Jreal/rendered图2:培训计划。蓝色区域表示渲染分支,用于基于深度的数据集。学习的网络f应用于全聚焦图像I,并返回预测深度Do=f(I)。fixed网络g由PSF层组成,如第2节所述3.2.它将全聚焦I、深度(估计的或未估计的)D。和相机参数向量ρ作为输入。 它输出J=g(I,Do,ρ),其是根据深度Do和相机参数ρ的I的聚焦版本。我们区分来自我们表示为J(也用于真实聚焦图像)的地面实况深度D。的渲染聚焦图像和来自预测深度的D<$o,记作J<$=g(I,D<$o,ρ)。训练过程有两种情况,使用真实数据或生成的数据进行训练,这取决于手头的训练在这两种情况下,训练都是通过顺序运行f和g来端到端执行的。首先,将f应用于全聚焦图像I并输出预测的深度图好的使用此地图,全聚焦图像和相机页面-.ΣS,t=x,y.Σ∫u′,v′∈Fx,y(u,v)Fs−u′,t−v′(u′,v′)du′dv′(七)参数ρ,g渲染预测的聚焦图像J<$。 一然后将重建误差应用于J和J¯,其中对于基于深度的数据集的情况,我们根据地面实况深度图渲染训练聚焦图像JJs,tx,yfx,y(u,v)(Ix,y−Js,t)Fx,y(u,v)=∫u′,v′∈<$F s−u′,t−v′(u′,v′)du′dv′4(u2+v2)−2C2(八)Do和相机规格ρ。图2示出了训练方案,其中蓝色虚线矩形示出了第二种情况,其中J从地面实况深度渲染。x,y(u,v):=3x为ohx为oh(九)在第一种情况下,由于我们与[31]的工作比较补充材料中提供了向前和向后传递的详细说明4. 方法在本节中,我们描述了训练方法和模型架构,它扩展了ASPP架构,以包括自注意力和密集连接。然后我们描述了训练过程。我们在训练期间使用单个聚焦图像,尽管可以使用更多。在第二种情况下,我们与完全监督的方法进行比较,这些方法受益于直接访问深度信息,我们报告了1,2,6和10个渲染聚焦图像的结果。训练损失我们首先考虑重建损失和深度平滑度[38,14]w.r.t.输入图像 I、预测聚焦图像J<$、聚焦图像J和估计深度图D<$o:4.1. 一般架构与训练损失设J是I的(真实世界)聚焦版本,J是I的预测聚焦版本。我们训练回归模型1ΣLrec=Nα1−SSIM(J<$,J)+(1−α)<$J<$−J<$2(十)使J和J′的重建损失最小化。我们定义了两个网络,f和g,分别用于深度估计和焦点渲染当f被学习时,gim-L平滑=1Σ|e−|塞什岛|+的|岛|e−|泽伊岛|∂yI|(十一)N补充方程4和5.两个网络都参与了损失,并且使用Eq.七,八。其中SSIM是结构相似性度量[38],并且α控制着相对论的平衡。L1损失Dog(I;Do;ρ)C17688..ResNet上采样+转换合并Conv 1x1Atrous ConvAtrous ConvSelf-AttentionSkipConnection图3:添加了注意力块的密集ASPP。上述重建损失没有考虑图像J的某些部分中的模糊,其由失焦区域引起因此,我们添加类似于[25]的锐度度量S(I),其考虑每个像素的它包括三个部分:(i)图像拉普拉斯算子I= I+I+I,(ii)图像对比度原始ASPP由三个或更多个独立层组成-平均池,然后是1×1卷积,1×1卷积和四个Atrous层。每个卷积层有256个通道,nels和这些层的四个输出,以及pool+conv层连接在一起,形成通道大小为C= 1280的张量。我们从文献的不同部分提出两个额外的修改:[16]和自我注意力[42]。我们在1×1卷积和ASPP模块的所有Atrous卷积层之间添加密集连接,se-从最小到最大的膨胀层顺序连接所有层。因此,每一层不仅接收前一层的输出作为输入张量,而且接收所有前一层的输出张量的连接这在图1中以跳过连接箭头示出。3 .第三章。Self-Attention旨在将局部特征与其全局依赖性相结合,如以前的工作[42,10]所示,它改善了图像分割和生成的结果第我们的实现基于[10]双重注意力。.X.y. I−µI。f的解码器部分由三个上采样组成能见度C(I):=。我 . ,以及(iii)图像方差块,每个块具有三个卷积层,V(I):=(I−µI)2,其中µI是7×7像素窗口锐度度量由S(I)=−I−C(I)−V(I)给出,损失项为:Lsharp=S ( J ) −S ( J )1 。( 12)最后的损失期为:损失=λ1Lrec+λ2Lsmooth+λ3Lsharp( 13)对于所有实验,我们设置λ1= 1,λ2= 10−3,λ3= 10−1。4.2. 模型架构我们的网络f如图所示。3.第三章。它包括编码器-解码器架构,我们依赖于DeepLabV 3 +[4,5]模型,该模型被发现对语义分割和深度估计任务有效[9]。编码器有两个部分:一个ResNet [15]主干和一个后续的Atrous空间金字塔池(ASPP)模块。与[9]不同的是,我们不使用预先训练的ResNet,而是端到端地学习它。Atrous卷积(也称为扩张卷积)在内核单元之间添加填充,以扩大来自早期层的接收场,同时保持权重大小恒定。ASPP包含几个具有不同扩张的平行Atrous如[5]中所建议的,我们还将编码器的所有池化层替换为具有适当步幅的卷积层。损失计算的最高分辨率,以支持更高质量的输出。然而,为了遵守GPU内存限制,网络将原始大小一半的下采样图像作为输入然后网络双线性上采样来自骨干网的低级层的跳过连接与第二块的输入级联。解码器的输出是预测深度。5. 实验我们将我们的实验分为两种类型,自由度监督和自由度监督从渲染数据,如前所述。我们进一步实验了跨域评估,在那里我们评估我们的方法与最先进的监督方法[9]的一致性。这里模型在域A上训练,在域B上测试,表示为A→B。我们表明,从焦点线索学习深度,虽然没有达到比监督方法更好的结果-但与KITTI和Make 3D数据集中的顶级方法相比,实现了更好的泛化表达在跨域评估中获得更高的结果。该网络在单个Titan-X Pascal GPU上训练,批量大小为3,使用Adam进行优化,学习率为2·10−5,权重衰减为4·10−5。的PSF层的专用CUDA实现运行x80比优化的pytorch实现更快。使用了以下五个基准光场数据集[31]该数据集包含用Lytro Illum相机拍摄的光场花卉和植物图像根据光场图像,我们按照[31]的过程生成全聚焦和浅DoF图像,并将数据集分为3143和300个图像进行训练和测试。DSLR数据集[3]该数据集包含来自室内场景的110张图像和地面真实深度,其中81张图像用于训练,29张图像用于测试,34张图像来自室外场景,没有地面真实深度。 每个场景都是AC-输出µ7689算法监督PSNRSSIM图像回归[31]DOF24.600.895多视图[31]DOF34.490.960光场[31]DOF36.680.967结构性[31]DOF36.900.966我们DOF38.330.979表1:光场测试集的定量结果,报告为重建聚焦图像的PSNR和SSIM的平均值。使用两个摄像机光圈:N= 2。8和N= 8,提供聚焦和全聚焦图像。KITTI [13]这个基准测试包含在户外环境中拍摄的RGB-D图像,分辨率约为370×1226,我们称之为全分辨率输出尺寸。我们采用的训练/测试拆分遵循Eigenetal.[8],23,000张训练图像和697张测试图像。根据[8],对输入的深度图和图像进行裁剪以获得有效的深度值,并将其大小调整为一半。NYU DepthV2 [23]这个基准测试包含大约120K室内RGB和深度图像,这些图像是用Microsoft Kinect捕获的。数据集包括249个用于训练的场景和215个用于测试的场景我们在654上报告结果测试图像从一个小的子集1449对齐的RGB深度对,在以前的工作中所做的。Make3D基准测试包含534个RGB深度对,分为400对用于训练,134对用于测试。输入图像以高分辨率提供,而深度图以低分辨率提供。因此,数据被调整为460×345,如[27,28]所建议的。接下来[27],在两种设置中评估结果:0-70的深度帽,和0-80的深度帽的C25.1. 结果DoF监督我们首先报告关于Lightfield数据集的结果,该数据集提供聚焦和全聚焦图像对,没有地面真实深度。性能评估使用PSNR和SSIM措施。我们的结果显示在Tab中。1.一、可以看出,我们显著优于[31]提供的文献基线。对于渲染的DoF监督,我们考虑具有地面真实深度的四个数据集[8,27,23,3],其中我们渲染具有不同焦距的聚焦图像。 我们用F1、F2、F6、F10表示,四种训练设置,其不同之处在于训练中使用的渲染聚焦图像的数量。选择焦距的顺序由以下焦距序列定义[0. 2,0。八比零。1,0。九比零。3,0。七比零。四,零。6,0。5,0。35],其中每个数字表示用于每个数据集的最大深度例如,F2采用最大深度的0.2倍和0.8倍的焦距。我们进行两种类型的评估。 首先,我们评估-在训练过程中,针对每个具有不同数量聚焦图像的数据集,使用我们的方法,并将我们的结果与其他无监督方法以及监督方法进行比较。评估措施是文献[13,27,28]中常用的,包括各种RMSE措施和阈值错误率。选项卡. 图2和图3表明,我们的方法在KITTI和Make3D数据集上优于单目和立体监督方法。当使用从Cityscapes数据集获得的额外数据训练先前的方法时,这也是成立的。与深度监督方法相比,我们在KITTI上的表现优于所有方法,[9]的表现优于Make3D。图4,我们在KITTI数据集上与最先进的无监督方法[37]相比,给出了我们方法的定性结果。可以在Tab中看到。4,没有文献报道的纽约大学数据集的非监督方法,我们的表现略优于监督方法。我们接下来进行跨域评估比较最先进的监督方法[9]的已发布模型,其中在KITTI或NYU上进行训练,并在不同的数据集上进行这些测试旨在评估学习网络对特定数据集的特异性由于数据集之间的绝对深度不同,我们通过计算Pearson度量来评估方法结果见表1。五、可以看出,从KITTI和NYU转学时,我们的表现优于直接监督方法。这一差距在纽约大学网络中尤为明显。我们还使用PSNR和SSIM指标为DSLR数据集的户外图像提供了跨域结果选项卡. 6表明在这种情况下,我们的方法从NYU转移得更好,与[9]相比,从KITTI转移得仅略好。5.2. 消融研究焦距的影响由于焦距Df和DoF范围呈正相关,因此使用远焦距进行训练可增加DoF,并使大范围的距离聚焦。结果,焦点提示降低,导致性能下降。在图5中,我们展示了Make3D数据集在不同焦距下F1训练的准确性,其中在中间范围Df处看到性能明显下降,之后由于数据集最大深度而增加,从而限制了远DoF距离,即降低自由度范围,并增加对较近物体的聚焦提示。我们评估了我们的具有自我注意力的密集ASPP,并与原 始 ASPP 模 型 的 三 个 版 本 进 行 了 比 较 : vanillaASPP,密集连接ASPP和自我注意ASPP。为了区分不同的模糊度场景,使用F1、F2、F6和F10方法进行训练如可以7690参考图像Ground Truth Wang [37] F2 F6 F10图4:KITTI:KITTI本征分裂的定性结果。所有图像都被裁剪到[8]中提出的有效深度区域。从左到右,参考图像和地面实况,Wang等人。[37]我的算法监督绝对相对值平方相对RMSERMSE日志δ1。25δ1。252δ1。253Godard等人[14个]S0.1481.3445.9270.2470.8030.9220.964[41]第四十一话M0.1551.2965.8570.2330.7930.9310.973Wang等人[37]第三十七届M0.1511.2575.5830.2280.8100.9360.974Godard等人[14个]S(K+CS)0.1140.8984.9350.2060.8610.9490.976我们的F1DOF0.1411.4735.1870.2210.8460.9530.981我们的F2DOF0.1290.7224.2330.1830.8560.9600.985F6DOF0.1140.6714.1440.1720.8670.9630.987F10DOF0.1100.6664.1860.1680.8800.9660.988Liu等[22日]深度0.2021.6146.5230.2750.6780.8950.965Kuznietsov等人[17个]深度0.1130.7414.6210.1890.8620.9600.986DORNet al. [9]第一章深度0.0720.3072.7270.1200.9320.9840.994表2:KITTI:KITTI本征分裂的定量结果。Top -无监督方法,其中'S'和'M'代表立体声和视频(单眼)监督,'K+CS'代表使用来自CityScapes数据集的添加数据进行训练。中间-我们的方法。底部-监督方法。算法监督C1C2表3:Make3D:Make3D [27,28]数据集的定量结果。顶部-无监督方法,其中'S'和'M'代表立体声和视频(单眼)监督。中间-我们的方法。底部-监督方法。算法监督绝对相对值RMSE log10RMSEδ1。25δ1。252δ1。253我们的F1DOF0.2540.0920.7660.6910.8800.944我们的F2DOF0.1620.0680.5740.7740.9410.984F6DOF0.1490.0630.5460.7970.9510.987F10DOF0.1620.0680.5750.7720.9420.984Li等[21日]深度0.1430.0630.6350.7880.9580.991MS-CRF [40]深度0.1210.0520.5860.8110.9540.987DORN [9]深度0.1150.0510.5090.8280.9650.992表4:NYU:NYU V2 [23]数据集的定量结果顶部-我们的方法。底部-监督方法。绝对相对值RMSE log10RMSE绝对相对值RMSE log10RMSEGodard等人[14个]S0.4430.15611.513---Zhou等[四十三]MS0.3830.47810.470---Wang等人[37]第三十七届MS0.3870.2048.090---我们的F1DOF0.5680.1928.8220.5750.19510.147我们的F2DOF0.2870.1167.7100.2940.1219.387F6DOF0.2620.1097.4740.2690.1159.248F10DOF0.2460.1107.6710.2540.1169.494Li等[21日]深度0.2780.0927.1200.2790.10210.27MS-CRF [40]深度0.1840.0654.3800.198-8.56DORN [9]深度0.1570.0623.9700.1620.0677.327691过渡算法相关性过渡算法PSNRSSIMDORN [9]0.423 ±0.010DORN [9]24.950.823KITTI→ NYU Ours F10.121 ±0.006KITTI →DSLR我们的F124.910.822F100.429 ±0.009F1024.980.826DORN [9]0.616 ±0.011DORN [9]24.730.749KITTI →Make3D Ours F10.484 ±0.019NYU →DSLR我们的F124.970.774F100.642 ±0.014F1024.970.773KITTI →D3NetDORN [9] 0.145 ±0.048我们的F1 0.148 ±0.032我们的F10 0.275 ±0.054表6:室外DSLR [3]测试集上的定量结果,报告为重构聚焦图像的PSNR和SSIM的平均值。纽约大学→KITTIDORN [9] 0.456 ±0.006我们的F1 0.567 ±0.006我们的F10 0.634±0.005型号F1 F2 F6 F10 ASPP 5.412 4.422 4.3114.194纽约大学→D3NetDORN [9] 0.260 ±0.054我们的F10.530 ±0.048我们的F10 0.434 ±0.052表7:原始ASPP和我们的具有自我注意的密集ASPP之间的KITTI比较。我们将“D”记表5:跨域评估的定量结果。针对不同大小的聚焦图像堆栈示出了RMSE模型在域A上训练,在域B上测试报告的数值为平均值±标准误差。渲染F1 F2Abs RelRMSE δ<1. 25Abs Rel RMSE δ<1. 25[三十一]0.48912.3950.2930.63611.1770.230如表7所示,我们的模型优于不同的ASPP版本-[31]+BF0.37911.9210.3540.33911.6120.418Ssions。然而,随着聚焦图像数量的增加,我们0.1415.1870.8460.1294.2330.856减小了间隙不同的渲染方法 进一步 与[31]相比,我们在KITTI数据集上进行了测试表8:在我们的网络之上的不同模糊方法BF=双边滤波。其中,我们用它们的合成渲染替换我们的渲染网络G,并修改我们的深度网络F从Tab。8,[31]的合成方法在F1和F2设置中对KITTI的表现不佳。0.900.880.860.840.820.800.780.769.59.08.58.07.57.06.56.06. 结论我们提出了一种方法,学习估计深度从一个单一的图像,根据重点线索。我们的方法比-0.740.720.7008162432404856647280Df距离[米](一)5.55.04.5081624324048566472 80Df距离[米](b)第(1)款形成了类似的监督方法[31]和所有其他无监督的文献方法。在大多数情况下,当在来自训练域的测试图像上进行评估时,它与直接监督方法的性能相由于焦点线索比内容线索更通用,因此我们的方法在所有可用文献数据集的跨域评估中优于最先进的监督方法。我们引入了一个可微分的PSF卷积层,它将基于图像的损失传播回估计的深度。我们还贡献了一个新的架构,介绍了密集连接和自我注意的ASPP模块。我们的 代 码 可 作 为 文 档 材 料 的 一 部 分 , 并 在GitHubhttps://github.com/图5:(a)δ<1。25,越低越好,用于训练F1,不同的焦距。(b)RMSE,越高越好。shirgur/UnsupervisedDepthFromFocus。确认该项目已获得欧洲研究委员会(ERC)在欧盟地平线 2020 研 究 和 创 新 计 划 下 的 资 助 ( 授 予 ERCCoG725974)。第一作者的贡献是博士学位的一部分。在特拉维夫大学进行的论文研究<一点二五RMSE纽约大学→Make3DDORN [9]0.250 ±0.019ASPP + D5.2854.3514.1704.190我们的F10.249 ±0.032ASPP + SA5.3874.4024.2324.188F100.456 ±0.022我们5.1874.2334.1444.1867692引用[1] S. Anwar,Z. Hayder和F.波里克利从单个失焦图像进行深度估计和模糊去除。在BMVC,2017年。一、二[2] Y.曹,Z. Wu和C.沈使用深度全卷积残差网络从单色图像估计深度IEEE Transactions on Circuits and Systems forVideo Technology,2017。2[3] M. Car v alho,B. 勒索山口 Trou ve'-Peloux,A. Almansa和F.香槟离焦深度:散焦模糊如何使用密集神经网络改善3D估计?3DRW ECCV研讨会,2018年。三五六八[4] L- C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv:1706.05587,2017. 5[5] L- C. 陈先生,Y. 朱G. 帕潘德里欧F. 施罗夫,和H. Adam.用于语义图像分割的具有可分离卷积的编码器-解码器。arXiv预印本arXiv:1802.02611,2018。一、五[6] F.胆Xception:使用深度可分离卷积的深度学习。arXiv预印本,第1610-02357页,2017年。4[7] D. Eigen和R.费格斯。预测深度,表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集,第2650-2658页2[8] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行第2366-2374页,2014。二六七[9] H.傅,M。贡角,澳-地Wang,K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。2002-2011,2018页。一、二、五、六、七、八[10] J. Fu,J. Liu,H.田镇Fang和H. 陆 用于场景分割的双注意力网络。arXiv预印本arXiv:1809.02983,2018。5[11] R.古川河Sagawa和H.川崎用结构光流进行深度估计--物体表面上投影图案流的分析。arXiv预印本arXiv:1710.00513,2017。2[12] R.加格BG、G. Carneiro和我里德用于单视图深度估计的无监督CNN:把几何图形放回休息室。欧洲计算机视觉会议,第740-756页。施普林格,2016年。2[13] A. Geiger,P. Lenz,C. Stiller和R.乌塔松视觉与机器人技 术 的 结 合 : Kitti 数 据 集 。 International Journal ofRobotics Research(IJRR),2013年。二、六[14] C.戈达尔湖,澳-地Mac Aodha和G. J·布罗斯托具有左右一致性的无监督单目深度估计2(6):7,2017. 二四七[15] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。第770-778页,2016年。二、五[16] G. Huang,Z.柳湖,加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR,第1卷,第3页,2017年。一、五[17] Y. Kuznietsov,J. Stückle r和B. Leibe 用于单目深度图预测的半监督深度学习。第6647-6655页,2017年。二、七[18] L. Ladicky,J. Shi,and M.波勒菲斯把事情扯远。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第89-96页2[19] I. 莱纳角 Rupprecht,V. Belagiannis,F. Tombari,以及N.纳瓦布使用全卷积残差网络进行更深的深度预测。第239-248页,2016年。2[20] A.莱文河Fergus
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功