没有合适的资源?快使用搜索试试~ 我知道了~
基于语义增强和注意力损失的单目深度估计
深入观察:基于语义增强和注意力损失的单目深度估计JianboJiao1,2[0000−0003−0833−5115], Ying Cao1,Yibing Song3,Rynson Lau11香港城市大学,九龙,香港特别行政区jianbjiao2-c@my.cityu.edu.hk网站,caoying59@gmail.com,rynson. cityu.edu.hk2伊利诺伊大学厄巴纳-香槟分校厄巴纳美国3腾讯人工智能实验室,深圳,中国dynamicstevenson@gmail.com抽象。单目深度估计极大地受益于基于学习的技术。通过研究训练数据,我们观察到现有数据集中的每像素深度值通常呈现长尾分布。然而,大多数先前的方法平等地对待训练数据中的所有区域,而不管不平衡的深度分布,这限制了模型性能,特别是在遥远的深度区域上。 在本文中,我们研究了长尾属性,并深入研究了遥远的深度区域(即最后提出了网络监督的注意力损失模型。此外,为了更好地利用语义信息进行单目深度估计,我们提出了一个协同网络来自动学习两个任务之间的信息共享策略利用所提出的注意力驱动损失和协同网络,深度估计和语义标记任务可以相互改进。在具有挑战性的室内数据集上的实验表明,该方法在单目深度估计和语义标记任务上都关键词:单眼深度·语义标签·注意力损失1介绍在过去的几十年中,深度获取一直被积极研究,在3D建模,场景理解,深度感知图像合成等方面有着广泛的应用。然而,传统的基于硬件或软件的方法受到环境或多视图观测假设的限制。为了克服这些限制,人们对从单个图像预测深度越来越感兴趣。单目深度预测是一个不适定的问题,并且本质上是模糊的。然而,人类可以很好地从单个图像感知深度,假定已经在生命周期中学习了足够的样本(例如,附近/远处对象的外观)随着深度学习技术和可用训练数据的成功,单目深度估计的性能已经得到了极大的提高[5,53]。虽然现有方法通过以下方式来测量深度估计精度:2J. Jiao,Y. Cao,Y.松河,巴西-地刘vanilla损失函数(例如,1或2),它们假设场景中的所有区域贡献相等,而不考虑深度数据统计。我们已经经验性地发现,室内/室外场景中的深度值在不同区域之间变化很大,并且表现出长尾分布(参见图1B)。①的人。这是自然界固有的特性,主要是由深度获取过程中的透视效应引起的。给定这样的不平衡数据,同等地处理所有区域的损失函数将由具有小深度的样本主导,从而导致模型可以被“隐藏”,并且不有效地抑制此外,对所学习的先验知识(如视角、场景的语义理解(例如,视觉和视觉))的补充。 天空是遥远的,墙壁是垂直的)本质上有益于深度估计。例如,知道圆柱状物体是铅笔或杆子可以帮助估计其深度。此外,深度信息也有助于区分语义标签,特别是对于具有相似外观的不同对象[4,11,41]。因此,估计深度和语义可以是互利的。不幸的是,缺乏跨两个任务有效传播和共享信息的策略。在这项工作中,我们提出通过提出一个深度网络来预测深度以及来自单个静态图像的语义标签来解决上述两个挑战。提出了一种新的具有深度感知目标的注意力驱动损失来监督网络训练,它消除了数据偏差问题,并引导模型更深入地观察场景。此外,在我们的协同网络架构,我们提出了一个信息传播策略,执行在一个动态的路由方式,以更好地将语义到深度估计。该策略通过横向共享单元和半密集跳跃连接来实现,其允许信息通过两个任务之间和内部的内部表示来传播。在室内数据集上的实验结果表明,基于该损失和知识共享策略的单目深度估计性能得到了显著提高,达到了最新水平.我们的贡献总结如下:– 我们提出了一种新的注意力驱动损失,以更好地监督具有长尾分布的现有数据集上的网络训练。它有助于提高深度预测性能,特别是对于遥远的区域。– 我们提出了一个协同网络架构,更好地传播语义信息的深度预测,通过一个建议的信息传播策略之间和任务内的知识共享。– 大量的实验证明了我们的方法的有效性,在深度和语义预测任务上都具有最先进的性能2相关工作从单个图像的深度。单目深度估计的早期工作主要利用手工制作的特征。Saxena等人。 [44]通过过分割输入图像上的线性模型预测单眼深度 Hoiem等人 [17]进一步将超像素分组为几何有意义的标签并构建3D图像。看得更深3模型相应。后来,随着大规模RGB-D数据的可用,数据驱动的方法[21,22,27,28,30,35,43]变得可行。 Eigen等人 [4,5]构造多尺度深度卷积神经网络(CNN)以产生密集深度图。一些方法[24,29,34,51- 53,56]通过包括条件随机场(CRF)来实现。尽管有显著的改进,但模型复杂性也增加了其他作品[1,57]通过探索序数关系来预测深度[28,43]中报告了数据不平衡,但未明确说明。一些其他作品[6,9,26,55]提出通过来自其他立体或时间视图的重建损失来监督网络虽然不需要深度监督,但通常需要校正和对齐,并且它们在训练期间依赖于多视图图像。虽然已经取得了显着的性能,深度数据分布的长尾属性尚未得到很好的探索。深度与语义由于深度和语义标签共享上下文信息,因此一些方法[3,4,11,42,46]将深度图作为指导以提高语义分割性能。在[46]中,Silberman等人提出了NYU RGBD数据集,并使用RGB和深度的组合来改进分割。基于该数据集,一些方法[3,11]将RGBD作为输入来执行语义分割。Eigen和Fergus [4]设计了一个深度CNN,它将RGB,深度,表面法线作为输入来预测语义标签。由于CNN模型的强大功能,最近提出了其他方法[41,49,50]来更好地利用深度进行语义标记。虽然已经证明了出色的性能另一方面,可以利用在语义标签中编码的先验信息来辅助深度预测。Liu等人 [33]不是直接从彩色图像映射到深度,而是首先在场景上执行语义分割,然后使用标签以顺序方式引导深度预测联合代表共享。最近的一些工作试图研究不同任务之间的表征共享[16,19,20,27,38,39,51]。 Ladicky等人 [27]提出了一个语义深度分类器,并分析了图像处理的透视几何,而它们依赖于本地手工制作的特征。在[12]中,提出了用于联合分割和3D重建的传统框架Wang等人。 [51]使用CNN跟随分层CRF来联合预测语义标签和深度。然而,他们只修改最后一层进行预测,并依赖于超像素和CRF。并发工作[23]提出了多任务损失的加权策略 Misra et al. [38]提出了一种用于多任务学习的十字绣(CS)网络。 虽然性能优于基线,但如果组合权重退化为0,则可能遭受传播中断。双并行CNN设计也增加了参数的数量和学习复杂度。提出了另一种共享方法[18],用于识别任务,该方法在CNN中的每个层之间应用密集连接。全密度连接共享所有信息,但也增加了内存消耗在我们的工作中,我们以端到端的方式联合训练语义标记和深度估计,而无需复杂的预处理或后处理。我们还建议捕捉两个任务之间更好的协同表示此外,委员会认为,4J. Jiao,Y. Cao,Y.松河,巴西-地刘(a)(c)第(1)款(b)(d)(e)Fig. 1. 深度和语义标签上的长尾分布式数据集。垂直轴表示像素数。(a)显示了NYUD v2数据集[46]的深度值(水平轴,以米为单位)分布,以及(b)显示了KITTI数据集[7]的分布(c)给出了NYUD v2的语义标签分布(标签索引作为水平轴),而(d-e)是来自(c)中的800+个类别的映射的40[10]和4 [46]个类别在这些数据集中可以观察到不平衡的长尾分布,即使是只映射到四个类别的语义标签我们研究了现有数据集中的长尾数据分布,并提出了一种注意力驱动的损失,以更好地监督网络训练。3深度感知协同网络3.1深度感知物镜大多数最先进的单目深度估计方法利用CNN来实现准确的深度预测。在这些框架中,深度预测被公式化为回归问题,其中通常使用1或2损失来最小化基于训练数据的预测深度图在估计单目深度时,我们观察到长尾分布存在于室内(NYUD v2 [46])和室外(KITTI [7])深度数据集中。如图在图1(a)-(b)中,每个深度值的样本/像素的数量在特定深度之后急剧下降,其中仅小的深度范围支配大量像素。这种数据不平衡问题与对象检测[32,45]中的数据不平衡问题具有相似性,但本质上不同。这是因为成像过程中固有的透视效应的自然属性导致了深度像素分布的不均匀性,而这种不均匀性并不能通过简单地增加训练数据来消除。因此,使用像以前的工作一样平等对待所有像素的损失函数在这样的数据集上训练深度模型可能是有问题的。具有小深度像素看得更深5我λ−i,我我值可以容易地压倒训练,而具有大深度像素值的硬样本具有非常有限的贡献,导致模型倾向于预测较小的深度值。基于上述观察,我们建议引导网络在训练期间更多地关注远处的深度区域,并相应地自适应地调整反向传播流所提出的深度感知目标被公式化为:LDA=1ΣNNi=1(αD+λD)·(di,dGT),(1)其中i是像素索引,N是深度图中的像素的数量我和GT分 别 是预测的深度值和地面真值。(·)是距离度量可以是1、2等。αD是深度感知关注项,它引导网络更多地关注遥远的硬深度区域,以减少数据分布偏差。因此,反向传播期间的梯度相对于广阔的附近区域在少数远区域上权重更大。以这种方式,αD应该与深度正相关,并且可以被定义为相对于地面实况深度的线性函数。为了避免在训练开始时梯度消失并且避免切断对附近区域的学习,正则化项λD与注意力项一起被引入为:min(log(di),log(dGT))D= 1(2)max(log(di),log(dGT))其描述训练期间的学习状态如果网络在当前状态下预测像素i接近地面实况,则正则化项λD接近0.当网络不能准确预测该值时,λD接近1。因此,即使对于未准确预测的非常接近的(αD→0)区域,梯度仍然可以反向传播,这接近原始的损失函数。这样,Eq。2、确保训练过程的稳定性。我们的深度感知目标引导网络自适应地关注不同的区域,并自动调整每个训练样本的强度/注意力,从而确保模型的优化方向相对平衡。总之,虽然LDA保留了对附近像素样本的关注,但它使网络能够在训练期间将更多注意力放在远处的像素样本上3.2网络架构所提出的协同网络是多任务深度CNN,其主要由四个部分组成:深度预测子网络、语义标记子网络、知识共享单元/连接和注意力驱动损失。图1中示出了总体架构二、输入RGB图像通过骨干编码器(例如VGG [47],ResNet [14])将颜色空间转换为高维特征空间。在主干之后是两个子网络,从共享的高维特征重构深度和语义标签。这两个任务之间的知识共享是通过横向共享单元(LSU)来实现的,它被提出来自动学习传播流D6J. Jiao,Y. Cao,Y.松河,巴西-地刘半密集知识前推回损失连接共用通行证传播计算…深度共享主干横向共享单元共享单元…横向在tionSS输入RGB在…语义滕洛注意力引导图二. 建议的网络架构概述。单个RGB图像被馈送到共享骨干编码器网络(紫色),然后解耦到深度预测(灰色)和语义标记(粉红色)子网络。两个子网络之间的知识通过横向共享单元共享(图1中的3左)的推理和反向传播,连同内部共享的半密集向上跳跃连接(图3)。3右)。训练由注意力损失监督(第3.3节)。并在测试时产生最佳结构。此外,知识共享也进行内部在每个子网通过建议的半密集向上跳过连接(SUC)。最后,整个训练过程由注意力驱动的损失监督,该损失由所提出的深度感知和其他基于注意力的损失术语组成。横向共享单元。我们实证研究了不同的信息共享结构,结果表明,不同的多任务网络导致不同的性能和知识共享策略是很难调整手动。在我们的协同网络中,我们提出了一个双向的横向共享单元(LSU)自动学习的共享策略,在一个动态的路由方式。前向传递和反向传播都实现了信息共享在网络中的每两个上转换层之间,除了任务内传播之外,我们添加这样的LSU以共享来自其他任务的残余知识/表示不同于手工调整的结构,我们的LSU是能够获得额外的分数共享任务间和任务内层。具体地,LSU的结构如图所示3,它提供了两个任务之间的完全共享路由假设由当前上卷积层生成的特征图是D1和S1。则用于共享的特征表示可以形成为,.LSUD2=D 1+(D·D1 +S·S 1),(3)LSUS2= S1+(γD·D1+γS·S1)其中D、γD是特征D1的加权参数,S、γS是特征S1的加权参数。共享表示LSU_D2和LSU_S2被传播到随后的上卷积层。注意,LSU中的所有参数都是在训练期间学习的,索 贝 尔_h索贝尔_v索贝尔_h索贝尔_vSemFocal看得更深7ℏℏℏ12u使用比例的上采样nn×n卷积c/c图三. 左:在每两个连续的上卷积层D1和D2处的所提出的横向共享单元的结构,具有标识映射(黑色链路)。右:所提出的半密集上跳过连接的结构;虚线指示上跳过连接,其中运算符(具有卷积的双线性上采样)在右侧示出。输入,不含LSU,不含标识带LSU,带标识地面实况图4.第一章说明LSU的有效性所有深度图都具有相同的比例。导致每两个上转换层之间的动态共享路由虽然所有LSU共享相同的内部结构,但它们的参数不受约束,从而允许更灵活的共享。我们建议除了组合共享之外还添加身份映射。利用身份映射,任务内信息预处理被保存,避免了“预处理不存在”或故障污染的风险这种类似残差的结构(与残差共享相关联的恒等式连接[15])也有利于梯度的有效反向传播。此外,我们的LSU被应用在连续的up-conv层之间,而不是编码骨干。以这种方式,需要学习的组合参数和网络参数少得多。一个例子说明了我们的LSU的有效性如图所示4.第一章我们可以看到,当合并LSU时,语义被传播到深度,从而提高其准确性(右上角的橱柜)。而如果没有身份映射,则还可以通过语义传播(右下角的柜子)引入工件。利用同一性映射,可以实现更少的伪影和更高的准确性(第四列)。半密集向上跳跃连接。为了更好地执行任务内知识共享并保留长期记忆,我们在up-conv层之间引入了半密集向上跳跃连接(SUC),如图所示图2中详细描述3右。将f_in和f_out表示为解码器的输入和输出特征,每个上卷积层的输出特征表示为除了有ℏu3c/c'43ℏ上转换S1上转换D1上转换S1上转换D1上转换S2上转换D2宽×高×宽WW8J. Jiao,Y. Cao,Y.松河,巴西-地刘i,k为了从先前单个上转换层获得短期记忆,我们添加跳过连接以传播长期记忆。因此,我们的SUC被公式化为,Σnfut=(fin)+i=1(fi),(4)其中n是up-conv层的数量(在我们的工作中n= 4),并且表示向上调整大小操作,以便匹配最后一个up-conv层中的特征的大小。我们还尝试了特征的串联,其性能比求和稍我们的SUC在相邻的上卷积层之间以半密集方式执行,而不是在编码器中以全密集方式执行。通过这种方式,根据我们的实验,在不牺牲性能的情况下,在很大程度上减少了内存消耗此外,利用长短期连接,来自不同上卷积步骤的特征能够以从粗到细的多尺度方式融合,其结合了全局和局部信息。3.3注意力驱动损失深度感知损失。如第3.1节中所定义的,在训练期间,我们使用深度感知损失项(等式3.1)。1)监督深度预测任务。特别地,我们设置注意力项αD=dGTn,其中dGTn是归一化的地面实况深度(图2中的注意力引导)2)全范围内由于其鲁棒性,距离度量被设置为反向平滑L1范数[8,28]关节梯度损失。为了更好地保留局部结构和表面区域上的细节,我们提出对梯度设置约束,并引入梯度损失层,其中在水平(h)和垂直(v)方向上将内核设置为Sobel检测器1ΣN。...Lg(d,dGT)=. hdi− +。vdi−.(五)Ni ii=1此外,语义信息也被考虑作为联合梯度损失项,通过用语义分割结果s代替dGT为:然后将联合梯度损失项表示为LJG=Lg(d,dGT)+Lg(d,s)。语义焦点丢失。如图1(c-e),类别分布也属于长尾分布,甚至映射到数量少得多(例如40或4)的类别。这种不平衡的分布不仅影响语义标记任务,而且影响通过LSU和反向传播的深度预测。受针对对象检测提出的Focal Loss [32]的启发,我们建议引导网络更多地关注硬尾类别,并将损失项设置为,LsemF(l,lGT)=-1ΣNNΣKlGTαk(1−li,k)γlog(li,k), (6)i=1k =1看得更深9输入深度关注骨干关注语义关注图五、网络注意力可视化。给定输入RGB图像,网络的空间注意力被示出为对输入的覆盖。其中,是像素i处的标签预测,并且k是类别索引。αk和γ是调节注意力损失的平衡权重和聚焦参数上述损失项/层构成如图1中所示的所提出的注意力驱动损失。图2,其被定义为,L注意= LDA + LJG + LsemF。(七)3.4注意力可视化为了更好地说明所提出的注意力驱动损失,我们将网络的学习注意力可视化,即网络更关注哪个区域。在[54]之后,我们使用空间注意力图来显示网络注意力。网络对单目深度估计的注意力图如图所示。5(第二列)作为热图,其中红色表示高值。注意,这里的注意力地图与图1中的注意力引导不同。2,虽然它们具有相似的高级含义。这里,注意力图由来自第一向上转换层的特征激活的聚合来表示除了深度估计之外,还呈现了共享骨干和语义标记的注意力图,以彻底理解图中的网络注意力分布。五、从可视化中我们可以看到,当执行单目深度估计时,网络主要关注远距离区域。另一方面,共享骨干集中在远处区域周围的更大区域上,指示对整个场景的更一般的关注,同时仍然由距离驱动对于语义分类,由于存在自定义类别,某些“特定”类别也受到高度关注,例如:电视、书籍、书包等。上述注意力可视化结果提供了对网络焦点的更好理解,并验证了所提出的注意力驱动方法的机制。4实验在本节中,我们评估所提出的方法对单目深度估计,并比较国家的最先进的方法。语义标签的性能也显示了知识共享的好处。10J. Jiao,Y. Cao,Y.松河,巴西-地刘4.1实验装置数据集和评估指标。我们使用NYU Depth v2(NYUD 2)数据集[46]进行评估,该数据集由464个不同的室内场景组成,具有894个不同的对象类别(分布如图所示)。①的人。我们遵循标准的训练/测试分割,其中795对对齐(RGB,深度)对用于训练,654对用于测试,如[35,53,56]中所采用。此外,每个标准分割图像都被手动标注了语义标签。在我们的实验中,我们分别根据[46]和[10]将语义标签映射到4和40个类别 我们通过在ion([−5◦,+5◦])处的随机i n - p l an e rot对训练样本执行数据增强,translation,h或izo ntalf lips,col或(multiplywithRGB值∈ [0. 八,一。2]3)和对比度(乘以值∈ [0. 五二0])移位。我们使用以下指标定量评估单目深度预测的性能:平均绝对相对误差(rel)、平均log10误差(log 10)、均方根误差(rms)、rms(log)和阈值下的准确度(δ <1. 25i,i = 1, 2, 3),以下以前的作品[4,9,28,51]。实施详情。我们使用PyTorch [40]框架在单个NvidiaTesla K80 GPU上实现了我们提出的在我们的最终模型中,在ImageNet上预训练的ResNet-50 [14]被作为我们的共享骨干网络,通过删除最后的分类层。解码器层的结构按照最先进的设计[28,53]设置。深度解码器、语义解码器、SUC和LSU中的所有其他参数由[13]中的策略随机初始化并从头开始训练。我们使用Adam求解器[ 25 ]训练我们的模型,批量大小为12,参数为(β1,β2,)=(0. 九比零。999, 10- 8)。α、γ参考[32]设定。首先将图像下采样到一半大小,并裁剪无效边界,最后使用类似于以前作品的技术将图像上采样到原始大小[4,30,35]。我们首先冻结具有所有LSU的学习率为10- 3。然后冻结深度分支,训练其余分支,主干上的学习率为10−5,语义分支上的学习率为10−3。最后,整个模型进行端到端的训练,主干的初始学习率为10- 4,其他的为10- 2每20个epoch,学习率降低10倍4.2实验结果体系结构分析。我们首先比较网络架构的不同设置:仅深度分支 , 即 ResNet 与 up-convs; 与 SUC; 与 我 们 提 出 的深 度 感 知 损 失(LDA);添加有和没有LSU的语义分支。为了更好地说明所提出的知识共享策略的有效性,我们还包括CS结构[38](替代LSU)进行比较。我们最终的注意力驱动损失方法与这些基线进行了比较在该分析中,语义标签被映射到4个类别。比较结果如表1所示,其中我们可以看到,通过并入每个项,性能不断提高具体而言,在引入所提出的深度感知损失之后,所有度量中的性能都提高了一个看得更深11表1.体系结构分析结果显示在NYUD2数据集上,其中4个类别映射为语义标记任务。方法越低越好越高越好Table2. Anallyysisonrobustnesttodata“t a il”. 在NYUD2上生成具有4个类别映射的语义标签的文本。深度越低越好,深度越高越好。范围rellog10RMS均方根(对数)δ<1。25δ<1。252δ<1。253≤4m0.1050.0420.3000.1300.9080.9810.995≤6m0.1010.0410.3260.1270.9150.9830.996≤8m0.1000.0400.3260.1270.9150.9830.996所有0.1000.0400.3330.1270.9150.9830.996大利润。我们注意到,CS结构的好处表示共享,而我们的LSU表现稍好。语义标记任务的协同增强也对深度估计有很大好处。总而言之,注意力驱动的损失对性能的贡献最大,其次是语义标签的知识共享。Robustnessto“Tail“. 为了验证该方法对长尾数据的有效性,我们对长尾部分进行了烧蚀研究的数据。具体地,我们通过将相应的尾部每个切割2米(即,将测试数据的深度范围分成四个部分。、≤4m、6m、8m、10m)。然后,我们在这些深度范围上评估我们的方法,如表2所示。从表中我们可以看到,即使我们的注意力驱动损失也会监督网络更关注远处的深度,它在短尾数据上表现良好,并且在不同范围内保持一致,这表明所提出的注意力损失能够根据数据分布自适应地变化。此外,我们的方法也达到了最先进的水平,即使在附近的深度。与最新技术水平的比较。我们还比较了其他国家的最先进的方法与所提出的方法。这里我们直接使用报告的结果rellog10 RMS rms(log)δ <1。25δ <1。25 2δ<1。253深度0.1570.0620.6420.2080.7630.9430.985+SUC0.1470.0570.5720.1920.7970.9510.987+SUC+LDA0.1260.0500.4160.1540.8680.9730.993+SUC+LDA+sem.0.1120.0450.3670.1400.8960.9780.994+SUC+LDA+sem.+ CS0.1100.0440.3630.1380.8980.9790.995+SUC+LDA+sem.+ LSU0.1050.0420.3510.1330.9060.9800.995提出0.1000.0400.3330.1270.9150.9830.99612J. Jiao,Y. Cao,Y.松河,巴西-地刘表3. 与NYUD2数据集上的最新方法进行比较。最后两行分别示出了具有4个和40个语义类别的所提出的方法方法越低越好越高越好原始文件。NYUD2的比较结果如表3所示。对于我们的方法,我们考虑语义标记任务的两个共享设置:共享来自4个映射类别和40个映射类别的信息,如最后两行所示。从表3中的结果可以看出,我们的方法与其他最先进的方法相比表现良好。请注意,[19,39,51]还以联合预测的方式利用语义标记信息,其表现不如我们的。我们还包括一个最先进的方法[28],伴随着语义标记分支,以更好地理解语义助推器。对[28]的改进有利地验证了添加语义任务的有效性,而信息共享仍然是探索不足的。另一个观察是使用更多的类别有利于深度预测,因为它提供了场景中对象的更多语义信息。除了定量比较外,图中还给出了一些定性结果六、所有深度图都显示在与地面实况相同的范围内,以便更好地进行比较。如图所示,与其他方法相比,所提出的方法预测更准确的深度值例如,这些示例中的大深度(红色)区域以及最后一个示例中的壁区域此外,语义先验也有利于深度预测,例如,最后一个示例中的地垫应该具有与地板类似的深度。rellog10RMS rms(log)δ<1。25 δ<1。252δ<1。253Karsch等人 [21日]0.3490.1311.214-0.4470.7450.897Ladicky等人 [27日]----0.5420.8290.941Liu等人 [36个]0.3350.1271.06----Zhuo et al. [56个]0.3050.1221.04-0.5250.8380.962Li等人 [29日]0.2320.0940.821-0.6210.8860.968Liu等人 [34个]0.2300.0950.824-0.6140.8830.975Eigen等人 [五]《中国日报》0.215-0.9070.2850.6110.8870.971罗伊·托多罗维奇[43] 0.1870.0780.744----埃根·费格斯[4]0.158-0.6410.2140.7690.9500.988Laina等人 [28日]0.1270.0550.5730.1950.8110.9530.988Xu等人 [五十三]0.1210.0520.586-0.8110.9540.987Li等人 [30个]0.1430.0630.635-0.7880.9580.991Wang等人 [五十一]0.2200.0940.7450.2620.6050.8900.970Mousavian等人 [39]第三十九届0.200-0.8160.3140.5680.8560.956Jafari等人 [19个]0.1570.0680.6730.2160.7620.9480.988Laina等人 [28]+SEM。 0.1220.0520.5250.1840.8130.9580.989看得更深13[34]第三十四话:&[28]王(Wang)等. [51]第51话真相图六、NYUD2数据集的定性结果我们的方法预测更准确的深度相比,其他国家的最先进的方法,特别是在遥远的地区。深度图与地面实况在同一范围内。暖色表示深度大。表4.NYUD 2 -40上语义标签的评价方法输入图片。acc.平均acc. IOU简体中文[CN]RGB-D65.446.134.0埃根·费格斯[4]RGB-D65.645.134.1Mousavian等人 [39]第三十九届RGB68.652.339.2RefineNet [31]RGB73.658.946.53DGNN [41]RGB-D-55.743.1基线RGB69.050.539.9没有深度RGB75.755.748.9提出RGB81.162.250.9而不是漂浮。这再次验证了所提出的方法的有效性,该方法更侧重于硬距离深度和对象语义。语义标签。虽然语义标记任务被合并以执行知识共享并提升深度预测任务,但所提出的网络也推断出语义分割图这里,我们通过以百分比-年龄(%)为单位的三个度量来评估深度预测任务是否有 益 于 语 义 标 记 : 像 素 准 确 度 、 平 均 准 确 度 、 交 集 对 并 集(IoU)。我们将没有深度分支和LsemF的模型设置为基线,并将具有LsemF(没有深度)的模型设置为比较。其他语义分割方法也包括比较(与他们的报告性能)。具有映射的40个类别的NYUD2数据集的结果示于表4中。如表所示,我们的推断语义结果也达到了最先进的我们注意到,没有深度信息,我们的模型仍然可以执行14J. Jiao,Y. Cao,Y.松河,巴西-地刘输入我们GT输入我们GT图7.第一次会议。太阳的结果一些区域(白框)甚至难以捕获GT。[ 37 ][38][39]这在一定程度上验证了所提出的SUC和LsemF的有效性。我们还比较了[19,51],其将原始数据映射到5个类别,不同于标准的4个类别。在对他们的数据微调我们的4类模型后,我们在(pix.acc.,IoU),关于[51]中的(70.29,44.20)和[19]中的(73.04,54.27)。泛化分析除了NYUD2数据集之外,我们还进一步探索了我们的模型对其他室内和室外场景的泛化能力另一个室内数据集SUN-RGBD [ 48 ]的性能如图所示。7,其中我们的是由我们的原始模型预测的,而没有在SUN上进行微调。结果表明,即使SUN的数据分布不同于纽约大学,我们的模型可以预测合理的结果。对于室外场景,我们在KITTI数据集[7]的200个标准训练图像(具有稀疏深度和语义标签)上微调室内 性能为(RMSE,RMSElog,δ< 1。25,δ< 1。252,δ< 1。253)=(5.110,0.215,0.843,0.950,0.981),遵循[9,26]中的评估设置。我们还在Cityscapes数据集[2]上进行评估,遵循[23]中的设置。与[23]的(2.92,5.88)相比,转换视差的(平均误差, RMSE)为(2.11,4.92)上述评估表明,尽管分布和场景结构的差异,我们的模型被证明具有泛化能力的其他数据集。5结论我们已经引入了一种用于单目深度估计的注意力驱动学习方法,该方法还预测相应的准确语义标签。为了预测整个场景的准确深度信息,我们深入研究了场景的更深处,并提出了一种新的注意力驱动损失,以注意力驱动的方式监督训练。我们还提出了与LSU和SUC的共享策略,以更好地传播任务间和任务内的知识。NYUD2数据集上的实验结果表明,该方法对国家的最先进的表现良好,特别是在硬遥远的地区。我们还展示了我们的模型对其他数据集/场景的通用性致谢。这项工作得到了香港研究资助局的香港博士研究生奖学金计划(HKPFS)的部分支持。看得更深15引用1. 陈伟,傅志杨,D.,Deng,J.:在野外的单一图像深度感知在:NIPS(2016)32. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的cityscapes数据集在:CVPR(2016)143. 库普利角法拉贝特角Najman湖LeCun,Y.:使用深度信息的室内语义分割。arXiv预印本arXiv:1301.3572(2013)34. Eigen,D. Fergus,R.:预测深度、曲面法线和语义标签一种常见的多尺度卷积架构。In:ICCV(2015)2,3,10,12,13,145. Eigen,D. Puhrsch,C. Fergus,R.:使用多尺度深度网络从单个图像进行深度图预测。在:NIPS(2014)1,3,126. 加格河Carneiro,G. Reid,I.:用于单视图深度估计的无监督CNN:几何学拯救了我们。In:ECCV(2016)37. Geiger,A.,Lenz,P.乌尔塔松河:我们准备好自动驾驶了吗KittiVision基准套件。载于:CVPR(2012)4,148. Girshick,R.:快速R-CNN。In:ICCV(2015)89. 戈达尔角Mac Aodha,O.,Brostow,G.J.:具有左右一致性的无监督单眼深度估计。In:CVPR(2017)3,10,1410. 古普塔,S.,Arbelaez,P.,Malik,J.:rgb-d影像室内场景之知觉组织与辨识。在:CVPR(2013)4,10中11. 去吧S G i r s hi ck,R., Ar bela'ez,P., Malik,J. :从rgb-d图像中提取用于对象检测和分割的有效特征。In:ECCV(2014)2,312. Hane,C.Zach,C.,Cohen,A.,昂斯特河Pollefeys,M.:联合三维场景重建与类分割。在:CVPR(2013)313. 他,K.,张,X.,Ren,S.,孙杰:深入研究整流器:在imagenet分类上超越人类水平的性能。In:ICCV(2015)1014. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。In:CVPR(2016)5,1015. 他,K.,张,X.,Ren,S.,孙杰:深度剩余网络中的身份映射见:ECCV(2016)716. 他S焦,J.,张,X.,Han,G.,刘荣文:深入研究显着对象subitizing和检测。In:ICCV(2017)317. Hoiem,D.,埃夫罗斯,匿名戒酒会Hebert,M.:自动照片弹出。ACMTOG 24(3),577-584(2005)218. Huang,G.,刘志,范德马滕湖,Weinberger,K.Q.:密集连接的卷积网络。在:CVPR(2017)319. Jafari,O.H.,格罗斯岛Kirillov,A.,Yang,M.Y.,Rother,C.:分析用于联合深度预测和语义分割的模块化cnn架构In:ICRA(2017)3,12,1420. 焦,J.,Yang,Q.,他SGu,S.,张,L.,刘荣文:基于立体结构pca和噪声容忍代价的联合图像去噪和视差估计 IJCV 124(2),204- 222(2017)321. Karsch,K.,刘,C.,Kang,S.B.: 深度转移:使用非平面图像从视频中提取深度。IEEETPAMI36(11),214422. Kendall,A.,Gal,Y.:贝叶斯深度学习在计算机视觉中需要哪些不确定性在:NIPS(2017)316J. Jiao,Y. Cao,Y.松河,巴西-地刘23. Kendall,A.,Gal,Y.,Cipolla,R.:多任务学习使用不确定性来权衡场景几何和语义的损失。In:CVPR(2018)3,1424. Kim,S.,Park,K.,Sohn,K.,Lin,S.:通过联合卷积神经场从单个图像进行统一的深度预测和固有图像分解。In:ECCV(2016)325. Kingma,D. Ba,J.:Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980(2014)1026. Kuznietsov,Y., Stu¨ckler,J., Leibe,B. Semi-suppervi isedde eplearning用于单个深度图预测。In:CVPR(2017)3,1427. 拉迪基湖施,J.,Pollefeys,M.:把事情扯远。见:CVPR(2014)3,1228. 莱娜岛鲁普雷希特角Belagiannis,V.,Tombari,F.,Navab,N.:使用全卷积残差网络进行更深的深度预测。In:3D Vision(3DV)(2016)3,8,10,1229. 李,B.,Shen,C.,戴,Y.,van den Hengel,A.,He,M.:利用深度特征回归和分层crfs从单目图像进行深度和表面法线见:CVPR(2015)3,1230. 李杰,克莱因河Yao,A.:一种用于从单个rgb图像估计精细缩放深度图的双流网络In:ICCV(2017)3,10,1231. 林,G.,Milan,A. Shen,C.,Reid,I.:Refinenet:用于高分辨率语义分割的多路径细化网络。在:CVPR(2017)1332. 林,T. 是的, 再见,P., Gir shi ck,R., He,K., 我会的,P。:用于检测阻塞的频率损失。In:ICCV(2017)4,8,1033. 刘,B.,Gould,S.,Koller,D.:根据预测的语义标签进行单图像深度估计。In:CVPR(2010)334. 刘芳,Shen,C.,Lin,G.:用于从单个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功