没有合适的资源?快使用搜索试试~ 我知道了~
8618移动室内:嵌入式环境下的无监督视频深度学习周俊生1,*,王玉旺2,秦开怀1,曾文军21清华大学,北京,中国网址:zhoujs17@mails.tsinghua.edu.cn,qkh-dcs@mail.tsinghua.edu.cn2中国北京微软研究院yuwwan,wezeng@microsoft.com摘要最近,视频深度的无监督学习取得了显着进展,其结果与KITTI等户外场景中的完全监督方法相当。然而,当在室内环境中直接应用该技术时,仍然存在很大的挑战大面积的非纹理区域,如白墙、手持相机的更复杂的自我运动、透明眼镜和闪亮物体。为了克服这些问题,我们提出了一种新的基于光流的训练模式,通过提供更清晰的训练目标和处理非纹理区域来降低无监督学习的难度我们的实验评估表明,我们的方法的结果是据我们所知,这是在室内数据集上报道的纯无监督学习方法的第一个定量结果。1. 介绍从RGB图像重建场景结构一直是一个热门的研究课题。深度估计是场景重建的重要步骤由于我们对物体的大小和布局有先验知识,所以人类很容易从RGB图像中感知场景的深度,但由于计算机难以从单个图像中估计精确的深度图,to scale规模ambiguity模糊.经典的方法,如运动恢复结构和立体匹配[14,18]被提出并获得了合理的结果。近年来,由于深度学习的兴起,卷积神经网络被引入到从单目RGB图像预测深度,*在MSRA实习。强大的特征提取能力,这导致了该领域的巨大进步。这些方法[31,11,10]将神经网络视为具有强拟合能力的黑盒,并使用收集的地面实况注释来监督训练。然而,这些完全监督的方法受到训练样本的巨大需求的限制。最近,无监督深度学习[48,17,47]被提出并引起了越来越多的兴趣。这种方法类似于传统的运动恢复结构,利用视频中包含的视差信息来监督网络其核心思想是基于同时估计的场景深度和摄像机自运动的新的视图合成合成视图与真实视图之间的外观差异被用作整个训练管道的超分辨率信号。这些非监督的方法不需要地面实况注释,并在KITTI和Cityscapes等驾驶场景上取得了显着的效果然而,直接将该技术应用于室内环境仍然存在很大的挑战。在我们的实验中,我们观察到相同的模型和相同的训练设置,能够在KITTI上实现最先进的性能,在室内数据集NYU V2[39]和Scannet [8]上训练时很快就会崩溃。原因是室内环境比城市驾驶场景更复杂主要问题可归纳如下:1) 大面积的非纹理区域。与每个像素都具有地面实况超视的完全监督方法不同,无监督学习的监督信号仅来自图像本身之间的外观差异非纹理区域严重阻碍了训练,因为在这些区域中,光度损失总是接近于零。然而,我们观察到,在室内数据集中,有相当数量的图像具有超过50%的非纹理区域。白色的墙壁和地毯8619非常常见的非纹理对象。2) 手持相机的更复杂的自我运动。通常室内数据集由手持相机收集,这意味着连续帧的自我运动比汽车主要只是向前移动的驾驶场景更复杂特别是,我们不能从理论上推断场景的深度纯旋转序列。大量纯旋转训练样本的存在会使整个训练过程不堪重负。这些表明,现有的培训渠道需要 to be remodified修改to be applied应用in more general一般scenes场景.在本文中,我们提出了一种新的基于光流的训练范式,它集中在最重要的部分,即,无监督深度学习的监督信号。这种新的流水线使用由流估计网络生成的光流结果作为监督,并且训练更容易收敛。其关键部分是一个专门设计的网络,负责以稀疏到密集的传播方式估计连续帧之间的光流。这种无监督的光流网络能够处理非纹理区域,并产生合理的光流结果。然后,该网络可以用作同时训练DepthNet和PoseNet的教师。我们还改进了现有的PoseNet,使其更容易学习手持摄像机时代的复杂自我运动。我们对NYU Depth V2基准测试的评估表明,我们的方法的结果与完全监督的方法相当。2. 相关工作监督深度估计从单个图像估计深度已经研究了很长时间。最近由于深度学习的成功[27,28],已经提出了许多用于深度估计的网络[11,10,29,31,13,24]。Eigen等人[11]应用多尺度网络,首先通过粗尺度网络估计粗深度,然后通过另一个网络对其进行细化。CRF也被引入到这项任务中,并用作模型中的后处理模块[45]。Fu等[13]将深度估计视为分类问题而不是回归问题。所有这些方法都具有强大的能力,并且在室内数据集(如NYU V2 [39],Scannet [8])和室外数据集(如KITTI [15],Make3D [37,38])上都具有非常好的然而,这些方法依赖于带有深度标签的大规模数据集。无监督深度学习为了摆脱地面实况深度注释,无监督深度学习-已经提出了一些方法。这些方法利用立体图像[17,46]或视频[48,47]作为训练数据。Godard等人[17]首先提出使用立体图像的左右一致性来训练深度估计网络。Zhou等人[48]应用了两个网络,估计摄像机的深度和自我运动,以从视频中学习深度。Wang等人[42]放弃了姿势网络,直接通过视觉odom-mapping方法计算姿势。Casser等人[3]利用额外的实例分割掩码对动态对象进行建模。这些方法在户外 场 景 中 取 得 了 巨 大 的 成 功 , 如 KITTI [15] 和CityScapes [7]。然而,这些工作中只有一部分展示了使用KITTI训练的网络对室内场景的样本预测结果,并且没有典型室内数据集的定量结果报道。在我们的实验中,当直接使用以前的方法在室内场景上训练时,我们也面临着很大的挑战。基于与无监督深度学习相同的光度监督信号,无监督光流学习方法具有也被提出。Yu et al. [21] and Ren et al.[34]提出了基于FlowNet [19]的无监督光流学习架构。Meister等人[33]提出了一个双向普查损失来处理闭塞/不闭塞。尽管这些方法在合成数据集上表现良好,但非纹理区域、动态对象和遮挡仍然是 我们新的流动网络是不同的-ent从以前的架构,它利用稀疏流种子产生的传统特征匹配方法,并逐步传播到整个图像。非纹理区域的处理,很好地通过这种手段。3. 方法3.1. 整体管道如图1(a)所示,以前的无监督深度学习管道一般由两个模块组成:Depth- Net和PoseNet。在训练期间,两个网络同时估计场景的深度和相机的自我运动。一旦RGB图像的深度图被估计,我们就可以将图像平面上的像素反投影到具有已知相机内禀的3D坐标然后,利用估计的运动,可以将3D点云变换为另一视图。该视图转换可以公式化为如下:ps→−t=KTt→−sDt(pt)K−1pt(1)其中K表示摄像机固有,Tt→−s表示从视图t到视图s的估计变换矩阵,Dt表示估计的深度,pt和ps→-t分别表示视图t和视图s中的像素的均匀坐标。活泼地然后我们可以得到从视图t到视图s的二维刚性流:ft→−s(pt)=ps→−t−pt(2)一旦估计了两个视图之间的刚性流,我们就可以通过可微分的逆合成图像Is→−tarp-8620t→−s深度网目标视图源视图比较深度目标视图源视图逆翘曲合成目标视图目标视图���������������→���−������������������→���+���(6自由度)刚性流动监控信号PoseNet深度网(目标视图深度比较���������������→���−������������������→���+���(6自由度)SF-Net目标视图源视图刚性流光流监控信号PoseNet光流(图1.以前的管道(a)和我们的管道(b)概述。以前的流水线监控信号是基于两幅图像的外观匹配,这是不稳定的,遭受非纹理区域。我们使用我们的流量估计网络SF-Net生成的光流结果作为监督,并修改PoseNet的输入。[20]从源代码视图。合成图像Is→-t与真实图像It之间的外观差异为:作为整个管道的监控信号。如图1(a)中的红色框所示,基于合成图像和真实图像计算的这相当于在源视图中为目标视图中的每个像素找到最佳匹配点,这与立体匹配类似。一旦刚性流被完美地预测,则合成图像完全匹配真实图像(如果没有遮挡和动态对象)。然而,这种基于外观的监督信号是间接的,并且对非纹理区域敏感。更具体地,对于每个像素,不存在它应该在另一视图中匹配的明确目标位置该代理对象的优化目标就是最小化两幅图像之间的外观差异。这种模式很难操作基于联合估计的深度和姿态的刚性流2) 使用刚性流来合成新图像并计算损失(对应于图1(a)中的左和右部分)。目标函数可以简单地写为:L=|It−Is→−t|(三)其中It表示ta r get vi e w图像,Is→−t表示合成图像。我们的主要贡献是,代替使用这种间接代理监督,我们提供了一个显式的光流目标来监督估计的刚性流,如图1(b)所示光流目标通过稀疏到密集的流估计网络(以下称为SF-Net)获得,其将在下一小节中因此,目标函数被修改为:室内环境,因为有很多非纹理的东西L=|F(p)−f′(p)|(四)在我们的日常场景中,外观差异是所有-t→−s不t→−s不方法接近于零,这不能提供有效和强大的其中f′表示来自SF的光流结果训练的信号为了克服这个问题,我们首先回顾整个管道。它可以分为两个阶段:1)组成Net.这种修改是重要的,因为它将无监督学习转变为“完全监督”学习,降低了训练的难度。”这句话,充分体现了--8621i、j(a) 输入图像之一(d)1K次迭代(b) 稀疏种子(e) 40K次迭代(c)异常值(f) 40万次迭代预测相反。为了克服这个问题,我们提出了一种主动传播方法。而不是只使用弱平滑约束,我们积极传播稀疏的初始种子在纹理区域到整个图像,如图2所示。关键思想是我们不需要从头开始生成密集流图,因为我们可以利用传统的特征匹配算法(如SURF [1])来生成稀疏对应点。相应点的位移(图2(b))被视为初始流种子,并传播到整个区域。此外,网络能够抑制失配图2.我们的SF-Net插图。 (a)输入图像之一。(b)第(1)款由SURF生成的稀疏种子[1]。稀疏点的大小已被放大,以更好地可视化。(c)(b)中的绿色框,表示稀疏种子中的离群值(蓝色点)。(d)(e)(f)不同阶段的训练样本的可视化我们的SF-Net以稀疏到稠密的传播方式工作,该方式将稀疏流从纹理区域渐进地传播到非纹理区域。在训练过程中,离群值引起的负面影响也被抑制。“监督的”在这里仅意味着更明确的监督信号,而该信号仍然是无监督地获得的。光度量损失不能惩罚非纹理区域中的不正确预测,即,监控信号在这些区域中失效相比之下,SF-Net产生的光流为每个像素提供了唯一的目标,这是一个非常强的监控信号。实验结果表明,这种新的流水线能够处理大面积非纹理区域的室内环境,并获得合理的结果。3.2. SF网存在于训练过程中的相应点。以这种方式,也可以在非纹理区域的内部生成合理的结果。在传播方法上,我们采用了Cheng等人提出的CSPN结构。[5,6]因为它的功效。该方法将中心像素的信息以卷积的形式迭代地扩散到它的八个邻域。我们的自适应网络是一个非常简单和常见的编码器-解码器架构,它将堆叠的RGB图像和稀疏种子作为输入,并输出两个重新编码的图像。结果:一个是粗略光流F0,另一个是具有k2−1个通道的变换k内核Ki,j,其中k表示内核大小。然后,粗略光流是如[5,6]中迭代地细化:(k−1)/2Fi,j,t+1=Ki,j(a,b)<$Fi−a,j−b,t(5)a,b=−(k−1)/2其中,n表示逐元素乘积,并且:Ki,j(a,b)这种新的训练模式的核心是SF- Net的一部分在介绍SF-Net之前,我们首先解释Ki,j(a,b)=ka、b/=0|Kˆi、j(六)(a、b)|无监督光流学习的原理其核心思想是新颖的视图合成,这与无监督的深度学习相同。该网络预测了一个流图,Ki,jΣ(0, 0)=1− Ka、b/=0i、j(a、b)(7)目标视图中的图像It,并使用该密集流通过以下方式合成图像Is→−t:源视图。然后,在每个传播操作之前,我们固定稀疏种子为了保证我们的传播流在稀疏流图中的那些有效像素处具有完全相同的值合成图像Is→-t和真实tar get图像It被用作用于训练的监督信号。Fi,j,t+1=(1−mi、j)Fi,j,t+1+mi,jsi,j(八)然而,由于无监督深度学习和其中,Fs表示具有空位置的稀疏流光流学习利用相同的代理监督信号,但是它们也遭受相同的问题。以往的流量预测方法通常对流量的平滑性施加约束.这是因为网络很容易在角点和边界等纹理区域产生正确的结果,我们希望这个正确的预测可以指导它的预测不正确的邻域。但是在非纹理区域覆盖大面积的室内环境中,正确的预测可能会被不正确的预测所淹没。填充为零,mi,j是在(i,j)处稀疏流的可用性的指示符。在我们的训练设置中,内核大小k设置为3,迭代的最大步数为16。3.3. PoseNetPoseNet也是无监督深度学习管道的重要组成部分,这是深度学习在视觉里程计中的应用,负责估计6个自由度(DoF)中的姿势,F8622两个图像。在像KITTI这样的驾驶场景中,姿势相当简单,大多数图像中的汽车只是向前行驶。但在室内环境中,图像通常由手持摄像机收集,这意味着更复杂的自我运动,并增加了PoseNet学习的难度也 有 一 些 方 法 被 提 出 来 摆 脱 PoseNet 。 例 如 ,Mahjourian et al.[32]使用迭代最近点(ICP)[2,4,36]来计算最小化对应点之间的点到点距离的变换。Wang等人[42]使用直接视觉里程计(DVO)[40]从预测的深度和图像中获得相机姿态但在我们的实验中,这些无网络方法在室内数据集上的训练过程中崩溃了,因为它们依赖于良好的初始深度和低噪声水平崩溃意味着所有深度的预测都收敛到一个恒定值。姿态的估计也可以被认为是一个透视n点(PNP)的问题,因为我们预测的深度和密集匹配的同时。我们试图在GPU上实现EPNP [25]算法,以直接从预测的深度和实时流计算相机姿势,但训练再次崩溃这些试验表明,PoseNet的使用是必要的,因为PoseNet的预测是基于整个数据集的统计,它不太可能被个别训练样本所主导因此,我们重新思考PoseNet的工作原理。这个黑盒如何从堆叠的RGB图像中估计姿势?一个合理的推测是,它首先在两个图像内部找到对应点,并从对应点的位移推断出姿态。首先过滤出纯旋转的训练样本。可以导出,具有纯旋转的对应点之间的关系可以通过单应矩阵H来拟合:H=KRK−1(9)其中,K表示摄像机固有,R表示旋转矩阵。因此,对于每个图像对,我们使用SF-Net生成的稠密光流来使用RANSAC计算其单应矩阵[12]。 如果离群值的比率低于预设阈值(在我们的设置中为20%,这意味着超过80%的像素可以由单应矩阵拟合),则我们将该图像对的姿态视为纯旋转并将其丢弃。在这个过滤过程之后,NYU V2中大约30%的图像被丢弃。3.5. 损失函数3.5.1SF-网的损失函数对于SF-Net的训练,我们使用光度损失和平滑损失。光度损失该损失函数计算两个图像之间的表观差异。我们采用与[17]相同的设置,结合L1损失和结构相似性(SSIM)[44]。此外,还采用了[16]提出的每像素最小技巧,旨在处理遮挡/解除遮挡。它可以写为:Σ根据未知的规则。然而,PoseNet不需要再次匹配像素,因为我们都...准备好光流结果,即,密集匹配。Lph=min(αSSIM(It,Is→−t)+(1−α)|It(p)−Is→−t(p)|)sp(十)因此,我们建议使用SF-Net产生的流结果作为PoseNet的输入,而不是RGB图像。该修改等效于将无监督姿态估计分成两个阶段:首先估计两个帧之间的光流,然后推断其中,p是像素坐标上的索引,s表示索引对于源视图,α设置为0.5。平滑度损失虽然SF-Net采用稀疏到密集的训练方案,但我们也使用边缘感知的流平滑度损失来抑制初始种子中的失配基于流量的姿势。如果存在地面真值标签,则不需要进行这种分离。但它增强了PoseNet的可解释性,降低了L平滑=Σ|(p)|·p.ΣTe −|I(p)|(十一)无监督学习第4.2节中报告的实验结果的显著改善也支持了我们的推测。3.4.纯旋转还有一个不容忽视的问题:纯旋转这个问题在驾驶场景中不存在,因为先前的方法通常在预处理期间去除静态帧,但是在室内数据集中是常见的。理论上,纯旋转图像对不包含深度信息,对训练是有害的。至关重要其中,T是向量微分算子,T表示图像梯度加权的转置。因此,SF-Net的总损失为:L=λ1Lph+λ2L光滑(12)3.5.2DepthNet和PoseNet对于DepthNet和PoseNet的训练,损失函数由四项组成。8623t→−s输入土工网我们GT图3. GeoNet [47]之间的定性比较,我们和地面实况深度。我们直接使用GeoNet的原始代码,它能够在KITTI上实现最先进的性能,但在NYU V2上训练时崩溃[39]。误差度量方法监督δ<1。25δ<1。252δ<1。253rellog10RMSMake3D [38]C0.4470.7450.8970.349-1.214深度转移[22]C---0.350.1311.2Liu等人[三十一]C---0.3350.1271.06Ladicky等人[23日]C0.5420.8290.941---Li等人[26日]C0.6210.8860.9680.2320.0940.821Wang等人[四十三]C0.6050.8900.9700.220-0.824Roy等人[35]第三十五届C---0.187-0.744Liu等人[30个]C0.6500.9060.9760.2130.0870.759Li等人[29日]C0.7880.9580.9910.1430.0630.635MS-CRF [45]C0.8110.9540.9870.1210.0520.586DORN [13]C0.8280.9650.9920.1150.0510.509我们的(基线†)×0.5110.7790.9040.3310.1271.000我们×0.6740.9000.9680.2080.0860.712表1.与NYU V2上现有方法的比较[39]。†表示在训练过程中崩溃的模型。由于我们采用了[42]提出的尺度归一化来避免深度收缩,因此当模型崩溃时,所有预测都被归一化为1米。表中的所有其他方法都由深度注释完全监督。刚性流损失这个术语直接使用SF-Net产生的光流结果作为合成大小的刚性流的监督 我们使用berHu [24]norm||·||δ测量Lflow=||ft→−s(pt)−f′(pt)||δ(13)偏差:另外两项Ls深度和Ls法线是光滑的-性约束,并且类似于等式11。但它们被施加在预测的深度和相应的法线上8624过滤准确度度量误差度量方法监督纯轮换D1D2D3rellog10 rms深度网络+R-PoseNet†RGB ×0.511 0.779 0.904 0.3310.127 1.000深度网络+R-PoseNet†RGBC0.511 0.779 0.904 0.3310.127 1.000深度网络+F-PoseNet†流量(无传播)×0.511 0.779 0.904 0.3310.127 1.000深度网络+F-PoseNet流量(无传播)C0.596 0.862 0.951 0.2570.102 0.841深度网络+R-PoseNet流量(w/传播)C0.578 0.836 0.938 0.2730.108 0.910深度网络+F-PoseNet流量(w/传播)C0.674 0.900 0.968 0.2080.086 0.712表2.对NYU V2测试拆分的每个组件进行评估†表示在训练过程中崩溃的模型R-PoseNet表示具有RGB图像输入的PoseNet,F-PoseNet表示具有流输入的PoseNet δ <1。25,δ <1。252,δ <1。253由于篇幅限制,简写精度误差方法 w/o传播 带传播PWC-Net我国(基线)我们的(F-Sup)K0.8370.136 1.110 5.327我们的(F-PoseNet)K 0.8360.130 1.001 5.294表3.在Scannet和KITTI数据集上进行深度评估。K:KITTI,S:Scannet,†:collapse,F-sup:flowsupervision。(a)(b)第(1)款(c)(d)图4. (a)具有大面积非纹理区域的典型图像。(b)GT流。(c)无传播的流动。(d)流动与传播。以前的无监督流学习方法只对非纹理区域施加平滑度约束,这些区域倾向于将这些区域视为静态((c)中的红色圆圈)。这是根据深度计算的。最后一项Lph与公式10相同。因此,深度网和波塞网的总损失是L=λ1L流量+λ2Lph+λ3Ls深度+λ4Ls正常(14)传播的结果与PWC-Net得到的监督结果接近。4. 实验4.1. NYU V2数据集NYU Depth v2数据集包含582个使用微软Kinect相机拍摄的室内视频场景,训练分割包含283个场景(约230K图像)。为了训练DepthNet和PoseNet,我们首先使用第3.4节中提到的方法过滤掉纯旋转的图像对。大约30%的图像被丢弃,最后我们使用大约180K的图像进行训练。我们将三种网络的训练图像序列的长度固定为3帧,并将中心帧作为目标视图,±10帧作为源视图。我们只使用原始RGB图像序列进行训练,图像大小调整为192×256。可视化见图3,定量评价见表1。基线模式仅由具有RGB图像输入的DepthNet和PoseNet组成,并且不使用流作为监督。4.2. 消融研究在本小节中,我们分别评估了管道中四个组件的影响:1)流程监管。2)纯旋转的过滤。3)SF-Net的传播设计。4)PoseNet的输入如表2所示,第3、6行和第4、5行的结果表明,为了摆脱崩溃现象,纯旋转的流量监督和过滤是必不可少的。仿真结果还表明,F-PoseNet和SF-Net的传播都显著提高了性能。没有传播的结果意味着SF-Net将RGB图像作为输入,仅输出光流,方法数据集D1rel平方相对均方根EPE7.4093.6023.279我们的(基线)†S0.6310.190 0.570表4. 平均端点误差(EPE)流结果在纽约大学vali-我们的(F-PoseNet)†S0.6310.190 0.570dation分裂PWC-Net的结果直接由PWC生成我们的(F-Sup+R-PoseNet)S0.6820.206 0.134 0.491[41]第41话:我是一个很好的人,我是一个很好的人。我们的(F-Sup+F-S0.7100.190 0.124 0.465在纽约大学V2上做微调SF-Net得到的结果,8625之一输入图像稀疏种子预测流GT*图5.SF-Net在NYU V2上生成的结果的可视化NYU深度数据集不包含光流注释。* 是指通过第4.2节中提到的方法,用地面实况深度计算水流结果。我们的SF-Net很好地处理了非纹理区域(绿色圆圈)。稀疏点的大小已被放大,以更好地可视化。网络中的其他部分保持不变。NYU深度数据集不包含光流注释。但我们可以从地面实况深度计算出刚性流。我们首先使用EPNP [25]算法来解决具有深度注释和稀疏匹配的两个图像之间的姿态。稀疏匹配也是由SURF [1]得到的。然后,估计的姿态和地面实况深度可以用于组成刚性流。我们认为这些估计的刚性流地面实况流标签。为了定量评估SF-Net的性能,我们随机选择1000个图像对作为验证集,并在训练过程中排除它们定量结果见表4,定性比较见图4。在稀疏种子传播的帮助下,SF-Net很好地处理了非纹理区域,并取得了相当好的结果,如图5所示。4.3. Scannet和KITTI的评价如表3所示,我们还在Scannet和KITTI数据集上评估了我们的方法。由于Scannet是一个大型数据集,为了提高效率,我们在Scan-net的一个子集上训练和测试我们的模型,该子集包含40个场景和大约70 K个图像。流量监控是为了解决室内场景中的非纹理问题而提出在KITTI上应用时,流量的准确性成为瓶颈。然而,F-PoseNet仍然有收益。5. 结论在本文中,我们提出了一种新的无监督深度学习框架,它降低了网络学习的难度,并且能够在室内工作我们还提出了一个稀疏到密集的无监督流量估计网络,解决了棘手的非纹理区域问题。更重要的是,我们的方法的结果表明,无监督深度学习技术不仅能够在驾驶场景中工作,而且有能力应用于更一般的场景。这是探索互联网上无数视频用于深度学习训练的重要限制虽然我们的方法能够处理对于非纹理区域,在大多数情况下,它依赖于稀疏种子的传播。在非纹理区域非常大且识别出的纹理区域的某些特殊情况下,响应的关键点非常稀疏,我们的模型很难预测正确的结果。此外,所产生的流动通常具有模糊的边界。当这些模糊流用于监督深度网络的训练时,获得的深度图具有更模糊的边界。这也限制了我们模型的性能。我们将在今后的工作中解决这些问题。8626引用[1] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf:加速健壮的功能。在欧洲计算机视觉会议上,第404-417页Springer,2006年。[2] Paul J Besl和Neil D McKay。三维形状配准方法。在Sensor Fusion IV 中 : Control Paradigms and DataStructures,第1611卷,第586-607页。国际光学与光子学学会,1992年。[3] Vincent Casser、Soeren Pik、Reza Mahjourian和AneliaAngelova。深度和自我运动的无监督学习:结构化的方法。第三十三届AAAI人工智能会议(AAAI-19),2019。[4] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算,10(3):145[5] Xinjing Cheng,Peng Wang,and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计在欧洲计算机视觉会议上,第108-125页。Springer,Cham,2018.[6] Xinjing Cheng,Peng Wang,and Ruigang Yang.使用卷积空间传播网络学习深度2018年。[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,第3213-3223页[8] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页[9] A. Dos o vitski yP. Fische r,E. Ilg,P. Hausse r,C.Hazırba s.,V. Golkov,P. v.d. Smagt,D. Cremers和T.布洛 克 斯 Flownet : 使 用 卷 积 网 络 学 习 光 流 。IEEEInternationalConferenceonComputerVision(ICCV),2015年。[10] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV,2015年。[11] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS,2014。[12] Martin A Fischler和Robert C Bolles。随机样本一致性:一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM,24(6):381[13] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR,2018年。[14] 你也叫Furuk aw a,CarlosHern a'ndez等。多视图立体声 : 教 程 。 Foundations and Trends® in ComputerGraphics and Vision,9(1-2):1[15] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。CVPR,2012。[16] C le mentGodard , OisinMacAodha , andGabrielBrostow.深入研 究自我监督的 单目深度估 计。arXiv预印本arXiv:1806.01260,2018。[17] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR,2017年。[18] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。[19] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.Flownet2.0:深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议上,第2462-2470页,2017年[20] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。2015年,在NIPS[21] J Yu Jason , Adam W Harley , and Konstantinos GDerpanis.回到基础:通过亮度恒定性和运动平滑性的光流的无监督学习。欧洲计算机视觉会议,第3施普林格,2016年。[22] Kevin Karsch,Ce Liu,and Sing Bing Kang.深度转移:使用非参数采样从视频中提取深度。PAMI,2014年。[23] Lubor Ladicky,Jianbo Shi,and Marc Pollefeys.把事情扯远。CVPR,2014。[24] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3D Vision(3DV),2016年。[25] Vincent Lepetit , Francesc Moreno-Noguer , and PascalFua. Epnp:pnp问题的精确O(n)解。国际计算机视觉杂志,81(2):155,2009。[26] 李波,沈春华,戴玉超,安东范登亨格尔,何明义。基于深度特征回归和分层crfs的单目图像深度和表面法线估计。在IEEE计算机视觉和模式识别会议论文集,第1119- 1127页[27] Hongyang Li,Bo Dai,Shaoshuai Shi,Wanli Ouyang,and Xiaogang Wang.用于目标检测的特征缠绕器。2019年,在ICLR[28] Hongyang Li , David Eigen , Samuel Dodge , MattZeiler,and Xiaogang Wang.用类别训练法寻找小样本学习的任务相关特征。在CVPR,2019年。[29] 李俊,莱因哈德·克莱恩,姚安琪。一种用于从单个rgb图像估计精细缩放深度图的双流网络。在IEEE计算机视觉国际会议论文集,第3372-3380页[30] Fayao Liu,Chunhua Shen,Guosheng Lin,and Ian Reid.使用 深度 卷积神 经场 从单目 图像 学习深 度。IEEEtransactionsonpatternanalysisandmachineintelligence,38(10):2024[31] Miaomiao Liu,Mathieu Salzmann,and Xuming He.从单个图像进行离散-连续深度估计。CVPR,2014。[32] Reza Mahjourian,Martin Wicke,and Anelia Angelova.基于3d几何约束的单眼视频深度和自我运动的无监督学习。在CVPR,2018年。[33] Simon Meister,Junhwa Hur,and Stefan Roth. Unflow:具有双向中心的8627sus损失。2018年第32届AAAI人工智能[34] Zhe Ren,Junchi Yan,Bingbing Ni,Bin Liu,XiaokangYang,and Hongyuan Zha.用于光流估计的无监督深度学习。在2017年第31届AAAI商业智能会议[35] Anirban Roy和Sinisa Todorovic使用神经回归森林进行单目深度估计。在IEEE计算机视觉和模式识别会议论文集 ( Proceedings of the IEEE conference on computervision and pattern recognition),第5506-5514页[36] Szymon Rusinkiewicz和Marc Levoy。icp算法的有效变体在3dim,第145页。IEEE,2001年。[37] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度。在NIPS,2006年。[38] Ashutosh Saxena,Min Sun和Andrew Y Ng。Make3d:从单个静态图像学习3D场景结构PAMI,2009年。[39] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议,第746-760页。Springer,2012.[40] FrankSteinb ruck e r,J ur genSturm,andDanielCremers.基于密集rgb-d图像的实时视觉里程计2011年IEEE计算机视觉工作室国际会议(ICCV Workshops),第719-722页IEEE,2011年。[41] 孙德清、杨晓东、刘明宇和Jan Kautz。PWC-Net:使用金字塔,扭曲和成本体积的光流CNN。2018年。[42] Chaoyang Wang,Jose 'Miguel Buenaposada,Rui Zhu,and Simon Lucey.使用直接方法从单眼视频学习深度。在CVPR,2018年。[43] Peng Wang , Xiaohui Shen , Zhe Lin , Scott Cohen ,Brian Price,and Alan L Yuille.从单个图像实现统一的深度和在Proceedings of the IEEE Conference on ComputerVision and Pattern Appraisition,第2800-2809页[44] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and EeroP Simoncelli.图像质量评估:从错误可见性到结构相似性。TIP,2004年。[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功