没有合适的资源?快使用搜索试试~ 我知道了~
MannequinChallenge中的移动人与相机的深度预测方法
4521火车推理MannequinChallenge(MC)数据集静态场景,移动摄像机MVS深度(supervison)移动的人,移动的相机人类遮罩初始深度从流RGB图像预测深度深度预测通过观看冻结的人来学习移动人的深度李正奇李塔利德克尔福雷斯特科尔理查德塔克诺亚斯内夫利刘策威廉T。弗里曼Google Research图1.我们的模型预测了当普通相机和场景中的人都自由移动时的密集深度(右)。我们培养我们的模特在我们新的人体模型挑战赛网上收集了人们模仿人体模型的互联网视频,即,在不同的,自然的姿势冻结,而相机旅游的场景(左)。因为人是静止的,几何约束成立;这允许我们使用多视图立体来估计在训练期间用作监督的深度。2摘要我们提出了一种用于预测场景中的密集深度的方法,其中场景中的单目相机和人都自由移动。用于从单目视频恢复动态非刚性对象的深度的现有方法在本文中,我们采用数据驱动的方法,并从新的数据源中学习人类深度先验:数以千计的互联网视频的人模仿人体模型,即,在不同的,自然的姿势冻结,而手持相机旅游的场景。因为人是静止的,所以可以使用多视图立体重建来生成训练数据在推理时,我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们证明了我们的方法在现实世界中的序列复杂的人类行动所捕获的移动手持摄像机,显示改进的国家的最先进的单目深度预测方法,并显示各种3D效果使用我们的预测深度。1. 介绍手持相机观察动态场景是现代摄影中常见的场景。在这种情况下,恢复密集几何体是一项具有挑战性的任务:运动对象违反了3D视觉中使用的极线约束,并且 在 现 有 的 运 动 恢 复 结 构 ( SfM ) 和 多 视 图 立 体(MVS)方法中通常被视为噪声或离群值。然而,我们人类的深度感知并不容易被愚弄对象在这项工作中,我们朝着计算实现这种能力迈出了一步我们专注于从普通视频中预测准确,密集的深度的任务, 场景中的人自然会移动。我们关注人类有两个原因:i)在许多应用中(例如,增强现实)中,人构成场景中的显著对象,以及ii)人的运动是铰接的并且难以建模。通过采用数据驱动的方法,我们避免了对人的形状或变形进行明确假设的需要,而是从数据中学习这些先验知识。我们从哪里获得数据来训练这样的方法?生成高质量的合成数据,其中相机和场景中的人都在自然移动,这是非常具有挑战性的。深度传感器(例如,Kinect)可以提供有用的数据,然而这样的数据通常限于室内环境,并且在捕获和处理中需要大量的手动工作。此外,很难大规模地聚集不同年龄和性别的人相反,我们从一个令人惊讶的来源获得数据:YouTube视频中,人们模仿人体模特,即,冻结在精心制作,自然的姿势,而手持相机游览现场(图。2)的情况。这些视频包括我们新的MannequinChallenge(MC)数据集,我们计划为研究社区发布2在所有图中,我们使用逆深度图用于可视化目的,并将其称为深度图。4522由于包括人在内的整个场景都是静止的,因此我们使用SfM和MVS来估计相机姿势和深度,作为训练的监督。使用这些数据,我们设计并训练了一个深度神经网络,该网络获取输入RGB图像、人体区域的遮罩和环境的初始深度(即,非人类区域),并在整个图像上输出密集的深度图,包括环境和人(见图2)。①的人。请注意,环境的初始深度是使用视频的两帧之间的运动视差来计算的,从而为网络提供了无法从单个帧获得的信息。一旦经过训练,我们的模型就可以处理带有任意相机和人体运动的自然视频。我们证明了我们的方法在各种现实世界的互联网视频,用手持摄像机拍摄,描绘复杂的人类动作,如步行,跑步和跳舞的适用性。我们的模型预测深度比最先进的单目深度预测和运动立体方法更高的精度。我们进一步展示了如何使用我们的深度图来产生各种3D效果,例如合成景深,深度感知修复,以及将虚拟对象插入到具有正确遮挡的3D场景中。总之,我们的贡献是:i)一个新的数据来源用于深度预测,包括大量的互联网视频,其中摄像机在自然姿势的“冻结”的人周围移动,以及用于生成准确的深度图和摄像机姿势的方法; ii)设计和训练基于深度网络的模型,以在相机同时运动和复杂的人体运动的挑战性情况下预测密集的深度图。2. 相关工作基于学习的深度预测。最近已经提出了基于监督和无监督学习的许多算法,用于从单个RGB图像预测密集深度[46,17,7,6,3,19,33,8,52,49,21,41]。一些最近的基于学习的方法也考虑多个图像,假设已知的相机姿势[12,47]或同时预测相机姿势以及深度[39,51]。然而,它们都不是为了预测动态对象的深度而设计的,这是我们工作的重点动态场景的深度估计。 RGBD数据已被广泛用于动态场景的3D建模[25,55,48,5,14],但只有少数方法尝试从单目相机估计深度。已经提出了几种方法来重建动态场景的稀疏几何[27,50,36,40]。Russell等人[31]和Ran- ftlet al.[29]提出了基于运动/对象分割的算法以将动态场景分解成分段刚性部分。然而,这些方法强加了对象康斯坦丁诺斯等人[30]使用来自FIFA视频游戏的合成训练数据预测移动足球运动员然而,他们的方法仅限于足球运动员,无法处理野外的一般人。用于学习深度的RGBD数据。有许多室内场景的RGBD数据集,使用深度传感器捕获[35,2,4,45]或合成渲染[37]。然而,这些数据集都没有为自然环境中的移动人员提供深度监督。几种动作识别方法使用深度传感器来捕获人类动作[54,34,22,26],然而它们中的大多数都是由静态相机捕获的,并且只提供有限数量的室内场景。REFRESH [20]是一个最近的半合成场景流数据集,通过将动画人物叠加在NYUv2图像上创建。在这里,数据集也仅限于室内场景,并且由与周围环境处于不现实配置中的合成人组成。人体形状和姿势预测。从单个RGB图像恢复构成的3D人体网格引起了极大的关注[18,9,16,1,28,23]。最近的方法在跨越各种姿势的自然图像上取得了令人印象深刻的结果。然而,这样的方法仅对人体建模,而不考虑头发、衣服和场景的非人类部分。最后,这些方法中的许多依赖于正确检测人体关键点,要求身体的大部分在帧内。3. MannequinChallenge数据集人体模型挑战赛[42]是一种流行的视频趋势,其中人们在现场冻结-通常以有趣的姿势-而摄像机操作员在拍摄他们的场景中移动(例如,见图2)。自2016年底以来,已有数千个此类视频被创建并上传到YouTube。在人们成功地在视频期间保持静止的程度上,我们可以假设场景是静态的,并且通过用SfM和MVS算法处理它们来获得精确的相机姿势和深度信息。我们发现大约2,000个候选视频可以进行这种处理。这些视频组成了我们新的MannequinChallenge数据集,它涵盖了不同年龄的人的各种场景,自然地摆出不同的群体配置。接下来,我们将详细描述如何处理视频并获取训练数据。估计摄像机姿态。遵循与Zhouet al. [53],我们使用ORB-SLAM 2 [24]来识别每个视频中的可跟踪序列,并估计每个帧的初始相机姿态。在这个阶段,为了提高效率,我们处理了一个低分辨率版本的视频,并将视野设置为60度(现代手机摄像头的典型值)。然后,我们使用视觉SfM系统[32]以更高的分辨率重新处理每个序列,该系统可以细化初始相机姿势和内部参数。该方法提取并匹配跨帧的特征,然后执行全局光束法平差优化。最后,使用周等人的技术去除具有非平滑相机运动的序列。[53]。使用MVS计算密集深度。有了每个片段的估计摄像机姿势,我们开始重建-4523≤≥||≥图2. 来自Mannequin Challenge视频的示例图像。 每个图像是来自视频序列的帧,其中相机被 动,但人都是静止的。这些视频涵盖了各种自然场景、姿势和人物配置。改变场景的密集几何体。具体来说,我们使用最先进的MVS系统COLMAP [33]恢复每帧密集深度图因为我们的数据包括具有挑战性的互联网视频(即,通常涉及相机运动模糊、阴影和反射),由MVS估计的原始深度图对于训练目的来说通常噪声太大。我们通过仔细的深度过滤机制来解决这个问题。我们首先使用[19]的深度细化方法来细化和过滤深度离群值。此外,我们通过考虑MVS深度和从两帧之间的运动视差获得的深度的一致性来去除额外的错误深度值。具体来说,对于每一帧,我们计算归一化误差对于每个有效像素p,重建删除的图像示例如SM所示经过处理,我们获得了4,690个序列,总共超过170K个有效的图像深度对。我们将MC数据集分为训练集、验证集和测试集,并以80:3:17的比例分割剪辑。4. 深度预测模型我们以监督的方式在Mannequin-Challenge数据集上训练深度预测模型,即,通过回归到由MVS流水线生成的深度。一个关键问题是如何构建网络的输入,(p)= |DMVS(p)−Dpp(p)|DMVS(p)+D pp(p)(一)对冷冻人进行训练,但对自由移动的人进行推理。一种选择是从单个RGB图像回归到深度,但这种方法忽略了几何信息。其中DMVS是通过MVS和Dpp获得的深度图,是从两帧运动视差计算的深度图(参见第2节)。4.1)。去除了δ(p)> δ的深度值,其中我们根据经验设置δ= 0。二、图图3示出了来自我们处理的序列的样本帧,其有关显示拟 定清洁方法 效果的示例 ,请参见 补充材料(SM)。过滤剪辑。有几个因素可以使视频剪辑不适合训练。例如,人可以在视频中的某个点处动态对象和合成背景不服从多视图几何约束,因此被视为离群值并被MVS过滤掉,可能只留下很少的有效像素。因此,在我们的两遍清理阶段之后,我们删除20%<此外,我们去除估计的径向失真系数k1>0的帧。1(指示鱼眼相机)或其中估计焦距为0。6或1 .一、2(相机参数可能不准确)。我们保留至少30帧长、纵横比为16:9、宽度为1600像素的序列。 最后,我们手动检查剩余序列的轨迹和点云,并删除明显不正确的通过考虑多个视图,可以获得关于场景的静态区域的信息为了从这些信息中受益,我们向网络输入了静态非人类区域的深度图,该深度图是根据运动视差w.r.t.另一个场景。我们的网络的全部输入,如图所示。图3包括参考图像Ir、人类区域的二进制掩模M、从运动视差(去除了人类区域)估计的深度图Dpp、置信度图C和可选的人类关键点图K。在训练和推断阶段,我们假设SfM中已知的准确相机姿势。在在线推理设置中,可以通过视觉惯性里程计来获得相机姿态。给定这些输入,网络预测整个场景的完整深度为了匹配MVS深度值,网络必须对人类区域的深度进行修补,根据估计的Dpp对非人类区域的深度进行细化,最终使整个场景的深度一致。我们的网络架构是[3]的沙漏网络的变体,最近邻上采样层被双线性上采样层取代。以下部分详细描述了我们模型的每个输入有关其他实现细节和完整推导,请参阅SM4524−(a)参考图像Ir(b)人类掩模M(c)输入深度Dpp(d)输入置信度C(e)MVS深度D MVS图3。系统输入和训练数据。我们网络的输入包括:(a)RGB图像,(b)人类掩模,(c)根据运动视差w.r.t. 所选择的源图像,以及(d)掩蔽的置信图。前两行中的低置信度区域(黑圆圈)指示相机核极的附近,其中视差深度是不可靠的并且被移除。该网络被训练为回归到MVS深度(e)。4.1. 运动视差视频中两帧之间的运动视差为场景的静态区域提供了我们的初始深度估计(假设人类是动态的,而场景的其余部分是静态的)。给定参考图像Ir和源图像Is对,我们使用FlowNet2.0 [13]估计从Ir到Is 使用两个视图之间的相对相机姿势,我们使用平面加视差(P+P)表示[15,43]从估计的流场计算初始深度图D pp。在一些情况下,例如帧之间的前向/后向相对核极可以位于图像内)。我们检测并过滤出这样的深度值,如第二节所述。四点二。关键帧选择。如果两个视图之间的2D位移很小或者如果它可以通过同像很好地近似(例如,在纯相机旋转的情况 为了避免这种情况,我们在选择参考帧Ir和对应的源关键帧Is时应用基线准则。我们希望这两个视图有明显的重叠,同时有足够大的基线。形式上,对于每个Ir,我们找到Is的索引s为我们发现这些视图选择标准在我们所有的实验中工作得很好。4.2. 信心我们的数据包括具有挑战性的互联网视频剪辑与相机运动模糊,阴影,低光照和反射。在这种情况下,光流通常是有噪声的[44],从而增加了输入深度图Dpp中的不确定性。因此,我们估计置信图C并将其输入到网络。这允许网络在高置信度区域中更多地依赖输入深度,并可能使用它来改进其低置信度区域的预测非人类区域中的每个像素p处的置信度C(p)= Clr(p)Cep(p)Cpa(p)。(三)术语Clr测量以下各项FO。向后和向后流场。也就是说,Clr(p)= max 0,1r(p)2,其中r(p)是前向-后向扭曲误差。前后完全一致当误差大于1px时,前向流Clr= 1,而Clr= 0术语Cep测量流场符合的程度核线收缩。[10 ]《明史》卷10. 具体-2ically,Cep(p)=max0,1−(γ(p)/γ<$),其中γ(p)是s=argmaxdrjorrj(2)J其中drj是L2相机中心之间的距离,Ir及其相邻帧Ij。项Orj是分数基于p的光流的p的翘曲像素位置与其对应的核线之间的距离;控制对极距离容差(我们在实验中设置γ<$=2px的共同可见SfM特征,和Ij:orj=2|V rT V j||+|V J|、|,最后,Cpa将低置信度分配给像素,视图之间的视差很小[33]。这是我的...其中Vj是在I j中可见的特征的集合。我们丢弃对于其而言,<的分数通过在两个方向相交的摄像机光线之间的角度β(p)确定. min(β<$,β(p))−β< $2共同可见的特征应该大于阈值τ0(我们pix elp。也就是说,Cpa(p)=1−β<$4525得双曲余切值.设τ0= 0。6),并将最大帧间隔限制为10。β<$是角度公差(我们在实验中使用β<$=1°)。4526LLLE图4. MC测试集的定性结果。从上到下:参考图像及其对应的MVS深度(伪地面实况);我们的深度预测使用:我们的单视图模型(第三行)和我们的两帧模型(第四行)。额外的网络输入改善了人类和非人类区域的性能。图图3(d)示出了计算的置信图的示例注意,人类区域以及置信度C(p)<0. 25、被屏蔽了4.3. 损失我们训练我们的网络回归到由我们的数据管道计算的深度图因为计算的深度值具有任意尺度,所以我们使用尺度不变的深度回归损失。也就是说,我们的损失是在对数空间深度值上计算的,由三项组成:Lsi=LMSE+α1Lgrad + α2Lsm。(四)尺度不变MSE。MSE表示尺度不变均方误差(MSE)[6]。该项计算预测中的两个像素与地面实况中的相同两个像素之间的深度的平方、对数空间差异,并对所有有效像素对进行直观地,我们查看所有点对,并惩罚它们的深度值w.r.t.的比率地面真相多尺度梯度项。我们使用多尺度梯度项grad,它是多尺度下预测的测井深度导数(在x和y方向上)与地面真实测井深度导数之间的L1差[19]。该项允许网络恢复预测深度图像中的尖锐深度不连续性和平滑梯度变化净投入全硅西埃夫锡洪硅内锡因特I.我0.3330.3380.3170.2640.384二. IFCM0.3300.3490.3120.2600.381三.ID pp M0.2550.2290.2640.2430.285四.ID pp CM0.2320.1880.2370.2210.268诉ID pp CMK 0.2270.1890.2300.2120.263表1. MC测试集上的定量比较。 我们模型的不同输入配置:(一)单一图像;(二)光流掩蔽在人体区域(F),置信度和人体掩蔽;(III.)掩蔽的输入深度、人类掩蔽和IV的附加置信度;在V中,我们还输入了人类关键点。对于所有指标,越低越好。年龄和适用于多个尺度[41]。这一术语在没有图像强度变化的深度区域中鼓励分段平滑。5. 结果我们测试了我们的方法定量和定性,并比较它与几个国家的最先进的单视图和基于运动的深度预测算法。我们展示了具有复杂人体运动和自然相机运动的具有挑战性的互联网视频的广告定性结果,并演示了我们预测的深度图如何用于多种视觉效果。呃,还是金属。我们用尺度变量来测量误差RMSE(si-RMSE),相当于LMSE, 描述多尺度、边缘感知平滑度术语。鼓励-无纹理区域中深度的年龄平滑插值在MVS无法恢复深度的情况下,我们使用一个简单的平滑项sm,该平滑项基于imm的一阶和二阶导数惩罚对数深度导数的L1范数秒四点三。我们在5个不同的区域评估si-RMSE:si- full测量所有像素对之间的误差,整个图像的整体精度;si-env测量非人类区域中的像素对 ,提供深度交流-环境的精确性;和si-hum措施对,4527HHHE(a)Ir(b)Is(c)GT(d)DORN [7](e)DeMoN [39](f)Ours(RGB)(g)Ours(full)图5. TUM RGBD数据集的定性比较。(a)参考图像,(b)源图像(用于计算我们的初始深度输入),(c)地面实况传感器深度,(d)单视图深度预测方法DORN [7],(e)两帧运动立体DeMoN [39],(f-g)分别来自我们的单视图和两帧模型的深度预测。至少一个像素位于人区域中,为人提供si-hum可以进一步分为两个误差测量:si-intra测量si-RMSE,或独立于环 境 的 人 类 精 度 ;si-inter 测 量 像 素 in 和 in 之 间 的 si-RMSE,或者人类精度w.r.t.环境保护我们在SM中包括派生。5.1. MC测试集的评价我们在MC测试集上评估了我们的方法,该测试集由来自756个视频的超过29K的图像网络输入进一步提高了性能。注意,如果我们向网络输入光流场而不是深度(II.),性能仅与单视图方法相当。从2D光流到深度的映射取决于相对相机姿势,这些姿势没有提供给网络。这一结果表明,网络无法隐式地学习相对姿态并提取深度信息。图4显示了我们的单视图模型(I)和我们的完整模型(IDppCMK)之间的定性比较我们的完整模型结果在两个人体区域(例如,剪辑 处理的MVS深度值DMVS 由我们第一列)和非人类区域(例如,第二列)。此外,人与人之间的深层关系,管道(见第二节)(3)被认为是真实的。为了量化我们设计的模型输入的重要性两种主要配置是:(i)单视图模型(输入是RGB图像)和(ii)我们的全两帧模型,其中输入包括参考图像、初始掩蔽深度图Dpp、置信度图C和人类掩模M。我们还通过用光流F替换输入深度、从输入中移除C并添加人类关键点图K来执行消融研究。定量评价如表1所示。通过比较行(I.),(三)和(IV.),很明显,添加环境的初始深度以及置信度图显著地改善了人类和非人类区域的性能将人体关键点位置添加到在所有实施例中,环境都得到了改善。5.2. 对TUM RGBD数据集的评价我们使用了TUM RGBD数据集的一个子集[38],其中包含从不同相机姿势捕获的来自该数据集的样本5(a-b).为了运行我们的模型,我们首先使用ORB-SLAM 23估计相机姿势。在某些情况下,由于严重的低图像质量、运动模糊和卷帘快门效应,估计的相机姿态可能是不正确的。我们通过检查相机轨迹和点云来手动过滤此类故障。总共得到11个有效图像序列,3我们发现ORB-SLAM 2的估计值与RGB图像的同步性比TUM数据集提供的地面真实姿态更好4528方法数据集双重视角全硅西埃夫锡洪硅内锡因特RMSERelRussell等人[三十一]-是的2.1462.0212.2072.2062.0932.5200.772[39]第三十九话RGBD+MVS是的0.3380.3020.3600.2930.3840.8660.220Chen等人[3]第一章NYU+DIW没有0.4410.3980.4580.4080.4701.0040.262Laina等人[17个]纽约大学没有0.3580.3560.3490.2700.3770.9470.223Xu等[46个]纽约大学没有0.4270.4190.4110.3020.4511.0850.274Fu等人[七]《中国日报》纽约大学没有0.3510.3570.3340.2570.3600.9250.194我MC没有0.3180.3340.2940.2270.3190.8400.204IFCMMC是的0.3160.3300.3020.2280.3230.8430.206IDppMMC是的0.2460.2250.2600.2330.2730.6350.136ID pp CM(w/o d. 清洁)MC是的0.2720.2380.2930.2580.2820.6880.147IDppCMMC是的0.2320.2030.2520.2240.2620.5700.129IDppCMKMC是的0.2210.1950.2380.2150.2470.5410.125表2. TUM RGBD数据集上的结果。不同的si-RMSE指标以及标准的RMSE和相对误差(Rel)的报告。我们在不同的输入配置下评估我们的模型(浅灰色背景),如表1所示。w/o d. cleaning表示使用原始MVS深度预测作为监督来训练模型,而不使用我们的深度清理方法。数据集对于所有错误度量,越低越好。(a) Ir(b)Is(c)DORN [7](d)Chenet al.[3](e)DeMoN [39](f)我们的(完整)图6。互联网视频剪辑与移动摄像机和人的比较。从左至右:(a)参考图像,(b)源图像,(c)DORN [7],(d)Chen等人。[3],(e)DeMoN [39],(f)我们的完整方法。图像全部用于评价。我们将我们的深度预测(使用我们的MC训练模型)与在室内NYUv2 [17,46,7]和野外深度(DIW)数据集[3]上训练的几种最先进的单目深度预测方法进行比较,以及最近的两帧立体模型DeMoN [39],它假设静态场景。我们还比较了Video-Popup [31],它处理动态场景。我们使用相同的图像对来计算Dpp作为DeMoN和Video-Popup的输入。定量比较如表2所示,其中我们报告了5种不同的标度不变性误差测量以及标准RMSE和相对误差;最后两个是通过应用在最小二乘意义上对准预测深度和地面实况深度的单个缩放因子来计算的。我们的单视图模型已经优于其他单视图模型,证明了MC数据集用于训练的好处。请注意,由于具有挑战性的摄像机和物体运动,VideoPopup [31]未能产生有意义的结果。我们的完整模型,通过使用初始(掩蔽的)深度图,显着提高了所有错误度量的性能。与我们的MC测试集结果一致,当我们使用光流作为输入(而不是初始深度图)时,性能仅略优于单视图网络。最后,我们展示了我们提出的应用于训练数据的“深度清理”方法的重要性①的人。与仅使用原始MVS深度预测作为监督(D.清洁4529(a)输入(b)散焦图8. 故障案例。移动的非人类物体,如汽车和阴影,可能会导致错误的估计(左和中间,方框);对于处于挑战性姿势的远处的人来说,诸如四肢的精细结构可能是模糊的(右,加框)。(c)(d)人员撤离(e)投入(f)人员撤离图7. 基于深度的视觉效果我们使用我们预测的深度图对(a,e)输入图像应用深度感知视觉效果;我们显示(b)散焦,(c)对象插入和(d,f)人物移除与修复结果。图5显示了不同方法之间的定性比较。我们的模型的深度预测(图。图5(f-g))强烈地类似于地面实况,并且示出了高水平的细节和尖锐的深度不连续性。这一结果与竞争方法相比是不可接受的改进,竞争方法通常在两个人类区域中都产生显著的错误(例如,在第二排的图腿。5)和非人类区域(例如,最后两排的桌子和天花板)。5.3. 动态场景我们在具有挑战性的互联网视频(从YouTube和Shutterstock下载)上测试了我们的方法,涉及同时自然的相机运动和人体运动。我们的SLAM/SfM流水线用于生成5秒到15秒的序列,具有平滑和准确的相机轨迹,之后我们应用我们的方法来获得所需的网络输入缓冲区。我们将我们的完整模型(IDppCMK)与最近几个基于学习的深度预测模型进行了定性比较:DORN [7],Chen et al. [39][39][39 ][ 39]对于公平的比较,我们使用DORN和在NYUv 2上训练的模型用于室内视频,在KITTI上训练的模型用于室外视频;对于[3],我们使用在NYUv 2和DIW上训练的模型。对于我们所有的预测,我们使用一个在MC数据集上从头开始训练的模型。如示于图6,我们的深度预测明显优于基线方法。特别是, DORN [7]对互联网 视频的推广非 常有限,Chenet al.[3],主要是在互联网pho- tos上训练的,不能捕捉准确的深度。DeMoN经常产生不正确的深度,特别是在人体区域,因为它是为静态场景设计的。我们预测的深度图描绘了场景中的人和其他物体之间的准确深度排序(例如, 人与建筑物之间,图的第四排。6),并在人类区域(如手臂和腿的人在前三排的图。(六)。基于深度的视觉效果我们的深度可用于应用一系列基于深度的视觉效果。图7示出了基于深度的散焦、合成3D图形的插入、以及利用修复来移除附近的人类参见SM以获得包括单声道到立体声转换的更多示例。深度估计随着时间的推移足够稳定,以允许从视频中其他地方的帧进行修复为了使用帧进行修补,我们从深度图中构造一个三角形高度场,用视频帧对高度场进行纹理处理,并使用相对相机变换从目标帧渲染高度场图7(d,f)示出了修复两个街道场景的结果。摄像机附近的人类使用人类遮罩M被移除,并且在视频中最多200帧之后用颜色填充孔有些伪影在人类面具错过的区域是可见的,例如地面上的阴影。6. 讨论和结论我们展示了基于学习的方法用于预测动态场景的密集深度的能力,其中单筒相机和人自由移动。我们为训练提供了一个新的数据源:YouTube上的一个大型人体模型挑战视频库,其中摄像机四处移动,人们“冻结”在自然的姿势中。我们展示了如何从这些嘈杂的数据中获得可靠的深度监督,并证明我们的模型比最先进的方法有显着改善。我们的方法仍然有局限性。我们假设已知相机姿态,这可能难以推断移动对象是否此外,预测的深度对于非人类的移动区域(诸如汽车和阴影)可能是不准确的(图1B)。(八)。我们的方法也只使用两个视图,有时会导致时间不一致的深度估计。然而,我们希望这项工作可以指导和触发进一步的进展,单目密集重建的动态场景。4530引用[1] F. Bogo、A.金泽角Lassner,P. V. Gehler,J. Romero和M. J.布莱克。保持它SMPL:从单幅图像自动估计三维人体姿态和形状。 在proc欧洲会议中计算机视觉(ECCV),2016年。II[2] A. Chang,A.戴氏T.Funkhouser M.Halber,M.尼斯纳M. Savva , S. Song , 中 国 黑 杨 A. Zeng 和 Y. 张 某Matterport3D:室内环境中rgb-d数据的学习。3D视觉国际会议(3DV),2017年。II[3] W. Chen,Z. Fu,D. Yang和J.邓小平更在野外的单一图像深度感知。在神经信息处理系统,第730-738页,2016年。二、三、七、八[4] A. Dai , A.X. 张 , M 。 Savva , M.Halber , T.A.Funkhouser和M.尼斯纳ScanNet:室内场景的丰富注释的3D再现。在CVPR,第2卷,第10页,2017年。II[5] M. Dou,S. Khamis,Y. Degtyarev,P. L. Davidson,S.R. Fanello,A. Kowdle,S.奥茨角Rhemann,D. Kim,J.Tay- lor,P. Kohli、V. Tankovich和S.伊扎迪Fusion4D:具有挑战性的场景的实时性能捕捉 ACM Trans.2016年12月15日,《图形》,35:114:1-114:13。II[6] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在神经信息处理系统中,第2366-2374页,2014年。二、五[7] H.傅,M。贡角,澳-地Wang,K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。计算机视觉和模式识别(CVPR),2018年。二、六、七、八[8] C.戈达尔湖,澳-地M. Aodha,G. J·布罗斯托具有左右一致性的无监督单目深度估计Proc.计算机视觉和模式识别(CVPR),第6602-6611页,2017年。II[9] R. A. Guüler,N. 我也是。 好的DensePose:在野外进行密集的人类姿势估计 Proc. 计算机视觉与模式识别(CVPR),2018年。II[10] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社,2003年。IV[11] I. P·霍华德 深入观察,卷。1、基本机制。多伦多大学出版社,2002年。我[12] P. - H. Huang,K.Matzen,J.Kopf,N.Ahuja和J. -B. 煌DeepMVS:学习多视图立体视觉。在Proc. ComputerVision and Pattern Recognition ( CVPR ) 中 , 第 2821-2830页,2018年。II[13] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T. 布洛克斯FlowNet 2.0:深度网络光流估计的演变 在proc 计算机视觉和模式识别(CVPR),第2462-2470页,2017年。IV[14] M. 因曼,M.Zollh oüfer,M.尼斯河角Theobalt和M. Stamminger体积变形:实时体积非刚性重建。在Proc.European Conf.计算机视觉(ECCV),2016年。II[15] M. Irani和P.阿南丹用于三维场景分析的点对视差几何在proc 欧洲会议中计算机视觉(ECCV),第17-30页。Springer,1996. IV[16] A. Kanazawa,M. J. Black,D. W. Jacobs和J.马利克端到端恢复人体形状和姿势。 在proc 计算机视觉与模式识别(CVPR),2018年。II[17] I. 莱纳角 Rupprecht,V. Belagiannis,F. Tombari,以及N.纳瓦布使用全卷积残差网络进行更深的深度预测。在3D视觉(3DV)国际会议上,第239-248页。IEEE,2016. 二、七[18] C.放大图片作者:J. Romero,M.基费尔F. Bogo,M. J.Black和P. 诉盖勒团结人民:关闭3D和2D人类表现之间的循环在proc 计算机视觉与模式识别(CVPR),2017. II[19] Z. Li和N.很聪明MegaDepth:从互联网照片中学习单视图深度预测。计算机视觉和模式识别(CVPR),2018年。二、三、五[20] Z. Lv,K.Kim,A.Troccoli,D.孙,J.M. J. 考茨在动态场景中利用移动摄影机学习刚性以进行3d运动场估测。Proc. European Conf.计算机视觉(ECCV),2018年。II[21] R. Mahjourian,M. Wicke和A.安杰洛娃使用3D几何约束的单目视频深度和自我运动的无监督学习。计算机视觉和模式识别(CVPR),2018年。II[22] O. Mees,A.Eitel和W.Burgard 智能选择:变化环境中的自适应多模态融合目标检测。 在Int. Conf. 智能机器人和系统(IROS),2016年。II[23] D. 梅 塔 , S 。 斯 里 达 尔 岛 Sotnychenko , H.Rhodin ,M.Shafiei,H. P. Seidel,W.Xu,L.Casas和C.希奥博尔特VNect:用单个RGB摄像机进行实时三维人体姿态估计ACM Trans. Graphics,36:44:1-44:14,2017. II[24] R. Mur-Artal和J.D. 太晚了 。Orb-slam 2:一个用于单眼、立体和rgb-d相机的开源slam系统IEEE Transactionson Robotics,33(5):1255-1262,2017。II[25] R. A. Newcombe,D. Fox和S. M.塞茨DynamicFusion:非刚性场景的实时重建与跟踪。计算机视觉和模式识别(CVPR),2015年。II[26] B. Ni、G. Wang和P.磨坊RGBD-HuDaAct:用于人类日常 活 动 识别 的 颜 色 深 度 视频 数 据 库 。 InProc. ICCVWorkshops,2011. II[27] H. S.帕克,T.白鸟岛A. Matthews和Y.酋长由一系列二维投影重建运动点的三维重建 在proc 欧洲会议中 计算机视觉(ECCV),2010年。II[28] G. Pavlakos,X. Zhou,K. G. Derpanis和K.丹尼尔迪斯用于单图像3D人体姿势的从粗到细的体积预测Proc.计算机视觉和模式识别(CVPR),第1263-1272页,2017年。II[29] R. 兰夫特尔河谷Vineet,Q.Chen和V.科尔顿。复杂动态场景中密集单目深度估计 在proc计算机视觉与模式识别(CVPR),2016年。II[30] K.雷马塔斯岛Kemelmacher-Shlizerman湾没有卷发,S. 塞 茨 桌 上 的 足 球 。 计 算 机 视 觉 和 模 式 识 别(CVPR),2018年6月。II[31] C. 拉塞尔河Yu和L.阿加皮托视频弹出:动态场景的单目3D重建 在proc 欧洲计算机视觉会议(ECCV),第583-598页。Springer,2014.二、七[32] J. L. Schonberger和J. M.弗拉姆结构从运动重新审视。在proc 计算机视觉与模式识别(CVPR),2016年。II[33] J. L. Schoenbe rger,E.郑杰M. Frahm和M.Pollefe ys.用于非结构化多视图立体的像素视图选择。4531在proc 欧洲会议中 计算机视觉(ECCV),第501-518页,2016年。二、三、四[34] A. 什里瓦斯塔瓦T.菲斯特岛Tuzel,J.苏斯金德Wang和R. 韦伯通过对抗训练从模拟和无监督图像中学习 在proc 计算机视觉与模式识别(CVPR),2017. II[35] N. Silberman,D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。在proc 欧洲会议中 计算机视觉(ECCV),2012年。II[36] T. Simon,J. Valmadre,I. A. Matthews和Y.酋长用于动态3D重建的Kronecker-Markov先验。模式分析和机器智能,39:2201- 2214,2017。II[37] S. 宋,F. Yu,中国茶条A. Zeng,中国茶青冈A. X.张,M。 Savva,以及T.放克豪瑟从单个深度图像的语义场景完成。 Proc. 计算机视觉与模式识别(CVPR),2017. II[38] J. Sturm,N. Engelhard,F. Endres,W. Burgard和D.克雷默斯。RGB-D SLAM系统评估基准。在IEEE/RSJ智能机器人和系统国际会议(IROS),第573IEEE,2012。vi[39] B. Ummenhofer,H.Zhou,J.Uhrig,N.迈耶,E.Ilg、A.Doso-vitskiy和T.布洛克斯DeMoN:用于学习单眼立体声的深度和运动网络。 在proc 计算机视觉和模式识别(CVPR),第5卷,第6页,2017年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功