没有合适的资源?快使用搜索试试~ 我知道了~
运动摄像机动态场景中的刚性学习算法及其三维运动场估计Zhaoyang Lv1,Kihwan Kim2,Alejandro Troccoli2,DeqingSun2,James M.Bogg1,Jan Kautz21佐治亚理工学院,亚特兰大,美国{zhaoyang.lv,rehg} @ gatech.edu2NVIDIA,美国圣克拉拉{kihwank,atroccoli,deqings,jkautz} @ nvidia.com抽象。从时间序列图像对中估计动态场景中的三维运动是许多场景理解问题的核心任务。在现实世界的应用中,动态场景通常由移动的相机(即,摇摄、倾斜或手持),这增加了任务的复杂性,因为从不同的视点观察场景。主要的挑战是从场景运动的相机运动的消歧,这变得更加困难,因为所观察到的刚性的量减少,即使与2D图像对应的成功估计。相比其他国家的最先进的3D场景流估计方法,在本文中,我们建议学习的刚性场景的监督方式从广泛收集的动态场景数据,并直接从两个序列图像的深度推断出刚性掩模。通过学习网络,我们展示了如何使用计算的2D光流和推断的刚性掩模有效地估计相机运动和投影场景流为了训练和测试刚性网络,我们还提供了一个新的半合成动态场景数据集(具有真实背景的合成前景对象)和一个评估分割,该分割占观察到的非刚性像素的百分比。通过我们的评估,我们表明所提出的框架优于当前最先进的场景流估计方法在具有挑战性的动态场景。关键词:刚度估计·动态场景分析·场景流·运动分割1介绍从图像中估计3D运动是一个基本的计算机视觉问题,并且是许多应用的关键,例如机器人操作[3],动态场景重建[14,23],自动驾驶[8,27,29,44],动作识别[43]和视频分析[13]。该任务通常被称为3D运动场或场景流估计。然而,动态环境中的3D运动场估计是具有挑战性的并且当场景是动态的时仍然是开放的问题这项工作始于作者在NVIDIA实习期间2Z. Lv等人(a) 两个RGB-D框架(b)刚性(红色用于动态场景)(c) 自我运动流(d)投影场景流图1:我们估计的刚性(b),自我运动流(c)和投影场景流(d)(底行)与地面实况(顶行)相比。刚性掩模允许我们求解相对相机变换并计算给定光流的3D运动场。从不同的视点观察,并且每个图像中的运动对象的覆盖量是显著的。这主要是因为从物体运动中消除相机运动(自我运动)的歧义需要正确识别场景的刚性静态结构与解决分段刚性运动问题的其他方法不同[41,19,9],聚类局部运动[16]和语义分割[32,45],我们的网络可以通过联合学习刚性和来自大规模动态场景数据的相对相机变换来推断每像素刚性我们的结果的一个简单例子如图所示。1 .一、我们的框架,如图。2、取一个顺序的图像对与颜色和深度(RGBD)作为输入并且主要集中于具有移动相机的动态场景(例如,摇摄),其中相机运动和对象运动在每个观察中纠缠在一起。为了解决2D对应关系,我们的框架依赖于2D光流,并且不依赖于任何特定的算法。我们使用的方法由Sun等人。[33],我们与刚性网络一起评估,以估计自我运动和场景运动。学习每像素刚性的网络还解决了两个图像之间的相对相机姿态,并且我们可以通过学习的密集流对应和刚性区域将姿态精确地细化为最小二乘问题。为了在训练过程中提供更好的监督并鼓励泛化,我们开发了一种工具和方法,可以创建一个可扩展的半合成RGB-D动态场景数据集,我们称之为REFRESH。该数据集将真实世界的静态刚性背景与非刚性合成人体运动[36]相结合,并提供地面真实颜色,深度,刚性,光流和相机姿势。总之,我们的主要贡献是:1. 一种基于学习的运动摄像机动态场景刚度和姿态估计算法。2. RGBD 3D运动场估计框架建立在从刚性、姿态和现有2D光流的推断上,其性能优于最先进的方法。3. 新 的 半 合 成 动 态 场 景 数 据 及 其 创 建 工 具 : REal 3D FromReconstruction with Synthetic Humans(REREFRESH)我们GT动态场景中三维运动场估计的刚性学习算法3[|]成品[|]刚性遮罩自我运动3D场景流光流投影场景流(估计)减法流网络PWC-net翘曲细化刚度变换网络图2:我们提出的用于3D运动场估计的推理架构的概述。我们的方法将两个RGB-D帧作为输入,由两个网络独立处理刚性变换网络(RTN)估计相对相机变换和刚性/非刚性区域。流网络[33]计算密集流对应。我们进一步完善的相对姿态与稠密的流动在刚性区域。通过精确的姿态,我们从自运动流计算3D运动场和投影场景流2相关工作场景流:动态场景中的场景流估计将光流中的基本计算机视觉算法以及相机和对象的姿态估计Vedula等人[37]将3D运动场定义为场景流,并提出了一种从固定的多视图设置计算密集的非刚性3D运动场的方法。它的扩展到一个移动的摄像机的情况下,需要消除歧义的摄像机自我运动的对象场景运动在3D。由于这种任务的固有复杂性,现有方法通常使用已知的相机参数[1,35]来解决它,或者假设场景运动是分段刚性的[19,21,9,39,40,42]。当深度已知时,可以更准确地估计场景流。Quiroga等人将RGB-D场景流估计为与非刚性6DoF变换合成的刚性流[25]。Sun等人将场景流估计为有限刚性移动对象的组合[32]。Jaimez等人分别解决刚性区域作为视觉里程计和非刚性区域作为以刚性分割为条件的移动聚类块[16]。他们基于两帧对齐的鲁棒残差来解决刚性分割,类似于[23,18]用于动态环境中的相机跟踪所有这些方法都使用刚性作为先验,但随着动态场景的复杂性增加而失败。这些方法都没有使用学习模型。我们表明,可以更准确地估计三维运动场使用学习模型的刚性和光流。学习相机变换和刚度:最近,已经引入了各种基于学习的方法用于相机变换和深度(或刚性结构)的联合估计[34,38,49]以及刚性运动跟踪[3]。他们中的大多数假设场景是静态的[34],准静态的(场景运动是最小的,可以作为离群值处理)[49],或者当发生刚性场景运动时相机保持静态[3]。最近,一些方法[45,47]证明了学习刚性处理动态场景的重要性Wulff等人4Z. Lv等人u#ðu&f保加利亚#→1#→1u1u-ðu#→1(f)第(1)款#ðx#→1场景流ðu(f)#→1投影场景流FI编号德杜夫#→1光流X1保x0ðx#→1#→1来自摄像机运动的光流u#ðu(f0#→1u-1I编I100→10→10→1fi1cm0→1[45]假设刚性可以通过从单个图像微调语义分割网络来学习Yin和Shi[47]无监督学习3D城市场景中我们感兴趣的是更一般的动态场景与不受约束的场景运动从移动的摄像机观察,我们地址- dress这通过直接学习每像素的刚性在监督的方式,可以概括为看不见的场景。3刚性、场景流与运动摄像机我们专注于解决从移动相机观察到的物理场景中的3D运动场,通常称为场景流[16,37]。在这里,我们定义的2D图像的对应关系和场景流在物理3D场景中的对象运动和相机运动从两个时间视图之间的相对相机姿势。设xt∈R3是运动物体的非刚性表面Ωt上的点x在时间t相对于固定世界坐标系的位置。本文定义δxt→t+1为x 从t到 t+1的三维运动矢量,也可表示为场景流。当xt由具有已知本征函数的相机观察时,我们定义π(xt)为xt到图像坐标ut的投影,并且π−1(ut,zt)为给定相机参考系中的已知深度zt0→1图3:两帧场景流的几何结构,其中相机从I0移动到I1,点x0移动到x1(绿色圆圈),以及它们在这两个图像分别被示为u0、u1(红色圆圈)。请注意,u'是一x0在I1中的投影位置,就好像x0被I1观察到一样,并且可以计算通过相机运动作为δucm,并且I1中的u0可视化其具有在I0中。如果相机是静态的,并且在位置处观察到x0和x1,I1,opticalflowδuoff wouldbeasamtoaproojecteflowδusf1 . 这是我的图像示出了在相机摇摄下动态场景的I1中的每个流的0→1动态场景中三维运动场估计的刚性学习算法5场景流、2D光流和摄影机姿势光流提供It和It+1中的测量的直接2D关联。 假设Ct是用于It的已知相机extinsicsm,则从It到It +1的最佳流δ ut → t+1可以定义如下:t→t+1 =π(Ct+1(xt+δxt→t+1))−π(Ctxt)(1)等式1陈述了2D光流和3D光流之间的双视图几何关系。 我们可以通过以下方式来实现:从I 0到I 1,即:e. 当t=0且将C0设置为初始值时:的0→1提供的可选流=π(C1(x0+δx0→1))−π(x0)(2)以及来自RGBD数据的深度、3D场景0→1流动矢量可以计算为:δx0→1=C−1π−1(u0+δuof,z1)−π−1(u0,z0)(3)1 0→1C1处不能从2Dc或从下面的可见对极几何[11]中提取,并且相应的点应该位于刚性和静态背景结构上。当场景包含动态组件(移动对象)以及刚性和静止的背景结构时,这尤其具有挑战性。因此,使用刚性识别内点和离群点是成功的相对相机姿态估计的关键要素,因此对于在动态场景中实现准确的场景流估计是必要的[16],我们将在第2节中讨论。4.第一章来自静态场景中的移动相机的自我运动流:当观测值x位于两个框架之间时,δx0→1=0,因此x 1 = x 0。然后,观察到的光流纯粹由相机运动引起,并且我们将其称为相机自运动流:cm0→1 =π(C1x0)−π(x0)(4)投影场景流和刚度:如图所示。3.投影的场景流是3D场景流δx0→1在I1ifx0w中的投影,其可以从相机自身运动和光流计算:SF0→1的0→1 -δucm0→1(五)投影场景流(在新视图中)也被称为非刚性残差[25,47]。投影场景流中具有零值的所有位置指示地面实况数据中的刚性区域如图所示3中,投影场景流是评估2D域中密集场景流估计的结果的有用工具,其需要准确估计相机姿态和光流两者因此,我们将其用作Sec中的评估度量。六 、δuδuδuδu=δu6Z. Lv等人去卷积1-5ccc cc coooo o无无无无 无无无vvvv v1234 5conv6空间平均池化conv-RConv-T刚度43D运动场估计流水线我们介绍了一个框架,细化的相对相机变换和光流与刚性掩模准确的场景流量估计。图2显示了我们提出的管道的概述给定RGB-D图像的时间对,我们同时运行光流和刚性变换网络。光流网络[33]提供了帧之间的2D对应关系,我们提出的刚性变换网络提供了相机变换和刚性掩模的估计。4.1刚度变换网络先前使用CNN进行相机姿态估计的工作集中在静态或准静态场景,其中场景运动不存在或其量很小[34,38,49]。在具有移动相机的动态场景中,由于相机运动和场景(对象)运动引起的模糊性,相机姿态估计可能是具有挑战性尽管现有方法利用运动或语义知识中的先验信息[16,32,25,28]来消除两者的歧义,但先验通常对于不同场景并不通用。我们建议通过全卷积网络从极线几何推断刚性我们将这种刚性分割表示为二进制掩码,其中静态场景被掩码为刚性。刚性场景组件将服从由相机自我运动引起的刚性变换约束,并用作相机变换的关注区域。我们称之为刚性转换网络(RTN),如图所示。4 .第一章RTN:给定一对RGB-D帧,我们将每个帧预处理为6通道张量[(u-cx)/fx,(v-cy)/fy,1/d,r,g,b],来自相机内部参数输入每帧:[���ƒ���ƒyD图4:刚性变换网络(RTN)架构RTN的输入是12通道张量,编码为[(u-c x)/fx,(v-c y)/fy,1/d,r,g,b],从一对RGB-D图像及其固有函数计算。它是一个完全卷积的编码器-解码器架构,预测姿态作为平移和欧拉角,场景刚性作为二进制掩码。Conv(bn-relu)(输入,输出、内核、步幅)Conv1(12、32、7、2)Conv2(32,64,7,2)Conv3(64,128,5,2)Conv4(128、256、3、2)Conv5(256,512,3,2)Conv6(512,1024,3,1)Deconv(relu)(输入、输出、内核、步幅)Deconv5(1024、512、4、2)Deconv4(512,256,4,2)Deconv3(256、128、4、2)Deconv2(128、64、4、动态场景中三维运动场估计的刚性学习算法71→00→1[fx,fy,cx,cy]和深度d。由于深度值的范围,该表示在训练中是数值 稳 定 的 , 并 且 提 供 良 好 的 泛 化 性 能 。 我 们 将 1/d 截 断 到 范 围[1e−4, 10],它可以覆盖各种尺度的场景我们将两帧张量连接到12通道张量作为网络的输入该网络是由一个编码器,其次是姿态回归和解码器,其次是刚性分割。编码器:我们使用五个步幅-2卷积层,逐渐降低空间分辨率,一个步幅-1卷积作为卷积-6层。每个卷积之后是一个batchnorm和ReLU层。在瓶颈层中,目标是预测相机相对平移t和旋转Θ。在conv-6层之后,我们使用空间平均池(SAP)将特征减少到1024D向量。利用输出3个通道的两个1×1卷积层,我们分别估计t和Θ。我们假设两个帧之间的相对相机变换较小,并且因此我们表示旋转R(α,β,γ)=Rx(α)Ry(β)Rz(γ),其中欧拉角Θ=[α,β,γ]。回归损失是针对t个和t个的r个样本的加权组合,如下:Lp=ρ(t-t)+wΘρ(Θ-θ)(6)解码器:解码器网络由五个反卷积(转置卷积)层组成,这些层逐渐将conv-6特征上采样为输入图像尺度,并将其重塑为原始图像分辨率。我们估计刚性的注意力作为一个二进制分割问题与二进制交叉熵损失Lr。总损失是两个损失函数的加权和:Lc= wpLp+ Lr。从两个角度学习:我们强制网络使用两个视图,而不是一个单一的视图捷径来捕获场景结构和极线约束。首先,我们的网络是完全卷积的,并且我们从SAP层回归相机姿势,该SAP层在空间上保留了特征分布。用于刚性分割和姿态回归的特征可以跨每个特征图在空间上彼此直接交互我们不使用任何跳层连接。我们在SEC的实验6表明摄像机姿态和刚度的联合学习可以帮助RTN在复杂场景中实现更好的泛化。其次,我们随机使用两个相同的视图作为输入,并在数据增强期间以20%的概率使用完全刚性的掩码作为输出,这可以防止网络仅使用单个视图进行预测。4.2基于刚度和流动的为了从等式3的两个视图准确地求解3D运动场,我们需要精确的相机变换。此外,从RTN输出的姿态可能并不总是精确地推广到新的测试场景。为了克服这一点,我们提出了一个细化步骤的基础上估计的刚性B和双向选择性流量以及(向前和向后传递)。我们认为C1作为替代品的时间定义如下所示:ΣargminC1{x0,x 1}∈Ω(B)[I]ρ(C1x0−x1)(7)8Z. Lv等人其中xi =π−1(ui,zi)在所有背景区域B中,由RTN预测。[I]是所有内点对应的艾弗森括号。我们在几个步骤中过滤内点对应性我们首先使用前向-后向一致性检查的双向光流的阈值为0.75,以消除所有的流correspondences是不一致的。移除的区域近似于遮挡图O。我们使用一个形态算子与补丁大小10扩张B和O,以进一步消除边界上的离群值从所有对应中,我们以步长4均匀地对双向流对应进行采样,并在其中选择最接近相机视点的1e4个点。这些帮助以更有效地和数值稳定地求解优化。我们还使用Hubernρ(·)作为两种方法来处理和提取剩余部分。 我们解决了从R TN输出开始计算C1初始化的7个有效问题。注意,在大多数情况下,对应关系大多是准确的,初始化步骤帮助不大,但也可以由身份初始化代替。5REFRESH数据集训练我们的网络需要足够数量的场景动态RGB-D图像和已知相机姿势、刚性遮罩和光流形式的地面实况。然而,从真实世界数据获取这样的基础事实是困难的或者甚至是不可行的。现有的数据集获取工具包括渲染动画,如SINTEL[2]和Monka[20],以及从游戏中捕获的帧[26]。SINTEL [2]的帧数较少,因此我们将其用于测试而不是训练。大多数方法使用具有该概念的刚性3D对象模型[31,7,20]渲染场景。在所有现有的工具和数据集中,只有Things3D [20]提供了足够的3D训练样本,用于学习具有移动相机地面实况的3D流。然而,它只使用一小组的三维物体的纹理图像在无穷大的静态场景上下文和刚性对象的动态场景,这并不提供逼真的三维场景结构的运动估计,可以推广。为了克服数据集的问题,我们提出了一个半合成场景流数据集:REal 3D重建与合成人类,我们命名为RE-FRESH。对于这项任务,我们利用了最先进的3D重建系统[5,10,46]的成功,其直接提供密集的3D网格和优化的相机轨迹。我们使用预先捕获的RGB-D数据集,并通过渲染具有预定义轨迹的非刚性3D移动对象来创建动态4D场景。我们将合成对象覆盖在原始镜头上,以获得具有地面真实的合成图像,如图所示。五 、真实3D重建场景:我们使用Bundle- Fusion [5]创建的3D网格。作者发布了8个参考3D网格,其中包含25 K输入RGB-D图像、相机内部和外部参数。人造人:我们使用SURREAL [ 36]中介绍的方法创建非刚性场景元素。 每个合成身体都是从真实的人体模型[17]创建的,姿势动作来自CMU MoCap数据库[15],其中包含23个动作类别的超过20K个序列。人类动态场景中三维运动场估计的刚性学习算法9(a) 重建的3D网格(b)原始彩色图像(c)原始深度图像(d)合成人(e)渲染刚度(f)合成颜色(g)合成深度(h)合成gt流图5:REFRESH数据集创建流水线使用捕获的RGB-D轨迹,场景通过BundleFusion [5](a)重建为3D网格,原始RGB-D输入为(b)和(c)。利用来自相机轨迹的采样帧,我们将具有运动的合成人体模型[36]随机加载到3D中作为(d),并渲染刚性掩模(e)。最后,我们将渲染的合成地面实况与其对应的渲染3D视图和最终的半合成RGB-D视图(f)和(h)合成,其中光流地面实况作为(i)。纹理由SMPL CAESAR扫描和4Cap注册的真实服装组成[24]。我们创造了每个合成人与随机的性别,身体形状,布料纹理,行动和他们在3D场景中的位置,保证了动态场景的多样性。我们通过将每个人体模型的骨盆点置于自由空间来控制人体模型沿轨迹的可见性w.r.t.从沿着轨迹的所选帧的以自我为中心的视点。自由空间通过相应的深度进行采样对于每100帧,我们选择n帧(n个样本来自N(15,5))并将n个人体模型插入场景中。渲染和地面实况生成:我们使用Blender3套件中的Cycles作为渲染引擎。 照明是使用球谐函数创建的,如Varol et al.[36]第30段。首先,我们使用相同的3D场景相机的内在和空间分辨率设置虚拟相机。相机外部遵循真实数据轨迹(从BundleFusion [5]计算)。因此,我们可以使用原始彩色图像而不是渲染图像作为背景纹理,其是照片级逼真的并且包含诸如运动模糊的伪影。在相同的相机设置下,我们分别渲染3D重建的静态网格和合成的人,并使用alpha-抠图将它们合成。与彩色图像不同,深度图是从3D网格渲染的,比原始深度更少噪音,更由于3D采集期间的相机移动在帧之间很小,因此我们以[1,2,5,10,20]的间隔对帧进行子采样以创建更大的运动。我们采用多遍渲染方法来生成深度,光流和刚性掩模作为我们的地面真相。3Blender:www.blender.org/10Z. Lv等人6实验我们在PyTorch中实现了RTN,并使用GTSAM 4.0 [6]在C++中实现了姿势细化。PWCNet [33]是在Caffe中训练的。我们通过Python集成所有模块。我们使用来自REFRESH数据集的68K图像进行训练4 。 我 们 从 头 开 始 训 练 RTN 使 用 He 等 人 的 权 重 初 始 化 。 [12] 和Adamoptimizer(β1=0. 9且dβ2=0。999,learningrateof2e−4)在3个GPU上运行12个epoch。在训练期间,刚性掩模损失在具有平衡权重的5个不同尺度上累积,并且我们选择wΘ= 100。 我们遵循与PWC-net Sun等人相同的训练。[33]第33段。我们将发布我们的代码,数据集和REFRESH工具包5。我们在各种设置下评估我们的方法,以显示刚度和姿态估计的性能及其对场景流估计的影响。为了在具有不同水平的非刚性运动的场景中进行有效分析,我们基于像素百分比的非刚性数量从SINTEL数据[2]节中6.1中,我们提供了RTN、细化和其他最先进方法的不同设置的性能比较节中6.2,我们使用真实世界图像对我们的方法进行定性评估。请参阅我们的视频了解更多定性评估。6.1定量评价我们首先在具有挑战性的SINTEL数据集[2]上评估我们的方法,SINTEL数据集是一个3D渲染动画,包含一系列23个动态场景,具有电影摄像机运动。该数据集有两个版本,具有不同的渲染设置:干净和最终。后一个集合包含运动模糊和景深效果,这在干净集合中不存在。由于官方的SINTEL测试数据集不提供RGB-D 3D流评估,我们将SINTEL训练集分为训练,验证和测试分割。对于测试分割,为了有效地评估和分析不同水平的非刚性运动在估计中的影响,我们选择小巷2(1.8%)、温度2(5.8%)、市场5(27.04%)、安布士h6(38. 96%),阳性4例(47. 10%),其中R(·)表示每个场景序列中的未覆盖区域。这些示例还包含足够量的相机运动。我们使用18个场景中其余场景的前5帧作为验证集,其余图像在我们的微调设置中进行训练。我们使用表1中的流量度量、表2中的相对姿态度量和表3中的刚度IOU示出了我们的定量评估。我们列出了自我运动流(EF)和投影场景流(PSF)中的端点误差(EPE),如在第2节中定义的。3. 我们提出的指标克服了传统的3D运动流评价的困难。我们将我们的方法与两种最先进的基于优化的RGB-D场景流解决方案进行比较:SRSF [25]和VO-SF [16],它们估计相机姿态作为流对应解决方案的一部分。4关于数据集的更多细节包括在补充材料中5代码存储库:https://github.com/NVlabs/learningrigidity.git动态场景中三维运动场估计的刚性学习算法11双帧叠加地面真实刚性我们的僵化(没有微调)[45]第四十五章:你是谁?地面实况投影场景流我们的投影场景流(无微调)VOSF[16]图6:我们的SINTEL测试分割的定性可视化。我们将我们的刚性预测与使用在我们的REFRESH数据集上训练的语义刚性[45]和我们的投影场景流与VOSF [16]的输出进行比较。此外,我们评估了三种类型的基线。第一种方法从流中求解细化阶段,而不需要来自RTN(仅细化)的任何输入,这是因为刚性通常主导场景[23,16,18]。其次,我们使用三点RANSAC从流中计算相机姿态。第三,为了公平地评估(RTN)的刚性及其泛化,我们将其与语义刚性估计[45]进行比较,后者假设可以从其语义标记中预测非刚性运动我们遵循Wulff等人[45]并使用从预训练的MS-COCO模型初始化的DeepLab [4]在姿势细化阶段,我们用语义刚性替换RTN中的刚性。为了对SINTEL进行微调评估,我们重新训练了RTN和语义刚性网络。 所有方法都使 用相同的光 流网络和权 重,并且 都使用来自SINTEL地面实况的相同深度。定性比较如图所示6.表1中的流度量表明:(1)与SRSF[25]和VOSF [16]相比,我们提出的具有学习刚性的算法可以在没有进一步微调(NO FT)的情况下显著提高场景流准确性(行(a),(b)vs(h);(k)、(l)与(r));(2)我们RTN的刚性面罩性 能 更 好-12Z. Lv等人表1:使用SINTEL数据集对我们的测试分割进行的流量残差定量评价。非刚性(NR)区域的比率指示场景中的像素的平均比率我们报告的EPE在自运动流(EF)和投影场景流(PSF)。对于非微调(NOFT)和微调(FT)设置中的所有基线方法,我们使用与我们的方法训练的相同的光流网络相同设置下的最低残差(例如无FT,干净设置)突出显示为粗体。NR区域10% NR区域10%-40%NR区域>40%所有测试胡同2寺庙2市场5埋伏6洞穴4平均EFPSFEFPSFEFPSFEFPSFEFPSFEF PSFCLEAN(无运动模糊)(a)SRSF [25]4.24 7.25 7.59 16.55 25.26 31.67 17.8410.7711.82十二点四七十八点五七(b)VOSF [16]6.53 1.13 5.13 10.36 16.02 35.24 13.39 28.316.059.308.86十五点二十四分(c)仅优化0.29 0.48 0.902.958.8122.343.5914.392.185.883.098.47没有FT(d)语义[45]+优化0.25 0.53 1.073.875.7715.741.709.580.854.341.966.42(e)RANSAC+流量0.31 0.57 0.472.737.3619.193.8614.892.175.942.697.78(f)RTN(使用Things[20])+优化0.34 0.60 1.473.987.2118.73 21.84 23.971.174.904.205.85(g)RTN(无姿态)+优化0.13 0.450.492.795.7816.24 3.7216.921.675.372.077.09(h)RTN+优化0.18 0.480.462.721.61 11.86 0.978.610.634.050.745.10FT(i)语义[45]+优化0.190.460.502.732.7313.45 1.139.942.075.87一点三五五点九八(j)RTN+优化0.180.470.42 2.64 1.69 11.537.74零点九一4.340.77五点零三分最终(带有运动模糊)(k)SRSF [25]4.33 7.78 7.59 15.51 24.93 31.2939.08 10.8013.29十二点三七十八点八六(l)VOSF [16]6.29 1.54 5.698.91 15.99 35.17 13.3724.02 6.239.288.96十四点六一(m)仅优化0.28 0.57 0.903.778.8020.64 3.5920.41 2.186.52三点零九八点九五没有FT(n)语义[45]+细化0.25 0.52 0.96 3.83> 100> 100 20.2335.46 11.0512.81>100> 100(o)RANSAC+流量0.36 0.61 0.623.414.6818.69 5.7920.86 2.286.552.318.47(p)RTN(使用Things[20])+优化0.25 0.52 5.069.824.8833.44美元52.21 1.055.075.44十一点八八(q)RTN(无姿态)+优化0.19 0.480.82 3.58 2.1513.97 3.3420.02 1.525.721.367.14(r)RTN+优化0.18 0.470.883.930.79 11.87 2.8219.42 0.664.660.826.29FT(s)语义[45]+优化0.19 0.481.91 5.191.5813.02 2.5819.11 2.136.501.557.39(t)RTN+优化0.210.48 0.66 3.27 0.97 11.35 2.3419.08 0.744.750.796.12与基于单视图语义分割的方法[45]相比,特别是在没有微调的更现实的最终通道中(行(d)对(g),(h);(n)对(q),(r));(3)如RTN+ refined中所示,刚性与姿态变换的同时学习比单独学习刚性实现了更好的泛化(行(g)对(h));(q)vs(r));(4)在我们的数据集上训练的RTN将更好的一致性推广到使用Things 3D训练的相同RTN [20](行(f)vs(h);(p)vs(r));以及(5)最终方法始终优于所有基线。请注意,语义刚性[45]可以实现更好的性能(来自表1),这取决于对SINTEL的微调,我们学习的刚性可以推广到看不见的复杂场景,并且表现得与微调模型一样好。我们的刚性预测可以很好地捕捉到看不见的物体,如图5中的龙所示。六 、表 2中 的 姿 态 度 量 评 估 包 括 两 个 其 他 基 线 : 基 于 深 度 的 ORB-SLAM[22]和点云配准[48]。如前所述,AC-动态场景中三维运动场估计的刚性学习算法13表2:在我们的SIN-TEL测试分割上使用的相对相机转换的定量评估。我们报告了相对姿态误差[30](RPE),该相对姿态误差由使用干净通道和最终通道从输出平均的SINTEL深度度量中的欧拉角(度)中的平移(t)误差和旋转误差(r)组成。NR区域10%NR区域10% -40%NR区域>40%所有测试胡同2寺2市场5埋伏6洞穴4平均RPE(t)RPE(r)RPE(t)RPE(r)RPE(t)RPE(r)RPE(t)RPE(r)RPE(t)RPE(r)RPE(t)RPE(r)[22]第二十二话0.03000.01900.17400.02200.15000.01600.05500.02800.01670.02770.08940.0218SRSF [25]0.04870.01410.17630.01170.15660.01050.06720.07290.02180.01500.09800.0180VOSF[16]0.10430.03160.10550.01550.0605 0.0006 0.03750.01900.04380.00460.07500.0136注册[1]0.04000.00940.39900.03810.02690.00730.06980.02250.05510.00760.12510.0162RANSAC+流量 0.00260.00470.02580.00330.04460.00430.03180.00820.03180.04110.02670.0039我们的RTN姿势0.03490.02370.15890.01200.15200.02080.04550.04930.02330.02120.08830.0220我们的(无英尺)0.0015 0.0036 0.0215 0.0010 0.0059 0.0009 0.0153 0.0061 0.00530.00090.0091 0.0020表3:使用刚性和非刚性场景的平均IOU评估刚性。平均IOU刷新val SINTEL clean val SINTEL final val语义刚性[2]在REFRESH0.9340.3920.446RTN在Things上受过训练[4]-0.2830.286RTN接受了我们的REFRESH0.9560.5420.627在摄像机运动的动态场景中,所有相关方法的准确性都高度依赖于忽略非刚性表面的能力。如表中所示,我们直接从RTN预测的姿态可以使用所有相关方法实现相同或更好的精度,并且我们的最终解决方案无需微调,可以显著优于所有最先进的方法。表3中的刚度度量进一步示出了刚度估计中的一般化与使用Things3D[20]和使用相同数据的语义刚性[45]训练的相同方法相比,我们在数据集上训练的方法具有更好的泛化效果6.2真实世界图像为了在真实世界的动态场景中测试我们的算法,我们使用了三个TUMRGB-D序列[30],其中包含从移动的Kinect相机观察到的动态运动深度输入是有噪声的,具有丢失的观察,并且彩色图像包含严重的运动模糊。 我们使用原始颜色和深度输入以及所提供的校准的相机本征函数作为输入,并且当深度值不在[0]内时将区域标记为无效区域。1、8]。在无效区域中,我们忽略刚性预测并将流对应视为异常值。 考虑到我们的真实数据没有3D运动流地面实况,我们将刚性预测和投影场景流可视化,以定性地显示图1中的性能。7.第一次会议。我们的研究结果表明,我们在半合成数据上训练的模型也可以很好地推广到具有显著运动模糊的真实噪声RGB-D数据。14Z. Lv等人(a) 两帧(b) 深度(c)刚性(红色)(d)光流(e)自我运动(f)预计覆盖第一帧流场景流图7:TUM [30]序列中动态序列的定性可视化。7结论和未来工作我们提出了一种基于学习的方法来估计动态场景中的刚性区域所此外,我们已经表明,我们的框架可以准确地计算3D运动场(场景流),以及两个视图之间的相对相机变换。为了更好地监督刚性学习任务并鼓励我们模型的推广,我们创建了一个新的半合成动态场景数据集REFRESH,它包含真实世界的背景场景以及合成的前景移动对象。通过各种测试,我们已经表明,我们提出的方法可以优于最先进的解决方案。我们还包括了一个新的指导方针,动态场景评价有关的金额场景运动和摄像机运动。我们观察到一些刚性掩模偏离地面实况的情况。我们注意到,在这些情况下,移动对象的大小很小,或者两个帧之间的时间运动很小。在这些情况下,误差和偏差尺度很小,这不会显著影响作为结果计算的3D注意,这种方法的成功还取决于光流的准确性。在光流失败或产生噪声结果的情况下,对应关系中的误差也将传播到3D运动场。在未来的工作中,我们可以通过利用渲染更多样化的数据集来解决这些问题,以鼓励在不同场景中进行泛化我们还将结合刚性和光流来改进对应性估计,并探索端到端学习的性能改进,包括对应性改进和RGB输入的深度估计。致谢这项工作得到了美国国家科学基金会和国家机器人计划的部分支持(Grant# IIS-1426998)。动态场景中三维运动场估计的刚性学习算法15引用1. Basha,T.,Moses,Y.,Kiryati,N.:多视图场景流量估计:一种以视图为中心的变分方法。在:IEEE Conf.计算机视觉和模式识别(CVPR)。pp. 15062. 巴特勒DJ Wulff,J.,Stanley,G.B.,布莱克,M.J.:一个用于光流评估的自然主义开源电影。在:欧洲会议。计算机视觉(ECCV)pp. 611-625.皇家学会(2012)3. Byravan,A. Fox,D.:SE 3-Nets:使用深度神经网络学习刚体运动。在:IEEEIntl.机器人与自动化会议(ICRA)。pp. 173-180. IEEE(2017)4. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:Deeplab:使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。1606.00915(2016)5. Dai,A., 我是M Zollo¨fe r,M., Izadi,S., Theobalt、C. BundleFusion:使用运行中的表面重新整合来实现全局一致的3D重建。ACM Transactions on Graphics2017(TOG)(2017)6. Dellaert,F.:因子图和GTSAM :动手介绍。Tech. 众议员GT-RIM-CP R-2012-002,GTRIM(2012年9月),https://research.cc.gatech.edu/borg/sites/edu.borg/files/downloads/gtsam.pdf7. 做得很好A Fische r,P., I Ig,E.,Hsse r,P., Hazırbas,C., Golkov,V., v. D.Smagt,P.,Cremers,D. Brox,T.:Flownet:使用卷积网络学习光流。In:Intl.Conf. 计算机视觉(ICCV)pp. 27588. Geiger,A., Lauer,M., 沃杰克角 斯蒂勒角 乌尔塔松河: 3D交通场景从可移动的平台上理解。IEEE传输模式分析机器内部(2014年)9.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功