没有合适的资源?快使用搜索试试~ 我知道了~
来自4D光场梯度的3D场景流放大图片作者:Mr.史密斯和莫希特·古普塔美国威斯康星大学麦迪逊分校计算机科学系{sizhuoma,bmsmith,mohitg}@ cs.wisc.edu抽象。本文提出了新的技术,用于恢复三维密集场景流,基于差分分析的4D光场。关键的启用结果是将3D场景流与4D光场梯度相关联的每射线线性方程,称为射线流方程射线流方程对于3D场景结构是不变的,并且适用于一般类别的场景,但是是欠约束的(每个方程3个未知数)。因此,必须施加额外的约束以恢复运动。我们开发了两个家庭的场景流算法,利用光线流和光流方程之间的结构相似性:本地的我们还利用光场的对应结构发展了一种局部-全局相结合的方法我们展示了高精度的三维场景流恢复范围广泛的情况下,包括旋转和非刚性议案我们通过光场结构张量分析了所提出的技术的理论和实际性能限制,光场结构张量是一个编码光场局部结构的3×3矩阵。我们设想,所提出的分析和建议将导致设计未来的光场相机,其除了深度感测之外还针对运动感测进行优化。1介绍测量密集3D场景运动的能力具有许多应用,包括机器人导航、人机界面和增强现实。想象一下,头戴式摄像机跟踪手的3D运动以在虚拟环境中操纵对象,或者社交机器人试图从细微的身体运动确定人这些应用需要精确测量每像素3D场景运动,也称为场景流[31]。在本文中,我们提出了一种新的方法来测量三维场景流与光场传感器[1,24]。该方法基于新约束的推导,即光线流方程,其将场景的密集3D运动场与测量的光场的梯度相关,如下所示:、其中VX、VY、VZ是每像素3D场景流分量,LX、LY、LZ是4D光场的空间-角度梯度,并且Lt是时间光场导数。这个简单的线性方程描述了光线流,定义为4D光场中的局部变化这是由于小的、差分的3D场景运动。光线流方程与场景深度无关,并且广泛适用于一般类别的场景。射线流方程是一个欠约束线性方程,每个方程有三个未知数(VX、VY、VZ因此,不可能恢复完整的3D场景流LX VX+LY VY+LZ VZ+Lt=02S.马,B。M.史密斯和M。古普塔而不施加进一步的限制。我们的关键观察结果是,由于光线流和经典光流方程[14]之间的结构相似性,在光流研究的三十年中开发的正则化技术可以很容易地适用于约束光线流。光线流和光流之间的类比提供了设计基于光线流的算法的一般方法,用于直接从测量的光场梯度恢复3D密集我们开发了场景流恢复算法的两个基本家族:局部Lucas-Kanade方法和全局Horn-Schunck方法,基于局部和全局光流[14,20]。我们还设计了一个高性能的局部-全局相结合的方法,利用光场的对应结构。我们采用现代最先进的光流算法(例如:例如,在一个实施例中,用于保持运动不连续性、恢复大运动的技术)。使用这些技术,我们展示了三维流动计算与亚毫米精度沿所有三个轴,为广泛的场景,包括复杂的非刚性运动。理论和实际性能分析:所提出的技术可恢复的运动空间是多少?什么因素影响他们重新覆盖3D运动的能力?为了解决这些基本问题,我们定义了光场结构张量,一个编码局部光场结构的3× 3矩阵我们表明,可恢复的运动的空间是由光场结构张量,这取决于场景纹理的属性(秩和特征值)我们还分析了光线流技术的性能依赖于光的成像参数场相机(e.例如,在一个实施例中,角分辨率、孔径尺寸和视场[11])。该分析确定了所提出的算法的理论和实际性能限制,并且还可以通知针对运动感测优化的未来光场相机的设计。范围和影响:本文的主要目的是建立从光场梯度计算三维场景流的理论基础。在这样做的时候,本文采取的第一步定位光场相机作为有效的3D运动传感器,除了他们的深度估计能力。虽然我们已经实现了几个概念验证的光线流方法,它是可以利用大量的光流研究和设计新颖的,实用的光线流算法在未来。这些算法,连同针对运动感测优化的新颖光场相机设计,可以潜在地在广泛的应用中提供高精度3D运动感测能力,包括机器人操纵、用户界面和增强现实。2相关工作光场场景流程:现有技术的场景流方法通过组合光流和深度的变化(例如,深度的变化)来计算3D运动。例如,在一个实施例中,通过立体[15,34]或RGB-D相机[12,29])。之前也已经提出了用于光场相机的场景流方法我们的目标不同:我们使用光场来直接恢复3D场景运动。因此,所提出的方法不会受到测量深度中的误差的不利影响,从而导致精确的运动估计,特别是对于细微的运动。光场测距法:光场已用于恢复相机的自我运动[10,22],并通过运动恢复结构技术[17,35]计算高质量的3D场景重建。这些方法基于与凸轮相关的约束来自4D光场梯度的3(a) 光线参数化X(b) 场景运动引起的光线流Fig. 1. (a)光线由4D坐标(x,y,u,v)参数化,4D坐标(x,y,u,v)由光线与平面Z= 0和Z = r的交点(x,y,0)和(x + u,y + v,r)确定,其中r是固定常数。(b)发射或反射光线的场景点的运动(平移)导致光线的(x,y)坐标的变化,但(u,v)坐标保持恒定。时代运动和光场。 该约束与本文中导出的方程具有相同的结构形式,尽管它们是在不同的上下文中导出的(相机运动与相机运动)。非刚性场景运动)。这些作品的目的是恢复6度的自由度(6DOF)的相机运动,这是一个过度约束的问题。我们的重点是恢复3D非刚性场景运动在每个像素,这是下约束,由于相当高的自由度。从差动运动恢复形状:Chandraker等人开发了一个综合理论,用于从光源、物体或相机的差动运动中恢复形状和反射率[7-9,19,32]。虽然我们的方法也是基于光场的差分分析,但我们的目标是不同的3光线流方程考虑3D位置X=(X,Y,Z)处的场景点P。令L(X,θ,φ)是P沿方向(θ,φ)的辐射率,其中θ,φ是如在球坐标中定义的极角和方位角函数L(X,θ,φ)被称为全光函数:它定义了沿着所有可能光线方向的所有位置处的辐射率。假设辐射率不沿着射线改变,5D函数L(X,θ,φ)可以被简化为4D光场L(x,y,u,v),其中每条射线通过其与两个平行平面Z=0和Z=Γ的相交来参数化,其中Γ是固定常数。这在图1(a)中示出令射线分别在点(x,y,0)和(x+u,y+v,Γ)处与平面相交然后,射线由坐标(x,y,u,v)表示。注意,(u,v)是相对坐标;它们表示两个交点的X和Y这被称为光场的双平面参数化[18,24],并且广泛用于表示由相机捕获的光场。由基本三角学,关系场景中心坐标(X,Y,Z,θ,φ),并且其相机中心坐标(x,y,u,v)由下式给出x=X−Ztanθ cosφ,u=Γ tanθ cosφ,y= Y − Z tan θ sin φ,v = Γ tan θ sin φ。(一)YΓ场景补丁ZX(,(+u,y + v,Γ)���YΓ∆(∆,∆y)′(∆,∆y)Z4S.马,B。M.史密斯和M。古普塔场 景 运 动 对 光 场 的 影 响 : 设 场 景 点 P 在 时 间 t 和 t+∆t 的 3D 位 置 为 X , 且X′=X+∆X,其中∆X=(∆X,∆Y,∆Z)为小(差分)3D运动(如图1(b)所示)。考虑由P反射(发射)的射线。我们假设包含P的场景块仅在运动1期间平移,使得光线仅平行于自身移动,i。例如,(u,v)射线的坐标保持恒定。设射线在运动前后的坐标为(x,y,u,v)和(x+∆x,y+∆y,u,v)。然后,假设光线亮度在运动2期间保持恒定:L(x,y,u,v,t)= L(x + ∆x,y + ∆y,u,v,t +∆t)。(2)该光线亮度恒定性假设类似于场景亮度恒定性假设。在光流中作出稳定性假设方程的一阶泰勒展开2给出:L∆x+xL∆y+伊L∆t= 0。(三)普雷特我们将光线流定义为由于场景运动引起的光线坐标的变化(∆x,∆y)。当量3涉及光线流和光场梯度(L,L,L)。从等式1、我们可以x伊普雷特还找到光线流和场景运动之间的关系∆x=∆y=x∆X+X伊∆Y+Yxu∆Z=∆X−Z Γv∆Z=∆Y−ZΓ∆Z,∆Z.(四)通过替换Eq。4在Eq.使用符号L*表示光场梯度,我们得到:、(五)其中LX=L,LY=L,LZ= −uL−vL,Lt=L,V=(VX,VY,VZ)=(∆X,∆Y,∆Z)。xΓ-α xΓ∂y ∂t∆t∆t ∆t我们称之为光线流方程;它将3D场景运动和测量的光线联系起来场梯度这个简单而强大的方程使得能够从测量的光场梯度恢复密集场景流,如我们在第4节至第6节中所描述的在本节的其余部分中,我们将讨论射线流方程的显着性质,以获得对其含义的直观和见解。3.1不同场景运动由于不同的场景运动的光线流有有趣的质的差异。为了使差异可视化,我们将4D光场传感器表示为针孔的2D阵列。相机,每个相机具有2D图像平面。在该表示中,光场的坐标(u,v)L(x,y,u,v)表示各个图像(子孔径图像)内的像素索引。(x,y)坐标表示相机的位置,如图2所示1 对于旋转对象,一般来说,小场景块的运动可以被建模为平移,尽管表面法线发生了变化。对于小旋转(表面法线的小变化),可以假设贴片的亮度近似恒定[31]。2 在光源远离使得表面法线和照明方向的点积N·L不改变的假设下,这是真实的[31]。LX VX+LY VY+LZ VZ+Lt=0来自4D光场梯度的5场景子孔径图像射线流由于不同的场景运动图二.不同场景运动导致的光线流。(左)我们将光场传感器表示为针孔相机的2D阵列,每个针孔相机捕获2D图像(子孔径图像)。(u,v)表示每个子孔径图像内的像素索引。(x,y)表示相机的位置。(右)对于X/Y场景运动,光线跨子孔径图像水平/垂直移动。子孔径折射率的变化量(Δ x,Δ y)与光线的坐标无关对于Z运动,射线跨子孔径图像径向移位。位移取决于每条射线每个子孔径图像(u=0,v= 0)的中心处的光线不移位。在所有情况下,光线保持相同的像素索引(u,v),但是移动到不同的子孔径图像。对于X/Y场景运动,光线跨子孔径图像水平/垂直移位偏移量(∆x,∆y)与射线的原始坐标无关,如从等式(1)中显而易见的4.第一章对于Z运动,射线跨子孔径图像径向移位偏移量取决于光线当量4).例如,每个子孔径图像(u=0,v= 0)的中心处的光线不移位。在所有情况下,光线在运动之后保持相同的像素索引(u,v),但是在不同的子孔径图像(x,y)中,因为场景运动导致光线平行于自身平移3.2光线流对场景深度的不变性一个重要的观察是,光线流方程不涉及场景点的深度或3D位置。在常规运动估计技术中,深度和运动估计耦合在一起,并且因此需要同时执行[2]。相比之下,射线流方程解耦深度和运动估计。这具有重要的实际意义:然后,可以直接从光场梯度恢复3D场景运动,而不显式地恢复场景深度,从而避免由于中间深度估计步骤引起的误差。注意,尽管经由射线流的运动估计不需要深度估计,但是所估计的运动的准确度取决于场景深度。对于远处的场景,捕获的光场与4D低通点扩散函数卷积,这使得梯度计算不可靠。结果,不能可靠地估计场景运动3.3光线流与光流的相似性对于捕获的光场中的每条光线,我们有一个具有三个未知数的光线流方程要求解,这给了我们一个欠约束系统。因此,需要做出额外的假设来进一步限制问题。这类似于2D光流中的众所周知的孔径问题,其中光流方程Iy uy+It=0也是欠约束的(1个方程,2个未知数(ux,uy))。有一些X运动Y运动Z运动6S.马,B。M.史密斯和M。古普塔∑LS=∑i=1 Li=1i=1L毅紫光流射线流线性方程:I x u x+ I y u y+ I t= 0线性方程:LX VX+LY VY+LZ VZ+Vt=0系数:图像梯度(Ix,Iy,It)系数:光场梯度(LX、LY、LZ、Lt)每像素2个未知数:像素运动(u x,u y)每像素3个未知数:场景运动(VX、VY、VZ)在2D图像空间中计算的运动(ux,uy)(像素)在3D场景空间中计算的运动(VX,VY,VZ)2D图像网格上定义的梯度(Ix,Iy)在4D光场网格上定义的矢量(LX、LY、LZ)ux和uy流计算是对称的X/Y和Z运动计算不对称结构张量大小:2× 2结构张量大小:3× 3结构张量的可能秩:[0, 1, 2]结构张量的可能秩:[0, 2, 3]表1.光流与射线流的比较射线流和光流之间存在有趣的差异(见表1),但关键的相似之处在于射线流和光流都是欠约束线性方程。幸运的是,光流是计算机视觉中研究最多的问题之一广义地说,基于为正则化问题而施加的附加约束,存在两类差分光流技术第一种是局部方法(e。例如,在一个实施例中,Lucas-Kanade [20]),其假设光流在小图像邻域内是恒定第二种是全局方法(E。例如,在一个实施例中,Horn-Schunck [14]),其假设光流在图像上平滑地变化通过利用光流和射线流方程之间的结构相似性,我们相应地开发了两个家庭的射线流技术:局部射线流(第4节)和全球射线流(第5节)。4局部在本节中,我们开发了基于局部光线流的场景流恢复方法,灵感来自Lucas-Kanade光流[20]。这类光线流方法假设运动矢量V在局部4D光场窗口中是恒定的考虑一条射线,它具有Co-纵坐标xc=(x,y,u,v)。我们将所有形式的方程叠加起来。5从xc,xi∈N(xc)的局部邻域中的射线到线性系统AV=b中,其中:LX(x1) LY(x1) LZ(x1)−Lt(x1)A=..,b =.。(六)。..好吧LX(xn) LY(xn) LZ(xn)− Lt(xn)然后,运动矢量V可以通过正规方程来估计:V=(ATA)−1ATb。(七)4.1什么是可恢复运动的空间?在上一节中,我们讨论了不可能从单个射线流方程恢复完整的3D运动矢量一个自然的问题是:什么是空间的可恢复的运动与额外的局部恒定性约束?直观地,它取决于光场的局部结构。例如,如果局部窗口对应于无纹理场景,则没有运动可恢复。一种解决这个问题是通过理解3× 3对称矩阵S=ATA的性质来解决的。科隆 2号i=1 习ni=1LXi李易ni=1LXi吕子科隆i=1 LYiLXi∑n2ni=1 LYi LZi,(8)ni=1LZiLXi∑nLZiLYi∑n2∑∑∑∑来自4D光场梯度的7 ଶ ଷ ଵ平滑区域边缘纹理区域结构张量的秩= 0结构张量的秩= 2结构张量的秩= 3零速度矢量集2D速度矢量集(在平面中)3D速度矢量集图三.场景纹理、光场结构张量的秩和可恢复运动空间之间的关系。(Top)场景补丁。(中)光场成分的分布;每个点表示在光场窗口中的一个位置处计算的梯度(LX,LY,LZ)。梯度的协方差用椭球表示,椭球的主轴与结构张量的三个特征值λ1,λ2,λ3成(底部)可恢复的运动向量的集合。(左)对于对应于平滑片的光场窗口,梯度(LX,LY,LZ)近似为零,并且集中在梯度空间中的原点周围。结构张量的秩为0,这意味着没有运动矢量可以被可靠地恢复(中)对于具有单个边缘的贴片,非零梯度近似地沿着梯度空间中的平面分布,从而导致秩2结构张量(1-D零空间)。结果,可以恢复2D运动族(与边缘正交)。(右)对于具有2D纹理的面片,非零梯度在梯度空间中几乎各向同性地分布。因此,结构张量具有秩=3。因此,3D运动的整个空间是可恢复的。其中L*i是L*(xi)的缩写。我们定义S为光场结构张量;它编码光场的局部结构。3使用等式(1)估计运动。7,S必须是可逆的。因此,局部方法的性能可以根据秩(S)来理解。结果(结构张量的秩)结构张量S有三种可能的秩:0、2和3用于局部4D光场窗口。这些分别对应于没有纹理(平滑区域)、边缘和2D纹理的场景补丁。3结构张量已经在光场社区中进行了不同的研究和定义(例如:例如,在一个实施例中,[23])。这里,它由梯度w.r.t.3D运动,因此是3× 3矩阵。 ଵ ଶ ଷ ଶ ଷ ଵ图像块可恢复速度矢量光场梯度分布8S.马,B。M.史密斯和M。古普塔λ直觉:在下文中,我们通过考虑三种情况来提供上述结果的直觉。补充技术报告中给出了详细的证明。情况1:平滑区域。在这种情况下,对于光场窗口中的所有位置,LX=LY=LZ=因此,结构张量的所有条目(在等式2中给出)都可以被表示为:8)为零,导致其为秩0矩阵。所有三个特征值λ1、λ2、λ3=0,如图3的左列结果,它具有3-D零空间,并且没有运动矢量可以可靠地恢复该窗口。情况2:单阶边缘。 不失一般性,假设光场窗口对应于具有垂直边缘的前平行场景片,即。例如,LY=0。结构张量的中间行是全零,导致秩2矩阵,具有1-D零空间(仅一个特征值λ3=0)。结果,可以恢复2D运动族(与边缘正交的运动),如图3的第二列所示。情况3:2D纹理。所有三个导数都是非零且独立的。结构张量是满秩(秩=3),并且3D运动的整个空间是可恢复的。与光流的结构张量的比较:2D光流的结构张量是一个2 × 2矩阵,并且可以具有从0到2的所有可能秩[26]。 对于光场,结构张量不能具有秩1。这是因为即使是具有单步边缘导致秩2结构张量。4关于光流和射线流之间更多概念上的比较,请参考表1。依赖于相机参数。除了场景纹理和光场结构外,光场相机的成像参数也影响射线流方法的性能使用光线流方程需要计算角光场梯度(LX和LY),其精度取决于光场相机的角分辨率。大多数现成的光场相机具有相对较低的角分辨率(例如,100%)。例如,在一个实施例中,15× 15对于Lytro Illum),导致混叠[22]。为了减轻混叠,我们在计算梯度之前应用高斯预滤波。另一个重要参数是孔径大小限制了可恢复运动的范围这是因为光线流会更改光线的(x,y)坐标当运动太大时,大部分射线将逸出孔径,并且运动不能被恢复(见图11)。2)的情况。有关各种摄像机参数影响的详细讨论,请参见补充报告4.2增强的本地方法到目前为止,我们的分析假设小(差分)场景运动。如果帧间场景运动较大,则简单的线性光线流方程无效。将场景运动与所捕获的光场中的所得变化相关联的另一种方式是定义光场上的扭曲函数,其描述坐标x=(x,y,u,v)的变化。由于场景运动V的光线(等式1)1):u vw(x,V)=(x + V X− Γ V Z,y + V Y− Γ V Z,u,v)。 (九)4虽然结构张量理论上具有秩2,但是最大和第二张量的比率λ1是最小的。2最大的特征值可以很大。这是因为对应于Z运动的本征值取决于(u,v)坐标的范围,其受光场窗口的大小限制因此,运动恢复需要足够大的窗口尺寸。来自4D光场梯度的9然后,局部方法可以被公式化为局部光场配准问题:minΣ(L0(xi)-L1(w(xi,V)))2.(十)Vxi∈N( xc)由Eq. 7是相同的局部线性化方程。10.使用这个公式,我们开发了一个增强的本地方法,其中的运动矢量V是解决了一个光场金字塔处理大(非差分)场景运动。5全局局部射线流方法在处理非刚性运动时,局部恒定性假设过于严格。在本节中,我们提出了一系列受全局“Horn-Schunck”光流启发的全局光线流方法[14]。基本的、较少限制的假设是3D流场在场景上平滑地变化因此,我们通过引入平滑项来正则化流计算,该平滑项惩罚V的大变化并最小化全局泛函:E(V)=ED(V)+ES(V),其中(11)∫ED(V)=∫(LX VX+LY VY+LZ VZ+Lt)2dxdydudv,Ω.ΣES(V)λ|V X|2+ λ |V Y|2+ λZ|V Z|2Ωdxdydudv.注意,Ω是4D光场域,p是标量场p的4D梯度:p=(由于X/Y流和Z流的计算是不对称的,x伊∂u ∂v我们对X/Y和Z平滑度项使用不同的权重实际上,我们使用λ=8和λZ=1。E(V)是一个凸泛函,它的最小值可以通过欧拉-拉格朗日方程找到。详见补充技术报告。加强全球方法。在基本全局射线流方法中使用的二次罚函数(等式(Eq.11)惩罚流动不连续性,导致运动边界周围的过度平滑在光流社区[3,5,25]中,已经表明鲁棒罚函数在运动不连续性周围表现得明显更好在此基础上,我们提出了一种改进的全局方法,该方法使用广义Charbonnier函数ρ(x)=(x2+ ε2)a,其中a = 0. [28]第456局部-全局射线流到目前为止所考虑的光线流方法分别处理每条光线的运动。然而,光场相机捕获来自同一场景点的多条光线,所有这些光线共享相同的运动。我们可以利用这个约束,以进一步提高性能的射线流为基础的运动恢复方法?考虑来自场景点S=(X,Y,Z)的具有坐标(x,y,u,v)的射线。所有射线的坐标来自S的光在4D光场中形成2D平面P(u,v)[10,17,27]:P(u,v)={(xi,yi,ui,vi)|u i= u − α(x i− x),v i= v − α(y i−y)},(12)10S.马,B。M.史密斯和M。古普塔ZX Y Z见图4。测量光场梯度。示例场景的光场(在静态背景前面的X-Z平面中移动的卡片)被示出为子孔径图像的3× 3子集(左)。仅针对中心子孔径示出光场梯度。放大查看详细信息。其中参数α=Γ是子孔径图像之间的视差,并且S的深度Z的函数。所有这些射线共享相同的流向量V=(VX,VY,VZ)。因此,我们可以通过最小化以下函数来估计VminV∑xi∈P(u,v)(L Xi V X+ L Yi V Y+ L Zi V Z+ L ti)2.(十三)给定参数α(可以使用基于光场的深度估计[33]确定),该函数可以与局部方法(第4节)类似地最小化,该方法假设局部4D射线邻域N(u,v)中的射线运动恒定。虽然局部恒定性假设仅是近似的,但是在等式(1)中描述的2D平面12是一个精确的约束,导致更好的性能。此外,为了进一步正则化问题,我们可以利用第5节中全局方法中使用的运动假设的全局基于这些观察结果,我们提出了一种组合局部-全局(CLG)射线流方法[6],其数据项通过最小化局部项(等式2)给出13)对于中心视图中的每条射线Ω c:∫ED(V)=∑Ωcxi∈P(u,v)(L Xi V X+L Yi V Y+L Zi V Z+ L ti)2dudv.(十四)该局部数据项与在PDMC上定义的全局平滑项相结合。ES(V)∫。Σλ|V X|2+ λ |V Y|2+ λZ|V Z|2Ωcdudv.(十五)该公式仅针对2D中心视图Ωc估计运动,同时利用来自整个光场的信息,从而同时实现计算效率和高精度。此外,通过采用局部和全局方法的增强,CLG方法优于单独的局部和全局方法。因此,在本文的其余部分中,我们仅显示CLG方法的结果。还要注意,CLG射线流方法仅隐式地使用估计的深度作为正则化的附加约束。因此,与先前的方法[13,21,27]不同,准确地估计深度对于恢复运动并不重要CLG方法的实施细节、局部、全局和CLG方法之间的比较以及证明深度精度对CLG方法影响的模拟结果,请参见7实验结果对于我们的实验,我们使用Lytro Illum相机,使用几何校准工具箱[4]校准。我们提取中心9× 9子孔径图像,每个子孔径图像来自4D光场梯度的11图像X-血流(CLG)X-血流(PD-血流)X-血流(OLFW)MAE(mm)单位:mm电话:+86-21 -5555555传真:+86-21 - 55555555Z-Flow(CLG)Z-Flow(PD-Flow)Z-Flow(OLFW)X-Flow Y型流量和Z型流量CLG0.0680.0140.075PD-Flow 0.0620.0320.250OLFW0.0630.0510.420单位:mm电话:+86-21 -5555555传真:+86-21 - 55555555X-Flow(CLG)X-Flow(PD-Flow)X-Flow(OLFW)MAE(mm)单位:mm电话:+86-21 -68888888传真:+86-21 - 68888888Z-Flow(CLG)Z-Flow(PD-Flow)Z-Flow(OLFW)X-Flow Y型流量和Z型流量CLG0.101个单位0.0180.105PD-Flow 0.1150.0590.507OLFW 0.3080.1891.751单位:mm-2.00.02.0- 2.00.02.0- 2.00.02.0图五.翻译阶段的受控实验。(Top)一张斜向移动的牌。(下)三张牌分别沿对角线向前、横向和对角线向后移动。三个运动分量的平均绝对误差(MAE)如表所示虽然所有的方法恢复的横向运动相对准确,所提出的CLG射线流的方法估计的Z-运动比以前的方法更准确。 这是因为先前的方法依赖于深度估计,并且因此易于在深度估计中出错。相比之下,我们的方法直接从光场梯度估计运动,从而实现高精度。空间分辨率为552× 383。图4示出了示例光场和计算的梯度。我们比较我们的组合局部-全局方法(CLG)与Jaimez等人的RGB-D场景流方法(PD-Flow)。[16]和Srinivasan等人的光场场景流方法(本文称为OLFW)。[27]第10段。为了公平比较,我们使用与OLFW[30]中相同的算法,在PD-Flow中使用相同的模态(光场)进行深度估计(从光场估计的深度是深度通道输入)请参考补充视频,以获得更好的场景运动可视化。翻译阶段的受控实验 图5显示了场景流恢复12S.马,B。M.史密斯和M。古普塔CLG(我们的)PD-Flow[28]RMSE(mm)2.5621.54120.50 1 2 3 4 50X移动(mm)(a)2 4 6 810Z向运动(mm)(b)X/Y运动(c)见图6。运动量和运动类型的影响。我们使用一个单一的纹理平面作为场景,以排除其他因素(运动边界,遮挡)的影响(a)对于X运动,当运动大于3.5mm时,我们的方法的误差迅速增加,而PD-Flow和OLFW适度地降级。(b)对于Z运动,我们的方法优于先前的方法,因为它不依赖于准确的深度估计。(c)该图定性地显示了最适合于估计不同数量和种类的运动的方法。虽然以前的方法可以可靠地测量大的运动,所提出的方法更适合于小,特别是轴向,运动。图像Z-Flow(CLG)Z-Flow(PD-Flow)Z-Flow(OLFW)单位:mm电话:+86-510- 8888888传真:+86-510 -8888888图像Y型流(CLG)Y型流(PD-流)Y型流(OLFW)单位:mm电话:021 - 88888888 传真:021-88888888见图7。恢复非平面和非刚性运动。(Top)旋转的球形装饰物所有方法都可以估计逐渐变化的Z运动,但只有我们的方法正确地恢复背景(下)一只张开的手。通过手指的不同Y运动来证明膨胀结果是有意选择具有简单几何形状和足够纹理的场景,以比较这些方法的基线性能移动物体(扑克牌)安装在可控平移台上,使得它们可以在X-Z平面中以测量的地面真实运动移动。计算三维的平均绝对误差(MAE)(地面实况Y运动为零),并在表中显示。所有三种方法都能很好地恢复X运动。然而,PD-Flow和OLFW不能可靠地恢复Z运动,因为与毫米级Z运动相比,深度估计中的误差较大。所提出的射线流方法直接估计Z运动,从而实现更高的精度。取决于运动的量和种类的性能。我们在平移台上安装一个纹理塑料片,并横向移动(X运动)或CLG(我们的)PD-Flow[28]基于深度的方法[16,27]射 线 流法RMSE(mm)Z运动来自4D光场梯度的13图像Y型流(CLG)Y型流(PD-流)Y型流(OLFW)单位:mm电话:+86-21 - 6666666传真:+86-21 -66666666图像X-血流(CLG)X-血流(PD-血流)X-血流(OLFW)单位:mm电话:+86-21- 68888888传真:+86-21 -68888888见图8。在有遮挡的自然环境中恢复运动。(Top)左边的马克杯 被一只手拿起来。我们的方法准确地估计运动边界。(下图)这种植物顶部的两个垂直树枝在风中颤动。我们的方法可以正确地计算两个复杂形状的分支的运动。图像X-血流(CLG)X-血流(PD-血流)X-血流(OLFW)单位:mm电话:+86-510- 8888888传真:+86-510 -8888888图像X-血流(CLG)X-血流(PD-血流)X-血流(OLFW)单位:mm电话:+86-510- 8888888传真:+86-510 -8888888见图9。恢复人类行为。(Top)握手。这三种方法都能正确地计算手的连接运动,而我们的方法最好地保留了手的边界挥手.我们的方法正确地估计运动,尽管在背景中的反射和无纹理区域,这是具有挑战性的深度估计算法。轴向(Z运动)。图6(a)(b)绘制了相对于运动量的估计运动的RMSE。该方法实现了更高的精度为小运动。然而,其精度随着运动量的增加而降低。这是由于孔径大小的限制,如4.1节所述。另一方面,以前的基于深度的方法[27]可以在大范围内恢复运动,尽管精度较低。我们的方法和以前的方法的这种互补的能力集在图6(c)中定性地示出。虽然在本文的其余部分,我们专注于展示我们的方法例如,在一个实施例中,申请-14S.马,B。M.史密斯和M。古普塔图像Z-Flow(CLG)Z-Flow(PD-Flow)Z-Flow(OLFW)单位:mm电话:+86-21- 68888888传真:+86-21 -68888888图像Y型流(CLG)Y型流(PD-流)Y型流(OLFW)单位:mm电话:+86-510- 8888888传真:+86-510 -8888888见图10。在具有挑战性的照明条件下恢复运动。(Top)一个小雕像在微弱的定向光线下移动。我们的方法仍然保留了对象的整体形状,尽管它在桌子上的反射也被认为是移动的。(下)故障案例:一些物体独立地移动。由于背景中存在阴影和缺乏纹理,这三种方法在恢复的运动场中无法区分物体的边界。虽然在手指手势和面部表情识别中存在阳离子),但是先前的方法[27]可以更好地用于测量大规模运动,例如步态识别。定性比较。图7-10显示了三种方法在复杂、非刚性运动和具有挑战性的自然环境中的定性比较。对于每个实验,我们只显示一个组件的恢复的3D流。完整的3D流动可视化和更多实验请参见在所有示例中,我们的方法能够估计复杂的、逐渐变化的运动场,并且比其他方法更好地保留运动边界,特别是对于涉及小Z运动的实验,并且其中深度估计是不可靠的(例如,深度估计不可靠)。例如,在一个实施例中,背景中具有遮挡或反射的场景)。在图10(底部)中,由于阴影,所有三种方法都难以保持对象边界,这是亮度恒定性假设的固有缺点。8限制可恢复活动度:如第4.1节和第7节所述,射线流方法的最大可恢复运动量受到孔径大小的限制。未来的研究方向是根据场景运动的量和性质开发结合光线流方法和基于深度的方法的混合方法[16,27]运行时间:目前,我们的方法是通过未优化的MATLAB代码实现的,这需要大约10分钟来计算两帧之间的场景流。进一步的工作包括降低算法的计算复杂度和有效地实现算法(例如,例如,在一个实施例中,在GPU上),用于实时应用。谢谢。作者要感谢ONR资助号N 00014 -16- 1-2995和DARPA REVEAL计划资助这项研究。来自4D光场梯度的15引用1. 阿德 尔森 E.H.王 J.Y.A. :单 镜头 立体 与全 光相 机。 IEEE Transactions on PatternAnalysis and Machine Intelligence(TPAMI)14(2),992. Alexander,E.,Guo,Q.,Koppal,S.,Gortler,S.,Zickler,T.:焦点流:测量距离以及具有散焦和差动运动的速度。欧洲计算机视觉会议(ECCV)pp. 667-682.海德尔堡,施普林格(2016)3. 布莱克,MJ Anandan,P.:多个运动的鲁棒估计:参数和分段光滑流场。ComputerVision and Image Understanding63(1),75-104(1996)4. Bok,Y.,Jeon,H.G.,Kweon,I.S.:基于线特征的微透镜光场相机几何标定IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI)39(2),2875. Brox,T.,Bruhn,A.,Papenberg,N.Weickert,J.:高精度光流估计基于一个扭曲的理论欧洲计算机视觉会议(ECCV)25-36(2004年)6. Bruhn,A., Weick ert,J., Sch no¨r,C.:Lucas/kanade与Horn/Schunck:结合局部和全局光流方法。国际计算机视觉杂志(IJCV)61(3),211-231(2005)7. Chandraker,M.:从运动中恢复形状和材料。欧洲计算机视觉会议(ECCV)pp.202-217. 03 The Dog(2014)8. Chandraker,M.:相机运动揭示了未知brdf形状的什么。IEEE计算机视觉与模式识别会议(CVPR)pp. 2171-2178. IEEE,华盛顿(2014年)9. Chandraker , M. : 运 动 观 察 者 对 未 知 各 向 同 性 brdf 形 状 的 可 用 信 息 。 IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI)38(7),128310. Dansereau,D.G.,马洪岛皮萨罗岛Williams,S.B.:全光流:闭合形式vi-用于光场照相机的视觉测距法。IEEE/RSJ智能机器人与系统国际会议(IROS)pp.4455-4462. IEEE,华盛顿(2011年)11. Dansereau,D.G.,Schuster,G.,Ford,J.,Wetzstein,G.:一种宽视场单中心光场相机。IEEE计算机视觉与模式识别会议(CVPR)IEEE,华盛顿(2017)12. Gottfried,J.M. Fehr,J.,Garbe,C.S.:从多模态kinect数据计算距离流。在:国际视觉计算研讨会。pp. 758-767. 03 The Dog(2011)13. Heber,S.,Pock,T.:基于预条件原始-对偶算法的光场场景流估计。In:Jiang,X.,Hornegger,J.,科赫河(编辑)模式识别pp. 3-14. 2014年《施普林格国际14. Horn,B.K.,Schunck,B.G.:确定光流。人工智能17(1-3),18515. 洪正雄,徐,L.,Jia,J.:具有链式时间剖面的一致的双目深度和场景流国际计算机视觉杂志(IJCV)102(1-3),27116. Jaimez,M.,Souiai,M.,Gonzalez-Jimenez,J.,Cremers,D.:的原始-对偶框架实时密集RGB-D场景流。IEEE International Conference on Robotics and Automation(ICRA)pp. 98-104. IEEE,华盛顿(2015年)17. Johannsen,O.,Sulc,A.,Goldluecke,B.:光场照相机的运动线性结构IEEEInternational Conference on Computer Vision ( ICCV ) pp. 720-728. IEEE , 华 盛 顿(2015年)18. Levoy,M.,Hanrahan,P.:光场渲染。SIGGRAPH计算机图形学和交互技术会议。pp. 31-42. ACM,纽约(1996年)16S.马,B。M.史密斯和M。古普塔19. Li,Z.,徐志,Ramamoorthi河Chandraker,M.:光场中brdf不变形状的鲁棒能量最小化。IEEE计算机视觉与模式识别会议(CVPR)第1卷。IEEE,华盛顿(2017)20. 卢卡斯,B.D.Kanade,T.,等:迭代图像配准技术及其在立体视觉中的国际人工智能联合会议(International Joint Conference on Artificial Intelligence)pp. 674-679. 03The Dog's Dog(1981)21. 纳瓦罗,J.Garamendi,J.:从光场序
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功