扩展分层模型：3D运动分析、深度排序和运动分割

112 浏览量更新于2023-10-13 收藏 4.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

将分层模型扩展到3D运动Dong Lao和Ganesh Sundaramoorthi沙特阿拉伯KaUST{dong.lao，ganesh.sundaramoorthi}@ kaust.edu.sa抽象。我们考虑的问题，推断一个分层的representation，灰，其深度排序和运动分割从视频中的对象可能会经历3D非平面运动相对于相机。我们推广分层推理的情况下，相应的自遮挡现象。我们通过引入扁平化的3D对象表示来实现这一点，该扁平化的3D对象表示是对象的紧凑表示，其包含在视频中看到的对象的所有可见部分，包括在一个帧中自遮挡（以及遮挡）但在另一帧中看到的对象的部分。我们制定这样的扁平化表示和运动分割的推理我们还介绍了一个新的深度排序方案，这是独立的分层推理，并解决了自遮挡的情况下它需要很少的计算给定的扁平表示。在基准数据集上的实验表明，我们的方法优于现有的分层方法，这些方法不建模3D运动和自遮挡。关键词：运动/视频分割，分层模型1介绍分层模型是对视频序列进行建模的强大方式这些模型旨在通过将视频分解成层来解释视频，这些层描述对象的形状它们还通过对象的遮挡关系和深度排序来关联对象，即，相对于给定的摄像机视点，对象在彼此前面的排序。与对刚性场景有效的来自单目视频的密集3D重建相比，分层方法提供（动态）场景的计算高效的中间2D表示，其对于各种计算机视觉问题仍然足够这些问题中的一些跟踪和光流）以及形状分析。由于所有上述问题都是耦合的，分层方法提供了一个自然和原则性的框架来解决这些问题。尽管这样的模型在解决各种问题中是通用的并且在这些问题中已经成功，但是现有的分层方法从根本上受到限制，因为它们是2D的并且仅对根据平面运动移动的对象进行建模。因此，它们不能应对3D运动，诸如深度旋转和深度方向的旋转。⋆⋆Code available:https://github.com/donglao/layers3Dmotion2D. Lao和G. 孙达拉穆尔西Fig. 1.旋转地球的扁平表示示例。视频序列（左）显示了旋转的地球。由我们的算法重建的扁平化表示在右边。请注意，该表示紧凑地捕获了地球的某些部分，这些部分在某些帧中自遮挡，但在其他帧中可见。相关的自闭塞现象。在这里，我们将自遮挡定义为在没有其他对象的情况下由于相机视点而不可见的3D对象表面的一部分。在本文中，我们推广了分层模型和深度排序的自遮挡产生的平面外的物体运动和非平面相机的视点变化。具体而言，我们的贡献如下。1.一、从建模的角度来看，我们引入了扁平的3D对象表示（见图1）。1），其是3D变形对象的辐射的紧凑2D表示。这些表示将在一些帧中自遮挡（并且被其他对象遮挡）但在其他帧中可见的3D对象辐射的部分聚合成紧凑的2D表示。他们概括分层模型，使建模的3D（非平面）运动和相应的自遮挡现象。2.我们推导出一个优化算法的变分框架内推断的扁平化表示和分割的复杂性线性增长（而不是组合）的层数。3.我们引入了一个新的全球深度排序方法，治疗自遮挡，除了从其他对象的遮挡。该算法几乎不需要计算给定的扁平化表示和分割。它还允许深度排序随时间变化。4.最后，我们证明了我们的方法在恢复层，深度排序和分割基准数据集的优势。1.1相关工作分层模型的分割，运动估计和深度排序的文献是广泛的，我们只强调一些进步。层涉及视频分割和运动分割（例如，[1-6]），因为分层模型提供了分割，以及处理遮挡现象的原则性手段。我们感兴趣的不仅仅是分割，即，这些方法不提供的视频的生成解释。由于分割，运动估计和深度排序的问题是相关的，许多分层的方法被视为一个联合推理问题，其中层，运动和深度排序一起解决。由于联合推理问题比较困难以及计算密集型优化过程，早期的方法（例如，[7-15]）对于采用低维参数运动模型的层（例如，平移或仿射），这固有地将它们限制为平面运动。将分层模型扩展到3D运动3t=1后来的方法（例如，[16-19]）到层利用基于光流的完全非参数模型对层的运动进行建模（例如，[20-24]），从而实现2D铰接运动和变形。[16]将推断分层表示的问题公式化为经典Mumford和Shah分割问题的扩展[25在[16]深度排序没有公式化，但是仍然可以推断出层由于问题的非凸性，采用了基于梯度下降的优化。虽然我们的优化问题类似于那里的框架，但他们的优化方法不允许自遮挡。后期进展（例如，[17，18]）改进了层和运动推断中的优化。然而，与分层推理相耦合的深度排序问题在层数上是组合的，从而限制了层数。[29，30]旨在通过考虑局部化层而不是完整的全局深度排序来克服组合问题在局部区域内，通常存在很少的层，并且解决组合问题是可行的。优化方面的进一步进展在[19]中实现，其中用于分割、运动估计和深度排序的昂贵联合优化在那里，深度排序解决了基于遮挡线索的凸优化问题。虽然上述分层方法已经对复杂变形进行了建模，但是它们都是2D的，并且不能处理由存在于现实场景中的深度上的3D旋转引起的自遮挡现象因此，当对象经历非平面运动时，分割可能失败。我们的工作扩展层来模拟这种自遮挡，我们的深度排序也解释了这种现象。虽然[31，3]确实处理了自遮挡，但它只执行视频分割而不是分层推理;我们在视频分割的实验中显示了该方法的性能。最近的一种分层方法[30]使用图像中的语义分割（基于深度学习的进步）来改进光流估计，从而改进分层推理。虽然我们的方法不集成语义对象检测器，因为重点是解决自遮挡，但它并不排除它们，并且它们可以用于增强我们的方法，例如在初始化中2基于平面化目标模型的在本节中，我们将展平的3D对象表示的推理和分割公式化为优化问题。2.1能量方程我们用{It}T表示图像序列，其中It：Ω→Rk（对于颜色，k= 3通道），ΩR2是图像的域，T是图像的数量。在所述区域N对象i处呈现所述平面化的3D对象表示（不包括所述“背景图”，其中所述背景图包括除所关注对象之外的所有场景），且由R i = R2表示对象i的平面化的3D对象表示的我们表示为fi：Ri→Rk是在展平的物体中定义的物体i的辐射函数4D. Lao和G. 孙达拉穆尔西它图二.平面化表示和图像生成的示意图。域是在图像序列中看到的对象i的所有外观的紧凑表示任何图像中的对象外观可以从该帧中可见的fi的部分获得我们将扭曲定义为从对象i的平坦化表示域到帧t的映射。这些将是从Ri的未被遮挡部分到在时间t处的对象i的分割的微分同胚（平滑且可逆的映射）。为了方便起见，它们将微分同胚地扩展到所有Ri。我们用Vi，t：Ω→[0，1]表示可见度函数，即图像t中像素的松弛指示函数到所述V的映射是对象接口的可扩展部分。通常，w∈R~i，t={Vi，t=1}b从t中可见的投影展平对象i的域。参见图2。我们现在定义一个能量来恢复每个对象的展平表示，即，fi，Ri，经线wi，t和可见性函数。能量由两个分量组成，Eapp，由图像驱动的外观能量，以及Ereg，其中包含规律性项。外观能量的主要项旨在选择平坦化表示，使得它们可以通过平滑扭曲使平坦化表示变形来尽可能接近地重建每个图像It因此，表观能量由一项组成其经由w的逆将外观f_i扭曲到图像域中，并且将所述图像域与图像域中的t_i中的t_i相比较。因此，要最小化的能量中的第一项是Eapp= Σ∫t，i Rt |2d x−|2dx−∫R~itβ t（x）log pi（I t（x））dx.（一）上面的第二项通过与其他图像强度的相似性、经由局部直方图（即，随对象i的空间位置i而变化的直方图的集合。当第一项足够可靠以将像素分组时，空间变化权重βt小，否则小。这个术语是处理噪声所需要的：如果像素向后投影到场景中仅在几个帧中可见的点，则可以恢复的真实外观是不可靠的，因此更多的权重被放置在基于图像中的相似强度对像素进行分组上。加权函数β将在优化部分中给出，因为在那里将更容易解释。可以使用其他术语而不是第二个术语，可能集成语义知识，但我们选择它是因为它的简单性，因为我们的主要目标是优化第一个术语。将分层模型扩展到3D运动5它它规则性能量Ereg由可见性函数定义的区域的边界规则性和展平的对象模型的域上的面积惩罚组成，并且定义如下：Σ ΣEreg=αLen（R~i，t）+γ Area（Ri），（2）i，t i当α，γ>0时，Len（R~it）是R~it的域的长度，其中在图像中引入空间规则区域，并且Area（Ri）是对象模型的域的面积。最后一项，可以被认为是表示的紧凑性的度量，是需要的，以便模型尽可能紧凑。请注意，如果不包括该项，则完整优化问题的一个简单（无用）解决方案是简单地选择一个单个对象模型，该模型是所有图像的串联，扭曲是身份，可见性函数处处为1，这使得Eapp= 0。目标是优化全能量E=Eapp+Ereg，这是扁平化对象的形状Ri和外观fi、扭曲wit和可见性函数Vit的联合优化问题。闭塞和自闭塞：通过用平坦化的对象模型来制定能量，我们隐含地解决了来自一个对象在另一个前面移动的遮挡和自遮挡的问题，这两者都是自然解决的并且没有被区分。展平的模型Ri、fi包含在一个帧中可见但在另一个帧中不可见的投影对象的部分。在框架中，预处理的闭塞和自闭塞部分是集合Ri\w−1（{Vit=1}）。仅考虑Eapp的第一项，Ri的被遮挡部分是其中所述平方差为|It（x）−fi（w−1（x））|当与来自映射到点x的其他平坦化表示的平方误差相比时，2不是最小的。对于扁平化表示推理问题，不需要区分闭包和。然而，我们最终希望超越分割并获得对象的深度排序，这需要区分两个遮挡（见第3节）。遮挡和自遮挡的这种分离允许人们看到图像中的对象见图图6中，我们将展平的表示减去自遮挡进行可视化，这示出了没有其他对象遮挡它们的对象2.2优化算法由于非凸性，我们的优化算法将是一个联合梯度下降的扁平形状，外观，扭曲，和可见性函数。我们现在展示这些变量中的每一个的优化，假设其他变量是固定的，然后在最后给出完整的优化过程。外观优化：我们在f i中优化其他变量的估计。注意，fi只出现在Eapp的第一项中。我们可以执行6D. Lao和G. 孙达拉穆尔西JT图三.从其他物体看到背后的遮挡。从上到下：原始图像，平坦化表示减去自遮挡，其去除由于其他对象引起的遮挡，以及对象分割。视频分割数据集将底部标记为分割，但中间似乎是自然的对象分割。哪些应该被视为地面真相？每个积分的变量的变化，然后对fi（x）中的表达式进行微分，并求解fi的全局最优值，这给出了ΣtIt（wit（x））Vit（wit（x））Jit（x）fi（x）=ΣtVit （wit（X））J它（x），x∈Ri，（3）其中Jit（x）= detwit（x）是翘曲的雅可比行列式fi的表达式有一个自然的解释：x处的外观是x的可见投影处的图像值的加权平均值，即，wit（x），在图像域中。通过映射的面积失真来进行加权形状优化：我们通过梯度下降优化平坦区域R i的形状，因为能量在Ri中是非凸的。我们首先考虑Eapp中的项，并执行变量的改变，使得积分在域Ri上。由此产生的表达式适合区域竞争问题[32]，并且我们可以在那里使用已知的梯度计算。可以证明，相对于边界的梯度Ri由下式给出ΣE=Σ|我~-f|2−|我~-f|2−βΣpi（I~it）log+ακJV~N + γN，Ri它我jtjtp（I~）I I I Itj jt（四）其中， Ni 是对Ri 的层的非标准化的单元，I~it=It◦wit ， V~i=Vit◦wit ，f~j=fj◦w−1◦wit，并且j是x和t的函数，是在I t中与层i相邻的层。这种优化是必要的，以使大小和扁平化表示的形状可以适应于所发现的新的自遮挡这是与[16]的主要区别，尽管[16]与我们的模型相似，但它绕过了这种优化，而是只优化了分割，这使得分割变得更加复杂。分段图像Ri\self-occ将分层模型扩展到3D运动7Σ它图像序列2D图层3D图层见图4。Rubix立方体的分层推断具有不同相机运动的相同Rubix立方体的两个不同视频序列（顶行和底行）。[最后一列]：我们的扁平化3D表示捕获关于3D结构的信息（例如，Rubix立方体的面之间的连通性）和运动，并且包括自遮挡的对象的部分。[倒数第二列]：现有的2D分层模型（来自[16]的现代实现）不能适应3D运动和自遮挡。在没有自闭塞的情况下是等效的，但在其他情况下不是。因此，它不能适应自闭塞。见图4.第一章可视性优化：在给定其他变量的情况下，我们在形成分割的可见性函数Vit中进行优化。注意，可见性函数S可以从C或R_p_d_ 因此，我们计算能量相对于sR〜it上的投影区域的边界的梯度。这是一项艰巨的任务。在梯度处的路径为∇∂R˜itE=Σ|I−f|2−|I−f|2−βlogpi（It）+ακtitjtpj（It）i不N~i， x∈R~it（5）其中，f∈i=fi（w−1（x）），N~i是范数R~it，dj定义为：it是I t中与i相邻的层。翘曲优化：我们在给定其他变量的情况下对经线进行优化。由于能量是非凸的，我们使用梯度下降。为了获得平滑，微分同胚扭曲和对局部最小值的鲁棒性，我们使用Sobolev梯度[33，34]。唯一涉及到翘曲的项是E应用程序的第一项。可以示出相对于wit的索伯列夫梯度Git具有平移分量avg（Git）= avg（Fit）和满足以下的变形分量.−∆G~it（x）=Fit（x）x∈wit（Ri）、F=f[I-fTV~（六）G~ （x）·N为|我-f|2V~N~x∈N它（R）I T I I它我T I I I它我其中λ表示拉普拉斯算子，λ表示空间梯度。优化涉及通过平移迭代地更新扭曲，直到出现一致性，通过在G〜it处的定义来更新扭曲的状态，并且在G〜 it处的预处理。Σ8D. Lao和G. 孙达拉穆尔西t=1算法1分层优化1：输入：平坦化表示Ri，fi的初始化2：重复//更新扁平化表示、扭曲和分割3：对于所有i和t，更新w，执行梯度下降（6）直到收敛5：对于所有i，在负梯度方向上通过一步更新Ri（4）6：对于所有t，在负梯度方向上更新Vit一步（5）迭代Cess直到收敛。初始化：我们方法的创新之处在于扁平化表示和自遮挡的公式化和优化，并且我们在这里不关注初始化。在这里，我们提供了一个简单的方案，我们使用在前-实验，除非另有说明。从{It}T，我们计算帧到帧光流使用[23]，然后通过合成流，我们得到位移vt，T/2介于t和T/2之间。我们使用这些作为边缘检测器[35]中的组件，其给出了帧T/2中的区域数量和分割。然后，我们选择该分割作为初始平坦区域。可以使用更复杂的策略，例如，通过使用语义对象检测器。整体优化算法：整体优化由算法1给出。而不是演变的区域边界，我们演变宽松的指标在Suppllementary中定义了该区域的功能。我们现在将在（1）中的表达式表示为βt（x）=[minj<$i，j=i′Vjt′（wjt′<$w−1（x））Jjt′（w−1（x））]−1wherejuvenidenotesjt jt对象j在x处与对象i相邻，且x∈Ri。βt是不可靠性Eapp中的第一项，定义如下。我们为每个j计算帧数t’，点x对应于展平表示j中在帧t’中可见的点。为了处理映射的失真效应，存在由J j t’组成的weig hing。由于每个值都依赖于d，并且i和i都是一个函数，我们将不可靠性βt（x）定义为最不可靠表示的倒数因此，一个点可见的次数越多，外观模型就越准确，对Eapp中的第一项的依赖性就越大，对局部直方图的依赖性就越小。3深度排序在本节中，我们将展示如何根据上一节中确定的分割和扁平化模型计算图像中对象的深度排序。在第一小节中，我们假设3D中的对象表面、它们到成像平面的映射以及图像中的分割是已知的，并且提出了一种（平凡的）算法来恢复深度排序。当然，在我们的问题中，3D中的对象不可用。因此，在下一个子部分中，我们展示了如何在没有3D对象表面的情况下使用先前的算法，通过将分层模型扩展到3D运动9OI使用所述展平的表示及其到所述成像平面的映射作为所述3D表面及其到所述图像的映射的代理。3.1从3D对象表面的深度排序我们首先介绍符号的对象表面和映射到平面，然后形式化的自遮挡和其他对象引起的遮挡。这些概念将与我们的深度排序算法相关，我们在这些形式概念之后提出。符号和定义：设O1，. . . 表示3D世界中的N个物体表面，其被成像以在给定时间在给定视点处形成图像I：Ω → Rk。由于符号的滥用，我们让Vi表示图像I中的分割（对象i的以Ω为单位的点）。基于给定的视点，将表示从表面Oi上的点到成像平面的相机投影wOIanddw−1将表示映射的逆我们现在可以提供COM-iOiI自遮挡和由其它物体引起的遮挡的推定定义与我们的算法相关自遮挡（由于相机的视点而形成）仅仅是（当所有其他对象从该场景中移除时）从相机的视点不可见的O i的点。wOiI（Oi）将表示Oi上的非自遮挡点的投影。的闭塞部分o bjectOinducedb y o bjectOjisw−1（wOI（Oi）Vj）. Oiin的使用-哦我我由其他对象引起的（由Oi，occ表示）正是被遮挡部分的并集的Oinducedallothero bects，其中hichisgivenbywOI−1（j/=i（wOI（Oi）Vj））.我我深度排序算法：我们现在提出一个深度排序的算法。该算法假设如果对象i的任何部分被对象j遮挡，则对象j的任何部分不被对象i遮挡。这可以表述为在1上的一个sumptiFori/=j，如果wOiI（Oi）∩VjorwOjI（Oj）∩Vimusteemmty。在这个假设下，我们可以将对象i和j的深度排序联系起来;实际上，Depth（i）

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

扩展分层模型：3D运动分析、深度排序和运动分割

网易新闻推荐：深度学习排序系统及模型.pdf

区块链产业专题报告：区块链技术可扩展方案分层模型精品报告2020.pdf

给我推荐20个比较流行的点云 3D 分割模型

基于深度学习的语义分割优点

计算机网络体系结构分层模型的优点

深度学习预测的模型都有哪些

扩展卡尔曼滤波跟踪3d目标

基于深度学习的图像分割算法的优点

深度学习：给出python深度学习对于图像识别动物种类应用案例，要求用到多种深度学习方法，并给出相较于传统算法的优势

怎么扩展深度学习envi5.6深度学习板块

开源的3d模型格式, 按使用量排序

垃圾图像分割使用的深度学习模型有什么特点

excel里根据当前列排序和扩展排序的区别

深度学习envi5.6深度学习板块扩展

通过深度学习来学习一个文档的模型和软件有哪些

arima模型能和哪些模型一起进行时间序列分析

有哪些同时进行语义分割和目标检测任务的模型

深度学习的图像修复实验数据如何分析和处理

3d slicer扩展模块

详细介绍：matlab时频分析工具箱

最新资源