单目摄像机动态场景视图合成方法

170 浏览量更新于2023-10-23 收藏 2.69MB PDF 举报

单目摄像机

视频稳定

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5336一种新的基于单目摄像机的深度一致动态场景视图合成方法尹载申<$金基焕<$奥拉齐奥·加洛<$朴贤洙<$简·考茨<$†明尼苏达大学-NVIDIA图1：动态场景视图合成：（左）从位置V0到Vk的单目相机捕获动态场景。每个图像捕捉在每个时间步（t=0到t=k）跳跃的人（中间）来自V0和V1之间的任意位置的新颖视图（表示为橙色帧）与在时间t=k处观察到的动态内容合成。在插图中示出了Vk处的估计深度（右）对于新视图（橙色框架），我们还可以合成在不同时间出现在任何视图中的动态内容（显示每个时间步中前景的更多结果见Sec.5、补充文件和录像。摘要本文提出了一种新的方法，在给定一个动态场景图像集合的情况下，从任意视点和任意时间新的视图合成的一个关键挑战来自于动态场景重建，其中对极几何不适用于动态内容的局部运动为了解决这个挑战，我们提出组合来自单视图的深度（DSV）和来自多视图立体声的深度（DMV），其中DSV是完整的，即深度被分配给每个像素，但其比例是视图可变的，而DMV是视图不变的但不完整。我们的观点是，尽管它的规模和质量与其他视图不一致，但从单个视图的深度估计可以用于推理动态内容的全局相干我们将这个问题视为学习校正DSV的尺度，并利用视图之间的局部一致运动来细化每个深度，以形成连贯的深度估计。我们以自我监督的方式将这些任务集成到深度融合网络中。给定融合的深度图，我们在特定的位置和时间用我们的深度混合网络合成一个逼真的虚拟视图我们评估我们的深度估计和视图合成的方法，在不同的现实世界的动态场景，并显示出突出的性能超过现有的方法。1. 介绍新颖视图合成[8]是计算机视觉和图形中的核心任务之一，并且已用于许多视觉效果和内容创建应用，例如电影特效[4，26]、视频稳定[28，21]和子弹时间视觉效果[60]。在本文中，我们专注于视图合成的动态场景观察到从一个移动的monocular相机如图1所示。到目前为止，大多数前视图合成方法在很大程度上限于静态场景[8，60，9，11，56，59]，因为它们通常依赖于几何假设：原则上，诸如人、宠物和车辆之类的动态视觉内容被认为是异常值，尽管它们是社交媒体等上的视频创作中的主要焦点。我们的问题与动态场景重构的挑战相同：从移动的单目照相机恢复动态内容的基础3D几何形状是根本不适定的[33]。我们应对这一挑战的杠杆老化以下互补的视觉和运动线索.(1) 多视图图像可以被组合以重建不完整但视图不变的静态场景几何结构1，这使得能够以几何一致的方式合成静态内容的新颖视图图像。(2) 从单个图像预测的相对深度提供了视图变体[6]但完整的动态场景几何形状，这允许针对前景动态内容实施局部一致的3D场景流1其从SfM管道中选择的固定比例在初始三角测量的不同视图中是一致的[15]。5337深度融合视图合成2. 相关工作对于来自具有基线的图像的动态场景的视图合成，来自每个视图的深度和前景运动需要跨视图一致在这里，我们回顾了视图合成，深度估计，和场景重建技术，并讨论了我们的方法的关系。图2：动态场景的图像用于预测和估计单视图深度（DSV）和多视图立体（ DMV ）深度。我们的深度融合网络（DFNet）融合了DSV和DMV的各自优势（第二节）。3.1）通过强制几何一致性来产生完整的和视图不变的深度计算的深度用于合成新视图，并且我们的DeepBlnder网络细化合成的图像（Sec.3.2）。我们通过学习非线性尺度校正函数来结合这些线索，该函数可以升级单视图几何形状的时间序列以形成连贯的为了消除前景动态内容的几何形状的缓慢且平滑的运动[49，40]），其在由新颖观看者观看时产生最小的立体视差[5]。我们使用深度融合网络对尺度校正函数进行建模，该深度融合网络从单视图（DSV）获取输入图像、视图变化深度以及从多视图立体（DMV）算法获取不完整但该网络通过三个视觉信号进行自我监督：（i）DSV的静态区域必须与DMV对准;（ii）动态区域的输出深度必须与每个DSV的相对深度一致;以及（iii）估计的场景流必须最小并且局部一致。随着预测的深度是几何上一致的意见，我们合成一个新的看法，使用自监督渲染网络，产生一个真实感图像的缺失数据的存在与对抗训练。我们的管道概述如图2所示。我们表明，新的视图合成与我们的深度预测方法是非常有效的生成一个看不见的图像。此外，渲染网络无缝地混合前景和背景，这在定量和定性上优于前向合成方法我们的主要贡献如下：• 提出了一种新的深度融合网络，该网络建立了一个尺度校正函数，一致的动作。• 一种渲染网络，使用对抗训练以照片级逼真的方式组合前景和背景区域。• 由固定基线多视图视频捕获的真实世界数据集和用于动态场景视图合成的相应基准示例。新颖视图合成新颖视图合成的问题与多视图3D重建密切相关，因为它需要通过场景的几何结构跨视图传输像素。对于静态场景，多视图几何[15]适用，这允许三角测量对应给定的校准相机。这导致密集重建（多视图立体[14]），其允许使用有限数量的图像进行连续视图合成[13]。原则上，三角测量需要来自至少两个视图的对应关系。该要求通常不能满足，特别是对于被遮挡区域，这导致不完整的视图合成。这种问题随着图像之间的基线增加而升级已经使用各种场景先验来缓解这个问题。可以表示为一组平面表面的场景甚至可以用单个视图图像重建[45，27]，并且具有已知对象类别的场景可以用形状先验重建[16]。对于动态场景视图合成，使用同步的多个相机，其中可以应用相同的几何原理[60，29，18]。最近，从大型图像库中学习的单视图深度预测用于完成场景几何[37，25，23]，甚至能够外推超出相机运动范围的视图[46，9]。最近的方法，其预测具有人类特定先验的单个视图的深度，实现了从单目相机的移动人的动态场景的视图合成[24]。我们的方法受到基于学习的场景完成的启发[12，37，59，24]，同时应用于具有几何一致性的动态场景，而没有任何特定类别的先验。单目动态场景重建动态场景重建使用移动的单目摄像机，没有场景的先验假设，是非常困难的。和不适定，类似于重建场景，单一视图图像。对于时间先验，轨迹三角测量通过使用代数群族表示场景轨迹来扩展点三角测量的概念，例如，直线/圆锥曲线[3]，平面上的单应性张量[44，51]，多项式[19]和离散余弦变换基[1，33]。对于空间先验，形状可以通过紧凑形状基向量的线性组合来表示[7]，这对于描述面部等约束变形非常有效。一个关键的挑战是学习未知对象的形状基向量，这需要额外的空间先验，例如基向量的正交性[53]，时间平滑度[48，32，49]，使用关节子空间的关节约束[54]，局部分段刚性，DMV双向整经DFDSV前景D儿场景流背景净DenBlEEP输入图像（动态场景）动态场景视图合成5338LLDFNet机动车参考视图熔深D��光流场��DSVD阿光流估计LL三维场景流重建机动车邻近的景观熔深D��场景流LDSVD阿维尼翁L：串联DFNet图3：深度融合网络（DFNet）通过将DSV和DMV与图像融合来预测完整的视图不变深度图。DFNet通过最小化与DMV的背景深度一致性（Lg）、与DSV的相对深度一致性（Ll）、3D场景流（Ls）和空间不规则性（Le）来进行自监督。[10]从训练数据中学习[20]。对于完整性，图像区域使用形状基[41]或局部补丁[22]独立重建，它们可以拼接在一起以形成完整的场景重建。此外，空间和时间先验可以组合以产生密集的对应关系，从而产生完整的4D还原。第r视点，并投影到第v视点上。例如，该扭曲函数可以从第j个源图像生成第i个Ii（Wj→i）= Ij.对于动态场景的视图合成，可以将其概括为包括使用深度Drt 的时变几何形状，即，建设[17]。人类是一个特殊的空间约束，允许从y=W rt→v（x;Drt，Dr，Dv），（3）单目摄像机[52，35，2]。与显式空间先验不同，本文利用一般几何先验和运动约束，对一般动态场景重建完整的、视点不变的几何结构，从而生成真实感强的时空视点合成。3. 方法我们将新视图合成问题转化为图像扭曲问题，其中rt是时间相关视图索引，t是时刻。注意，对于移动的单眼相机，视图是时间的函数与等式中的静态场景扭曲Wr→v（2），我们不能从第j个源图像合成第i个源图像，因为时变几何Drt，即，Ii（Wj→i）/= Ij.有了这两个变形功能，视图合成可以表示为：使用基础4D重建从输入源视图到虚拟视图，即，J= φ。{Jv（Wr→v）}r，Jv，t（Wrt→v）;Mv，（4）Jv（W（x））=Ir（x），（1）其中，{Jv（Wr→v）}r是从r→v所有源视点，以及Jv，t（Wrt→v，t）是翘曲的其中，Jv是来自任意虚拟视图v（v可以是源视点）的合成图像，Wr→v是扭曲函数，并且Ir是第r个源图像。对于静态场景的视图合成，可以描述为：来自第t时刻的源图像的动态内容。Mv是属于动态内容的坐标的集合φ是细化扭曲图像以完成视图合成的渲染函数由方程式（4）两个量是未知数：深度从y=Wr→v（x;Dr，Dr，Dv），（2）每个源视图Drt和渲染函数φ。我们在Sec中用公式表示这两个量。第3.1节和第3.2.5339S其中，Rr和Rv是第r和第v视点处的投影矩阵。扭曲函数通过使用深度（Dr）和投影矩阵在3.1. 动态场景的全局相干深度我们的猜想是，存在一个尺度校正函数，可以升级一个完整的视图变化的深度Drt5340SMMMttT−1˜e∗F从单视图预测（DSV）到可变3D几何形状D的深度：D^rt=n（Drt），（5）其中，R2是比例校正函数。理想情况下，当场景静止时，升级后的深度预计为与深度Dr从视图不变几何学，例如，在一个实施例中，深度从多视图立体（DMV），具有均匀缩放，即，Dr=α（Ds）=αDs+β其中α和β图4：视图合成管道：鉴于扭曲的前景是标量和偏差。当一个场景是动态的，线性重新-这种比例和偏差的递减不适用。我们学习了一个非线性尺度校正函数，它具有以下三个性质。首先，对于静态场景，升级后的深度接近DMV：Dr（x）向量（Drt（x））f或x∈/Mrt，（6）（FG）和背景（BG）通过深度和面具，我们使用称为DeepBlender的渲染网络完成动态场景视图合成，该渲染网络预测丢失的区域并重新细化伪影。其中λ控制每个损失的重要性。Lg测量DMV和等式中的估计深度之间的差。（6）对于静态场景：M s其中x是属于静态背景的像素的坐标。其次，对于动态内容，升级后的深度保留了来自DSV的相对深度：g（Dr（x））g（（Dr（x）对于x∈Mr，Lg=<$D^rt（x）−Drt（x）<$f或x∈/Mrt，L1比较DSV与等式（1）中的估计深度之间的尺度不变深度梯度。（7）：Ll=<$g（D^rt（x））−g（Drt）（x）<$f或x∈Mrt，t ttS s（7）s其中g测量深度的尺度不变相对梯度，即，D（ x+ x）− D（ x）和Ls最小化等式2中的整个像素坐标的诱导的3D场景运动。（九）：Ls= n p（x; Drt，nt）− p（Fr→n（x）; Dnt，nt）n.g（D;x，nx）=|D（x + x）|+的|D（x）|.（八）结合自我监督，我们进一步减少我们使用多尺度邻居x+∆x来约束局部和全局相对梯度。第三，由升级的深度引起的3D场景运动是平滑且缓慢的[50]，即，最小场景流：p（x;Drt，Drt）p（Fr→n（x）;Dnt，Dnt），（9）作为正则化的估计深度的拉普拉斯算子，即，L=2D^rt（x）2+λ2D^rt（x<$）2（13）其中x∈/Mrt，x<$∈Mrt，λf平衡静态和动态区域之间的空间平滑度。我们的自我监督管道的概述和t t其中F是从第r个光源到第n个光源网络架构如图3所示。 DFNet前-rt→nt3t t从DSV和DMV使用图像. p（x;D）∈R是使用深度D的世界坐标中的重构点：p（x;D，n）=n（D（x））RKxn+C（10）其中x是x的齐次表示，R∈SO（3），C∈R3和K是摄像机旋转矩阵，摄像机光学中心和摄像机内部参数，投影矩阵深度融合网络（DFNet）我们使用深度融合网络来启用比例校正函数DFNet，该深度融合网络将DSV、DMV和图像Irt作为输入：相同的编码器结合图像。利用视觉特征，DFNet生成了一个几何上一致的完整的视图为了保留局部视觉特征，使用特征提取器和深度生成器之间的跳过连接。3.2. 动态场景视图合成给定一组来自所有源视图的变形静态场景{Jv}r，我们基于虚拟相机和源相机之间的基线构建全局背景Jvas- sign来自变形源视图的像素值，D^r =n（Dr，Dr，Ir;w），（11）虚拟摄像机的最短基线与Jv和t t t t t tS M其中网络由其权重w参数化。为了学习w，我们最小化以下损失：Masked FG+合成所有视图DeepBlender掺混残渣5341∗从单个时刻扭曲动态内容Jv，t，我们在等式中对合成函数φ进行（4）如下：φ（Jv，Jv，t;Mv）=Jv（x）+Jv，t（y）+φ（Jv，Jv，t），∗ ∗L（w）=Lg+λlLl+λsLs+λeLe，（12）θ∗（十四）5342˜∗∗其中x∈/Mv，t和y∈Mv，t。是填充缺失区域的混合残差动态场景）并细化合成图像。我们使用我们的渲染网络来建模这个混合残差φφθ。DeepBlender网络DeepBlender从变形的动态场景Jv，t和全局建模的静态场景Jv的输入预测混合残差φθ，如图4所示。它结合了从Jv，t和Jv中提取的视觉特征，以形成具有跳过连接的解码器。我们学习这个渲染函数使用源图像与自我监督.每个图像被分割成背景和前景与相应的前景掩模。综合产生前景边界和图像边界附近的缺失区域以及随机像素点噪音穿过场景。从具有缺失区域和像素噪声的前景和背景图像中，训练DeepBlender以生成绘画残差。我们引入对抗性损失来产生逼真的图像合成：我们还使用视频对象分割数据集对DeepBlender进行了预训练[36]。为了创建合成残差，我们使用掩模形态学和超像素在前景周围随机生成接缝和洞，并将图像边界的一侧重新移动到30像素厚。方程中的损失15也用于预训练。当我们将图像变形为虚拟视图时，我们检查双向变形的一致性以防止像素孔。对于每个图像扭曲，我们使用双边加权中值滤波器[57]来细化深度。如图4所示，我们分别处理前景和背景，以防止对象边界周围的像素混合问题。5. 实验我们评估我们的方法与各种动态场景。动态场景数据集我们使用两种方法收集动态场景。(1)移动单目摄像机：短期动态事件（105s）由手持单声道控制器捕获，L（wθ）=Lrec+λadvLadv，（15）图5：相机装备。移动摄像头（三星GalaxyNote 10）与60赫兹其中，L_rec是重建损失（估计的混合残差和地面真值），Ladv是对抗损失[34]。视图合成管道的概述如图4所示。4.实现细节DFNet在合成数据集上进行预训练[30]（提供地面实况光流，深度和前景掩模），以便在自我监督期间更好地进行权重初始化。为了模拟来自合成的真实数据的特性，我们部分地去除前景区域周围的深度，并在每个训练迭代中以5%的方差容限在场景中添加深度噪声与Eq相同的自我监督损失。15用于预训练网络。为了避免网络深度尺度混淆，我们使用DMV和DSV的归一化逆深度[23]，并基于DMV的原始尺度恢复融合深度的尺度。为了获得DSV和DMV，我们使用现有的单视图预测[23]和多视图立体方法[43]。由方程式（8）、我们用五个多-尺度邻居，即，Δ x={1，2，4，8，16}，以考虑局部和全局区域。我们使用PWCNet [47]来计算方程中的光流（9），其中离群值由前向-后向流一致性处理。当实施场景流损失时，我们使用±2个相邻相机视图，即，nt=rt±2。我们提取前景蒙板使用帧间-主动分割工具[39]。前景蒙版是在评估中为所有基线手动指定，而现有的前景分割方法[38]可以用作补充工具，如图7所示。分辨率1920×1080。如果物体的运动不明显，我们就对序列进行二次采样，然后-因此，场景运动的程度明显大于不应用准静态动态重建的摄像机自运动的程度。捕捉四个动态场景，包括人类活动，人与物体的互动和动物运动（见补充视频）。这些场景用于定性评估，其中我们使用半分辨率输入。(2)固定式多视角摄像机：8个场景由具有12个摄像机的静态摄像机装备（GoPro Black Edition）捕获，其中深度估计和视图合成的地面实况可用于定量评估。摄像机分两层布置，每层均布6台摄像机，基线0.22 m，如图5所示。所有摄像机都手动同步。该数据集分为以下几类：（1）人：单个或多个人显示他们的动态运动，例如，动态面部表情和身体动作。(2)互动：人与对象交互，例如，雨伞、气球和溜冰鞋。(3)车辆：一辆卡车从道路的右侧刚性地向左侧移动。(4)停止运动：玩偶被顺序地捕获在不同的位置。在测试时，我们使用一组从每个摄像机在不同时刻采样的图像来模拟移动的单目摄像机。给定收集的图像集，我们使用运动恢复结构[42]校准移动相机的内部和外部参数。定量评估指标我们使用多视图数据集评估深度估计和视图合成的准确性。(1)深度估计：给定估计的深度，相机基线：0.22 m5343F+B /仅限F跳滑冰卡车DynaFace伞气球1气球2泰迪熊Avg.MVS [43]0.53/2.120.29/6.810.52/2.940.05/0.210.35/4.700.13/1.720.04/0.310.06/0.920.24/2.46RMVSNet [55]0.61/1.550.76/1.560.84/2.432.24/1.570.67/5.240.23/1.400.13/0.380.58/0.890.75/1.87MonoDepth [23]1.79/2.551.34/2.022.62/3.860.39/0.742.69/4.751.07/1.881.06/0.990.76/0.281.46/2.13Sparse2Dense [31]1.35/3.261.35/10.662.15/7.600.20/0.341.35/6.400.53/3.030.48/0.650.32/0.900.96/4.10DFNet-Lg1.26/1.310.81/0.761.60/1.240.26/0.912.19/1.980.93/1.360.53/0.301.91/0.971.18/1.10DFNet-Ll0.46/1.580.15/1.380.62/3.340.09/0.260.58/3.140.15/1.570.08/0.300.16/0.670.28/1.53DFNet-Le0.38/0.930.14/0.470.52/1.090.07/0.120.52/2.480.15/1.200.06/0.240.17/0.480.26/0.87DFNet-Ls0.37/1.090.14/0.510.53/1.110.07/0.130.59/2.540.16/1.180.07/0.250.16/0.520.26/0.91DFNet0.35/0.760.12/0.400.41/0.830.03/0.080.37/1.900.12/1.110.05/0.230.17/0.320.20/0.70表1：根据动态场景进行深度估计的任务的定量评估结果。度量尺度中的RMSE用于评估。F和B分别代表前景和背景。越低越好。输入地面实况我们MVSRMVSNet单深度稀疏到密集图6：每种方法的动态场景深度估计的定性比较。我们通过与由多视图立体计算的地面真实深度进行误差以度量标度（m）表示，即，使用照相机基线的物理长度将估计深度的尺度升级到度量空间。我们排除了不能重建的多视点立体的区域(2)视图合成：我们测量从地面实况图像到合成图像的光流幅度的平均值，以验证深度图的视图不变特性。理想情况下，它应该接近0与完美的深度图。此外，我们测量感知相似性[58]（即，VGG特征的距离）与地面实况进行比较，以评估合成视图的视觉可扩展性，其中其范围被归一化为[0，1]（越低越好）。基线和消融研究我们比较了我们的深度估计和视图合成方法与一组基础，线路接近。对于深度评估，我们将我们的方法与四个基线进行比较：1）多视图立体（MVS [43]）假设场景是静止的。对于MVS未能测量深度的2)RMVSNet [55]是一种基于学习的多视图立体算法。3)MonoDepth [23]从单个视图图像预测深度。当它产生归一化深度时，我们通过使用MVS深度的平均值和标准差来4)Sparse2Dense [31]完成了给定不完整深度估计的深度，其中我们使用MVS深度作为输入。由于这种方法需要度量深度，我们使用相机基线的物理长度将估计深度升级到度量空间。结合比较评估，我们进行了消融研究，以验证损失的选择。对于视图合成评估，我们比较我们伞DynaFace气球1跳泰迪熊卡车5344视图扭曲方法（双向3D扭曲），具有尽可能相似的扭曲[28]，通过估计网格仿射变换来扭曲图像。通过投影估计深度来计算翘曲的对应性，即，通过所述视点不变深度将源图像中的像素传输到新视点在表2中，我们表示双向扭曲，然后是DeepBlender屏蔽输入查看合成结果屏蔽输入查看合成结果细化为B3W，并尽可能类似的变形后，由DeepBlender作为ASAPW。请注意，Deep-Blender细化应用于除DFNet+ B3 W-DeepBlender之外的所有方法，DFNet +B3 W-DeepBlender通过消除DeepBlender来评估细化效果。在与不同扭曲方法的比较之上，我们还测试了深度估计方法与视图扭曲方法的所有可能组合，如表2所列。它量化了深度图的质量如何影响视图合成结果。动态场景深度估计在表1中，我们总结了在以下方面评估的动态场景深度估计结果的精度：1）整个场景，以及2）仅有的动态内容。对于整个场景，我们的方法平均显示出最好的结果，其次是MVS与0.04米的精度差距。在雨伞和泰迪熊的序列中，由于如图6所示的高度占用的背景区域，MVS示出了比我们的更好的整个场景的准确性，即，动态内容的深度估计对深度精度评估的贡献比背景的深度估计的从唯一的动态内容的评估，我们的方法（DFNet）也显示了最好的结果与第二个最好的方法（MonoDepth）的显着的精度提高（1.17米）虽然MonoDepth的相对深度很好地反映了地面实况，但其深度范围通常存在偏差到特定的范围，例如，前景对象位于更接近背景场景的位置。即使使用MVS深度作为输入，Sparse2Dense也不能完全重建背景深度，并且预测的前景深度完全不正确。研究表明，融合学习基础和立体几何的个体优势是从动态场景中获得全局一致、完整的深度图的必要条件。从图6中，我们可以进一步注意到，基于学习的多视图立体（RMVSNet）也未能对动态前景几何进行建模在我们的实验中，RMVSNet完全失败时，对象是太接近相机。根据表1所述的消融研究，Lg是最关键的自我监督信号，因为MVS深度在传达准确的静态深度方面起着关键作用。这些精确的深度为其他自我监督信号预测缺失区域的深度从DFNet-L1，我们可以验证，单视图深度估计可以通过用精确的相对深度引导它来提升动态内容周围的深度精度。虽然Le和Ls的贡献相对较小图7：具有小错误的掩码检测（左）对视图合成结果没有显著影响。但是，如果遮罩检测完全失败（右），则会产生诸如对象碎片（黄色框）或余像（红色框）等伪影与其他方法相比，它有助于正则化目标场景运动和前景深度的空间平滑度，这是减少新视图合成中伪影的关键动态场景新颖视图合成表2示出了视图合成的定量评估，并且相关联的定性结果在图8中示出。从定性结果中，我们可以注意到两种类型的伪影可以取决于扭曲方法产生：B3W产生飞行像素噪声，即，由于具有不正确深度的扭曲，像素是浮动的，而ASAPW产生图像失真。这样的伪像导致与地面实况的感知距离的增加，平均而言，我们的方法（DFNet+B3W）显示了最小的感知距离（0.15），这表明我们的深度图的几何形状对场景结构具有高度的依赖性。DFNet+B3W与DFNet+ASAPW的比较表明，在给定精确深度图的情况下，逐像素扭曲（B3W）是视图合成的网格扭曲（ASAWP）的更好选择。从DFNet+ B3 W-Deepblender的结果中，我们可以观察到感知相似度与没有DeepBlender的结果相比有了很大的提高，这表明细化步骤（孔填充和降噪）对于视觉相似性至关重要。我们的方法（DFNet+B3W）即使对于流量评估（5.3像素）也表现最好。MVS+B3W遵循我们的方法，误差为6.8像素，但它在动态内容周围产生了显著的像素噪声，如图8所示。虽然MonoDepth+B3W重建了图8中的视觉上合理的结果，但它伴随着大的流动误差（平均10.8像素），这意味着该结果在几何上不合理。请注意，DFNet+ B3 W-Deepblender的光流误差远高于DFNet+ B3 W，因为当图像边界和动态内容周围存在孔时，流量估计算法[47]显示出明显的混乱限制值得注意的是我们的方法的一些限制。当相邻视图之间的视角较大时（例如，旋转超过45度），这可以减少动态内容的重叠量。如果场景高度混乱，检测注释5345稀疏2密集+B3WRMVSNet+B3WDFNet+ASAPWDFNet+ B3W-DeepBlenderMonoDepth+B3WMVS+B3WDFNet+B3W（我们的）稀疏2密集+B3WRMVSNet+B3WDFNet+ASAPWDFNet+ B3W-DeepBlenderMVS+B3WDFNet+B3W（我们的）地面实况MonoDepth+B3W地面实况感知模拟/光流场跳滑冰卡车DynaFace伞气球1气球2泰迪熊Avg.[28]第二十三话0.21/7.00.17/9.30.10/4.00.30/19.00.19/7.50.23/16.00.17/6.71.80/4.90.19/9.3[28]第二十五话：一个人0.22/6.40.23/13.10.11/3.40.98/10.20.19/7.20.23/14.90.16/6.30.20/10.00.29/8.9[28]第二十三话：一个0.23/9.10.18/11.80.10/5.10.32/20.90.20/9.80.25/17.30.23/11.40.17/7.80.20/11.7[28]第二十八话：一个人的世界0.23/7.50.19/9.40.11/4.80.31/20.80.19/7.00.23/13.70.16/6.60.19/6.40.20/9.52MVS [43]+B3W0.24/7.00.20/9.20.12/3.50.27/7.50.19/5.70.23/14.40.17/5.40.13/1.50.19/6.8RMVSNet [55]+B3W0.23/5.60.23/14.80.14/3.31.0/10.80.19/5.60.23/12.00.16/5.10.19/8.90.29/8.2[23]第二十三话0.23/8.50.18/11.40.10/5.0个0.32/19.10.19/8.50.24/17.30.23/11.40.15/5.20.20/10.8Sparse2Dense [31]+B3W0.24/7.30.20/9.20.13/4.70.31/11.70.2/6.70.24/14.00.18/6.60.17/4.80.22/8.12[28]第二十八话0.20/5.80.17/9.30.09/3.00.30/18.00.18/6.40.20/13.30.16/6.40.17/5.80.18/8.5DFNet+ B3W-DeepBlender0.23/8.20.21/13.10.12/4.80.30/15.60.22/9.00.25/15.80.20/9.20.18/4.70.21/10.1DFNet+B3W（我们的）0.16/4.20.15/8.80.08/2.50.22/6.20.16/3.60.18/10.60.14/5.10.13/2.00.15/5.3表2：动态场景新视图合成任务的定量评估结果。为了衡量准确性，我们计算感知相似性和光流大小之间的地面实况和合成图像。图8：视图合成任务的定性比较。像素误差显示在插图中（最大像素误差设置为50 RGB距离）。来自背景和前景两者的许多对象（例如，许多人、细杆和树），由于与杂波的显著深度不连续性，我们的流水线可能我们的方法将在相机校准不起作用的场景中失败，例如，一个主要由动态内容占据的场景[30]。最后，我们的视图合成与完全失败的前景掩模产生重大文物，如余像和对象碎片，如图7所示。6. 结论本文研究了动态场景的单目视点合成问题。主要的挑战是重建动态内容以产生几何上连贯的视图合成，这在将军为了应对这一挑战，我们建议学习一个比例校正功能，可以升级从单视图的深度（DSV），这允许匹配到静态内容的多视图解决方案（DMV）的深度，同时产生局部一致的场景运动。给定计算的深度，我们使用DeepBlender网络合成一个新的视图图像，该网络旨在结合前景，背景和缺失区域。通过深度估计和新的视图合成的评价，我们证明，该方法可以适用于从单目相机捕获的日常场景。鸣谢这项工作得到了NSF在IIS 1846031和CNS 1919965下的部分支持。5346引用[1] Ijaz Akhter 、 Yaser Sheikh 、 Sohaib Khan 和 TakeoKanade。轨迹空间中运动的非刚性结构NIPS，2008年。[2] T. Alldieck，M.马格诺尔湾巴特纳加尔角Theobalt和G.庞莫尔学习从一台rgb相机重建穿着衣服的人。在CVPR，2019年。[3] Shai Avidan和Amnon Shashua。轨迹三角测量：从单目图像序列中进行运动点的3D重建。TPAMI，2000年。[4] Jiamin Bai，Aseem Agarwala，Maneesh Agrawala，andRavi Ramamoorthi.自动电影肖像。在2013年欧洲图形渲染研讨会上。[5] 放大图片作者：Gabriel J. Brostow，Jens Puwein，andMarc Pollefeys.基于非结构化视频的渲染：随意拍摄的视频的交互式探索。SIGGRAPH，2010.[6] Jiawang Bian，Zhichao Li ，Naiyan Wang，HuangyingZhan，Chunhua Shen，Ming-Ming Cheng，and Ian Reid.来自单目视频的无监督尺度一致深度和自我运动学习。在NIPS，2019。[7] Christoph Bregler，Aaron Hertzmann，and Henning Bier-mann.从图像流中恢复非刚性3D形状。CVPR，1999年。[8] 申昌Eric Chen和Lance Williams。视图插值和灰图像合成。计算机图形学与交互技术会议，1993年。[9] Inchang Choi，Orazio Gallo，Alejandro Troccoli，Min HKim ， and Jan Kautz. 极限视角合成。 arXiv 预印本arXiv：1812.04777，2018。[10] J. Fayad，Lourdes Agapito，and Alessio Del Bue.基于单角序列的非刚性曲面的分段二次重构。ECCV，2010年。[11] 约翰·弗林，迈克尔·布罗克斯顿，保罗·德贝维克，马修·杜瓦尔，格雷厄姆·费弗，瑞安·奥弗贝克，诺亚·斯内弗利和理查德·塔克。Deepview：查看合成与学习梯度下降。在CVPR，2019年6月。[12] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. Deepstereo：学习从世界图像中预测新视图。在CVPR，2016年。[13] Jan-Michael Frahm，Pierre Fite-Georgel，David Gallup，Tim Johnson ， Rahul Raguram ， Changchang Wu ， Yi-Hung Jen ， Enrique Dunn ， Brian Clipp ， SvetlanaLazebnik ， et al. 在万里无云的日子里建造罗马。ECCV，2010年。[14] 放大图片创作者： Brian Curless， Steven M. Seitz 和Richard Szeliski。曼哈顿世界立体声。CVPR，2010。[15] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，第二版，2004年。[16] D. Hoiem，A. A. Efros，和M。赫伯特自动照片弹出。SIGGRAPH，2005年。[17] Dinghuang Ji，Enrique Dunn，and Jan-Michael Frahm.稠密动态场景建模的时空一致对应。在ECCV，2016年。[18] Hanqing Jiang ， Haomin Liu ， Ping Tan ， GuofengZhang，and Hujun Bao.多手持摄像机动态场景的三维重建ECCV，2012年。[19] Jeremy Yirmeyahu Kaminski和Mina Teicher。轨迹三角剖分的一般框架。JMIV，2004年。[20] 陈空和西蒙·露西。深度可解释的非刚性结构从运动，2019年。[21] 放大图片作者：Michael F. Cohen和Richard Szeliski。第一人称超延时视频SIGGRAPH，2014.[22] Suryansh Kumar，Yuchao Dai，and Hongdong Li.从两个透视帧进行复杂动态场景的单目稠密三维重建。InICCV，2017.[23] Katrin Lasinger 、 Rene 'Ranftl 、 Konrad Schindler 和Vladlen Koltun。走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv：1907.01341，2019。[24] Zhengqi Li ， Tali Dekel ， Forrester Cole ， RichardTucker，Noah Snavely，Ce Liu，and William T Freeman.通过观察冷冻人来学习CVPR，2019年。[25] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在CVPR，2018年。[26] Zicheng Liao，Neel Joshi，and Hugues Hoppe.自动视频循环与渐进的动态。SIGGRAPH，2013.[27] Chen Liu ， Kihwan Kim ， Jinwei Gu ， YasutakaFurukawa，and Jan Kautz.Planercnn：从单幅图像进行3d平面检测和重建。在IEEE计算机视觉和模式识别会议论文集，第4450- 4459页[28] Shuaicheng Liu，Lu Yuan，Ping Tan，and Jian Sun.捆绑摄像机路径，用于视频稳定。SIGGRAPH，2013.[29] 斯蒂芬·隆巴迪、杰森·萨拉吉、托马斯·西蒙和亚瑟·谢赫。用于面部渲染的深层外观模型。SIG- GRAPH，2018.[30] Zhaoyang Lv ， Kihwan Kim ， Alejandro Troccoli ，Deqing Sun，James M Rehg，and Jan Kautz.在动态场景中利用移动摄影机学习刚性以进行3d运动场估测。在ECCV，2018。[31] Fangchang Mal和Sertac Karaman。稀疏到密集：从稀疏

下载后可阅读完整内容，剩余1页未读，立即下载