视频中运动模糊物体的3D形状和运动估计

41 浏览量更新于2023-10-25 收藏 18.22MB PDF 举报

运动模糊

运动估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

159900运动模糊：视频中运动模糊物体的3D形状和运动估计0Denys Rozumnyi 1 , 4 Martin R. Oswald 1 , 2 Vittorio Ferrari 3 Marc Pollefeys 101 ETH苏黎世联邦理工学院计算机科学系 2 阿姆斯特丹大学 3 谷歌研究 4布拉格捷克技术大学0{ denys.rozumnyi,martin.oswald,marc.pollefeys } @inf.ethz.ch vittoferrari@google.com0摘要0我们提出了一种方法，可以从视频中同时估计高度运动模糊物体的3D运动、3D形状和外观。为此，我们通过参数化物体的3D位置、旋转、速度、加速度、反弹、形状和纹理来以生成方式建模快速运动物体的模糊外观，该过程跨越多个帧的预定义时间窗口。通过可微分渲染，我们能够通过最小化像素级的重投影误差到输入视频来估计所有参数，通过通过考虑在短时间间隔内对图形输出进行平均来解决运动模糊的问题。为此，我们还在同一优化中估计了相机曝光间隙时间。为了应对反弹等突然运动变化，我们将运动轨迹建模为分段多项式，并且能够以子帧精度估计反弹的具体时间。在已建立的基准数据集上的实验证明，我们的方法在快速运动物体去模糊和3D重建方面优于先前的方法。01. 引言0从2D图像中重建3D物体是计算机视觉中的关键任务之一[20, 32, 33,36]。它可以更好地对底层的3D世界进行建模。3D物体重建的应用广泛，从机器人地图制作[7]到增强现实[42]。尽管一些最近的方法处理了从单个2D图像重建3D物体的极端和不受约束的情况[39, 43]，大多数方法利用了多视图设置[20,32, 33,36]。然而，所有通用的3D物体重建方法都假设物体相对于相机的帧率移动较慢，导致2D图像清晰。当物体在运动过程中快速移动时，3D物体重建的任务变得更加具有挑战性。0� � � �� 0� � � �� 0输入形状和运动新视角 TSR（2倍）0图1.重建运动模糊下落的钥匙的3D形状和运动。我们通过优化多个输入帧来估计单个3D纹理网格和对应的运动模型（蓝色：观察到的轨迹，黄色：曝光间隙）。时间超分辨率（TSR）是所提出的运动模糊方法的应用之一。0通过优化，从一系列运动模糊的视频帧中估计3D物体的形状和运动。为了实现这一目标，我们优化了所有参数，包括物体的3D形状和纹理，以及其3D运动。我们将物体的3D形状和纹理绑定为在所有帧上保持不变。由于涉及更长的时间间隔，我们必须建模更复杂的物体运动（3D平移和3D旋转），而不仅仅是对于单个运动模糊的帧[31]，例如，下落物体的加速度（图1），或者球撞击墙壁（图3）。使用多个帧还带来了一个额外的挑战：相机快门在设定的时间间隔内打开和关闭，导致物体的可见轨迹和外观中出现间隙。为了成功完成我们的任务，我们还必须恢复这个曝光间隙。对于仅有一个帧的情况（如[31]），运动方向（沿估计轴的正向运动还是反向运动）是不明确的。例如，在图1中，钥匙可以从上到下或者从下到上平移，都会产生相同的输入图像。由于我们联合考虑多个帧，运动方向不再是模棱两可的，总是可以恢复。此外，对于旋转的物体，我们可以重建一个更完整的3D模型，因为我们可以整合更多覆盖其整个表面的观察结果。相反，先前的单帧方法[31]在未见部分产生明显的伪影。图1展示了我们方法的输出示例和应用于时间超分辨率的示例。总结起来，我们的工作有以下贡献：I = H ∗ F + (1 − H ∗ M) · B ,(1)I =�τHτ ∗ Fτ + 1 −�τHτ ∗ Mτ· B ,(3)I =� 10Fτ · Mτ dτ +�1 −� 10Mτ dτ�· B ,(4)159910通过优化所有参数，即多个输入帧（即物体的3D形状和纹理，以及其3D运动），我们将物体的3D形状和纹理绑定为在所有帧上保持不变。由于涉及更长的时间间隔，我们必须建模更复杂的物体运动（3D平移和3D旋转），而不仅仅是对于单个运动模糊的帧[31]，例如，下落物体的加速度（图1），或者球撞击墙壁（图3）。使用多个帧还带来了一个额外的挑战：相机快门在设定的时间间隔内打开和关闭，导致物体的可见轨迹和外观中出现间隙。为了成功完成我们的任务，我们还必须恢复这个曝光间隙。对于仅有一个帧的情况（如[31]），运动方向（沿估计轴的正向运动还是反向运动）是不明确的。例如，在图1中，钥匙可以从上到下或者从下到上平移，都会产生相同的输入图像。由于我们联合考虑多个帧，运动方向不再是模棱两可的，总是可以恢复。此外，对于旋转的物体，我们可以重建一个更完整的3D模型，因为我们可以整合更多覆盖其整个表面的观察结果。相反，先前的单帧方法[31]在未见部分产生明显的伪影。图1展示了我们方法的输出示例和应用于时间超分辨率的示例。总结起来，我们的工作有以下贡献：0(1)我们提出了一种称为运动模糊(Motion-from-Blur，MfB)的方法，通过对多个模糊帧进行优化，共同估计视频中运动模糊物体的三维运动、三维形状和纹理。运动模糊是第一种在视频序列上进行优化而不是单个帧的方法。源代码可在github.com/rozumden/MotionFromBlur上找到。0(2)我们的多帧优化使得可以估计运动方向以及更复杂的物体运动，例如加速度和突然的方向变化，例如反弹，对于三维平移和三维旋转都适用。此外，与单帧方法相比，我们的估计结果在时间上更加一致，始终具有正确的运动方向，并且具有更完整的三维形状重建。0(3) 作为建模多帧的要求，我们在所提出的优化中估计了曝光间隔。02. 相关工作0已经提出了许多用于通用去模糊的方法，例如 [ 3 , 11 , 17– 19 , 22 , 38 , 44]。帧插值或时间超分辨率的相关任务在 [ 4 , 6 , 9 , 10 ,21 , 22 , 34 , 35 ]中进行了研究。然而，没有一个通用的去模糊方法能够处理极度运动模糊的物体，如 [ 27 ]所示，需要特定的方法。我们专注于对高度运动模糊的物体进行去模糊和三维重建。这些物体被称为快速移动物体。0在[ 27]中定义的物体是指在一个图像的曝光时间内移动距离大于其大小的物体。这类物体的检测和跟踪通常通过经典的图像处理方法[ 14 , 26 , 27 ]或最近的深度学习方法[ 29 , 45]来完成。[ 37]中研究了一种基于模型的高速跟踪方法，使用了专用的飞行时间相机。快速移动物体的单帧去模糊。快速移动物体去模糊的第一种方法[ 15 , 27 ]假设物体具有恒定的二维外观 F和二维形状掩码 M。因此，物体由一个二维图像块表示，只能在二维平面上进行刚体平移和旋转。他们将这类物体的图像形成模型定义为模糊物体外观 F 与背景 B 的混合：0其中，运动模糊由锐利物体外观 F与其轨迹的卷积建模，轨迹由模糊核 H定义。提出了几种后续方法[ 13 , 14 , 25 , 26 , 28 , 29 ,40 ]，用于解决给定输入图像 I 和背景 B 的 ( F, M, H )。他们通过能量最小化和适当的正则化器（由函数 reg( ∙ )总结）以最小二乘的方式近似求解。0最小化 F,M,H 1 2 ∥ H � F +(1 − H � M ) ∙ B − I ∥ 2 20(2) 与盲去模糊问题[ 15]中常见的做法一样，他们在循环中分别对物体 ( F, M )和轨迹 H进行交替最小化。优化得以实现，得益于许多正则化器，如外观总变差、模糊核稀疏性[ 14 , 15 , 26]、曲线的运动模糊先验[ 40 ]、外观和掩膜的旋转对称性[28]等。所有这些方法都具有相同的缺点，这源于基础图像形成模型 ( 1 )，该模型假设物体的二维外观是恒定的。TbD-3D[ 28]扩展了图像形成模型，以支持具有分段恒定二维外观的快速移动物体。0其中，轨迹被分成几个片段 H τ，假设在每个片段上物体的外观 F τ 和掩膜 M τ都是恒定的。所有未知量再次通过能量最小化进行估计，同时加入了特定于问题的额外先验，例如相邻片段中物体外观相似。随后，DeFMO [ 30]成为第一个基于学习的快速移动物体去模糊方法，并将图像形成模型进一步推广到沿轨迹任意变化的具有二维外观的物体上。I =� 10RF�M(Θ, r + τ · ∆r, t + τ · ∆t)�dτ++�1 −� 10RS�M(Θ, r + τ · ∆r, t + τ · ∆t)�dτ�· B ,(5)159920其中对象外观 F τ 和掩模 M τ由编码器-解码器网络建模。网络将 ( F τ , M τ )放置在正确的图像位置，直接编码对象轨迹。尽管在合成的ShapeNet数据[1]上进行了训练，但DeFMO已被证明可以推广到真实世界的图像。快速移动物体的单帧3D重建。唯一能够进行快速移动物体的3D重建的先前工作是Shape-from-Blur [31]。它们不仅仅恢复2D对象投影 ( F τ , M τ )，还重建了物体的3D形状网格 Θ以及3D运动。后者由3D平移 t 和3D旋转 r表示，定义了曝光时间开始时（ τ = 0）物体的姿态，以及将物体移动到曝光时间结束时（ τ = 1）的姿态的偏移量 ∆ t 和 ∆ r。根据这些定义，图像形成模型变为0其中函数 M 通过给定的3D平移和3D旋转将网格 Θ转换。能量最小化是从（5）构建的，以尽可能接近地重新渲染输入图像 I的网格和运动参数。为了使最小化可行，使用基于差分插值的渲染使网格渲染可微分[2]，分别用 R F 和 R S表示外观和2D对象轮廓。与2D掩模 M τ不同，轮廓表示3D对象网格的真实渲染。与模糊恢复形状不同，我们的方法模拟了更复杂的轨迹，估计了曝光间隙，并同时考虑了多个帧，从而实现了时间上一致的预测和更完整的重建3D形状模型。锐利图像的3D形状。已经提出了许多用于3D重建的方法，包括单帧[5, 24, 39, 41,43]和多帧设置[20, 32, 33,36]。但是这些方法假设场景中的物体是锐利的（前面段落中列出的方法是唯一专门用于快速移动物体的方法）。换句话说，它们要么假设物体的移动速度相对于相机帧速率较慢（或者等效地，相机移动速度较慢）。03. 方法0当图像被传统相机捕捉时，相机打开快门以允许适量的光线到达相机传感器。然后，快门关闭，整个过程重复，直到捕捉到所需的帧数。相机捕捉过程的这种物理现实导致了两种现象，我们对其进行建模。0并在我们的优化中利用。第一个是当快门打开时物体移动时出现的运动模糊。第二个是曝光间隙，当快门关闭时使相机“盲目”，因此在物体运动的某些部分无法观察到。我们假设输入是一个由 N 个RGB图像组成的视频流 V = { I 1 , . .. , I N }，描绘了一个快速移动的物体。我们方法的期望输出是一个单一纹理的3D物体网格 Θ ，其运动参数 Ω包括视频持续时间内每个时间点 τ的连续3D平移和3D旋转，以及曝光间隙 ϵ（一个实数参数）。第3.1节介绍了这些参数和视频形成模型，用于为给定的参数生成视频帧。如果我们知道所有参数的真实值，我们可以渲染输入视频 V。然后，在第3.2节中，我们展示了如何优化这些参数，以尽可能接近地重新渲染输入视频帧。03.1. 建模0网格建模。网格参数Θ包括对原型网格的索引，从初始顶点位置到变形网格的顶点偏移量以及纹理映射。我们使用一组原型网格来考虑不同的网格复杂性和不同的层次数。我们的原型网格集包括一个圆环和两个具有不同顶点数的球体。从顶点到纹理映射的二维位置的映射被假定为固定的。类似地，网格三角面由连接顶点的固定边集组成。运动建模。对象运动Ω由连续的3D平移T(τ)∈R3和用四元数表示的3D旋转Q(τ)组成。平移和旋转都是从相机视角观察的，相机视角被假定为静态的。我们假设它们在时间τ∈[0,1]的所有时刻都有定义，跨越整个输入视频的持续时间。我们将函数T(τ)和Q(τ)实现为分段多项式，它们的参数是多项式系数。更准确地说，我们使用具有两个连接部分的分段二次函数，能够模拟一次弹跳以及加速运动（例如，一个下落的物体）。曝光建模。我们将曝光间隔表示为实值参数ϵ∈[0,1]，它表示相机快门关闭的时间段占帧持续时间的比例。换句话说，它是快门关闭时间与一个快门周期持续时间的比值。一个假设的全曝光相机从不关闭快门，将导致ϵ=0。在大多数情况下，传统相机会将曝光间隔ϵ设置为接近0，以适应暗环境中尽可能多的光线，并将其设置为接近1，以避免过曝光。通常，较小的曝光间隔ϵ会导致更多的运动模糊。视频形成模型。视频形成模型是我们方法的核心。它为给定的所有上述参数渲染一个视频帧ˆIn：CroppedInput VideoGeneratedBlurred VideoGenerated VideoAveraging+Matting⌘·B .………Exposure TimeExposure GapConstant Mesh ParametersForeground SilhouettesPadded CroppingCleanBackgroundVideo(higher frame rate)(input frame rate)(input frame rate)Deep neural networkDataLoss functionDRDifferentiable rendererMedian FilterBlurred objectdetectionˆI(TimeInput Video with Blurred ObjectDeblurred, Temporally Super-resolved OutputCleanBackgroundTexturesmoothness lossLaplacian shaperegulariation loss) + LT (· LLBounce!MeshTexture Map…DRDRDRDRDRDRDRDRDRˆIn(Θ, Ω, ϵ|B) =�n−ϵN+1 −�n−ϵN(6)(8)(9)159930图2.运动模糊(MfB)的概述。对于一个运动模糊的视频，我们估计其3D运动、3D形状和纹理。从右到左，该流水线可以解释为一个生成模型：从对象及其运动的所有参数开始，我们渲染具有对象外观（前景）和轮廓的高帧率视频。与已知的背景一起，我们生成一个运动模糊的对象视频，应尽可能与输入视频匹配。在测试时，我们通过将图像差异通过可微分渲染器从左到右反向传播来优化该逆问题的所有对象参数（和曝光间隔）。我们使用DeFMO方法[30]初始化优化过程，该方法提供模糊对象的粗略轮廓。MfB对运动路径进行了分段平滑建模，以允许运动的不连续性，如弹跳。视频来源：YouTube。0� M � Θ，Q(τ)，T(τ) � � dτ +0NRF0NRS0�0�0� M � Θ，Q(τ)，T(τ) � � 0∙ B，0N。因此，在τ = n - ϵ之间，对象不可见0当快门在时间τ = n - ϵ关闭时，N的曝光时间延伸到结束0N和τ =nN。如前所述，函数M首先通过3D旋转Q(τ)将网格Θ旋转，然后再通过3D平移T(τ)移动它。网格渲染采用可微分的基于插值的渲染[2]实现，外观用RF表示，轮廓用RS表示。与之前的快速移动物体去模糊方法一样，我们将背景B计算为输入视频V中所有帧In的中值。请注意，我们的建模是SfB[31]的严格推广，适用于N=1和线性运动的情况。03.2. 模型拟合0本节介绍了一种将引入的模型拟合到给定输入视频的优化方法。损失函数。所提出方法的主要驱动力是视频重建损失：0L V (Θ, Ω, ϵ | V, B) = 10N0n =1 ∥ I n - ˆ I n (Θ, Ω, ϵ | B) ∥1。 (7)0如果由我们的模型通过公式 (6) 渲染的帧 ˆ I n看起来与输入帧 I n 相似，则此损失较低。0为了使优化更容易和良好，我们应用辅助损失项和正则化器，类似于[31]。我们在这里简要总结它们，并参考[31]了解详细信息。轮廓一致性损失 L S有助于更快地定位图像中的物体，并用于估计3D网格及其平移的初始化。首先，我们运行DeFMO[30]并使用其估计的掩模 M τ进行近似物体定位。为了在相邻帧之间同步DeFMO掩模的运动方向（前向vs.后向），我们最小化相邻帧之间连续掩模的距离。然后，L S定义为我们方法渲染的2D网格轮廓与DeFMO掩模之间的交并比（IoU）：0L S = 1 - � 100 IoU0�0M τ, R S0� M � Θ, Q (τ), T (τ) � ��0d τ。0此外，我们添加了常用的[2, 13, 26, 31, 41]总变差和Laplacian正则化器。0[26, 31, 41]总变差和Laplacian正则化器。纹理图的总变差L T (Θ) 鼓励模型产生平滑的纹理，而Laplacian正则化器 LL (Θ)促进平滑的网格。最后，联合损失是所有四个损失项的加权和：0L (Θ, Ω, ϵ | V, B) = λ V ∙ L V (Θ, Ω, ϵ | V, B) + L T (Θ) +0+ L S (Θ, Ω, ϵ | V, B) + λ L ∙ L L (Θ)。0优化。图2显示了流程的概述。我们将联合损失反向传播到网格 Θ、运动参数 Ω 和曝光间隔 ϵ。使用ADAM[12]进行优化，学习率为0.1。开始时，我们最多运行100次预优化，λ V = 0，因此省略了视频重建损失。. . .. . .I1I2I3159940输入0反弹！0DeFMO[30]0SfB[31]0GT0图3. 估计运动模糊排球的3D形状和运动，显示为时间超分辨率。提出的Motion-from-Blur(MfB)方法是第一个在优化过程中使用多个视频帧的方法，也是第一个模拟复杂轨迹并考虑曝光间隔的方法。之前的FMO去模糊方法（DeFMO）和单帧3D重建方法（SfB）在重建反弹时存在困难，因为它们在缺乏多帧优化的情况下会被球的阴影所困扰。0纹理图更新。预优化在轮廓损失 L S 小于 0.3时停止，这意味着网格轮廓与 DeFMO 掩模的平均 IoU大于0.7。这个预优化阶段是必需的，因为3D平移必须将网格放置在图像的大致正确位置，以获得视频重建损失 L V用于估计纹理图、3D物体旋转和3D形状的训练信号。使用的视频帧数 N越多，这一步就越重要，因为物体的2D位置在帧之间变化更大。实验结果表明，当 N 大于 2时，没有预优化时优化过程无法收敛。我们通过对每个原型运行优化并选择视频重建损失 (7)最小的那个来优化网格原型。在优化过程中，通过将顶点归一化为零均值和单位方差，始终将网格保持在规范空间中。主要优化过程使用完整损失 (9) 进行1000次迭代，其中 λ V= 1。Laplacian正则化器 L L 的超参数 λ L经过实验设定为1000。纹理总变差损失 L T和轮廓一致性损失 L S没有权重，因为在我们的实验中默认值 1效果良好。初始化。网格参数 Θ初始化为原型形状，顶点偏移为零，纹理图为白色。运动参数 Ω初始化为将物体放置在图像中间且旋转为零。最后，曝光间隔 ϵ 初始化为 0.1。实现。我们使用PyTorch [23]和Kaolin[8]进行可微分渲染。每帧中的所有积分都通过将时间间隔分成8个均匀间隔的部分进行离散化。所有实验在一台NvidiaGTX 1080Ti GPU上运行，每帧平均运行时间为60秒。04. 实验0我们通过在快速移动物体去模糊基准测试[30]的3个真实数据集上测量去模糊质量来评估我们方法的准确性。由于没有带有相关的真实图像数据集的快速移动物体，关联的3D形状和运动，我们遵循[31]的协议，在合成数据集上评估重建的3D网格、3D平移和3D旋转的质量。0快速移动物体去模糊基准测试。它包含3个难度不同的数据集。最简单的是TbD[14]，其中包含大多数球形对象和均匀颜色（12个序列，共471帧）。更困难的数据集是TbD-3D[28]，其中包含大多数具有复杂纹理和显著3D旋转的球形对象（10个序列，共516帧）。最困难的数据集是FallingObjects[13]，其中包含各种形状和复杂纹理的对象（6个序列，共94帧）。这些数据集的真实情况是由高速相机记录下来的，该相机捕捉到没有运动模糊的移动物体。因此，我们对每个帧输入到我们的方法中的帧进行了8次高速帧的重建。我们通过在输入慢速帧上优化后使用估计的物体参数，在8倍更高的时间分辨率上应用视频形成模型（6）。然后，通过峰值信噪比（PSNR）和结构相似性（SSIM）指标比较重建的高速相机帧和真实帧。此外，这些数据集还包含真实的2D物体轨迹和2D物体掩模。因此，我们还测量了轨迹交集。< 90◦< 30◦159950方法 Falling Objects [13] TbD-3D 数据集 [28] TbD 数据集 [14]0TIoU ↑ PSNR ↑ SSIM ↑ TIoU ↑ PSNR ↑ SSIM ↑ TIoU ↑ PSNR ↑ SSIM ↑0Jin等人[10] N/A 23.54 0.575 N/A 24.52 0.590 N/A 24.90 0.530 DeblurGAN-v2 [18] N/A 23.36 0.588 N/A 23.58 0.603 N/A24.27 0.537 TbD [14] 0.539 20.53 0.591 0.598 18.84 0.504 0.542 23.22 0.605 TbD-3D [28] 0.539 23.42 0.671 0.598 23.130.651 0.542 25.21 0.674 DeFMO [30] 0.684 26.83 0.753 0.879 26.23 0.699 0.550 25.57 0.602 SfB [31] 0.701 27.18 0.760 0.92126.54 0.722 0.610 25.66 0.659 MfB（我们的方法）0.772 27.54 0.765 0.927 26.57 0.728 0.614 26.63 0.6780表1. 快速移动物体去模糊基准测试。我们将提出的MfB方法与通用去模糊方法[10,18]（没有轨迹输出，因此TIoU未定义）和专门设计用于快速移动物体去模糊的方法[14, 28, 30, 31]进行比较。0TIoU ↑ PSNR ↑ SSIM ↑0SfB [31] 0.921 26.54 0.722 MfB（我们的方法）0.92726.57 0.7280bn± 10SfB [31] 0.892 21.77 0.628 MfB（我们的方法）0.90225.01 0.6430bn± 00SfB [31] 0.863 20.77 0.595 MfB（我们的方法）0.88924.57 0.6200表2.弹跳时的去模糊质量。我们在完整的TbD-3D数据集[28]上进行比较，在弹跳的一部分帧（bnc ±0）上进行比较，以及在弹跳之前和之后的帧上进行比较（bnc ±1）。提出的多帧MfB在弹跳时的准确性（图3）上显著优于单帧SfB，特别是在去模糊度量PSNR上。0联合（TIoU）定义为将放置在地面真实2D位置和重建2D位置之间的真实掩模的IoU与平均时间上的投影网格轮廓的质心进行比较。我们将我们的方法的2D物体位置重建为每个高速帧上的投影网格轮廓的质心。我们与各种最先进的方法进行比较：通用去模糊方法DeblurGAN-v2[18]，用于时间超分辨率的通用方法[10]，以及用于快速移动物体去模糊的方法[14, 28, 30,31]。所有比较的方法都独立地使用每个视频帧，而MfB是第一个同时利用多个帧的方法。我们以N =3的时间滑动窗口方法运行MfB，除非另有说明。对于每个帧，我们总是选择视频重建损失（7）在该帧上最低的窗口（类似于最佳原型选择）。这种时间滑动窗口方法降低了内存需求，并增加了对轻微移动相机和非静态背景的鲁棒性。表1给出了结果。MfB在所有三个数据集和三个度量标准上都优于所有其他方法。从定性上看，估计的时间超分辨率与单帧方法相比更加一致，因为MfB通过单个3D物体网格和纹理来解释所有帧（图5，N =7）。新视图合成也明显改善了。0e t ↓ e r ↓ e Θ ↓0SfB [31] 37.8% 10.9° 3.0% MfB（我们的方法）20.0%6.4° 2.7%0SfB [31] 12.8% 4.8° 2.3% MfB（我们的方法）8.8% 3.7°2.2%0表3.在合成数据集上评估3D平移、3D旋转和3D形状。第一块：在3个帧上最多90°旋转的数据集，第二块：最多30°旋转。当测量3D平移et 和3D旋转e r误差时，MfB在大旋转数据集上的错误率是单帧SfB的一半，而在小旋转数据集上MfB仍然显著优于SfB。0由于物体轮廓从所有视角都准确可见，甚至盒子的锐利90°角（图5，新视角）也很清晰，因此我们的方法比之前最先进的单帧3D重建方法[31]产生了几个伪影、不一致性，并且对于单个输入帧中不可见的物体部分产生了完全错误的3D形状。此外，DeFMO [30]和SfB[31]在存在阴影和镜面反射时失败，而MfB由于邻近帧的额外约束更好地重建了物体（图5，I1和I2）。曝光间隙一致性。我们评估了序列持续时间内曝光间隙估计的方差，对所有序列进行平均。该值非常低（σ2 =0.002），表明具有良好的一致性。此外，估计的曝光间隙因相机设置而异：在Falling Objects数据集上τ =0.05，在图4（底部）的YouTube序列上τ =0.7。这突显了对曝光间隙进行建模的必要性。在反弹时进行评估。我们方法的一个独特新特性是其能够建模反弹，从而在这些情况下实现更好的去模糊效果。在这里，我们明确评估了这种效果。为此，我们手动注释了TbD-3D数据集[28]中发生反弹的帧（这是唯一一个反弹相对较频繁的数据集）。总体而言，我们在10个序列的516帧中找到了38个反弹，占总帧数的7.4%。由于反弹前后的帧通常是. . .159960由于受到其他因素的影响（例如，由于阴影而受到影响，如图3所示），我们也对它们进行了评估，共计114帧（22%）。如表2所示，MfB在反弹方面明显优于SfB，尤其是在去模糊质量度量PSNR方面。当在与反弹相邻的帧上进行评估时，性能差距仍然显著，但在整个数据集上平均时相对较小。这表明反弹比数据集的其他部分更难，如图4和图3所示，我们的方法也成功重建了这些帧。对于单帧方法，困难主要来自于轨迹的非线性、轻微的物体变形和反弹点附近的阴影。由于优化在反弹之前和之后的较容易的帧上更受限制，并且轨迹是明确建模的，所以Motion-from-Blur对这些困难更具鲁棒性。在远离反弹的帧上，单帧和多帧方法之间的去模糊质量差异在TbD-3D数据集上是微小的。请注意，我们的模型是通用的，即使没有反弹，也可以估计连续连接的轨迹。合成3D数据集。我们构建了一个合成数据集，其中包含具有地面真实3D模型和3D运动的快速移动物体，用于评估。我们从ShapeNet数据集[1]中随机采样3D模型，随机线性3D平移和3D旋转（为了与仅重建线性运动的SfB[31]进行公平比较），以及来自VOT[16]跟踪数据集的随机连续帧作为背景。3D平移在1到5个物体尺寸之间随机选择，3D旋转在视频持续时间内随机选择最多30°（第一个子集）或90°（第二个子集）。然后，我们使用N =3的视频形成模型（6）创建两个子集，每个子集包含30个短视频。我们报告网格误差eΘ，它是地面真实网格和估计网格之间最近顶点的双向距离的平均值，两者都放置在地面真实和预测的初始6D姿态处，并除以物体尺寸。为了评估平移误差e t，我们计算预测的平移偏移T（1）-T（0）与地面真实平移偏移之间的差向量的范数，除以物体尺寸。因此，这两个分数（eΘ和e t）都报告为物体尺寸的一部分。为了评估旋转误差e r，我们计算估计旋转变化（Q（1）和Q（0）之间的旋转）与地面真实旋转变化之间的平均角度。我们与唯一能够从运动模糊输入中重建3D对象及其运动的其他方法（SfB[31]）进行比较。我们的方法应用于每个视频的所有三个视频帧，而SfB则分别应用于它们，并对分数进行平均（相对于一个视频帧）。如表3所示，在具有最多90°旋转的合成数据集1上，我们的方法几乎比SfB准确率高一倍01 所有图像仅显示真实数据。0I1 I2 I3 I4 I5 轨迹0图4.重建具有反弹的2D物体轨迹。对于每个视频，我们重建3D物体及其运动（蓝色：观察到的轨迹，黄色：曝光间隔）。我们可视化网格轮廓的质心轨迹，并进一步渲染物体的第一个和最后一个姿态（最右侧的图像）。顶行：TbD[14]数据集中的场景；中行：TbD-3D[28]场景；底行：来自图2的YouTube场景。0对于3D平移和3D旋转估计，MfB相对于SfB的差异是显著的。对于小于30°的旋转，差异较小但仍然显著。这表明多帧优化对于具有非可忽略旋转的复杂物体（如ShapeNet中的物体）特别有益。MfB可以用于模拟高速相机或通过从运动模糊的视频中创建时间超分辨率来增强其功能。MfB可以对几乎无法被人类识别的模糊物体进行3D重建，例如监控摄像头的图像取证。应用还包括体育运动中的6D物体跟踪和重建，例如足球、网球、篮球。05. 限制0静态相机。MfB假设视频是由几乎静止的相机拍摄的。移动相机会给观察到的模糊带来更多的歧义，可能来自相机和物体的运动模糊。此外，相机运动还必须对运动模糊进行补偿，整个问题将变得更加困难。由于所有先前用于快速移动物体去模糊和3D重建的方法[14, 26, 28, 30,31]也假设相机是静态的，解决这个问题仍然是具有挑战性的未来工作。快门。我们假设快门速度是恒定的。然而，一些相机具有可调节的快门，根据光照条件改变曝光时间，例如在明亮的场景下减少曝光，在黑暗的场景下增加曝光。在大多数情况下，这种过渡是平滑的，我们的方法由于滑动窗口的方法而具有鲁棒性。建模滚动快门超出了本文的范围。无纹理物体。对于缺乏明显纹理的3D物体进行重建，即使对于通用的3D重建来说也是一种挑战，因为没有明显的几何特征可观察，并且对应关系是模糊的。在这种情况下，几乎不可能检测到任何3D旋转。非刚性物体。我们假设物体是刚性的，即其3D模型在视频持续时间内保持不变。这种假设对于变形物体是无效的，这种情况经常发生在弹跳过程中。然而，由于这些变形通常是微不足道的，并且只持续很短的时间，我们的建模仍然能够很好地处理这些情况。159970输入0DeFMO[30]0不行，不能做到。0SfB[31]0I10I30I50GT0不可用。0I1 I2 I3 I4 I5 I6 I7 新视角0图5. 从FallingObjects数据集[13]中重建下落箱子的3D模型和时间超分辨率。我们的方法在N=7个输入帧上产生比之前的方法更一致的结果，并且在带有阴影的帧（I1和I2）上不会出现伪影。最终的3D重建结果也比单帧方法SfB[31]更完整和准确，如新视角所示。0根据光照条件改变曝光间隔，例如在明亮的场景下减少曝光，在黑暗的场景下增加曝光。在大多数情况下，这种过渡是平滑的，我们的方法由于滑动窗口的方法而具有鲁棒性。建模滚动快门超出了本文的范围。无纹理物体。对于缺乏明显纹理的3D物体进行重建，即使对于通用的3D重建来说也是一种挑战，因为没有明显的几何特征可观察，并且对应关系是模糊的。在这种情况下，几乎不可能检测到任何3D旋转。非刚性物体。我们假设物体是刚性的，即其3D模型在视频持续时间内保持不变。这种假设对于变形物体是无效的，这种情况经常发生在弹跳过程中。然而，由于这些变形通常是微不足道的，并且只持续很短的时间，我们的建模仍然能够很好地处理这些情况。06. 结论0我们提出了第一种方法，用于估计视频中运动模糊物体的纹理3D形状和复杂运动。通过优化多个输入帧，我们正确恢复了3D物体的形状和运动，其运动方向以及相机的曝光间隔。各种实验证明，与其他快速移动物体去模糊方法相比，我们的方法产生了更清晰、更一致的结果。与单幅图像的3D形状和运动估计[31]相比，我们的方法恢复了更完整的形状和更精确的运动估计。0致谢。这项研究得到了谷歌专项研究奖、Innosuisse资助项目34475.1IP-ICT、捷克共和国信息学研究中心（OPVVV资助的项目CZ.02.1.01/0.0/0.0/16019/0000765）和FIFA的研究资助。159980参考文献0[1] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Mano-lis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, andFisher Yu. ShapeNet: 一个信息丰富的3D模型库.技术报告arXiv:1512.03012 [cs.GR]，斯坦福大学 - 普林斯顿大学- 芝加哥丰田技术研究所，2015年. 3 , 70[2] Wenzheng Chen, Jun Gao, Huan Ling, Edward Smith,Jaakko Lehtinen, Alec Jacobson, and Sanja Fidler.学习通过基于插值的可微分渲染器预测3D物体.在NeurIPS会议上，2019年. 3 , 40[3] Zhixiang Chi, Yang Wang, Yuanhao Yu, and Jin Tang.通过元辅助学习进行动态场景去模糊的测试时快速自适应.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2021年6月. 20[4] Tianyu Ding, Luming Liang, Zhihui Zhu, and Ilya Zharkov.Cdfi: 用于帧插值的压缩驱动网络设计.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2021年6月. 20[5] Haoqiang Fan, Hao Su, and Leonidas J. Guibas.用于从单张图像重建3D物体的点集生成网络.在CVPR会议上，2017年7月. 30[6] Shurui Gui, Chaoyue Wang, Qihua Chen, and DachengTao. Featureflow: 通过结构到纹理生成进行鲁棒的视频插值.在计算机视觉和模式识别（CVPR）IEEE会议上，2020年6月. 20[7] Muzhi Han, Zeyu Zhang, Ziyuan Jiao, Xu Xie, Yixin Zhu,Song-Chun Zhu, and Hangxin Liu.通过全景映射和CAD模型对齐重建交互式3D场景.在ICRA会议上，2021年. 10[8] Krishna Murthy Jatavallabhula, Edward Smith, Jean-Francois Lafleche, Clement Fuji Tsang, Artem Rozantsev,Wenzheng Chen, Tommy Xiang, Rev Lebaredian, and SanjaFidler. Kaolin: 一个用于加速3D深度学习研究的PyTorch库.arXiv:1911.05063 , 2019年. 50[9] Meiguang Jin, Zhe Hu, and Paolo Favaro.学习从模糊视频中提取完美的慢动作.在CVPR会议上，2019年6月. 20[10] Meiguang Jin, Givi Meishvili, and Paolo Favaro.

下载后可阅读完整内容，剩余1页未读，立即下载