高速摄像机获取准确多样化的光流数据

197 浏览量更新于2023-10-16 收藏 13.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

35970Slow Flow:利用高速摄像机获取准确且多样化的光流参考数据0Joel Janai 1 Fatma G¨uney 1 Jonas Wulff 2 Michael Black 2 Andreas Geiger 1 , 301 自主视觉组，智能系统T¨ubingen MPI 2感知系统部门，智能系统T¨ubingen MPI 3 计算机视觉和几何组，ETHZ¨urich0{ joel.janai,fatma.guney,jonas.wulff,michael.black,andreas.geiger } @tue.mpg.de0摘要0现有的光流数据集由于获取密集的地面真实值的困难而在规模和变异性上受到限制。在本文中，我们通过使用高速摄像机跟踪像素通过密集采样的时空体积来解决这个问题。我们的模型利用小运动的线性性，并从多个帧推理出遮挡。使用我们的技术，我们能够在自然环境中建立准确的参考光流场。此外，我们展示了如何使用我们的预测来增强输入图像的逼真运动模糊。我们在合成和真实世界数据集上展示了所产生的光流场的质量。最后，我们通过将我们的技术应用于高速摄像机的数据来收集一个新的具有挑战性的光流数据集，并分析了在不同程度的运动模糊下光流的最新技术的性能。01. 引言0计算机视觉的最近进展很大程度上是由于在非常大的标注数据集上训练的高容量模型的推动。这些数据集的例子包括ImageNet [50]用于图像分类[26, 32]，MS COCO[36]用于目标定位[45]或Cityscapes[14]用于语义分割[22]。不幸的是，以像素级别注释大型数据集的成本非常高[70]，而一些任务如光流或3D重建甚至不允许手动注释的收集。因此，这些问题的训练数据较少，阻碍了基于学习的方法的进展。合成数据集[12, 19, 25,48]为真实图像提供了一种有吸引力的替代方案，但需要详细的3D模型，有时还面临法律问题[47]。此外，渲染场景所达到的真实性和多样性是否足以与在真实数据上训练的模型的性能相匹配仍然是一个悬而未决的问题。0图1：说明。该图显示了由我们的方法建立的具有大位移的参考光流场。饱和区域（白色）在我们的评估中被排除。0本文关注光流任务。由于不存在直接捕获光流真实值的传感器，现有的真实世界数据集（如Middlebury [3]或KITTI[21,39]）提供的标记图像数量有限。因此，当前的端到端学习方法[16, 38, 44,61]在简化的合成图像（如飞行椅子数据集[16]或有限复杂度的渲染场景[38]）上进行训练。这可能是这些技术尚未达到经典手工设计模型性能的原因之一。我们相信，获得一个大规模且真实的数据库对于学习高容量光流模型的进展至关重要。0受到这些观察的启发，我们利用高速摄像机的能力，在各种自然场景中创建准确的光流参考数据，见图1。特别地，我们以高空间（QuadHD：35980（a）输入图像0（b）高帧率0（c）低帧率0图2：运动模糊。使用高帧率视频和我们的技术（在第4.2节中描述），我们能够将逼真的运动模糊（b）添加到图像（a）中。相比之下，使用低帧率和经典的光流方法会导致严重的阶梯状伪影（c）。02560 × 1440像素）和时间（> 200fps）分辨率，并提出了一种新颖的方法，用于在大量高分辨率输入帧上进行密集像素跟踪，以预测规则的空间和时间分辨率下的准确对应关系。高空间分辨率提供了细节纹理，而高时间分辨率确保了小位移，从而可以整合强时间约束。与Middlebury[3]不同，我们的方法不假设特殊的照明条件或隐藏的纹理。与KITTI [21,39]相比，我们的方法适用于非刚性动态场景，不需要激光扫描仪，并提供密集的估计。此外，我们的方法允许对输入图像进行实际的修改，例如通过合成运动模糊，如图2所示。为了量化我们的参考光流场的质量，我们在MPISintel数据集的高帧率版本[12]和几个静态场景的三维重建上评估了我们的方法。接下来，我们使用我们的技术处理了一个新的高帧率视频数据集，并分析了现有光流算法在该数据集上的性能。我们通过系统地研究运动幅度和运动模糊对现有光流技术的影响，展示了高帧率光流估计的有用性。我们在项目网页上提供了我们的代码和数据集1。02. 相关工作0数据集：在几十年的时间里，光流算法的性能评估主要是定性的[41]或基于合成数据的[5]。Baker等人提出了有影响力的Middlebury光流评估[3]，通过在紫外光照下记录具有荧光纹理的物体图像来建立对应关系。与我们一样，他们使用高空间分辨率的图像来计算低分辨率下的密集亚像素准确光流。然而，他们没有使用高时间分辨率。最近，Geiger等人发布了KITTI数据集[21]，其中包括通过激光扫描仪获得的静态场景的400张图像和半密集光流地面真值。在扩展工作[39]中，已经以半自动方式将三维CAD模型适配到刚性运动的物体上。虽然这种方法比[3]更具可扩展性，但需要大量的手动交互来去除三维点云中的异常值，并将三维CAD模型适配到动态物体上。此外，该方法仅适用于存在三维模型的刚性运动物体。与Middlebury [3]和KITTI[21]不同，我们致力于提供一个完全可扩展的解决方案，该解决方案可以处理在通用条件下使用单个灵活手持高速相机拍摄的视频。我们的目标是在没有人为干预的情况下为这些视频创建参考光流数据。Butler等人利用自然主义的开源电影“Sintel”来渲染1600张虚拟场景的图像，并提供准确的地面真值。虽然我们的目标是在真实世界条件下捕捉光流参考数据，但我们渲染了MPISintel数据集的高帧率版本，以评估我们的方法产生的参考光流场的质量。备注：我们区分真实数据和参考数据。虽然前者被认为是没有错误的2，但后者是从数据中估计出来的，因此容易出现不准确。我们认为，如果参考数据的准确性超过了现有技术的准确性，那么这样的数据仍然非常有用。01 http://www.cvlibs.net/projects/slow flow0工作：在几十年的时间里，光流算法的性能评估主要是定性的[41]或基于合成数据的[5]。Baker等人提出了有影响力的Middlebury光流评估[3]，通过在紫外光照下记录具有荧光纹理的物体图像来建立对应关系。与我们一样，他们使用高空间分辨率的图像来计算低分辨率下的密集亚像素准确光流。然而，他们没有使用高时间分辨率。最近，Geiger等人发布了KITTI数据集[21]，其中包括通过激光扫描仪获得的静态场景的400张图像和半密集光流地面真值。在扩展工作[39]中，已经以半自动方式将三维CAD模型适配到刚性运动的物体上。虽然这种方法比[3]更具可扩展性，但需要大量的手动交互来去除三维点云中的异常值，并将三维CAD模型适配到动态物体上。此外，该方法仅适用于存在三维模型的刚性运动物体。与Middlebury [3]和KITTI[21]不同，我们致力于提供一个完全可扩展的解决方案，该解决方案可以处理在通用条件下使用单个灵活手持高速相机拍摄的视频。我们的目标是在没有人为干预的情况下为这些视频创建参考光流数据。Butler等人利用自然主义的开源电影“Sintel”来渲染1600张虚拟场景的图像，并提供准确的地面真值。虽然我们的目标是在真实世界条件下捕捉光流参考数据，但我们渲染了MPISintel数据集的高帧率版本，以评估我们的方法产生的参考光流场的质量。备注：我们区分真实数据和参考数据。虽然前者被认为是没有错误的2，但后者是从数据中估计出来的，因此容易出现不准确。我们认为，如果参考数据的准确性超过了现有技术的准确性，那么这样的数据仍然非常有用。0方法：传统上，光流被形式化为一个变分优化问题[15, 28,43, 49,57]，其目标是建立视频序列中两帧之间的对应关系。为了应对大位移，已经提出了稀疏特征对应[9, 11, 62,67]和离散推理技术[4, 13, 34, 37, 40, 55,71]。Sand等人[52]将帧间光流与长距离跟踪相结合，但只进行了稀疏处理，并没有使用高时间分辨率的视频。最近，已经训练了端到端的深度神经网络来完成这个任务[16, 38,61]。然而，这些解决方案的性能还没有达到手工设计模型[1, 13, 24,53]的水平。阻碍这一领域进一步发展的一个原因是缺乏具有参考光流的大规模真实数据集。在本文中，我们提出了一种数据驱动的方法，利用高速相机记录的大量数据，通过建立多帧上的密集像素轨迹来预测准确的对应关系。接下来，我们将讨论与多帧光流估计最相关的工作，忽略...02 需要注意的是，这并不完全准确，因为KITTI存在校准误差，而MPISintel提供的是运动场而不是光流场。ψD(F(p), O(p)) =ψF(F(p)) =ϕt1(F(p)) +ϕt2(F(p))(3)ψB(F(p)) =tϕt1(F(p)) +tϕt2(F(p))(4)ϕt1(F(p)) = ρ(Jt(p + tF(p)) − Jt+1(p + (t + 1)F(p)))ϕt2(F(p)) = ρ(Jt(p + tF(p)) − J0(p))35990以前的方法主要考虑纯刚体场景[7,29]。早期的方法研究了光流的时空滤波器[17, 20,27]。在[42, 56, 66,72]中，使用了非常简单的时间相干性公式，对光流梯度的大小进行惩罚。由于没有考虑位置的变化，这些方法只适用于非常小的运动和少量的帧。[51, 58, 64,65]直接将恒定速度先验纳入变分光流估计过程中。[6,30]使用了恒定加速度模型，[59,60]提出了分层方法。[35]考虑了基于Lucas-Kanade的稀疏特征跟踪。当图像在时间上密集时，基于极线图像分析[7]提供了另一种方法。不幸的是，上述方法中没有一种直接适用于我们的场景，我们需要通过大的时空体积进行像素密集跟踪。虽然大多数提出的运动模型只适用于小的时间间隔或线性运动，但在存在大量数据的情况下，即使在没有时间或空间平滑约束的情况下，也需要这些约束。此外，计算和内存要求阻止了扩展到数十个高分辨率帧。因此，在本文中，我们提出了一个两阶段的方法：首先，我们使用一种新颖的离散-连续多帧变分模型，利用小的时间窗口内的线性性质，估计时间局部的光流场和遮挡图。其次，我们基于这些预测对整个时空体积进行推理。03. 慢速光流0设I = {I1, ...,IN}表示一个包含N个图像帧It∈Rw×h×c（尺寸为w×h）的视频剪辑，以高帧率捕获。这里，c表示输入通道的数量（例如，颜色强度和梯度）。在我们的实验中，我们使用亮度强度[28]和梯度[10]的组合作为所有颜色通道的特征。这导致每个图像It总共有c =9个特征通道。我们的目标是利用所有中间帧估计从第1帧到第N帧的光流F1→N。由于大量的高分辨率图像使得直接优化整个时空体积变得困难，我们将任务分为两部分。在第3.1节中，我们首先展示了如何可靠地从多个帧中估计小位移的光流场{Ft→t+1}，同时考虑到遮挡。这些运动估计（我们称之为“Flowlets”）构成了我们密集跟踪模型的输入，该模型根据第3.2节中描述的方式估计完整的光流场F1→N。03 我们预计大多数物体在短时间间隔内以恒定速度移动，这是由质量和惯性的物理效应所决定的。03.1. 多帧流场0设{J−T, ..., J0, ..., JT}为视频剪辑中以J0 = Is为中心的短窗口图像（例如，T =2）。对于参考图像J0中的每个像素p∈Ω = {1, ..., w} × {1, ...,h}，我们有兴趣估计一个流向量F(p)∈R2。0描述了从帧t = 0到t =1的像素p的位移，以及一个遮挡图O(p)∈{0,1}，其中O(p)=1表示像素p在t > 0时被前向遮挡（即在t >0时被遮挡，参见图3）。由于我们的高输入帧率，我们预计在短时间窗口内大致线性运动。因此，我们强制执行恒定速度作为一个强约束条件。与恒定速度软约束相比，这使得我们模型中的参数数量可控，并且可以有效地处理多个高分辨率输入帧。现在我们描述我们的能量公式。我们寻找以下能量函数的最小化器：0E ( F , O ) = (1)0在这里，ψ D是数据项，ψ S和ψO是鼓励平滑流场和遮挡图的正则化项。数据项ψD在像素p在后向遮挡(O(p)=0)时测量前向方向的光度一致性，在其他情况下测量后向方向的光度一致性4，参见图3a的说明。与“时间对称”公式相比，这样可以更好地处理遮挡，减少运动不连续性处的模糊伪影，如图3b所示。因此，我们将数据项定义为0ψ F ( F ( p )) − τ if O ( p ) = 0 ψB ( F ( p )) otherwise (2)0其中偏置项τ在没有前向或后向遮挡发生时偏向于前向预测。前向和后向的光度一致性项定义为0T− 10T0−10−10并且测量相邻帧之间的光度一致性(ϕ t 1)以及相对于参考帧J0的光度一致性(ϕ t 2 )以避免漂移[65]：0对于小的时间窗口，可以假设发生前向遮挡、后向遮挡或无遮挡。ψS(F(p)) = exp(−κ∥∇J0(p)∥2) · ρ(∇F(p))(5)ψO(O(p)) = ∥∇O(p)∥2(6)(7)ψDAts (Ht, Vt, Hs, Vs) =(8)36000(a) 前向和后向遮挡0(b) 使用不同数据项的结果0图3：遮挡推理。 (a) 前向（深绿色）和后向（浅绿色）遮挡像素的示意图。 (b) 使用对称数据项(ψ D = ψ F + ψB)、前向光度一致性(ψ D = ψ F)和我们的完整模型(ψ D如Eq.2所定义)的端点误差(EPE，较大的误差用较亮的颜色表示)的可视化。详见文本中的说明。0在这里，ρ(∙)表示对J的特征通道进行操作的鲁棒ℓ1代价函数。在我们的实现中，我们将[33, 46,54]中提出的数据项归一化扩展到多帧场景中，从而减轻了强图像梯度的问题。此外，我们对流场(ψS)和遮挡变量(ψO)施加了空间平滑惩罚：0方程5中的权重因子鼓励在图像边缘处存在流动不连续性。我们通过交错变分优化[10]连续流变量F和离散变量O的MAP推断[8]来最小化方程1。这种优化可以得到对于小位移非常准确的流场，这是我们后续描述的稠密像素跟踪阶段的输入。03.2. 稠密跟踪0给定前一节中的Flowlets{Ft→t+1}，我们的目标是估计从帧1到帧N的最终光流场F1→N。在接下来的部分中，我们将问题表述为稠密像素跟踪任务。设H = {H1, ...,HN}表示参考图像I1中每个（可能被遮挡）像素在完整序列的每一帧中的位置。这里，Ht∈ Rw × h ×2描述了一个位置场。H1包含参考图像中每个像素的位置。从帧1到帧N的光流由F1→N =HN − H1给出。进一步，设V = {V1, ...,VN}表示序列中每一帧中参考图像I1的每个像素的可见性状态，其中Vt ∈ {0, 1}w ×h是一个可见性场（1=“可见”，0=“被遮挡”）。根据定义，V1 = 1w ×h。为了简化表示，我们用h p = {H1(p), ...,HN(p)}来表示参考图像I1中像素p在帧1到帧N的轨迹，其中Ht(p) ∈ R2。0是帧t中参考像素p的位置。类似地，我们用vp={V1(p),...,VN(p)}来标识沿轨迹的所有可见性变量，其中Vt(p)∈{0,1}表示帧t中像素p的可见状态。现在我们准备制定我们的目标。我们的目标是联合估计密集像素轨迹H�=H\H1和每个帧中每个点的可见性标签V�=V\V1。我们将这个任务作为能量最小化问题来解决。0t

下载后可阅读完整内容，剩余1页未读，立即下载