滚动快门相机的上下文感知视频重建

158 浏览量更新于2023-10-25 收藏 1.44MB PDF 举报

深度神经网络

视觉质量

身份认证购VIP最低享 7 折!

30元优惠券

17572滚动快门相机的上下文感知视频重建戴斌范玉超* 志远张琦刘明义何西北工业大学电子信息学院，西安摘要随着滚动快门（RS）相机的普及，从两个连续的RS帧恢复潜在全局快门（GS）视频变得越来越有吸引力，这也对真实性提出了更高的要求。使用深度神经网络或优化的现有解决方案实现了有前途的性能。然而，这些方法通过基于RS模型的图像变形生成中间GS帧，这不可避免地导致黑洞和明显的运动伪影。在本文中，我们缓解这些问题，提出了一个上下文感知GS视频recruitc- tion架构。它具有遮挡推理、运动补偿和时间提取等优点。具体地，我们首先估计双边运动场，使得两个RS帧的像素相应地被扭曲到公共GS帧。然后，提出了一种改进方案来指导GS帧合成以及双侧遮挡掩模，以在任意时间产生高保真GS视频帧。此外，我们推导出一个近似的双边运动场模型，它可以作为一种替代方案，为相关任务提供一个简单而有效的GS框架在合成数据和真实数据上的实验表明，该方法在客观指标和主观视觉质量方面均优于现有方法。代码可在https://github.com/GitCVfb/CVR上获得。1. 介绍许多配备有卷帘快门（RS）的现代CMOS相机由于其低成本和设计简单而主导消费者摄影市场，并且在汽车行业和电影行业中也很普遍[16，48，52，62]。在该采集模式下，滚动快门CMOS传感器平面上的像素以具有恒定行间延迟的逐行方式从上到下曝光。这导致了不希望的视觉失真，称为RS效应（例如，摆动、歪斜），这是对场景理解的障碍，并且在摄影中是令人讨厌的。随着需求的增加，*Y的。戴是通讯作者（daiyuchao@gmail.com）。t=1t=0.5t=0地面实况GSRs 1RS 0输入RS图1. GS视频重建示例。左列显示了两个输入的连续RS图像，以及分别在时间0、0.5和1的三个地面实况GS图像。右边的图显示了由[9]（上）和我们的方法（下）提取的五个GS帧（时间为0，0.25，0.5，0.75，1），后面是两个相应的放大区域。橙色框表示被遮挡的黑洞，红色框表示运动物体特有的运动伪影。由于上下文聚合和运动增强，我们的方法恢复了更高保真度的GS图像。注意，通过我们的方法的黑色图像边缘是因为它们在两个RS帧中都不可用（参见图1）。蓝色圆圈）。最好在屏幕上观看消费级设备（例如，平板电脑、智能手机），视频帧内插（VFI）在计算机视觉界引起了越来越多的关注。不幸的是，尽管取得了显著的成功，但目前现有的VFI方法[2，18，38，39，56]隐含地假设相机采用全局快门（GS）机制，即，所有像素同时曝光。因此，他们无法产生令人满意的中间帧与滚动快门视频获取，例如，这些设备在动态场景或快速摄像机运动中，导致残留RS伪影[9]。为了解决这个问题，许多RS校正方法[13，17，24，43，55，63]已被积极研究以消除RS效应。类似于VFI从两个连续的GS帧生成不存在的中间GS帧，从两个连续的RS帧恢复潜在的中间GS帧，例如，[10，24，61，62]，作为一个听话的，17573目标，克服有限的采集帧速率和商业遥感相机的遥感文物。这是非常具有挑战性的，因为输出GS帧必须在时间和空间上都遵循相干性。为此，传统方法[61，62]通常基于恒定速度或恒定加速度相机运动的消除，其难以准确地反映真实的相机运动和场景几何形状，导致重影和不平滑伪影的持续存在[9，24]。最近基于深度学习的解决方案已经取得了令人印象深刻的性能，但它们通常只能恢复与特定扫描线对应的一个GS图像，例如第一[10]或中心[24，60]扫描线，限制了它们从RS到多GS的视图转换的潜力。在本文中，我们解决的任务，恢复和重温所有潜在的意见，一个场景所看到的虚拟GS相机在成像间隔的两个连续的RS帧。因此，必须联合处理VFI和RS校正任务，即：插值平滑和可靠的无失真视频序列。值得一提的是，与我们的任务最相关的工作是[9]，其致力于通过将每个RS帧扭曲到其对应的虚拟GS对应物来进行几何感知RS反演。然而，如图1所示，[9]恢复的GS图像仍然受到两个限制：• 黑洞的质量（参见橙色框）。这是一个常见的问题，为翘曲为基础的方法（例如，[9，44，61-为了保持视觉舒适性，使用裁剪操作来丢弃产生的孔，但是可能降低视觉体验。• 明显的特定于对象的运动伪影（参见红框）。在记录动态场景时，移动对象违反了[9]中使用的RS相机的恒定速度运动假设，导致其无法准确捕获移动对象特定的运动边界。因此，产生严重的运动伪影。相比之下，我们研究了基于双边运动场（BMF）的上下文聚合和运动增强来缓解这些问题，其目的是通过遮挡推理和时间抽象来合成清晰和令人愉悦的GS视频帧。具体地说，我们提出了CVR（上下文感知的VideoRconstruction architecture），它包括两个阶段，从两个输入的连续RS图像恢复一个忠实的和连贯的GS视频序列。在初始化阶段，我们采用运动解释模块来估计初始的双边运动场，从而将两个RS帧扭曲为一个共同的GS版本。我们设计了两个方案来实现这一目标。一个是基于[9]，它需要一个预先训练的编码器-解码器网络;另一个是我们提出的[9]的近似，没有诉诸深度网络。此外，我们表明，简单的近似能够为初始预测提供可行的解。之后，引入了第二个细化阶段来处理黑洞和由遮挡和特定对象运动模式引起的模糊错位。由于利用双边运动残差和遮挡掩模，它可以指导后续的GS帧合成，以推理复杂的运动轮廓和遮挡。此外，受[10]的启发，我们提出了一个上下文一致性约束，以有效地聚合上下文信息，从而可以自适应地增强不平滑区域。大量的实验结果表明，我们的方法超过了国家的最先进的（SOTA）的方法在去除RS伪影的大幅度。同时，我们的方法能够生成高质量的GS视频。本文的主要贡献有三个方面：1) 我们提出了一个简单而有效的双边运动场近似模型，它作为一个可靠的初始化GS帧细化。2) 我们开发了一个稳定有效的上下文感知GS视频重建框架，它可以推理复杂的遮挡，特定于对象的运动模式和时间抽象。3) 实验表明，我们的方法实现了SOTA结果，同时保持了有效的网络设计。2. 相关工作近年来，视频帧内插得到了广泛的研究，可以分为基于相位的[31，32]，基于内核的[5，28，36]和基于小波的[2，18，38，49]方法。随着光学光流估计的最新进展[7，50，51]，基于光流的VFI方法已经被积极研究以明确地利用运动信息。在开创性的工作[18]之后，后续的改进致力于更好的中间插值估计，例如二次[56]，校正二次[26]和三次[4]插值。此外，Baoet al. [2]通过深度感知光流投影层使用预测的深度图加强了初始光流场。Park等人估计了一个对称的双边运动[38]，以直接产生中间帧，他们最近开发了一个不对称的双边运动模型[39]，以细化中间帧。另一方面，更好的细化和融合的细节集中在，包括上下文扭曲[2，33，34]，遮挡推断[3，57]，循环约束[27，42]用于更准确的帧合成，以及softmax splatting [35]用于更有效的向前扭曲等。所有这些VFI方法都以相机采用GS机制的共同假设工作。因此，在RS图像的情况下，它们不能正确地合成中间帧。在本文中，我们整合17574......SSSW不行1RS帧1 RS帧23. RS感知的帧扭曲h2排h行普卢德t：0O.25 O.5 O.75读出时间1曝光时间遥感成像模型。当RS相机在图像采集期间处于运动中时，其所有扫描线在不同的时间戳处顺序曝光。因此，每条扫描线拥有不同的局部帧，如图10所示。图2.在两个连续帧上的RS机制我们的目标是在时间t∈[0，1]处恢复潜在的GS图像。一个有效的运动解释模块，用于提高初始回波场的可靠估计，产生高质量的结果，而不会产生混叠。图二.不失一般性，我们假设同一行中的所有像素同时瞬时曝光。图像中的行数为h，恒定的行间延迟时间为τd。因此，可以如下获得RS图像形成模型：R g滚动快门校正主张减轻或消除RS失真，即。恢复潜在的GS[I（x）s=[Is（x）s，（1）其中Ig是在时间τd（s-h/2）捕获的虚拟GS图像，图像，从单个帧[22，43，44，63]或多个帧帧[1，15，24，47，53，61]。 Dai等人”[6]《易经》云：和S表示扫描线s中像素x的提取。具体的双视图RS极线几何。Zhuang等[61]提出了一种差分RS极线约束来消除两个连续RS图像的失真，其立体版本在[12]中进一步探索。同样，Laoet al. [23]开发了一种离散RS单应性模型来执行基于平面的RS校正。Zhuang和Tran [62]提出了一种不同的RS单应性，以解释RS相机的扫描线变化姿态。此外，还经常考虑一些额外的假设，如纯旋转运动[14，22，44，45]、阿克曼运动[40]和曼哈顿世界[41]。随着深度学习的兴起，已经取得了许多吸引人的RS校正结果。对于两个输入连续RS帧，Liuet al. [24]提出了一个深度快门展开网络来估计潜在的GS框架，Fan等人。[10]提出了一种对称网络架构，以有效地聚合上下文线索。Zhong等[60]使用可变形注意力模块来联合解决RS校正和去模糊问题。不幸的是，他们只能在特定时刻产生一个GS图像，例如。对应于第一[10]或中心[24，60]扫描线时间，因此无法重建平滑和连贯的GS视频。最近，Fan和Dai [9]开发了第一个滚动快门时间超分辨率网络，可以从两个连续的RS图像中提取高帧率的GS视频。它通过几何感知传播将每个RS帧扭曲为对应于其任何扫描线的潜在GS帧。结果，不期望的孔（例如，黑色边缘）由于RS和GS图像之间的遮挡而出现。此外，它利用恒定速度运动假设，这不能准确地捕获运动边界，并且在运动对象周围产生伪影。两个实例示于图1A和1B中。1和6.相比之下，我们提出了一个GS帧合成模块，该模块由上下文聚合和运动增强层组成，用于推理复杂的遮挡和特定于移动对象的运动模式，从而显著提高了GS视频重建的性能。通过前向翘曲消除RS效应。由于RS图像可以被视为内部虚拟GS图像序列的连续逐行组合的结果，成像持续时间，可以通过以下方式反转上述RS成像机制以去除RS失真：Ir （ x ） =Ig （ x+ur→s ），（ 2）其中ur→s是像素x从RS图像Ir到虚拟GS图像Ig的位移向量。所有像素的堆叠ur→s产生逐像素运动场，也称为UndistortionWavelowUr→s，其可用于类似于[9，10，24，60]的RS感知前向扭曲。然而，当多个像素被映射到同一位置时，前向扭曲容易遭受冲突，不可避免地导致重叠像素和孔洞。Softmax splatting [35]通过自适应地组合重叠像素信息来解决这些问题。因此，对应于扫描线s的目标GS帧可通过以下步骤产生：其中F表示前向弯曲算子。我们在实现中使用softmaxsplatting问题设置。如图2所示，时间t和扫描线s彼此对应。为了简洁起见，下面我们将放弃符号s并使用下标t来表示对应于时间t的GS图像Ig。下面[12，24，62]，我们进一步假设读出时间比[61]，即.总扫描线读出时间（即，hτd）和帧间延迟时间等于1。也就是说，在短的成像时间段中忽略两个相邻RS帧之间的空闲时间（例如，<50ms）。这被证明是有效的，以考虑扫描线变化的相机姿态，避免非平凡的读出校准[30]。此外，这还确保了RS图像的时间上易处理的帧插值。有关进一步说明，请参见补充材料因此，分别在时刻0和1记录两个连续RS图像的中心扫描线1757501∈∈∈ −→→∈ −∪给定两个RS帧Ir和Ir在相邻时间0g和1，我们的目标是合成一个中间GS框架It，t[0，1]。选择该时间间隔是因为，如[ 10 ]中所观察到的，恢复的GS图像的许多细节与响应时间t[0的情况。5、0）（1，1. 5]更有可能由于与时间一致性的偏差太大而丢失。3.1. 双侧运动场基于网络的双边运动场（NBMF）。为了将在时间τ处曝光的每个RS像素X（即，τ0[0的情况。5，0。5]或τ1[0. 五一5]，其中下标指示图像索引）到对应于时间的相机姿势的GS画布t∈[0，1]，我们需要估计运动场U0→t或U1→t（cf.当量（3）约束每个像素请注意，下标0t和1t表示RS-aw用于从RS图像Ir和Ir到图像Ig的wardwarping，图3.初始BMF估计的说明，包括（a）NBMF及其近似值（b）ABMF。近似双侧运动场（ABMF）。我们观察到，方程中的πv和πv′，（5）表征潜在的GS帧间垂直光流，其通常远小于图像行的数量h（参见图1）。用于深入分析的原始材料）。因此，我们提出一个′0 1吨近似约束h−πv<$h<$h+πv重写分别根据文献[9]，我们扩展到时间维，通过对相应的光场F0→1和F2的标度操作来模拟BMFU0→t和U1→t。当量（5）如：C0→t（x）=t−τ0，C1→t（x）=τ1−t，（七）在两个连续的RS帧之间，即F1→0。U0→t（x）=C0→t（x）·F0→1（x），U1→t（x）=C1→t（x）·F1→0（x），哪里（四）其中时间依赖性被保持而视差效应（即，深度变化和相机运动）被忽略。也就是说，它与图像内容无关，并且可以针对给定的图像分辨率预先定义。所示C0→t（x）=（t−τ0）（h−πv），H（τ1−t）（h+πv′）（五）如图3（b）所示，这样的近似能够达到校正图，然后通过等式3（b）得到ABMF。（4）以简单直接的方式，而不是依靠专门的深层神经元，C1→t（x）=h，表示双侧校正图。πv和πv′描述了基础RS几何结构[9]，以揭示RS帧间垂直光学流，这取决于相机参数、相机运动以及像素x的深度和位置。此外，对应于不同时间步长t1和t2的BMF可以通过以下方式直接相互转换：t−τ21RAL网络请注意，ABMF满足等式（6）也。实验结果在SEC。6.1表明，我们的ABMF，加上上下文聚合和运动增强，可以作为一个强大的和易于处理的基线GS帧合成。4. 上下文感知的视频重建我们主张恢复中间全局快门从tw o输入连续滚动关闭的图像中提取g， t∈[0，1]不Ui→t（x）= 2·Ui→t（x），i= 0，1.（6）rrt1−τ图像I0和I1。在本节中，我们将解释如何请注意，去除RS的运动场具有显著的时间依赖性（也称为扫描线依赖性[9]）。为了在Eq.（5），[61，62]基于微分公式[11，29]提出了一个几何优化问题。最近，如图3（a）所示，在[9]中提出了一种编码器-解码器网络，以基本上学习底层RS几何结构，使得BMF可以通过等式2计算。（4）与估计的双向光学流（NBMF）耦合。然后通过基于等式（1）中的显式帧内传播的图像扭曲来生成任意时间 GS 图像。（六）、然而，由于遮挡视图在扭曲期间不可用，因此产生的孔在视觉上不令人满意。此外，由于依赖于RS相机的恒定速度运动假设，[9等式5 6当量光流校正图(a)NBMF估计NBMF当量当量光流校正图(b)ABMF估计ABMF1757601设计一个深度网络来推理时间感知运动轮廓和遮挡，使得可以忠实地恢复真实感时间任意GS图像。4.1. 体系结构概述如图 4、该网络由两个模块组成，即：基于NBMF或基于ABMF的运动解释模块，以及上下文（即，遮挡和局部动态）感知的GS帧合成模块。首先，我们估计Ir和Ir之间的双向光波场F0→1和F1→0，然后通过等式U0→t和U1→t估计（4）基于NBMF（即，当量（5））或ABMF（即，当量（7）），如图3所示。然后，使用初始双边运动对输入RS帧进行前向扭曲，从而在时间t处产生两个初始中间GS帧候选。最后，GS框架17577MMGG∈MM∈G1−不010→tg=0→t1→t。（九）图4. 整体架构。它有两个主要过程。首先，通过运动解释模块获得两个初始GS帧候选BMF估计的细节（即，NBMF或ABMF）在图中详细说明3.第三章。然后，提出了GS帧合成模块，以推理复杂的遮挡、运动轮廓和时间抽象，从而在时间t∈[0，1]处生成最终的高逼真度GS图像。合成模块采用输入RS帧、双向光流、双向运动场和初始中间GS帧候选，通过聚合上下文信息和自适应补偿运动边界来合成最终GS重构。请注意，我们根据经验发现，我们基于ABMF的CVR方法（称为CVR*）尽管简单，但表现良好，而我们基于NBMF的CVR方法（称为CVR）可以进一步提高最终GS图像的质量。运动解译模块由两个子模块组成：光学光流估计器和双边运动场估计器。我们首先利用广泛使用的PWC-Net [50]作为光学光流估计器来预测双向光学光流。为了获得有效的初始BMF，我们掩码O0→t和O1→t。这种时间感知遮挡掩模对于指导GS帧合成以处理遮挡是必不可少的我们采用编码器-解码器U-Net网络[37，46]作为的骨干，它与N中的网络具有相同的结构但不同的通道。该网络是完全卷积的，具有跳过连接和泄漏的ReLu激活函数。此外，我们在输出通道上利用对应于双侧遮挡掩模的S形激活函数，将其值限制在0和1. 因为在不同的时间实例接受级联，它可以隐式地对时间抽象进行建模，以恢复对应于任意时间步长t[0，1]的GS帧。具体地，最终增强的BMF可以获得为：遵循[9]并使用专用的编码器-解码器U-Net架构[37，46]，如图3（a）所示，以估计NBMFU0→t=U0→t+ΔU0→t，U1→t=U 1→t+ΔU 1→t，（八）对于前向翘曲，其被称为N。特别地，N需要通过使用用于监督的地面实况（GT）中心扫描线GS图像来预训练。或者，我们建议利用其近似版本，如该方法通过将BMF与所提出的上下文一致性约束相结合，可以提高BMF的质量，特别是在运动边界和不平滑区域中。随后，我们可以产生两个细化的中间GS框架图3（b），即基于ABMF的运动解释模型，UleMA，以产生更简单和更快的初始预测。候选人名单 0→t 而G1→t 通过RS感知的前向翘曲，初始BMF。最后，两个初始中间GS帧candi-当量（三）、此外，我们假设目标的内容日期Ig0→t 我g1→t 可以通过Eq. （3）基于对应于t[0，1]的GS图像可以通过以下方式恢复：至少一个输入的RS图像，这是有希望的，初始BMF估计U0→t和U1→t。GS帧合成模块可以归结为两个主要层：运动增强层（MEL）和上下文聚合层（CAL）。注意，由于严重的遮挡，在初始中间GS帧候选中可能存在一些黑洞和模糊的未对准在[ 10 ]中讨论。因此，我们施加了O1→t=1−O0→t的约束。直觉上，O0→t（x）= 0意味着O1→t（x）= 1，即可以忠实地再现完全信任我，反之亦然类似于[18，37，56]，我们还利用输入RS帧Ir和Ir的时间距离1 t和t，使得时间上和部分移动的物体，降低了视觉体验。01因此，我们的目标是减轻动态对象边界处的伪影并填充被遮挡的孔。朝向更近的像素可以被分配更高的置信度。最后，可以通过以下方式来合成最终中间GS帧：Ir，Ir，F0→1，F1→0，U0→t，U1→t，Ig，G（1−t）O0→tIg +tO1→tIgI1→t被级联并馈入G以估计BMF残差ΔU0→t和ΔU1→t与双侧咬合（1−t）O0→t+tO1→tGS帧候选帧GS帧合成模块运动解释模块RS帧0BMF估计器Cal当量9RS帧1Mel光流估计时间t处的最终GS帧GS帧候选帧增强型BMF遮挡掩模不17578↑↑↓方法LLLLMMMMGMGL输入RS（叠加）DiffSfM [61] DiffHomo [62] BMBC [38] DAIN [2]级联方法DeepUnrollNet [24] SUNet [10] RSSR [9] CVR*（Ours）CVR（Ours）地面实况图5.相对于基线的定性结果我们的方法可以成功地消除RS伪影，产生更高的保真度GS图像。表1.在时间步长t = 0时恢复GS图像的定量比较。五、红色和蓝色的数字代表最佳和次佳性能。我们的方法是远远优于基线方法和建议ABMF模型是有效的初始化。PSNR（dB）SSIM LPIPS（秒）CRM CR FR CRFR[61]第六十一话46724.2021.2820.140.7750.7010.13220.1789[62]第六十二话42419.6018.9418.680.6060.6090.17980.2229[24]第二十四话0.3426.9026.4626.520.8070.7920.07030.1222SUNet [10]0.2129.2829.1828.340.8500.8370.06580.1205RSSR*0.0928.2023.8621.020.8390.7680.07640.1866RSSR [9]0.1230.1724.7821.230.8670.7760.06950.1659CVR*（Ours）0.1231.8231.6028.620.9270.8450.03720.1117CVR（我们的）0.1432.0231.7428.720.9290.8470.03680.11074.2. 损失函数* ：应用我们提出的近似双边运动场（ABMF）模型。培训详情。我们的方法是使用与[9，24，60]类似，我们使用重建损失r，感知损失p[19]和总变异损失tv来提高最终GS和BMF预测的质量。此外，受[10]的启发，我们提出了一个上下文一致性约束损失c，以强制将细化的中间GS帧候选与地面实况对齐，这对于促进遮挡推断和运动至关重要赔偿简而言之，我们的损失函数L被定义为：L=λrLr+Lp+λcLc+λtvLtv，（ 10）其中λ r、λ c和λ tv是超参数。更多详情请参见补充材料。5. 实验装置数据集。我们使用标准RS校正基准数据集[24]，包括Carla-RS和Fastec-RS，并如[24]中所述划分训练集和测试集。基于Carla模拟器[8]合成Carla-RS数据集，涉及一般6-DOF相机运动。Fastec-RS数据集记录了安装在地面车辆上的高FPS GS相机合成的真实RS图像。由于它们提供第一和中央扫描线GT监控信号，即t= 0，0. 5和1，我们利用这个三元组作为GT来训练我们的网络。注意，我们添加一个小的扰动，使方程。（9）正确工作，例如，将它们转换为t= 0。010 5，0。99，分别。在测试阶段，我们的方法是ca-能够在任何时间t∈[0，1]恢复GS视频帧。亚当优化器[21]，β1= 0。9和β2= 0。999我们根据经验设定λ r= 10，λ c= 5，λ tv= 0。1.一、实验在NVIDIA GeForce RTX 2080Ti GPU上进行，批量大小为4。我们建议分两个阶段训练我们的网络首先，我们只训练。为了训练基于ABMF的A，我们以自监督的方式[9，20，25，54]从RS基准上的预训练模型中微调PWC-Net [ 50 ] 100个epoch，然后可以直接显式地计算ABMF。请注意，基于NBMF的N的训练细节可以在[9]中找到，其中有中央扫描线GT GS图像的监督。其次，我们联合训练整个模型（即，和）通过另外50个时期。此时，的学习率被设置为10−4，用于从头开始训练，而的学习率被设置为10−5用于微调。我们保持垂直分辨率恒定，并采用水平分辨率为256像素的均匀随机裁剪来增强训练数据，类似于[9，10]以更好地进行上下文探索。评价战略。由于Carla-RS数据集具有GT遮挡掩模，因此我们进行了以下定量评估：具有遮挡掩模的Carla-RS数据集（CRM），不具有遮挡掩模的Carla-RS 数据集（CR）和Fastec-RS数据集（FR）。应用标准度量PSNR和 SSIM 以及学习的感知度量 LPIPS [58] 。较高的PSNR/SSIM或较低的LPIPS分数表示较好的质量。注意，除非另有说明，否则我们参考时间t = 0处的GS图像。5、比较一致。17579∈×MRS 0Rs 1t=0 t=0.2 t=0.4 t=0.6 t=0.8 t=1图6.分别使用RSSR [9]、CVR*和CVR（从上到下三行）从两个输入RS图像（左列）恢复六个GS视频图像的示例结果除了GS图像边缘的许多不友好的黑洞外，RSSR还产生了局部错误和运动伪影，如红色圆圈所示我们的方法可以产生时间上一致的GS序列，具有更丰富的细节。基线。我们与以下基线进行比较。(i)DiffSfM[61]和DiffHomo[62]是传统的基于两个图像的RS校正方法，需要使用RS模型进行复杂的优化。(ii)SUNet[10]和DeepUnrollNet[24]通过设计专门的CNN，从两个连续的RS帧中只恢复一个GS帧。而RSCD[60]通过三个相邻的RS图像实现了这一目标。(iii)RSSR[9]使用深度学习从两个连续的RS图像生成GS视频，但遭受黑洞和运动伪影。此外，我们将所提出的ABMF模型集成到RSSR中以产生RSSR*。(iv)DAIN[2]和BMBC[38]是为GS相机量身定制的SOTA VFI方法。(v)级联方法使用DeepUnrollNet从三个连续的RS输入顺序地生成两个GS图像，然后使用 DAIN 在 GS 图像之间进行插值。(vi)CVR和CVR*分别是我们提出的基于NBMF和ABMF的方法。请注意，我们的RSSR*、RSSR、CVR*和CVR形成了基于RS的视频重建方法的清晰层次结构。6. 结果和分析在本节中，我们将与基线方法进行比较，并对我们的方法进行分析和深入了解。6.1. 与SOTA方法的我们分别在表1和图5中报告了定量和定性结果。我们提出的方法在去除RS效应方面取得了压倒性的优势，这主要归功于上下文聚合和运动模式推理。此外，尽管我们提出的 ABMF 模型在消除 RS 效应（即，RSSR*），当与GS帧细化组合时，其可充当GS视频帧重构的强基线。我们相信，我们的分层管道可以提供一个新的视角与RS相机的视频重建任务。更多的结果和分析显示在补充材料中。请注意，我们的方法能够产生一个连续的GS序列，远远超过[10，24，60]，尽管[10]可以在特定时间解码GS图像的合理细节。传统方法[61，62]无法稳健且准确地估计底层RS几何结构，导致重影伪影。由于复杂的处理，它们在计算上也是低效的。由于网络架构中的固有缺陷，VFI方法[2，38]无法消除RS效应。RS校正和VFI方法的直观级联往往会积累错误，并且容易出现模糊伪影和局部不准确。这样的cas-cade也具有大的模型，因此相对耗时。相比之下，我们的端到端流水线在RS校正和推理效率方面都优于SOTA方法。还请注意，在[9]中出现了令人讨厌的黑洞和特定于物体的运动伪影，降低了视觉体验，如第2节所述。1.一、总的来说，我们的CVR改善了RSSR，因此恢复了更高的真实感结果，我们的CVR*还为相关任务开发了一个新的简洁有效的框架。6.2. GS视频重建结果我们应用我们的方法在任意时间t[0，1]生成多个中间GS帧。视觉效果为图6中示出了5个时间上采样。更多结果见我们的补充材料。我们的方法不仅可以成功地去除RS效应，而且可以鲁棒地重建光滑和连续的GS视频。6.3. 消融研究消融运动解释模块。我们首先用线性 BMF （即，LBMF），这是一种在流行的VFI方法中广泛使用的BMF初始化方案，例如. [18、34、35、38、49]。然后，我们用SOTA光带宽估计流水线RAFT [51].最后，我们冻结M，只训练G17580↑↑LLLGG∈InputRS：Ir0InputRS：Ir1O 0 →0。5O 1 →0。5ΔU 0 → 0。5ǁ2ΔU 1 → 0。5ǁ2基于LBMF RAFT的无O无ΔUCVR（Ours）地面实况LBMF（作物）基于RAFT（作物）w/oO（作物）w/oΔU（作物）CVR（作物）地面实况（作物）图7.消融研究的目视结果我们的上下文感知方法也适用于特定于移动对象的运动伪影表2. M、G和L上CVR结构的消融结果。消融损失功能L。我们去掉损失项1设置PSNR（dB）SSIMCRMCR FR CRFR一是分析各自的作用。表2我们的损失函数L是有效的，因为当LBMF 26.10 25.97 25.78 0.806筏基30.50 29.89 27.99 0.917 0.840冻结M31.94 31.65 28.11 0.928 0.837不含ΔU不带P不包括在内不包括电视31.93 31.71 28.45 0.928 0.844全模型32.02 31.74 28.72 0.929 0.847训练阶段。从表2和图7可以看出，LBMF对于基于RS的视频构建任务是极其无效的，这揭示了我们提出的NBMF以及ABMF的优越性。这将有助于相关领域的进一步研究，特别是更简单的ABMF。由于基于RAFT的完整基线不容易端到端联合优化，因此易于在局部运动边界处不平滑。此外，培训整个网络-与M结合可以提高模型性能。GS帧合成模块烧蚀 - 是的我们分析表2中的每个组件的作用，包括1）将Δ U乘以归一化扫描线偏移T，以对其扫描线依赖性进行建模，如[9，24，59]，以及2）去除MEL（即，w/o ΔU）和CAL（即，w/oO），分别。结合图7，可以观察到它们都导致性能下降，特别是去除CAL，这会在上下文聚合期间引起混叠效应，例如，车轮错位和黑边此外，删除MEL将降低我们的方法对特定于对象的运动伪影的适应性，特别是对于更具挑战性的Fastec-RS数据集。总之，我们的方法可以自适应地推断遮挡和增强运动边界。使用所有损失术语6.4. 局限与讨论在时间t[0，1]的目标GS图像在RS图像中的一个中可见，在GS图像的边缘处的它们中的一些可能不可用，例如，在图1和图2中t= 0处的GS图像的右下角。图1和图6所示，由于来自快速相机运动或对象运动的严重遮挡。未来使用更多帧可能能够填充这些可能的不可见区域。7. 结论在本文中，我们提出了一个上下文感知的架构CVR的端到端的视频重建的RS相机，它结合了时间平滑恢复高逼真度GS视频帧更少的文物和更好的细节。此外，我们基于所提出的ABMF模型开发了一种简单而有效的流水线CVR*，该模型可与RS相机一起稳健地工作。我们提出的框架通过运动解释和遮挡响应利用了嵌入在潜在GS视频中的时空相干性，显著优于SOTA方法。希望本文的研究能为遥感相机视频帧重构的进一步研究提供参考。致谢。本工作得到了国家自然科学基金（61871325，61901387）、国家重点研发计划（2018AAA0102803）和西北工业大学博士学位论文创新基金的部分资助。作者感谢匿名审稿人的宝贵意见。T·ΔU32.0031.9031.6331.6528.5628.320.9290.9280.8450.841我们的方法依赖于光学光流估计，因此，不含O28.2226.3124.040.9020.813可能是在诸如低/弱纹理的区域中的混叠伪像。不含Lr31.8031.6031.5331.3428.3128.490.9270.9290.8400.842此外，虽然我们假设，17581引用[1] Cenek Albl、Zuzana Kukelova、Viktor Larsson、MichalPolic、Tomas Pajdla和Konrad Schindler。从两个滚动快门到一个全局快门。在IEEE/CVF计算机视觉和模式识别会议论文集，第2505-2513页3[2] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE/CVF计算机视觉和模式识别会议论文集，第3703-3712页，2019年。一、二、六、七[3] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang.Memc-net：运动估计和运动补偿驱动的神经网络，用于视频插值和增强。IEEETransactionsonPatternAnalysisandMachineIntelligence，43（3）：9332[4] Zhixiang Chi，Rasoul Mohammadi Nasiri，Zheng Liu，Juwei Lu，Jin Tang，and Konstantinos N Plataniotis.一次完成：具有高级运动建模的时间自适应多帧插值在欧洲计算机视觉会议论文集，第107-123页，2020年。2[5] Myungsub Choi ， Heewon Kim ，Bohyung Han ，NingXu，and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI人工智能会议论文集，第34卷，第10663-10671页2[6] Yuchao Dai，Hongdong Li，and Laurent Kneip.滚动快门相机相对姿态：广义对极几何。IEEE/CVF计算机视觉和模式识别会议论文集，第4132-4140页，2016年。3[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser 、 Caner Hazirbas 、 Vladimir Golkov 、 PatrickVan Der Smagt 、 Daniel Cremers 和 Thomas Brox 。Flownet ：用卷积网络学习光学流。在 IEEEInternationalConferenceonComputerVision的Proceedings，第2758-2766页，2015年。2[8] Alexey Dosovitskiy、German Ros 、Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集，第1-16页，2017年。6[9] 范斌和戴玉超反转卷帘快门相机：将卷帘快门图像转换为高帧率全局快门视频。在IEEE计算机视觉国际会议论文集，第4228一二三四五六七八[10] Bin Fan，Yuchao Dai，and Mingyi He.用于卷帘快门校正的对称无失真网络。在IEEE计算机视觉国际会议的Proceedings中，第4541-4550页，2021年。一、二、三、四、五、六、七[11] Bin Fan，Yuchao Dai，Zhiyuan Zhang，Mingyi He.具有径向失真的快速和鲁棒的差分相对位姿估计。IEEESignal Processing Letters，29：294-298，2021。4[12] Bin Fan，Ke Wang，Yuchao Dai，and Mingyi He.滚动快门立体感知运动估计和图像校正。计算机视觉和图像理解，213：103296，2021。3[13] Bin Fan，Ke Wang，Yuchao Dai，and Mingyi He.用于卷帘快门立体图像的深平面扫描网络IEEE Signal Processing Letters，28：15501[14] 埃里克·福斯和埃里克·林加比。纠正手持设备的卷帘快门视频。IEEE/CVF计算机视觉和模式识别会议论文集，第507-514页，2010年。 3[15] 马蒂亚斯·格伦德曼，维韦克·夸特拉，丹尼尔·卡斯特罗，还有伊尔凡·埃萨.免校准卷帘快门拆卸。在IEEEInternational Conference on Computational Photography的Proceedings，第1-8页，2012年。3[16] JohanHedbo r g，Pe r-ErikFors e'n，MichaelFelsbe r g，andErik Ringaby.卷闸管束调整。在IEEE/CVF计算机视觉和模式识别会议的Proceedings，第1434-144

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

滚动快门相机的上下文感知视频重建

上下文感知

海康全局快门相机sdk开发c#

小程序camere使用时怎么去掉快门声

digital video stabilization and rolling shutter correction using gyroscopes

尼康配备电子快门的型号

rolling shutter计算

Android camera2如何实现相机的快门速度优先模式

global shutter或是rolling shutter哪个好

Android camera2修改相机快门速度

尼康d800刷快门软件

camera key

佳能配备电子快门的型号

什么是机身快门，有何作用？如果是拍摄流动的水流，如何选择快门？拍摄闪电，又 该如何选择快门？

像素值和照度快门速度的关系

佳能R50能实现完全静音拍摄么

iphone相机使用

基恩士相机tcp通讯触发指令

像素值和照度快门速度感光度的数学关系式

videoSource.SimulateTrigger();如何触发快门事件代码

最新资源

什么是机身快门，有何作用？如果是拍摄流动的水流，如何选择快门？拍摄闪电，又该如何选择快门？