滚动快门全局复位功能恢复无失真视频

92 浏览量更新于2023-10-25 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

17794神经全局快门：了解如何使用全局重置功能从滚动快门相机恢复视频王志祥1、2、3纪翔1黄家斌4佐藤1东京大学2RIISE3国立情报学4马里兰大学帕克学院5合肥师范大学摘要大多数计算机视觉系统假设无失真图像作为输入。然而，广泛使用的卷帘快门（RS）图像传感器在捕获期间当相机和对象经历运动时遭受几何失真。对遥感图像畸变的校正进行了广泛的研究。然而，大多数现有的工作严重依赖此外，由于大量的流扭曲，运动估计步骤要么过于简化，要么计算效率低下，限制了它们的适用性。在本文中，我们研究使用滚动快门与全局复位功能（RSGR）恢复干净的全局快门（GS）的视频。这个特性使我们能够将校正问题转化为类似于去模糊的问题，从而摆脱不准确和昂贵的显式运动估计。首先，我们建立了一个光学系统，捕获配对的RSGR/GS视频。其次，我们开发了一种新的算法，结合空间和时间的设计，以纠正空间变化的RSGR失真。第三，我们证明了现有的图像到图像的翻译算法可以从失真的RSGR输入恢复干净的GS视频，但我们的算法实现了最佳的性能与特定的设计。我们的渲染结果不仅在视觉上吸引人，而且对下游任务也有好处与最先进的RS解决方案相比，我们的RSGR解决方案在有效性和效率方面都更优越考虑到它很容易实现，而不需要改变硬件，我们相信我们的RSGR解决方案可以潜在地取代RS解决方案，以低噪声和低预算拍摄无失真视频1. 介绍图像传感器是将光子转换为数字信号的重要部件，用于机器看到[1，27]，理解[5，38]，并重建[10，19]视觉世界。它包括数百万个空间分布的光电二极管，即像素，执行光电转换和电荷交流。†通讯作者当光子在曝光持续时间内到达时的累积。读出电路读出这些累积并将它们转换成空间分布的数字信号，即，图像，当像素完成充电时。由于同时读取所有像素需要数百万个电路，导致无法承受的成本，因此图像传感器的关键设计是缩短不同像素的曝光时间和读出时间，以重复使用有限的读出电路。该功能基于片上电子快门，主要有两种模式：全局快门（GS）和卷帘快门（RS）。具有不同片上电子快门的图像传感器保持对比度特性。基于GS的图像传感器同时曝光所有像素，并在读出之前将累积的电荷转移到存储区域通过这种方式，它们可以用几个读出电路顺序读出电荷（图- ure1a）。但是对额外存储的需求增加了它们的费用和功耗，并导致更多的噪声。相应地，基于RS的图像传感器以具有时间延迟的方式逐扫描线曝光像素（图1b）。这种延迟使RS传感器能够重叠曝光和读出时间，从而提高帧速率。此外，由于RS传感器的使用，免除了额外的存储空间，降低了成本，减少了噪声。不幸的是，当场景或相机发生运动时，它们会带来失真运动越快，畸变越大。这种失真阻碍了配备有RS传感器的视觉系统应用于对精度敏感的应用，定位[37]，光流[34]和重建[14]。它自然提出了一个研究问题：如果存在一个解决方案，采取无失真的视频与低噪音和低预算。我们将现有的解决方案分为两类：基于硬件的和计算的.基于硬件的解决方案通过放置额外的存储器节点来存储电荷[35]、电压[30]甚至数字域[28]上的像素，从而在RS传感器上实现GS功能。在传感器尺寸、成本和噪声方面的缺点是明显的。计算方法通过校正RS失真直接对RS输出进行操作[12，15，16，22，25，43，45]。虽然现有的方法在输入形式上有所不同：单图像与多图像，或者方法类型：古典的学习-17795暴露读出复位一般事务人员ab图1. 不同的曝光模式。a，GS同时曝光所有像素。这种方式需要额外的存储器节点来在读出之前存储带电像素，使得其成本高并且经常遭受噪声。b、RS采用逐行扫描的方式，具有延时曝光的特点，噪声小，帧率高，成本低。不幸的是，当场景或相机经历运动时，它会导致失真。减少这些失真需要估计运动并利用估计来补充像素。这些步骤依赖于各种假设，并且耗时，限制了RS传感器RSGR是RS的一个被广泛忽视的特性它开始曝光的所有像素在同一时间和结束他们的扫描线。不同扫描线的不同曝光持续时间产生空间变化的亮度和模糊。RSGR使我们能够将旧的RS校正问题转化为类似于去模糊的问题。的基础上，他们的基本思想，补充失真的像素，通过估计像素的运动是相同的。在单个图像输入的情况下，由于不适定性，经典方法基于对场景[12，25]或相机运动[22]的附加假设来估计运动。基于学习的方法通过消化隐式先验来放松对场景的假设，但对相机运动的假设[24，45]仍然成立。对场景或摄像机运动的假设损害了它们的实际适用性。当输入包括多个图像时，该问题变得适定，因为可以使用经典[43，44]或基于学习的方法[16]直接估计两个连续帧之间的运动。然后，它们近似RS帧和虚拟GS帧之间的位移，并使用该近似进行变形。但是，它们通常不能在大而复杂的相机运动下工作，因为补充信息本质上是困难的，特别是当它们遇到过于简化的运动模型时。此外，运动估计步骤通常在计算上是低效的，并且对于实时应用是不可接受的。在本文中，我们提出了一种新的解决方案的基础上广泛忽视的功能的RS传感器-全球重置（GR）。这一特性使我们能够将旧的RS校正问题变成像去雾一样的因此，我们可以抛弃不准确和耗时的运动估计步骤，使问题更容易解决。这是因为RSGR像GS一样同时曝光所有像素，而不是像传统RS [21]那样以恒定的时间延迟逐扫描线曝光，如图1c所示。不同的曝光持续时间不同的扫描线产生空间变化的模糊和亮度时，捕捉经历运动。该失真不同于RS传感器的像素移位。大多数RS传感器都带有这个功能，允许他们使用机械快门或频闪灯来克服失真，就像布拉德利等人一样。[2]解决了RS失真问题。我们以计算的方式放宽硬件要求，如图2所示。为了促进数据驱动算法的开发和评估，我们建立了一个光学系统，以同时拍摄成对的RSGR/GS视频。该系统为我们的社区提供了一个新的数据集，由79对真实场景下捕获的RSGR/GS视频序列组成。我们进一步提出了一个新的算法来解决唯一的扭曲。我们的方法包含三个主要组成部分：1）空间感知特征编码器，其为每个输入RSGR帧提取低维特征表示。它有两种特殊的设计：曝光编码（EE）和空间at-时间像素行17796光1帧GS相机最小化误差Eq. （一）GS目标BP模型“neural globalSCRSGR相机时间RSGR输入预测输出d我们的模型残差连接长期时间聚合器f短期时间汇总器编码器解码器ConvConvDCNDCNconcatEE滑动窗口CACA暴露时间聚合器Conva光学系统示意图b时间图cRSGR解决方案图2. 建议的方法。a.我们通过分束器将入射光分成两个相同的部分，并将这些部分分别馈送到GS相机和RSGR相机。由于相机使用校准工具在空间上对准并通过同步电路（SC）同步，因此我们可以用两种不同的曝光方式记录光。b.我们保持GS和RSGR相机的第一条扫描线的曝光时间相等。c，给定RSGR视频捕获，我们的模型以端到端的方式输出相应的GS视频预测。我们使用反向传播（BP）技术，通过最小化预测和目标GS视频捕获之间的误差来优化算法。由于目标GS视频受到噪声的影响，我们仔细选择了损失函数来抑制负面影响。d，我们的模型是基于编码器-解码器结构。我们采用EE和SA生成空间敏感的特征图。给定处理后的特征图，我们使用双时间信息聚合器来收集长期（e）和短期时间信息（f）。它们为解码器创建强大的特征映射，以呈现干净的GS视频。为了保留细节，我们使用剩余连接。tension（SA）[7]用于生成空间敏感特征图。2) 具有两个递归神经网络（RNN）[26]的模块，用于沿时间轴双向传播长期信息3）堆叠有几个卷积层（Conv）的模块，可变形卷积网络（DCN）[4]和信道注意（CA）以融合相邻帧。我们的实验表明，被广泛忽视的全局重置功能，使我们能够恢复干净的GS视频从RS传感器与现有的图像到图像的翻译算法。通过具体的设计，我们的算法达到了最佳性能。特别是，它可以在显著的相机运动下工作，其中两个连续帧之间的对应关系对于RS解决方案是难以估计的。与现有的RS解决方案相比，我们的解决方案没有显式的运动估计是有效的和高效的。考虑到它易于实现而无需改变硬件，我们相信我们的解决方案可以替代RS解决方案。概括起来，我们做出以下三点贡献：问题：我们是第一个将RSGR（一个被广泛忽视的功能）引入我们社区的人。此功能使我们能够将旧的RS校正问题转换为类似于去模糊的问题。光学系统和数据集：我们建立了一个光学系统，采取成对的RSGR/GS视频，并提供了一个新的数据集下捕获的真实场景。大规模配对数据集使得能够开发和评估数据驱动的方法。我们发布的数据集，以方便以下研究1。算法：提出了一种新的RSGR视频恢复算法。我们的实验表明，它可以从失真的RSGR输入渲染干净的GS视频，我们的集成解决方案有可能取代RS解决方案。1https://github.com/lightChaserX/neural-global-shutterSA输入分束输出···177970··S+1S+1S不{f}t=1t=1t=1Σ··∈不t=1t=1不t=1不不不联系我们2. 方法2.1. 成对视频采集系统具体来说，我们将长期的时间信息{f i}S具有两个双向RNN。我们首先表演前向信息聚合，t从1开始增加全局重置是一个被广泛忽视的功能，并在-到S，在时间t的输出是fa=Fa（[fi，ha]），不a a at t−1如何从RSGR视频恢复干净的GS视频是新鲜的。我们不知道任何数据集包含RSGR视频及其相应的GS对应物。作为破解这一难题的第一次尝试，我们构建了一个光学系统（图2a），它可以捕获同步的RSGR和GS视频，以促进新算法的开发和评估。该系统采用分束器来将ht=Ha（ft），其中ht是隐藏状态，[，]表示沿着通道轴2的级联操作。我们要-使用残差块（RB）[6]和残差密集块（RDB）[39]来证明Fa和Ha 初始隐藏状态ha被设置为0。给定来自前向聚合器的输出，我们然后执行后向信息聚合，其中t从S减小t t t+1将入射光分成两部分，并将它们馈送到RSGR中，其中hb=Hb（fb）。同样地，Fb和Hb包括RBt t一个GS相机这两个摄像头是空间校准的和RDBs。初始隐藏状态hb设置为0。我们用校准工具，并通过同步器同步，也尝试初始化hb但结果却不一样nization电路（图2b）。因此，它们可以同时捕获相同的此外，我们还确保RSGR相机的第一条扫描线的曝光时间等于GS相机的曝光时间。该系统使我们能够开发数据驱动的算法。请注意，由于实际上的这不会影响在这些框架上训练的算法的有效性，这将在泛化评估中得到验证2.2. 神经全局快门满意我们双向传播，因为我们发现仅使用单向时间信息将不平衡不同的帧。它甚至比不使用长期时间信息更糟糕。短期时间聚合器。我们已经纳入了长期的时间信息，而短期（本地）的时间信息也是必不可少的。我们使用滑动窗口来遍历视频片段。在窗口中，我们隐式地对齐中心框架特征fb及其由于全局重置功能，我们恢复干净的GS相邻帧特征bt±k Kk=1 使用可变形视频从遥感传感器在一个类似的方式去模糊。因此，遵循图像/视频去模糊的常见做法，我们采用编码器-解码器结构（图2d）。然而，由于具有挑战性的RSGR失真由空间变化的模糊和亮度组成，我们做了三个具体的设计，包括空间感知编码器，长期和短期，卷积网络（DCN）[4]。给定对齐的邻近特征和中心特征，我们沿着通道轴将它们连接起来。我们使用通道注意力（CA）来学习对它们进行加权，使用卷积层（Conv）来学习融合它们。译码器以细化的特征图f0作为输入，术语时间信息聚合器。解码器不Dθ渲染干净的GS图像yt。为了捕捉细节，空间感知编码器。我们使用编码器E θ来提取给定的低维表示{fi}S我们让我们的网络学习生成的图像yt和原始图像xt之间的差异xxt，具有全局残差连接[6]：y=x+ xxx。视频片段{xt}S.我们的编码器Eθ在每个框架分别。两种独特的设计使其能够解决空间变化的失真。首先，我们对每个像素的曝光持续时间（EE）进行编码因此，输入xt有四个通道。这种设计来自于我们的观察，即RSGR失真逐渐变化，并与曝光时间有关。其次，我们将空间注意力（SA）机制[7]集成到编码器Eθ中，用于产生空间选择性特征图，进一步使我们能够嵌入位置信息。这两个组件使编码器能够适应曝光持续时间。长期时间聚合器类似于大多数使用时间信息作为基本线索的前向视频去模糊方法，我们利用来自输入视频片段{xt}S的长期和短期时间信息。监管我们使用目标GS视频作为直接监督信号，以监督的方式训练我们的网络。具体来说，我们计算渲染视频帧ytT之间的差异而它的GS对应物y<$tT。但是由于GS视频经常受到噪声的影响，我们一起使用感知损失[9]和SSIM损失[36]来抑制噪声监督引起的负面影响：L=λl（y<$t）−l（yt）1+（1−λ）φ（yt，y<$t），（1）L其中，φ1是从预训练的VGG-19网络的第1层提取的特征[29];φ（i）[0，1]是1减去SSIM的可微版本[31]。参数λ2我们将输入视频片段S的长度设置为8。3我们将窗口的长度设置为3，步长设置为1，K设置为1。17798×↓×控制感知和SSIM组件之间的平衡，这是动态设置的。所有的错误导致的T帧总结在一起。3. 实验3.1. 设置数据集。我们使用我们贡献的合成和真实世界的数据集进行以下实验。真实世界的数据集。使用所提出的光学系统，我们收集了第一个RSGR数据集和相应的GS地面实况。我们的数据集由79个在真实场景下捕获的视频序列组成。每个序列由300个连续的帧与640 - 640的空间分辨率。GS相机的曝光时间为1ms，与RSGR相机第一条扫描线的曝光时间相同。由于曝光时间很短，GS视频有时会有轻微的噪音。我们将数据集分为27个序列的训练集和52个序列的测试集测试集有两个部分。具有3个序列的较小的SET-I与训练集具有相似的成像条件，而具有49个序列的较大的SET-II具有较差的成像条件，其中GS视频具有噪声。我们使用SET-I作为验证集.请注意，用于RS校正和GS去模糊的流行数据集是合成的[16，32]，与真实数据集有显著差距或没有地面实况[43]，这对于开发和评估数据驱动算法是困难的与他们不同的是，我们用对齐的地面实况（GT）捕捉真实场景。我们把它们提供给社区，以方便随后的研究。合成数据集。我们合成25个视频序列的GS，RS和RSGR曝光。每个视频有29帧，分辨率为512 512扫描方向为自上而下（）。相应的GS，RS和RSGR帧的第一扫描线同时曝光在合成RSGR视频时，我们使用一个参数λ来确定读出时间与第一条扫描线我们合成RSGR视频与8个不同的训练和测试。评估指标。我们的光学系统提供了使用捕获的GS视频作为 GT 来评估不同算法的方便性。峰值信噪比（PSNR）和结构相似性指数测量（SSIM）[36]用作度量。我们用一个视频帧来计算它们。考虑到失真是空间变化的，我们还将视频帧划分为多个部分进行评估。3.2. 外部比较与其他算法的比较。由于这个问题是未经探讨的，我们比较我们的算法与几个密切四个不同类别的相关算法：1）未监督的基于GS图像的去模糊算法，其使用对抗训练来去除配对的训练数据：解模糊-GANv 2 [11]; 2）集成多尺度接收场的监督式GS基于图像的解模糊算法：SRN [33]3) 基于监督GS视频的去模糊算法，通过融合相邻帧或RNN来杠杆化时间信息：STRCNN [8]，DBN [32]，IFIRNN [20]和ESTRNN [40];以及4）端到端估计运动和补偿失真的监督 RS 校正或去模糊方法：[ 16 ][17][18][19][19][19][19]表1报告了定性结果。我们观察到，除deflurGANv2外的所有算法都改善了原始视频。它表明，监督图像到图像的翻译算法可以消除RSGR失真。但是，正如Liuet al. [16]，它们不能校正RS失真，因为虚拟GS图像中的校正像素可能远离其在输入RS图像中的对应像素。RS失真校正需要精确估计的运动。此外，我们的算法实现了最佳的性能。它在所有评估指标上都以较大的优势始终优于其他公司。特别地，与倾向于仅改善在没有运动、无纹理帧等的情况下捕获的高质量输入的其他算法相反，我们的算法不仅改进了高质量的输入，而且改进了低质量的对应物（参见补充材料）。我们认为这是因为竞争算法针对每个像素具有相同曝光持续时间的RS或GS输入。因此，我们的RSGR视频已逐渐增加沿扫描方向的曝光时间，导致空间变化的模糊和亮度失真。我们的tail-lored算法采用了空间感知编码器和双时间信息聚合器，以实现最佳的性能，纠正RSGR失真。图3显示了定性结果。与定量结果类似，我们发现我们的算法呈现出比其他算法更好的视觉效果。它纠正混合的空间变化模糊和亮度，而不引入额外的失真。值得注意的是，由于我们精心选择的损失函数，即使监控信号中存在噪声，我们渲染的视频不幸的是，其他算法不为这个问题有次优性能。它们不能像我们一样完美地消除畸变，甚至带来一些伪影，几何变形、颜色失真和噪声。例如，deblurGANv2由于带有噪声监督的对抗训练而引入噪声STRCNN和DBN引入颜色失真。IFIRNN和JCD由于大的空间变化模糊而产生几何变形。与使用其他知识的比较。我们已经说明，我们定制的架构在RSGR校正方面是优越的。但是，应该指出的是，除了大-··17799表1. 定量比较。性能用平均PSNR/SSIM（越高越好）来衡量。‘F’ denotes evaluation using full-size[2]从零开始培训DSUR完成我们的任务是困难的。因此，我们对它进行了微调，不像这里从头开始训练的其他算法。我们的模型不使用时间信息。粗体文本表示每个指标的最佳方法。SET-I SET-II方法FUMLFUML输入18.95 /0.7525.32 /0.8221.56 /0.8116.36 /0.6317.82 /0.7323.64 /0.7721.45 /0.7715.54 /0.66[11]第十一话19.97 /0.7321.54 /0.7523.73 /0.7718.17 /0.6918.34 /0.6920.14 /0.6922.14 /0.7117.28 /0.66SRN [33]26.87 /0.8626.12 /0.8327.08 /0.8529.59 /0.8925.05 /0.8124.32 /0.7925.65 /0.8127.02 /0.83STRCNN [8]24.88 /0.8524.27 /0.8325.33 /0.8527.54 /0.8822.59 /0.8122.99 /0.7923.46 /0.8123.66 /0.83DBN [32]26.49 /0.8726.50 /0.8526.66 /0.8728.47 /0.8922.57 /0.8123.24 /0.8023.81 /0.8123.24 /0.82[第20话]28.01 /0.8927.20 /0.8828.35 /0.8929.21 /0.9025.17 /0.8224.77 /0.8025.62 /0.8126.94 /0.84ESTRNN [40]25.85 /0.8926.67 /0.8830.16 /0.9025.19 /0.8922.72 /0.8323.42 /0.8126.03 /0.8322.86 /0.83DSUR† [16]24.72 /0.8424.30 /0.8125.65 /0.8526.63 /0.8622.50 /0.8022.49 /0.7823.87 /0.8123.38 /0.83JCD [41]28.15 /0.8527.50 /0.8428.73 /0.8530.44 /0.8725.33 /0.8024.77 /0.7825.71 /0.8027.43 /0.83Ours-noT27.56 /0.8526.23 /0.8327.55 /0.8531.55 /0.8825.37 /0.8024.74 /0.7725.65 /0.7927.29 /0.82我们32.72 /0.9231.83 /0.9233.01 /0.9234.65 /0.9227.29 /0.8526.96 /0.8427.57 /0.8528.35 /0.86[11]第十三届中国国际纺织品服装展览会[32][41]第20话：我的世界，我的世界图3. 定性结果。请注意，扫描方向是从下到上（↑）。结构中，还存在另一个成功的因素：成对的训练数据，它为我们的模型提供了足够的监督来学习特定于任务的知识。我们试图弄清楚其他人是否可以取代知识。首先，我们将使用我们的端到端学习知识的RSGR校正与直接从其他任务（具有预训练权重的模型）借用的RSGR校正进行比较，包括RS校正[16]，RS去模糊[41]，GS运动去模糊（MT-去模糊）[11]和GS散焦去模糊（OF-去模糊）[13]。从图4中的结果，我们观察到，尽管使用预先训练的知识直接放松了对配对数据集的要求，但它们无法处理空间变化的亮度和模糊。特别是，空间变化的模糊导致恼人的几何失真。结果证实了我们所需的知识与其他任务不同。第二，我们用手工知识代替学习知识，校正空间变化的亮度失真。结果令人沮丧。第三，我们训练两个无监督的方法， CycleGAN [42] 和deflurGANv2 [11]没有配对数据。实验结果验证了我们所需要的知识不能被无监督的知识所取代。因此，我们以令人难以置信的努力建立了光学系统和配对数据。与RS溶液比较。我们认为，我们的解决方案是优于RS的解决方案。1）配方。通过全局重置功能，我们将RS校正问题转换为类似于去模糊的问题，该问题可以通过图像到图像的转换算法来解决，而RS校正则不能。2）有效性。图5中的结果表明，我们的RSGR解决方案优于RS解决方案。特别是，我们的解决方案擅长处理显著的运动（较低的相邻PSNR/SSIM）。我们还发现我们的解决方案17800×输入RS整流RS去模糊GS MT-去模糊GS OF-去模糊RSGR输入RS输入预先培训的DSUR微调DSUR手工制作CycleGAN deburGANv2我们的GT检测参数图4. 用不同的知识进行比较。请注意，扫描方向是从下到上（↑）。在以下情况下，λ较小，表示曝光时间较长。虽然我们的性能随着带宽的增加而衰减，但我们仍然优于RS解决方案。考虑到除非需要高速视频采集，否则并不总是需要大比例放大器，我们的解决方案有可能取代RS解决方案相邻PSNR相邻SSIM在实际的视频捕捉中。（3）效率。In addition to ac-curacy, our solution without explicit motion estimation isalso more efficient than existing RS solutions.经典的基于两帧的RS校正方法通常需要几分钟。Zhuang等[43]处理640 480分辨率的帧需要400秒，DSUR需要0.43秒，JCD需要0.83秒，但我们只需要0.04秒。考虑到其有效性和效率，我们相信我们的RSGR解决方案可以取代RS解决方案。3.3. 内部比较架构消融。我们通过实施9种不同的变体对我们的网络架构进行消融实验，以探索每个模块的有效性。从表2的结果中，我们有三个主要发现。首先，删除我们方法的任何组件都会削弱性能。结果验证了所有组件都是必要的。第二，使用空间感知模块（T6）比仅使用时间计数器（S3）具有更好的性能。我们认为，这是因为时间信息聚合器的力量依赖于空间感知编码器产生的干净的在空间感知的设计下，聚合器会收集扭曲的特征地图，从而失去其有效性。第三，我们惊讶地发现，只使用长期聚合器（T1）的一条路径比使用完整（我们的）和不使用长期时间聚合器（T2）更糟糕。我们假设这是因为我们的算法使用了长期和短期的时间4我们对基于DL的方法进行了所有运行时比较，即：DSUR，JCD，和我们在同一台机器上与NVIDIA特斯拉V100 GPU和In- tel（R）CPU@3.80 GHz。 Zhuang et al. [43]从DSUR借来的是基于IntelCore i7- 7700 K CPU。图5. 与RS溶液比较。我们培训和评估DSUR [16]，其中合成的RS视频作为输入，合成的GS视频作为监督。同样，我们用8个不同的RSGR视频训练和评估我们的模型，这些视频是用不同的合成器合成的。我们使用相邻度量来表示运动程度。信息在一起。当我们从一个方向收集长时间信息时，视频序列中的信息不平衡会给短期聚合带来麻烦。因此，我们的长期和短期聚合器从向前和向后的方向收集信息，并产生最佳性能。消融失败。我们还验证了图6中不同损失函数的有效性，包括感知损失[9]，梯度损失[18]，Charbonnier损失[3]和SSIM损失[36]。我们发现，所有的损失以外的SSIM损失的结果在不同的文物。这是因为在监控信号中存在噪声。这种现象也出现在对抗性损失中。此外，感知损失具有最好的性能，在结构恢复，因为它的操作上的特征水平。因此，我们将SSIM损失和感知损失结合起来，从而获得最佳结果。3.4. 实用性评价我们的RSGR解决方案在实际应用中运行良好。首先，渲染结果不仅在视觉上令人愉悦，而且适用于下游任务。在图7中，我们执行单个图像深度估计[23]和边缘检测[17]。结果表明，虽然下游任务对原始的RSGR视频进行运动捕获的行为更差，但我们制作的虚拟GS视频显着改善了它们。的培训0.0010.01RSGR溶液RS溶液峰值信噪比峰值信噪比SSIMSSIM17801×××输出输入表2. 不同结构的烧蚀实验。注：S1是我们没有（w/o）EE的模型;S2是w/o SA; S3是w/o EE和SA; T1是w/o长期聚合器的反向路径; T2是w/o长期聚合器; T3是用Conv替换我们模型的DCN; T4是T2和T3的组合; T5是T4用Conv替换CA; T6是T5 w/o短期时间信息。Exp.F U M L我们的 32.72 /0.92 31.83/ 0.92 33.01/0.92 34.65 /0.92S1 32.53 /0.91 31.28/ 0.90 32.45/0.91 34.56 /0.91S2 26.51 /0.90 28.58/ 0.90 30.67/0.92 25.66 /0.89S3 25.09 /0.89 25.39/ 0.88 29.56/0.91 24.70 /0.89电话：+86-510 - 8888888传真：+86-510 - 8888888T2 31.99 /0.90 30.89/ 0.89 32.37/0.91 34.47 /0.91T3 31.70 /0.90 30.68/ 0.89 31.99/0.90 33.83 /0.91电话：+86-510 - 8888888传真：+86-510 - 8888888T5 29.31 /0.89 28.12/ 0.88 29.75/0.89 32.48 /0.90T6 27.56 /0.85 26.23/ 0.83 27.55/0.85 31.55 /0.88输入18.95 /0.75 25.32/ 0.82 21.56/0.81 16.36 /0.63输入感知梯度沙博尼耶SSIMGT图6. 不同损耗的烧蚀实验。顶部贴片具有37 37分辨率，底部贴片具有140 129分辨率。它们来自同一个框架。性能甚至与使用GS视频的性能相当其次，我们的算法具有良好的推广能力。图8中的结果证明，我们在特定RSGR相机上训练的算法可以直接应用于不同的RSGR相机。此外，SET-II的结果（如表1所示）可以证明我们的算法在不同成像条件下的泛化能力当测试集与训练集的成像条件不同时，我们仍然优于其他方法第三，如3.2节所讨论的，我们的解决方案是有效的。在没有显式运动估计的情况下，它比最先进的RS解决方案DSUR [16]快104. 结论本文首先尝试从RS传感器中恢复干净的GS视频，该我们建立了一个新的光学系统，并用它捕获一个新的数据集。基于数据集，我们开发了一个数据驱动的算法。我们的实验证明，有了这个功能，我们可以将RS整流问题转化为一个类似的去模糊，摆脱了非平凡的运动估计步骤。实验结果也验证了我们的定制算法达到了FD（输入）FD（我们的）FD（GT）FE（输入）FE（我们的）FE（GT）图7. 下游应用。我们使用预训练模型应用两个任务，包括FD：单个图像深度估计[23]和FE：原始RSGR，校正RSGR和GS视频帧的边缘检测[17图8. 泛化评价。我们在某个RSGR相机上训练我们的模型，并在另一个不同的RSGR相机上测试它，它具有不同的曝光时间，读出时间，分辨率等。请注意，扫描方向是从上到下（↓）。最佳性能，可能适用于实际场景。与RS解决方案相比，我们的解决方案是有效和高效的。考虑到它易于实现，不需要改变硬件，我们相信我们的RSGR解决方案可以取代RS解决方案。局限性。虽然我们提倡RSGR而不是标准RS解决方案，但应该注意的是，RS视频在完全静态的情况下不会受到任何失真的影响，但RSGR仍然存在强度变化。虽然我们提出的算法可以以某种方式补偿它，我们建议使用我们的RSGR解决方案的动态场景。与上面的点相关，RSGR的最后一条扫描线更有可能曝光过度。因此，我们建议适当调整RSGR的曝光时间。我们还认为，动态范围可以通过利用RSGR的非局部暴露变化来改善。我们把它留给我们未来的工作。致谢。本研究得到了日本科学研究所KAKENHI基金编号20H05951、20H04215、安徽省高校自然科学研究重点项目（KJ2017A934）和Mercari，Inc.起来。ZW还感谢MEXT奖学金。17802引用[1] Miika Aittala，Prafull Sharma，Lukas Murmann，AdamB Yedidia，Gregory W Wornell，William T Freeman，and Fredo Durand.计算反射镜：通过深度矩阵分解实现盲逆光NeurIPS，2019。1[2] Derek Bradley ， Bradley Atcheson ， Ivo Ihrke ， andWolfgang Heidrich.消费类摄像机阵列的同步和卷帘快门补偿。见CVPRW，第1-8页，2009年。2[3] Pierre Charbonnier、Laure Blanc-Feraud、Gilles Aubert和Michel Barlaud。计算成像的两种确定性半二次正则化算法。ICIP，第168-172页，1994年。7[4] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 三、四[5] Kaiming He，Georgia Gkioxari，Piotr Dollár，and RossGir-shick.面罩R-CNN。InICCV，2017. 1[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。4[7] 淇滨侯、周大全、伽师冯。协调注意力，以实现高效的移动网络设计。在CVPR，2021年。三、四[8] Tae Hyun Kim，Kyoung Mu Lee，Bernhard Scholkopf，and Michael Hirsch.通过动态节奏混合网络在线视频去模糊InICCV，2017. 五、六[9] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。四、七[10] Tero Karras Samuli Laine 和 Timo Aila A Style-basedgenerator architecture for generative adversarial networks.在CVPR，2019年。1[11] Orest Kupyn ， Tetiana Martyniuk ， Junru Wu ， andZhangyang Wang.Deblurgan-v2：去模糊（数量级）更快更好。在ICCV，2019年。五、六[12] Yizhen Lao和Omar Ait-Aider。一种使用具有自动特征选择的线进行强卷帘快门效应校正的鲁棒方法在CVPR，2018年。一、二[13] Junyong Lee、Hyeongseok Son、Jaesung Rim、SunghyunCho和Seungyong Lee。单幅图像散焦去模糊的迭代滤波自适应网络。在CVPR，2021年。6[14] Hendrik PA Lensch ， Jan Kautz ， Michael Goesele ，Wolfgang Heidrich，and Hans-Peter Seidel.基于图像的空间外观和几何细节重建。ACM TOG，22（2）：234-257，2003. 1[15] Chia-Kai Liang，Li-Wen Chang，and Homer H Chen.卷帘快门效应的分析与补偿。IEEE TIP，17（8）：1323-1330，2008年。1[16] 刘培东，崔兆鹏，维克托·拉尔森，马克·波勒费斯.深百叶窗展开网络。在CVPR，2020年。一、二、五、六、七、八[17] Yun Liu ， Ming-Ming Cheng ， Xiaowei Hu ， Jia-WangBian，Le Zhang，Xiang Bai，and Jinhui Tang.用于边缘检测的更丰富的卷积特征TPAMI，41（8）：1939七、八[18] Cheng Ma，Yongming Rao，Yean Cheng，Ce Chen，Jiwen Lu，and Jie Zhou.具有梯度引导的结构保持超分辨率在CVPR，2020年。7[19] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场在ECCV，2020年。1[20] Seungjun Nah，Sanghyun Son，and Kyoung Mu Lee.用于视频去模糊的具有帧内迭代的回流神经网络。在CVPR，2019年。五、六[21] 中村淳一数码相机的图像传感器和信号处理。CRCPress，2017. 2[22] Pulak Purkait和Christopher Zach阿克曼运动下单眼卷帘快门补偿的最小解算器。在WACV，2018。一、二[23] René Ranftl ， Katrin Lasinger ， David Hafner ， KonradSchindler，and Vladlen Koltun.走向鲁棒的单眼深度估计：混合数据集的零拍摄交叉数据集传输。TPAMI，2020年。七、八[24] Vijay Rengarajan、Yogesh Balaji和AN Rajagopalan。打开快门：Cnn来校正运动失真。在CVPR，2017年。2[25] Vijay Rengarajan，Ambasamudram N Rajagopalan，andRan-garajan Aravind.从弓到箭：城市场景的滚动快门在CVPR，2016年。一、二[26] David E Rumelhart ， Geoffrey E Hinton ， and Ronald JWilliams.通过错误传播学习内部表征。技术报告，加利福尼亚大学圣地亚哥拉霍亚认知科学研究所，1985。3[27] Cha

下载后可阅读完整内容，剩余1页未读，立即下载