使用自适应扭曲进行真实世界滚动快门校正的方法

112 浏览量更新于2023-10-26 收藏 3.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17785用于真实世界滚动快门校正的学习自适应扭曲曹明登1钟志航2王嘉豪1郑银强2杨玉久1R1清华大学2东京大学摘要本文提出了第一个真实世界的滚动快门（RS）校正数据集，BS-RSC，和相应的模型来校正失真视频中的RS帧。消费者市场中具有用于视频捕获的基于CMOS的传感器的移动设备在视频采集过程期间发生相对移动然而，由于实际场景中的运动是多种多样的且难以建模，因此现有的RS校正方法往往不能消除RS效应。为了解决这个问题，我们提出了一个真实世界的RS校正数据集BS-RSC。通过一个精心设计的基于分束器的采集系统，同时记录具有相应地面实况的真实失真视频BS-RSC包含动态场景中摄像机和物体的各种运动。在此基础上，提出了一种自适应变形的遥感校正模型.我们的模型可以通过预测多个位移场自适应地将学习到的RS特征变形为全局快门特征。这些扭曲的特征被聚集，然后以从粗到精的策略重建成高质量的全局闭合帧实验结果表明，该方法的有效性，我们的数据集可以提高模型该项目可在https://github.com/ljzycmd/BSRSC上获得。1. 介绍大多数消费相机采用CMOS传感器成像，由于其低功耗，紧凑的设计，快速成像。同时，大多数CMOS传感器在成像过程中具有卷帘快门（RS）效果。与同时捕获所有像素的全局快门（GS）相机不同，RS相机逐行顺序地捕获图像像素。因此，当摄像机和物体之间发生相对运动时，在记录的图像和视频中会发生RS畸变严重损害视觉质量。而且失真的图像和视频使一些下游任务（如3D重建、姿态估计和深度预测[3，8，10，16]）的性能恶化，导致错误的、不期望的和失真的结果。通常有两种方法来缓解现有的计算机视觉算法的性能差距工作在RS失真和GS图像。第一种方法是保持原始遥感图像不变，并使算法适应遥感图像的变形。因此，在三维视觉领域提出了许多RS感知算法，RS运动恢复结构重建[13，34]，RS立体[27]，RS相机校准-[22]和RS绝对相机姿态[1，3，4，18]。一种较好的方法是将RS畸变图像校正为GS图像。这样，我们因此，校正卷帘快门（RSC）图像在摄影中越来越重要，并且最近受到了相当大的研究关注[2，9，20，24]。现有的RS效果去除方法可以分为基于单帧图像和基于多帧图像的方法。当仅从一个RS图像恢复GS图像时，许多外部约束或先验（例如，几何先验）被采用[17，24，25，35]，因为它是一个高度不适定的问题。与基于单帧图像的校正方法相比，基于多帧图像的校正方法更通用，并且可以利用运动信息进行校正。由于卷积神经网络（CNN）在各种计算机视觉任务上的巨大成功以及所提出的合成RSC数据集，研究人员设计了特定的模型架构，以基于多帧的端到端方式消除RS失真。通常，首先对跨多个帧的运动进行建模。然后通过变形操作恢复与参考RS帧对应的GS图像。例如，Liuet al.[20]从相关体积预测速度场，Fan等。[9]利用PWC-Net框架[28]来估计非失真流以校正RS帧。它们都采用了前向变形的方法来消除RS效应，并取得了一定的效果。然而，校正后的GS图像仍然遭受模糊和纹理细节损失，原因如下：1）建模的运动是不准确的，因为没有用于监督的地面实况，17786(a) RS帧（b）DSUN [20](c)（d）SUNet [9]图1.使用合成数据训练的最先进方法的真实卷帘快门校正结果。我们发现，所有的方法都不能消除RS效应，甚至在校正帧中引入了许多伪影。在培训过程中。2)变形操作是不可学习的，不能自适应地聚合特征。3) 同时，潜在GS帧中的一些区域不出现在输入RS帧中。因此，模型很难生成不可见区域。4)此外，这些模型是在运动相当单调的合成RSC数据集上训练的。合成后的遥感图像中存在较多的伪影，极大地限制了模型在自然遥感图像校正中的应用。图1显示了使用合成数据训练的最新方法的一些真实世界RSC结果。为了超越上述这些限制，我们提出了一种新的自适应扭曲模块和一个真实世界的数据集，用于滚动快门校正。我们的模型以三个连续的帧作为输入，在中间成像时间恢复对应于中央RS帧的GS帧。我们提出了一个自适应扭曲模块，以更好地exploit高质量的GS帧恢复，减轻不准确的RS运动估计和扭曲的问题。首先，提取每个RS帧的多尺度特征。然后，我们构造一个相关体积来建立中心和相邻RS特征之间的对应关系。该体积用于预测多个运动场，而不是在以前的作品中仅生成一个[9，20]。在此基础上，提出了一种自适应注意机制，通过根据预测的运动场聚合上下文特征来扭曲RS特征。所设计的变形过程是可学习的，集中的和自适应的GS感知功能的功能。请注意，我们在所有尺度上执行自适应扭曲。解码器网络进一步解码这些扭曲的多尺度特征，对应的GS帧。所提出的模型可以以端到端的方式进行训练。考虑到合成数据集和真实RS失真场景的性能差距，我们提出了BS- RSC，这是第一个由设计良好的分束器采集系统采集的动态场景中具有各种运动的真实世界RSC数据集。RS照相机和GS照相机被物理地对准以同时捕获RS失真帧和GS帧。我们的贡献可归纳如下：• 我们提出了一种新的功能扭曲模块滚动快门校正，自适应扭曲的RS功能到全球高质量的GS帧恢复。• 我们贡献了BS-RSC，第一个真实世界的RSC数据集（没有运动模糊），由一个精心设计的分束器采集系统收集各种运动，弥合了现实世界的RSC任务的差距。• 在真实数据集和人工数据集上的定量和定性实验结果表明，与现有方法相比，该方法具有较好的性能.2. 相关作品2.1. 深度滚动快门校正CNN被用于消除RS效应，因为它在许多计算机视觉任务中取得了相当大的成功对于单个图像RSC ，Rengarajanet al.[24]提出了一种CNN架构来估计来自单个图像的逐行相机运动，并将RS失真恢复到第一行曝光的时间。他们采用了一个长矩形卷积核来学习逐行曝光产生的效果。Zhuang等[35]进一步提出了一种结构和运动感知的RS校正模型，该模型考虑了扫描线之间的隐藏运动以及场景结构，其中估计了相机扫描线的速度和深度。由于单帧图像RSC是一个高度不适定的任务，多帧RSC可以通过更准确地建模RS运动来实现更好的性能，并且最近受到了广泛的关注。Liu等[20]通过从两个连续的RS帧预测密集位移场，提出了一种用于RSC的端到端网络。然后采用可微前向变形模块将遥感图像变形为全局图像。进一步考虑到RS失真图像中的模糊，Zhonget al. [33]提出了第一个真实世界的滚动快门校正和去模糊（RSCD）和联合校正和去模糊（JCD）模型来解决RSCD问题。最近，Fanet al. [28]第 29话：17787预测对称非失真场，并通过时间中心GS图像解码器网络恢复潜在的GS帧，在合成数据集上取得了令人满意的结果这些方法仍然遭受的模糊和细节损失的恢复GS帧由于不准确的位移场估计和扭曲。为了减轻这样的文物，我们建议预测多个字段和自适应扭曲的RS功能。2.2. 注意机制注意力机制是机器翻译中引入的一种机制，在自然语言处理和计算机视觉中得到了广泛的应用。在[29]中，一种新的Transformer架构使用注意力作为主要机制，它用自注意操作取代了递归结构。由于注意力强大的长距离和关系建模能力，它逐渐被引入视觉任务，并取得了相当大的成功[14，23，30]。最近，注意机制或Transformer已被应用于图像或视频恢复任务并取得了巨大的成功，例如，超分辨率[7，19，31]。在[31]中，作者提出了一种用于基于参考的图像超分辨率的纹理Transformer网络，该网络采用注意机制自适应地从参考图像转移纹理细节。Chen等人[7]提出了一种用于各种图像恢复任务的图像处理Transformer（IPT），超分辨率，去噪，通过特定任务头和尾。Liang等人[19]利用Swin Transformer [21]进行多个图像恢复任务，并以更少的参数实现更好的性能。注意力在视觉任务中表现出很高的潜力。本文还探讨了自适应变形的注意机制，以恢复高质量的GS帧。2.3. RSC数据集合成注意，基于CNN的方法通常需要大量的训练数据来学习从RS到GS图像的校正。然而，当前RSC数据或公开可用的数据集被合成，其中RS图像从捕获的GS图像生成。例如，在[24]中，使用与RS运动相对应的仿射变换来合成RS图像。Zhuang等[35]通过扭曲来自KITTI数据集[11]的单个GS图像，使用密集的深度图和相机运动来合成RS图像。在文献[2]中，利用各种模拟运动来生成遥感图像.最近，研究人员在[20]中提出了两个数据集，Carla-RS和Fastec-RS数据集，它们通过高速相机生成更逼真的RS失真图像，并模拟相机运动或3D几何形状的自然RS图像形成过程。Carla-RS是在虚拟3D Carla模拟器中由自由移动的卷帘快门相机合成的。相反，Fastec-RS数据集使用现实世界中的GS图像创建，具有2400FPS全局快门相机。然而，合成的RS图像是不自然的，并且充满了线伪影（如图5所示）。此外，Fastec-RS中的大多数场景是由水平移动的摄像机采集的，而各种运动会导致真实世界中的RS图像。这些限制显著地恶化了RSC模型的性能。本文提出了第一个真实世界的RSC数据集的模型训练，恢复高质量的GS图像从真实世界的RS失真的图像。3. 该方法3.1. 问题公式化如[20]中所述，可以通过用预测的位移场向后扭曲RS特征来恢复GS帧：Ig （ x ） =Ir （ x+Ug→r （ x ）），（1）其中Ig是潜在的GS帧;Ir是输入RS帧;Ug→r是从GS到RS帧的位移场，x是某个像素。由于只有RS帧可用，因此难以估计位移场Ug→r幸运的是，可以从两个连续RS帧之间的光流V估计速度矢量因此，当速度恒定时，可以计算位移：U（x）=λV（x）T（x），（2）其中λ是缩放因子，T（x）是对应于RS帧的中间扫描线的时间偏移因此，示例性方法尝试首先从两个连续的 RS 帧估计位移场，然后用可微的前向扭曲块（DFW）扭曲RS特征 [20]。DFW模块试图通过利用与相邻像素的距离成比例的权重来聚集其在RS特征中的相邻像素强度来近似潜在GS图像中的特定像素x的强度邻居的距离越大，其权重越小。因此，准确的运动估计和变形是恢复潜在GS帧的两个关键然而，当仅采用GS帧进行监督时，由于在训练期间不能有效地监督U，因此难以估计准确的U。不准确的估计U进一步导致不期望的扭曲结果，因为DFW模块利用距离感知权重将相邻像素聚合到X。结果，经校正的GS帧常常遭受模糊和其它伪像。3.2. 模型概述我们的模型旨在通过多场预测和自适应变形模块来减轻不准确的位移场估计和容易出错的变形问题。17788相邻特征RS功能1Concatenate2中央RS功能运动场上采样3运动估计自适应扭曲中心帧特征∈不L不不不不不t tt运动估计运动估计运动估计相邻帧自适应变形自适应变形自适应变形融合转换融合转换融合转换中心框架校正的中心框架图2. 提出的RSC模型的主要架构。我们的模型试图预测多个位移场，而不是只有一个，以减轻现有的不准确的运动估计。我们还提出了一个自适应的扭曲模块的指导下的字段束的RS功能到GS一个自适应的扭曲。基于当前基于CNN的RSC方法，我们的模型输入三个连续的RS帧来探索运动信息。信息和补充的上下文信息，以及残差块[12]：{U1，0，. - 是的- 是的，U1，M-1，W}= ResBlock（[CV1，F 1]），（3）在输入中央RS帧的中间曝光时间（中间扫描线）我们的模型由图2所示的三个部分组成：多尺度特征提取器、自适应扭曲模块和从粗到精的GS帧解码器。我们首先提取帧级多尺度特征。然后，对于每个尺度上的特征，使用相邻的RS特征来预测前向和后向运动信息，并通过所提出的自适应变形模块进行变形这些扭曲的特征由卷积块融合。最后，解码器解码扭曲的特征，并以粗到精的方式输出校正的GS帧。3.3. 自适应变形模块多个位移场生成。一个关键的区别，从以前的方法是，我们的模型预测多个位移场，而不是一个翘曲。此外，常速假设在Eq.因此，我们通过进一步预测权重来调制多个位移场具体来说，对于第t个RS特征Fl∈ RC× H × W 在l级尺度上，我们首先构造其中，l表示尺度，M表示运动次数领域的每个字段包含两个通道，分别对应于水平和垂直移动。 WRM×H ×W是每个估计字段的权重。因此，通过乘以估计权重来调制最终预测的位移场。自适应扭曲。在变形过程中，我们提出了一个自适应变形模块（AWM），它利用自注意力来聚集在预测的多个位移场下采样的特征。AWM由自适应多头注意（Ada-MSA）和卷积块组成。Ada-MSA机制如图所示。3 .第三章。首先，对于尺度l处的第t个RS特征Fl中的每个像素x（由行索引i和列索引j组成），通过利用矩阵Wq的线性变换来生成查询向量Q：Q= W q F t（x）。（四）随后，在估计的多个位移场U1的指导下对特征集N（x）进行采样：N1（x）={F1（x + U1，i（x））|i = 0，1，. -是的- 是的，M-1}。（五）则密钥和价值然后通过以下步骤生成矢量：tlK VConv��×Ada-MSA相关体积177893D相关体积CVt[28]，用于建立与中心RS帧的对应关系。然后，卷用于预测多个位移场及其权重，来自采样特征的线性变换：K=Wk N1（x），V=Wv N1（x），（6）t t17790∈∈√hLLL×图3.自适应多头自我注意机制（Ada-MSA）的图示。Ada-MSA的目标是在估计的多个运动场的指导下，自适应地将输入的RS特征变形为GS特征。其中WkRd×C和WvRd×C是变换矩阵。因此，第h个头部处的自适应注意力特征通过下式计算：l lQTKhT分离器采集系统，以收集RSC任务的第一个真实世界数据集，称为BS-RSC。4.1.分束器采集系统所设计的分束器采集系统的架构如图4（a）所示，其中分束器将入射光分成两束，并将其传递到以下RS和GS相机中。我们选择FLIR FL 3-U3- 1/3S 2C RS相机和FLIR GS 3-U3- 28 S4 C GS相机，前者配备1/3英寸CMOS传感器（3.63 um间距尺寸），后者配备1/1.8英寸CCD传感器（3.69 µm间距尺寸）。这两个摄像头通过50/50分束器进行几何对准。在激光束的帮助下，我们首先机械地调整对准，使其精度达到几个像素。之后，我们进行了单应性校正与标准的检查模式，以进一步减少失调，- ment到亚像素级。RS和GS相机的曝光时间均为1ms，避免了拍摄视频中的模糊。两台摄像机都是25 fps。我们用一个波浪发电机-2）A= A（h）V，（7）DH以产生25Hz的同步脉冲，GS相机的脉冲被适当延迟，例如其中h表示注意力头部，Qh、Kh和Vh为dimdh=d。所有H头的输出都是一致的，GS曝光时间戳与RS相机的中间扫描线匹配（如图4（b）所示）。至于照片-进入DH将矢量变暗并投影到输出要素。度量对齐，我们把一个中性密度过滤器之前，通过多个多运动场的自适应变形模块，将RS特征自适应地聚合到GS特征。3.4.损失函数我们以端到端的方式训练所提出的模型，并且仅需要用于超级视觉的地面真实GS帧。根据先前的工作[33]，我们采用Char-bonnier损失c和感知损失p来确保校正的GS帧的视觉质量。采用总变差损失tv来保证估计的平滑性位移场因此，总损失可表述为：L=Lc+λ pLp+ λ tvLtv。（八）4. BS-RSC数据集没有合成伪影的真实世界数据集对于提高基于CNN的RSC方法的实际应用的能力是必不可少的。最近，一些特定的光学采集系统已经被设计用于捕获真实世界的图像或视频对用于恢复任务，从而提高CNN模型的泛化能力。Cai等人[6]构建了一个真实世界的超分辨率数据集，其中通过调整数码相机的焦距来捕获同一场景的成对高分辨率和低分辨率数据。对于去模糊，Rimet al. [26] Zhonget al. [32]采用分束器采集系统采集真实世界的单幅图像和视频去模糊数据集。在这些开创性工作的启发下，我们还提出了一个梁-RS摄像头来平衡两个摄像头的灵敏度。我们进一步使用颜色检查器图案来校正GS相机的RGB响应，使得两个相机共享相同的颜色响应。整个系统只有一公斤左右，因此可以轻松地持有和自由移动。4.2.数据合成收集的BS-RSC包含具有各种相机和对象运动的RS视频，主要是在具有汽车和人等的室外街道场景中。具体来说，所设计的分束器采集系统共采集了80个RS-GS HD（1024 768）视频对，每个视频包含50帧。我们进一步将其分为训练集，Val集和测试集，分别有50，15，15个视频。图4.所设计的分束器采集系统用于真实世界的RSC数据集构建。（一）设计了分束采集系统的结构。（b）GS和RS相机的曝光方案。该采集系统可以在RS帧的中间曝光时间捕获GS帧。17791××代码和测试结果，我们不能报告任何结果以外的原始文件。5.2.与最先进的技术相比。BS-RSC上的结果。拟议的真实世界数据集BS-RSC的定量比较见表1。1.一、由于多个运动场预测和自适应扭曲策略，我们的模型实现了最佳的PSNR和SSIM评价指标，比SOTA方法有很大的性能改善。定性比较如图6所示。我们看到，所提出的方法获得了比其他方法更视觉友好的结果（例如，广告牌和树木）。这些优异的性能显着证明了我们的模型对现实世界的卷帘快门校正的有效性图5.左：收集的真实世界RS-GS示例BS-RSC数据集。右：Fastec-RS数据集中的合成RS-GS示例[20]。我们看到我们的真实RS帧更自然，并且在合成的RS帧中有很多伪影5. 实验5.1.实验环境数据集。我们在建议的真实世界BS-RSC数据集上进行实验。此外，我们还提供了流行的合成数据集Fastec-RS [20]上的实验结果，该数据集包含76个视频序列，每个视频包含34帧。请注意，我们使用的数据集来自公开发布的数据集，这与原始论文中的描述略有不同。测试和验证子集都用于计算度量。实施详情。在训练过程中，三个连续的RGB风格的RS帧被送入我们的模型。输入帧首先被随机裁剪成480256，并随机水平翻转以进行数据扩充。λ p和λ t v设置为0。01和0。001，分别。初始学习率设置为210-4，和亚当[15]对模型参数进行优化。该模型使用余弦退火学习率调整调度器训练400个epoch为了进行测试，三个连续的帧被直接馈送到模型中，而没有任何增强。在下面的实验中，我们设置位移场的数量M=9评价标准和比较方法。采用PSNR和SSIM对校正结果进行了定量评价。示出了经校正的RS帧的可视化以用于定性比较。我们将所提出的方法与最先进的RSC方法进行了比较，包括[34]中提出的传统方法，基于CNN的方法DSUN [20]，JCD [33]和SUNet [9]。这些方法在合成的数据集上显示了良好的效果由于SUNet的作者尚未发表表1.在拟议的BS-RSC数据集上与最先进的RSC方法进行定量比较Fastec-RS上的结果。除了在BS-RSC上的比较外，我们还在合成的RSC数据集Fastec-RS上进一步评估了所提出的方法，以验证其有效性。定量和定性结果见表。图2和图7分别。我们看到，我们的模型实现了与其他方法相当的评估结果。上面显示的这些定量和定性结果证明了我们模型的优越性能。方法PSNR↑（dB）SSIM↑Zhuang等[35]第三十五届21.440.710[20]第二十话27.000.825JCD [33]24.840.778[9]*28.340.840我们28.560.855表2.在合成的Fastec-RC数据集上与最先进的RSC方法进行定量比较* 意味着SUNet在RS帧的第一行恢复GS帧。5.3. 消融研究输入帧数。我们的模型需要三个帧来更准确地模拟运动信息以进行翘曲。为了验证这一点，我们修改我们的模型，以适应单帧和两帧输入。选项卡. 3给出了不同输入数量的定量结果。由于不适定的性质，单个帧输入实现最低的度量方法PSNR↑（dB）SSIM↑Zhuang等[35]第三十五届19.800.698[20]第二十话23.600.808JCD [33]24.860.82017792(a) RS帧（b）Zhuanget al.[34]（c）DSUN [20](d)JCD [33]（e）我们的（f）一般事务框架图6.对真实世界RSC的拟议BS-RSC数据集进行视觉比较。我们的方法获得了更高的视觉质量，更多的细节恢复较少的伪影。虽然现有的方法在合成数据集上获得了非常有竞争力的结果，但由于难以在BS-RSC中建模具有挑战性的运动，因此它们未能恢复真实世界的RS失真(a) RS帧（b）Zhuanget al.[34]（c）DSUN [20](d)JCD [33]（e）我们的（f）一般事务框架图7.合成Fastec-RS数据集的可视化结果所提出的方法显示出较强的竞争优势，对其他方法。17793从单个帧估计位移场相反，多帧可以提供帧间移动和补充信息以更好地执行，特别是当输入三个连续RS帧时。输入帧PSNR↑（dB）SSIM↑123.840.765(a)RS帧(b)Fastec-RS培训227.200.838328.560.855表3.输入RS帧数量的消融研究。自适应变形模块。为了验证所提出的翘曲模块的有效性，我们进一步构建了三个模型。Net1只采用卷积进行多RS特征融合，不进行任何变形。Net2用普通的后向翘曲代替AWM。Net3用现有方法采用的DFW代替AWM。结果显示在Tab.4证明了所提出的自适应变形模块的有效性同时，当预测运动场个数M= 9时，该模型获得了最佳的PSNR和SSIM.模型PSNR↑（dB）SSIM↑Net126.140.801Net226.760.826Net327.200.837我们的（M=2）27.410.836我们的（男=9）28.560.855我国（男=16）27.980.850表4.不同翘曲方法的烧蚀研究。交叉摄像机验证。为了进一步验证所提出的真实世界RSC数据集BS-RSC的有效性，我们在第三方RS相机EO-1312 C捕获的RS帧上测试了我们的模型和DSUN模型。视觉结果如图8所示。与原始RS帧相比，子图（b）丢失了许多细节，这表明在合成数据集Fastec-RS上训练的模型不能去除RS效应，甚至向图像中引入更多的模糊和伪影。子图（c）和（d）表明所提出的BS-RSC可以帮助处理真实世界的RS失真。然而，DSUN模型不能有效地估计位移场，也不能很好地校正RS帧。由于自适应变形的设计，我们的模型获得了视觉友好的结果。帧间时间。为了验证所提出的模型的泛化能力，我们在具有不同帧间时间的RS视频上测试训练模型（通过对RS帧进行插值），并且在不同时间戳下的校正结果如图所示9 .第九条。我们看到我们的模型是稳健的（c）DSUN（d）Our图8.所提出的方法对第三方相机捕获（a）是输入RS帧。(b) 由我们在合成Fastec-RS上训练的模型恢复。（c）和（d）由DSUN校正，并且我们的模型在所提出的BS-RSC上训练。在测试过程中输入RS帧的不同帧间时间。然而，会出现一些小的伪像（例如，具有1/4帧间时间的校正的GS帧）。因此，我们无法完全避免训练数据集的帧间时间过拟合。图9.不同帧间时间的RS帧的校正结果。6. 局限性和结论在本文中，我们探讨了真实世界的卷帘快门校正任务。提出了一种有效的基于注意机制的自适应变形模型实验结果表明，这两种方法的有效性，表现出高度的比较结果对以前的翘曲为基础的方法。然而，目前在低功耗移动设备上的实时推理仍是一个挑战，如何加速模型是我们未来的工作。致谢。本工作得到了国家自然科学基金重大研究计划（项目编号：61991450）、深圳市海洋智能感知与计算重点实验室（项目编号： ZDSYS20200811142605016）和日本科学研究所（项目编号：20H 05951）的部分资助。17794引用[1] Cenek Albl、Zuzana Kukelova、Viktor Larsson和TomasPajdla。卷帘快门相机绝对姿势。IEEE TPAMI，42（6）：1439-1452，2019。1[2] Cenek Albl、Zuzana Kukelova、Viktor Larsson、MichalPolic、Tomas Pajdla和Konrad Schindler。从两个滚动快门到一个全局快门。在CVPR中，第2505第1、3条[3] Cenek Albl、Zuzana Kukelova和Tomas Pajdla。R6 p-卷帘快门绝对相机姿势。在CVPR，第22921[4] Cenek Albl、Zuzana Kukelova和Tomas Pajdla。已知垂直方向的卷帘门绝对姿势问题在CVPR中，第3355-3363页，2016年。1[5] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。3[6] Jianrui Cai，Hui Zeng，Hongwei Yong，Zisheng Cao，and Lei Zhang.迈向真实世界的单图像超分辨率：一个新的基准和一个新的模型。在ICCV，第3086- 3095页，2019年。5[7] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在CVPR中，第12299-12310页，2021年。3[8] Yuchao Dai，Hongdong Li，and Laurent Kneip.滚动快门相机相对姿态：广义对极几何。在CVPR中，第4132-4140页，2016年。1[9] Bin Fan，Yuchao Dai，and Mingyi He. Sunet：用于滚动快门校正的对称无失真网络。在ICCV，第4541-4550页一、二、六[10] Bin Fan，Ke Wang，Yuchao Dai，and Mingyi He. Rs-dpsnet：用于滚动快门立体图像的深度平面扫描网络。IEEE SPL，28：1550-1554，2021。1[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？ Kitti Vision 基准套件。在CVPR，第3354-3361页，2012中。3[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。4[13] 约翰·海德博，佩尔-埃里克·福尔森，迈克尔·费尔斯贝，埃里克·林加比。卷闸管束调整。在CVPR，第1434-1441页，2012年。1[14] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在ICCV，2019年。3[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。6[16] Yizhen Lao和Omar Ait Aider。卷帘门同态及其应用。IEEE TPAMI，2020。1[17] Yizhen Lao和Omar Ait-Aider。一种使用具有自动特征选择的线进行强卷帘快门效应校正的鲁棒方法在CVPR中，第4795-4803页，2018年。1[18] Yizhen Lao，Omar Ait-Aider，and Adrien Bartoli.使用模板形状的卷帘快门姿态和自我运动估计。在ECCV，第466-482页，2018年。117795[19] Jingyun Liang ， Jiezhang Cao ， Guolei Sun ， KaiZhang，Luc Van Gool，and Radu Timofte. Swinir：使用Swin Transformer进行图像恢复。在CVPR研讨会上，第1833- 1844页，2021年。3[20] 刘培东，崔兆鹏，维克托·拉尔森，马克·波勒费斯.深百叶窗展开网络。在CVPR中，第5941一二三六七[21] Ze Liu ， Yutong Lin ， Yue Cao ， Han Hu ， YixuanWei ， Zheng Zhang ， Stephen Lin ， and Baining Guo.Swin Transformer ：使用移动窗口的分层视觉Transformer。ICCV，2021。3[22] Luc Oth ， Paul Furgale ， Laurent Kneip ， and RolandSiegwart.卷帘快门相机校准。在CVPR，第1360- 1367页，2013年。1[23] Prajit Ramachandran，Niki Parmar，Ashish Vaswani，Irwan Bello，Anselm Levskaya，and Jonathon Shlens.视觉模型中的独立自我注意力。NeurIPS，2019。3[24] Vijay Rengarajan、Yogesh Balaji和AN Rajagopalan。打开快门：CNN修正运动失真.在CVPR中，第2291-2299页，2017年。一、二、三[25] Vijay Rengarajan，Ambasamudram N Rajagopalan，andRan-garajan Aravind.从弓到箭：城市场景的滚动快门在CVPR中，第2773-2781页，2016年。1[26] Jaesung Rim ， Haeyun Lee ， Jucheol Won ， andSunghyun Cho.用于学习和基准去模糊算法的真实世界模糊数据集。在ECCV，第184-201页，2020年。5[27] Olivier Saurer 、 Kevin Koser 、 Jean-Yves Bouguet 和Marc Pollefeys。卷帘快门立体声。在CVPR，第465-472页，2013年。1[28] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在CVPR中，第8934-8943页，2018年。一、二、四[29] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。NeurIPS，第5998-6008页，2017年。3[30] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。在CVPR中，第7794- 7803页，2018年。3[31] 杨富志，杨欢，付建龙，卢洪涛，郭百宁.学习纹理Transformer网络实现图像超分辨率。在CVPR中，第5791-5800页，2020年。3[32] Zhihang Zhong ， Ye Gao ， Yinqiang Zheng ， and BoZheng.用于视频去模糊的高效时空递归神经网络。在ECCV，第191-207页，2020年。5[33] Zhihang Zhong，Yinqiang Zheng，and Imari Sato.动态场景中的卷帘快门校正和去模糊。在CVPR中，第9219-9228页，2021年。二五六七[34] Bingbing Zhuang ， Loong-Fah Cheong ， and Gim HeeLee.滚动快门感知的差分sfm和图像校正。在CVPR中，第948-956页，2017年。一、六、七[35] Bingbing Zhuang，Quoc-Huy Tran，Pan Ji，Loong-FahCheong，and Manmohan Chandraker.学习结构和运动感知卷帘快门校正。在CVPR中，第4551-4560页一、二、三、六

下载后可阅读完整内容，剩余1页未读，立即下载