核感知突发盲超分辨率网络及其在突发SR问题中的性能分析

63 浏览量更新于2023-10-15 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1↓核感知突发盲超分辨连文毅瑞典乌普萨拉大学信息技术系student.uu.se商联鹏计算机科学中国成都信息工程大学psl@cuit.edu.cn摘要突发超分辨率（Burst Super-resolution，SR）技术提供了从低质量图像恢复丰富细节的可能性。然而，由于实际应用中的真实世界低分辨率（LR）图像具有多种复杂且未知的退化，因此现有的非盲（例如，双三次）设计的网络在恢复高分辨率（HR）图像时通常遭受严重的性能下降。在本文中，我们解决的问题，重建HR图像从原始突发序列从现代手持设备。核心思想是一种内核引导的策略，可以通过两个步骤解决突发SR问题：核估计和HR图像恢复。前者从原始输入估计突发核，而后者基于估计的核预测超分辨率图像。此外，我们还引入了一个金字塔核感知的变形对齐模块，该模块可以有效地对齐原始图像，同时考虑模糊先验知识。在合成数据集和真实数据集上的大量实验表明，该方法在突发SR问题中具有良好的性能。1. 介绍随着内置智能手机摄像头的日益普及与单图像超分辨率（SISR）相比，MFSR可以提供来自子像素偏移的补充信息，避免混叠伪影和丢失细节[45，44]。通常，我们将多帧降级过程显式建模为：xi=（kiTiy）↓s+ηi，（1）其中y是原始HR图像，{xi}N是观察到的低分辨率图像突发。ki和Ti分别表示模糊核和场景运动变换。代表DBSR EBSR DeepREP我们的图1：我们提出了一个降级指导框架以处理真实世界数据集（顶行）和合成数据集（底行）两者上的突发超分辨率问题。所提出的方法优于现有的最先进的MFSR方法DBSR [4]，EBSR [40]和DeepREP [5]。我们的方法是有效的恢复边缘和细节。卷积运算，并且S是随后的具有比例因子S的下采样。ηi是独立于LR图像的高斯白噪声。大多数现有的MFSR方法假设模糊核是已知的（例如，双三次），并且对于所有帧[4，5，32，40]都相同。在此假设下，这些MFSR方法可以获得显着的性能，以搜索双三次下采样退化的最佳逆解然而，当应用于内核实际上是从相机的固有参数导出的真实世界应用时，它们经常遭受严重的性能下降，此外，多个模糊的输入将使恢复困难，并失去细节（见图。①的人。并且将双三次设计的模型传递到未知退化图像也是低效的。为此，我们更加关注处理多个未知模糊核的退化的模型，即突发盲SR。单图像盲SR在最近的工作中已经得到了很好的研究[61，58，18，2，38]，其通常需要顺序地估计模糊核（或其嵌入），然后恢复489224893基于核SR图像。然而，盲SR的整体优化通常是交替的、复杂的和耗时的[18，21]。当面对突发盲SR时，这样的问题可能甚至更严重，其中每个帧具有特定的模糊核和不规则的运动位移。到目前为止，很少有工作集中在盲属性的突发SR。常见的解决方案是直接在双立方设计的合成数据集上训练深度模型，然后在另一个真实世界的数据集上对其进行微调[4，15，40，32，43]。然而，由于降级总是传感器特定的，并且由智能手机（LR）和DSLR相机（HR）捕获的图像通常具有不同的质量和图像信号处理器（ISP），因此建立真实世界数据集是相当具有挑战性的在本文中，我们通过提出一种基于多帧降级模型（等式2）的内核感知原始突发SR方法来(1))，称为KBNet，它考虑到帧之间模糊内核的不一致性，可以使用合成数据学习实用的多帧超级解析器。KBNet由两个神经网络组成：核建模网络，其估计每个突发帧的模糊核;以及恢复网络，其通过融合所有帧的信息和相应的估计的核来预测超分辨率图像。为了充分利用来自核的退化信息，恢复网络采用自适应核感知块（AKAB）来提取去模糊的干净特征，并采用金字塔核感知可变形卷积（Pyramid KAD）模块来对齐和融合多个互补特征。我们的贡献总结如下：• 考虑到不同帧间的不一致退化，提出了一种新的基于内核的突发图像盲超分辨率网络KBNet，为实现真实世界的MFSR应用迈出了实质性的一步• 我们提出了一个基于退化的恢复网络，使用自适应核感知块和金字塔核感知变形对齐模块恢复基于模糊核的SR图像。• 大量的实验表明，该方法在各种合成数据集和真实图像上都取得了很好的效果。2. 相关工作2.1. 单幅图像超分辨率SISR是一个试图从其降级的低分辨率版本中恢复高分辨率图像的问题。在过去的几年里，许多基于神经网络的工作已经取得了巨大的性能增益超过trans-martSR方法[13，14，22，29，33，55，64，35，34]。自开创性工作SRCNN [13]以来，大多数后续工作都集中在优化网络架构[14，31，64，35，11]和损失函数[27，33，55，36]。这些方法由于其不适定性质而难以应用于现实世界的应用。2.2. 多帧超分辨率MFSR是一个活跃的领域，在过去的三十年里得到了很好的研究。Tsai和Huang [53]是第一个提出解决MFSR问题的人。他们建议在频域中利用帧之间的已知平移来恢复HR图像Peleg等[46]和Irani和Peleg [25]提出了一种迭代反投影方法，可以顺序估计HR图像并合成LR图像。后来的工作[1，17，20，47，19]改进了这种方法，使用最大后验（MAP）模型和正则化项。Takeda等[50，51]介绍了超分辨率和Wronski等人的核回归技术。[57]将其应用于融合对齐的输入帧。最近，一些作品[12，28，42]提出将深度学习纳入遥感应用中的MFSR问题。Bhat等人[4，3]介绍了一个真实世界的数据集，并提出了一种基于注意力的MFSR融合方法。他们进一步改进了模型，通过将MAP框架转换到深层特征空间来处理SR和去噪。Luo等人。[40，39]将可变形卷积引入MFSR，并显示其处理帧之间对齐的有效性Bruno等人[32]提出了一个有效的混合算法建立在[57]的见解。Akshay等人[15]建议创建一组伪突发特征，使得更容易学习所有帧的区别性信息。2.3. 盲超分辨率盲SR假设退化的模糊核不可用。近年来，盲SR问题由于其接近真实世界场景而引起了许多研究关注Zhang等人[61]首先提出提取高斯模糊核的主成分，并将其与LR拉伸和连接，以获得退化感知的SR图像。随后，Gu et al.[18]修改[61]中的策略，将内核嵌入与深度特征连接起来。Luo et al. [38] and Zhang et al.[60]提出将盲随机共振问题展开为一个可交替优化的两步序列解。Hussein等人[23]提出了一种封闭形式的校正滤波器，以将模糊的LR图像转换为双三次下采样的LR图像。Luo等人[37]将核重新表示为LR空间，然后应用反卷积来获得去模糊SR图像。此外，ZSSR [48，2]和MSSR [49]也可以应用于盲SR，其中训练作为测试时间进行，并且可以通过使用图像特定的降级来利用LR的内部信息。24894ConvAKABAKAB金字塔内核感知的可变形对齐逐行平均i=1ENi=1i=1R·E·k，y∈S2联系我们11ℰ&ℰn+1拉伸...+i拉伸1&11AKAB~��&×加...&我&原始爆发中国ℰ联系我们拉伸中国残余通道注意力阻滞N��…中国图2：我们的方法概述。输入是一组RAW连拍图像{x i}N . 我们预测模糊内核为每个通过一个简单的CNN网络，作为估计器。估计的内核通过PCA减少到嵌入，并馈送到自适应内核感知块（AKAB）组中以提取干净的特征。我们还将内核嵌入扩展到退化映射，以便将它们与干净的特征连接起来。然后，这些特征通过金字塔内核感知的可变形对准模块与参考帧对准。我们将这些对齐的特征与通道平均策略相融合，并使用残留通道注意块来重建SR结果。3. 方法本节介绍了拟议的KBNet用于原始突发盲超分辨率的主要技术。如图2，我们首先估计每一帧的模糊核，并通过印刷电路板获得其嵌入向量，UNR成分分析（PCA）。通过取LR帧和相应的退化核嵌入作为输入，我们可以使用多个自适应核感知块（AKAB）来提取干净的特征。然后，我们拉伸内核的退化地图，使功能和内核嵌入，丁可以连接起来，并发送到金字塔内核感知变形（KAD）对齐模块。之后，我们通过通道方式的平均来融合这些对齐的干净特征噪声ηi独立于LR图像xi。突发盲SR问题可以通过解决以下最大后验概率（MAP）问题来解决：argminΣ||xi−（ki<$Tiy）↓||2+（y）+（ki），（2）i=1其中，k（y）和k（k）是参数化的先验正则化子。由于多个帧的所有内核都是未知变量，因此整个问题非常困难和具有挑战性。受最近单图像盲SR [18，38]成功的启发，我们将此问题分解为两个连续步骤：老化操作，然后像传统SISR模型一样通过几个残余通道衰减块（RCAB）恢复HR图像[63]。ki=E（xi;θe）y=R（{xi，ki}N;θr），（三）3.1. 问题公式化给定同一场景的原始突发图像x iN，x iRh×w×1和比例因子s，我们的目标是提取并融合突发之间的互补信息，恢复出具有丰富细节的高质量图像 yRsh×sw×3。在我们的场景中，每个输入x i都是一个单通道的原始图像，而输出通常是RGB图像。突发SR的劣化被建模为Eq.（一）. 我们假设退化采用各向异性高斯核，其中（）表示预测原始突发的每个帧的核的核估计器，并且（）表示基于LR帧和估计的核来恢复HR图像θe和θr分别是估计器和恢复器的参数3.2. 核估计为了获得退化核并帮助SR模型产生视觉上令人愉快的图像，我们引入了一个估计来预测所有帧的模糊核。网络……AKABAKABAKABAKABAKABAKAB.24895··C·L我我我我我我我我我Σ||− E||N原始帧参考第三帧扭曲特征其中，γ（）和β（）表示缩放和移位函数，两者都由两个线性层组成，γ（exi，eki）=g（w2σ（w1C（exi，eki）），（6）β（ex，ek）=v2σ（v1C（ex，ek）），（7）31×31（一）（b）第（1）款其中（）表示跨通道维度的连接操作。 w1，w2和v1，v2分别表示γ和β的线性层。σ表示非线性激活（例如，ReLU），g表示sigmoid函数。图3：（a）核估计器的网络架构。(b)内核感知可变形（KAD）对齐模块。架构的估计是说明图。第3（a）段。它由三个简单的步骤组成：特征提取，全局平均池和整形操作。注意，作为广泛使用的核先验，我们在最后一层使用softmax函数，以便核可以求和为1。此外，我们使用地面真核作为强监督来优化估计器网络。目标是最小化估计的内核和地面真实值之间的1损失，θ e=arg minki（xi; θ e）1.（四）θei=1实际上，估计器的主体由3个残差块组成。整个网络是简单的，轻量级的，但有效的。由于估计的内核被发送到恢复器以帮助超分辨率图像。我们可以共同优化Eq。（4）与恢复器模型一起构造端到端盲突发SR训练方案。3.3. 自适应内核感知块（AKAB）大多数盲SR方法[61，18，38]倾向于将内核嵌入扩展到全尺寸退化图Ei，并将其与深度特征连接以提取有用的信息来预测SR图像。然而，这种策略通常效率低下且计算成本高[21]。在这项工作中，我们提出了自适应内核感知块（AKAB），它可以利用低维嵌入和统计信息（如每个特征的平均值）来提取深度信息特征。如图1的中心所示。2、先将LR特征发送到两个卷积层，然后通过全局平均池化层压缩到一维嵌入。之后，将特征嵌入exi与对应的核嵌入eki级联以执行剩余仿射注意机制，其被定义为：xout=γ（ex，ek）|xi+β（ex，ek）+xi，（5）#$#$&&ℱ&经纱ConvConv可变形曲线ConcatConv偏移ResBlock全球集中共用Softmax重塑&24896∈不∈O此外，移位网络β专注于通道信息的提取和聚合，我们合成了几个AKAB作为一个强大的特征提取器，以获得更干净的功能，隐式嵌入内核的退化信息。然后我们可以通过下面的内核感知对齐模块在特征级别对齐不同的帧。3.4. 金字塔核感知可变形对齐可变形卷积网络（DCN）[26，10，65]已经证明了其对齐多帧特征的有效性然而，在多降级场景中训练原始DCN是困难的，因为同一场景的不同特征可能具有不同的表现形式。因此，我们将退化信息引入到对齐过程中，作为内核感知的可变形卷积（KAD）模块，其可以帮助DCN学习准确的偏移而不受各种退化的影响KAD 模块。 KAD 对齐模块的概述如图所示。3（b）款。具体来说，我们首先简单地将简化的内核ekiR拉伸到退化映射E iRt×H×W。然后给定参考特征F ref，从第i个LR帧的输入特征Fi，我们将这些特征与它们对应的核嵌入映射Eref和Ei连接起来，以预测可变形偏移量O（Fref，Eref，Fi，Ei），（8）其中是偏移预测值。然后，我们可以通过扭曲F i和fi来获得对齐的特征[65]：Fi= warp（F i，fi）。（九）金字塔KAD。为了解决大的相机运动，我们进一步提出了一个金字塔对齐结构的KAD模块的顶部。具体地说，如图4，我们首先对所有特征和内核映射进行下采样，卷积层的步幅为1，2和4，以获得3个不同层次的金字塔。然后，我们执行对齐N突发帧的基础上，每个金字塔级别的KAD。对齐的金字塔特征被缩放为与最终对齐特征相同的大小并融合。通过这样做，我们可以有效地24897−1θri=1#$#$内核映射#$参考帧...1孔弗斯LL1孔弗斯L/KADKAD偏移熔丝系列上采样×2KADN突发帧上采样×4N对齐特征图4：金字塔内核奖可变形对齐模块。从L1层开始，我们使用KAD将所有特征与参考对齐，并且将预测的偏移发送到下一层以与特征连接以改善偏移估计。然后对每个级别从多幅图像中聚合多尺度信息，重建具有丰富细节的SR根据经验，我们选择第一个框架作为参考。3.5. 融合与重建一旦特征全部对齐，我们就可以将各个帧中的信息组合起来，生成具有丰富细节的合并特征。与之前在融合中使用基于注意力的权重[4]或递归操作[12]的工作不同，我们采用了有效的通道平均融合策略，如图所示。2.平均特征有两个主要优点：首先，该操作是快速的，并且允许我们在训练和推理中使用任意数量的帧。其次，由于输入是有噪声的，平均所有帧可以减少额外的噪声作为一个传统的降噪。基于融合后的特征，我们可以利用先进的超分辨率网络对结果进行重构.实际上，我们采用残留通道注意块（RCAB）[63]作为重建主体。该OB-SR重构网络的目标函数通过L1损失定义θr=argmin||y−SR（{xi}N;θr）||1 .一、（十）两个轴的核宽度在范围[0. 6、5]。我们还将核旋转一个均匀分布在[π，π]中的角度。RAW突发图像通过随机平移和旋转高质量sRGB图像，并使用从上述过程生成的内核对其进行模糊和下采样来合成，如等式：（一）.在RAW空间中，我们添加了来自泊松-高斯分布的噪声，σ为0.26。然后，我们使用反向相机管道将低质量图像转换为RAW格式[6]。测试集是通过在[24]中验证集的1204个HR图像上应用各向异性高斯核来生成的，其中不同的核宽度范围为[0. 0，1。6]，[1. 六三2]和[3. 二、四。[8]。我们分配不同的随机种子值，以确保为不同的图像选择不同的模糊内核。PSNR、SSIM [56]和学习感知得分LPIPS [62]用作合成数据集的评估指标。真实世界的数据集。对于真实世界图像评估，我们使用BurstSR数据集[4]，其包含分别由手持智能手机相机和DSLR相机捕获的真实世界连拍图像和对应的地面实况HR图像对该数据集中的每个突发包含14个原始图像并裁剪为160×160。我们的表现超-为了避免内核不匹配的现象[61，18]，我们以端到端的方式联合优化估计器和重建模块。4. 实验4.1. 数据集和实现合成数据集。我们的方法在Zurich RAW上训练到RGB数据集[24]，该数据集由46，839个HR图像组成。对于合成设置，我们专注于各向异性高斯内核。在[2]之后，我们固定模糊核大小在所有实验中，通过比例因子为4的分辨率请注意，地面实况图像与RAW输入没有很好地对齐，因此我们采用对齐的PSNR、SSIM和LPIPS作为评估指标，如[4]所示。培训详情。我们在上述合成数据集上训练了300个时期的KBNet作为一种常见的实践，我们在真实世界的数据集上对训练模型进行了40个epoch的微调在训练期间，突发大小固定为N= 8，批次大小为16。我们使用 Adam [30] optimizer ，其中 β1=0.9 ，β2=0.999，β 2=10−8。学习率初始化为0.0002，然后每隔ℱi ℱN24898方法AKAB RCAB KAD金字塔KAD合成现实世界PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓KBNet-A’’’35.24 0.8927 0.1751KBNet-B✓’’’36.530.90670.142247.610.98180.0302KBNet-C✓ ✓’’36.740.91420.138347.680.98210.0298KBNet-D✓ ✓✓’36.870.91850.129047.870.98300.0278KBNet-E✓ ✓✓✓37.290.92190.120348.270.98560.0248表1：我们主要组件的消融研究。基线是一个多帧SR网络，采用正常的可变形卷积帧对齐和重建SR结果由几个残差块。一百个纪元。我们的模型由PyTorch框架和2个Titan XpGPU实现。4.2. 消融研究在本节中，我们进行消融研究，以分析拟议框架的主要组成部分的影响：自适应内核感知块（AKAB）、内核感知可变形卷积（KAD）和金字塔KAD。此外，我们还对RCAB的相关问题给予了关注为了方便地说明每个模块的优越性，我们实现了一个基线模型（KBNet-A），它只包含一个恢复器，该恢复器采用正常的DCN作为对齐模块，并使用残差块进行特征提取和HR图像重建。所有的方法进行了评估的合成数据和实际数据。基线和我们的方法与不同模块（KBNet-B至KBNet-E）之间的比较报告见表1，从中我们有以下观察结果。首先，AKAB模块通过考虑多个退化信息来提取有用的特征与基线相比，使用AKAB的模型在合成数据集上改进了约1.3+ dB，在真实数据集上改进了约0.4dB。其次，在对准过程中，退化和多尺度信息也是必不可少的。通过利用多尺度特征和内核映射，PyramidKAD即使在突发帧噪声和模糊的情况下也能获得令人印象深刻的性能。第三，尽管RCAB在合成数据集上表现良好，但在现实世界数据集上进行微调时，改进是渐进的，这进一步证明了AKAB和金字塔KAD是我们工作的关键贡献。我们还重新训练了 EDVR [54] 模型和我们的KBNet，其中包含数据集上的金字塔，级联和可变形（PCD）结果示于表2中。与建议的金字塔KAD，我们的模型可以执行对齐与退化信息在每个金字塔级别，这导致了重要的改进。方法合成现实世界PSNR ↑SSIM ↑LPIPS ↓PSNR ↑SSIM↑LPIPS ↓EDVR [54] 36.340.9060.13847.480.982零点零三一KBNet+PCD37.020.9200.124 48.140.9840.026KBNet+金字塔KAD37.290.9220.120 48.270.9860.025表2：我们的方法与EDVR的比较。4.3. 与最先进方法的我们将KBNet与其他最先进的基于学习的原始突发SR 方法进行比较，例如 DBSR [4] ， EBSR [40] 和DeepREP [5]。DBSR和DeepREP都是由Bhat等人提出的。[4，5]。前者使用具有基于注意力的融合的基于流的对准网络来处理原始突发输入。后者采用了一个深刻的重新参数化的MAP来解决图像重建问题。EBSR是NTIRE21突发超分辨率挑战赛的优胜者[3]。所有这些方法都是从他们的官方代码库中实现的，并在Sec. 4.1.我们还微调这些模型，并在现实世界的数据集上进行评估。所有方法的突发大小都固定为14。此外，我们还比较了单图像盲SR模型DAN [38]，该模型估计了第一个突发帧的内核，并恢复了以该内核和第一个LR帧为条件的HR图像。请注意，DAN采用迭代预测策略，并选择在重建中拉伸内核嵌入，与IKC [18]相同。综合数据评价。首先，我们在第二节中介绍的合成数据集上评估所提出的KBNet。4.1.定量结果示于表3中。我们的方法取得了最好的结果，并显着优于其他突发超分辨率方法。如表所示，所有MFSR方法都优于DAN [38]，在范围[1]中的内核宽度上有3+ dB的巨大改进。六三2]在PSNR方面。这些MFSR方法在恢复过程中没有显式地利用退化信息，因此在面对复杂退化时无能为力。相比之下，建议KBNet显着优于其他MFSR方法在所有内核宽度范围。的24899方法σ=[0，1. 6]σ=[1. 六三2]σ =[3. 二、四。第八节]PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓张先生[38] 33.38 0.8543 0.1712 32.69 0.8321 0.2210 31.98 0.8255 0.2688DBSR [4]35.520.90860.130035.940.90150.162533.340.86330.2730EBSR [40]35.670.91560.114936.390.90950.143433.570.86730.2669DeepREP [5]36.460.92330.110436.260.90820.151033.490.86640.2721KBNet（我们的）37.430.93140.096737.270.91720.123735.280.89240.1941表3：我们的方法与现有MFSR方法在合成测试数据集上的比较，比例因子为4。核宽度σ被分成三个范围。‘*’means it is a single image blind super-resolutionLR的第一DBSREBSRDeepREP我们的地面实况图5：我们的方法与其他MFSR方法在合成数据集上的定性比较。LR的第一DBSREBSRDeepREP我们的地面实况图6：我们的方法与其他MFSR方法在真实世界BurstSR数据集上的定性比较定性比较如图所示。5. KBNet产生的超分辨率图像具有丰富的细节和视觉效果，证明了该方法的优越性，并表明将退化信息纳入恢复有助于获得信息特征，从而改善SR结果。对真实世界数据的评估。现在，我们进行评估模型的实验，这些模型在合成数据集上进行了预训练，并在真实世界的数据集上进行了微调。请注意，真实世界图像的地面真实内核不可用，这是KBNet在内核估计学习过程中所需要的。或者，我们冻结内核估计器，只微调图像恢复器。定量结果示于表4中。正如我们所看到的， DeepREP [5]的性能明显优于 DBSR [4]和EBSR [40]，但仍然不如拟议的KBNet。真实世界图像的视觉比较如见图6。显然，由KB- Net产生的结果在边缘和细节方面具有良好的感知质量，并且对真实世界的噪声具有鲁棒性。4.4. 核函数和帧数目的分析。我们假设突发序列的所有帧由智能手机在突发拍摄模式下捕获，其中可以通过握手或不同的拍摄参数产生不同的退化内核。估计内核的可视化示例如图所示。7.在合成环境下，我们的方法可以准确地估计大多数核，这有助于我们恢复HR图像。对于真实世界的图像，退化内核应始终遵循高斯分布，这取决于每个像素处的深度和相机的焦距[9]。因此，我们的方法更倾向于生成一些类似高斯的核，尽管核估计器没有被优化以拟合真实的核。24900KBNetDBSR深度代表↑ ↑↓第1个左后车架SR GT第1个LR框架SR GT合成数据集3736真实世界数据集483547344733322 4 6 8 10 1214帧数462 4 6 8 10 12 14帧数(a) 合成图像（b）真实世界图像图7：估计的内核和超分辨率图像的（a）对应的合成图像的前6个核。内核的顶行是估计内核，内核的第二行是地面实况内核。(b) 对应实像的前12个核。方法 [38]第三十八话 DBSR [4] EBSR [40] [5]第五届中国国际汽车工业展览会PSNR↑ 46.18 47.48 47.25 48.1548.27沪公网安备31010502000114号LPIPS↓ 0.0389 0.0326 0.0356 0.02650.0248表4：所提出的方法与现实世界BurstSR×4数据集。方法PSNR SSIM LPIPSKBNetw/o使用内核47.54 0.98240.0299表5：真实世界数据集上的不同内核策略数据集。表5中的实验表明，估计的内核也可用于恢复HR图像。此外，我们研究了多帧的影响，并比较KBNet与其他MFSR方法。这里我们PSNR的结果如图所示。8.随着帧数目的增加，所有MFSR方法都可以获得更高的性能。所提出的KBNet在所有帧和数据集上都优于其他方法。4.5. 综合模型转换该实验的动机是，为真实世界的摄影应用制作成对的SR数据集是非常具有挑战性的，因为LR图像和GT通常是从不同的设备捕获（例如，智能手机和DSLR相机）。图像质量和颜色的不匹配将使得训练跨模态的SR模型极其困难。在这种情况下，我们希望只在多重退化环境中训练模型，并将其直接应用于真实场景，这似乎是一个零镜头传输问题。为了说明这一思想，我们提供了双三次退化和盲转移模型图8：不同MFSR方法在不同帧数的合成和真实数据集上的PSNR性能比较。方法双三次退化盲退化PSNR↑SSIM↑LPIPS↓ PSNR↑ SSIM↑ LPIPS↓[4]第四季第14集0.9670.07945.18（+0.53） 0.974（+0.007）0.048（-0.031）[40]第四十话0.9630.08244.96（+0.64） 0.970（+0.007）0.048（-0.034）DeepREP [5]44.800.9680.08045.39（+0.59） 0.974（+0.006）0.045（-0.035）KBNet（我们的）-45.68 0.979 0.042表6：将模型从不同合成环境转移到真实世界图像的定量结果。每个指标的改进都用颜色标记。表6中的降解。在多重退化环境下，所有MFSR方法都能获得比双三次训练模型更高的性能。该方法的性能明显优于其他方法，并且在真实图像上可以产生视觉上令人愉快的结果，这表明即使KBNet是在合成图像对上训练的，它仍然有能力推广到实际应用中的图像。5. 结论在本文中，我们提出了一个新的框架，命名为KB-Net，以处理多帧的超分辨率问题，考虑到多种复杂的退化。所提出的突发盲超分辨率任务与现实世界的应用高度相关。为了解决这个问题，我们引入了一个基于内核的多帧恢复网络，它包括一个自适应内核感知块（AKAB）和一个金字塔内核感知可变形（金字塔KAD）对齐模块。模糊核首先由估计器估计，然后馈送到LR特征提取模块以及特征对准模块以生成超分辨率清晰图像。所提出的方法可以在合成数据集上进行端到端训练，并在合成图像和真实图像上进行评估。实验结果表明，该方法在各种退化情况下都能取得较好的性能，有利于实际设备应用。致谢感谢连燕青、郑友琴、连文静、连景源和罗紫薇对本工作的无私支持和帮助。我们也感谢匿名评论者帮助改进我们的工作。KBNetDBSR深度代表PSNRKBNet，固定高斯核48.120.98380.0264KBNet，估计核48.270.98560.024824901引用[1] Benedicte Bascle，Andrew Blake，and Andrew Zisserman.序列图像的运动去模糊和超分辨率。欧洲计算机视觉会议，第571-582页。Springer，1996.[2] Sefi Bell-Kligler、Assaf Shocher和Michal Irani。使用内部增益的盲超分辨率核估计。在H. Wallach ， H.Larochelle 、 A.Beygelzimer ， F.d'Alché-Buc，E. Fox和R. Garnett，编者，《神经信息处理系统进展》，第32卷。Curran Associates，Inc. 2019年。[3] Goutam Bhat，Martin Danelljan，and Radu Timofte. Ntire2021突发超分辨率挑战：方法和结果。在IEEE/CVF计算机视觉和模式识别集，第613[4] Goutam Bhat ， Martin Danelljan ， Luc Van Gool ， andRadu Timofte.深爆超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第9209-9218页[5] Goutam Bhat，Martin Danelljan，Fisher Yu，Luc VanGool，and Radu Timofte.多帧超分辨率和去噪的深度重新参数化。IEEE/CVF计算机视觉国际会议论文集，第2460-2470页，2021年[6] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen，Dillon Sharlet，and Jonathan T Barron.不处理图像以进行学习的原始去噪。在IEEE/CVF计算机视觉和模式识别会议论文集，第11036-11045页[7] Kelvin CK Chan，Xintao Wang，Ke Yu，Chao Dong，and Chen Change Loy.了解视频超分辨率中的可变形对齐。arXiv预印本arXiv：2009.07265，4：3，2020。[8] Kelvin CK Chan，Shangchen Zhou，Xiangyu Xu，andChen Change Loy. Basicvsr++：通过增强的传播和对齐来提高视频的超分辨率 . arXiv 预印本 arXiv ：2104.13371，2021。[9] Subhasis Chaudhuri和大使N Rajagopalan。离焦深度：真实孔径成像方法。Springer Science Business Media，1999.[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[11] Tao Dai，Jianrui Cai，Yongbing Zhang，Shu-Tao Xia，and Lei Zhang.二阶注意力网络用于单幅图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议集，第11065-11074页[12] Michel Deudon，Alfredo Kalaitzis，Israel Goytom，MdRi- fat Arefin ， Zhichao Lin ， Kris Sankaran ， VincentMichal- ski ， Samira E Kahou ， Julien Cornebise ， andYoonge Bengio. Highres-net：卫星影像多帧超分辨率递归融合。arXiv预印本arXiv：2002.06460，2020。[13] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang. 学习图像的深度卷积网络超分辨率在欧洲计算机视觉会议上，第184-199页。Springer，2014.[14] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence，38（2）：295[15] Akshay Dudhane、Syed Waqas Zamir、Salman Khan、Fahad Khan和Ming-Hsuan Yang。突发图像恢复与增强。arXiv预印本arXiv：2110.03680，2021。[16] Netalee Efrat ， Daniel Glasner ， Alexander Apartsin ，Boaz Nadler，and Anat Levin.精确的模糊模型与单个图像超分辨率中的图像在IEEE计算机视觉国际会议论文集，第2832-2839页[17] Michael Elad和Arie Feuer从多幅模糊、噪声和欠采样的测量图像中恢复单个超分辨率图像IEEE图像处理学报，6（12）：1646[18] 顾金金、韩南路、左王梦、朝东。基于迭代核校正的盲超分辨率算法。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[19] Russell C Hardie，Kenneth J Barnard，John G Bognar，Ernest E Armstrong，and Edward A Watson.由旋转和平移帧序列重建高分辨率图像及其在红外成像系统中的应用。光学工程，37（1）：247[20] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3897-3906页[21] Zheng Hui，Jie Li，Xiumei Wang，and Xinbo Gao.学习盲超分辨的不可微优化。在IEEE/CVF计算机视觉和模式识别会议论文集，第2093- 2102页[22] Zheng Hui，Xiumei Wang，and Xinbo Gao.通过信息提取网络实现快速准确的单幅图像超分辨率在IEEE计算机视觉和模式识别会议论文集，第723-731页[23] Shady Abu Hussein Tom Tirer和Raja Giryes单图像超分辨率校正滤波器：Robustifying现成的深度超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第1428-1437页[24] Andrey Ignatov，Luc Van Gool，and Radu Timofte.用单一的深度学习模型取代移动摄像头ISP。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第536[25] Michal Irani和Shmuel Peleg。通过图像配准提高分辨率。CVGIP：图形模型和图像处理，53（3）：231[26] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，2015年28日。24902[27] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[28] MichalKawulok、PawelBenecki、KrzysztofHrynczenko、Daniel Kostrzewa、Szymon Piechaczek、Jakub Nalepa和Bogdan Smolka。深度学习用于从多个图像进行快速超分辨率重建。实时图像处理和深度学习2019，第10996卷，第109960 B页。国际光学与光子学会，2019。[29] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第164

下载后可阅读完整内容，剩余1页未读，立即下载