相机镜头超分辨率：从相机角度研究相机超分辨率，减轻分辨率和视场之间的权衡，并通过学习逆转R-V退化，提升现有SR方法性能

44 浏览量更新于2023-10-17 收藏 14.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116520相机镜头超分辨率0中国科学技术大学长晨熊志伟田新梅查正军吴锋0摘要0现有的单图像超分辨率（SR）方法通常使用双三次或高斯降采样等合成退化模型进行评估。本文从相机镜头的角度研究了相机超分辨率（CameraSR），旨在减轻现实成像系统中分辨率（R）和视场（V）之间的固有权衡。具体而言，我们将R-V退化视为SR过程中的潜在模型，并学习如何通过真实的低分辨率-高分辨率图像对来逆转它。为了获得配对图像，我们分别针对两种代表性成像系统（即单反相机和智能手机相机）提出了两种新的数据采集策略。基于获得的City100数据集，我们定量分析了常用的合成退化模型的性能，并展示了CameraSR作为提升现有SR方法性能的实用解决方案的优越性。此外，CameraSR可以轻松推广到不同的内容和设备，成为现实成像系统中的高级数字变焦工具。01. 引言0单图像超分辨率（SR）是计算机视觉中的典型逆问题。通常，SR方法假设双三次或高斯降采样为退化模型[33]。基于这个假设，已经取得了持续的进展，从低分辨率（LR）图像恢复出更好的高分辨率（HR）图像，无论是在重建精度[9, 13, 15, 17, 23, 25, 27, 31, 32, 35, 36]还是感知质量[2, 3, 5, 12, 16, 22,28]方面。然而，这些合成退化模型可能与现实成像系统中的模型不同，这导致了SR性能的显著恶化[20]。为了更好地模拟具有挑战性的真实世界条件，我们将噪声、运动模糊和压缩伪影等附加因素集成到合成[26]或数据驱动[4]的LR图像中。这些修改后的退化模型促进了基于学习的SR方法在LR图像确实具有相应退化时的性能。本文从相机镜头的角度研究了相机超分辨率（CameraSR），旨在减轻现实成像系统中分辨率（R）和视场（FoV，以下简称V）之间的固有权衡。图1（a）展示了R-V权衡的一个实例。当在单反相机中放大光学镜头时，获得的图像具有更大的视场，但会丢失主体的细节；当缩小镜头时，主体的细节会显示出来，但视场会减小。当拍摄距离发生变化时，这种R-V权衡也适用于智能手机等具有固定焦距镜头的相机。受基于学习的单图像SR的启发，我们将R-V退化（即由于放大视场而导致的分辨率损失）视为SR过程中的潜在模型，并学习如何通过一系列低分辨率-高分辨率图像对来逆转它。具体而言，我们将以长焦距或近距离拍摄的主体定义为HR真值，将以短焦距或远距离拍摄的相同主体定义为其配对的LR观察。为了获得这样的配对图像，我们首先使用安装在三脚架上的单反相机和变焦镜头。为了避免失焦模糊，我们采用小光圈大小进行拍摄。0� 通讯作者：zwxiong@ustc.edu.cn0(b) 图1. (a)分辨率-视场（R-V）退化。在单反相机中放大光学镜头，视场随之增大，但分辨率会下降。(b)矫正后的真实低分辨率-高分辨率图像对。为了进行对比，低分辨率图像经过插值后显示在一起。（本文中除非另有说明，均使用双三次插值。）0我们首先使用安装在三脚架上的单反相机和变焦镜头。为了避免失焦模糊，我们采用小光圈大小进行拍摄。16530（a）HR真实值PSNR0（b）双三次降采样 28.56dB0（c）R-V退化 27.22dB0图2.LR图像与具有R-V退化的真实LR图像（两者均在插值后显示）之间的视觉比较。与HR真实值相比，后者在视觉上比前者丢失了更多的信息，这也通过PSNR进行了定量验证。0以100个城市场景的明信片作为主题，可以在不同的焦距下进行良好的对焦。然而，在实践中，由于机械变焦的限制，包括空间错位、强度变化和颜色不匹配等问题，直接使用捕获的原始数据是不可行的。通过一个精心设计的数据校正流程解决了这些问题后，我们构建了一个包含100个对齐图像对的数据集，名为“City100”。示例如图1（b）所示。按照相同的流程，我们使用安装在平移台上的智能手机相机和固定焦距镜头获得了City100的变体。City100数据集及其智能手机版本共同描述了两个代表性现实成像系统中的R-V退化。基于City100，我们对常用的合成退化模型进行了定量分析，包括LR观测和SR结果。以双三次降采样为例，由于对R-V退化的低估（如图2所示），它导致SR性能的显著恶化（如图3所示）。这个分析验证了在现实成像系统中进行退化建模对于分辨率增强的重要性。观察到合成退化模型的缺点，我们提出了CameraSR作为现有SR方法性能提升的实际解决方案，通过从City100中学习R-V退化。全面的实验证明，与使用合成退化模型的方法相比，CameraSR在SR结果上取得了显著的改进。更重要的是，我们证明了CameraSR在内容和设备方面具有良好的泛化能力。具体而言，在City100上训练的SR网络可以轻松泛化到其他场景内容，以及属于相同成像系统类别的其他类型设备（例如，从尼康到其他DSLR相机，从iPhone到其他智能手机）。通过有效地减轻R-V权衡甚至打破物理变焦的光学镜头的比例，CameraSR在实践中可以找到广泛的应用，成为先进的数字变焦工具。本文的贡献总结如下：0（a）（b）（c）（d）0图3.一个示例，展示由于不恰当的退化建模（这里是双三次降采样）导致的性能恶化。（a）由DSLR相机拍摄的图像。（b）插值结果。（c）使用在双三次降采样下训练的VDSR[13]的SR结果。（d）使用在R-V退化下训练的VDSR的SR结果。0在现实成像系统中，通过学习City100中的R-V退化，CameraSR提供了一种实际解决方案来提升现有学习型SR方法的性能。0•在现实成像系统中，使用相机镜头的R-V退化视角进行SR建模的新视角。0•两种获取LR-HR图像对的新策略，即分别在DSLR和智能手机相机下使用City100来描述R-V退化。0• 使用真实数据对常用的合成退化模型进行定量分析。0•一种有效的解决方案，即CameraSR，用于提升现实成像系统中现有的基于学习的SR方法。02. 相关工作0近年来，单幅图像SR取得了显著的改进。为了提高重建精度，越来越多的基于学习的方法采用卷积神经网络（CNN），这是在SRCNN[6]的开创性工作之后。例如，Kim等人提出了VDSR[13]，通过残差学习来加深网络以提高准确性。Lai等人提出了LapSRN[15]，通过Laplacian金字塔结构在大尺度因子上改善SR结果。此外，还将各种机制集成到网络设计中以提高SR性能，如稀疏性[30]、连续内存[36]、深度监督[27]、递归[14,25]、反投影[9]、信息蒸馏[10]和注意力[35]。与上述方法不同，Ledig等人提出了SRGAN[16]，它针对感知质量而不是重建准确性进行优化。沿着这条线，Sajjadi等人提出了EnhanceNet[22]，它通过感知损失提高纹理合成的质量。Wang等人16540Shocher等人提出了SFTGAN[28]，它将空间特征变换层集成到GAN[8]中，以进一步提高SR性能。然而，大多数现有的基于学习的方法在制定SR问题时采用了合成降级模型（例如双三次或高斯下采样），这在具有更复杂降级的现实成像系统中阻碍了它们的性能。有一些工作涉及单幅图像SR的真实降级建模。例如，Timofte等人在双三次下采样的LR图像中引入了更多的降级操作，包括运动模糊和泊松噪声[26]。Bulat等人使用低质量假设（例如噪声、模糊和压缩伪影）定义了LR人脸图像，并训练了一个GAN[8]来学习降级过程[4]。另一方面，作为一种基于自相似性的方法，Michaeli和Irani根据输入图像的内在重复性自适应地估计降级模型[20]。Shocher等人进一步优化了一种图像特定的CNN，仅使用从输入图像中提取的示例进行训练[23]。与上述方法不同，我们提出的CameraSR从相机镜头的角度对R-V降级进行建模。R-V降级的估计既不依赖于低质量假设，也不依赖于LR图像的内在重复性。相反，它是通过使用真实成像系统捕获的样本来表征的。这种降级建模受到了用于真实图像去噪的先前工作的启发，其中以高ISO值拍摄的主体被定义为噪声，以低ISO值拍摄的主体被定义为清晰。我们将这个定义扩展到SR场景，解决了获取真实LR-HR图像对的关键挑战。请注意，本文的重点不是网络设计。为了比较目的，我们采用VDSR [13]和SRGAN[16]作为两个代表性的实现方式，以展示CameraSR的有效性和通用性，可以用任何基于CNN的方法替代它们。03. 问题表述0再次考虑使用具有光学变焦镜头的数码单反相机拍照。放大镜头会导致主体上的分辨率损失，但视场变大。将这种R-V降级表示为 D RV ( ∙ ) ，我们的目标是获得一个反转 D RV (∙ ) 的函数 S ( ∙ )，以实现真实图像的超分辨率。这个问题可以表示为0ˆ X = S ( D RV ( X ))，(1)0其中 X 表示原始图像，ˆ X表示超分辨率图像。与之前的SR公式相比，唯一的区别在于降级过程的建模。例如，双三次下采样 D Bic ( ∙ )将SR问题建模为 ˆ X = S ( D Bic ( X ))0高斯下采样为 ˆ X = S ( D Gau ( X))。对于[26]中施加的更复杂的降级模型，它是 ˆ X = S ( DBlur ( D Bic ( X )) + v )，其中 D Blur ( ∙ )表示模糊操作符，v表示某种噪声。与上述合成降级模型不同，很难为 D RV ( ∙)推导出一个解析表达式。受到基于学习的SR的启发，我们将R-V降级视为SR过程中的潜在模型 ˆ D RV ( ∙ )，并直接学习参数化的SR函数 S Θ ( ∙ ) ，使用 N对真实LR（Y = {Y1，Y2，...，YN}）和HR（X ={X1，X2，...，XN}）样本表示，可以表示为 ˆ X = S Θ ( ˆ DRV ( X ))，(2)0其中 ˆ D RV ( ∙ ) 是满足 Y = ˆ D RV ( X )的函数。随着样本数量 N 的增加，我们有 ˆ D RV ( ∙ ) → DRV ( ∙ ) 。然后，可以使用损失函数 L ( ∙ ) 对 S Θ ( ∙ )进行优化。0minΘ 1 n0n0i =1 L ( X i - S Θ ( Y i ))，(3)0其中 Θ 表示一组可训练参数，n表示在使用随机梯度下降算法优化 Θ时的小批量大小。这是CameraSR的主要思想，在第5.2节中将详细介绍。虽然问题的表述非常直观，但关键挑战在于如何在现实成像系统中获得LR-HR图像对。04. 数据采集04.1. 单反相机成像系统0为了捕捉真实的LR-HR图像对，我们使用一台安装在三脚架上的尼康D5500相机，配备了一个焦距从18mm到55mm的变焦尼克尔镜头。我们将在55mm焦距下拍摄的图像定义为HR真实值，而在18mm焦距下拍摄的图像定义为LR观察值。为了减少噪声的影响，ISO值被设置为最低水平。其他设置，如白平衡和光圈大小，对于每次拍摄都是固定的。然而，在实践中，我们观察到一些问题，禁止直接使用捕获的原始数据，包括空间错位、强度变化和颜色不匹配。这可能是由于焦距的变化是一个无法理想控制的机械过程。因此，它导致相机机身和曝光配置的轻微抖动。为了解决这些问题，我们设计了一个数据校正流程。首先，我们将空间错位建模为受[11]启发的全局2D平移。具体而言，我们计算并匹配HR图像和插值的LR图像之间的SIFT关键点[18]。然后，使用匹配的坐标使用RANSAC [7]估计单应性。AB1https://www.procamapp.com16550图4.颜色校准。从每个颜色块中获得的平均值用于拟合三个多项式曲线(c)，以进行颜色校准，从LR观察(a)到其HR真实值(b)。0有了平移参数，我们通过插值将LR图像移位以获得对齐的结果。注意，插值会引入一些平滑效果，但对于已经插值的包含相对较少高频的LR图像来说，这并不是关键。我们避免移动HR图像，因为它们包含了许多所需的细节。其次，我们将强度变化建模为图像的直流分量中的偏差，并通过对整个图像的像素强度求平均来估计它。然后，我们使用估计的偏差来补偿这种变化。第三，我们将颜色不匹配建模为参数化的非线性映射，并使用多项式参数对其进行校准，通过利用一个颜色棋盘图，如图4所示。具体而言，我们收集并平均每个块中的像素值，从LR观察到其HR真实值中获得配对样本。然后，我们分别使用收集的样本拟合R、G和B通道的三个多项式曲线。最后，我们使用获得的多项式曲线映射LR观察中的像素。在进行了上述数据校正之后，我们使用单反相机构建了一个City100数据集，其中100个城市场景被采用为对象，并以高质量明信片的形式打印。明信片的平面形状保证了整个图像在小光圈下的长焦和短焦长度都能够很好地聚焦，避免了失焦模糊。City100中最终HR图像的分辨率为1218×870，是LR图像的2.9倍。City100的图像具有多样的颜色和内容，有利于基于学习的超分辨率。City100数据集的概述在补充文件中展示。04.2. 智能手机成像系统0与专业单反相机中的变焦镜头不同，普通智能手机相机通常配备的是焦距无法改变的定焦镜头。从这个意义上讲，对于智能手机来说，现实的退化建模甚至更有意义，其中CameraSR可以作为强大的数字变焦工具。然而，受限于固定焦距镜头，智能手机相机的LR-HR图像对不能采用与单反相机相同的策略进行捕捉。作为替代，我们开发了另一种策略来获取City100的智能手机版本。0图5.智能手机版本City100的采集策略。将智能手机从主体移开（从A到B），由于视场的扩大，有效分辨率降低（R-V退化）。0如图5所示。我们使用一个安装在平移台上的iPhoneX进行数据采集，并且可以精确调整iPhone相对于平移台的位置。我们将在短距离拍摄的图像定义为高分辨率（HR）的真实图像，而在长距离拍摄的图像定义为低分辨率（LR）的观察图像。为了避免智能手机本身的“智能”曝光配置，我们使用ProCam1软件手动控制ISO、白平衡、曝光时间等设置。智能手机的数据校正流程与DSLR相似，如第4.1节所述。此外，考虑到智能手机图像由于传感器尺寸较小而具有明显更重的噪声，我们重复每个场景的拍摄20次，并对得到的图像进行平均处理以减轻噪声的影响。最终的高分辨率图像的分辨率是低分辨率图像的2.4倍。值得一提的是，City100数据集及其智能手机版本是通过两种代表性的真实成像系统获得的，即DSLR和智能手机。尽管这里使用的是两个具体的设备，即Nikon D5500和iPhoneX，但训练的CameraSR网络具有良好的泛化能力，并且可以轻松应用于属于同一类成像系统的不同设备（如第6.2节所述）。0在本节中，我们的目标是定量分析常用的合成降级模型DBic(∙)和DGau(∙)与基于我们开发的City100数据集的真实R-V降级DRV(∙)之间的性能。由于DRV(∙)没有解析表达式，直接进行比较是困难的。因此，我们转而进行相应的低分辨率观察和超分辨率结果的定量比较。05. 降级模型分析0给定City100中的高分辨率图像X，通过D Bic(X)，DGau(X)和DRV(X)（即City100中的配对图像Y）获得低分辨率观察。如图2所示，D Bic(∙)低估了降级程度05.1. LR 观察0测试图像插值低分辨率双三次超分辨率高斯超分辨率相机超分辨率PSNR / SSIM / Ma’s / VGGPSNR / SSIM / Ma’s / VGGPSNR / SSIM / Ma’s / VGGPSNR / SSIM / Ma’s / VGGSt. Petersb.28.74 / 0.8630 / 3.58 / 0.854329.69 / 0.8874 / 5.05 / 0.775629.61 / 0.8934 / 6.16 / 0.701931.00 / 0.9116 / 6.58 / 0.4791Dubai30.21 / 0.8443 / 3.37 / 0.565030.91 / 0.8599 / 4.73 / 0.419330.71 / 0.8603 / 5.86 / 0.385631.94 / 0.8788 / 6.74 / 0.3390Venice26.52 / 0.7317 / 3.58 / 0.965427.25 / 0.7686 / 4.43 / 0.825427.21 / 0.7813 / 5.93 / 0.779828.19 / 0.8062 / 6.71 / 0.6167Rome30.65 / 0.8654 / 3.60 / 0.382531.45 / 0.8806 / 4.77 / 0.362530.99 / 0.8768 / 6.17 / 0.352533.04 / 0.9039 / 6.68 / 0.2891New York24.62 / 0.7520 / 3.83 / 1.180825.55 / 0.7921 / 4.85 / 1.152826.06 / 0.8113 / 5.85 / 1.134527.14 / 0.8416 / 6.76 / 0.8381LMSE = ||SΘ(D(x)) − x||22,(4)LComb = LMSE + LV GG + 10e−3LGen,(5)LV GG = ||φ(SΘ(D(x))) − φ(x)||22,(6)LGen = −logDΘ′(SΘ(D(x))),(7)16560平均 28.15 / 0.8113 / 3.59 / 0.7896 28.97 / 0.8377 / 4.77 / 0.7071 28.92 / 0.8446 / 5.99 / 0.6709 30.26 / 0.8684 / 6.69 / 0.51240表1. City100五个测试图像的超分辨率定量结果（如图7所示）。采用PSNR和SSIM [29]（数值越高越好）评估重建准确性（VDSR[13]网络）。采用Ma's指标[19]（数值越高越好）和VGG指标（数值越低越好）评估感知质量（SRGAN[16]网络）。我们将SR结果与经过训练的VGG-19 [24]网络的特征空间中的真实图像之间的欧氏距离作为VGG指标（×10的4次方）[34]。0(a)0(b)0图6. 对合成退化模型的分析。 (a)对City100中的低分辨率观测进行研究。计算插值的低分辨率图像与其高分辨率实况图像之间的PSNR。 (b)对测试集中的超分辨率结果进行研究（如图7所示）。采用VDSR [13]作为双三次超分辨率、高斯超分辨率和相机超分辨率的代表网络。尽管高斯下采样在红点处与真实低分辨率观测的退化水平相匹配，但与相机超分辨率相比，高斯超分辨率的重建准确性仍存在差距。这揭示了合成退化模型的劣势。0D RV ( ∙ )的退化水平，这导致超分辨率性能显著下降，如图3所示。0除了 D Bic ( ∙ ) ，我们进一步研究了 D Gau ( ∙ )。在实践中，高斯下采样首先使用高斯滤波器对 X进行模糊处理，然后在指定的尺度因子上进行像素减少。为了与City100中的样本尺度因子匹配，我们将 D Gau ( ∙ )适应于 × 2 . 9 下采样，首先将图像 X 插值 3/2.9倍，然后进行 × 3减少。与双三次下采样相比，高斯下采样更加灵活，因为它的核大小 k × k 和标准差 σ可以手动控制。在这里，我们考虑了一个理想条件，即 DGau ( X ) 的退化水平与 D RV ( X )的低分辨率观测相匹配。为此，我们遍历了 k 和 σ，如图6（a）所示。在将 D Gau ( X ) 和 D RV ( X )插值到与 X相同的分辨率后，我们计算了它们在City100上的平均PSNR，并找到了红点处的两个匹配参数（ k 1 = 5 , σ 1 = 2 .65 和 k 2 = 7 , σ 2 = 1 . 55 ），它们被采用作为 DGau ( ∙ ) 的代表。0圣彼得堡0迪拜0威尼斯0罗马0纽约0图7. City100中的五个测试图像缩略图。05.2. 超分辨率结果0获得低分辨率观测结果后，我们通过将 S ( D Bic ( X )) , S( D Gau ( X )) , 和 S ( D RV ( X )) 与高清实况图像 X进行比较，评估不同退化模型在超分辨率结果上的性能。我们分别将相应的超分辨率过程命名为双三次超分辨率、高斯超分辨率和相机超分辨率。为了训练超分辨率网络，我们将City100分为两部分：5对图像用于测试（如图7所示），其余95对图像用于训练。在训练集中，有5张图像用于验证。对于基线网络，我们采用了两种代表性的CNN架构，考虑了感知-失真的权衡[ 1]。为了重建准确性，我们采用了VDSR网络[ 13]和均方损失0其中 x 表示从City100中裁剪的图像块， D ( ∙ )表示某种退化模型， S Θ ( ∙ )表示参数化超分辨率网络。为了感知质量，我们采用SRGAN网络[ 16 ]和综合损失0其中VGG损失 L V GG 表示VGG-19网络[ 24 ]中特征空间φ ( ∙ ) 的像素距离0生成损失 L Gen 基于鉴别器 D Θ ′ ( ∙ ) 的概率定义为16570高清实况图像(PSNR / SSIM)0插值低分辨率(24.62 / 0.7520)0双三次超分辨率(25.55 / 0.7921)0高斯超分辨率(26.06 / 0.8113)0相机超分辨率(27.14 / 0.8416)0相机SR (30.26 / 0.8684) 图8. SR结果在不同退化模型下的重建准确性比较 (VDSR [13]网络)。采用PSNR和SSIM[29]进行评估指标（数值越高越好）。0真实高分辨率图像(VGG / Ma's metric)0插值LR (0.8543/ 3.58)0BicubicSR(0.7756 / 5.05)0高斯SR (0.7019/ 6.16)0相机SR (0.4791/ 6.58)0相机SR (0.6167 / 6.71) 图9. SR结果在不同退化模型下的感知质量比较 (SRGAN [16]网络)。采用VGG指标[24]（数值越低越好）和Ma's指标 [19]（数值越高越好）进行评估。0其中 D Θ ′ ( ∙ ) 表示重建图像 S Θ ( D ( X )) 是自然图像的概率。生成组件 S Θ ( ∙ ) 和鉴别器 D Θ ′ ( ∙ ) 以对抗的方式进行训练[8]。16580(a) 在18mm焦距下拍摄0(b) 在55mm焦距下拍摄0(c) 从上到下：插值LR，BicubicSR，高斯SR，相机SR0图10. NikonD5500拍摄的图像SR结果的视觉比较。SR模型是使用VDSR[13]网络在City100上训练的。0然后，我们分别基于City100训练了两组SR网络，用于 DBic ( ∙ ) ，D Gau ( ∙ ) 和 D RV ( ∙ )。除了退化模型之外，所有其他超参数都保持不变，以消除它们的影响。在PSNR上评估的定量结果如图6(b)所示，BicubicSR和GaussianSR与CameraSR相比在测试集上有明显的性能差距（即平均约1.3dB）。对于GaussianSR，我们在图6(a)中的红点处评估了两个设置，并报告了更好的结果。详细的定量结果列在表1中。相应的视觉比较在图8和图9中分别进行，验证了CameraSR实现了显著改进的SR结果。更多的比较结果可以在补充文档中找到。06. 实验0尽管上述分析清楚地证明了退化建模对于实际成像系统的分辨率增强的重要性，但相机SR优于BicubicSR和GaussianSR并不令人意外，因为它直接从City100中学习了R-V退化。在本节中，我们展示了广泛的SR结果，以证明CameraSR（仍然在City100上训练）对于与City100在内容上甚至使用不同设备拍摄的截然不同的真实场景的泛化能力。仍然，我们采用BicubicSR和GaussianSR进行比较，以评估重建准确性和感知质量。0数字变焦 BicubicSR 相机SR0数字变焦 BicubicSR 相机SR0图11. iPhoneX拍摄的图像SR结果的视觉比较。SR模型是使用VDSR[13]网络在City100的智能手机版本上训练的。0它直接从City100中学习了R-V退化。在本节中，我们展示了广泛的SR结果，以证明CameraSR（仍然在City100上训练）对于与City100在内容上甚至使用不同设备拍摄的截然不同的真实场景的泛化能力。仍然，我们采用BicubicSR和GaussianSR进行比较，以评估重建准确性和感知质量。06.1. 高级数字变焦0回想一下，我们的主要目标是缓解实际成像系统中光学镜头的R-V权衡，甚至打破物理变焦比。我们现在证明了CameraSR实现了这一目标。如图10(a)所示，给定由DSLR相机在18mm焦距下拍摄的图像，CameraSR有效地超分辨率其细节，这可以视为缓解相机镜头的R-V权衡（即分辨率和视场同时获得）。同时，当同一DSLR相机的变焦镜头达到最大放大倍率时，即在55mm焦距下，CameraSR能够进一步提高拍摄图像的分辨率，如图所示。16590（a）华为P20。从上到下：插值LR，双三次SR和CameraSR。0（b）华为P20 插值LR 双三次SR CameraSR0（c）三星S9 插值LR 双三次SR CameraSR 插值LR 双三次SR CameraSR0图12. 华为P20和三星S9智能手机相机拍摄的SR结果的视觉比较。SR模型是使用City100的iPhone X版本训练的，使用VDSR[13]网络进行（a），使用SRGAN [16]网络进行（b）和（c）。0图10（b）。同样，在图11中，对于具有固定焦距镜头的智能手机相机，CameraSR作为先进的数字变焦工具，与内置的数字变焦功能相比，显著提高了成像质量。图10（b）和图11中的示例可以视为突破了变焦比的物理限制。06.2. 泛化能力0除了SR性能的显著提高，我们提出的CameraSR在内容和设备方面也具有良好的泛化能力。对于内容泛化，回想一下，City100数据集是在室内环境下拍摄的，只有一个类别的主题（即明信片），然而在室内和室外环境中，CameraSR模型在各种不同主题下表现良好，如图10、11、12所示。对于设备泛化，如图12所示，基于City100的iPhoneX版本训练的CameraSR模型可以轻松应用于华为P20和三星S9等不同的智能手机。有关从尼康到佳能DSLR相机的泛化结果，请参见补充文档。07. 结论和讨论0在本文中，我们从相机镜头的角度，即CameraSR，研究了SR，该模型模拟了现实成像系统中的R-V退化。通过提出的数据采集策略，我们构建了一个City100数据集，以表征DSLR和智能手机相机中的R-V退化。基于City100，我们分析了常用的合成退化的缺点。0通过验证CameraSR作为提高现有SR方法性能的实际解决方案，我们建立了一种实用的SR模型，并验证了其有利的泛化能力。由于其良好的泛化能力，CameraSR在现实成像系统中可以作为先进的数字变焦工具广泛应用。特别是在生物医学成像中，除了增强自然图像外，我们相信CameraSR对于显微镜成像具有重要价值，其中分辨率增强对于科学观察至关重要。尽管有着有希望的初步结果，但本文中仍然没有考虑一些现实世界的条件。在LR观察方面，我们考虑了一个相对理想的无噪声条件。然而，噪声的影响是不可避免的，特别是在具有小传感器的智能手机成像系统中。因此，值得共同研究R-V退化和噪声，以进一步提高CameraSR的鲁棒性。除了本文讨论的单图像SR外，R-V退化可以推广到连拍图像SR，其中使用连拍模式拍摄一系列LR图像，以利用子像素运动的潜在信息进行更好的HR重建。此外，除了从外部示例中学到的先验知识，所提出的CameraSR还可以进一步扩展为基于自相似性的方法，通过基于City100的R-V退化核的数值估计来利用内在的重复性。上述扩展被视为我们的未来工作。0致谢0我们感谢中国国家重点研发计划（2017YFA0700800）和中国国家自然科学基金（NSFC）（61671419、61425026、61622211和61620106009）的资助。16600参考文献0[1] Yochai Blau和TomerMichaeli。感知-失真权衡。在CVPR，2018年。 50[2] Adrian Bulat和GeorgiosTzimiropoulos。Super-fan：在任意姿势下集成面部标记定位和真实世界低分辨率面部的超分辨率。在CVPR，2018年。 10[3] Adrian Bulat，Jing Yang和GeorgiosTzimiropoulos。2018年感知图像超分辨率PIRM挑战赛。在ECCV Workshop，2018年。 10[4] Adrian Bulat，Jing Yang和GeorgiosTzimiropoulos。要学习图像超分辨率，首先使用GAN学习如何进行图像退化。在ECCV，2018年。 1，30[5] XinDeng。通过风格转移增强图像质量，用于单图像超分辨率。IEEE信号处理快报，25（4）：571-575，2018年。 10[6] Chao Dong，Chen Change Loy，Kaiming He和XiaoouTang。学习用于图像超分辨率的深度卷积网络。在ECCV，2014年。 20[7] Martin A Fischler和Robert CBolles。随机样本一致性：模型拟合的范例，适用于图像分析和自动制图。ACM通信，24（6）：381-395，1981年。 30[8] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和Yoshua Bengio。生成对抗网络。在NIPS，2014年。3，60[9] Muhammad Haris，Gregory Shakhnarovich和NorimichiUkita。用于超分辨率的深度反投影网络。在CVPR，2018年。1，20[10]郑辉，王秀梅和高新波。通过信息蒸馏网络实现快速准确的单图像超分辨率。在CVPR，2018年。 20[11] Andrey Ignatov，Nikolay Kobyshev，Radu Timofte，Kenneth Vanhoey和LucVan Gool。使用深度卷积网络在移动设备上拍摄DSLR质量的照片。在ICCV，2017年。 30[12] Justin Johnson，Alexandre Alahi和LiFei-Fei。用于实时风格转换和超分辨率的感知损失。在ECCV，2016年。 10[13] Jiwon Kim，Jung Kwon Lee和Kyoung MuLee。使用非常深的卷积网络进行准确的图像超分辨率。在CVPR，2016年。 1，2，3，5，6，7，80[14] Jiwon Kim，Jung Kwon Lee和Kyoung MuLee。深度递归卷积网络用于图像超分辨率。在CVPR，2016年。 20[15] Wei-Sheng Lai，Jia-Bin Huang，Narendra Ahuja和Ming-HsuanYang。用于快速准确的超分辨率的深度拉普拉斯金字塔网络。在CVPR，2017年。 1，20[16] Christian Ledig，Lucas Theis，Ferenc Huszr，JoseCaballero，Andrew Cunningham，Alejandro Acosta，AndrewAitken，Alykhan Tejani，Johannes Totz，ZehanWang和WenzheShi。使用生成对抗网络的照片逼真的单图像超分辨率。在CVPR，2017年。 1，2，3，5，6，7，80[17] Bee Lim，Sanghyun Son，Heewon Kim，Seungjun Nah和KyoungMu Lee。增强的深度残差网络用于单图像超分辨率。在CVPRWorkshop，2017年。 10[18] David G Lowe.尺度不变关键点的独特图像特征。国际计算机视觉杂志，60（2）：91-110，2004年。 30[19] Chao Ma，Chih-Yuan Yang，XiaokangYang和Ming-HsuanYang。学习单图像超分辨率的无参考质量度量。计算机视觉和图像理解，158：1-16，2017年。 5，60[20] Tomer Michaeli和Michal Irani.非参数盲超分辨率。在CVPR，2013年。 1，30[21] Tobias Pltz和StefanRoth。使用真实照片对去噪算法进行基准测试。在CVPR，2017年。 30[22] M. S. M. Sajjadi, B. Schlkopf, and M. Hirsch. Enhancenet:通过自动纹理合成进行单图像超分辨率。在 ICCV，2017年。 1，20[23] Assaf Shocher，Nadav Cohen和Michal Irani.使用深度内部学习的零样本超分辨率. 在CVPR，2018年. 1, 30[24] Karen Simonyan和Andrew Zisserman.用于大规模图像识别的非常深的卷积网络.arXiv预印本arXiv:1409.1556，2014年. 5, 60[25] Ying Tai，Jian Yang和Xiaoming Liu.通过深度递归残差网络进行图像超分辨率. 在CVPR，2017年. 1, 20[26] Radu Timofte，Shuhang Gu，Jiqing Wu和Luc Van Gool.Ntire 2018年单图像超分辨率挑战：方法和结果. 在CVPRWorkshop，2018年. 1, 30[27] 童童，李根，刘谢杰和高勤全.使用密集跳跃连接的图像超分辨率. 在ICCV，2017年. 1, 20[28] 王新涛，于科，董超和陈昌乐.通过深度空间特征变换恢复图像超分辨率的逼真纹理.在CVPR，2018年. 1, 30[29] Zhou Wang，A. C. Bovik，H. R. Sheikh和E. P. Simoncelli.图像质量评估：从误差可见性到结构相似性.IEEE图像处理交易，13(4):600–612，2004年. 5, 60[30] 王兆文，刘丁，杨建超，韩伟和黄托马斯.带有稀疏先验的图像超分辨率深度网络. 在ICCV，2015年. 20[31] 熊哲，孙晓东和吴飞. 鲁棒的网络图像/视频超分辨率.IEEE图像处理交易，19(8):2017–2028，2010年. 10[32] 熊哲，徐东，孙晓东和吴飞.基于示例的软信息和决策超分辨率.IEEE多媒体交易，15(6):1458–1465，2013年. 10[33] 张凯，左旺盟和张磊.学习单个卷积超分辨率网络用于多种退化. 在CVPR，2018年. 10[34] Richard Zhang，Phillip Isola，Alexei A. Efros，EliShechtman和Oliver Wang.深度特征作为感知度量的不合理有效性. 在CVPR，2018年. 50[35] 张宇伦，李坤鹏，李凯，王立琛，钟彬能和傅云.使用非常深的残差通道注意力网络进行图像超分辨率.在ECCV，2018年. 1, 20[36] 张宇伦，田亚鹏，孔宇，钟彬能和傅云.残差密集网络用于图像超分辨率. 在CVPR，2018年. 1, 2

下载后可阅读完整内容，剩余1页未读，立即下载