超高清图像演示数据集与基线模型的研究

115 浏览量更新于2023-11-30 收藏 14.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文面向高效和规模鲁棒的超高清图像演示Xin Yu1，Peng Dai1，Wenbo Li2，LanMa3，Jiajun Shen3，Jia Li4，XiaojuanQi11香港大学2香港中文大学3TCL人工智能实验室4中山大学抽象的。随着移动设备的快速发展，现代广泛使用的移动电话通常允许用户捕获4K分辨率（即，超高清晰度）图像。然而，对于图像演示，一个在低层次的视觉，现有的工作通常是在低分辨率或合成图像进行的查杀任务。因此，这些方法在4K分辨率图像上的有效性仍然是未知的。在本文中，我们探索了超高清图像的MOIR′E模式REMOV。为此，我们提出了第一个超高清演示数据集（UHDM），其中包含5，000个真实世界的4K分辨率图像对，并对当前最先进的方法进行了基准研究。此外，我们提出了一个有效的基线模型ESDNet为takkling4Kmoi r′eimages，其中我们建立了一个语义对齐的规模感知模块，以解决规模变化的moi r′epat的。广泛的实验表明，我们的方法的有效性，它优于国家的最先进的方法，由一个很大的利润，而更轻量级。代码和数据集可在https://xinyu-andy.github.io/uhdm-page上获得。关键词：图像演示，图像恢复，超高清1介绍在拍摄数字屏幕上显示的内容时，相机的彩色滤光片阵列（CFA）和屏幕的LCD子像素之间普遍存在不可避免的频率混叠因此，捕获的图像与彩色条纹混合，称为Moi r′e图案，这严重降低了图像的感知质量。目前，有效地从单个MOI RE图像中提取MOI R E图案仍然具有挑战性，并且受到研究界越来越多的关注。最近，提出了几种图像演示方法[13，47，12，29，22，8，20，40]，产生了大量的专用设计，如moi r′e模式分类[12]，频域建模[22，47]和多级框架[13]。除了专门为高清晰度图像设计的FHDe2Net[13]外，大多数研究工作都致力于研究低分辨率图像表示通讯作者。arXiv：2207.09935v1 [cs.CV] 2022年7+v：mala2255获取更多论文×2X. Yu等人[29]或合成图像[40]。然而，移动设备的快速发展使现代手机能够拍摄超高清图像，因此，研究4K图像演示的实际应用更具实际意义。不幸的是，目前公开的演示数据集（见表1）的最高分辨率是1080p [13]（1920 1080）。由于数据分布的变化和计算成本的急剧增加，在这种情况下，我们探索更实际但更复杂的演示场景，即，超高清图像演示。为了评估这种场景下的去噪方法，我们建立了第一个大规模的真实世界超高清演示数据集（UHDM），该数据集由4500个训练图像对和500个测试图像对组成，具有不同的场景（见图1）。①的人。基准研究和局限性分析：基于我们的数据集，我们对最先进的方法进行了基准研究[13，47，12，29，22，8]。我们的实证研究表明，大多数方法[29，8，47]都在努力在4K图像中以更宽的尺度范围来恢复moi r'e模式，同时容忍对计算成本不断增长的需求（见图10）。3）或精细图像细节[13]（见图。2）。我们将其不足之处归结为缺乏有效的具体地说，试图解决规模挑战的现有方法可以粗略地分为两条研究路线。一种研究开发了多阶段模型，如FHDe2 Net [13]，以在低分辨率阶段处理大的模式，然后在高分辨率阶段细化纹理，然而，当应用于4K图像时会产生巨大的计算成本（见图3：FHDe2 Net）。另一条研究路线利用来自网络不同深度的特征来构建多尺度表示，其中最具代表性的工作 [47] 在准确性和效率之间实现了更好的权衡（见图 4 ）。 3 ：MBCNN），但仍然不能是一般规模鲁棒的（参见图2和图5）。我们注意到，所提取的多尺度特征来自不同的语义级别，这在融合在一起时可能导致未对齐的特征，从而潜在地限制其能力。详细的研究和分析在第3.2节展开。为此，受HRNet [33]的启发，我们提出了一个即插即用的语义对齐的尺度感知模块（SAM），以提高网络处理具有不同尺度的moir′e模式的能力，而不会产生太多的计算成本，作为现有方法的补充。具体地，SAM结合了金字塔上下文提取模块，以有效地和高效地提取在相同语义级别对齐的多尺度特征此外，一个跨尺度的动态融合模块被开发来选择性地融合多尺度特征，其中融合权重被学习并动态地适应于个体图像。借助SAM，我们开发了一个高效且规模稳健的4K图像演示网络，名为ESDNet。 ESDNet采用一个简单的编码器-解码器网络，以跳跃连接作为其骨干，并在不同的语义级别上堆叠SAM，以提高模型解决4KMOI R ′ e图像尺度变化的能力。 ESDNet易于实现，同时具有最先进的性能（见图1）。5和表2）对具有挑战性的超高清+v：mala2255获取更多论文×实现高效、规模稳健的UHD图像演示3图像演示数据集和其他三个公共演示数据集[13，40，29]。特别是，ESDNet超过了多级高分辨率方法FHDe2 Net，在PSNR方面为1.8dB，而在UHDM数据集中快了300（5.620 s vs 0.017 s）我们的主要贡献概述如下：– 我们是第一个探索超高清图像去噪问题的人，这是一个更实用但更具挑战性的问题。为此，我们建立了一个大规模的世界4K分辨率演示数据集UHDM。– 我们对该数据集上现有的最先进的方法进行了基准研究，总结了一些挑战和分析。受这些分析的启发，我们提出了一个有效的基线模型ESDNet超高清图像演示。– 我们的ESDNet在UHDM数据集和其他三个公共演示数据集上取得了最先进的结果，包括定性评估和定性比较。此外，ESDNet是轻量级的，可以以60 fps的速度处理标准4K（3840×2相关工作图像演示：为了消除由频率混叠引起的图像模式，刘等人。[20]通过模拟相机成像过程提出一个合成数据集，并开发一个基于GAN的框架[10此外，提出了一个大规模的综合数据集[40]，并促进了许多后续工作[47，8，40]。然而，由于模拟到真实的差距，在合成数据上训练的模型很难处理真实世界的场景。对于真实世界的图像演示，Sun等人。[29]提出第一个真实世界的图像数据集（即，TIP2018）和开发多尺度网络（DMCNN）。为了区分不同类型的moi r′e模式，Heetal. [12]用类别标签对moi r′e图像进行人工注释，以训练moi r′e模式分类模型。F域方法[22，47]也被研究用于MOI R′EREMOVAL。为了处理高分辨率图像，Heetal. [13]构建高清晰度数据集FHDMi，并开发多级框架FHDe2 Net。虽然已经取得了显着的进展，上述方法要么不能达到令人满意的结果[47，12，29，8]或遭受沉重的计算成本[47，13，12，8]。更重要的是，现有图像演示数据集的最高分辨率是1080p分辨率的FHDMi[13]，考虑到当前移动相机捕获的超高清（4K）图像，这并不适合实际使用。我们专注于开发一个轻量级的模型，可以处理超高清图像。图像恢复：为此，已经提出了大量基于学习的图像恢复模型。例如，残差学习[14]和密集连接[15]被广泛用于为不同的低级视觉任务开发非常深的神经网络[43，1，19，17，46]。为了捕获多尺度信息，在图像恢复任务中经常使用编码器-解码器[25]结构或分层架构[42，41，9]。受迭代求解器的启发，一些+v：mala2255获取更多论文4倍。Yu等人方法利用递归结构[9，31]来逐渐恢复图像，同时减少参数的数量。为了保留结构和语义信息，许多作品[36，21，28，37，30，34]采用感知损失[16]或生成损失[10，11，2]来指导训练过程。在我们的工作中，我们还利用精心设计的密集块进行有效的特征重用和感知损失进行语义引导优化。多尺度网络：多尺度网络已被广泛用于各种任务[33，4，48，38，6]，因为它能够利用具有不同感受野的特征。U-Net [25]作为一种代表性的多尺度网络，使用编码器-解码器结构提取多尺度信息，并使用跳跃连接增强解码器中的特征。为了保持高分辨率表示，全分辨率残差网络[24]通过引入包含全分辨率信息的额外流来扩展U-Net，并且可以在HRNet [33]中找到类似的操作。考虑到所提取的多尺度特征具有不同的语义含义，如何融合具有不同含义的特征的问题也很重要，并且在许多工作中得到了广泛的研究[3，5，7]。在这项工作中，我们设计了一个语义对齐的尺度感知模块来处理具有不同尺度的moir′e模式，而不会产生太大的计算成本，这使得我们的方法对4K图像非常实用3UHDM数据集本文研究了具有实际应用价值的超高清图像演示。为了训练4K演示模型和评估演示方法，我们收集了一个大规模的超高清演示数据集（UHDM）。数据集收集和基准研究详述如下。3.1数据收集和选择为了获得真实世界的4K图像对，我们首先从互联网上收集分辨率从4K到8K我们注意到，互联网资源缺乏文档场景，这也构成了一个至关重要的应用场景（例如，幻灯片、纸张），因此我们手动生成高质量的文本图像，并确保它们保持3000dpi（点印）。最后，收集到的无噪声图像涵盖了广泛的场景（见图1）。1），如风景，体育，视频剪辑和文档。有了这些高质量的图像，我们就可以生成各种各样的真实世界的图案。首先，为了产生逼真的moi r'eimages并减轻校准的困难，我们使用固定在DJI OM 5智能手机万向节上的相机手机拍摄屏幕上显示的清晰图片，这使我们能够通过其控制按钮方便灵活地调整相机视图，如图1所示。其次，我们注意到，莫尔图案的特征高度依赖于屏幕和相机之间的几何关系（见+v：mala2255获取更多论文××实现高效、规模稳健的UHD图像演示5图1：左上角：我们的数据集包含多种场景。右上角：我们用DJIOM5智能手机gi mbal拍摄了这张照片。Lower：我们数据集中的图像显示了广泛的尺度变化补充更多细节）。因此，在拍摄过程中，我们不断调整每十个镜头的视点，以产生不同的莫尔图案。第三，我们采用多个手机，屏幕>（即，<三个移动电话和三个数字屏幕，更多细节见补充）组合，以涵盖各种设备对，因为它们也将对电影模式的风格产生影响。最后，为了获得对齐的对，我们利用RANSAC算法[32]来估计原始高质量图像和捕获的moi r'escreen图像之间的单应性矩阵。由于摄像机内部的非线性失真和图像的扰动，很难确保精确的像素级校准，因此进行手动选择以排除严重未对准的我们的数据集总共包含5000个图像对。我们将他们随机分为4500人进行培训，500人进行验证。当我们使用各种手机采集电影图像时，分辨率可以是4032 3024或4624 3472。与其他现有数据集的比较如表1所示，我们的数据集的特征总结如下。– 超高分辨率UHDM是第一个 4K分辨率演示数据集，总共由5，000个图像对组成– 多样的图像场景数据集包括各种场景，如风景、体育、视频剪辑和文档。– 真实世界的捕捉设置MOI R′e图像是按照实际程序生成的，具有不同的设备组合和视角，以产生不同的MOI R′e模式。+v：mala2255获取更多论文6倍。Yu等人表1：不同演示数据集的比较;我们的数据集是第一个超高清数据集（“伦敦的建筑“不是一个可用的数据集数据集平均值分辨率大小多样性真实世界TIP18 [29]256× 2561024× 10241920× 10802100× 1700135,000无文本场景✓[40]第四十话FHDMi [13]10,20012,000只有文本场景多样的场景✓×伦敦460只有城市场景✓UHDM4328× 32485,000多样的场景✓Inputmoiresoulimag eZoom-inregion DMCNN Ours Ground-trut h在MBCNN Ours Ground-trut h上输入动物园m-区域FHDe2Net Ours Ground-trut h上的输入模块Zoom-in图2：当前方法的局限性：它们通常无法以更宽的尺度范围恢复moir′e3.24K演示的Benchmark研究随着图像分辨率增加到4K分辨率，莫尔图案的规模变得非常广泛，从非常大的莫尔图案到小的莫尔图案（见图1）。①的人。这对演示方法来说是一个重大挑战，因为它们需要具有可扩展性。此外，增加的图像分辨率也导致显著增加的计算成本和高要求的细节恢复/保存。在这里，我们对现有的最先进的方法进行了基准研究[47，29，12，13，22，8]，对我们的4K演示数据集进行了评估，以评估其有效性。图2和图3总结了主要结果：现有方法大多无法实现准确性和计算效率的良好平衡更详细的结果见第5节。分析和讨论：尽管现有方法也试图通过开发多尺度策略来解决尺度挑战，但当应用于4K高分辨率图像时，它们在计算效率和恢复质量方面仍然存在一些不足（见图2）。一种方法，如DMCNN [29]和MDDM [8]，仅在输出阶段融合从多分辨率输入中获取的多尺度特征，这可能会阻止+v：mala2255获取更多论文实现高效、规模稳健的UHD图像演示7峰值信噪比（dB）22.5022.0021.5021.0020.5020.0019.5019.001 5 25MultiAds（T）图3：不同方法的计算成本的比较：x轴和y轴表示MultiAdds（T）和PSNR（dB）。参数的个数用圆中间特征彼此相互作用和细化，导致次优结果，即，显着牺牲4K图像演示的准确性，尽管它是轻的（见图）。 3和图 2）。另一种方法，如MBCNN [47]，采用类似U网的架构，在不同的网络深度利用多尺度特征。与现有的其他方法相比，虽然它实现了准确性和效率之间的最佳折衷，但它仍然遭受具有宽尺度范围的moi r′e模式（图2和图5的第二个部分）。一个可能的问题是，组合的多尺度特征来自不同的语义层次[33]，禁止特定的特征层次来收获多分辨率表示[33]，这也可能是图像演示的重要线索。另一方面，FHD e2Net[13]设计了一个由粗到细的两阶段模型，以同时解决尺度和细节挑战。然而，当应用于4K图像时，它会受到沉重的计算成本的影响（见图1）。 3）现在还没有完全消除更多的模式（见图3）。 5）或恢复精细图像细节（见图2和图5）。5）。4该方法受第3.2节中观察结果的启发，我们引入了一种基线方法来改进4K分辨率图像DEM，旨在建立一种更大规模和更有效的模型。在下文中，我们首先概述了我们的管道，然后详细介绍了我们的核心语义对齐的规模感知模块（SAM）。4.1管道整体架构如图4所示，其中使用预处理头来扩大感受野，然后是编码器-解码器架构ESDNet（Ours）（参数# 5.934百万）（标准）MBCNNams.# 14.192百万）WDNet（参数# 3.36M）MDDMFH（参数De2网编号13.571百万）（参数# 7.637百万）DMCNN（参数# 1.426百万）MopNet（参数# 58.565百万）+v：mala2255获取更多论文×我整体屏幕图像损坏跳过连接恢复的分层图像云纹��联系我们^山姆编码解码2第1页扩张型残留致密块放大放大双线性向上层卷积层FFrFout个新的水平FFrFout个新的水平Pixelshuffle下采样Pixelshuffle上采样第12个编码器级别第n级解码器山姆Fr0间隙0MLP0Fr1布雷间隙1CS↓1Fout布雷2间隙2↓↓2金字塔提取：每个分支的参数可以共享动态融合.扩张致密块对流层2× 4×全球双线性双线性差距平均值完全连接+ ReLU充分连接c按顺序级联S按通道 . 按通道Up Up池化+ Sigmoid分裂乘法8倍。Yu等人图4：我们的ESDNet管道和拟议的语义对齐规模感知模块（SAM）用于图像演示。预处理头采用像素混洗[26]对图像进行两次采样，并采用55卷积层进一步提取低级特征。然后，将提取的低级特征馈送到由三个下采样和上采样级别组成的编码器-解码器骨干架构请注意，编码器和解码器通过跳过连接连接，以允许包含高分辨率信息的功能，以促进对无噪声图像的恢复。作为一种改进，网络将通过卷积层和像素重排上采样操作（参见图4的上半部分）产生中间结果，这些结果也由地面实况监督，用于深度监督以促进训练的目的。具体而言，每个编码器或解码器级别（见图1）。4）包含一个用于细化输入特征（如下所述）的扩张的残差密集块[46，15，14，39]和一个用于在相同语义级别提取和动态融合多尺度特征的拟议语义对齐多尺度模块（SAM）（如第4.2节所述）。扩张残差密集块：对于每个级别i ∈ {1，2，3，4，5，6}（即，三个编码器级和三个解码器级），输入特征Fi首先经过卷积块，即，扩展的残余密集块，用于细化输入特征。它结合了残差密集块（RDB）[46，15，14]和扩张卷积层[39]来处理输入特征并输出细化特征。具体地，给定到第i级编码器或解码器的输入特征F0，级联的来自块内部的每一层的局部特征可以用公式表示为等式（1）。（1）：F1= C1（[F0，F1，...， F l−1]），（l = 1，2，.，（1）我我我+v：mala2255获取更多论文××我我我我∈我HW×我我我↓22↓↓44↓↓↓实现高效、规模稳健的UHD图像演示9其中[F0，F1，...， F l-1]表示所有中间特征的级联我我我在层l之前的块内部，并且Cl是用于处理级联特征的算子，其由具有扩张速率dl的3 × 3 Conv和整流线性单元（ReLU）组成。之后，我们应用1 1卷积以保持输出通道数与F0的相同。最后，我们利用剩余连接产生的细化功能表示Fr，公式为Eq。（二）：Fr=F0+ Conv 1 × 1（FL）.（二更）精化特征表示Fr然后输入到我们建议的SAM，语义对齐的多尺度特征提取。4.2语义对齐的尺度感知模块给定输入特征Fr，SAM旨在提取同一语义层i内的多尺度特征，并允许它们相互作用和动态融合，从而显著提高模型处理具有广泛尺度的多尺度特征的能力.如表3所示，SAM使我们能够开发一个轻量级网络，同时与现有方法相比仍然更有效。在下面，我们详细介绍了SAM的设计，其中包括两个主要模块：金字塔特征提取和跨尺度动态融合。金字塔上下文提取：给定输入特征图FrRH×W×C（我们在下面的讨论中将Fr简化为Fr），我们首先生成金字塔输入特征Fr∈RH×W×C，Fr∈RH×W×C F r ∈R××C通过双线性插值，然后将它们馈送到相应的卷积分支用五个卷积层产生金字塔输出Y0，Y1，Y2（见图的下部）。4）：Y0= E0（Fr）， Y1= E1.Fr= 0，Y2= E2. 中国，（3）其中，我们通过膨胀的密集块构建E0，E1和E2，然后是11卷积层。此外，将在 E1、 E2中执行上采样操作，以对齐三个输出的大小，即，Yi∈RH×W×C，（i=0，1，2）.请注意，由于E0、E1和E2的内部架构相同，因此可以共享其对应的可学习参数以降低参数数量的成本事实上，正如第5节所证明的，改进主要来自金字塔架构，而不是额外的参数。跨尺度动态融合：给定金字塔特征Y0、Y1、Y2，跨尺度动态融合模块将它们融合在一起以产生融合的多尺度特征用于下一级处理。该模块的见解是，moir′e模式的规模因图像而异，因此不同规模特征的重要性也会因图像而异。为此，我们开发了跨尺度动态融合模块，使融合过程动态化+v：mala2255获取更多论文∈∈∈→我⊙高×宽我s=1t=110倍。Yu等人调整和适应每一个图像。具体来说，我们学习动态权重来融合Y1，Y2，Y3。给定YiRH×W×C（i= 0， 1， 2），我们首先在每个特征图的空间维度中应用全局平均池化，以获得每个尺度i的1D全局特征viRC，如下等式：（四）、H Wv=1πY（s，t）（4）然后，我们沿着信道维度连接它们，并通过MLP模块学习动态权重：[w0，w1，w2]=MLP（[v0，v1，v2]）（5）其中“MLP”由三个完全连接的层和输出w0、w1、w2 RC组成，以动态地熔断Y1、Y2、Y3。最后，使用融合权重，我们将金字塔特征与输入自适应权重进行通道融合，然后添加输入特征Fr以获得SAM的最终输出：F输出=Fr+w0Y0+w1Y1+w2Y2（6）其中，表示逐通道乘法，并且输出F_out将经过下一级（i i+1）以用于进一步的特征提取和图像重建。比较和分析：现有方法[47，22]利用不同深度的特征来获得多尺度表示。然而，不同深度的特征具有不同的语义信息水平。因此，他们不能在相同的语义级别表示多尺度信息，这可能为提高模型的多尺度建模能力提供重要线索我们提供SAM作为现有方法的补充因为Y0、Y1、Y2包括具有不同局部感受野的语义对齐信息。动态融合方法进一步提高了模块对不同图像的适应能力。与MopNet [12]中的显式分类器相比，该策略也可以被视为一种隐式分类器，它更有效，并且避免了模糊的手工属性定义。我们在补充文件中包括更详细的分析。4.3损失函数为了促进优化，我们采用了深度监督策略，这在[47]中已经证明是有用的如图4、在每个解码器级，网络将产生分层预测I101、I102、I103，这些也由地面实况图像我们注意到，moir′e模式破坏图像结构，因为它们产生新的带状结构。因此，我们采用感知损失[16]进行基于特征的监督。在每一层，我们建立损失函数+v：mala2255获取更多论文↑↓Σ××实现高效且规模稳健的UHD图像演示11表2：我们的模型和最先进的方法在四个数据集上的定量比较（）表示越大越好，（）表示越小越好。红色：最好，蓝色：第二好[12]MopNet[12]MBCNN[13] FHDe2 Net[14]ESDNet ESDNet-LUHDMPSNR↑SSIM↑LPIPS↓17.1170.50890.531419.9140.75750.376420.0880.74410.340920.3640.64970.488219.4890.75720.385721.4140.79320.331820.3380.74960.351922.1190.79560.255122.4220.79850.2454FHDMiPSNR↑SSIM↑LPIPS↓17.9740.70330.283721.5380.77270.247720.8310.73430.2515---22.7560.79580.179422.3090.80950.198022.9300.78850.168824.5000.83510.135424.8820.84400.1301TIP2018PSNR↑SSIM↑20.300.73826.770.871--28.080.90427.750.89530.030.89327.780.89629.810.91630.110.920LCDMoir'ePSNR↑SSIM↑10.440.571735.480.978542.490.994029.660.9670--44.040.994841.40-44.830.996345.340.9966-参数（M）-1.4267.6373.36058.56514.19213.5715.93410.623通过组合逐像素L1损失和基于特征的感知损失Lp。因此，最终损失函数被公式化为：3Ltotal=L1（Ii，Ii）+λ×Lp（Ii，Ii）（7）i=1对于感知损失，我们使用预先训练的VGG 16 [27]网络从conv 3 3（ReLU之后）中提取特征，并计算特征空间中的L1距离;我们在训练期间简单地设置λ= 1 我们发现，这种感知损失是有效的，在removing移动模式。5实验数据集和指标：我们对提出的UHDM数据集和其他三个公共数据集进行了实验：FHDMi [13]，TIP 2018 [29]和LCD-Moir′e[40]。在我们的UHDM数据集中，我们保留原始的两个分辨率（参见第3节），并使用裁剪的补丁训练模型。在评估阶段，我们从原始图像中进行中心裁剪，以获得分辨率为3840 2160（标准4K尺寸）的测试对。我们采用广泛使用的PSNR，SSIM [35]和LPIPS [44]指标进行定量评估。已证明LPIPS与人类感知更一致，适用于测量演示质量[13]。请注意，现有的方法仅在TIP2018和LCDMoi上报告PSNR和SSIM，因此我们遵循此设置进行比较。实现细节：我们在NVIDIA RTX 3090 GPU卡上使用PyTorch实现了我们的算法。在训练过程中，我们从超高清图像中随机裁剪768 768补丁，并将批量大小设置为2。该模型训练了150个epoch，并由Adam [18]优化，β1=0。9，β2=0。999.学习率初始设置为0。0002并通过循环余弦退火进行调度[23]。其他基准的实施细节在补充文件中展开。我们还在我们的数据集上忠实而充分地训练了其他方法，并在补充文件中展开了细节。+v：mala2255获取更多论文12倍。Yu等人(a) 输入（b）DMCNN（c）MDDM（d）WDNet（e）MopNet(f)MBCNN（g）FHDe2 Net（h）ESDNet（Ours）（i）ESDNet-L（Ours）（j）GT（a）输入（b）DMCNN（c）MDDM（d）WDNet（e）MopNet(f)MBCNN（g）FHDe2 Net（h）ESDNet（Ours）（i）ESDNet-L（Ours）（j）GT（a）输入（b）DMCNN（c）MDDM（d）WDNet（e）MopNet(f)MBCNN（g）FHDe2 Net（h）ESDNet（Ours）（i）ESDNet-L（Ours）（j）GT图5：与UHDM数据集上最先进方法的定性比较。请放大以便看得更清楚。更多的结果在supple文件5.1与最先进方法的比较我们提供了两个版本的模型：ESDNet和ESDNet-L。ESDNet是默认的轻量级模型，而ESDNet-L是一个更大的模型，在每个网络级别中再堆叠一个SAM。定量比较：表2显示了现有方法的定量性能。所提出的方法在所有四个数据集上都取得了最先进的结果。具体来说，我们的两个模型都优于其他方法，在超高清UHDM数据集和高清FHDMi数据集上有很大的裕度，证明了我们的方法在高分辨率场景下的有效性值得一提的是，我们的电子数据交换网虽然参数少得多，但表现已具竞争力。定性比较：我们在图5中给出了我们的算法和现有方法之间的视觉比较。显然，我们的方法获得了更令人满意的结果。相比之下，MDDM[8]，DMCNN [29]和WDNet[22]经常无法恢复moir′e模式，而MBCNN[47]和Mop-Net [12]不能很好地处理大规模模式。尽管FHDe2 Net [13]比其他方法（除了我们的方法）表现得更好，但它通常会遭受严重的细节损失。所有这些事实都表明了我们方法的优越性+v：mala2255获取更多论文×实现高效且规模稳健的UHD图像演示13表3：申报SAM的消融研究“A”代表基线模型。“A“B”将具有跨所有分支的共享权重的金字塔上下文提取添加到“A”，而“D”采用自适应权重。“C”和“E”分别在“B”和“D”的基础上增加了跨尺度动态融合数据集AA+BCDEUHDMPSNR↑SSIM↑LPIPS↓20.6460.78990.275020.8600.79080.262621.1760.79370.268321.9580.79380.259621.3000.79470.262322.1190.79560.2551参数（M）2.7055.9782.7053.0145.6255.934(a) 输入（b）型号A（c）型号D（d）型号E（e）GT图6：SAM中不同组分的定性效果计算成本：如图所示。 3.我们的方法达到了平衡参数number，计算成本（MACs）和演示性能的最佳点。此外，我们测试的推理速度，我们的方法上的NVIDIA RTX 3090 GPU。令人惊讶的是，我们的ESDNet只需要17毫秒（即，60fps）处理标准4K分辨率图像，比FHDe2 Net快近300。具有竞争力的性能和低计算成本使我们的方法在4K场景中非常实用。5.2消融研究在本节中，我们梳理了网络的哪些组件对UHDM数据集的最终性能贡献最大。如表3所示，我们从基线模型（模型“A”）开始，其消除了金字塔上下文提取和跨尺度动态融合策略。为了进行公平的比较，我们进一步构建了一个在模型容量方面与我们的完整模型（模型“E”）相当的更快的基线模型（模型“A +“）。金字塔上下文提取：我们构建了两个变体（模型“B”和模型“D”）来探索这种设计的有效性。与基线（模型“A”）相比，我们观察到，提出的金字塔上下文提取可以显着提高模型的性能。为了验证改进是否来自额外两个子分支中的更多参数，我们在所有分支中采用权重共享策略（模型“B”）。表3中的观察结果表明，性能增益主要源于金字塔设计，而不是参数的增加此外，如图所示6、我们+v：mala2255获取更多论文14倍。Yu等人表4：功能丧失的消融研究“/”的左边和右边分别表示由像素级L1损失训练的结果和由我们的损失训练的结果数据集DMCNN MDDM OursUHDMPSNR↑SSIM↑LPIPS↓19.914/19.91120.088/20.33321.489/22.1190.7575/0.72120.7441/0.7412 0.7893/0.79560.3764/0.30890.3330/0.2551我发现我们的金字塔设计可以成功地消除在基线模型中没有很好地解决的moi r ′ e模式。跨尺度动态融合：为了验证所提出的动态融合方案的重要性，我们逐渐将该设计添加到模型我们观察到这两种模型的一致改进，特别是在PSNR上。此外，图6示出了在模型“E”的结果中完全去除了保留在模型“D”中的伪像，实现了更和谐的颜色风格。损失函数：通过实验，我们发现感知损失在图像演示中起着重要的作用。如表4所示，当用单个L1损失替换我们的损失函数时，我们注意到我们的方法的性能明显下降，特别是在LPIPS上。此外，我们通过将我们的损失函数应用于其他最先进的方法[29，8]进行了进一步的探索LPIPS的显着改善- ments说明了损失设计在产生更高的感知质量的恢复图像的重要性。我们建议我们的损失更鲁棒，以解决大规模的moir′e模式，并且在真实世界的数据集中未对齐[13，29]。补充文件中包含更多讨论。6结论为了探索更实用、更具挑战性的4K图像演示场景，我们提出了第一个真正意义上的超高清图像演示数据集（UHDM）。基于此数据集，我们对现有方法进行了基准研究和局限性分析，从而促使我们构建一个轻量级的语义一致的尺度感知模块（SAM），以增强模型通过在一个简单的编码器-解码器骨干网络的不同深度利用SAM，我们开发了ESDNet来有效地处理4K高分辨率图像演示。我们的方法是计算效率高，易于实现，实现国家的最先进的结果四个 benchmark演示数据集（包括我们的UHDM）。我们希望我们的调查可以启发未来的研究在这个更实际的设置。致谢。这项工作得到香港研究资助局香港大学-TCL人工智能联合研究中心的部分支持- 早期职业计划（批准号：27209621）、国家重点研发计划（批准号：2021YFA1001300 ）、粤港澳应用数学中心（批准号：2020B1515310011）。+v：mala2255获取更多论文实现高效且规模稳健的UHD图像演示15引用1. Anwar，S.，巴恩斯，N.：稠密残差拉普拉斯超分辨率。IEEE Transactionson Pattern Analysis and Machine Intelligence（2020）2. Arjovsky，M.，Chintala，S.，博图湖：Wasserstein生成对抗网络上一篇：机器学习国际会议pp. 214-223. PMLR（2017）43. 蔡志，Fan，Q.，Feris，R.S.，Vasconcelos，N.：用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议。pp. 354-370. Springer（2016）44. 陈春，陈昆，徐，J，Koltun，V.：学会在黑暗中看东西。In：ProceedingsIEEE计算机视觉与模式识别会议pp. 32915. Chen，L.C.，Papandreou，G.，科基诺斯岛墨菲，K.，Yuille，A.L.：Deeplab：Se-I使用深度卷积网络， atrous 卷积和全连接 crfs 进行图像分割。 IEEEtransactions on pattern analysis and machine intelligence40（4），8346. 陈昆， Koltun，V.：具有级联细化的网络.在：IEEE计算机视觉国际会议论文集。pp. 15117. 陈玉，王志，Peng，Y.，张志，Yu，G.，Sun，J.：层叠金字塔用于多人姿态估计的网络。在：IEEE计算机视觉和模式识别会议论文集。pp. 20188. Cheng，X.，傅志Yang，J.：多尺度动态特征编码网络图像演示。 2019IEEE/CVFI ninternationalConferenceonComputerVisionWorkshop（ICCVW）pp. 3486-3493 IEEE（2019）1，2，3，6，11，12，14，24，二十七、二十八9. Gao，H.，Tao，X.，Shen，X.，Jia，J.：使用参数选择共享和嵌套跳过连接的动态场景去模糊。IEEE/CVF计算机视觉和模式识别会议论文集。pp.384810. 古德费洛岛， Pouget-Abadie ， J. ，米尔扎， M. ， Xu ， B. ， Warde-Farley，D.，Ozair，S.，Courville，A.，Bengio，Y.：生成对抗网。神经信息处理系统的进展27（2014）3，411. 古拉贾尼岛Ahmed，F.，Arjovsky，M.，Dumoulin，V.，Courville，A.：改进沃瑟斯坦甘斯的训练。arXiv预印本arXiv：1704.00028（2017）412. 他，B.，Wang，C.，中国地质大学，施，B.，Duan，L.Y.：使用mopnet拖把莫尔图案。IEEE/CVF计算机视觉国际会议论文集。pp. 242413. 他，B.，Wang，C.，中国地质大学，施，B.，Duan，L.Y.：Fhde 2 net：全高清演示网络在：计算机pp. 713-729 施普林格（2020）1、2、3、6、7、11、12、14、20、23、24、26、27、30、35、36、3714. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：IEEE计算机视觉和模式识别会议论文集。pp. 77015. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接卷积网络在：IEEE计算机视觉和模式识别会议论文集pp. 470016. Johnson，J.，Alahi，A.，李菲菲：实时风格转换的感知损失和超分辨率。在：欧洲计算机视觉会议。pp. 694-711. Springer（2016）4，10，23+v：mala2255获取更多论文16倍。Yu等人17. 金，J.，李，J.K.，Lee，K.M.：使用深度卷积网络实现精确的图像超分辨率。在：IEEE计算机视觉和模式识别会议论文集pp. 164618. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法arXiv预印本arXiv：1412.6980（2014）11，2419. Lim，B.，儿子SKim，H.，不SMu Lee，K.：增强的深度残差网络用于单图像超分辨率。在：IEEE计算机视觉和模式识别研讨会会议论文集。pp.13620. 刘，B.，Shu，X.，Wu，X.：使用深度卷积神经网络演示摄像头捕获的arXiv预印本arXiv：1804.03809（2018）1

下载后可阅读完整内容，剩余1页未读，立即下载