基于双交互隐式神经网络的图像超分辨率

66 浏览量更新于2023-10-15 收藏 1.8MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4936×××基于双交互隐式神经网络的单幅图像超分辨率Quan H. Nguyen和William J. 德克萨斯大学阿灵顿分校美国mavs.uta.edu，william. uta.edu摘要在本文中，我们介绍了一种新的隐式神经网络的任务，单图像超分辨率在任意的比例因子。为此，我们将图像表示为解码函数，该解码函数将图像中的位置及其相关特征映射到它们的互逆像素属性。由于像素位置在这种表示中是连续的，因此我们的方法可以参考不同分辨率图像中的任何位置。为了检索特定分辨率的图像，我们将解码函数应用于位置网格，每个位置网格都指输出图像中像素的中心与其他技术相比，我们的双交互神经网络将内容和位置特征结合起来。因此，我们获得了一个完全隐式的表示的图像，解决了超分辨率问题，在（实值）选修尺度使用一个单一的模型。我们证明了我们的方法对最先进的公开可用的基准数据集的有效性和灵活性1. 介绍单图像超分辨率（SISR）是一个基本的低层次计算机视觉问题，旨在从低分辨率（LR）图像中恢复高分辨率（HR）图像。执行SISR有两个主要原因：（i）增强人类消费的图像的视觉质量，以及（ii）改进机器感知的图像的表示。SISR具有许多实际应用，包括机器人、遥感、卫星成像、热成像、医学成像等[40，39]。尽管是一个具有挑战性和不适定的主题，SISR仍然是研究界的一个重要研究领域。最近的深度学习方法提供了高质量的SISR结果[3，37]。在感知系统中，图像被表示为像素的2D阵列，其质量、锐度和存储器占用由图像的分辨率控制因此，生成的HR40 x 4080 x 80100 x 100120 x 120内隐神经表示图1：我们提出的双重交互式隐式神经网络（DIINN）能够通过捕获输入图像的底层隐式表示，使用单个训练模型生成任意分辨率图像是固定的，取决于训练数据。例如，如果神经网络被训练为恢复2尺度的HR图像，则它仅在其被训练的方面表现良好（即，在3、4或其他尺度上表现将是因此，不是训练多个模型以获得各种分辨率，而是在实用性方面具有处理任意比例因子的单个SISR架构是非常有用的。对于嵌入式视觉平台（例如，无人驾驶地面/飞行器），其具有多个机载摄像机，必须使用有限的计算资源。隐式神经表示的概念，也称为基于坐标的表示，是一个活跃的研究领域，在3D形状建模方面取得了实质性成果[2，5，18，30，31]。受这些成功的启发，学习2D图像的隐式神经表示是SISR问题的自然解决方案，因为隐式系统可以以任意分辨率产生输出。虽然这个想法已经在几个作品中被触及[4，33，6，26]，但在本文中，我们提出了一个更有表现力的SISR神经网络，比现有的神经网络有显着的改进。4937×× ×技术状态，图1。我们的贡献总结如下。• 我们开发了一种新的双交互式隐式神经网络（DIINN）的SISR处理图像内容功能的调制分支和合成分支的位置功能，同时允许两者之间的相互作用。• 我们学习了一个具有像素级表示的隐式神经网络，它允许相对于最近的LR像素进行局部连续的超分辨率合成。• 我们通过在公共数据集上设置新的基准来证明我们提出的网络的有效性我们的源代码可以在[10]中找到。本文的其余部分组织如下。第二节讨论了相关的研究。在第3节中，我们使用隐式表示详细描述了任意尺度下的SISR模型。实验结果见第4节。第五部分总结全文，并对今后的工作进行了展望.2. 相关工作本节重点介绍了与SISR任务有关的文献。首先，我们讨论SISR的深度学习技术。然后，我们提供了一个概述内隐神经表征。最后，我们引用了图像的隐式表示的新生领域。SISR问题是一个定义不清的问题，因为有许多可能的HR图像可以下采样到单个LR图像。在这项工作中，我们专注于学习确定性映射，而不是随机映射（即，生成模型）。通常，SISR系统的输入是LR图像，输出是超分辨率（SR）图像，其可以具有或可以不具有与目标HR图像相同的分辨率。2.1. SISR深度学习SISR的现有工作通常利用卷积神经网络（CNN）与上采样操作器耦合来增加输入图像的分辨率。2.1.1升级+细化SRCNN [11]，VDSR [20]和DRCN [21]首先使用双三次插值将LR图像插值到所需的分辨率精化网络作为一个非线性映射，其目的是提高插值的质量这些方法可以产生任意尺度的SR图像，但性能受到内插过程中引入的噪声的严重影响细化CNN还必须以所需的分辨率操作，从而导致更长的运行时间。2.1.2学习功能+升级遵循这种方法的方法首先通过CNN馈送LR图像，以获得相同分辨率的深度特征图。以这种方式，CNN具有更便宜的成本，因为它们应用于LR，这允许更深的架构。接下来，使用升尺度算子来产生SR图像。最常见的放大运算符是反卷积（FSRCNN [12]，DBPN [14]）和子像素卷积（ESPCN [32]，EDSR [23]）。也可以执行多次迭代的学习特征+放大，并明确利用中间表示之间的关系[14]。这些方法仅适用于整数比例因子，并产生固定大小的输出。EDSR [23]试图通过为每个比例因子训练单独的放大头来缓解这些问题另一方面，Meta-SR [15]是通过子像素卷积的软版本以任意实值比例因子求解SISR的第一次尝试。为了预测SR图像中每个像素处的信号，Meta-SR使用元网络来确定LR图像中最近像素周围的（33）窗口的特征的权重。有效地，SR图像中的预测像素的每个通道是（C3 3）体积的加权和，其中C是深度特征图中的通道的数量。虽然Meta- SR对大于其训练尺度的尺度因子具有有限的泛化能力，但它可以被视为混合隐式/显式模型。2.2. 隐式神经表示与通常是离散的传统表征相比，内隐神经表征是连续表征信号的一种优雅方式Chen等人[7]，Meschederetal.[27]和Parket al.[28]是最早表明隐式神经表征优于3D表征（例如，网格、体素和点云）。许多在3D计算机视觉方面取得最先进成果的作品也随之而来。例如，Chabraet al.[5]学习局部形状先验，用于与深度符号距离函数耦合的3D表面重建。Chibane等人提出了一种新的用于三维形状学习的隐式表示，称为神经距离场。[9]的文件。Jiang等[18]利用体素表示来使隐式函数能够适合大型3D场景，以及Penget al.[30]通过各种卷积模型增加了3D场景的表现力也可以根据输入信号[5，8，18，30]来调节隐式神经表征，这可以被认为是一种混合隐式/显式模型。4938图2：我们的DIINN架构概述。请注意，调制网络中的每一层都紧随着ReLU激活（2）和（4）。类似地，合成网络中的每一层之后是正弦激活（3）和（5）。2.2.1二维图像尽管在3D计算机视觉中有许多隐式神经表示的用途，但就我们所知，它在2D成像领域中尚未得到充分探索。通过神经网络隐式地参数化图像可以追溯到Stanley等人。[34]2007年各种类型的信号，包括图像，隐式地表示与神经网络使用周期性激活函数由Sitz- mann等人。[33]第33段。Bemana等人[4]学习型代表(-1、-1）（-1，1）（1，-1）（1、1）LR像素HR像素全局：（0.25，-0.25）局部：（-0.5，0.5）全局：（0.75，0.25）局部：（0.5，-0.5）使用像素位置的雅可比矩阵来自然地内插图像。Tancik等人[35]表明，基于坐标的多层感知器（MLP）可以隐式地合成2D图像的清晰度，通过变换的坐标输入与傅立叶特征映射。这些工作对不同情况的普遍性有限，特别是随着数据复杂性的增加。最近，Mehtaet al.[26]提出用输入是局部特征的单独网络来调制合成网络，这使得能够在保持高保真度的同时进行泛化2.2.2SISR的隐式神经表示学习2D图像的隐式神经表示对于SISR是立即有用的，因为它可以在空间域中的任何位置处对像素信号进行Chen等人[6]提出了一种局部隐式图像表示，其中输入图像的2D深度特征映射与局部预测的集合相耦合以确保平滑（即，连续的）不同位置之间的过渡。Ma等人[24]扩展[6]，通过强制执行锐度约束和广告强加多个损失函数（包括L1，感知[19]和生成对抗[13]损失），而不是[6]中的L1损失，以生成感知上令人愉快的去图3：（2，2）和（4，4）分辨率下的图像。我们将像素视为正方形而不是点，局部坐标引用像素正方形的中心，分别相对于图像的中心和最近LR像素的中心。两者都缩放到[-1，1]2。尾与[6]相比，我们通过在像素级表示上解耦[26]提出的内容和位置特征来改进隐式解码功能。3. 双交互式隐式神经网络在本节中，我们将介绍我们提出的SISR模型的核心组件。该网络由以下两部分组成：编码器和双交互式隐式解码器，图2。编码器学习LR图像的内容并产生深度特征图。隐式解码器预测信号（即，（r，g，b）值），以编码器提供的相关特征为条件。对于一个目标分辨率，我们查询SR输出图像中每个像素的信号我们的网络可以表示为S（x，y）=fθ（gγ（L）（x，y），p），（1）4939···×其中S（x，y）是在（x，y）处的SR预测信号，L是LR图像，gγ（）是由γ参数化的编码器函数，gγ（L）（x，y）是在（x，y）处的提取特征（称为内容特征），p是位置特征，并且fθ（）是由θ参数化的隐式解码器函数。请注意，我们的方法将图像的像素视为正方形而不是点，并且像素的位置参考其中心。3.1. 编码器编码器向解码器提供与图像内的每个查询位置相关联的内容特征表示。在我们的方法中使用的编码器可以是CNN，类似于以前的作品[6，15]中使用的编码器，没有任何升级模块。输入是LR图像，其输出是保留图像空间内容的深度特征图。通过适当的设置（例如，内核大小、填充等），输出的空间大小与解码器图3显示了全局和局部坐标3.2.1调制周期激活网络最近，具有周期性激活函数的神经网络[33，26]在重建高保真图像和视频方面表现出出色的性能。我们使用类似的双MLP架构，也称为调制周期性激活神经网络[26]，用于我们的解码器，并进行调整以解决SISR任务。我们的N层解码器（即，N层调制和N层合成）可以递归地写为m0=ReLU（w0z+b0），（2）s0=m0<$sin（w0′p+b′0），（3）mi=ReLU（wi[si−1z]+bi），（4）输入图像。因此，给定查询位置的一组坐标，我们可以通过交互对其相应的特征进行采样。si=mi n（wi′si−1 +b′i），（5）极化3.1.1特征展开根据以前的工作[6，15]，在插值之前，我们通过应用核大小为3的特征展开来丰富特征图。也就是说，我们将3深度特征的每个像素周围的3个邻域地图，增加了9个通道由于我们隐式解码器处理连续查询并且预测是局部连续的，我们选择最近的插值以避免额外的平滑约束以及双线性或双三次插值带来的伪像。对于任何查询位置，编码器有效地向解码器提供深度特征图中最近的特征。如（1）中所表达的，gγ（L）（x，y）学习L的特征图，并且允许查询与坐标（x，y）相关联的内容特征（经由最近插值）。3.2. 解码器解码器以目标分辨率预测SR图像中每个像素处的信号。我们的隐式解码器使用内容特征（来自编码器）和位置特征进行预测。对于SISR，查询位置的位置特征通常包含有关其与最近LR像素（中心）的相对位置的信息以及有关比例因子的一些信息[15]。我们将参考像素相对于图像中心的位置的坐标称为全局坐标。因此，我们将参考像素相对于其最近LR像素的位置的坐标称为局部坐标。在我们的方法中，全局坐标允许唯一地识别每个像素并计算其最近的LR像素，而局部坐标用作输入，4940其中w、w′、b和b′是权重和偏置，z是内容特征，p是位置特征。然后，si的最后输出通过最终密集层（没有激活）以输出预测的SR信号。我们的方法和[26]之间的两个主要区别如下。(i) [26]中图像重建实验中的z向量表示一个补丁，而我们的表示LR图像中的一个通常，粗粒度特征与更高级别的语义信息相关联，因此可能会错过低级别的细节（例如，边缘、拐角等），这对SISR至关重要此外，像素级表示在SISR文献中一直因此，我们选择最细粒度的表示（即，像素级）。我们的编码器的架构反映了这种选择。(ii) 在（4）中，我们使用前一个合成层（而不是[26]中的前一个调制层）的输出和潜在特征向量的级联作为后一调制层的输入。我们认为，合成网络的输出是渐进的更细化到不同的查询位置，因此提供更好的信息，调制网络，而潜在的特征向量作为残留反馈。我们在第4节中展示了我们的修改对[26]的好处。与最接近的竞争框架LIIF [6]相比与LIIF不同，其中内容特征（z）和位置特征（p）是4941高档比数据集规模×2×3×4方法PSNRSSIMLR-PSNRPSNRSSIMLR-PSNRPSNRSSIMLR-PSNR双三31.060.893740.3828.260.813839.4526.70.75338.68DIV2K[15]第十五话LIF [6]34.6434.460.9380.936757.1353.6330.9130.810.87360.872454.9352.2328.8928.880.81730.816353.1950.95DIINN（我们的）34.630.93855.9630.930.874153.6528.980.819352双三28.270.831638.5425.880.717138.1924.640.641137.93B100[15]第十五话LIF [6]29.2330.660.86510.889141.552.2727.5127.680.78230.786248.651.6725.9426.170.7010.709747.3650.61DIINN（我们的）30.690.889652.6227.730.787352.3626.220.711950.82双三31.810.909740.7728.630.838538.7926.70.773937.29Set5[15]第十五话LIF [6]35.6835.50.94390.942757.2154.0631.632.150.88780.900848.8252.6129.9529.920.86050.860153.7950.52DIINN（我们的）35.670.943856.3832.260.90254.230.060.863151.89双三28.330.843738.2525.740.741337.1824.240.664836.57产品14[15]第十五话LIF [6]30.931.150.88970.891952.9351.5727.6528.040.80050.808346.5150.4326.2526.340.73830.740750.6149.22DIINN（我们的）31.290.893753.9228.140.810151.5326.430.743750.33双三25.440.828435.5423.010.715135.0221.690.633434.64Urban100[15]第十五话LIF [6]29.3230.020.9070.914747.5348.9225.5326.290.81520.829642.7948.3424.1224.290.75070.755548.3547.33DIINN（我们的）30.290.917651.226.460.833749.6724.490.762448.75表1：与最先进的SISR方法的比较，这些方法允许在训练尺度上进行任意尺度上采样规模×2。5×3。5方法PSNRSSIMLR-PSNRPSNRSSIMLR-PSNR双三29.410.851439.8927.390.78139.02[15]第十五话31.360.889846.129.210.830547.18LIF [6]32.290.903652.9329.730.842751.62DIINN（我们的）32.340.904653.4329.820.84552.39表2：与最先进的SISR方法的比较，这些方法允许在DIV2K数据集上以“间”尺度进行任意尺度上采样连接并馈送到单分支解码器，我们将这些特征解耦合并使用两个单独的分支，同时允许两个分支之间的交互我们表明并计算相应的局部坐标，这产生与目标分辨率相同的空间大小的张量，其中x和y具有2个通道。我们在第4节中，我们的方法既好又快。附加到它1，并表示，3.3. 架构细节请注意，虽然我们以逐点的方式呈现我们的方法，但在实践中，我们实现了处理整个图像的模型。我们使用RDN [41]，没有上采样模块，作为编码器。我们的解码器由两个4层MLP（每个有256个隐藏单元）组成，如第3.2节所述。我们将MLP实现为具有256个大小为1的内核的卷积层。如第3.1节所述，在将LR图像馈送到编码器之后，我们获得了具有64个通道的相同空间大小的深度特征图。然后，我们执行最近的插值，从而有效地增加深度特征图的空间大小，使其与目标分辨率相同。（2）的右手侧将该上采样的深度特征图（表示为z）作为输入。然后，我们构建一个2D网格4942连接为p。(3)将这个连接的张量作为输入。最后，我们传递合成网络的输出（sN−1）通过核大小为1的卷积层来产生预测的SR图像。4. 实验在本节中，我们提出了一个实验评估的DIINN的SISR。我们概述了第4.1节中使用的数据集和指标，以及第4.2节中的训练细节。在第4.3节中，我们强调了我们在流行数据集上的基准结果，并提供了与最先进方法的比较。我们在第4.4节中讨论并说明了我们在各种图像尺度上的定性结果。最后，我们在第4.5节中介绍了消融研究。4943××联系我们×≈× × ××× × × ××规模×6×8×10×15方法PSNRSSIMLR-PSNRPSNRSSIMLR-PSNRPSNRSSIMLR-PSNRPSNRSSIMLR-PSNR双三24.870.676137.7523.750.632637.1422.950.605636.7221.630.5736.02[15]第十五话26.530.729449.5125.130.670446.6424.180.63345.1622.630.581943.27LIF [6]26.650.736849.325.320.686548.324.380.652747.5522.820.603846.49DIINN（我们的）26.740.740450.1825.410.689849.1724.460.655748.4822.890.606347.55表3：与允许在“外部”尺度上对DIV2K数据集进行任意尺度上采样的最先进SISR方法的比较输出大小(128×128）(256×256）(512×512）方法运行时间（ms）双三0.110.150.49[15]第十五话50.2769.27162.22LIF [6]73.36185.42693.27DIINN（我们的）56.695.51243.59表4：以毫秒为单位的运行时比较。输入是大小为（48 48）的单个RGB图像。我们报告了每种方法和SR大小在单个NVIDIA Quadro RTX 3000上运行超过100次的正向传递的平均运行时间。双立方仅供参考。4.1. 数据集和指标DIV2K数据集[1]是为SISR [36]上的NTIRE 2017挑战发布的，由1000张HR图像组成，每张图像的高度或宽度等于2040。我们的模型使用800张HR图像进行训练。我们不重新训练，并且在以下四个标准基准数据集上测试模型时保留所有超参数：DIV2K验证集（100个HR图像）、集5、集14、BSD 100 [25]和Urban100[16]。使用峰值信噪比（PSNR）[17]和结构相似性指数测量（SSIM）[38]评估结果。此外，我们通过测量LR-PSNR来评估LR一致性。LR-PSNR被计算为具有相同双三次核的下采样SR图像和下采样地面实况HR图像之间的PSNR。4.2. 培训详细信息我们的训练过程类似于[15，6]。对于每个比例因子s二、三、四和HR图像中，我们随机裁剪了一个48s48s的补丁，并通过Torchvision[29]中提供的调整大小功能我们随机应用水平、垂直和/或对角翻转，每个翻转的概率为0.5。使用了一小批4个HR图像，这导致了三个尺度上的12对LR和HR图像。我们训练了我们的模型1000个epoch，其中每个epoch是DIV2K训练集中800个HR图像的完整通道，使用Adam [22]优化器和PyTorch[29]提供的默认超参数。学习率初始化为10−4，每200个epoch减半。为了确保公平的比较，我们遵循以前的工作[15，6]并使用L1损失来训练我们的网络。4.3. 基准测试结果我们将DIINN与允许任意尺度上采样的其他方法进行了比较，即Meta-SR [15]和LIIF [6]。我们在相同的设置下重新训练了Meta-SR和LIIF。在表1-3中，我们显示了训练模型所用的上采样尺度上的结果（例如，2、3和4），二、5和 3（5），和the六、8、10和15）。人权事务图像按每个尺度下采样，以用于并且SR图像具有与HR图像相同的尺寸。对于训练模型的尺度（表1），我们观察到在PSNR和SSIM方面，DIINN仅在两种设置（DIV 2K和Set 5的2两个和此外，我们在表4中报告了具有相同输入和输出大小的所有方法的推理时间。结果证实，我们的框架是有竞争力的最先进的性能和概括性。4.4. 定性结果在图4中，我们展示了双三次插值（第一列）、Meta-SR（第二列）、LIIF（第三列）和DIINN（最后一列）之间的定性比较。SR预测跨所有方法从相同LR输入获得（经由双三次插值以2 π 6的因子下采样）。（28）规模不断扩大。我们表示每行图像的大小和每列的方法正如预期的那样，双三次插值只能平滑LR图像，无法恢复清晰的细节。SR图像4944图4：Urban100数据集图像块的定性结果。由Meta-SR预测的图像具有伪影，特别是在对应于LR像素的边缘的边界位置周围。我们观察到 LIIF 和DIINN的结果明显更好，这表明了隐式解码器对SISR的好处。与LIIF相比，DIINN产生更清晰的边缘和细节。请注意，如果我们放大我们方法的结果，我们可以看到与Meta-SR类似的伪影，但区别要小得多。LIIF通过在一个小窗口内平均预测来克服这些类型的被称为“本地集合”。然而，正如我们在图4的第三列中观察到的，“局部系综”以更高的计算成本引入了更钝的边缘。我们还注意到，当LR输入具有更高质量时（例如，以4或更小的因子下采样的HR图像）。4.5. 消融研究为了更仔细地检查我们架构的设计选择，我们对4945规模×3。14×4×8MI型IPPSNRSSIMLR-PSNRPSNRSSIMLR-PSNRPSNRSSIMLR-PSNR(a)[m]是的 25.670.810547.524.070.746547.2520.680.564345.75(b)[m]没有25.780.81447.9324.170.750648.0220.740.567346.42(c)[m z]是的 25.890.816848.7324.260.753848.2620.770.570446.26(d)[m z]没有26.070.821849.1124.420.759848.8820.870.576247.05(e)[s z]是的 25.930.817948.5824.30.755548.1220.80.572545.95(f)[s z]没有26.140.823349.424.490.762448.7520.910.579846.23表5：Urban100数据集的定量消融研究。“MI” stands for the modulation inputs (到后续调制层的输入），并且双隐式解码器在表5中，我们总结了Urban100数据集上六个变量的定量结果。请注意，模型（f）是我们的最终模型，我们使用它来报告前面表格中的结果。4.5.1调制输入首先，我们通过以下三种方式调整调制网络的输入1. 对于模型（a）和（b），每个后续调制层仅将其先前调制层的输出作为输入，并且去除到内容特征（z）的残余连接。使用以下等式代替（4）：mi=ReLU（wimi−1+bi）。（六）2. 对于模型（c）和（d），每个后续调制层将其先前调制层的输出和内容特征的级联使用以下等式代替（4）：mi=ReLU（wi[mi−1z]+bi）.（七）3. 对于模型（e）和（f），每个随后的调制层将连续合成层的输出和内容特征的级联作为输入，如（4）中所表达的。比较模型（a）和（c），或模型（b）和（d），我们观察到，向内容特征（z）添加跳过连接这种性能的提升伴随着调制网络中的附加参数。尽管如此，比较模型（c）和（e），或者模型（d）和（f），我们发现，通过简单地使用先前合成层的输出而不是先前调制层的输出，我们可以在没有额外成本的情况下增加PSNR和我们注意到，通过LR-PSNR测量的SR图像相对于LR输入的一致性在模型（c）和（d）中更好。(d)与模型（e）和（f）相比，在更大的比例因子下。4.5.2位置特征接下来，我们探索一种将位置特征与特征展开操作（第3.1节）引入我们尝试通过在解码器的开始处添加具有正弦激活的初始化密集层（即，在我们执行之前（2））。以下等式用于转换位置和内容特征：p←sin（wip+bi），（8）z←p z.（九）直观地说，我们希望这个初始化层决定相应邻域中每个LR像素的权重，这可以被视为一个可学习的距离加权函数。如表5所示，尽管在我们的模型中允许更多的灵活性，但我们观察到三种变化（第4.5.1节）均未5. 结论在本文中，我们利用内隐表征的学习来开发一个用于SISR的双重交互式内隐网络我们的方法允许任意的比例因子，而不需要训练多个模型。通过对许多设置和数据集进行广泛的实验评估探索如何将我们的架构转换为更大的感受野，以及改进编码器和解码器之间的交互，我们还将考虑调整我们的方法来学习预测空间，以解决SISR的不适定性致谢作者感谢德克萨斯大学奥斯汀分校的德克萨斯高级计算中心（TACC）提供的软件、计算和存储资源，这些资源为本文报告的研究结果做出了贡献4946引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率：数据集和研究。在IEEE/CVF计算机视觉和模式识别研讨上，第126[2] Matan Atzmon和Yaron Lipman。销售：从原始数据中学习形状的符号不可知性。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第2565-2574页，2020年。[3] K Bai，X Liao，Q Zhang，X Jia，and S Liu.基于学习的单幅图像超分辨率重建技术综述模式识别和图像分析，30（4）：567[4] Mojtaba Bemana ， Karol Myszkowski ， Hans-PeterSeidel，and Tobias Ritschel. X场：隐式神经视图，光和时间图像插值。 ACM Transactions on Graph-ics ， 39（6）：1[5] Rohan Chabra ， Jan E Lenssen ， Eddy Ilg ， TannerSchmidt，Julian Straub，Steven Lovegrove，and RichardNewcombe.深局部形状：学习局部sdf先验，用于详细的3d重建。欧洲计算机视觉会议论文集，第608-625页。Springer，2020年。[6] Yinbo Chen，Sifei Liu，and Xiaolong Wang.用局部隐式图像函数学习连续图像表示在IEEE/CVF计算机视觉和模式识别会议论文集，第8628-8638页，2021年。[7] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页[8] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE/CVF计算机视觉和模式识别会议论文集，第6970-6981页[9] Julian Chibane、Aymen Mir和Gerard Pons-Moll。Neuralunsigned distance fields for implicit function learning.神经信息处理系统进展论文集，第21638-21652页，2020年[10] https://github.com/robotic-vision-lab/ 双交互隐式神经网络。[11] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEETransactionsonPatternAnalysisandMachineIntelligence，38（2）：295[12] Chao Dong，Chen Change Loy，and Xiaoou Tang.加速超分辨率卷积神经网络。在欧洲计算机视觉会议论文集，第391-407页。施普林格，2016年。[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。Proceedings of theAdvances in Neural Information Processing Systems，27，2014。[14] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于超分辨率的深反投影网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第1664-1673页[15] Xuecai Hu ， Haoyuan Mu ， Xiangyu Zhang ， ZileiWang，Tieniu Tan，and Jian Sun. Meta-sr：一个用于超分辨率的放大任意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第1575-1584页[16] Jia-Bin Huang，Abhishek Singh，and Narendra Ahuja.从变换的自我样本的单个图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第5197-5206页[17] Michal Irani和Shmuel Peleg。用于图像增强的运动分析：分辨率、遮挡和透明度。 Journal of VisualCommunication and Image Representation，4（4）：324[18] Chiyu Jiang，Avneesh Sud，Ameesh Makadia，JingweiHuang，Matthias Nießner，Thomas Funkhouser，et al.三维场景的局部隐式网格表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第6001-6010页[19] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议论文集，第694-711页中。施普林格，2016年。[20] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络的精确图像超分辨率。 IEEE/CVF会议论文集计算机视觉和模式识别，第1646- 1654页，2016年。[21] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第1637-1645页[22] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。在2015年学习代表国际会议的会议记录中[23] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.单图像超分辨率的增强深度残差网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第136-144页[24] Cheng Ma，Peqi Yu，Jiwen Lu，and Jie Zhou. 恢复真实细节实现任意放大倍数图像超分辨率。 IEEETransactions on Image Processing，2022。[25] David Martin Charless Fowlkes Doron Tal和Jitendra Malik人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用。IEEE/CVF计算机视觉国际会议论文集，第2卷，第416-423页，2001年[26] 伊什特·梅塔、米夏·艾尔·加尔比、康奈利·巴恩斯、伊莱·谢克特曼、拉维·拉马莫蒂和曼莫汉·钱德拉克。可推广的局部函数表示的调制周期性激活。在IEEE/CVF国际计算机视觉会议集，第14214[27] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin，and Andreas Geiger.占用网络：4947学习函数空间中的三维重建在IEEE/CVF计算机视觉和模式识别会议论文集，第4460-4470页[28] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数用于形状表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第165-174页[29] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。神经信息处理系统进展的程序，32：8024[30] PengSongyouPeng ， MichaelNiemeyer ， LarsMescheder，Marc Pollefeys，and Andreas Geiger.卷积占有网络。欧洲计算机视觉会议论文集，第523-540页。Springer，2020年。[31] Eduard Ramon 、 Gil Triginer 、 Janna Escur 、 AlbertPumarola、Jaime Garcia、Xavier Giro-i Nieto和FrancescMoreno- Noguer 。 H3 d-net ：少镜头高保真 3d 头部recruitment。在IEEE/CVF计算机视觉国际会议集，第5620-5629页[32] WenzheShi，JoseCaballero，FerencHusza´r，JohannesTotz ， Andrew P Aitken ，Rob Bishop，DanielRueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第1874-1883页[

下载后可阅读完整内容，剩余1页未读，立即下载