局部自回归模型：一种基于自回归模型的图像超分辨率方法，通过使用局部自回归模块进行纹理图像采样，有效地生成真实感的高分辨率图像

145 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

自回归模型

量化指标

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1909LAR-SR：图像超分辨率的局部自回归模型顾柏松1*，张霞云1*<$，吴浩宁1，王玉1，2，张雅1，2，王艳凤1，2<$1上海交通大学合作媒体网创新中心，2上海人工智能实验室{stilltoojiang，xiaoyun. zhang，whn15698781666，yuwangsjtu，yaz h a n g ，wangyanfeng}@ sjtu.edu.cn摘要以前的超分辨率（SR）方法通常将SR公式化为回归问题和逐像素消除，这导致模糊和不真实的SR输出。最近的作品将对抗性损失与像素损失相结合，以训练基于GAN的模型，或将归一化流引入SR问题，以生成更逼真的图像。自回归（AR）模型作为基于自然图像中的纹理细节在给定结构信息的情况下是局部相关的而不是长期依赖的这一事实，本文提出了一种新的基于自回归模型的超分辨率方法（LAR-SR），该方法使用一种新的局部自回归（LAR）模型，能够有效地生成真实感的LAR模块可以并行地对所有纹理图像进行采样，大大减少了采样时间。除了高时间效率之外，它还能够利用像素的上下文信息，并且可以在一致的损失下进行优化。在广泛使用的数据集上的实验结果表明，与GAN、Flow等生成模型相比，LAR-SR方法在视觉质量和量化指标上都具有更好的性能，与混合生成模型相比具有竞争力.1. 介绍近年来，基于深度学习的图像超分辨率（SR）方法取得了很大进展[5，14，33]。大多数现有的方法将图像SR表示为逐像素回归问题，该问题使用诸如L1或MSE的逐像素损失进行优化。由于图像超分辨率问题本质上是一个不适定问题，当用高分辨率图像和低分辨率图像之间的多对一映射进行训练时，基于回归的模型，采用逐像素损失设计，倾向于采用均值-方差模型。*同等贡献（共同第一作者）。†通讯作者。图1.基于回归的方法（a）的目的是最小化逐像素损失，即，地面真实值和输出之间的MSE损失或L1损失，这导致图像模糊，缺乏细节。我们的算法是基于自回归方法（b），它考虑了相邻像素之间的关系根据HR数据集，第一像素具有3/4的概率为0和1的概率为1/4。一旦我们将第一个像素采样为0，第二个像素的后验概率为0的2/3，后验概率为1的1/3等。所有可能的HR图像，从而遭受模糊和不真实的SR图像。参见图1（a）的说明。为了生成更逼真的图像，最近已经将基于生成对抗网络（GAN）[7]的模型和基于流[4这两种类型的方法并行生成所有像素，其中像素之间的相关性隐式地嵌入在潜在空间中在训练过程中，神经网络或可逆网络将正态分布映射到像素的联合分布。因此，与传统的基于回归的模型相比，基于GAN和基于Flow的模型可以生成高保真的细节。然而，基于GAN的模型提出了联合优化的挑战，而基于Flow的模型受到特定可逆网络的限制。作为另一种强大的生成模型，自回归模型最近在图像合成任务中进行了探索[6]，该模型表达了其输入之间的关系。由于驯服Transformer [6]是为一般的IM设计的1910×在通过顺序采样对长范围关系进行建模来获得对输入的全局理解的年龄合成中，这种表达性建模的一个巨大挑战是其对于长序列（尤其是对于高分辨率图像）在计算上的不可行性。虽然已经采用了以滑动窗口方式的逐块处理来加速，但是其计算成本仍然基于图像的大小，并且特别是对于超过高清（HD）分辨率的超分辨率是不可接受的。针对超分辨率任务，在LR输入下，我们可以通过一个简单的回归模型得到一个粗略的SR结果，该结果已经包含了主要内容和语义结构。因此，我们只需要表达模型来生成额外的纹理细节或图像的高频分量，可以局部建模（实验也验证了这一假设）。因此，在本文中，我们建议利用回归和自回归模型。通过回归模型获得粗糙的SR，利用我们提出的LAR-SR模型，我们可以利用学习的纹理码书，通过局部自回归模型高效地生成纹理细节。具体来说，对于纹理细节生成，我们将图像划分为不重叠的补丁，并且所有补丁中的像素由局部自回归模块并行采样，如图2所示。因此，由于并行性，时间消耗显著减少。更重要的由于该纹理码书仅用于生成纹理细节，因此更容易学习。利用从VQVAE学习的纹理码书和从回归模型学习的粗SR，所提出的LAR-SR方法可以以块方式和并行模式有效地生成纹理细节。我们的主要贡献可概括如下：• 本文提出了一种新的局部自回归超分辨率框架，该框架综合利用了回归模型和自回归模型的优点，能够生成细节逼真、计算效率高的超分辨率图像。据我们所知，它是第一个为超分辨率任务设计的基于AR的框架。• 本文提出了一种新的局部自回归（LAR）模型，通过VQVAE学习的纹理码书和回归模型的粗SR，以分片并行方式有效地生成纹理细节。• 我们构造了两个超分辨率任务的广泛实验：一般超分辨率和人脸超分辨率图2.我们的局部自回归方法的例子，补丁大小为4 4。所有的像素都是由它们的位置标记的在每一个补丁。并行地对相同的标记像素进行采样。因此，采样时间复杂度仅取决于补丁的大小。分辨率三个流行数据集（DIV 2k [1]，celebA [15]和FFHQ [10]）的客观质量指标和视觉结果表明，与基线方法相比，LAR-SR可以产生最2. 相关工作2.1. 面向感知的超分辨率基于回归的方法，如RCAN [33]，RRDB[28]和EDSR [14]旨在追求像素级恢复，其受到模糊SR图像的影响。如部分(a)在图1中，多个高分辨率图像对应于退化后的相同低分辨率图像，并且减少像素方式的损失导致不真实的图案。因此，面向感知的方法，包括基于GAN和基于流的模型被提出来生成更真实的SR图像。基于GAN的模型是面向感知的超分辨率最流行的生成模型。SRGAN [12]将对抗性损失与感知损失[9]结合起来，以提高视觉质量。SFTGAN [27]提出了一种新的空间特征变换，以结合语义先验来生成丰富而逼真的纹理。ESR- GAN [28]通过修改架构和损失函数来增强原始SRGAN。此外，最近的工作将归一化流[4]引入到超分辨率任务中.基于流的SR模型SRflow [16]将归一化流引入超分辨率任务。然后HCflow [13]采用基于SRFlow的多层结构以实现更好的性能。此外，HCFlow++ [13]结合了基于Flow和基于GAN的模型，以生成更逼真的SR图像。基于GAN和基于Flow的模型都隐式地对像素之间的相关性进行建模，并且如我们所提到的那样有自己的局限性。因此，我们适应自回归模型的超分辨率明确建模像素级的相关性与灵活的网络结构，它可以通过一个单一的一致性损失进行优化。1911K∥··∥−{|}↓↓·图3.基于回归的方法和LAR-SR的数据流程。LAR-SR将图像分为结构成分和纹理细节。一个基于回归的模块被用来恢复的基本结构，和细节，然后通过一个局部自回归（AR）模块的基础上恢复的结构进行采样2.2. 自回归模型自回归模型是一种常见的概率模型，它通过强大的生成和稳定的训练过程完全分解概率密度函数。Pixel-RNN [24]和PixelCNN [19]是第一个提出的用于图像生成的基于AR的模型。为了改进Pixel-CNN模型，PixelCNN++ [21]用逻辑混合似然替换了完整的256路softmax来估计像素的分布。另一方面，VQVAE [20]被提出来学习离散表示，该表示被用来使用PixelCNN构建强大的生成模型。此外，Taming Transformer [6]将VQVAE与对抗损耗和Transformer [25]结合用于图像生成。自回归模型在图像生成中已经显示出了很好的效果。但由于其严重的时间复杂度，它仍然不适用于低级别的任务。我们提出的LAR-SR算法将自回归模型应用于超分辨率领域。LAR-SR首先仅为自然图像中的纹理细节分量生成离散表示，然后通过新颖的局部自回归模块（如图2所示）利用该离散表示。因此，时间消耗大大减少，而模型可以生成-得到了一个高保真的超分辨率图像3. 方法我们的LAR-SR模型遵循两个阶段的方法：在第一阶段，纹理VQVAE（tex-VQVAE）提取和编码图像中的纹理细节的成分到一个离散的潜在空间。局部自回归模型提出在第2阶段的基础上从第1阶段获得的潜在的代表性如图3所示的数据流，输出图像的结构分量是从回归网络生成的，即，粗略SR模块。两个阶段的优化是单独的，即，学习的tex-VQVAE在阶段2中被固定。更多详细信息见附录-网络结构的尾巴。3.1. 阶段1：纹理VQVAEVQVAE[20]设计了一个离散的可学习码本，其中图像的所有分量都包含在用于图像生成的潜在表示中。针对超分辨率问题，基于回归的方法能够很好地恢复图像的结构成分，本文提出了纹理VQVAE（tex-VQVAE）算法，以关注自然图像中的纹理细节。tex-VQVAE包括编码器E（）和解码器D（）.给定输入HR x，使用编码器y=E（x）获得其在每个逐像素位置（i，j）处的特征向量yi，j。然后，特征向量yi，j被其在纹理码本z = z kk1.中的最接近的原型类型向量替换。K以获得其量化表示y∈i，j。如等式（1）中所述，根据特征向量yi，j和zk之间的距离来确定该映射。y∈i，j=zl，其中l=ar gmin∈yi，j-zk∈，（1）我们将映射索引表示为I，即I中的元素，即，I（m，n）可以通过I（m，n）=argminkym，n zk获得，如图4中的阶段1所示。码本将索引映射回对应的向量以得到y_i。与VQVAE不同，在所提出的模型中，来自粗SR模块C（）的额外输入被添加到解码器，即，其中xc=C（x）是粗糙SR图像，以通过基于回归的方法恢复结构成分。注意，表示降解过程（例如，本文中的双三次）用于生成训练对。因此，由于额外的输入，码本可以更多地关注于纹理分量以恢复图像。同时，tex-VQVAE的目标是缩小x和输入x之间的距离。承诺损失和码本损失也被应用于解决编码器中的不可导出操作[20]。总目标可以用公式表示为等式（2）：L（x，x，xc）=x−x+sg[y]−y+βsg[y]−y+xc−x，（2）其中，算子sg是指停止梯度运算，β是超参数。改性后的tex-VQVAE可用于提取和重结晶纺织品的质地成分。总之，由编码器网络提取的特征图以因子2进行下采样，然后由码本量化。在我们的设计中，量化表示主要是纹理细节的组成部分。同时，将低分辨率图像输入到粗超分辨率模块。量化表示和粗糙SR图像都是解码器的输入，解码器由于解码器从输入中接收结构和纹理分量，因此它可以准确地恢复整个图像。1912∗（一）（一）（一）（一）J图4.所提出的LAR-SR的整体流水线。该架构遵循两个阶段的方法：在第一阶段，纹理VQVAE（tex-VQVAE）提取和离散化训练数据集中的HR图像的纹理分量。然后在阶段2中，在纹理分量的嵌入上训练局部自回归模型3.2. 第二阶段：局部自回归模型阶段2的目标是学习在以对应的粗略SR图像xc为条件的纹理指标I上具有交叉熵损失的后验概率分布，其实际上优于原始LR图像。传统自回归模型的主要思想是相邻面片的边界和生成数据的一致性。为了实现这一点，每个补丁中的像素以相同的方式顺序标记。作为图2中的示例，对于大小为4 × 4的块，所有像素都通过其位置从1到16进行标记，并按顺序进行采样，其可以公式化如下：将联合概率分布转换为con-kk的乘积分布：nPθ（I|xc）=YPθ（I（i）|I（

下载后可阅读完整内容，剩余1页未读，立即下载