基于残差量化的自回归图像生成

87 浏览量更新于2023-10-25 收藏 837KB PDF 举报

高分辨率图像

矢量量化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11523×××基于残差量化的自回归图像生成Doyup Lee*POSTECH，KakaoBraindoyup. postech.ac.krChiheonKim*KakaoBrainchiheon.kim邮件kakaobrain.com金嘉考·布莱恩shkim@kakaobrain.com赵敏秀mscho@postech.ac.kr韩旭信POSTECHwshan@postech.ac.kr摘要对于高分辨率图像的自回归（AR）建模，矢量量化（VQ）将图像表示为离散码序列。短序列长度对于AR模型降低其计算成本以考虑码的长程相互作用是重要的。然而，我们假设，以前的矢量量化不能缩短代码序列，并产生高保真图像在率失真权衡。在这项研究中，我们提出了两个阶段的框架，其中包括残余量化VAE（RQ VAE）和RQ变压器，有效地产生高分辨率的图像。给定一个固定的码书大小，RQ- VAE可以精确地近似图像的特征图，并将图像表示为离散码的堆叠图然后，RQ-变换器通过预测下一个代码堆栈来学习预测下一个位置处的量化特征向量。由于RQ-VAE的精确近似，我们可以将256 256图像表示为8 8分辨率的特征图，并且RQ-Transformer可以有效地降低计算成本。因此，我们的框架在无条件和有条件图像生成的各种基准上表现出现有的AR模型。我们的方法也有一个显着更快的采样速度比以前的AR模型生成高质量的图像。1. 介绍矢量量化（VQ）成为自回归（AR）模型生成高分辨率图像的基本技术[5，11，12，33，40]。具体而言，在图像的特征映射通过VQ量化并通过诸如光栅扫描的排序重新排列之后，图像被表示为离散代码的序列[30]。在量化之后，训练AR模型以顺序地预测编码*同等贡献†通讯作者图1.我们的条件生成256 256图像的例子。第一行中的图像是从ImageNet的类中生成的第二行中的图像是从文本条件（和“蓝色海洋上的樱花树”）。文本条件在训练期间不可见。顺序也就是说，AR模型可以生成高分辨率图像，而无需预测图像中的整个像素。我们假设，减少序列长度的代码是重要的AR建模的图像。短的代码序列可以显著降低AR模型的计算成本，因为AR使用先前位置的代码来预测下一个代码。然而，先前的研究在降低图像的序列长度方面具有限制，这与率失真权衡有关[38]。也就是说，VQ-VAE[40]需要指数增加的大小，11524××Q（z; C）= arg min <$z − e（k）<$。（一）QC∈∈该方法可以使用码本来降低量化特征图的分辨率，同时保持重构图像的质量。然而，巨大的码本会导致模型参数的增加和码本崩溃问题[8]，这使得VQ-VAE的训练不稳定。在这项研究中，我们提出了一个残差量化 VAE（RQ-VAE），它使用残差量化（RQ）来精确地近似特征图，并降低其空间分辨率。RQ不是增加码本大小，而是使用固定大小的码本以从粗到细的方式递归地对特征图进行重排序。在RQ的D次迭代之后，特征图被表示为D个离散代码的堆叠图。由于RQ可以组成与码本大小D的幂一样多的向量，因此RQ-VAE可以精确地近似特征图，同时保存编码图像的信息而无需巨大的码本。因此，RQ-VAE可以比以前的研究进一步降低量化特征图的空间分辨率[12，33，40]。例如，我们的RQ-VAE可以使用8 - 8分辨率的特征映射的AR建模的256 256图像。此外，本发明还提供了一种方法，我们提出RQ-变压器来预测RQ-VAE提取的编码。对于RQ- Transformer的输入，RQ-VAE中的量化特征图被转换成特征向量序列。然后，RQ- Transformer预测下一个D码以估计下一位置处的特征向量。由于RQ-VAE降低了特征映射的分辨率，RQ-Transformer可以显着降低计算成本，并轻松学习输入的远程交互。我们还提出了两种训练技术的RQ-变压器，软标记和随机采样的代码的RQ-VAE。他们通过解决RQ-变压器培训中的暴露偏差[34]进一步提高了性能。因此，我们的模型可以生成图1中的高质量图像。我们的主要贡献总结如下。1)我们提出RQ-VAE，它表示一个图像作为一个堆叠的离散代码的地图，同时产生高保真度的重建图像。2)我们提出了RQ- Transformer来有效地预测RQ-VAE的代码，并提出了解决暴露偏差的训练技术。3)我们证明了我们的方法优于以前的AR模型，并显着提高了生成图像的质量，给出了VQ-VAE的编码。VQ-GAN [12]使用adversarial[14，20]和感知损失[25]提高了重建图像的感知质量。然而，当特征图的分辨率进一步降低时，由于码书的大小有限，VQ-GAN不能精确地近似图像的特征图。在其它应用中的矢量量化在其它应用中已经使用复合量化来将矢量表示为用于在给定码本大小下精确近似的码的组合[1，13，15，26对于最近邻搜索，乘积量化（PQ）[15]将矢量近似为码本中线性独立矢量的和。作为PQ的广义版本，加法量化（AQ）[1]使用码本中的相关向量，但找到代码是NP难任务[6]。残差量化（RQ，也称为堆栈量化）[22，28]迭代量化向量及其残差，以将向量表示为代码堆栈，其已用于神经网络压缩[13，26，27]。我们的RQ- VAE采用RQ离散化图像的AR建模的图像的特征图，并使用一个共享的代码簿的所有量化步骤。3. 方法我们提出了一个两阶段框架，使用RQ-VAE和RQ-Transformer对图像进行AR建模（见图2）。RQ-VAE使用码本将图像表示为D离散码的堆叠映射然后，我们的RQ-变压器自回归预测下一个D码在下一个空间位置。我们还介绍了我们的RQ-Transformer如何在AR模型的训练中重新解决曝光偏差[343.1. 第1阶段：残差量化VAE在本节中，我们首先介绍了VQ和VQVAE的制定。然后，我们提出了RQ-VAE，它可以精确地近似一个特征图，而不增加码书的大小，并解释了RQ-VAE如何表示图像作为一个堆叠的离散码的地图。3.1.1VQ和VQ-VAE的制定计算成本和采样速度。设码本C是有限集合{（k，e（k））}，其中2.相关工作由一对代码k组成及其k∈[K]代码嵌入图像合成的AR建模AR模型已经显示出图像生成的有希望的结果[5，11，12，29，35、40]以及文本[4]和音频[8]生成。AR原始像素的建模是可能的[5，30，31，36]，但由于生成图像的速度慢和质量低，因此对于高分辨率图像是不可行的。因此，以前的研究结合了VQ-VAE [12]，它使用VQ将图像表示为离散代码，并使用AR模型来预处理图像。e（k）Rnz，其中K是码本大小，nz是码嵌入的维度。给定一个向量zRnz，（zi）表示z的VQ，它是嵌入最接近z的代码，即，22k∈[K]VQ-VAE将图像编码成离散码图后，从编码图中重构出原始图像11525RQ-VAE（第1阶段）RQ-变压器（第2阶段）上下文+ POS. EMB.嵌入重塑深度POS. EMB.空间Transformer∈∈C|C|∈DCDi=1 e（ki）作为多达d个代码嵌入的部分和，图像（256x256）编码器重建解码器深度图2.概述了我们的两阶段图像生成框架组成的RQ-VAE和RQ-Transformer。在阶段1中，RQ-VAE使用残差量化器将图像表示为D=4个代码的堆栈。在代码的堆叠映射被重塑之后，RQ-Transformer预测下一个位置处的D代码。更多详情见第3节。编码的代码映射。设E和G是VQ-VAE的编码器和给定图像XRHo×Wo×3，VQ-VAE提取特征图Z=E（X）RH×W×nz，其中（H，W）=（H o/f，W o/f）是Z的空间分辨率，f是下采样因子。通过将VQ应用于其中，码本的大小 =K，k d是深度d处z的代码。从第0个残差r0= z开始，RQ递归地计算k d，这是残差rd−1的代码，下一个残差rd为每个位置处的每个特征向量，VQ-VAE量化Z并返回其代码图M∈[K]H×W及其量化特征图Z∈RH×W×nz，kd=Q（rd−1;C），rd=rd−1−e（kd），（四）当d=1时，D.此外，我们定义z（d）为其中ZhwRnz是（h，w）处的特征向量，Mhw是其代码。最后，输入被重构为X=G（Z）。我们注意到，由于AR模型的计算成本随着HW的增加而增加，因此，对于AR建模，恢复Z的空间分辨率（H，W）是重要的。然而，由于VQ-VAE对图像进行有损压缩，因此在减少（H，W）和保存X的信息之间存在折衷。具体地，具有码本大小K的VQ-VAE使用HWlog2K比特来将图像表示为代码。注意，最佳可实现的重构误差取决于速率失真理论[38]中的比特数因此，为了进一步将（H，W）减少到（H/2，W/2）但保持重构质量，VQ-VAE需要大小为K4的码本。然而，由于具有不稳定训练的码本塌陷问题[8]，具有大码本的VQ-VAE是低效的3.1.2残余量化我们不增加码本大小，而是采用残差量化（RQ）来离散化向量z。给定量化深度D，RQ将z表示为有序D码RQ（z;C，D）=（k1，···，kD）∈[K]，（3）并且z=z（D）是z的量化向量。RQ的递归量化以从粗到细的方式近似矢量z。注意，z∈（1）是码本中最接近z的代码嵌入e（k1）。然后，剩余的代码随后被选择，以减少在每个深度的量化误差。因此，当d增加时，直到d的部分和z（d）提供了更精细的近似。虽然我们可以为每个深度d单独构造码本，但是单个共享码本用于每个量化深度。共享码本对于RQ近似向量z具有两个优点。首先，使用单独的码本需要广泛的超参数搜索来确定每个深度处的码本大小，但是共享码本仅需要确定总码本大小K。第二，共享码本使得所有代码嵌入对于每个量化深度都可用。因此，代码可以在每个深度使用，以最大限度地提高其效用。我们注意到，RQ可以更精确地近似一个向量比VQ时，他们的码本大小是相同的。VQ将整个向量空间Rnz划分为K个簇，而深度为D的RQ将向量空间最多划分为KD个也就是说，具有D的RQ具有与具有K个D码的VQ相同的分区容量因此，我们可以增加RQ的D，以用指数增长的码本代替VQ深度Transformer残余量化器Mhw=Q（Zhw;C），Zhw=e（Mhw），（2）11526Z=e（M）. HWD∈∈2YYDΣ¨·D¨3.1.3RQ-VAE在图2中，我们提出了RQ-VAE来精确地识别图像的特征图。RQ-VAE也由VQ-VAE的编码器-解码器架构组成，但是VQ模块被上面的RQ模块替换。具体地，具有深度D的RQ-VAE表示特征图Z作为码 M∈[K]H×W×D 的堆叠映射，并提取 Z（ d ）∈RH×W×nz，Z（d）∈ R H × W × n z是d∈[D]的深度d处的量化特征映射，使得Mhw=RQ（E（X）hw;C，D），RQ-VAE的对抗性训练RQ-VAE也通过对抗性学习进行训练，以提高重建图像的感知质量。如先前研究[12]中所述，将基于贴片的对抗性损失[20]和感知损失[21]一起使用我们在补充材料中包括了3.2. 第2阶段：RQ变压器在本节中，我们提出图2中的RQ-Transformer来自回归预测RQ-VAE的代码堆栈。在对RQ-VAE提取的码进行AR建模之后，我们介绍了RQ-Transformer如何有效地D（d）HW（五）学习离散代码的堆叠图。我们还提出了RQ-变压器的训练技术，以防止d'=1或者，在深度D处的量化特征图也由Z* （D）表示。最后，解码器G从Z_n重建输入图像为X_n=G（Z_n）。我们的RQ-VAE可以使AR模型以低计算成本有效地生成高分辨率图像。对于固定的下采样因子f，RQ-VAE可以产生比VQ-VAE更真实的重建，因为RQ-VAE可以使用给定的码本大小精确地近似特征图请注意，重建图像的保真度对于生成图像的最高质量至关重要。此外，RQ-VAE在AR模型的训练中暴露偏差[343.2.1深度为D的在RQ-VAE提取代码映射M[K]H×W×D之后，光栅扫描顺序[30]将M的空间索引重新排列为代码S [K]T×D的2D阵列，其中T = HW。也就是说，作为S的第t行的St包含D代码，DSt=（St1，···，St D）∈[K]，其中t∈[T].（八）将S视为图像的离散潜变量，AR模型学习p（S），其被自回归分解为允许比T D更大的f的增加和（H，W）的减少VQ-VAE，同时保持重建质量。因此，RQ-VAE使AR模型能够降低其计算成本，提高图像生成的速度，并更好地学习代码的远程交互。RQ-VAE的训练为了训练RQ-VAE的编码器E和解码器 G ，我们使用梯度下降，关于损失L=Lrecon+βLcommit，其中乘法因子β >0，重建损失Lrecon和com-recon。承诺损失L定义为Lrecon=X−X2，（6）p（S）=p（Std|S< t，d，St，1，（10）11527C保持训练稳定。通过聚类特征的指数移动平均来更新码本[40]。其中PET（t）是空间位置t的位置嵌入。注意，第二项等于量化的11528t=1···ΣHW−L−×→Q·|方程中的图像的特征向量。五、对于第一个位置的输入，我们将u1定义为可学习的嵌入，它被视为序列的开始。在序列（ut）T被空间Transformer处理之后，上下文向量ht将S1，（12）d'=1如Qτ（k|z），其中τ> 0是温度2其中PE_D（d）是深度d的位置嵌入，并且在每个位置t处共享。我们在v_td中不使用PE_T（t），因为位置信息已经被编码在u_t中。对于d = 1，我们使用vt1= PED（1）+ht。请注意，等式中的第二项为12对应于等式11中深度d-1处的量化特征向量Z （d-1）。五、因此，深度Transformer预测用于基于Z的更精细估计的ne xt代码在之前的估计上直到D1。最后，深度Transformer预测条件分布ptd（k）=p（Std=k|S< t，d，St，4的RQ-VAE可以进一步提高重建质量，但考虑到RQ-Transformer的计算代价，我们采用了8 8 4码图的RQ-VAE对图像进行AR建模。此外，更长的RQ-VAE训练可以进一步提高重建质量，但由于其增加的训练时间，我们将RQ-VAE训练10个epoch作为默认值。图5证实了我们的说法，RQ-VAE进行从粗到精的特征图估计。例如，图5示出了在等式（1）中的深度d处的量化特征图的重建图像G（Z（d））4.第一章当我们只使用d=1的编码时，重建的图像是模糊的，并且只包含原始图像的粗糙信息然而，在这方面，随着d的增加，剩余代码的信息被顺序地添加，重构图像包括更清晰和更细粒度的细节。5. 结论视觉图像的离散表示对于AR模型生成高分辨率图像是重要的。在这工作，我们提出了RQ-VAE和RQ-变压器的高品质图像生成。在固定码书长度的情况下，RQ-VAE算法可以精确地逼近图像的特征映射，将图像表示为一个短的码序列。因此，RQ-Transformer有效地学习预测代码，以低计算成本生成高质量的图像。因此，我们的方法在各种图像生成基准（如 LSUNs ， FFHQ ，ImageNet和CC-3 M）上优于以前的AR模型。我们的研究有三个主要的局限性。首先，由于AR模型的过拟合，我们的模型在无条件图像生成方面并没有优于StyleGAN2 [24]，特别是对于FFHQ等小规模数据集。因此，正则化AR模型对于在小数据集上生成高分辨率图像值得探索。其次，我们的研究没有扩大文本到图像生成的模型和训练数据。由于之前的研究[17，33]表明，一个巨大的Transformer可以有效地学习零拍摄文本到图像的生成，增加参数的数量是一个有趣的未来工作。第三，与其他生成模型相比，AR模型只能捕获单向上下文以生成图像因此，双向上下文的建模可以进一步提高图像生成的质量，并使AR模型能够用于图像操作，例如图像修复和外绘[11]。尽管我们的研究显著降低了图像AR建模的计算成本，但随着模型和训练数据集的规模变大，大规模AR模型的训练仍然昂贵，消耗大量电能，并且可能留下巨大的因此，大规模AR模型的有效训练仍然值得探索，以避免环境污染。6. 确认这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的资助（No.2018- 0-01398 ：对话式自调优 DBMS 的开发 ; No.2021-0-00537：视觉常识）。11532引用[1] Artem Babenko和Victor Lempitsky。用于极端矢量压缩的加性量化。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition ， pages 931-938，2014中。2[2] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。arXiv预印本arXiv：1506.03099，2015。5[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。7[4] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin ， Scott Gray ， Benjamin Chess ， Jack Clark ，Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。In H. Larochelle，M.兰扎托河哈德塞尔M. F. Balcan 和 H.Lin ， editors ， Advances in NeuralInformation Processing Systems，Volume 33，pages 1877Curran Associates，Inc. 2020. 2[5] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。《国际机器学习会议》，第 1691-1703 页。PMLR，2020年。一、二[6] 格雷戈里·F·库珀。使用贝叶斯信度网络进行概率推理的计算复杂性。Artificial intelligence，42（2-3）：393-405，1990. 2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。六、七[8] Prafulla Dhariwal、Heewoo Jun、Christine Payne、JongWook Kim、Alec Radford和Ilya Sutskever。音乐的生成模式。arXiv预印本arXiv：2005.00341，2020。二、三[9] 普拉富拉·达里瓦尔和亚历克斯·尼科尔。扩散模型在图像合成中优于gans。arXiv预印本arXiv：2105.05233，2021。7[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。7[11] Patrick Esser，Robin Rombach，Andreas Blattmann，andBjo？rnOmme r. Imagebart：双向自回归图像合成的多项扩散，2021年。一二六七八[12] Patrick Esser Robin Rombach和Bjorn Ommer。用于高分辨率图像合成的驯服变压器。IEEE/CVF计算机视觉和Pattern Recognition，第12873-12883页，2021。一二四五、六、七[13] 索拉博·费尔多西，斯拉瓦·沃洛希诺夫斯基，和迪姆切·科斯塔迪诺夫.正则化残差量化：一种多层稀疏字典学习方法。arXiv预印本arXiv：1705.00522，2017。2[14] 伊恩·古德费洛、让·普盖特-阿巴迪

下载后可阅读完整内容，剩余1页未读，立即下载