深度量化中的隐式特征解耦

69 浏览量更新于2023-10-26 收藏 15.88MB PDF 举报

特征分解

参数优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3960深度量化中的隐式特征解耦0Iordanis Fostiropoulos南加州大学洛杉矶分校，加利福尼亚州0fostirop@usc.edu0Barry Boehm南加州大学洛杉矶分校，加利福尼亚州0boehm@usc.edu0摘要0量化已应用于深度神经网络（DNN）中的多个领域。我们提出了深度量化（DQ），其中量化应用于具有弱统计依赖关系的特征轴上的分解子张量。特征分解导致表示容量呈指数增加，而内存和参数成本呈线性增加。此外，DQ可以直接应用于现有的编码器-解码器框架，无需修改DNN架构。我们在分层自动编码器的上下文中使用DQ，并在图像特征表示上进行端到端训练。我们对空间特征和通道特征之间的交叉相关性进行了分析，并提出了沿通道轴对图像特征表示进行分解的方法。深度操作符的改进性能是由于隐式特征解耦引起的表示容量的增加。我们在似然估计任务上评估了DQ，在CIFAR-10、ImageNet-32和ImageNet-64上优于先前的最新技术。我们逐步训练一个使用较少69%参数且收敛速度更快的单个分层模型，该模型使用了比先前工作更少的参数。01. 引言0量化是一种将连续信号映射到一组离散值（也称为码字）的有效有损压缩过程。通过学习范式，如矢量量化（VQ），将量化扩展到矢量特征空间，并具有与k-means相同的训练目标。产品量化（PQ）将特征向量分解，并假设特征子向量之间存在弱的统计依赖关系。加法量化（AQ）将特征向量分解为一组量化向量的和，而不是PQ中的连接输出。量化与深度神经网络（DNN）结合使用，用于分类等任务[46]，增量学习[46]，零样本学习[28]，生成[33]等。0图1.使用相同的模型和训练设置，原始图像（左）由DQ（中）和VQ（右）重建。DQ的感知质量优于VQ。0压缩[29]和数据检索[4]。离散量化特征表示可以用于事后处理[11, 33, 38]或作为学习目标（即分类）[28,46]。我们的工作受到了将量化应用于高维特征张量的应用数量的增加的推动。我们将量化器视为密度估计器，并在视觉领域的似然估计任务上进行评估。0似然估计模型旨在最小化数据分布与模型先验之间的差异。显式似然估计模型，包括矢量量化（VQ），变分自动编码器（VAEs）和自回归（AR）模型直接最小化差异。在这项工作中，我们专注于显式似然估计。3970图2. DQ（左）在子张量的第一个切片上应用C1，并对所有子向量进行量化并连接量化向量。VQ[33]（中）和PQ（右）使用不同的码本对相同的向量进行量化，并通过加法或连接来组合这两个子向量。0矢量量化（VQ），变分自动编码器（VAEs）和自回归（AR）模型是显式似然估计模型，它们直接最小化差异。在这项工作中，我们专注于显式似然估计。0AR模型在似然估计方面表现良好，并在语言、视觉和音频等多个领域应用。AR模型在训练和推断过程中对输入具有递归依赖关系。因此，在像素等具有长序列的领域中，如图像的像素，AR模型在计算上效率较低。即使在采样过程中使用缓存[34]，AR模型仍然比VAE不那么高效。0VAE的先验提供了一种压缩的特征表示，可以用作下游任务的替代训练目标。与离散先验相比，连续先验可能导致后验坍缩。下游任务模型忽略了这种表示，因为它要么太嘈杂，要么没有信息。当数据是离散的时，这种效果会被放大，例如在语言领域[14]。0为此，我们提出了深度量化（DQ）方法，该方法使用不同的量化器量化每个分解的特征子张量。我们使用率失真理论将量化器解释为具有有限容量的编码函数。当DQ应用于解耦特征张量时，我们提供了与量化成本相关的容量的理论上界，而不是耦合特征张量。0我们评估了DQ在ImageNet的特征空间上的性能，用于图像分类的骨干。最后，我们将DQ应用于具有DQ作为瓶颈的分层自编码器，并对其进行端到端的训练。DQ在似然估计方面优于显式模型。具体而言：0•我们提出了深度量化（DQ）并沿着弱统计相关性的轴分解特征张量。0•我们对改进的量化性能进行了理论分析，并通过实验证实了我们的理论结果。0•我们引入了一种改进的分层自编码器模型Depth-QuantizedAuto-Encoder，其中DQ应用于不同层次的特征表示。0•当先验被学习时，我们扩展了参数化互信息（MI）量化估计器的DNNs。我们通过实验证实了学习的先验是隐式解耦的。0我们的方法可以应用于使用量化的先前工作。我们通过实验证明DQ1https : / / github . com / fostiropoulos / Depthwise -Quantization3980在后续分析和端到端训练设置中，当交叉相关性的假设都很强时，DQ的性能显著提高。当进行端到端训练时，DQ减少了分解特征张量之间的交叉相关性（“隐式解耦”），提高了重构损失和似然估计。我们的代码公开可用[1]。02. 相关工作0我们的工作与使用DNNs进行视觉任务中的特征分解和量化优化的先前研究密切相关。特征分解方法包括可分离卷积（SP）[31]，它将卷积核分解为空间维度。SP减少了计算滤波器输出所需的计算量。Inception[43]是另一种特征分解方法，它使用“网络中的网络”（NiN）[27]卷积分支隐式地分解特征表示。因此，Inception独立地学习空间交叉相关性和特征交叉相关性。深度可分离卷积（DSC）[9，43]是一种特征分解方法，它在一个分解的“段”上使用单个“空间”卷积，然后在多个普通卷积上进行。Xception[9]基于“Inception假设”，用于解耦空间，其中DSC应用于一个极端的情况。我们的工作基于与DSC类似的假设，并独立地考虑建模跨通道相关性和空间相关性。在DSC的上下文中，特征空间的解耦分析以及NiN架构的分析是互补的。基于内核相关性的蓝图可分离卷积（BSConv）[16]是一种替代DSC的方法，他们提出了一个点卷积（1x1）后跟一个深度卷积。相比之下，DSC隐式地强制执行跨内核相关性。对卷积核方差的分析表明，当跨内核冗余减少时，DNN的性能可以更好。还有一些方法明确地分解卷积滤波器。有些方法使用低秩近似[20]或闭合形式分解[15]在预训练网络上加速计算过程。以前关于加速网络的工作[42]使用产品量化来量化卷积滤波器，并利用冗余性。DNN中特征空间的冗余性和交叉相关性的先前分析与我们的工作是互补的。量化学习方法的改进包括优化的产品量化[13]，它以参数化方式分解特征向量。此外，Ad-0加法量化[2]通过将向量分解为求和而不是子向量的连接来提高高维向量搜索的计算效率。相反，我们的工作可以应用于特征张量，并且量化器与DNN一起进行端到端训练。Kobayashi等人[25]使用DNN端到端训练量化器。他们使用多个码本，并为不同的监督任务独立训练每个码本。然而，与我们的方法相反，码本是以监督方式解耦的。此外，量化表示用于不同的网络执行不同的下游任务，而不是用于单个下游任务的交互。最后，向量分解应用于特征向量，而不是我们的工作中的特征子张量。PQ-VAE[45]还将潜在表示分解为子向量，并为每个子向量使用不同的量化器。Kaiser等人[21]引入了“切片量化”，它与PQ-VAE相同，但使用离散表示后的潜在变量模型。相比之下，DQ将特征空间分解为子张量，而不是子向量，从而通过隐式增加子张量内的统计依赖性来改善重构损失。与我们最相似的工作是Razavi等人[38]和Dhariwal等人[11]的工作。VQ-VAE-2[38]将量化应用于VAE上的多个层次的特征表示。与我们的方法类似，他们使用VAE端到端训练VQ。然而，我们应用DQ而不是VQ进行量化方法。VQ-VAE-2可能会受到无信息的顶部先验的影响。随后的模型，如“Jukebox”[11]，通过使用独立的编码器-解码器架构对每个层次进行建模来减轻这个问题。我们也避免了无信息的顶部先验的问题，但没有使用不同的模型对每个层次进行建模。相反，我们引入了一个名为DQ-AE的模型架构。03. 背景0自动编码器（AE）是一类无监督的DNN架构，可以从高维数据中学习到压缩的特征表示。Kingma等人的工作[22]将AE扩展到具有不同变体的深度潜变量模型，如变分自动编码器（VAE）。对于某个输入x和潜空间z，VAE由解码器p(x|z)，先验p(z)和编码器q(z|x)组成。VAE是一个概率模型，通过最小化编码表示q(z|x)与真实数据流形p(z)之间的差异来隐式学习生成数据的潜在变量和它们的潜在因子。为了评估AE，我们可以使用互信息（MI），它是两个变量之间的统计依赖度量，满足I(X;Y) = H(X) - H(X|Y)，其中H(X)是X的信息熵。VAE的优化目标[3,18]是最大化潜在表示和解码数据之间的互信息，并且丢弃对解码p(x|z)无信息的x。因此，最大化式（1）也最大化了z的熵或“信息量”[19]。我们对量化的观点基于Richardson等人[39]和MacKay等人[30]的解释。为了简洁起见，我们将读者引用到他们的工作中进行详细分析，并在补充材料中附上我们自己的分析和证明。标量量化器（SQ）是一个具有大小为K的词汇表的编码函数，用于对来自长度为N的序列X ∈ R^N的元素Xi进行编码，使得f(X) ={1...K}^N。SQ以无记忆的方式对序列的每个元素进行量化，使用相同的编码函数。SQ不能对不同序列元素之间的交叉相关性进行假设。当所有数据的概率密度函数（pdf）事先已知时，SQ的性能最佳。遵循均匀分布（即floor函数）的编码函数在所有XUi ∈ XU也均匀分布且被限制在[a,b]时性能最佳。当XUi具有未知的pdf时，SQ将在[a,b]中的不太可能的区域上分配概率质量。向量量化（VQ）“学习”了X ∈R^N和K个量化向量或码字之间的映射。码本是一组码字c ∈ R^N，使得C = {ci : i ∈ 1, ...,K}。VQ解码函数返回与向量X之间的解码误差d最小的码字c，使得ˆX = VQ(X) =cjmin，其中jmin = argmin{d(X, c) : c ∈C}。目标函数是最小化特征向量X与最接近的码本向量c之间的误差，可以总结为lVQ = minc∈Cd(X, ˆX)。3990图3.隐式边缘化对学习到的量化特征的影响。DQ（第一个）的每个像素的量化向量的平均熵（“信息量”）相对于VQ（第二个）更高；越高越好。DQ（第三个）的每个量化码本之间的平均互信息（“冗余度”）得分相对于VQ（第四个）更低；越低越好。对角线表示每个量化向量的熵，对角线的下半部分为空。0的上界0最大化 [ I ( z ; p ( x | z )) − βI ( x ; z )] (1)0最大化潜在表示和解码数据之间的互信息，并且丢弃对解码p(x|z)无信息的x。因此，最大化式（1）也最大化了z的熵或“信息量”[19]。我们对量化的观点基于Richardson等人[39]和MacKay等人[30]的解释。为了简洁起见，我们将读者引用到他们的工作中进行详细分析，并在补充材料中附上我们自己的分析和证明。标量量化器（SQ）是一个具有大小为K的词汇表的编码函数，用于对来自长度为N的序列X ∈R^N的元素Xi进行编码，使得f(X) ={1...K}^N。SQ以无记忆的方式对序列的每个元素进行量化，使用相同的编码函数。SQ不能对不同序列元素之间的交叉相关性进行假设。当所有数据的概率密度函数（pdf）事先已知时，SQ的性能最佳。遵循均匀分布（即floor函数）的编码函数在所有XUi ∈ XU也均匀分布且被限制在[a,b]时性能最佳。当XUi具有未知的pdf时，SQ将在[a,b]中的不太可能的区域上分配概率质量。向量量化（VQ）“学习”了X ∈R^N和K个量化向量或码字之间的映射。码本是一组码字c∈ R^N，使得C = {ci : i ∈ 1, ...,K}。VQ解码函数返回与向量X之间的解码误差d最小的码字c，使得ˆX = VQ(X) = cjmin，其中jmin = argmin{d(X, c) : c∈C}。目标函数是最小化特征向量X与最接近的码本向量c之间的误差，可以总结为lVQ = minc∈C d(X, ˆX)。0产品量化（PQ）将一维向量 X ∈ RN 分解为子向量 {Xj: j = 1, ..., M}，并针对唯一的 VQ和子向量空间进行优化。对于 M 个不同的 Codebooks Cj: j ∈ 1, ..., M，每个 Xj都有一对一的映射。PQ 解码函数是所有 VQ 解码 VQj = ˆXj 的串联或加法，使得 PQ(X)= ∥�j ∈ M VQj(Xj)。我们采用 PQ的特征分解，并将其扩展到高维特征向量，以减少潜在特征之间的统计独立性。对于 PQ的一个量化器的成本是 Codebook 向量的数量，即 Ccost = K ×M。表示能力（CR）根据独立随机变量 Xj可以表示的离散潜在因子的数量定义了样本空间的上限，使得 S = KM。0对于 K 个代码和 M 个分解的子向量。对于冗余的Xj，样本空间减少为 Snew = (K -1)M，因此容量受到样本空间的限制，即0CR = -H(X) (2)0请注意，对于 PQ，Ccost 线性增长，而 CR 指数增长，与VQ 相反，VQ 的增长对于两者都是线性的，因此具有与 PQ相同的容量的指数成本。有关更详细的分析和证明，请参见附录。先验分布的分布可以影响量化器的解码性能。例如，具有先前的 XU 的 VQ 可以实现与 SQ相同的解码误差，但成本显著高于 SQ的无记忆。先验分布的假设可以确定量化器的成本和表示能力。PQ 和 VQ 之间的区别在于特征之间的协方差假设。与VQ 相反，PQ 利用特征子向量之间的低协方差。Decoupled refers to the statistical independence betweenfeatures and Coupled refers to the statistical dependencebetween features. We use Information Theory to analyzequantization as an encoding function with an informationbottleneck on a signal.Eq. (1) provides the basis of the VAE optimization objec-tive that can be formulated as a lower bound to the channelcapacity as L ≥ Eq(z|x) log p(x|z) − βDKL(q(z|x)||p(z))[3, 18] where β is the Lagrange multiplier.β-VAE as-sumes a Gaussian prior p(z) ∼ N(0, I), and DQ assumesa uniform prior. Thus the KL-Divergence of the uniformdistribution and decoder is the capacity of the quantizerDKL(q(z|x)||p(z)) = CR. The detailed proof can be foundin Appendix 1.4000图4. 使用仅顶级代码（中间）和仅底级代码（右侧）重建原始图像（左侧）。顶级层次包含结构信息，而底级层次包含细节。04. 深度量化0给定来自编码器的输出特征张量 X ∈ R，其秩为r，深度量化（DQ）在沿轴 α 上将分解的张量切片 Xi = Xαi上应用 M 个量化器 VQ i 进行成对量化，其中量化维度 D =|Xαi|。0DQ(X) = {VQ i(Xi): i = 1, ..., M} (3)0每个 VQ i 优化 Codebook Ci 并使用 l VQ 定义 Xi与最接近的量化向量 ˆXi = Qi(Xi)之间的误差。优化目标是对每个 codebook进行联合优化，使之满足0min C1,...,CM [L�0� ˆXi, Xi l VQ (Xi, ˆXi)] (4)0我们使用 L2 范数作为 lVQ 之间每个 Xi 和局部量化向量 ˆXi的相似度度量。然后将 DQ 损失添加到 DNN的重构损失中，并使用自动梯度将梯度从量化向量 ˆXi复制到 X。DQ 的损失函数变为0L = L DNN + L DQ (sg(X), ˆX) + βL DQ (X, sg(ˆX)) (5)0其中 sg表示停止梯度运算符，在训练阶段停止操作数的更新。与VQ-VAE中的设置类似，第一项损失用于降低重构误差，第二项调整与编码器输出对应的codebook，第三项用于防止编码器输出无限增长。请注意，KL 散度是一个常数，等于 Mlog(K)，因为 DQ假设潜在嵌入的先验分布是均匀分布。因此，在我们的框架的优化目标中，KL 散度项被省略。详细的解释请参见第 4.1节。0请注意，对于秩为一的特征张量，当使用维度为一的单个码本时，DQ与SQ相同。当使用多个码本时，DQ与PQ和加性量化相同，其中加法是解码函数。DQ相对于其他量化方法的优势来自于将张量分解为沿着弱统计依赖轴的子张量。对于二维卷积神经网络(CNN)，X是一个秩为3的特征张量。图2说明了3秩张量的DQ过程。不同的量化器应用于通道轴的每个切片，但相同的量化器应用于特征子张量的子向量，例如沿着空间维度进行分解。0解耦指的是特征之间的统计独立性，耦合指的是特征之间的统计依赖性。我们使用信息论将量化作为一种编码函数进行分析，其中信号受到信息瓶颈的限制。等式(1)提供了VAE优化目标的基础，可以被表述为通道容量的下界，即L ≥Eq(z|x) log p(x|z) - βDKL(q(z|x)||p(z))，其中β是拉格朗日乘子。β-VAE假设一个高斯先验p(z)�N(0,I)，而DQ假设一个均匀先验。因此，均匀分布和解码器之间的KL散度是量化器的容量D KL(q(z|x)||p(z)) = CR。详细的证明可以在附录1中找到。04.1. 解耦特征空间0max [ Eq(z|x) log p(x|z) - C R ] (6)0在VAE中减少信息瓶颈的容量鼓励β-VAE中的解耦表示。类似地，减少C R鼓励每个码本的解耦表示，上界由K和M控制。通过这样做，可以学习到显著压缩的表示，以改进下游训练目标。Implicit decoupling of the feature space is the surrogateoptimization objective derived by the explicit minimizationof the decoding error. There is a joint optimization objectivewhen DQ is applied to the intermediate feature representa-tions in the context of DNN and trained end-to-end. DQminimizes the decoding error along the DNN objective func-tion. DQ works as a bottleneck on intermediate featurerepresentations between subsequent layers of the network.We use the result from work by β-VAE on the interpretationof AE as the information bottleneck.β-VAE uses q(z|x) to learn a set of additive channels ziwhere their capacity is maximized when all zi are indepen-dent. This provides an implicit optimization objective byoptimizing Eq. (1), which is the equivalent in the quantizedcase as optimizing Eq. (6). There is an equivalence betweeneach zi and the codebook as they both perform as additiveinformation channels that, when combined, reconstruct anoriginal signal. Lastly, both zi and the quantizer are para-metric density estimators or smaller networks that can beconsidered as part of a generic Network-in-Network (NiN)family of models.Feature independence improves downstream task perfor-mance when learned implicitly in NiN models. Xceptionuses Depthwise Seperable Convolution (DSC) to outperformcoupled variants on ablation studies on Mobile-Net [17].Additional previous analysis on the intra-kernel correla-tions [16] has demonstrated the benefits of a decoupled fea-ture space along the channels of an image feature tensor.We corroborate the analysis with MI estimation on a staticprior to determine the axis of weak statistical dependenceand apply DQ along the channel dimension (“depth-wise”)and spatial dimension (“pixel-wise”) in the context of DNN.Uniform Prior In contrast to the traditional VariationalAuto-Encoder, DQ relies on the assumption of uniform dis-tribution of quantized vectors p(z). However, the assump-tion of a uniform prior is not strong, which can potentiallylead to degrading performance and be sensitive to the ran-dom initialization. A non-uniform prior will cause code-book collapse where only few codes are utilized in a code-book. To mitigate this issue, we follow previous work, anduse Exponential Moving Average (EMA) and random re-initialization of codes. We re-initialize codes with low usagefrequency counts that are below a threshold.Although pre-I(X; Y ) =�y∈Y�x∈Xp(X,Y )(x, y) log� p(X,Y )(x, y)pX(x) pY (y)�(7)4010C R 和离散情况下的 H(z)对DNN参数不可微分，无法显式最小化。我们观察到分层深度量化变体会导致索引崩溃和性能下降。索引崩溃会导致量化器只使用有限数量的码字。我们通过近似解强制使用均匀先验，并在第4.2节和第6节讨论了其影响。04.2. 隐式解耦0先前的研究[5,21]讨论了量化与EMA和β-VAE目标之间的等价性，但两者之间没有确切的关系。当使用软EM进行训练时，VQ-VAE是变分信息瓶颈（VIB）的近似。DQ的更新规则上的E步骤是通过对数据的小批量进行EMA来近似的[5,6]。这与硬EM不同，硬量化是确定性的[40]。软EM提供了一个概率离散的信息瓶颈，如Roy等人[41]和Wu等人[44]的研究中所讨论的。0我们使用量化向量的熵来衡量它们的信息密度。一个成功的解耦方法应该生成具有高熵的特征向量。连续分布的熵估计是不可行的，但是可以通过对量化区间进行参数化和非参数化优化来将信号离散化。然后，可以计算量化离散分布的熵。0我们使用VQ的量化区域作为连续先验的密度估计器，从而计算熵和互信息。当DQ被端到端地学习时，可以通过对样本集上每个码向量的频率计数来直接计算熵。我们的方法在近似互信息方面与先前使用核密度估计器[32]的工作类似，可以在训练后对已训练的网络进行后处理，或者通过训练不同的DQ来进行计算。后处理的量化对样本大小敏感，但与其他最先进的方法[12, 23, 24, 35]性能相当。04.3. 深度量化自编码器0深度量化自编码器（DQ-AE）在不同的分层特征表示中使用DQ。定义训练过程的完整算法可以在补充材料中找到。简而言之，我们仅根据前一级的量化表示解码每个量化表示。我们从上到下执行此操作，并使用公式（6）作为每个DQ的优化目标。通过实验证明，较低容量的底层层次会强制利用顶层层次，并且顶层或底层层次利用不足的问题也可能是过拟合的结果。在训练的早期阶段，两个层次被等同地使用，但在后期阶段，顶层先验会崩溃。我们的架构导致了信息丰富的顶层和底层层次，如图4所示。CIFAR-10ImageNet-32ImageNet-644020图5. 消融研究模型比较。对于M=1，DQ与VQ相同。我们在以下设置下训练模型：K = {32, 128, 512}，M = {1, 3, 5,10}，并针对不同的重构损失NLL（左）和L2（右）进行优化。我们报告了多次运行（10次）的最终收敛损失的平均值。每个多边形的顶部粗线对应于K = 32，底部线对应于K = 512。0模型（参数）比特/维度参数比特/维度参数比特/维度 S-Tr. 1（59M）2.80 Img-Tr.2（-）3.77 S-Tr. 1（152M）3.44 VDVAE 3（39M）2.80 119M 3.80 125M 3.520（我们的模型）（22M）2.52 22M 3.12 22M 2.890表1. 基线模型：1 稀疏Transformer [8] 2 图像Transformer [36] 3 VD-VAE[7]。“我们”的模型是一个具有2个层次的DQ-AE，其中K分别设置为256和128。05. 实验0在我们的实验中，我们在两种设置下评估DQ：在静态先验条件下和在DNN上进行端到端训练时，使用学习的先验条件。我们首先在静态先验条件下评估我们的理论观点，并对DQ和DQ-AE进行消融研究。我们在补充材料中报告了训练和网络超参数的详细信息。05.1. 密度估计0我们在第4.1节的解耦特征空间上通过实验证实了我们的论断。我们使用预训练的VGG-16模型2的倒数第二个特征表示在ImageNet上进行实验[10]。DQ将特征表示“逐通道”（DQC）和“逐像素”（DQS）进行分解。形状为[512×7×7]的倒数第二个特征张量沿着通道轴被切割成7个段，并用D=74和M=7进行零填充。两个网络的量化器分别对DQS的每一行进行独立量化，而对DQC的每个切片进行量化。我们训练DQ作为多次随机运行（10次）的量化器，并报告X与重构ˆX之间的平均L2范数。对于每种量化方法，我们使用公式（7）近似计算码的熵以确定它们各自的信息密度。我们的实验结果可以在表2中找到。02 https://pytorch.org/vision/stable/models.html0量化 K D L DQ ↓ � H(X) ↑0像素 32 74 0.192 ± 0 . 002 1.98 ± 0 . 01 通道 3274 0.184 ± 0 . 001 2.53 ± 0 . 01 像素 1024 740.523 ± 0 . 003 3.64 ± 0 . 01 通道 1024 74 0.480± 0 . 001 3.99 ± 0 . 010表2.在从VGG-16提取的ImageNet特征空间上进行密度估计。结果来自于10次具有随机代码初始化的训练运行。DQ应用于通道（通道量化）而不是空间维度（像素量化）。D是特征向量的大小，K是使用的离散码，L2是重构误差，H(X)是特征张量的平均熵。通道量化在所有方面都优于像素量化。0我们发现DQ在通道维度上可以实现更好的密度估计，而不是在空间维度上。特征张量的较低熵H(X)是由于特征子张量之间的较高冗余性引起的，对应于较高的重构误差。当在通道轴上进行分解时，DQ可以表现得更好，我们的结果与先前关于内核内相关性的分析一致[16]。40305.2. 隐式解耦0我们训练了一个DQ-AE和一个VQ-VAE[33]，其中M=10和K=512，具有相同的网络配置、方法和超参数。两种架构之间的差异在图2中突出显示。我们在CIFAR-10[26]上测量了这两种方法的似然估计，并将每个图像量化为8×8×10个码。VQ-VAE的NLL为4.36比特/维，而单层次DQ-AE为3.14比特/维，降低了28%。高熵我们展示了DQ的学习特征具有高熵，这表明它们之间的统计依赖性较低。相反，VQ似乎具有一些非常信息丰富的特征和许多无信息的特征。先验的平均熵为H(z)=6.03 nats/像素，而VQ的先验熵为H(z)=5.86nats/像素。先验的空间特征的熵分布可以在图3的左两个子图中找到。低互信息我们估计了特征张量深度上的量化向量的成对互信息，平均得分分别为1.93和2.36nats/向量。在图3的右两个子图中可以找到比较矩阵。对于DQ，量化向量之间的互信息明显较低，如上三角矩阵中的大部分为空。相反，对于VQ，量化向量之间似乎存在更高的冗余性。矩阵的对角线表示每个量化向量的熵。量化向量上的互信息估计表明，在VQ的学习表示中，冗余性显著更高。05.3. 消融研究0我们研究了K和D对模型性能的影响。模型对子向量的维度D更敏感，对K的敏感性较低。在所有设置中，DQ在似然估计和重构损失方面优于耦合变体。CR随M的增长呈指数增长，而不是K。可以使用更少的码向量进行量化而不会降低性能。例如，当M=3时，DQ比VQ变体提高了35%，并使用了25%更少的码向量。图5显示了不同K和M值的损失摘要。结果的详细表格可以在附录中找到。05.4. 似然估计0对于似然估计，我们将DQ-AE与其他似然估计模型进行比较，并报告他们的工作中的数字。我们使用非常深的VAE（“VD-VAE”）[7]作为连续自动编码器基线，使用稀疏变换器（“S-Tr”）[8]作为自回归基线。对于ImageNet上的实验，我们在数据集名称的末尾添加了训练模型的图像分辨率数字。对于我们的模型，我们对所有分辨率使用相同的体系结构和层次数。0数据集的详细结果在表1中。在衡量比特/维度的损失时，我们超越了所有先前的最先进模型，我们还单独报告了CR。CR的估计值约为0.2nats。对顶层和底层层次结构的视觉检查确认它们编码了不同粒度的特征并被利用（图4），并且感知质量得到了改善（图1）。附加的高分辨率图像附在补充材料中。与Razavi等人的分层模型[38]相比，DQ-AE在ImageNet-256的重构误差方面也表现优异。在CIFAR-10上，DQ-AE的损失为0.019，而VQ-VAE的损失为0.044。对于ImageNet-256，DQ-AE的损失为0.0032，而VQ-VAE-2的损失为0.005。06. 讨论0我们对我们的工作的理论主张进行了彻底评估，并在似然估计中进行了实证验证。在下游任务（如潜在插值）上评估离散表示是特定于领域的。从多分辨率和高维离散码书中进行采样需要事后训练额外的模型。因此，在如何设计这样的模型方面存在多个开放问题。我们将这留给未来的工作。在显式似然模型之间的NLL上的直接评估和比较可能是不等价的。我们的模型对先验分布做出了不同的假设，因此直接比较可能是有缺陷的。先前的工作[1]表明ELBO可能是评估深度潜在变量模型的不良度量。我们缓解了这个问题，并遵循了先前工作[7]的理论结果和实验方法。我们将离散先验与其他模型变体进行适当评估视为一个开放问题。07. 结论0我们分析了沿着统计独立性轴分解图像特征张量的效果。在独立特征之间进行分解和量化优于耦合特征变体。我们的理论洞察力集中在沿着通道轴分解图像特征张量的特征解耦上。我们的结果证实了先前的分析，并解释了可以解释为信息瓶颈的NiN应用的优势。基于我们的理论洞察力，我们提出了深度量化（DQ），通过在特征轴上隐式消除冗余，提供了更高效的瓶颈容量。DQ与分层自动编码器（DQ-AE）一起进行端到端训练，并学习改进的分层离散表示。我们的方法是领域不可知的，我们考虑将其评估用于未来的特定任务。[3] Christopher P Burgess, Irina Higgins, Arka Pal, Loic Matthey,Nick Watters, Guillaume Desjardins, and Alexander Lerch-ner. Understanding disentangling in β-vae. arXiv preprintarXiv:1804.03599, 2018. 3, 54040参考文献0[1] Alexander Alemi, Ben Poole, Ian Fischer, Joshua Dillon,Rif A Saurous, and Kevin Murphy. 修复破损的ELBO.在机器学习国际会议上，第159-168页。PMLR，2018年。 80[2] Artem Babenko and Victor Lempitsky.极端向量压缩的可加性量化。在计算机视觉和模式识别IEEE会议论文集上，第931-938页，2014年。30[4] Yue Cao，Mingsheng Long，Jianmin Wang和ShichenLiu。用于高效图像检索的深度视觉语义量化。在IEEE计算机视觉和模式识别会议论文集上，1328-1337页，2017年。10[5] Olivier Capp´e和EricMoulines。用于潜在数据模型的在线期望最大化算法。皇家统计学会：B系列（统计方法），71（3）：593-613，2009年60[6] Jianfei Chen，Jun Zhu，Yee Whye Teh和TongZhang。具有方差减少的随机期望最大化。在NeurIPS上，7978-7988页，2018年。60[7] RewonChild。非常深的{vae}在图像上推广自回归模型，并且在图像上可以胜过它们。在2021年国际学习表示会议上，7，80[8] Rewon Child，Scott Gray，Alec Radford和IlyaSutskever。使用稀疏变压器生成长序列。arXiv预印本arXiv：1904.10509，2019年。7，80[9] FrançoisChollet

下载后可阅读完整内容，剩余1页未读，立即下载