无监督压缩域相似性搜索的DNN架构及多码本量化方法的研究

110 浏览量更新于2023-10-12 收藏 565KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于压缩域相似性搜索StanislavMorozovYandex，莫斯科国立罗蒙诺索夫大学stanis-morozov@yandex.ruArtemBabenkoYandex，国立研究型大学高等经济artem. phystech.edu摘要我们解决了无监督的视觉描述符的压缩问题，这是一个大规模的图像检索系统的关键组成部分。虽然深度学习机器实际上已经使所有计算机视觉管道受益，但现有的最先进的压缩方法采用了shal- low架构，我们的目标是通过我们的论文缩小这一差距。更详细地说，我们介绍了DNN架构的无监督压缩域检索，基于多码本量化。该架构的目的是将快速数据编码和有效的距离计算通过查找表。我们通过在几个视觉描述符数据集上的表现大大优于以前的最先进技术，证明了我们的方案比现有的量化方法具有特殊的优势。1. 介绍高维视觉描述符的无监督压缩在计算机视觉领域有着悠久的历史[33，14]。如今，开发有效的紧凑表示对于现代搜索引擎的可扩展性变得更加重要，因为Web中的视觉数据量巨大。目前，主要的无监督压缩方法[14，6，24，2，37，22，23]属于多码本量化（MCQ）范例。在该范例中，描述符通过来自若干不相交码本的若干码字向量的总和或连接来有效地近似这种简单的近似形式使得能够通过使用查找表来有效地计算从未压缩查询到压缩数据库向量的距离。虽然最初出现的图像检索问题，量化方法被广泛用于提高效率，在广泛的任务，例如。CNN压缩[8，36]或本地化[19]。事实上，更先进的量子化的发展方法仍然是一个重要的研究方向，因为它们将有利于整个范围的大规模计算机视觉应用。尽管深度架构在计算机视觉的不同领域中无处不在，但我们在本文中处理的压缩域检索的无监督虽然最近的几项工作研究了监督MCQ场景[35，11，18]的深度架构的使用，但最先进的无监督方法[22，25，23]仍然很浅。此外，最近的工作[27]表明，即使对于监督压缩问题，使用无监督MCQ也优于几个强监督基线。据我们所知，目前尚不清楚深度学习机器是否可以使无监督量化方法受益这是我们在本文中要回答的核心问题。作为主要的新颖性，我们引入了一种新的无监督神经量化（UNQ）方法，该方法学习非线性多码本量化模型，可训练通过SGD。我们的模型部分受到了最近关于离散隐藏变量生成建模的想法的启发[12，21，32]，正如我们所展示的那样，这似乎是压缩域检索问题的自然适合。从本质上讲，UNQ的工作原理是将码字和数据向量嵌入到一个公共的可学习向量空间中，在这个空间中可以进行有效的最近邻检索。正如我们在实验部分所示，与现有的浅层竞争对手相比，我们模型的非线性性质允许提高检索准确性。总的来说，我们的论文的主要贡献可以总结如下：1. 我们提出了一种新的方法，用于视觉描述符的无监督量化。据我们所知，我们的方法是第一个成功的情况下，使用年龄的深度架构的无监督MCQ压缩域检索。2. 通过广泛的实验评估，我们表明，30363037MM1所提出的方法在检索性能方面对于大多数操作点，我们的方法提供了一个新的国家的最先进的两个共同的基准。3. 所提出的方法的Pytorch实现可在线获得1。本文的其余部分组织如下。在第2节中，我们回顾了现有的无监督量化方法。在第3节中描述了所提出的无监督神经量化模型，并在第4节中进行了实验评估。第五节是论文的总结。2. 相关工作在本节中，我们简要回顾了与我们的方法相关的先前工作的主要思想高维数据压缩。现有的高维数据压缩方法主要分为两大类。第一个家族[33，7，9]包括二进制哈希方法，其映射原始哈希值。将初始向量映射到汉明空间中，使得附近的向量被映射到具有小汉明距离的散列中二进制散列的实际优点是，它从有效的二进制计算中受益匪浅，方法（O）PQAQ/LSQUNQ压缩质量介质高高编码复杂度低高低学习复杂性低高高表1.无监督神经量化（UNQ）与现有量化方法的定性比较。其中qm-查询q的第m个子向量。该和可以在M次加法和查找中计算，假定从查询子向量到码字的距离是预先计算的。从几何的角度来看，PQ有效地将原始向量空间划分为KM个单元，每个单元是M个低维单元的笛卡尔积如果向量的D维分量具有独立的分布，则这种基于乘积的近似效果更好. 依赖度受分裂的选择的影响，并且可以通过作为预处理应用于向量的因此，随后的两项工作都在寻找最佳变换[6，24]。对应于这样的预处理变换的PQ的修改在下文中被称为优化乘积量化（OPQ）。n CPU架构。第二类方法概括了矢量量化的思想，我们将这些方法称为多码本量化（MCQ）。MCQ方法通常不涉及查询侧的信息最新的MCQ方法[25，23]目前实现了最先进的压缩精度，在本文中，我们的目标是通过深度架构的力量进一步提高其质量。乘积量化（PQ）[14]是MCQ家族的一种开创性方法，激发了对该主题的进一步研究。PQ将每个向量x∈RD编码为来自M个D维码本C1，. . . .，CM，每个包含K个码字。换句话说，PQ将向量分解为M个单独的子向量。对每个子矢量进行矢量量化（VQ）结果，每个向量x由码字索引[i，i，i]的元组编码。. .，iM]并且近似为x ∈ [c1i1，. . . ，cMiM]. 快速欧几里德通过高效ADC，距离计算成为可能使用查找表的过程[14非正交量化。几个作品[5，2，37，22，25，23]推广乘积量化通过用M个码字的和来近似每个向量而不是级联。在这种情况下，ADC过程仍然是有效的，而近似精度增加。第一种方法，残差矢量量化[5]，量化原始矢量，然后迭代量化来自前一次迭代的近似残差。另一种方法，加性量化（AQ）[2]，是最通用的，通常情况下，AQ提供最小的压缩误差，然而，它比其他方法慢得多，特别是对于大M。复合量化（CQ）[37]学习不同码本的码字之间具有固定标量积值的码本最近的几篇文章[22，23，25]阐述了加法量化的思想，提出了更有效的码本学习过程。目前，最先进的压缩精度是通过LSQ方法实现的[23]。我们提出了现有的MCQ方法与开源实现的定性比较-以及表1中建议的UNQ方法。使用DNN压缩。几个最近的作品[35，11，<$q − x<$2<$$>q −[c1i，. . . 得双曲余切值.MiM（1）[18]研究深度体系结构在多监督压缩中的ΣMm=1qm-cmim纳里奥相比之下，我们解决了更具挑战性的非监督设置，其中目前只使用浅量化方法。据我们所知，在1https://github.com/stanis-morozov/unq只是最近的一篇论文[26]，它采用了深度架构，23038规范规范2× 2×x线性批次ReLU. ..线性批处理~ReLU数据库中的矢量编码器净值（x）码本（f（x）= 0）重构向量图1.提出的无监督神经量化模型架构。编码器（左）将数据向量映射到学习空间的乘积（中），选择码字并将其解码回原始向量空间（右）。灰色椭圆表示码本空间，橙色六边形表示这些码本中的码字。对于无监督压缩问题，它是正确的，但它在MCQ范式中不起作用。相反，[26]执行邻域保持映射到一个球体，并使用一个ad-boundary然后[26]使用固定的在我们的实验中，我们证明了UNQ在大多数操作点上优于[26与此同时，最近关于生成建模的几项研究开发了使用深度神经网络学习离散表示的有效方法。这种方法的一个分支依赖于可以通过反向传播训练的离散变量的连续噪声松弛[12，21，31]。另一种流行的学习离散变量的方法是矢量量化变分自动编码器模型[32，17]。而不是连续松弛，这种方法使用直通梯度估计，通过离散变量传播梯度据我们所知，我们的工作是第一个实验证明，与适当的训练协议，离散隐变量可以成功地用于压缩域检索中的无监督sce- nario。虽然我们承认存在最近的并发预印本[34]，它研究了封闭的想法，但其实验评估表明，它们的方法的性能与二进制哈希方法相当，而二进制哈希方法是不适当的基线。相比之下，我们的UNQ方法大大优于当前的最先进的，如将在实验中所示。虽然在本文中，我们的方法仅用于压缩预先计算的描述符，但所提出的架构可以与现有的自监督方法[4]相结合，用于端到端的无监督图像压缩。3. 无监督神经量化现在我们介绍符号并详细讨论所提出的UNQ方法。下面，我们总是假设图像描述符是来自欧几里得空间RD的向量。3.1. 动机所有现有的量化方法都包含两个基本模块：编码器和距离函数。编码器f（x）：RD→ {1，. . . ，K}M将数据向量x映射到M个索引的元组i =[i1，. . . ，[M]. 进而，距离函数d（q，i）：RD× {1，. . . ，K}M→ R估计查询q离编码数据库有多远向量f（x）。f（·）和d（·，·）通常取决于可学习参数（例如，PQ中的量化码本或OPQ中的旋转矩阵）。目前，最先进的无监督量化方法使用浅编码器和距离函数。在这项研究中，我们建议对f （ · ）和 d（·，·）使用深度参数模型，这些模型经过联合训练以执行最近邻检索。3.2. 模型我们模型的架构如图1所示。有两个主要部分：编码器将数据向量x映射到离散码的元组中，并且解码器从原始向量的压缩表示重构原始向量。在编码器部分，我们使用一个简单的前馈神经网络net（x），它有M个输出“头”，它们是联合训练的。如下所示，可以考虑net（x）=[net（x）1，. . .，net（x）M]作为数据向量到M个学习空间的乘积的映射。该乘积中的每个空间具有K个码字的码本，并且我们用c表示来自码本m的码字k，m ∈ {1，. . . ，M}，k ∈{1，. . . ，K}。X30392我们使用该模型来定义随机编码函数，该函数基于学习空间中的点积具体地，由来自第m码本的第k码编码的概率被定义为：exp（平均网（x）m，c平均/τm）添加相应的码字并在原始数据空间中重构向量x∈ N。在我们所有的实验中，net（·）和g（·）都是相似的。带有ReLU激活函数和批量规范化[10]层（见图1）。我们描述了特定的选择p（c）|x）= ΣJexp（平均网（x）m，cmj<$/τm）（二）net（·）和g（·）在实验部分中。3.3. 最近邻搜索这里τm∈（0，∞）定义了概率分布的温度（逆我们将c和τm作为常规模型参数，并使用反向传播对其进行优化。假设对于给定的x，不同码本中的码字的概率之间的条件独立性，我们得到：YM在量化数据库中的最近邻的检索通过具有距离函数d（q，i）的穷举搜索来执行：argmind（q，i）（6）我在我们的模型中，我们对d（q，i）使用两种不同的定义。以提供高压缩精度和有效的再压缩，p（c1，.，CM|x）=I=mp（cm|（3）trieval。第一个我们现在可以通过最大化这些概率来定义我们的编码函数数据库向量与解码器g，并测量原始数据空间中的距离：f（x）= argmax p（c1，.，CM|x）=d1（q，i）=<$q−g（i）<$2（七）c1，…CM=[argmax p（c0k|x），…argmax p（cMk|x）]=然而，使用d1进行穷举搜索将需要将解码器网络应用于整个数据库，c1kc对于大规模应用，=[argmax]_ [argmax]（x）M，c]数据库。c1kc（四）可替代地，可以在然而，为了训练我们的模型，我们要求编码器是可微的。 [29]我曾用一个比喻，使用Gumbel-Softmax[12，21]技巧对f（x）进行可伸缩逼近。第m个码本的可微分近似fm（x）ff（x）m=sofftmaxx{logp（cmj|x）+zj，j=1.（5）在上式中，zj是标准Gumbel分布的样本，可以通过zj=-log（−logUniform（0，1））。注意的原始Gumbel-Softmax分布[12]划分所有指数率通过一个小的温度因子，我们在所有的学习密码本的空间此定义依赖于查询映射网（q）和码字都属于共享空间。该空间方便地配备有拾取特定码字的基于点积的概率（2）。我们的直觉是，数据点q的最近邻居应该有可能被分配给q本身的码字。换句话说，为了搜索q的最近邻居，我们想要考虑具有最高p（c1，...，CM|q）。这自然会导致我们得出以下距离函数：d2（q，i）= d2（q，{i1，. . . ，iM}）= −logp（c1i1，.，c|q）=实验虽然松弛f（x）m是可微的，但它不会产生量化方法所需的独热向量。因此，在训练过程中，我们通过以下方式离散f（x）m：ΣM=−m=1.单位净（q）m，cmim−logΣMΣKk=1Σexpnet（q）m，c=在（5）中使用argmax而不是softmax，这导致one-hot vector，对应于所选=−m=1mqnet（q）m，cmim+const（q）（8）3040代码虽然这种离散化是不可微的，但我们使用直通梯度估计来反向传播它：梯度w.r.t.函数输出被传递到它的输入，而不应用任何转换。然后，我们将编码器产生的M个独热向量馈送到解码器g（·）中：另一个前馈网络，与（7）相比，第二公式允许通过查找表的有效搜索算法。该算法首先计算net（q）与所有码本中码字的点积，只需要编码器网络的一次遍历，时间复杂度为O（M·K）。然后，算法可以通过迭代3041avg M¨编码的数据点，并对缓存的距离求和，每个数据库向量只做M次基于距离函数（8）的搜索可以被看作是现有量化方法的推广。[2019 -06-22][2019 - 06][20变异正则化器，最初在[28]中提出，以对抗专家混合层中的类似不平衡。根据在训练批次X上平均的码字概率来计算变化系数：但是在通过SGD训练获得的新的学习空间中。在实践中，我们将两个距离函数结合在一起，1pavg（im|X）= nΣxi∈Xp（im|xi）阶段搜索：首先，我们基于d2有效地选择L个最近的候选，然后使用更昂贵的d1对这些候选重新排序。额外的重新排序阶段CV2（im）=V ar[pavg（im|X）][E[p（i|X）]]2（十一）不会对总的方案效率产生太大影响，因为只有一小部分数据库被重新排序。当然，现有的浅层方法也可以受益于DNN的额外重新排序，我们比较了我们的最终目标只是这三项的系数之和。在我们的实验中，我们从{0。1，0。010 001}通过网格搜索。对于β，我们从1开始线性减小。0到0。05训练中我们的方案在实验中的基线。我们下面的实验表明，搜索后重新排序1L=L1+α·L2+β·ΣMCV2（im）（12）稍微增加了浅MCQ方法的精度但UNQ的整体表现要高得多3.4. 培训我们通过显式拟合两个距离函数来训练模型，以最大化召回率。第一个距离函数在原始数据空间中定义，可以用类似自动编码器的目标进行训练：Mm=1使用最近的准双曲Adam算法[20]使用小批量梯度下降来训练模型以最小化训练目标L。我们还使用单周期学习率计划[30]来加快模型收敛。4. 实验1ΣL=d（x，x）=1Σ¨ X¨2- g（f（x））<$（九）在本节中，我们提供了实验结果，比较建议的无监督神经量化1n1iiXi尼伊¨2Xi（UNQ）方法与现有的无监督压缩方法。根据最近的工作[26]，我们执行然而，不能保证最小化这个问题。目标将导致为重新排序阶段选择好的候选者。因此，我们还需要用另一个目标项训练d2（·，·）我们采用了一种度量学习方法，通过最大限度地减少学习空间中的三重损失。直觉上，我们希望x更接近它1Σ大多数实验是在两组数据上进行的：1. Deep 1 M/Deep 10 M/Deep 1B数据集包含96维视觉描述符，这些描述符是从深度神经网络的激活中计算出来的[3]。基组分别包括106、107和109个向量。我们使用额外的500.000个向量的单独集合进行训练，并使用10.000个保留查询进行评估。2. BigANN 1 M/BigANN 10 M/BigANN 1B数据集包含128维基于直方图的SIFTL2=nmax（0，δ+d2（x，f（x+））−d2（x，f（x−）X（十）描述符[15]。基组包括106、107和109向量对应。在这里我们也使用SEPA-与[26]类似，我们从数据点x的前3个真实最近邻中采样x+。反过来，x−从第100到第200个最近邻中均匀采样，不包括x本身和x+的三个候选者。在一个Popu-在度量学习领域的最大实践中，我们在每个训练时期的偏移处对这些向量进行采样。我们的目标的最后一个术语是Gumbel-Softmax的正则化器，它鼓励码字的等频率。几乎所有离散变量学习方法的一个共同问题是，它们收敛到一些代码（几乎）从未使用过的局部为了缓解这个问题，我们重新利用平方系数用于训练的500.000个向量和用于训练的10.000个向量的速率集保留查询以进行评估。除非另有说明，我们总是在训练集上学习方法作为压缩域检索性能的常用度量，我们报告 Recall@k（k=1，10，100），这是真正的最近邻在压缩数据集中的k个最近邻居。两个压缩水平（8，16字节每矢量）进行了评价。在所有的实验中，我们使用的量化码书的K=256码字的所有方法。3042方法R@1BigANN1MR@10 R@100R@1Deep1MR@10R@100每个向量8个字节OPQ20.864.395.315.951.388.6催化剂+OPQ26.273.097.320.961.593.5催化剂+晶格28.975.897.924.668.396.1LSQ29.277.798.721.764.094.5LSQ +重新排序30.378.998.822.865.795.6UNQ34.682.899.026.772.697.3每个向量16个字节OPQ40.989.899.935.082.599.1催化剂+OPQ46.192.099.839.086.599.3催化剂+晶格49.194.1100.044.890.899.8LSQ57.197.5100.041.188.699.5LSQ +重新排序57.797.6100.042.489.599.6UNQ59.398.0100.047.993.099.8表2.无监督压缩方法实现的压缩域检索性能。所提出的UNQ方法在两个数据集和两个内存预算下都优于所有竞争对手。4.1. 与最新技术作为初步实验，我们将所提出的UNQ方法与当前最先进的方法在百万级Deep1M和Bigann1M数据集上进行了无监督压缩问题的比较。特别是，我们比较了以下方法：• OPQ[6，24]，使用Faiss库的实现[16]。• Catalyst+OPQ[26]在“扩展”向量之上使用OPQ我们使用作者提供的实现，并调整d和λ超参数以获得最佳性能。• Catalyst+Lattice[26]使用球体上的固定预定义网格进行矢量量化。在这里，我们还使用了作者提供的实现，并调优了dout和λ超参数。隐藏层的维度被设置为2048个神经元。使用8字节r2=79和16字节r2=253的格量化器• LSQ[22]，最先进的浅量化方法，通过码字的总和近似每个向量。我们使用作者提供的实现。• LSQ+rerank，其通过具有1024个神经元的两个隐藏层的学习的解码器另外对LSQ结果的一些顶部进行重新排序。解码器获得D维LSQ近似作为输入，训练以最小化重建目标（9）。重新排序的元素数量与UNQ相同。• UNQ是我们提出的一种新方法。我们使用类似于[26]的架构：编码器和解码器由两个1024个单元的线性层组成，每个层都配备了批量归一化和ReLU激活功能。码字的维数被设置为256，我们重新排名前500名候选人。表2列出了不同方法获得的召回值。下面我们重点介绍几个关键观察结果：• 在两个数据集和两个压缩级别上，引入的无监督神经量化优于竞争对手，并为无监督压缩问题提供了新• 目前最先进的方法Catalyst+Lattice和LSQ在不同类型的可视化数据上具有竞争力。虽然LSQ在浅层SIFT描述符上优于Catalyst+Lattice，但其在深层描述符上的准确性要低得多。同时，所提出的UNQ在两个数据集上都提供了最高的准确性，这使得它成为所有类型数据的通用方法。• 具有可学习解码器的额外重新排序阶段仅为浅LSQ方法提供轻微改进。这表明UNQ中的端到端学习对于高压缩精度至关重要。3043方法R@1BigANN 10MR@10 R@100R@1Deep10MR@10R@100每个向量8个字节催化剂+晶格20.963.994.318.253.588.7LSQ21.764.395.014.848.184.8LSQ +重新排序21.864.895.015.148.885.9UNQ25.870.596.318.857.090.9每个向量16个字节催化剂+晶格42.090.099.737.984.699.2LSQ50.595.099.934.379.898.2LSQ +重新排序50.795.399.934.581.198.4UNQ52.195.499.940.186.899.3表3.在1000万个数据集上的性能。在这个规模上，所提出的无监督神经量化方法相对于现有方法的优势仍然存在。方法R@1BigANN1BR@10 R@100R@1Deep1BR@10R@100每个向量8个字节催化剂+晶格10.437.676.616.838.768.2LSQ9.635.973.313.232.359.9LSQ +重新排序9.936.173.812.331.659.7UNQ13.044.582.414.537.868.5每个向量16个字节催化剂+晶格31.177.898.335.372.895.6LSQ38.085.699.330.565.091.1LSQ +重新排序37.686.099.330.165.891.4UNQ38.386.899.435.574.296.1表4.在10亿个数据集上的性能所提出的UNQ方法在大多数工作点上优于竞争对手4.2. 额外内存消耗在这里，我们分析所提出的UNQ方法所需的额外内存消耗与浅基线相比，UNQ另外存储前馈编码器和解码器网络的参数。在在我们的实验中，该模型需要大约19.8 Mb的8字节预算和30.1 Mb的16字节预算，这与需要17.2 Mb的Catalyst+Lattice[26]相当。注意，这个数量不依赖于数据库向量的数量。例如，对于十亿个向量的数据库，这仅导致每个向量的可忽略的0.02个额外字节。作为最重要的实验，我们验证了UNQ的优势持续更大规模的数据集。也就是说，我们在更大的数据集Deep 10 M和BigANN 10 M以及十亿规模的数据集 Deep1B 和 BigANN1B 上比较了 Cat-alyst+Lattice，LSQ和UNQ。结果在表3和表4中示出，并且证明UNQ总是优于浅的LSQ的对手有相当大的优势。UNQ在大多数操作点上的性能也优于Catalyst+Lattice，除了Deep1B上8字节编码的R@1，R@10。对于Deep1B和BigANN1B，我们重新排名前1000名候选人，因为与十亿级搜索相比，它需要的时间可以忽略不计。4.3. 消融在本节中，我们通过评估每个组件的贡献来实证验证我们对培训架构和模型的选择。本节中的所有实验都符合BigANN1M数据集上每个向量M=8字节的预算。更具体地说，我们比较• UNQ-我们的主要模型，根据第3节中提供的描述构建和训练，所有参数在第一个实验中描述。• 彻底的重新排序-像UNQ，但最接近3044方法BigANN 1M，8字节R@1 R@10 R@100UNQ34.682.899.0穷举重排序34.682.899.3没有重新排序25.068.595.0无三重态丢失35.583.495.7仅三胞胎27.972.699.2UNQ（不含硬）33.880.498.0UNQ，不含Gumbel30.275.778.1无正则化器31.080.495.2表5.针对不同培训目标的消融研究仅用d1（·，·）执行邻居搜索。这种方法需要通过对数据库中的每个向量运行一次解码器模块来重建每个数据向量。在与UNQ相同的模型参数上评价了该设置。• 没有重新排序-训练过程与UNQ相同，但搜索是在解码器没有重新排序的情况下实现的。• 无三重丢失- UNQ模型执行两阶段搜索，但不显式优化d2（·，·），即α=0。这相当于训练一个正则化离散变分自编码器，而无需对其隐藏表示进行显式要求。• 仅三元组-类似于UNQ，但最近邻搜索仅使用d2（·，·）执行。该模型也使用α = 1进行训练。0且不含项（9）。• UNQ w/o硬-类似UNQ，但Gumbel-Softmax没有硬分配离散化，如[13]所示。• UNQ w/o Gumbel类UNQ，但量化如在β =0的[ 1 ]中实现。1.一、• 无正则化- 与UNQ相同，但平衡正则化项设置为β=0。所有其他参数不变。表5中的结果表明，我们的方法的三个核心组成部分（重新排序，三重损失，CV正则化）中的每一个都会与R@1相比，具有L=500个候选者的重新排序阶段在R@100上可预测地不太重要，如从UNQ和无重新排序之间的比较中可以看出的。三重损失项使R@100受益，而CV正则化器在所有三个回忆区域中提供了显着的增益注意，Gumbel-Softmax技巧的使用优于[1]中提出的可微分量化。最后，与UNQ w/o硬选项相比，Gumbel-Softmax技巧的“硬”版本的使用4.4. 定时最后，我们讨论了编码数据库和搜索压缩数据所需的时间。用UNQ编码数据库点的复杂性几乎与Catalyst相同，因为它只需要通过两个完全连接的层进行前馈传递。特别是，在 UNQ 的单个 Nvidia 1080Ti GPU 上，Deep1M 每点 8 字节的编码时间约为 1.5 秒，而Catalyst+Lattice约为1.5秒。4.1在相同的GPU卡上运行。LSQ编码速度较慢，因为它需要多次优化迭代，在我们的实验中，使用作者的实现对Deep1M进行编码需要27秒搜索与现有的竞争者不同，所提出的UNQ方法包括额外的重新排序阶段，其利用前馈解码器重建一些候选，并计算原始D维中的距离。空间因为候选者的数量通常很小，所以重新排序阶段几乎不影响总的搜索运行时间。例如，在M=8使用d2（·，·）的穷举扫描（通过查找表）需要3秒与此同时，1000名候选人的重新排名，通过BLAS指令和英特尔MKL li-10实现，仅需25.9ms。这两个时间都是在同一台机器上以单CPU模式获得的这表明重新排序带来的额外运行时成本是微不足道的，特别是对于大型数据库或较长的代码。注意，Catalyst+Lattice方法中的搜索比基于LUT的方法慢，即[26]报告约1。8字节代码的搜索时间增加5倍5. 结论我们提出了无监督神经量化（UNQ）-一种新的无监督压缩方案的压缩域检索的问题。我们的方案emplies的想法，从最近的离散自动编码器的工作，并表明，与适当的训练目标的隐变量可以成功地作为有效的检索量化表示。从另一个角度来看，我们的方法可以被看作是现有的浅量子化方法，如AQ或LSQ的一个自然的通过大量的实验，我们证明了UNQ的优势，国家的最先进的方法，如LSQ和最近的格为基础的量化器。此外，虽然现有的方法对不同类型的数据执行不同，但UNQ在基于直方图的描述符和深度描述符上都提供了最高的检索精度。出于可重复性的目的，我们在线2发布了无监督神经量化的Pytorch实现。2https://github.com/stanis-morozov/unq3045引用[1] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Mrs. fte ， LucaBenini，and Luc V Gool.用于端到端学习可压缩表示的软到硬矢量量化。神经信息处理系统的进展，第1141-1151页，2017年。8[2] 作者：Artem Babenko，Victor S.Lempitsky 用于极端矢量压缩的加性2014. 一、二[3] 作者：Artem Babenko，Victor S.Lempitsky 深度描述符的十亿级数据集的高效2016. 5[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。 InComputer Vision - ECCV 2018 - 15th EuropeanConference ， Munich ， Germany ， September 8-14 ，2018，Proceedings，Part XIV，pages 139-156，2018. 3[5] 陈永健，关涛，王成。残差矢量量化的近似最近邻搜索。传感器，2010年。2[6] 葛铁铮，何开明，柯启发，孙建。优化的产品量化近似最近邻搜索。2013. 一、二、五、六[7] Yunchao Gong，Svetlana Lazebnik，Albert Gordo，andFlorent Perronnin.迭代量化：学习二进制代码用于大规模图像检索的procrustean方法。IEEE传输模式分析马赫内特尔，35（12）：2916-2929，2013. 2[8] Yunchao Gong，Liu Liu，Ming Yang，and Lubomir D.布尔-德夫。使用矢量量化压缩深度卷积网络。CoRR，abs/1412.6115，2014年。1[9] Jae-Pil Heo 、 Youngwoon Lee 、 Junfeng He 、 Shih-FuChang和Sung-Eui Yoon。球形散列。在2012年IEEE计算机视觉和模式识别会议上，Providence，RI，USA，2012年6月16-21日，第2957-2964页，2012年。2[10] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在Proceedingsofthe32ndInternationalConferenceonMachineLearning ， ICML 2015 ， Lille ， France ， 6- 11 July2015，pages 448-456，2015中。4[11] 嗨，我是阿拉亚·贾恩，华金·塞佩达，帕特里克·佩雷斯，还有雷米·格里邦瓦尔。Subic：一种用于图像搜索的监督结构化二进制代码。在 IEEE InternationalConference on Computer Vision，ICCV 2017，意大利威尼斯，2017年10月22日至29日，第833-842页，2017年。一、二[12] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新参数化。2016. 一、三、四[13] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax 进行分类重新参数化。arXiv预印本arXiv：1611.01144，2016。8[14] 她的妻子，马提斯·杜兹，还有科迪莉亚·施密德。最近邻搜索的产品量化 IEEE Trans.模式分析马赫内特尔，33（1）：117-128，2011. 一、二[15] 埃尔韦·杰古，罗曼·塔维纳，马蒂什·杜兹，和刘·伦特·阿姆萨勒格。在十亿个向量中搜索：使用源代码重新排序见ICASSP程序，2011年。53046[16] Je f fJohnson，MatthijsDouze，andHer ve'Je'gou. 用gpu进行十亿级相似性搜索。arXiv预印本arXiv：1702.08734，2017。6[17] Lukasz Kaiser 、 Samy Bengio 、 Aurko Roy 、Ashish Vaswani、Niki Parmar、Jakob Uszkoreit和Noam Shazeer。使用离散潜变量的序列模型中的快速解码。在第35届机器学习国际会议论文集，ICML2018，Stoc kholmsmaüssan，Stockholm，瑞典，2018年7月10日至15日，第2395-2404页，2018年。3[18] 本杰明·克莱因和里奥·沃尔夫。为产品的量化辩护。CoRR，abs/1711.08589，2017。一、二[19] 放大图片作者：Simon Lynen，Torsten Sattler，Michael Bosse，Joel A.作者声明：by J. 滚出我的实验室大规模实时视觉惯性定位。在机器人：科学与系统XI，罗马，罗马，意大利，2015年7月13日至17日，罗马大学。1[20] Jerry Ma和Denis Yarats。拟双曲动量和亚当深度学习。CoRR，abs/1810.06801，2018。5[21] Chris J. Maddison，Andriy Mnih，and Yee WhyeTeh.具体分布：离散随机变量的连续松弛。CoRR，abs/1611.00712，2016。一、三、四[22] 放大图片作者：Joris Clement，Holger H. Hoos，and James J.点再谈加性量化。在Computer Vision-ECCV2016-14thEuropeanConference ，Ambassador，The Netherlands，October 11-14，2016 ， Proceedings ， Part II ， pages 137-153 ，2016。一、二、五、六[23] 放大图片作者： Julieta Martinez ， ShobhitZakhmi ， Holger H. Hoos ， and James J. 点LSQ++：在多码本量化中具有更低的运行时间和更高的重调用。在计算机视觉- ECCV 2018-第15届欧洲会议，慕尼黑，德国，2018年9月8日至14日，会议记录，第XVI部分，第508- 523页，2018年。一、二[24] Mohammad Norouzi和David J.舰队笛卡尔k均值2013. 一、二、六[25] Ezgi Can Ozan 、 Serkan Kiranyaz 和 MoncefGabbouj。近似最近邻搜索的竞争量化。IEEETrans. Knowl.数据工程，28（11）：2884-2894，2016. 一、二[26] 亚历山大·萨布雷罗勒，马蒂亚斯·杜兹，科迪莉亚·施密德，还有她。用于相似性搜索的扩展向量。2018. 二、三、五、六、七、八[27] Alexandre Sablayrolles、Matthijs Douze、NicolasUsunier和Herve Jegou。我们应该如何评估监督哈希？2017年IEEE声学、语音和信号处理国际会议，ICASSP 2017，新奥尔良，美国洛杉矶，2017年3月5日至9日，第1732-1736页，2017年。1[28] NoamShazeer ， Azalia Mirhoseini ， KrzysztofMaziarz，Andy Davis，Quoc V. Le，Geoffrey E.Hinton和Jeff Dean超大型神经网络：稀疏门控专家混合层。CoRR，abs/1701.06538，2017。5[29] 拉斐尔·舒和中山秀树。通过深度组合代码学习压缩单词嵌入。CoRR，abs/1711.01068，2017。4[30] Leslie N Smith和Nicholay Topin。超收敛：使用大学习速率快速训练神经网络。 arXiv 预印本 arXiv ：1708.07120，2017。53047[31] 放大图片作者：George Tucker，Andriy Mnih，Chris J.作者声明：by Jascha Sohl-Dickstein.REBAR：离散潜变量模型的低方差无偏梯

下载后可阅读完整内容，剩余1页未读，立即下载