LSQ++: 提升精度与速度的多码本量化新方法

164 浏览量更新于2024-06-20 收藏 777KB PDF 举报

多码本量化（MCQ），作为一种在高维空间中进行数据压缩和搜索的高效技术，是信息技术领域中的一个重要研究课题。它最初在1999年的中国国际航空航天博览会上由中国航空工业协会引起关注。MCQ的核心任务是尽可能精确地利用多个基（码本）中的离散元素来表示一组向量，目标是在有限的内存预算下，提升距离估计和召回率，尤其是在大规模近似最近邻（ANN）搜索中。早期的研究着重于降低量化误差，这直接影响了算法的性能，如召回率和搜索效率。然而，由于不同研究之间缺乏统一的比较标准，如数据集、协议和计算资源，使得评估和改进MCQ的方法变得复杂。LSQ++，作为MCQ的一种变体，虽然在实践中展现出显著的速度优势，但在准确性方面并非始终最优。为了克服这些问题，本工作首先对一系列MCQ基础方法进行了基准测试，确认了LSQ在某些场景下的速度优势，同时指出其在精度上可能存在的局限。随后，提出了两个关键的改进措施： 1. 更准确的LSQ：通过引入新的技术和策略，该工作提升了LSQ的精度，使其在保持高速度的同时，能更好地逼近原始数据的特性，提高了搜索结果的可靠性。 2. 更快速的LSQ：在保持精度的同时，优化了LSQ的执行效率，降低了计算复杂度，使得在处理大规模数据时更加高效。这些改进不仅定义了MCQ技术的新技术水平，而且对实际应用有着重要的影响。在机器学习和计算机视觉领域，MCQ被广泛应用到各种场景中，如Gumbel变量辅助的近邻查询加速、深度学习模型中的相似性图构建、大规模推荐系统的性能优化以及大规模数据挖掘中的内存管理和速度提升。通过这些改进，LSQ++有望成为MCQ技术中的一个强有力的竞争者，推动这一领域的进一步发展。

J. Martinez

，

S. Zakhmi

，

H. H. Hoos

和

J. J.

小

表

使用

位的

SIFT1M

上的

和

LSQ

之间的比较。

培训

Init + train

基本编码总计

R@1

CQ [34]

（

C++

）

碱基组

4.5h

CQ [34]（C++）learn set 42 m 10 s 42.2 m 0.162

LSQ [21]（Julia，C++） learn set 9.1 m 4.35 m 13.5 m 0.294

并且在搜索空间内使用波束搜索来更新代码，该搜索空间的大小由权衡精度和

计算的超参数控制。

性能比较评价

虽然最近的工作使用了不同的实验设置，但幸运的是，所有研究都报告了64位

SIFT1M数据集的结果。首先，我们聚焦比较在该数据集上报告最佳结果的三

种方法：CQ [34]（R@1，0.290）、LSQ [21]（R@1，0.298）和CompQ [27]

（R@1，0.298）

0.352

）。我们在一台配备

核

i7- 7700 K CPU

（

4.20 GHz

）、

32 GB RAM

和

NVIDIA Titan Xp GPU的台式机上测量所有时间。

LSQ

与复合量化（ CQ）。

对于LSQ，我们使用Martinez 和Clement，

在

Julia [6]中编写的公开可用的实现作为起点。对于CQ，我们使用最近发布的

Zhang

实现。此版本是用多线程C++编写的，并使用了高度优化的库MKL（用

于矩阵运算）和libLBFGS（用于码本更新）。

我们让

使用m

= 8

个码本，并且

LSQ

使用m

= 7

个码本，加上用于数据库范

数的额外码本这意味着这两个方法具有相同的查询时间和使用相同的内存量。

我们运行这两个方法30次迭代，并使用它们各自的代码版本中提供的所有默认

超参数。为了使比较更加公平，我们使用OpenMP多线程将这些方法是从Julia

调用的，其余代码保持不变。

Zhang

等人

[34]

在

SIFT 1M

上报告的结果是在

基本

集上训练的。

SIFT1M

具

有

学习

集，并且更常见的协议是专门在

学习

集

，

35]

上学习模型参数。因此，我们还运行将其参数学习限制到

学习

集

的方法

我们在表1中报告了我们的实验结果。当CQ在

基本

集上训练时，LSQ的召回

率略高于

，但

LSQ

的总体运行时间快

倍。当我们在

学习

集上训练

时，

CQ的运行时间急剧减少，但学习的参数不能很好地推广到

基

集（ R@1为

0.162）。LabelMe22K和MNIST数据集

https://github.com/una-dinosauria/local-search-quantization

https://github.com/hellozting/CompositeQuantization

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

LSQ++: 提升精度与速度的多码本量化新方法

Rayuela.jl：我博士论文的代码。 基于量化的高维快速相似性搜索方法库。 在ECCV 18上展示

Mcq-diagnosis:MCQ测验和分数计算

mcq-app：MCQ React应用

MCQ-Classification

mcq-maker

mcq.rar_Multiple Choice_mcq

django-quiz:在Django中创建的测验应用程序用于创建和接受MCQ测验

mcq.rar_Word for Word_mcq ssd8_ssd8 mcq

AG6200-MCQ中文规格书.pdf

mcq-crx插件

最新资源

Rayuela.jl：我博士论文的代码。基于量化的高维快速相似性搜索方法库。在ECCV 18上展示