十亿级倒排索引：高效近邻搜索的新突破

131 浏览量更新于2024-06-20 收藏 643KB PDF 举报

本文主要探讨了十亿级近似最近邻搜索在大数据时代的重要性，尤其是在大规模视觉搜索、低镜头分类和人脸识别等应用中的关键作用。随着互联网上图像数量的爆炸性增长，对高效检索算法的需求日益迫切，能够在几毫秒内处理数十亿项目成为挑战。目前，最先进的十亿级检索系统如多索引（Multi-Index）采用精细的特征空间分区，通过提取候选者列表来提高搜索效率。这些系统依赖于索引结构，如K均值质心的Voronoi区域或倒排索引的扩展版本，它们将特征空间划分为众多小区域，仅搜索与查询最接近的区域，以减少搜索范围。然而，文章指出，之前的研究可能没有充分挖掘倒排索引的潜力。作者提出了一种新型的检索系统，基于倒排索引设计，但在内存消耗和构建复杂性方面实现了与多索引相当的性能提升。这种系统尤其在处理深度描述符数据集时表现出色，比如在10亿个数据点上，相较于FAISS库中的反向多索引，它提供了更先进的搜索效率。在存储方面，系统采用了压缩表示技术，如乘积量化，以降低与候选者数量相关的计算复杂性，确保候选者列表的简洁性，即使在数据库无法完全加载到RAM时也能高效运行。论文的创新点在于对倒排索引进行了深入优化，通过结合深度纠缠的描述符和相对简单的SIFT描述符，以及对特征空间的细致划分，实现了在大规模数据处理中的高效搜索。这种改进对于推动十亿级近似最近邻搜索技术的发展具有重要意义，不仅提升了性能，还保持了与现有解决方案相近的内存需求和构建复杂度。本文的研究成果对于提升大规模数据检索的实时性和效率有着积极的推动作用，对于那些需要处理海量图像数据的应用领域，如搜索引擎、社交媒体和智能安防系统，具有实际价值。

十亿级人工神经网络反演指标的再探讨

本文件的结构如下。我们在第2节中回顾了十亿级索引的相关工

作。第三部分介绍了一种基于倒排索引的新系统。第4节详细介绍了

证明我们系统优势的实验。最后，第五章对全文进行了总结。

相关工作

在本节中，我们简要回顾与我们的方法相关的先前方法。这里我们还

介绍了以下部分的符号。

乘积

量化

（PQ）是用于高维向量的有损压缩方法[10]。通常，

PQ用于大规模数据集不适合主内存的情况。简而言之，PQ通过来

自M个

维码本

，…，R2

的

个码字的级联来编码每个向量

∈

R_D

。

. .

，

. 每个码本通常包含256个码字

{

，

. . .

，

} RD

，

使得码字id可以适合一个字节。换句

1 256

换言之，PQ将向量X分解成

个单独的子向量[

，

. . .

，

]和

将矢量量化（VQ）应用于每个子矢量

，同时使用单独的码本

。则向

量

的

字节代码是码字的元组

索引[

，

. . .

，

]，有效近似为

≈ [

，

. . .

，

]。作为

PQ是一个很好的属性，它允许有效地计算

未压缩查询和大量压缩向量。通过ADC程序[10]使用查找表进行计

算：

− x. .

，

]

−

m=1

其中

是查询

的第

个子向量。假定从查询子向量到码字的距离被预先

计算并存储在查找表中，则可以在

次

加法和查找中计算该和。由于高

压缩质量和计算效率，基于PQ的方法目前是大型数据集紧凑表示的首

选。PQ引起了计算机视觉和机器学习界对高维向量压缩的积极研究[11

IVFADC [1]是第一个能够有效处理十亿级数据集的检索系统之

一。IVFADC使用倒排索引[20]来避免穷举搜索和产品量化以进行数据

库压缩。反转索引将特征空间分割成

个区域，这些区域是码本

，

. . .

，

}。码本通常经由标准

均值聚类来获得然后IVFADC编

码每个点从其所属区域的质心的位移编码通过乘积量化来执行，其中

全局码本由所有区域共享。

反相多指数和多D-ADC。倒排多索引（IMI）[2]是对倒排索引的

推广，是目前最先进的高维空间和大型数据集的索引方法而不是使用

的全维码本，IMI分裂成几个

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

十亿级倒排索引：高效近邻搜索的新突破

基于springboot教育资源共享平台源码数据库文档.zip

视频笔记linux开发篇

readera-24-09-08plus2020.apk

STM32单片机控制舵机旋转

基于springboot仓库管理系统源码数据库文档.zip

酒店管理系统源码C++实现的毕业设计项目源码.zip

58商铺全新UI试客试用平台网站源码

基于SpringBoot+Vue的轻量级定时任务管理系统.zip

毕业设计&课设_微博情感分析，用 flask 构建 restful api，含相关算法及数据文件.zip

4D毫米波雷达点云数据处理方法研究.caj

最新资源