iQAN：多核架构上的高效向量搜索与查询内检索优化

多核架构

126 浏览量更新于2024-06-19 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文介绍了在多核架构上实现快速准确向量搜索和高效查询内检索的iQAN算法，探讨了可扩展性挑战，并展示了在不同规模数据集上的优秀性能表现。" 向量搜索是人工智能领域的一个重要技术，特别是在处理非结构化数据如图像、文本和视频时，它通过神经网络将数据转化为高维向量表示，然后基于向量间的距离进行搜索。随着神经嵌入模型的发展，向量搜索已成为构建基于语义的搜索系统的核心。然而，如何在多核架构上最大化其性能并应对可扩展性挑战，仍是当前研究的焦点。 iQAN（内部查询并行加速的向量搜索算法）是针对这一问题提出的一种解决方案。它深入分析了现有系统在多核环境下的扩展瓶颈，识别出系统层面和算法层面的问题。iQAN引入了一组优化措施，旨在提高搜索收敛性、减少冗余计算，并降低同步开销，这些都是影响多核架构性能的关键因素。实验证明，iQAN在实际世界数据集上展现出显著的性能提升。相比于最先进的顺序基线，iQAN在延迟方面降低了37.7%至76.6%，数据集规模从100万到1亿不等。此外，随着图的大小增加或准确性要求提高，iQAN的可扩展性表现出色，其在20亿规模数据集上的性能提升可达16.0倍，即使在64个内核的情况下也是如此。 iQAN的关键词包括近似最近邻搜索、基于图的搜索方法、向量搜索和查询内并行。这些关键词反映了算法的核心特点，即利用图结构优化搜索过程，并通过并行化策略提升效率。该工作受到“信息系统”和“辅助数据库搜索”这两个计算机科学领域的CCS概念的影响，表明其在信息检索和大数据处理中有广泛应用前景。 iQAN为解决多核架构上的向量搜索和查询效率问题提供了新思路，通过克服可扩展性挑战，提高了大规模数据集上的搜索性能，有望对涉及向量搜索的AI应用产生深远影响。这项工作遵循知识共享署名国际4.0许可协议，鼓励进一步的研究和创新。

资源详情

资源推荐

PPoPP

Zhen Peng，Minjia Zhang，Kai Li，Ruoming Jin，and

Bin Ren

316

延迟（

）

Sync.

间接费用

∼

公制。在实践中，找到确切的前向搜索可能非常耗时。

结果，搜索过程仅检查相似性图中的向量的子集，从而

导致

准确性对延迟

的权衡。准确率通常

由

召回

率来衡

量，召回率是检索到的前K个候选者（ K

′

）中的真实最近

邻（K ′）的分数，定义

如下[18]：

随着线程数量的增加，同步开销占总搜索时间的50%以

上，成为整个搜索延迟的主要因素

原则上，可以

通过在插

入期间采用并发优先级队列或无锁算法来减轻这种同步开

销。然而，我们发现，

还有其他挑战严重限制了平行

󰴏

󰴜

󰴚

󰴘

󰴣󰴣

（

󰴏

′

）=

󰴏

′

∩

󰴏

′

∩

󰴏

（一）

搜索速度，如下所述。

󰴏

󰴈

20 80

高

召回

率是期望的，因为低准确度的结果降低了用户

满意

度。另一方面，延迟度量的是

寻找最接近的邻居所花费

的时间. 低延迟是至关重要的，特别是使人工神经网络搜

索在线交互

式应用程序.

在给定的前提下，我们现在定义

我们在本文中处理的确

切问题：

1 2 4 8 16 32 64

的线程

图1. EP在Deep100M上的

延迟。

1 2 4 8 16 32 64

的线程

图2. EP增加了高同步。

头顶

问题定义。考虑到相似性图和多核架构与处理器，我们

的目标是设计一个并行搜索算法，使搜索延迟

达到一个给

定的召回目标是最小化。

4 基于图的ANN搜索中的挑战

我们首先讨论一

个简单的并行实现

，并分析其在多核CPU上的成本分析

稍后将在设计部分中指导设计

边缘并行（Edge-wise parallelism，EP）。假设成对

距离

计算（算法1中的第8 - 12行）在迭代中彼此不

相关，则通过将

距离计算拆分到多个线程来并行化邻居扩展步骤是一个自

然的想法。我们将此

方案表示为

边并行

。边缘并行允许

邻

居扩展并行运行，同时

对每个邻居执行与顺序算法相同的计

算。边并行的另一个好处是，无论使用多少个线程，每次

执行都返回相同的结果尽管它在简单性方面有好处，但这

种

自然的想法并不能带来良好的加速。事实上，由于

良好

调优的顺序基线，边缘并行

通常会达到次优性能。图图1显

示，为了在DEEP 100M数据集上达到0.999的召回目标（

详细

设置可以在第6节中找到），具有边缘并行性的多线程

搜索表

现不佳，即，

从1到64个线程没有加速。是什么原因导致

基于图的搜索在多核架构上的可扩展性差？

原因1：边缘并

行导致高同步成本。扩展

边并行性的一个主要挑战是需要

执行大量的节点扩展

以在大型图上实现高精度

，从而导致

数百甚至有时数千次扩展轮。由于每一轮都需要至少一个

全局同步，以根据所有候选者到队列点的距离来维持所

有候选者的顺序，因此这种

频繁的全局同步给搜索过程增

加了显著的同步

开销。图2显示

原因2：边并行导致计算强度低，使得搜索过程难以充

分利用内存带宽。我们使用英特尔处理器

计数器监视器

[15]来测量各种数据集和图形下的内存带宽

利用率。数据移

动主要来自节点扩展时的加载向量

。表1显示，单线程执行

仅使用

英特尔至强融核处理器上峰值硬件内存带宽

消耗（80

GB/s）的3.4%以下，

表明多线程利用更多带宽

应能带来更

高性能。然而，使用32路边缘并行，内存带宽利用

率仅适

度增加至4.2%。一些例外情况

（例如，SIFT 1M）甚至观

察到带宽消耗降低，这意味着边缘并行具有低

计算强度，这

使得使用所有可用的原始带宽具有挑战性。边并行计算强度

低的原因在于两个方面：（1）与矩阵乘法不同，逐点欧氏

距离计算是一个计算强度低的运算符

;（2）考虑到相似图自

然具有低

出度以避免

出度爆炸问题，一步中要扩展的邻居

数量有限

[19]。

表1.内存带宽（GB/s）测量。

基准

SIFT 1M

GIST 1M

深10米

SIFT 100M

深度100米

单次

THD

边缘方向64度

2.1

2.0

2.7

3.4

1.6

2.0

1.2

2.7

0.8

1.6

原因3：边缘并行仍然需要许多迭代来收敛，导致步骤

之间的长顺序依赖

性。在算法1中，搜索执行

一系列顺序

迭代（第5 - 13行），其中每个

迭代执行节点扩展。扩展

哪个节点

取决于前面步骤更新的优先级队列。此外，迭代次数

取决于召回

目标和图的大小。例如图图3显示，随着

召回目

标的增加，

在一亿规模数据集DEEP 100 M上找到前100个最

近邻居

的迭代次数随着召回目标的增加而急剧增加。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

iQAN：多核架构上的高效向量搜索与查询内检索优化

一种多维向量并行查询算法

一个强大的内存搜索器

autosar多核架构

汽车电子咖啡厅 多核autosar架构开发

autosar 多核 配置

多核支持向量机matlab代码

多特征多核支持向量机模型pytorch代码

多核支持向量机核函数数学公式

为什么要用多核支持向量机

基于tricore芯片的autosar架构下的多核启动

tms320c66x keystone架构多核dsp入门与实例精解.pdf

clickhouse的多核并⾏

多核和多处理器的区别

autosar 多核

autosar核间通信多核

autosar多核通讯和IOC的差别

ti6442 多核 之间通讯

多核处理器和多处理器的区别

tasking 多核 静态库

autosar 多核功能安全

最新资源

汽车电子咖啡厅多核autosar架构开发

autosar 多核配置

ti6442 多核之间通讯

tasking 多核静态库