SLSB-forest：优化高维数据的近似k近邻查询

137 浏览量更新于2024-08-28 收藏 1.08MB PDF 举报

"SLSB-forest是针对高维数据的近似k近邻查询提出的一种新的索引结构，它结合了局部敏感散列（LSH）和B-tree，旨在解决LSH方法中数据桶分布不均和无法准确计算查询范围的问题。文章中提到了两种查询算法，分别是快速查找和准确率优先查找，并通过理论分析和实验验证了这些方法在查找过程中的动态变化特性。" 在高维数据处理领域，近似k近邻查询（Approximate k-Nearest Neighbor,简称AKNN）是一项重要的任务，它寻找与查询点最接近的k个数据点，常用于推荐系统、图像检索和机器学习等领域。然而，随着数据维度的增加，经典的搜索方法如线性扫描变得效率低下。为了解决这一问题，局部敏感散列（Local Sensitive Hash, LSH）应运而生。LSH是一种数据索引技术，它将高维数据映射到低维空间，使得相似的数据更可能被映射到相同的哈希桶，从而快速找到可能的近邻。然而，LSH存在两个主要问题：一是数据在哈希桶中的分布可能不均匀，导致部分桶过于拥挤，而其他桶则空置；二是无法精确地确定查询时应该搜索的哈希桶范围，这直接影响了查询效率和结果的准确性。为了解决这些问题，SLSB-forest（Supporting Large Scale Bucket的缩写）被设计出来。SLSB-forest结合了LSH和B-tree的优势，LSH用于初步筛选，B-tree则用于进一步的索引和排序，使得数据在桶内保持相对均衡，同时能够动态调整查询范围，提高查询效率。在SLSB-forest中，提出的快速查找算法着重于速度，适用于对实时性要求高的场景，而准确率优先查找算法则更注重返回结果的精度。这两种查询策略通过理论分析和实验测试，证明了它们能够在查找过程中有效地处理查询范围的变化，适应数据动态更新的需求。 SLSB-forest是高维数据环境下优化近似k近邻查询性能的有效手段，它通过结合不同的数据结构和算法策略，解决了传统LSH方法的局限性，提高了查询效率和结果质量。对于处理大规模高维数据集的应用，SLSB-forest提供了一种值得考虑的解决方案。

研究与开发 ·60·

2 基础知识

2.1 LSH

严格来说，LSH 并不能直接解决近似 k 近邻

查询（c-AkNN）问题。LSH 最初设计是为了解决

（r,c）-近邻查询问题。

定义 1 （（r,c）-近邻查询）D 是 d 维空间下

的数据集，B(q,r)是以 q 为中心、r 为半径的超球

形范围。（r,c）-近邻查询问题需要返回以下结果。

· 如果超球空间 B(q,r)至少包含 D 中的任意

一点，则返回与查询点 q 距离小于 cr 的一

个点。

· 如果 B(q,cr)未覆盖 D 中的任意一点，则返

回空。

定义 2 （c-ANN 查询与 c-Ak

NN）D 是 d 维

空间下的数据集，对于查询点 q，



o 是数据集 D

中距离 q 最近的点。c-ANN 查询返回的结果

o 需

要满足

(,) (, )dist c dist



qo qo≤ ，其中 1c  。更一

般化的

c-AkNN 查询，如果需要查询的近似近邻

个数

k>1 时，近似 k 近邻的结果集

{, , }

oo… ，需

要满足

(, ) (, )

dist c dist







qo qo≤，



o 是查询

点的真实 k 近邻。

图 3 是 3 个不同情况的（r,c）-近邻查询，如

果现在需要支持 c-AkNN 查询，设 k=10。可以看

出，图 3（a）设置的查询半径 r 刚好可以返回合

适数量的查询结果；图 3（b）查询范围内的数据

只有 2 个，不能够返回足够数量的结果；图 3（c）

由于数据分布比较密集，在查询范围内的数据远

远大于 10，需要消耗更多额外的时间对候选集进

行筛选。在实际的 c-AkNN 查询时，由于数据分

布不均匀且查询近邻 k 不断变化，很难找到合适

的 r 值。

定义 3 （LSH

[5]

）给定查询范围 r ，比例参

数 (0)cc

 ，概率值

p 、

()pp ，o 、q 代表

两个数据点， ()

dist



是欧氏空间的距离度量函数。

如果散列函数 ()



能够满足以下条件：

· 如果 ()dist ro,q ≤，则

[() ()]

hh poq≥；

· 如果 (, )dist croq≥，则

[() ()]

hh poq≤

。

则 ()h



函数被认为是

(, , , )rcr p p 距离敏感

的。本文采用参考文献[11]中适用于欧氏距离的局

部敏感散列函数：

() =

aob

























o （1）

其中，a 的每一维都是服从标准正态分布的，

w 是桶的宽度，b 是区间 (0, )w 中的随机数。数据

集中的任意两点

o 、q 之间的距离 r  o,q ，

()



是欧氏距离下的局部敏感散列函数。 o 、 q 通过

()

h 散列以后发生碰撞的概率计算如下：

(() ()) ()(1 )d

wb wb

hh f x

rr w

 



oq （2）

其中，

() e





。

为了更有效地解决欧氏空间下的（r,c）-近邻

图 3 （r,c）-近邻查询

2017193-3

剩余10页未读，继续阅读

weixin_38699492

粉丝: 8
资源: 946

SLSB-forest：优化高维数据的近似k近邻查询

slsb-nointerface-demo:使用SLSB无界面视图的网页演示

slsb-remote-demo:具有独立客户端的远程接口访问的无状态会话Bean演示

Artemis1.0－快速的SLSB+spring+hibernate代码生成工具

SLSB Improving the Steganographic Algorithm LSB

CPetstore-开源

important-java

atmosphere-ee6-2.1.5.zip

spring-jee-4.2.xsd.zip

Stateful--sessionbean.zip_sessionBean_stateful

seam-gen命令解析文档

最新资源