基于学习的高维数据c-近邻查询算法：效率与精度提升

需积分: 0 50 浏览量更新于2024-08-05 收藏 712KB PDF 举报

本文主要探讨了一种基于学习的高维数据c-近似最近邻查询算法。在高维数据处理中，最近邻查询是一种关键任务，尤其在推荐系统、图像识别、搜索引擎等领域，由于数据维度的增加，精确查找最近邻的成本会显著上升。c-近似最近邻查询则是在精度和效率之间提供了一个折衷方案，允许找到与目标数据点有相近度的近邻，而不仅仅是最精确的匹配。论文采用的是过滤-验证（Filter-and-Refine）框架，这是一种常用的方法来加速高维数据搜索过程。该框架首先通过预处理或筛选步骤，快速排除大部分非相关的数据点，然后在剩下的候选集中进行更精细的比较和验证。学习技术在此过程中起着至关重要的作用，利用机器学习算法，如深度学习或传统的监督学习，构建一个模型来预测数据之间的相似性或者距离，从而辅助查询过程。文章的核心贡献在于提出了一种数据驱动的c-近似最近邻查询算法。该算法首先对原始数据进行随机投影，这有助于降低数据的维度，同时保持足够的信息使得熵满足语义哈希技术的需求。随机投影可以有效减少存储和计算复杂性，同时在一定程度上保持了数据的内在结构。接着，算法利用学习到的模型对投影后的数据进行分类和排序，优先考虑那些可能性较高的候选点，进一步提高了查询效率。算法性能的关键在于模型的质量，它需要能够在有限的训练样本下准确地估计出数据之间的相关性。此外，为了确保查询结果的c-近似性，作者可能还涉及到了阈值设置和距离度量的选择，这取决于具体的应用场景和需求。论文最后通过实验展示了新算法在实际高维数据集上的效果，包括查询速度提升、精度保持以及内存消耗的优化等方面。相比于传统的c-近似查询方法，该学习方法在大规模数据处理中展现出更好的性能和可扩展性。总结来说，这篇文章研究了一种新颖的高维数据处理策略，结合了过滤-验证框架和机器学习技术，旨在提高c-近似最近邻查询的效率和实用性。这对于大数据时代中对高效查询性能和精度要求日益增长的应用具有重要意义。

2020

Journal of Software 软件学报 Vol.23, No.8, August 2012

(sublinear)时间内求解近似最近邻问题.针对不同的应用需求和相似性度量或者距离度量,研究者提出了多种位

置敏感的哈希技术.针对高维数据的余弦相似度计算,Charikar

[1]

提出了随机投影位置敏感哈希函数族;对于基

于集合的 Jaccard 相似度,Broder等人提出了 Min-Hashing 位置敏感哈希技术

[9]

用于近似计算集合数据之间的相

似度;对于范式距离 L

,当 p∈(0,2)时,Datar 等人证明了存在哈希函数族,可用于在次线性时间内计算最近邻查

询

[10]

.目前,位置敏感哈希技术已经在多个应用领域用于处理数据的近似性查询问题.

Tao 等人利用空间 z-曲线填充

[11]

、LSH 技术及 B

-树索引,提出了 LSBtree

[12]

处理 k-最近邻查询.在基于图

像内容的数据的最近邻查询方面,Min

[1]

提出了 Compact Projection 用于图像数据近似计算最近邻查询.该方法

证明了数据的弱可分性(

-weakly separable),首先通过随机投影技术,把高维数据投影为二进制的编码表示,通

过分析具体的数据筛选数据作为候选集,其中,候选集的大小可以表示为 O(an

).但是,该方法仍需较长的编码来

保证查询的质量.

Salakhutdinov 等人

[13]

提出了基于语义的哈希技术(semantic hashing).该方法通过把高维数据转换为二进制

编码,基于相似的数据对象具有相似的二进制编码的原理,使用二进制编码来有效地计算最近邻.如何生成高质

量的二进制编码成为提高语义哈希技术性能和查询效果的关键.基于语义的哈希提出了熵最大化准则(entropy

maximizing criterion),用以刻画二进制编码的质量问题.Zhang 等人

[5]

提出了基于学习的相似性查询技术

STH.STH 使用 k-NN 图构造数据库的相似性矩阵.为了得到满足熵最大化准则的二进制编码,STH 对相似性矩

阵进行特征值和特征向量求解,使用特征向量的中位数作为阈值,把特征向量转换为二进制编码,以满足熵最大

化.数据的二进制编码作为该对应数据的类标号,训练一组分类器来计算相似性查询.但是,该方法的数据预处

理需要很高的空间和时间代价.

2 基于学习的近似性查询

在本文中,数据对象(data object)也称为数据记录(data record),是对一个实体的刻画和数量性质描述,通常

表示为一个 d 维实向量空间中的点.本文中的记法如下:数据库 D 具有 n 个数据对象,记为数据对象集合

O={o

,…,o

},且 O⊆R

.本文中给定两个对象 o

,它们之间的距离记为 dist(o

)且 dist(o

)≥0;它们的相似性

度量记为 sim(o

)且 sim(o

)∈[0,1].除非特别指出,本文中的距离度量指的都是欧氏距离,相似性度量为余弦

相似度.

2.1 问题定义

给定数据库中数据对象集合 O 和该数据集合上的查询 q,最近邻查询(nearest neighbor query)返回满足

dist(q,o

)=min

o∈O

dist(q,o)的数据对象 o

.对精确最近邻查询,最简单的处理方法是对数据集执行线性扫描并计

算与查询之间的距离,对结果排序并返回距离最小的一个数据对象.这样,对于具有 n 个 d 维数据记录的数据集,

需要 O(nd)的时间复杂度.对于大量且高维的数据集,线性扫描的方式效率不高.

在大多数的查询应用中,用户并不需要精确的结果,近似的结果也可以满足用户的查询需要.比如在基于内

容的图像检索应用中,一个内容近似的结果就可以满足查询的要求.因此,研究者提出了近似最近邻查询,又称

为 c-近似最近邻查询(c-approximate nearest neighbor query).针对近似最近邻查询问题,本文提出了基于随机投

影学习的 c-近似最近邻查询技术.c-近似最近邻查询的定义如下:

定义 1(c-近似最近邻查询). 给定数据对象集合 O⊆R

,构造算法 A,对于每一个查询 q∈R

,返回数据对象

∈O,满足条件 dist(q,o

)≤c⋅min

o∈O

dist(q,o),其中,c 称为近似因子且 c>1.

给定包含 5 个数据对象的集合 O={o

,…,o

}和 O 上的查询 q.查询 q 在集合 O 上的 c-近似最近邻查询如图

1 所示.在数据集合 O 上,查询 q 的最近邻对象是 o

,q 与 o

之间的距离为 r.因此,在以 q 为圆心、以 c⋅r 为半径

的圆内的任何一个数据对象{o

,…,o

},均可作为结果返回,其中,c 为近似因子.

剩余13页未读，继续阅读

学习呀三木

粉丝: 29
资源: 303

基于学习的高维数据c-近邻查询算法：效率与精度提升

论文研究-基于SURF和快速近似最近邻搜索的图像匹配算法.pdf

学习驱动的高维数据c-近似最近邻查询优化算法

基于Hilbert曲线的近似k-最近邻查询算法 (2008年)

近似最近邻搜索算法研究与应用

6月机器学习班第6课--海量高维数据与最近邻查找.pdf

ANN: Approximate Nearest Neighbors（近似最近邻分类算法）

SRS:SRS - 具有微小索引的高维欧几里德空间中的快速近似最近邻搜索

优化HNSW与IVF-HNSW：近似最近邻搜索算法新进展

自动配置的近似最近邻搜索算法

Matlab实现近似最近邻搜索算法仿真教程

最新资源