子空间权重优化的Hash排序算法：提升查询准确性

20 浏览量更新于2024-08-30 收藏 805KB PDF 举报

"基于列表监督的Hash排序算法是解决大规模数据相似性查找中排序问题的一种方法。现有的Hash排序算法主要依赖于欧氏空间和海明空间的排序一致性，但海明距离的离散特性可能导致排序不准确。为此，该算法提出了将编码后的数据分割成多个子空间，并对每个子空间赋予不同的权重，以更精确地计算海明距离，从而实现排序。实验结果显示，这种方法在海明空间的数据排序和查询准确性上优于其他Hash学习算法。关键词包括Hash学习、相似性查找、Hash排序和子空间权重。" 基于上述摘要，以下是详细的知识点解释： 1. **Hash学习技术**：Hash学习是一种机器学习方法，它将高维数据转化为低维的二进制编码，使得相似的数据在编码后具有较小的汉明距离，从而加快了相似性查找的速度，降低了存储需求。 2. **相似性查找**：在大数据背景下，相似性查找是寻找与特定数据点具有高相似度的其他数据点的过程，常用于推荐系统、图像检索等领域。Hash学习技术为高效执行相似性查找提供了一种有效手段。 3. **Hash排序**：Hash排序是Hash学习的一个应用，目的是保持数据在不同空间（如欧氏空间和海明空间）中的排序一致性。通常，排序一致性是通过损失函数来衡量的，目标是使排序结果尽可能接近。 4. **海明空间和海明距离**：海明空间是所有可能的二进制编码组成的集合，海明距离是衡量两个二进制编码差异的度量，即它们在哪些位置上的位不同。由于海明距离是离散的整数，可能存在多个数据点具有相同的距离，这为排序带来了挑战。 5. **子空间权重**：为了解决海明距离相同导致的排序问题，该算法引入了子空间权重的概念。数据被切割成多个等长的子空间，每个子空间分配不同的权重，通过加权的海明距离进行排序，提高了排序的精度。 6. **列表监督**：在算法中提到的“列表监督”，可能是指在训练过程中，使用已知的排序列表作为监督信号，指导算法学习正确的排序关系。 7. **实验结果**：通过对比实验，该算法显示出了在海明空间中进行数据排序和提高查询准确性方面的优势，这是对其性能的有效验证。 8. **应用领域**：这种基于列表监督的Hash排序算法可以广泛应用于大数据环境下的搜索引擎优化、推荐系统、信息检索等场景，以提高搜索效率和结果的准确性。 9. **论文关键词**：这些关键词提供了论文的核心主题，包括基础的Hash学习理论、相似性查找的实现方法、排序过程以及子空间权重在解决问题中的关键作用。 10. **中图分类号和文献标识码**：“TP391”是中国图书馆分类法中计算机科学技术类别的代码，文献标识码“A”表示该文章属于学术论文，doi是数字对象唯一标识符，用于在线查找和引用文章。通过这个算法，研究者们为大规模数据的相似性查找提供了一个新的解决方案，通过优化海明空间的排序策略，提升了算法的性能。

2019072-1

研究与开发

基于列表监督的 Hash 排序算法

杨安邦，钱江波，董一鸿，陈华辉

（宁波大学信息科学与工程学院，浙江宁波 315211）

摘要：Hash 学习技术目前被广泛应用于大规模数据的相似性查找中，其通过将数据转化成二进制编码的

形式，同时提高查找速度和降低存储代价。目前，大多数 Hash 排序算法通过比较数据在欧氏空间和海明空

间的排序一致性来构造损失函数，然而，在海明空间的排序过程中，因为海明距离是离散的整数值，可能

存在多个数据点共享相同的海明距离，这样就无法准确地排序。针对这一问题，将编码后的数据切分成几

个长度相同的子空间，并为每个子空间设置不同的权重，比较时，再根据不同的子空间权重来计算海明距

离。实验结果表明，与其他 Hash 学习算法相比，本文算法能够有效地对海明空间中的数据进行排序，并提

高查询的准确性。

关键词：Hash 学习；相似性查找；Hash 排序；子空间权重

中图分类号：TP391

文献标识码：A

doi:10.11959/j.issn.1000−0801.2019072

A ranking hashing algorithm based on listwise supervision

YANG Anbang, QIAN Jiangbo, DONG Yihong, CHEN Huahui

College of Information Science and Engineering, Ningbo University, Ningbo 315211, China

Abstract: Recently, learning to hash technology has been used for the similarity search of large-scale data. It can

simultaneous increase the search speed and reduce the storage cost through transforming the data into binary codes.

At present, most ranking hashing algorithms compare the consistency of data in the Euclidean space and the Ham-

ming space to construct the loss function. However, because the Hamming distance is a discrete integer value, there

may be many data points sharing the same Hamming distance result in the exact ranking cannot be performed. To ad-

dress this challenging issue, the encoded data was divided into several subspaces with the same length. Each subspace

was set with different weights. The Hamming distance was calculated according to different subspace weights. The

experimental results show that this algorithm can effectively sort the data in the Hamming space and improve the ac-

curacy of the query compared with other learning to hash algorithms.

Key words: learning to hash, similarity search, ranking hashing, subspaces with different weights

收稿日期：2018−10−31；修回日期：2019−04−12

通信作者：钱江波，qianjiangbo@nbu.edu.cn

基金项目：国家自然科学基金资助项目（No.61472194，No.61572266）；浙江省自然科学基金资助项目（No.LY16F020003）

Foundations Items: The National Natural Science Foundation of China (No.61472194, No.61572266), The Natural Science

Foundation of Zhejiang Province of China (No.LY16F020003)

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38624914

粉丝: 7
资源: 950

子空间权重优化的Hash排序算法：提升查询准确性

量化投资策略代码实现中的Hash归并与快速排序算法

自定义顺序字符串排序：基于哈希表的基数排序算法

基于Matlab的Geohash编码实现及其应用

基于学习型哈希的在线近邻查找算法

基于哈希技术和MapReduce的大数据集K-近邻算法实现代码

数据处理十大算法及其简介

算法实战秘籍：解决实际问题的顶级算法指南

Google Earth影像地图：快速图像检索与索引算法

Lua数据处理中的算法应用：清洗与分析实战指南

随机化算法的全面解析：原理、应用、分析与实战

最新资源