高维数据哈希学习方法及其在图像检索中的应用

版权申诉

97 浏览量更新于2024-03-09 收藏 172KB DOCX 举报

近年来，随着计算机软件和硬件技术的飞速发展，高维数据的存储和检索问题愈发凸显。为了解决海量的高维数据处理难题，研究学者们纷纷提出了将高维数据投影到低维二值空间的哈希学习方法。哈希学习方法是一种机器学习方法，通过哈希函数或函数簇将高维数据投影到低维汉明空间的二值编码，以在保持数据间相似性的条件下提高检索效率并节省存储空间。目前，哈希方法大致可以分为数据独立的方法和数据依赖的方法。数据独立的方法使用随机投影构造哈希函数。1998年，Indyk等人提出了局部敏感哈希（LSH）算法，该算法在原始空间中使用随机线性投影将距离近的数据投影到相似的二值编码中。这种算法简单易行，计算速度快，但准确率不够高。核化局部敏感哈希（KLSH）算法对LSH算法进行了改进，KLSH在核空间中随机构造哈希函数，无需考虑原始数据的非线性结构，在提高准确率的同时，也加快了计算速度。然而，对于一些高度非线性的数据，现有的哈希方法在保持数据相似性的同时，同时保持低维哈希空间中的点对相似度，依然存在一定的局限性。为了弥补这一不足，研究学者们提出了基于点对相似度的深度非松弛哈希算法。这种算法最大的特点就是能够克服传统哈希方法在高度非线性数据上的局限性，实现了哈希空间中点对相似度的有效保留，从而在高维数据的检索与存储中带来了显著的提升。从算法原理来看，基于点对相似度的深度非松弛哈希算法首先使用深度神经网络对高维数据进行特征学习，然后通过非松弛哈希方法将学到的高维特征映射到低维二值哈希空间，并利用点对相似度损失函数来保留原始空间中数据点对之间的相似性。这一算法相比于传统哈希方法，更加贴合现实数据的特性，有效提高了数据检索的准确性和效率。此外，基于点对相似度的深度非松弛哈希算法还具有较高的可扩展性和灵活性，在处理不同类型的高维数据时，都能够展现出良好的效果。这使得该算法在实际应用中具有更广泛的适用性，能够应对各种复杂的数据检索与存储需求。综合来看，基于点对相似度的深度非松弛哈希算法在解决高维数据存储和检索难题方面拥有明显的优势。其能够有效保留高维数据的非线性结构，在保证哈希空间点对相似度的同时，显著提高了数据检索的准确性和效率。因此，该算法在未来的数据处理领域中有望发挥越来越重要的作用，成为处理海量高维数据的重要工具之一。

基于哈希码相似度的度量, Li 等

[19]

和 Zhang 等

[21]

利用交叉熵损失函数保持点对之间的

相似度, 图像点对的哈希码与相似度之间的似然 p(sij|B)p(sij|B)定义为

p(sij|B)={σ(φij),1−σ(φij),sij=1sij=0p(sij|B)={σ(φij),sij=11−σ(φij),sij=0

(3)

式中, sijsij 表示样本对之间的相似度, BB 表示样本数据对应的哈希码. 由该似然函数

表明, 当哈希码 bbibbi 与 bbjbbj 越相似, 即 σ(φij)σ(φij)越大, 对应的似然函数

p(sij|B)p(sij|B)就越大; 当哈希码 bbibbi 与 bbjbbj 越不相似, 即 1−σ(φij)1−σ(φij)越大, 对应

的似然函数 p(sij|B)p(sij|B)仍越大.极大似然估计可表示为

maxB∏sij∈Sp(sij|B)=∏sij∈Sσ(φij)sij(1−σ(φij))1−sijmaxB∏sij∈Sp(sij|B)=∏sij∈Sσ(φij)sij(1−σ(φij))1−sij

(4)

对式(4)中极大似然估计的目标函数取负对数即是交叉熵损失函数, 可表示为

J1(B)=−∑sij∈ Slogp(sij|B)=−∑sij∈ S[sijφij−log(1+eφij)]J1(B)=−∑sij∈ Slog⁡p(sij|B)=−∑sij∈ S[sijφij−log⁡(1+eφij)]

(5)

于是将极大似然估计转换为最小化交叉熵损失函数, 建立如下的约束最优化问题:

minB−∑sij∈S[sijφij−log(1+eφij)]s.t. bbi=sgn[WTϕ(xxi;θθ)+vv],i=1,2,⋯,nminB−∑sij∈S[sijφij−log⁡(1+eφij)]s.t. bbi=sgn[WTϕ(xxi;θθ)+vv],i=1,2,⋯,n

(6)

式中, WW 表示全连接层的神经元参数, vvvv 表示偏移量, θθθθ 表示网络卷积层的参

数集合, bbibbi 表示二值哈希码, bbibbi 中每一位量化到离散值-1 或 1, ϕ(⋅)ϕ(⋅)表示网络提

取的图像特征, sgn(⋅)sgn(⋅)为符号函数, 若 x>0x>0, 则 sgn(⋅)=1sgn(⋅)=1; 否则

sgn(⋅)=−1sgn(⋅)=−1.

由于符号函数不连续, 上述问题是一个离散的最优化问题, 很难求解. 为了求解上述问

题, Li 等

[19]

使用基于 Lagrange 乘子法的松弛优化方法, 对约束条件进行松弛, 简化约束条件

中符号函数的离散约束, 使其成为凸优化问题, 其目标函数为

minB−∑sij∈S[sijφij−log(1+eφij)]+λ∑i=1n∥∥bbi−[WTϕ(xxi;θθ)+vv]∥∥22s.t. uui=WTϕ(xxi;θθ)+vv, i=1,2,⋯,nφij=12uuTiuuj, i,j=1,2,⋯,nminB−∑sij∈S[sijφij−log⁡(1+eφij)]+λ∑i=1n‖bbi−[WTϕ(xxi;θθ)+vv]‖22s.t. uui=WTϕ(xxi;θθ)+vv, i=1,2,⋯,nφij=12uuiTuuj, i,j=1,2,⋯,n

(7)

其中, uuiuui 表示网络的直接输出结果. 该方法在每一次迭代过程中使用符号函数量化

生成 bbibbi, 这样会出现大量不可忽略的损失, 导致某些特征对应哈希位的约束变弱, 使得

计算结果不准确, 这也是使用 Lagrange 乘子法对约束条件松弛导致某些哈希码过度松弛的

问题.

2. 深度非松弛哈希算法

2.1 模型的建立

本文利用深度卷积神经网络训练样本数据, 利用交叉熵保持样本对之间的语义相似性,

为了减少网络输出的准哈希码的量化误差, 本文使用 Liu 等

[18]

提出的 ℓ1ℓ1 范数对网络输出

的准哈希码的分布进行约束

J2(B)=∑i=1n∥|bbi|−1∥1J2(B)=∑i=1n‖|bbi|−1‖1

(8)

该正则项旨在使准哈希码 bbibbi 的各个哈希位逼近两个离散值-1 或 1, 即 bbibbi 中每

一位的绝对值越接近 1 时, 损失越小.

剩余15页未读，继续阅读

罗伯特之技术屋

粉丝: 4412
资源: 1万+

高维数据哈希学习方法及其在图像检索中的应用

深度非对称压缩型哈希算法.docx

python 深度哈希算法 图像检索

图像检索哈希算法的发展史

一致性哈希算法有哪些

图像检索哈希算法的发展史,请标注年限

基于DCT的感知哈希算法

图像检索哈希算法的发展史，标注年限

opencvsharp4 感知哈希算法 相似度

图像检索哈希算法的发展史,标注年份

生成matlab的基于深度学习的图像哈希算法

最新资源

python 深度哈希算法图像检索

opencvsharp4 感知哈希算法相似度