深度产品量化（DPQ）：端到端监督的图像检索新方案

PDF格式 | 602KB | 更新于2025-01-16 | 83 浏览量 | 举报

"本文介绍了一种新的图像搜索和检索方法——端到端监督乘积量化（DPQ），该方法在保持与传统乘积量化（PQ）类似的计算复杂性和内存占用的同时，提高了检索和分类的准确性。DPQ是受到PQ启发并结合了深度学习的端到端学习方法，它能够利用监督信号进行更有效的非对称搜索。" 在图像搜索和检索领域，乘积量化（Product Quantization, PQ）是一种常用的技术，它将高维特征空间近似为低维字典，从而实现快速的近似最近邻搜索。PQ通过将特征空间分割成多个不相交的分区，然后在每个分区上进行聚类，将输入向量编码为二进制形式，减少了存储和计算成本。然而，PQ是一种无监督方法，未充分利用标注数据。随着监督学习的发展，研究者开始转向使用监督的无字典方法，如二进制表示，这些方法在保持高效的同时，通过监督学习改进了汉明距离的计算，提高了性能。论文提出的深度产品量化（Deep Product Quantization, DPQ）则是在PQ基础上的创新，它结合了深度学习，使得模型能够端到端地学习，并且利用监督信号，从而提高了检索和分类的准确性。 DPQ的关键在于它不仅学习硬表示，还学习了软表示，这使得非对称搜索变得更加有效。通过直通估计（Straight-Through Estimator）策略，DPQ在训练过程中能够处理连续的、非离散的表示，而在推理时则使用离散的编码，从而在保持效率的同时，提升了检索性能。在实验部分，DPQ在多个基准测试上展示了优于现有先进技术的结果，证明了其在图像搜索和检索任务中的优越性。这种方法为大规模图像数据库的近似最近邻搜索提供了一个新方向，特别是在需要考虑效率和精度平衡的场景下。端到端监督乘积量化（DPQ）是一种结合了传统乘积量化优势和深度学习监督学习能力的新型图像检索方法，它在保持低计算复杂性和内存占用的同时，显著提升了检索的准确性，对于大规模图像数据库的管理和应用具有重要意义。

展开

5043

Pervision来学习二进制表示的汉明距离，这是ANN的

一种流行的替代技术。

给定两个矢量，它们都用

log2

（

）比特编码，

在

Hamming

距离下，它们之间不同距离值的可能个

数只有

log2

（

）

1。相反，可能的数量不同

使用PQ输入它们之间的距离值为

。

，

比汉明大得多PQ丰富的表达能力使其优于以无监督方

式训练的汉明距离技术。随着深度学习的出现，许多

利用端到端训练的二进制编码技术 [34 ， 21 ， 22 ，

14]，因此，受益于监督信号，已经被提出，并已被证

明比以无监督方式训练的标准PQ技术更好[14]。

我们的工作将PQ技术的表达能力与深度学习端到端

优化技术相结合，并允许PQ从任务相关的据我们所

知，我们是第一个将PQ启发的技术整合到深度学习框

架中的公司。另一项工作[4]提出将PQ与深度学习结合

起来用于散列目的，但与我们的工作相反相反，它们

在以无监督的方式在嵌入空间上使用K-means学习PQ

质心和使用CNN学习嵌入之间我们的解决方案学习

CNN端到端的质心和参数，同时显式优化质心，以便

在分类和检索任务中表现良好。

虽然我们的技术受到乘积量化的启发而在PQ中，用

于非对称搜索的软表示是嵌入本身，并且不受聚类向

量的约束，在我们的工作中，如第2节所述。3、软表

示学习。它是M

个

软子向量的级联，其中每个软子向

量是学习的质心的凸组合。虽然PQ的非对称搜索能力

提高了它的性能，但它并没有显式优化，它的成功是

该方法设计的结果相比之下，我们的方法在训练中学

习了软表示和硬表示，并直接改进了非对称搜索。这

是通过使用损失函数，

联合中心损失来

完成的，它受

到

中心损失的

启发[33]。中心丢失旨在通过学习每个

类的中心来提高CNN的检索性能，并添加一个术语，

鼓励嵌入集中在相应类的中心周围。我们的联合中心

损失为中心损失增加了这是通过优化两种表示来实现

的，

图1. DPQ模型的架构。的Softmax

损失和联合中心损失函数由蓝色菱形表示，基尼批量多样性

和基尼样本共享正则化由绿色圆圈表示。红色箭头是非差分

独热编码转换，它需要使用直通估计器，以便传递梯度。

在同一个班级中心。

最近提出了一种称为SUBIC的结构化二进制嵌入方

法[14]。在他们的工作中，这是当前检索技术的现

状，每个样本由MK位的二进制向量表示，其中在每组

K位中，只有一位是有效的。因此每个

样本可以由

10g

（

）

比特编码。与其他

作品

类

似

，SUBIC的二进制表示没有学习

明确地说相反，每组K个条目是softmax函数的结果，

因此充当{1

，

. . .

，

K}。在推理阶段，对应于最高概率

的条目是

被认为是有效位，并且所有其他位都变为

。为了减少

推断和训练之间的差异，他们使用正则化来使分布函

数更接近单纯形的角独热向量）。它们还通过使用查

询向量的原始分布值来启用非对称相比之下，我们的

工作显式地学习了软和硬表示，作为使用直通估计器

技术[3]的端到端训练的一部分，并利用了欧几里得距

离。这导致了更丰富的表达能力，提高了分类和检索

性能，如第二节所示。4.第一章

深度乘积量化

架构DPQ体系结构图如图所示。1.一、DPQ是在嵌入

层之上学习的。这种嵌入的性质根据每个基准的协议

而变化，见第 4. 第一章设

为网络的输入，设

embedding

为输入

的嵌入层的输出（为简洁起见，省

略了输入）。在第一步中，我们学习一个小

下载后可阅读完整内容，剩余10页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

深度产品量化（DPQ）：端到端监督的图像检索新方案

图像检索-用于图像检索的深度视觉表示的端到端学习算法-附项目源码-优质项目实战.zip

面向开放域问答的多文档阅读器和检索器端到端培训_End-to-End Training of Multi-Document Re

5G网络切片端到端管理与编排-N-201905-13.pdf

乘积量化网络是如何通过端到端的学习方法，实现在大规模图像数据集上提升检索精度与编码效率的？

乘积量化网络是如何在保持高检索精度的同时，提升高维视觉特征编码效率的？

如何实现端到端学习框架以结合图像风格迁移技术，进而提升跨域目标检测模型的泛化能力？

写一篇关于端到端深度学习图像匹配的综述

如何在跨域目标检测中应用端到端学习框架，并结合图像风格迁移提升模型泛化能力？

如何利用生成对抗网络(GAN)实现端到端的运动模糊图像复原？请结合《生成对抗网络驱动的运动模糊图像复原深度学习方法》的资料进行说明。

基于深度学习的图像检索优势

最新资源