无监督深度二进制描述符与多量化的视觉匹配

45 浏览量更新于2023-10-15 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用多量化段跃奇1、2、3，陆继文1、2、3，王紫薇1、4，冯建江1、2、3，周杰1、2、31清华大学自动化系，北京，中国2智能技术与系统国家重点实验室，北京，中国3清华大学信息科学与技术国家实验室（TNList），北京，中国4清华大学物理系，北京，中国duanyq14@mails.tsinghua.edu.cn; zw-wa14@mails.tsinghua.edu.cn;jzhou@tsinghua.edu.cnjfeng@tsinghua.edu.cn lujiwen@tsinghua.edu.cn摘要在本文中，我们提出了一种无监督的特征学习方法，称为深度二进制描述符与多量化（DBD-MQ）的视觉匹配。现有的基于学习的二进制描述符（诸如紧凑二元人脸描述符（CBFD）和DeepBit）利用刚性符号函数进行二进制化，而不管数据分布如何，从而遭受严重的量化损失。为了解决这个问题，我们的DBD-MQ将二进制化视为多量化任务。具体来说，我们应用K-AutoEncoders（KAE）网络在深度学习框架下联合学习参数和二进制化函数，以便可以通过细粒度的多量化获得有区别的在不同的视觉分析，包括补丁检索，图像匹配和图像检索广泛的实验结果表明，我们的DBD-MQ优于大多数现有的二进制特征描述符。1. 介绍特征描述是一个基本的计算机视觉问题，它广泛应用于许多应用中，例如对象识别[11，27]，人脸识别[29，32，43]，图像分类[15，26]等。有效的特征描述符有两个基本属性：识别能力强，计算成本低。一方面，由于现实世界的应用通常遭受大的类内方差，这是至关重要的，以提取所需的特征描述符与高质量的表示。另一方面，具有有限计算能力和大量数据的移动设备需要具有高计算速度和低存储器成本的高效特征描述符*通讯作者。近年来，深度卷积神经网络（CNN）在各种视觉分析任务中取得了最先进的性能，并且已经提出了许多有区别的CNN特征，例如AlexNet [23]，VGG [32，41]，GoogLeNet [44]和ResNet [17]。 CNN特征通过训练具有大量标记数据的特征学习模型来估计大量参数，从而获得高质量的表示。然而，它们遭受沉重的存储成本和低的匹配速度，因为它们是高维实值描述符。在过去的十年中，已经提出了一些局部二进制特征。代表性的二进制特征包括局部二进制模式（LBP）[1，30]及其变体[36，37]、二进制鲁棒独立基本特征（BRIEF）[6]、二进制鲁棒不变可缩放关键点（BRISK）[25]、定向FAST和旋转BRIEF（ORB）[38]以及快速视网膜关键点（FREAK）[2]。这些方法通过用汉明距离代替欧几里德距离来降低计算成本，并使用XOR运算来计算二进制码之间的距离。受CNN特征提供强大的区分能力和二进制特征呈现低计算成本的事实的启发，DeepBit[26]以无监督的方式学习深度紧凑的二进制描述器，从而实现了最先进的二进制特征描述。然而，它简单地利用刚性符号函数进行二值化，尽管数据分布。对于许多分布，手工制作的为了弥补这一局限性，我们将二值化问题视为一般的多量化任务，其中符号函数是将正项聚类到一类而将负项聚类到另一类的特殊情况。具体来说，我们应用了K-AutoEncoders（KAE）网络，并提出了一种具有多量化的深度二进制描述符（DBD-MQ）学习方法。图1说明了所提出的方法的流程图通过基于KAE的多量化，我们共同学习参数，11831184图1.所提出的方法的流程图对于训练集中的每个图像块，我们首先通过用全连接层替换softmax层，用预训练的CNN学习实值特征向量。然后，我们使用基于K-Autoencoders（KAE）的多量化而不是刚性符号函数对矢量进行二值化，通过控制残差特征来最小化重建损失。为了便于说明，在该图中K等于2。最后，我们以无监督的方式使用反向传播迭代优化参数以获得紧凑的二进制码。网络和二进制化函数的参数，以获得更具鉴别力的二进制码。对图像块检索、图像匹配和图像检索等三种视觉分析任务的实验结果表明了该方法的有效性。2. 相关工作二进制特征描述符：近年来，二进制特征描述符由于其匹配和存储效率而引起了广泛的早期的二进制特性包括BRIEF [6]、BRISK [25]、ORB [38]和FREAK[2]。BRIEF直接利用简单的强度差测试来计算平滑图像块中的二进制向量BRISK利用循环采样模式来获得尺度和旋转不变性。ORB通过使用比例金字塔和方向操作符来实现类似的目的。FREAK参考人类视觉系统，利用视网膜采样网格进行快速计算。然而，这些方法没有显示出显著的性能，因为原始强度的成对补偿容易受尺度和变换的影响。为了解决该限制，已经提出了几种基于学习的二进制描述符[4，45，47，51]。例如，Trzcinski等人。[47]提出了一种D-BRIEF方法，通过编码相似性关系来学习区分投影。Balntas等人[4]通过应用LDA准则提出了一种二元在线学习描述符（BOLD）。然而，这些方法仅采用成对学习，这不利于将学习到的二元特征转移到新的应用中。近年来，已经提出了许多无监督的二进制描述符学习方法，其将每个局部补丁投影到二进制描述符中[26，28，29]例如，Lu等人[29]提出了一种紧凑的二进制面部描述符（CBFD）学习方法来学习均匀分布和节能的局部二进制代码。他们还提出了一种同时局部二进制特征学习和编码（SLBFLE）[28]方法，通过在一个阶段过程中联合学习Lin等人。[26]通过设计CNN来以无监督的方式学习紧凑的二进制代码，提出了DeepBit。然而，这些方法简单地使用刚性符号函数进行二值化，这在许多情况下不是最优的。深度学习：近年来，人们对深度学习进行了大量的研究[7，17，23，31，32，41，44]，它在许多计算机视觉应用中实现了最先进的性能，例如对象识别[17，41]，对象检测[13]，人脸识别[32，43]和人类动作识别[21]。对于大量数据，深度学习方法通过训练强大的统计模型来学习高级层次特征，以获得更高质量的表示。近年来，还提出了几种深度二进制代码学习方法[9，24，26，50]。例如，Xia等人。[50]提出了一种CNN哈希（CNNH）方法，通过以监督的方式学习深度哈希代码和Lai等人。[24]通过提出一个单阶段深度二进制代码学习过程来改进CNNHLiong等人。[9]提出了一种通过在三个约束条件下学习多个非线性层次变换的深度哈希（DH）方法Lin等人[26日]1185n图2. 用符号函数对两个常见分布进行二值化的说明。红色虚线表示阈值，编码结果如图所示。对于这两种分布，将阈值设为零并不十分合理。提出了一种以无监督方式学习紧凑深度二元码的然而，大多数深度二进制代码学习方法利用刚性符号函数进行二进制化。3. 该方法在本节中，我们首先介绍了基于K-AutoEncoders的多量化，然后提出了深度二进制描述符与多量化（DBD-MQ）学习方法。3.1. 基于K自编码器的多重量化近年来已经提出了许多局部二进制码学习方法[26，28，29]，但它们都基于符号函数的二值化有两个关键限制：1) 虽然现有的局部二进制码学习方法试图学习均匀分布的元素，但在许多情况下，零我们采用标准高斯分布和高斯混合分布-2) 现有的二值化方法是对每个比特分别进行二值化，忽略了特征向量的整体信息，因此更容易受到噪声的影响。整体特征向量应该为每个比特的二进制化提供先验知识，使得来自相似特征的元素更倾向于被量化为相同的二进制代码，这提供了更强的鲁棒性。为了解决上述限制，我们提出了一种基于 K-AutoEncoders（KAE）的多量化方法。我们制定的二值化问题作为一个K-量化任务，其中K等于2C在这项工作中。每个元素被聚集到K个类中的一个类中，这导致了c位编码.传统的符号函数是一种特殊情况，它将负数聚类为一类，将正数聚类为另一类。作为2-聚类方法，在这种情况下，每个元素被量化为1位二进制代码。K-Means是50多年来最广泛使用的聚类算法之一[19]，它通过两步程序迭代优化：1）将每个数据点分类到聚类中，以及2）用相应的数据点优化每个聚类。受K-means在许多量化任务中实现出色性能的启发，我们用类似的迭代方法训练我们的KAE。在KAE中，我们首先将每个实值特征向量xn与AutoEncoder相关联，AutoEncoder获得最小重建误差：kn=argminεnk，（1）K其中ε nk=||阿克斯纳克||2是第k个自动编码器的x n的重建误差。然后，我们利用相应的- ingxn来更新第k个自动编码器的参数。图3显示了训练KAE的详细过程学习的KAE可以被认为是K个聚类中心，其中每个特征以最小的重构误差被聚类到AutoEncoder。为了将特征向量的每个元素转换为二进制代码，我们考虑了元素量化，损耗ε（i）=|（i）|的聚类方法，nk nk真实分布为例，如图-ure 2. 两种模型包含相同数量的阳性和阴性。对于标准高斯分布，由于阈值位于离散区域，即使它们的实值差异很小，也必须将大量元素分离为0和1，这导致大的量化损失。对于高斯混合分布，用阈值分离分布的不同部分是合理的，但零可能不是理想的选择。因此，细粒度的二进制化策略应该与局部二进制码同时学习，以获得更优的量化。元素的公式如下：k（i）=argminε（i），k= 1，2，· · ·，K（2）nknk其中xn的第i个元素被聚集到第k（i）个Au-toEncoder中。每个元素都以最小的元素重建误差聚集到AutoEncoder，从而使总量化损失最小化。作为二进制代码学习的主要目的之一为了减少存储开销，我们简单地将K个聚类编码成C位二进制码，以平衡精度和二进制码长，而不需要特殊的编码策略。将实值元素聚类到K个类中，我们得到1186图3. 详细说明培训KAE。对于来自输入集的每个图像，我们首先使用所有KAE对其CNN特征进行编码和解码。然后，我们将每个特征与AutoEncoder相关联，以获得最小的重建损失，并用红色框突出显示。最后，我们利用相应的特征来训练相关的AutoEncoder。迭代地执行这些步骤直到收敛。每个元素对应的二进制代码，它们被连接到二进制描述符中。3.2. 使用多量化我们使用在ImageNet数据集上训练的预训练的16层VGGNet[41]初始化CNN ，它用完全连接层替换了softmax层。让X= [x，x，· · ·，x]是N个图像的CNN特征，描述符包含来自训练补丁的更多信息。由于同时优化CNN和KAE不是凸的，我们使用迭代方法通过修复其他来更新一个在X固定的情况下学习Wk：当X固定时，目标函数（3）可以重写如下：陈文凯1 2N最小J=ε2+λ1||第二条、第四条||2,(4)其中xn∈Rd（1≤n≤N）是输入图像的第n个我们的方法的目标函数是学习焕光n=1nknKFk=1l具有KAE的整体深度神经网络的参数如下所示：我们采用随机梯度下降法来更新Wk.最小值J =J1X， Wk+λ1J2 +λ2J3用固定的Wk学习X：当KAE的参数固定时，目标函数（3）可以重写ΣN=ε2ΣK+λ1Σ ||W（l）||2如下所示n=1nknKFk=1lΣN最小J=ε2-λ2tr（（X-U）T（X-U））。（五）-λ2tr（（X-U）T（X-U）），（3）Xn=1nkn其中W（1）表示所述第一层的第l层类似地，随机梯度下降方法，K第k个自动编码器，并且U∈R重复N次。d×N 是X的平均特征采用反向传播算法对网络进行迭代训练，学习出有效的、有鉴别力的局部二进制码J1的目标是最小化有限元的重建误差，真的。该项不仅指导KAE的投影参数，而且还导致具有最小量化损失的更好的实值特征。J2是KAE防止过拟合的正则化项.J3的物理意义是扩大学习特征的方差.第一项J1可能导致所有输入块的相似特征，这损害了学习特征的区分度，而第三项J3最大化特征的每个元素的变化，使得每个元素以无人监督的方式。算法1详细介绍了所提出的DBD-MQ的方法。在训练过程中，我们同时学习CNN和KAE的参数，以获得节能和均匀分布的二进制描述符。在测试过程中，对于每个局部补丁，我们首先使用学习的CNN学习其实值特征表示，然后使用学习的KAE使用（2）将1187每个元素量化为二进制代码，并将其连接到更长的二进制描述符中作为最终表示。作为维度1188算法1：DBD-MQ输入：训练图像集、参数λ1和λ2以及迭代次数T。输出：CNNW的投影参数和KAEWk的参数。1：初始化预训练的CNN特征X和KAEWk。2：对于iter= 1，2，· · ·，Tdo3：循环4：使用（1）将每个xn聚类到自动编码器中。5：使用（4）用对应的xn更新Wk。6：结束循环直至收敛7：使用（5）更新CNN，其中Wk固定。第八章：端第九章：返回W和Wk。特征相对较小，我们利用J2项来防止过拟合而不是丢失，通过将λ1固定为0.001和λ2分别为1.0此外，我们将每个图像旋转-10，-5，0，5，10度以进行数据增强。对于每张图像，我们首先按照[26]将其大小重新整形为256×256，然后将其裁剪为224×224以去除背景信息。3.3. 讨论所提出的DBD-MQ在以下两个方面改进了传统的基于符号函数的二进制码学习方法1) 提出的DBD-MQ同时学习CNN和KAE的参数以最小化量化损失，而不是采用手工制作的阈值通过细粒度的多重量化，我们将实值描述符中相似的元素聚类到同一个类中，从而得到更节能的二进制描述符。2) KAE 从整体特征向量中学习，最小化相应AutoEncoder中类似实值描述符的重建误差。因此，来自属于同一AutoEncoder的相似特征向量的元素具有更高的倾向被量化到同一类中，因为在该AutoEncoder中总的recruitic- tion误差很小。与单独对每个位进行二进制化的前二进制化方法[26，29]不同，整体实值描述符为每个元素的二进制化提供了强大的先验知识，这增强了学习的二进制描述符的鲁棒性和稳定性。4. 实验我们在三个具有挑战性的数据集上评估了所提出的DBD-MQ方法，包括CIFAR-10[22]， Brown[5]牛津[34]数据集。我们在三个不同的视觉分析任务上进行了实验，包括CIFAR-10上的图像块检索，Brown上的图像块匹配和Oxford上的图像检索。我们比较了所提出的方法与几个国家的最先进的局部描述符，以评估DBD-MQ的有效性。4.1. 修补程序检索结果CIFAR-10数据集[22]包含10个受试者，每个类别有6000张图像图像大小为32×32，包含50，000张训练图像和10，000张测试图像。在实验中，我们遵循标准评估协议[22]，并在不同的二进制长度：16位、32位和64位。参数分析：我们首先通过在不同二进制长度下使用交叉验证来测试每个AutoEncoder的对于16位DBD-MQ，每个AutoEncoder的尺寸根据经验设置为[16→12→ 8→ 12→ 16]交叉验证。对于32位，尺寸设定为[32→ 24→ 16→ 24→ 32]。为64位，尺寸设置为[64→ 50→ 32→ 50→64]。此外，我们使用ReLU函数作为非线性单元。在AutoEncoders结构固定为[16→ 12→ 8→ 12→ 16]的情况下，测试了不同数量AutoEncodersK图5显示当K等于4. 虽然当K被设置为2、4、8和16时，二进制长度是16、32、64和128，但是它们共享相同的原始实值特征向量。换句话说，它们共享相同的原始信息，并且使用不同长度的二进制码来表示每个元素，这不同于基于符号函数的方法在不同的二进制长度下。当K增加时，学习的二进制码保留但是，如果搜索空间太大，平均精度会降低.因此，当K过大时，平均精度先增大后减小。大多数二进制代码利用一位代码来表示每个实值元素。因此，我们将K= 2应用于所有以下实验以进行公平比较。与最先进的无监督哈希方法的比较：我们将所提出的DBD-MQ方法与几种最先进的无监督哈希方法进行了在这个图像检索任务的方法，其中深度哈希（DH）和DeepBit是两个最新的深度二进制代码学习方法。表1示出了所提出的方法与几种现有技术的无监督散列方法相比的平均精度（mAP）在以前的无监督哈希方法中，DeepBit提供了mAP，而我们的DBD-MQ将性能提高了2.10%（= 21.53%-19.43%），1.64%（= 26.50%-24.86%）16位、32位和16位的占4.12%（= 31.85%~ 27.73%），11890.60.550.50.60.550.50.60.550.50.450.40.350.450.40.350.450.40.350.30.30.30.250.250.250.20.20.20.150.150.150.10 0.2 0.4 0.6 0.81召回率(a) 16位0.10 0.2 0.4 0.6 0.81召回率(b) 32位0.10 0.2 0.4 0.6 0.81召回率(c) 64位图4. Cifar-10数据集的精确度/召回率曲线与最先进的无监督哈希方法在不同二进制长度（a）16位，（b）32位和（c）64位下的比较。252015102 4 8 16自动编码器数量表1. 在不同的二进制代码长度下，与不同的最先进的无监督哈希方法相比，返回的前1，000张图像图5.在不同数量的自动编码器下的平均精度（mAP）性能（%）分别为64位主要原因是DeepBit简单地应用刚性符号函数进行二值化，从而遭受严重的量化损失。我们的DBD-MQ在端到端网络中同时学习特征和细粒度量化函数，使得学习的二元码更紧凑，并为每个比特提供更强的区分能力。图4示出了所提出的DBD-MQ和最先进的无监督散列方法的精确度/召回率曲线。我们观察到，建议DBD-MQ始终优于其他approaches。不同二值化策略的评估：所提出的DBD-MQ的最重要贡献之一是KAE在细粒度二值化中的应用。在之前的实验中，我们获得了最先进的性能相比，最先进的非监督哈希方法，但它不能直接显示我们的多重量化的有效性。为了更好地评估我们的KAE，我们进行了一个实验来比较不同的二值化策略。我们修复了所有其他参数，并简单地使用符号函数更改了KAE表2显示了实验结果。表2. 不同二进制码长下不同二进制化策略在Cifar-10数据集上的平均精度（mAP）性能（%）。值化16位32位64位KAE21岁53二十六岁5031岁85签署19号。1623岁89二十六岁90∆mAP二、37 二、614.第一章95结果。由于这两种方法之间的唯一区别是二进制化策略，因此该实验表明，细粒度多量化方法在所有三种二进制长度下都优于刚性符号函数。此外，我们观察到随着二进制长度的增加，KAE的改善变得更加明显。一方面，KAE使每个比特的量化损失最小化，使得学习的二进制代码更紧凑，并且更长的描述符从细粒度的多量化中受益更多另一方面，更长的描述符能够训练更好的KAE，使得整体描述符为每个元素的二进制化提供更精确的先验知识。计算时间：我们的硬件配置包括2.8 GHz CPU和32GRAM。当我们应用一个非常深的VGG卷积网络来初始化我们的CNN时，我们使用特斯拉K80 GPU进行加速。ITQKMH球形SHPCAHLSHDHDeepbitDBD-MQITQKMH球形SHPCAHLSHDHDeepbitDBD-MQITQKMH球形SHPCAHLSHDHDeepbitDBD-MQ查准率查准率地图查准率方法16位32位64位KMH[16]十三岁59十三岁93十四岁46[第18话]十三岁98十四岁58十五岁38斯佩尔[49]12个。5512个。4212个。56SH[39]12个。95十四岁09十三岁89PCAH[48]12个。9112个。6012个。10LSH[3]12个。55十三岁76十五岁07PCA-ITQ[4]十五岁67十六岁20十六岁641190增强型SSC轻快简要LDAHashD-BRIEFDeepbitDBD-MQ增强型SSC轻快简要LDAHashD-BRIEFDeepbitDBD-MQ增强型SSCLDAHashD-BRIEFDeepbitDBD-MQ轻快简要增强型SSCLDAHashD-BRIEFDeepbitDBD-MQ轻快简要表3. 与Brown数据集上最先进的二进制描述符相比，错误率（ERR）为95%（%），其中Boosted SSC，Brisk，BRIEF和DeepBit是无监督的二进制特征，LDAHash，D-BRIEF，BinBoost和RFD是有监督的。实值特征SIFT可供参考。火车测试约塞米蒂圣母院约塞米蒂自由圣母院约塞米蒂圣母院自由自由圣母院自由约塞米蒂平均ERRSIFT[27]（128字节）28岁0936 27.29 15.36 27.28 09.29 15.31岁17提升SSC[40]（16字节）七十二2071 597 .第一次会议。3676 007 .第一次会议。2170 357 .第一次会议。3672 957 .第一次会议。8877 997 .第一次会议。21七十三。51BRISK[25]（64 bytes）74岁889五、153五十四969五十九154五、573五十四9675. 81[6]（32 bytes）五十四5793 .第三章。41..4二、66.五十六23DeepBit[26]（32 bytes）29岁604.63 68.32 06.6.57 61.四十67LDAHash[42]（16字节）51岁5849 66五、3952 954.第一章2249 66五、3051 584.第一章1052 954.第一章2951岁40D-BRIEF[47]（4 bytes）四十三963二、6761 .一、961二、4931 .一、907二、88四十七54BinBoost[45]（8 bytes）十四岁5411 .一、4081 .一、5001 .一、3561 .一、2321 .一、9919号。24RFD[10]（50-70字节）11个国家。689.4.9.3.6.十五岁86DBD-MQ（32字节）二十七岁20三十三岁。11五十七2431岁10二十五78五十七15三十八岁。591 1 10.90.90.90.80.80.80.70.70.70.60.60.60.50.40.50.40.50.40.30.20.100 0.20.40.6 0.810.30.20.100 0.20.40.6 0.810.30.20.100 0.20.40.6 0.8 1假阳性率(a) 约塞米蒂-圣母院假阳性率(b) 优胜美地-自由假阳性率(c) 约塞米蒂圣母院1 1 10.90.90.90.80.80.80.70.70.70.60.60.60.50.40.50.40.50.40.30.20.100 0.20.40.6 0.810.30.20.100 0.20.40.6 0.810.30.20.100 0.20.40.6 0.8 1假阳性率(d) 自由圣母假阳性率(e) 自由圣母假阳性率(f) 自由-优胜美地图6.在Brown数据集上，在Liberty、Notre Dame和Yosemite的所有训练和测试组合下，将该方法与几种方法的ROC曲线进行了比较我们测试了在CIFAR-10中从一对图像中提取特征并计算其相似性的总计算时间。提出的DBD-MQ需要0.043s，而HOG[8]和SIFT[27]需要0.028 s和0.051 s。对于存储成本，32位DBD-MQ描述符需要每个图像补丁4字节的存储器，而HOG需要9字节，SIFT需要128字节。这表明我们的DBD-MQ更适合于实际应用中可扩展的视觉匹配和搜索。4.2. 图像匹配结果我们在Brown数据集[5]上评估了拟议的DBD-MQ，包括Liberty、Notre Dame和Yosemite增强型SSC轻快简要LDAHashD-BRIEFDeepbitDBD-MQ增强型SSC轻快简要LDAHashD-BRIEFDeepbitDBD-MQ真阳性率真阳性率真阳性率真阳性率真阳性率真阳性率1191其中每一个都包含超过400，000个图像块。对于每个数据集，有200，000到400，000个训练图像和100，000个测试对，其中一半匹配（阳性），另一半不匹配（阴性）。在实验中，我们遵循了[46]中的设置，其中使用了所有六种训练和测试组合：Yosemite-NotreDame ， Yosemite-Liberty ， NotreDame-Yosemite，Notre Dame-Liberty，巴黎圣母院和自由优胜美地我们将二进制长度固定为256，应用结构为[256→ 160→ 100→ 60→100→160 → 256]。与最先进技术的比较：表3显示了拟议DBD-MQCOM的95%错误率（ERR）1192表4.Brown数据集上不同二值化策略的95%错误率（ERR）（%）。火车测试约塞米蒂圣母院约塞米蒂自由圣母院约塞米蒂圣母院自由自由圣母院自由约塞米蒂平均ERRKAE二十七岁2029岁84三十三岁。1136 13.五十七2460 42.31岁1032 97.二十五7828 52.五十七1559 04.三十八岁。59签署41岁15联系我们二、643 .第三章。023 .第三章。181 .一、87二、741 .一、89二、56图6显示了所有六种训练和测试组合的ROC曲线。在这些比较的方法中， Boosted SSC[40]， BRISK[25]，BRIEF[6]和DeepBit[26]是无监督的二进制描述符，而 LDAHash[42] 、 D-BRIEF[47]、 BinBoost[45]和RFD[10]是有监督的。提供实值SIFT[27]以供参考。在现有的无监督二进制描述符中，DeepBit由于其强大的区分能力而获得了突出的结果。然而，DeepBit使用刚性符号函数进行二进制化，而提出的DBD-MQ学习细粒度KAE以最小化量化损失，从而在所有六个实验中获得更好的性能。我们的DBD-MQ还实现了比监督方法更好的平均95%错误率。DBD-MQ作为一种无监督的方式，适合于难以收集标签信息的应用，而有监督的方法在这种情况下无法工作。不同二值化策略的评估：类似于在CIFAR-10数据集上设计的实验，我们进行了额外的实验来评估所提出的基于多量化的二值化的有效性。表4显示了不同二值化策略在brown数据集上的实验结果在Brown数据集上的实验结果表明，基于KAE的二值化方法优于4.3. 图像检索结果Oxford 数据集 [34] 包含从 Flickr 收集的 5 ， 062 张Oxford地标图像，其中11个位置是手动生成的综合地面实况，每个位置由5个边界框表示为查询。我们需要检索同一个地方的55个查询的所有图像我们遵循[33]中的实验设置，在巴黎数据集上进行训练[35]，并学习一个256个质心的词汇，ulary我们将二进制码的长度设置为128，应用KAE[128 →90 →60 →90 →128]。表5显示了Ox-ford数据集上的图像检索结果。SIFT描述符[27]被列为基线方法。由于我们的DBD-MQ仅利用原始RGB补丁作为输入而没有任何预处理，因此CKN[33]的结果与原始输入一起报告，以获得公平的计算结果。AlexNet[23]是最流行的卷积神经网络之一，它由7层组成。我们表5. 牛津数据集上不同方法的平均精度（mAP ）性能（%）。方法地图SIFT[27]四十三7[20]第二十话三十六4[23]第二十三话十八岁8[23]第二十三话12个。5[23]第二十三话三十三岁。3[23]第二十三话三十四3[23]第二十三话三十三岁。4[第12话]三十八岁。3[33]第三十三话23岁0DBD-MQ三十八岁。9评估所有5个卷积层的ReLU后输出的平均精度。我们的DBD-MQ在牛津数据集上获得了令人鼓舞的结果。CKN使用无监督CNN提取补丁级描述符，而所提出的DBD-MQ学习节能且均匀分布的二进制描述符，其提供更强的区分能力。此外，作为一种二进制描述符学习方法，所提出的DBD-MQ具有更高的存储和计算效率的图像检索任务相比，实值描述符。5. 结论在本文中，我们提出了一种深度二进制描述符学习与多量化（DBD-MQ）方法。与大多数现有的二进制代码学习方法使用刚性符号函数进行二进制化不同，我们的DBD-MQ同时学习CNN和KAE的参数，用细粒度的多量化代替符号函数以最小化量化损失。提出的DBD-MQ在三个广泛使用的数据集上优于大多数现有的无监督二进制描述符。确认这项工作得到了中国国家重点研究发展计划基金2016YFB1001001 ，国家自然科学基金 61672306 ，61572271 ， 61527808 ， 61373074 和 61373090 ，国家10001193国家青年人才计划项目、国家基础研究计划项目（ 2014CB349304 ）、国家教育部项目（20120002110033）、清华大学创新科学研究计划。1194引用[1] T. Ahonen，A. Hadid和M.皮蒂凯宁局部二进制模式的人脸描述：应用于人脸识别。TPAMI，28（12）：2037[2] A.阿拉希河Ortiz和P.范德海恩斯快速视网膜关键点。在CVPR，第510-517页[3] A. Andoni和P.因迪克高维近似近邻的近似最优散列算法见FOCS，第459-468页[4] V. Balntas，L. Tang和K.米科莱奇克BOLD-二进制在线学习描述符，用于高效的图像匹配。在CVPR中，第2367-2375页[5] M.布朗，G。Hua和S.发条人局部图像描述符的判别学习。TPAMI，33（1）：43[6] M. Calonder，V.莱佩蒂特角Strecha，和P.呸二进制鲁棒独立基本特征。见ECCV，第778-792页[7] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节：深入研究卷积网。在BMVC，第1-12页[8] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，第1卷，第886[9] 诉Erin Liong，J.Lu，G.Wang，P.Moulin和J.舟用于紧凑二进制代码学习的深度散列。在CVPR，第2475[10] B.范角，澳-地Kong，T. Trzcinski，Z. Wang，C. Pan，和P. 呸二进制特征描述的感受域选择TIP，23（6）：2583[11] R. Fergus，P. Perona，and A.齐瑟曼。通过无监督尺度不变学习的对象类别识别。在CVPR，第2卷，第264-271页[12] P. Fischer，A. Dosovitskiy和T.布洛克斯卷积神经网络的描述符匹配：与 SIFT 的比较 arXiv 预印本 arXiv ：1405.5769，2014年。[13] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在CVPR中，第580-587页[14] Y.贡，S. Lazebnik，A. Gordo和F.佩罗宁迭代量化：学习二进制代码用于大规模图像检索的procrustean方法。TPAMI，35（12）：2916[15] K. Grauman和T.达雷尔。金字塔匹配内核：使用图像特征集的判别分类。ICCV，第2卷，第1458-1465页，2005年[16] K.他，F. Wen和J. Sun. K-means哈希：一种学习二进紧码的保仿射量化方法。在CVPR中，第2938-2945页[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[18] J. - P. 休岛，澳-地Lee，J.他，S。-F. Chang和S.-E. 尹球形散列。在CVPR，第2957-2964页[19] A. K. 贾恩。数据聚类： 50年后的 K 均值。 Pat-ternRecognition Letters，31（8）：651[20] H. Je gou，F.Perronnin，M.Douze，J.桑切斯山口。佩雷斯和C.施密特将局部图像描述符聚合成压缩代码。TPAMI，34（9）：1704[21] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。TPAMI，35（1）：221[22] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。硕士论文，2009年。[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页[24] H.赖，Y。潘湾，澳-地Liu和S.燕.使用深度神经网络同时进行特征学习和哈希编码。在CVPR，第3270-3278页[25] S. Leutenegger，M. Chli和R.西格沃特BRISK：BinaryRobust Invariant Scalable Keypoints（二进制鲁棒不变可缩放关键点）。ICCV，第2548- 2555页，2011年[26] K. Lin，J. Lu，C.- S. Chen和J.舟使用无监督深度神经网络学习紧凑的二进制描述符。在CVPR，第1183-1192页[27] D. G.洛从尺度不变的关键点中提取独特的图像特征。IJCV，60（2）：91[28] J. Lu，V.Erin Liong和J.舟同时局部二值特征学习和编码用于人脸识别。在ICCV，第3721-3729页[29] J. Lu，V. E. Liong，X. Zhou和J.舟学习压缩二值人脸描述子用于人脸识别. TPAMI，37（10）：2041[30] T. Ojala，M. Pietikainen和T.门帕基于局部二值模式的多分辨率灰度和旋转不变纹理分类。TPAMI，24（7）：971[31] M.奥夸布湖博图岛Laptev和J.西维克使用卷积神经网络学习和传输中级图像表示。在CVPR中，第1717-1724页[32] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。在BMVC，第1卷，第1-12页[33] M. Paulin ， M. Douze ， Z. Harchaoui ， J. Mairal ， F.Perronin和C.施密特用于图像检索的非监督训练的局部卷积特征。在ICCV，第91-99页[34] J. Philbin，O. Chum，M. Isard，J. Sivic，and A. 齐塞-曼。具有大词汇量和快速空间匹配的对象检索在CVPR，第1-8页[35] J. Philbin，O. Chum，M. Isard，J. Sivic，and A.齐瑟曼。量化损失：改进大规模图像数据库中特定对象的检索。在CVPR，第1-8页[36] X. 齐河，巴西-地肖氏C.Li，Y.J. 小郭，和X。唐成对旋转不变共生局部二值模式。TPAMI，36（11）：2199[37] X. Qian，X. Hua，P. Chen，and L.柯PLBP：一种有效的局部二值模式金字塔纹理描述器. PR，44（10）：2502[38] E. Rublee，V. Rabaud，K. Konolige和G.布拉德斯基ORB：一个有效的替代筛选或冲浪。在ICCV，第2564[39] R. Salakhutdinov和G.辛顿语义哈希。国际近似推理杂志，50（7）：969[40] G.沙赫纳洛维奇学习特定任务的相似性。麻省理工学院博士论文，2005年。1195[41] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。载于ICLR，第1-14页。[42] C. Strecha，黑腹拟步行虫A

下载后可阅读完整内容，剩余1页未读，立即下载