基于策略梯度的无松弛深度哈希算法

13 浏览量更新于2023-10-14 收藏 758KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于策略梯度的无松弛深度哈希算法Xin Yuan，Liangliang Ren，Jiwen LuJiang，and Jie Zhou清华大学自动化系yuanx16@mails.tsinghua.edu.cn;renll16@mails.tsinghua.edu.cn;lujiwen@tsinghua.edu.cn;jzhou@tsinghua.edu.cn抽象。在本文中，我们提出了一个简单而有效的松弛自由的方法来学习更有效的二进制代码通过政策梯度可扩展的图像搜索。虽然近年来已经提出了各种深度散列方法，但它们中的大多数都面临着以真正的端到端方式获得具有非平滑符号激活的最佳二进制代码的困境。与现有的方法，通常采用一个一般的松弛框架，以适应基于梯度的算法，我们的方法制定的散列网络的非光滑部分作为采样与随机策略，使检索性能下降所造成的松弛可以避免。具体来说，我们的方法直接生成二进制代码，并最大化相似性保持的奖励期望，其中网络可以直接通过策略梯度进行训练因此，可以自然地解决离散优化的微分挑战，这导致有效的梯度和二进制代码。在三个基准数据集上的实验结果验证了该方法的有效性关键词：深度哈希·无松弛·策略梯度1介绍随着信息技术的飞速发展，大规模、高维的图像数据在互联网上得到了广泛的应用已经做出了各种努力来处理大规模相似性搜索，这被示出为对于许多实际应用（例如，搜索）是有用的。计算机视觉[37，3，25]、机器学习[39，27，9]和数据挖掘[44]）。散列技术[38，5，1，6，16，32，34，35]是将高维数据编码为低维二进制码的流行方法基于学习的散列[11，29，20，23，10，45]挖掘数据属性和语义亲和性，显示出比数据独立散列方法更好的性能[8]。大多数先前的基于学习的散列方法利用浅架构[11，29，20]对数据样本进行编码，其将类似样本映射到在散列中闭合通讯作者2Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhou-111.2蒙特卡罗样品-1-11-1个-0.50.1政策梯度1-1111.8无松弛深度哈希0.80.20.7正倒向1-11-1图1.一、说明我们的方法。与大多数现有的基于学习的散列方法（在顶部）通过连续松弛来解决差分难度不同，我们的方法（在底部）将非平滑部分修改为随机策略，其中鼓励二进制代码的样本获得相似性p保留的最大奖励。该网络直接通过策略梯度进行训练通过学习单个投影矩阵来学习汉明空间。虽然可以获得encour-老化性能，但它们中的大多数遭受非线性特征表示、可扩展性和非线性问题。最近，已经提出了基于深度然而，非光滑离散优化的二进制约束是这些方法中的一个具有挑战性的问题，这阻止了以真正的端到端方式学习深度散列。通过连续松弛，非光滑优化问题可以转化为连续优化问题，并可以用标准梯度法求解，从而导致对最优二进制码的偏离。虽然已经提出了许多方法来控制量化误差，但它们仍然不能在优化过程中精确地学习二进制哈希码。因此，由于学习的二进制码的次优，这可能导致大量的性能损失在本文中，我们提出了一种通过策略梯度（PGDH）进行可扩展图像搜索的无松弛深度哈希方法图1显示了我们所提出的方法的关键思想具体来说，我们制定的散列网络的非光滑部分作为采样与随机政策，以便在大多数以前的散列方法中使用的松弛过程可以被删除。我们直接生成二元码并最大化相似性保持的回报期望，这导致更有效的梯度和二元哈希码，并且可以自然地解决离散优化的差异化问题对三个基准数据集的广泛评估表明，我们的方法显着提高了国家的最先进的。不断放宽0.11-11-1一般松弛框架量化损失0.80.20.7训练图像查询图像基于策略梯度3i=12相关工作近年来提出了多种基于学习的哈希方法，主要分为无监督哈希和有监督哈希。无监督哈希方法通过利用数据本身来学习二进制代码。关系，如分布和流形结构。例如，谱散列（SH）[40]将散列学习公式化为图划分问题，并近似地解决了均匀数据分布假设的问题。锚图哈希（AGH）[26]通过使用基于易处理图的方法来近似邻域。深度哈希（DH）[21]采用多层神经网络来学习哈希函数，以保持样本的非线性关系。迭代量化（ITQ）[9]通过以迭代方式寻找旋转矩阵来最小化量化损失。流形散列（MH）[31]从聚类中心学习二进制嵌入，并将数据映射到低维流形。离散图散列（DGH）[24]提出了一种易于处理的交替在离散码空间中保持相似性的优化方法。监督散列方法通过利用样本的标签信息来学习二进制代码例如，核监督哈希（KSH）[25]利用代码内积和汉明距离之间的等价性，其目的是保持哈希码的内积与成对监督一致。快速监督散列[19]采用提升决策树来迭代地对二进制代码的子集执行替代优化。监督离散散列（SDH）[30]通过引入辅助变量制定了离散优化目标，并使用基于内核的散列函数来学习二进制代码。深度哈希的监督扩展[21]通过考虑样本的标签信息来学习深度学习的最新进展[15，33，12]表明，深度卷积网络可以为复杂数据学习鲁棒且强大的特征表示，这在许多计算机视觉应用中取得了巨大成功。因此，利用深度学习来获得紧凑的二进制代码是很自然的。例如，CNNH [42]采用了两阶段策略，其中第一阶段学习哈希码，第二阶段学习基于深度网络的哈希函数以获得代码。DNNH [17]通过同时进行特征学习和哈希编码流水线改进了两阶段CNNH，以便可以在联合学习过程中优化表示和哈希码。DSH [22]通过添加最大余量损失和量化损失来改进DNNH，这两个损失共同保留了成对相似性并控制了量化误差。HashNet [2]通过连续方法用平滑激活逐渐逼近非平滑3方法3.1一般松弛框架给定N个点（图像）的训练集X={xi}N，每个样本代表-通过D维特征向量或原始像素来编辑。一组成对标签4Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhoui=1S={sij}，其中如果x i和x j相似，则sij= 1，而如果xi和xj不相似，则s ij = −1。对于监督散列，S可以从数据点的语义标签或来自点进数据的相关性反馈来构造我们的目标是学习从输入空间到汉明空间{-1，1} K的映射函数f：x ›→ b ∈ {-1，1} K，其中每个数据点x被编码为紧致的K位二进制哈希码。二进制码B={bi}N应该保留一些相似性的概念。因此，散列学习问题通常可以公式化如下：minL（B），s.t.B∈ {− 1，1} n×K（1）f、B其中L是具有相似性保持的预定义损失函数。直接优化方程中的问题。(1)在对B的离散约束下，我们需要采用符号函数b= sgn（h）作为激活函数，以将连续表示h转换为二进制散列码b。然而，符号函数在零处不可微并且对于所有非零输入具有零梯度，这使得标准反向传播不可行。因此，直接用标准的基于梯度的方法求解离散优化问题是不合适的。大多数现有的散列方法主要以两种方式放松棘手的优化问题：1）通过引入量化函数的连续松弛，以及2）用S形或双曲正切松弛近似符号函数[17，2]。对于第一种策略，这些方法通过连续松弛从散列目标L（B）导出优化问题L（H），并控制B和H之间的量化损失，其表示为Q（B，H）。这些方法的目标通常可以重新表述为：minf、H、BL（·）+Q（B，H），s.t.B∈{−1，1} n×K（2）其中L（·）表示连续优化[18]的L（H）或离散优化[22]的L（B）然而，由于Q（B，H）是NP-完全的，并且不能被最小化到零，因此在B和H之间仍然存在间隙。因此，局部最小值通常是由这样的松弛优化问题。对于第二种策略，非光滑的符号函数近似的连续方法，这导致收敛到原来的哈希学习目标。然而，为了获得可行的梯度，这种松弛不可避免地变得更加不平滑并且减慢或抑制收敛，这使得难以优化学习模型。3.2基于策略梯度在本节中，我们提出了一种新的深度学习架构，以受REINFORCE算法[41]的启发使用策略梯度进行散列。我们建议的架构包括：1）用于学习图像的深度表示的卷积网络（CNN），以及2）具有S形激活函数的全连接策略层，用于将每个特征表示变换为K维向量，其中每个维度表示采用K维向量的概率。基于策略梯度5xi，θx，θxi，θxi，θj=12我binary的作用。所提出的端到端学习框架可以被视为与外部环境（在我们的情况下是图像）交互的代理。代理的目标是获得最大可能的相似性保持与差异最小化，这可以被认为是对代理的奖励。我们将策略定义为π（xi，θ）={π（k）} k=1：K，其由具有第i个输入xi的网络参数θ参数化。策略生成动作序列ai={ai ，k}k= l：KPθ（xi），其中ai ，k={ 0， 1}表示二进制动作值π（k）我仅输出散列码+1的概率不同于大多数现有的强化学习方法，其预测每个可能动作的概率分布（例如，softmax概率）。因此，我们的方法中的概率分布可以用公式表示如下：.p（ai，k）=π（k），如果ai，k=11-π（k），如果ai，k=0（三）在生成了动作ai之后，代理观察到与相似性保持相关的奖励r（ai）通过将汉明空间中的相似性关系与地面实况相似性函数S进行比较，由评估度量来计算奖励。我们采用了一种基于小批量的学习策略，并在每次迭代中从整个训练集中抽取一个小批量的点对于具有m个训练样本的每个小批量，我们的目标是通过最大化每个二进制码bi= 2 *（ai− 0）之间的保留信息来利用全局信息。（5）和C odebokC={{bj}nofallthetra inintheHammings空间中的所有点。F或a一对binarycodesbianddbj，我们将HammingdististH（·，·）byinnerproduct∠·，·∠as：distH（bi，bj）=1（K−∠bi，bj∠）. 学习有效散列码的方法可以写如下：1Σnr（ai）=−2 j=1sij（K−bTbj）S. t.bi，bj∈{−1，+1}K（4）哪里西杰.=β，如果sij=1β-1，否则（五）是用于补偿正对和负对的不平衡的加权相似性度量参数β允许对正对和负对的不同权重注意，在训练过程期间，码本C的更新比学习模型θ慢，这将在后面讨论。训练的目标是最小化小批量的负期望奖励：L（θ）=−ΣEaiPθ（xi）[r（ai）]（6）我6Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhou请注意，在我们的框架中，环境的描述由图像组成，而不是由先前的状态或动作决定的。严格地说，这个公式不是一个完整的强化学习框架，其中状态转换被明确定义。这里我们只关注在相似性保持和提高哈希学习性能相关的奖励指导下在我们提出的散列学习方法中，期望奖励r是不可微的。为了直接计算L（θ），我们使用REINFORCE算法，该算法计算不可微奖励函数的期望梯度如下：Σθ L（θ）= −Eai∈Ai [r（ai）|（7）我其中Ai是小批量中第i个输入数据的所有可能动作的集合可以使用Monte Carlo样本来近似预期梯度我们将ai上的T样本蒙特卡罗表示为：A={a1，a2，...， aT}= MCPθ（ai|（T）（8）我我我对于小批量中的训练示例，预期策略梯度可以计算为：L（θ）≈−1ΣΣ[r（at） log（P（at|（9）联系我们Itθii其中等式中的对数概率可以通过等式（9）中的伯努利分布上的二进制交叉熵来计算（三）、上述梯度估计器是简单的，但是由于信用分配的困难而遭受高方差为了减少梯度估计的方差，我们再次近似的期望梯度与广泛使用的基线方法在政策梯度。对于每个训练小批量：L（θ）≈−1ΣΣ[（r（at）−r′）log（P（at|（10）θTiItθ θii其中，基线r′应该是与动作无关的值。添加这样的基线项将不会改变梯度1的期望，但是可以减小梯度估计的方差在这里，我们选择每个小批次中所有奖励的平均值作为基线。与基线相比保留与码本C更多相似性信息的二进制码将得到正1ΣEa∈A[r′log（P（at|x））]= Σr′ΣP（at|x）= Σr′ 1 = 0ii iθθiiiθaiθiiiθ基于策略梯度7i=1算法1：PGDH输入：训练集：X ={xi} n，成对标签：S ={s，j}和码本更新间隔R >1。输出：学习模型θ和码本C1：初始化pθ和C;2：对于iter = 1，2，. . . ，M do3：从X采样随机小批量;4：通过向模型馈送小批量来计算动作概率5：根据等式（1）计算小批量的MC样本的奖励（4）6：根据等式2计算策略梯度。（10）;7：根据等式7更新模型θ（11）; 8：如果iter %R= 0，则9：更新码本C; 10：如果11：结束12：返回模型θ和码本C;具有较少相似性信息的那些将受到惩罚，而具有较少相似性信息的那些将受到N个网关的惩罚。我们将这两个工作组的分组如下θ←θ− λ<$θL（θ）（11）其中λ表示学习速率。在学习过程中，为了训练稳定性和性能改进，码本C的更新比模型慢我们可以将码本更新公式化为：bj=2*（aj−0. 5），aiP（xj|θ−）（12）该方法通过[28]来实现，其中，更新速率低于在线网络θ以获得更稳定的性能。总之，算法1示出了所提出的方法的全部细节3.3样本外扩展在完成学习过程后，我们只通过最大化奖励的期望来为训练点生成优化的哈希码。如何执行样本外扩展来为不在训练数据集中的点生成哈希码仍然不清楚。为了解决这个问题，我们以两种方式执行样本外扩展：确定性和随机性。确定性生成将不在训练数据集中的数据点表示为xq，我们将其馈送到我们提出的架构并获得具有K个值πxq，θ的向量，每个值表示二进制动作1的概率（S形激活范围从0到1）。我们可以直接得到二进制码在8Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhoux，θQx，θx，θ确定性方式：bk= .+1，如果π（k）Q>0。5（十三）q−1，否则在获得概率向量之后，我们可以将随机代码生成函数写为：bk=.+1，概率为π（k）Q-1，概率为1 −π（k）Q（十四）随机方法似乎比确定性方法更有吸引力，但实际上，在学习模型收敛后，性能略有不同。在我们的实验中，我们报告的性能直接使用确定性生成，我们也进行调查的两种方式来生成哈希码。4实验4.1数据集和实验设置我们对三个公共广泛使用的基准数据集进行了广泛的实证评估：CIFAR-10 [14]，NUS-WIDE [43]和ImageNet [4]。CIFAR10包含60，000个手动单标记彩色图像，属于10个类别（每个类别6000个图像）。按照[36]中的相同设置，我们通过随机抽样1，000张图像构建查询集，每个类别100张图像，并使用剩余的59，000张图像形成数据库。然后，我们从数据库中均匀地选择每个类500个图像来形成训练集。NUS-WIDE2是一个公共的Web图像数据集，包含从Flickr收集的269，648张图像。这是多标签数据集，即，每个图像与来自给定81个概念的一个或多个标签相关联我们遵循[42，46]中的设置，并使用与21个最常见的概念相关联的195，834个图像的子集，其中每个概念由至少5，000个图像组成我们随机抽取2,100张图片，每个类别100张图片，形成测试集，并使用剩余的图片作为数据库。我们从数据库中对每个类别的500张图像进行统一采样，以形成一个训练集。ImageNet是一个用于视觉识别的大型数据集，在训练集中包含超过120万张图像，在验证集中包含50 K张图像，覆盖1,000个类别。按照[2]中的相同设置，我们随机选择100个类别，使用训练集中这些类别的所有图像为了训练哈希方法，我们从数据库中随机选择每个类别的100张图像作为训练点。遵循与先前工作[22]相同的评估协议，从图像标签构建的相似性信息用于地面实况2http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm基于策略梯度9评估和构造用于训练的成对相似性矩阵。对于单个和多个标记的数据集，我们将地面实况语义邻居定义为共享至少一个标签的图像。注意，通过这种方式构建训练数据，所有三个数据集都表现出数据不平衡问题，因为正负对的不平衡，这可以用来评估我们由β控制的加权奖励的效果。我们使用以下指标评估生成的二进制代码的检索性能：平均平均精度（MAP），精度-召回率（P-R）曲线，在顶部检索样本的精度（P@N），和汉明半径r= 2内的汉明查找精度（HLP@2）。我们选择的二进制代码的长度为16，32，48和64位的性能进行评估请注意，对于ImageNet数据集，我们计算MAP@1000，因为每个类别只有1，300张图像，而对于NUS-WIDE，我们采用MAP@5000。在PGDH的实现中，我们利用AlexNet网络结构并在Pytorch框架中实现它。我们通过复制ImageNet上预训练模型中卷积层conv1-conv 5和全连接层fc6-fc 7的参数来初始化PGDH的前七层，并对这些层进行微调。我们还使用高斯分布初始化最终的策略层，并从头开始训练这一层。在训练阶段，我们使用Adam [13]，初始学习率为0.005，批量大小为128。对于参数调优，我们将训练集平均分为十个部分，以交叉验证参数。我们将每次迭代中的蒙特卡罗样本T固定为10，并且将码本更新间隔R固定为5。4.2结果和分析与最新技术水平的比较：我们将所提出的PGDH与十二种最先进的哈希方法进行比较，包括无监督方法：LSH [8]，SH [40]，ITQ[9]，监督方法：KSH [25]，CCA-ITQ [9]，FastH [19]、SDH [30]和监督式深度方法：[22][23][24][25][26][27][28][29]我们通过运行各自作者提供的源代码来报告他们的结果，以自己训练模型，除了DNNH由于源代码的不可访问性。对于传统的哈希方法，我们使用DeCAF7[7]特征作为输入。对于深度哈希方法，我们直接使用原始图像作为输入，并调整图像大小以适应所采用的网络。请注意，我们采用AlexNet架构进行所有深度哈希，以进行公平比较。表1示出了不同散列方法在不同码长的MAP方面的总体检索性能我们可以观察到，我们提出的PGDH优于所有比较的方法。与基于深度学习的哈希方法中的最佳竞争者相比，PGDH始终优于约3%。显着的性能改善归因于通过策略梯度而不是一般的松弛框架获得的有效的二进制码。值得注意的是，我们的PGDH还利用加权奖励函数来攻击被许多现有方法忽略的数据不平衡问题。10Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhou表1.在三个图像数据集上，对于不同的比特数16、32、48和64，比较方法CIFAR-10（%）NUS-WIDE（%）ImageNet（%）1 0.85 0.70.90.80.70.60.50.40.30.20.10 0.2 0.4 0.6 0.81召回0.80.750.70.650.60.550.51002003004005006007008009001000回收样本0.650.60.550.50.450.40.350.30.250.2202530354045505560的比特(a) 64位(b) 64位(c) HLP@2，64位图二、PGDH的实验结果和比较方法在CIFAR-10数据集下的三个评估指标此外，我们看到最近提出的HashNet提高了其他深度学习方法的性能（例如，DSH和DPSH），因为HashNet通过连续方法解决了优化困难，并通过加权最大似然法解决了数据不平衡问题。与最好的传统散列方法相比，PGDH也大幅提高了性能。注意，深度散列方法在两个数据集上持续地优于常规散列学习方法，即使常规散列学习方法利用CNN特征，这表明端到端学习方案是有利的。在CIFAR-10，NUS-WIDE和ImageNet数据集上，64位二进制代码的精确度-召回（PR）曲线的性能如图所示2（a）、3（a）和4（a）。在这里，我们仅显示基于深度学习的哈希方法的PR曲线的结果，以评估哈希学习的有效性结果表明，PGDH算法的性能明显优于所有的比较方法。PGDH在相同的召回率水平下实现了比CNNHDNNHDPSHDSHHashNetPGDHCNNHDNNHDPSHDSHHashNetPGDHCNNHDNNHDPSHDSHHashNetPGDH精度平均精度精度163248641632486416324864LSH [8]12.9 15.2 16.9 17.840.3 49.2 49.3 55.110.1 23.5 30.1 34.9SH [40]12.2 13.5 12.1 12.647.9 49.1 49.8 51.520.8 32.7 39.5 42.0ITQ [9]21.3 23.4 23.8 25.356.7 60.3 62.2 62.632.5 46.2 51.3 55.6CCA-ITQ [9]31.4 36.1 36.6 37.950.9 54.4 56.8 67.626.6 43.6 54.8 58.0KSH [25]35.6 40.8 53.1 44.140.6 40.8 38.7 39.816.0 28.8 34.2 39.4FastH [19]45.3 46.1 48.7 50.351.9 61.0 64.7 65.222.8 44.7 51.7 55.6SDH [30]40.2 42.0 44.9 45.653.4 61.8 63.1 64.529.9 45.1 54.9 59.3CNNH [42]48.8 51.2 53.4 53.661.2 62.3 62.1 63.728.8 44.7 52.8 55.6DNH [17]55.5 55.8 58.1 62.368.1 71.3 71.8 72.029.7 46.3 54.0 56.6[第18话]64.6 66.1 67.7 68.671.5 72.6 73.8 75.332.6 54.6 61.7 65.4DSH [22]68.9 69.1 70.3 71.671.8 72.3 74.2 75.634.8 55.0 62.9 66.5HashNet [2]70.3 71.1 71.6 73.973.3 75.2 76.2 77.650.6 62.9 66.3 68.4PGDH73.6 74.1 74.7 76.2 76.1 78.0 78.6 79.2 51.8 65.3 70.7 71.6基于策略梯度111 0.75 0.80.90.80.70.60.50.40.70.650.60.550.50.70.60.50.40.30.20.10.30 0.2 0.4 0.6 0.81召回0.451002003004005006007008009001000回收样本0202530354045505560的比特数(a) 64位(b) 64位(c) HLP@2，64位图3.第三章。PGDH的实验结果和比较方法在NUSWIDE数据集下的三个评价指标10.90.80.70.60.80.70.60.50.650.60.550.50.50.40.30.20.100 0.2 0.4 0.6 0.81召回0.40.30.20.101002003004005006007008009001000回收样本0.450.40.350.30.25202530354045505560的比特(a) 64位(b) 64位(c) HLP@2，64位图4.第一章PGDH的实验结果和比较方法在ImageNet数据集上的三个评估指标比较的方法，这表明有效的散列码是通过学习政策梯度。这一属性是赞赏在实际的精度第一的图像检索系统中，高概率找到真正的邻居是更重要的。图12中示出了在针对64位二进制代码的深度学习方法的不同数量的顶部检索结果（P@N）的平均精度方面的三个数据集上的性能。2（b）、3（b）和4（b）。请注意，为了所有三个数据集的一致性，N的最大值在这里被设置为1，000。从结果图中，我们可以看到，PGDH始终提供优于所比较的散列方法的精度相同量的检索样本。这意味着检索到更多的语义邻居，这在实际应用中是期望的。图2中示出了在三个数据集上以不同位长度的基于深度学习的散列方法在汉明半径2（HLP@2）内的汉明查找精度方面的性能。2（c）、3（c）和4（c）。该评估度量测量落入汉明半径2内的桶中的检索结果的精度结果验证了PGDH学习的二进制码的紧凑性。我们还观察到，最好的性能是在一个中等长度的二进制码。这是因为较长的二进制码使得汉明空间中的数据分布稀疏，并且较少的样本落入设置的汉明球内样品调查：通过改变PGDH中的参数T，我们研究了优化过程中蒙特卡罗样本数的影响。请注意，将小批量数据训练为T需要花费更多时间CNNHDNNHDPSHDSHHashNetPGDHCNNHDNNHDPSHDSHHashNetPGDHCNNHDNNHDPSHDSHHashNetPGDHCNNHDNNHDPSHDSHHashNetPGDHCNNHDNNHDPSHDSHHashNetPGDH精度CNNHDNNHDPSHDSHHashNetPGDH精度平均精度平均精度精度精度12Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhou16位32位48位64位0.8 10.75 0.90.7 0.80.650.60.550.50.70.60.50.40.45 0.30.4 0.20.350.10.32468101214161820MC样品00 20 40 60 80 100历元图五. Monte Carlo样本数量对CIFAR-10数据集见图6。64位二进制码MAP中R分别为1、5和40时码本更新频率对CIFAR-10表2. MAP（%），用于与具有64位二进制代码训练时期1 5 10 40 50 60 70 80 90 100确定性24.51 47.18 66.56 72.13 74.73 74.78 74.77随机10.10 18.18 58.32 73.54 74.18 74.93 75.12 75.18折痕我们报告的性能结果，不同的T值选自{2， 5， 8， 10， 12， 15， 20}的值。结果表明，当T较小时，搜索质量下降，因为没有足够的MC样本不能获得有效的梯度。我们还观察到，当我们继续扩大T时，性能表现出饱和。作为交换在搜索质量和训练效率方面，我们选择在训练期间将T固定为10。Codebook更新调查：通过改变PGDH中的间隔参数R，研究了训练过程中码本更新频率的影响。图图6示出了在训练期间相对于CIFAR-10数据集上的R的前60个时期的MAP性能演变，其中二进制码的长度设置为64位。网络很难优化，当我们每次迭代（R= 1）更新码本C时，MAP在训练期间表现出非常低的值（红色曲线）当我们每一个历元（R= 40）更新一次码本C时，网络可以稳定地训练，但MAP上升得非常缓慢（绿色曲线）。我们还观察到，最佳性能（蓝色曲线）在R= 5的中等值处实现确定性与随机数：我们调查的确定性和随机生成在测试阶段。表2示出了在CIFAR- 10数据集上的不同时期由这两种方式生成的64位代码的MAP性能我们可以观察到，在纪元的前几十年中，性能有很大的不同。这是因为随机方式产生二进制R = 1R = 5R = 40地图地图基于策略梯度1310.90.80.70.60.50.40.30.2PGDHCNNHDNNHDPSHDSHHashNetITQITQ-CCASDH特征提取0.10DNNH DPSH方法HashNetPGDH101102103编码时间（7s）104图7.第一次会议。由于在CIFAR-10数据集上从连续要素转换为64位二进制代码，MAP中的搜索质量下降（红色条）见图8。用64位二进制码在CIFAR-10数据集上对一幅新图像进行不同散列表3.三个数据集上不同β的MAP（%）（64位二进制代码）β0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9CIFAR-1010.12 18.38 20.08 49.43 73.65 70.32 75.23NUS-wide31.32 43.65 54.13 66.12 77.95 76.12 77.32 79.18 78.80ImageNet1.141.1433.12 43.64 69.65 68.69 70.32 70.11 70.03通过以不确定的方式进行采样来编码，如果模型不符合要求，这将影响结果。我们观察到，当学习模型随着历元的增加而收敛时，MAP差异较小。虽然随机方法在PGDH中看起来更有吸引力，但由于实际中的采样操作，在测试期间将花费更多的时间来生成代码加权报酬调查：我们调查加权奖励处理不平衡问题的效果。权重由等式（1）中的参数β控制（五）、当我们将β设置为较大值时，该算法仅利用正对来学习哈希码。将β设置为接近0，该算法仅利用负对来学习散列码。在定义语义相似度和数据集的情况下，不平衡问题严重影响了散列方法的性能。表3示出了在二进制码的长度设置为64位的情况下，在三个数据集上MAP相对于β当β > 0时，检索性能有所提高。5，这显示了在我们的方法中引入加权奖励的效果搜索质量下降的比较：PGDH的比较方法的一个关键的优势在于，PGDH直接学习有效的紧凑的二进制码通过政策梯度，而比较方法放宽了离散的目标，采用基于梯度的算法。直观地，使用汉明距离的二进制码的搜索明显劣于使用欧几里德距离的连续特征的搜索，这是由于由汉明距离引起的大量信息损失。散列搜索质量质量降级地图Pytorch实现咖啡实施MatConvNet实施Matlab实现14Xin Yuan，Liangliang Ren，Jiwen Lu and JieZhou放松. 由于二值化导致的MAP方面的搜索质量损失如图所示7.第一次会议。注意，由于PGDH直接输出二进制码，因此我们仅示出PGDH的绝对MAP 值。从结果图中，我们看到DNNH（ 9%退化）， DPSH（3.85%退化），DSH（1.56%退化）和HashNet（0.9%退化）遭受MAP损失，而我们的PGDH甚至可以通过比较方法获得的连续特征打破搜索质量的瓶颈。换句话说，PGDH可以学习更有效的二进制码，比所有其他方法更准确。编码时间比较：对新样本生成二进制代码的时间是评价检索系统实用性的一个重要因素。在这一部分中，我们将PGDH的编码时间与1）进行比较五种基于深度学习的散列方法CNNH、DNNH、DPSH、DSH和HashNet，以及2）三种常规散列方法ITQ、ITQ-CCA、SDH，包括具有线性和非线性散列函数的无监督和有监督散列。对于直接将原始图像作为输入的深度哈希方法，我们报告了GPU上的编码时间。对于传统的散列方法，我们考虑GPU上的深度特征提取的时间成本和CPU上的散列编码的时间成本。图8示出了在具有64位二进制代码的CIFAR-10数据集上以对数标度的所涉及的散列方法的编码时间的比较我们的计算平台配备了一个4.0 GHz的英特尔CPU，32 GB内存，和NVIDIAGTX 1080Ti。虽然HashNet和DSH比我们的PGDH更快，因为Caffe实现的计算效率更高，但我们可以在测试阶段轻松地将训练的Pytorch模型转换为Caffe版本，以实现编码加速，同时保持检索性能。5结论在本文中，我们提出了一种新的通过策略梯度进行深度哈希的无松弛框架我们修改了散列网络的非平滑部分，以作为随机策略来解决反向传播的困难。我们通过网络直接生成二进制代码，并最大化与相似性保持相关的奖励期望。我们通过策略梯度来训练所提出的网络，这自然避免了离散优化的微分困难，从而产生更有效的二进制代码。我们已经进行了大量的实验，以验证所提出的PGDH的优越性，通过比较与国家的最先进的哈希方法。确认这项工作部分得到了中国国家重点研究与发展计划（2017YFA0700802）的支持，部分得到了中国国家自然科学基金（61672306、U1713214、61572271）的支持，部分得到了深圳市基础研究基金（课题安排）（JCYJ2017041217）的支持0602564.基于策略梯度15引用1. Ckir ， F. ，He ， K. ，Bargal 、 S. 一、Sclaroff ， S. ： Mihash ：Onlinehashingwithitthuualin-formation. In：ICCV. pp. 437- 445（2017）。http：//doi.org/10。1109/ICCV.2017年。55，https://doi.org/10.1109/ICCV.2017.552. Cao，Z.，Long，M.，王杰，余，P.S.：Hashnet：通过持续的哈希来进行深度学习。In：ICCV.pp. 5609http ：//doi. org/10。1109/ICC2017年。598，https://doi.org/10.1109/ICCV.2017.5983. Dean，T.L.，Ruzon，M.A.，Segal，M.，Shlens，J.，Vijayanarasimhan，S.，Yagnik，J.：在一台机器上快速、准确地检测100，000个对象类别在：CVPR中。pp. 1814http：//doi. org/10。1109/CVPR. 20132374. Deng，J.，Dong，W.，索赫尔河Li，L.，Li，K.，Li，F.：Imagenet：一个大规模的高质量的数据库.In：CVPR. pp.248- 255（2009）。网址doi.org/10.1109/CVPRW.2009.5206848http：//www.example.com5. 做吧T Doan，A.，Cheung，N.：学习使用二进制深度神经网络进行哈希运算。 In ： ECCV. pp.219- 234 （ 2 016 ）。 http：//doi. org/10。1007/978-3-319-46454-114，https://doi.org/10.1007/978-3-319-46454-1 146. 做T.，谭、D.L.范T.T.张编号：同时fea，fea，fea用于大规模图像搜索的真实聚合和散列。In：CVPR.pp.四二一七（ 2017 年）。http ： //doi. org/10 。 1109/CVPR. 2017 年。 449 ，http://doi.ieeecomputersociety.org/10.1109/CVPR.2017.4497. Donahue，J.，Jia，Y.，Vinyals，O.，Hoffman，J.，Zhang，N.，Tzeng，E.，达雷尔，T.：Decaf：用于通用视觉识别的深度卷积激活功能。In：ICML. pp. 6478. Gionis，A.，Indyk，P.，Motwani，R.：基于hash-i的高维相似性搜索。In：VL DB。pp. 第5189. Gong，Y.，Lazebnik，S.，戈多A Perronnin，F.：迭代量化：一个亲crustean 的方法来学习二进制代码的大规模图像检索。 TPAMI35（12），2916http：//doi. org/10。1109/TPAMI. 2012年。19310. Gui，L.，王玉，Hebert，M.：用于图像检索的少量散列学习。In：ICCVW. pp. 1228- 1237（2017）。 http：//doi. org/10。1109/ICCVW. 2017年。148，http://doi.ieeecomputersociety.org/10.1109/ICCVW.2017.14811. 他，K.，温，F.，孙杰：K-means哈希：一种用于并行压缩编码的仿射保持量化方法。In ： CVPR. pp.2938- 2945 （ 2 013 ）。网址：doi.org/10.1109/CVPR.2013.37812. 他，

下载后可阅读完整内容，剩余1页未读，立即下载