基于判别采样策略的深度嵌入学习框架

126 浏览量更新于2023-10-18 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于判别采样策略的段跃奇1、2、3，陈雷1、2、3、4，陆继文1、2、3，周杰1、2、31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4天津大学电气与信息工程学院duanyq14@mails.tsinghua.edu.cn; Chen lei@tju.edu.cn;lujiwen@tsinghua.edu.cn;jzhou@tsinghua.edu.cn摘要深度嵌入学习旨在学习距离度量以进行有效的相似性测量，该方法在各种任务中都取得了良好的性能由于大量的训练样本会产生幅度接近于零的梯度，因此通常采用硬示例挖掘来提高训练过程的有效性和效率。然而，现有的采样方法大多是手工设计的，这忽略了样本之间的依赖性，并遭受穷举搜索。在本文中，我们提出了一种基于判别采样策略的深度嵌入（DE-DSP）学习框架，通过同时训练两个模型：一个深度采样器网络，学习有效的采样策略，以及一个特征嵌入，将样本映射到特征空间。深度采样器网络利用样本之间的强先验关系，以更有效的方式学习判别式采样策略，而不是通过前向传播来穷举计算所有样本的硬度。实验结果表明，在不同的嵌入目标下，我们的DE-DSP框架具有更快的收敛速度和更强的鉴别能力。1. 介绍在过去的几十年里，有效距离度量估计的嵌入学习引起了人们的广泛关注[5，10，36，16]。随着最近成功的深学习[18，23，12，15]，由于高度非线性，深度嵌入学习方法在各种任务中表现出强大的辨别力，例如视觉搜索[31，30，35]，生物计量验证[3，25，1]和零射击学习[2，41]。深度嵌入学习的基本目标是最小化* 通讯作者类内变化并最大化类间距离，其中文献[3，25，33，4，29，31，30，22，35]中已经提出了物镜的数量，包括最常用的对比度损失[3]和三重损失[25]。虽然深度嵌入学习中的样本大小通常是二次或三次，但有意义的硬样本只占极少数。使用大量简单示例进行训练可能会导致效率低下和性能低下，因为它们通过产生幅度接近零的梯度对训练过程贡献不大[29，14]。为此，已经提出了几种硬示例挖掘方法来进行有效的样本选择[25，42，38，11，40，39]。最近的研究表明，采样在深度嵌入学习中扮演着与目标函数相同甚至更重要的角色[38]。理想的抽样策略应具有针对性和适应性。一方面，选择的样本应针对当前嵌入状态的要求。另一方面，在深度嵌入学习的训练过程中，采样策略应该自适应地更新。不幸的是，要实现手工设计的大多数现有采样方法的目标并不容易，因为在深度嵌入学习的每一步（要自适应）都需要大量的候选者来执行前向传播和穷举搜索（要有针对性为了避免不可行的计算，大多数现有的抽样策略采用在线方法，通过选择小的小批量中的有效示例作为次优解决方案[25，38]。然而，有限的采样空间可能会导致收敛速度慢和局部最优性差。在本文中，我们认为，穷举搜索是远远没有必要的抽样。例如，我们的人类只需要几次尝试就可以获得两个特定类之间存在较大的类间距离，每个类中有100个样本，这可能无法很难构建三胞胎然而，穷举搜索需要进行 1 ， 980 ， 000（200×99×100）次硬度计算。应当注意49644965图1.概述了所提出的DE-DSP框架，其中广泛使用的三元组嵌入用于简单说明。在图中，DSN是深度采样网络，M代表特征嵌入。实线中的深度模型表示固定参数，虚线中的深度模型表示微调参数。我们首先通过深度采样网络选择一个小批量的高概率样本，其中小批量的大小更好地选择为嵌入批量大小的整数因子。然后，我们通过前向传播接收来自特征嵌入的样本的分数，这些分数用于微调深度采样器网络。我们迭代地执行步骤1和步骤2，直到为整个批生成足够的三元组最后，我们用这批训练样本训练特征嵌入每个硬度计算都需要通过深度嵌入网络执行前向传播，深度嵌入网络通常非常深，以实现强的鉴别能力。主要原因是我们人类有能力以捕获候选者之间的关系，而基于搜索的方法独立地处理每个候选者。为此，我们提出了一个具有判别采样策略的深度嵌入（DE-DSP）学习框架，在该框架中，我们设计了一个深度采样器网络（DSN）来学习有效的采样策略，而不是穷举搜索。通过学习得到的采样策略，得到每个候选样本被选中的可能性，深度嵌入为被选中的样本提供评分，从而优化采样策略。图1显示了所提出的DE-DSP的概述。我们观察到，硬计算的次数等于批大小，这与候选大小无关，并且比穷举搜索少得多。与现有的手工采样方法相比，DE-DSP有两个关键优势：1) 据我们所知，这是第一次尝试学习用于判别采样策略的深度神经网络。与现有的基于搜索的方法相比，DE-DSP算法对各种嵌入结构具有更强的通用性，并且通过直接使用嵌入对象作为奖励函数，不需要人的强先验采样知识。此外，DSN提供了被选择的候选人的可能性，而不是一个简单的决定。由于仅选择硬样本可能是次优的[38]，因此简单样本仍有机会被DSN选择。2) 现有的方法假设每个候选者的硬度是独立的，并且必须向前执行通过非常深的嵌入网络在所有（或子集）示例上进行传播。相反，D-SN学习一个有效的政策，只有少数分数测试，这可以推广到那些未经测试的样本。我们认为DSN具有泛化能力，它利用了被测样本与未测样本之间的分布一致性关系作为强先验，使得未测样本通过从被测样本中学习的策略获得例如，未经测试的样本将获得与类似的测试样本接近的分数估计。此外，虽然大多数现有的采样方法在不同的训练步骤中是独立的，并且必须在每一步重新计算所有距离，但DSN具有更强的适应性，因为我们可以简单地基于最后一步更新参数。由于上述优点，DE-DSP能够从更大的候选样本中选择更有效的训练样本。此外，在训练过程结束时，大多数样本对于嵌入学习是无效的，DE-DSP更有可能捕获剩余的有效样本与判别采样策略。作为一般框架，我们开发了广泛使用的三重态损失[25]和最先进的N对损失[29]，以证明所提出的DE-DSP的有效性。实验结果表明，DE-DSP成功地提高了原始目标的性能，并在CUB-200-2011 [34]，Cars 196 [17]，StanfordOnline Products [31]和In-Shop Clothes Retrieval [21]数据集上优于现有的手工采样方法2. 相关工作度量学习：度量学习旨在获得输入样本之间的有效相似性度量，其中4966APnnij+一个在过去几十年中取得了很大进展。传统方法学习线性马氏距离来代替简单的欧几里得距离[26，27，9，5，10，36、19、16]。例如，Weinberger等人。 [36]通过k-最近邻分类的大幅度分离来自不同类别的样本。Jain等人。 [16]研究了作为正则化的低维度量，包括低秩和稀疏度量。虽然采用核技巧来处理样本的非线性相关性[37，7]，但随着深度学习的发展，最近的深度度量学习方法呈现出更强的辨别力[3，25]。对比损失[3]集中在成对输入样本的绝对距离三重损失[25]构建了三重输入样本，以确保阳性和阴性之间的相对距离排序。近年来，一些国家提出了一些有效的目标，对.为了实现这一点，大多数深度嵌入方法使用精心设计的对象ivLemb（·;θ）来训练网络，其中代表性目标包括对比度损失和三重损失。对比损失通过将成对样本{xi，xj}作为输入来关注绝对距离对比损失的目标函数如下所示L=1{yi=yj}D2+1{yi=/yj}[α−Dij]2，（一）其中α是裕度，[·]的运算表示铰链函数max（0，·）。三元组损失构造三元组样本{xa，xp，xn}，培训，这代表锚，积极和消极的山姆-，分别。与对比损失相比，三重损失只需要距离的相对排序：限制更多样本[33，14，31，29，8]。代表性的方法包括直方图损失[33]和位置-Ltri=[D22+α]+.（二）依赖深度度量（PDDM）[14]用于四联体，提升结构[31]和N对损失[29]用于整个批次。然而，大多数训练示例对深度度量学习的贡献很小，并且需要数据采样来提高有效性和效率。硬示例挖掘：硬示例挖掘广泛应用于许多任务，以进行有效的模型训练[28，42，38，6，20]。在深度嵌入学习中，硬示例最小-由于样本的大小是二次或三次的，因此使用所有训练对或三元组进行优化会遇到不可行的计算因此，硬示例挖掘方法被用来在一批中选择有意义的样本简单的硬否定挖掘能够加速对比损失的收敛，而FaceNet[25]提出了三重损失的半硬标准：ing通过逐渐选择嵌入空间中的硬样本来充当自举[28，11]。例如，Schrof-x*=arg minxn：Dap

下载后可阅读完整内容，剩余1页未读，立即下载