自适应策略提高视觉相似性学习中的采样效果

126 浏览量更新于2023-10-23 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1PADS：用于视觉相似性学习的策略适应采样KarstenRothTimoMilbichBjoürnOmmerHeidelberg图像处理合作实验室/IWR德国摘要学习视觉相似性需要学习关系，通常是三个图像之间的关系。尽管三元组方法很强大，但它们的计算复杂性主要限制了训练所有可能的训练三元组的子集因此，决定在学习过程中何时使用哪个训练样本的采样策略至关重要。目前，突出的范例是固定的或课程抽样策略，在培训开始之前预定义然而，这个问题确实需要一个采样过程，在训练过程中根据相似性表示的实际状态进行调整。因此，我们采用强化学习，并让教师网络根据学习者网络的当前状态调整采样分布，这代表了视觉相似性。基准数据集上的实验使用标准的基于三元组的损失表明，我们的自适应采样策略显着优于固定采样策略。此外，虽然我们的自适应采样仅应用于基本的三重学习框架之上，但我们达到了与采用不同附加学习信号或强大集成架构的最先进方法相竞争的结果。代码可以在https下找到：//github.com/Confusezius/CVPR2020_PADS网站。1. 介绍捕捉图像之间的视觉相似性几乎是每个计算机视觉任务的核心，例如图像检索[57，50，36，33]，姿势理解[32，8，3，51]，人脸检测[46]和风格转移[26]。测量相似性需要找到一种表示，该表示将相似的图像映射到一起，而将不同的图像映射到远处。该任务自然被公式化为深度度量学习（DML），其中将单独的图像对与第三图像[46，57，54]进行比较[17，50，35反映图像相似性的距离度量。这种三元组学习构成了强大的学习算法的基础[42，36，44，59]。然而，随着培训的不断深入，作者对这项工作做出了同样的贡献。图1：负采样分布在训练迭代中的进展。静态采样策略[57]遵循锚点和负图像之间距离d的固定概率分布。相比之下，我们学习的离散化采样分布在适应DML模型的训练状态时会发生变化。与静态策略相比，这导致所有数据集的改进接近4%（参见选项卡. 1）。此外，自适应分布的进展在数据集之间变化，因此难以手动建模，这突出了对基于学习的方法的需求。集合的大小，利用每一个三元组进行学习在计算上变得不可行，将训练限制为所有可能的三元组的子集。因此，仔细选择那些最能推动学习的三胞胎是至关重要的。这就提出了一个问题：如何确定哪些三胞胎提出时，65686569我们的模型在训练中？随着训练的进行，越来越多的三元组关系将被模型正确地表示。因此，即使是更少的三胞胎也能提供新颖的、有价值的信息。相反，仅利用难以学习[46，9，60]但因此信息丰富的三元组，由于高梯度方差[57]而损害优化。因此，具有不同难度的三元组的合理混合将提供信息丰富且稳定的训练信号。现在的问题是，什么时候呈现哪一个三联体？从困难的固定分布中采样可以作为一个简单的代理[57]，并且通常是表征学习的典型补救措施[25，5]。然而，（i）选择适当的分布是困难的;（ii）我们模型的能力和状态随着训练的进展而发展，因此，固定的距离不能最佳地支持训练的每个阶段;（iii）三重抽样应积极地促进学习目标，而不是独立选择。由于手动预定义的采样分布不能满足这些要求，我们需要在训练表示时学习和适应它学习算法和在训练期间控制它的参数的这种在线适应通常被构建为教师-学生设置，并使用强化学习（RL）进行优化。当对灵活的采样过程（学生）进行建模图1比较了适应DML模型的学习采样分布与典型固定采样分布的进展[57]。本文介绍了如何学习一种新的三元组采样策略，该策略能够在训练的每个阶段有效地支持DML模型的学习过程。为此，我们建立了一个抽样分布模型，这样就可以很容易地调整，以产生任意难度混合的三胞胎。为了适应DML模型的训练状态，我们采用强化学习来更新调整策略。直接优化策略，以提高保留验证集的性能，调整采样过程以最佳地支持DML训练。实验表明，我们的自适应采样策略显着改善了固定的，手动设计的三重采样策略在多个数据集。此外，我们进行了各种分析和消融，以提供对我们方法的更多见解。2. 相关工作度量学习已经成为学习图像之间距离的主要范例，具有广泛的应用，包括图像检索[34，29，57]，图像分类[11，61]，面部验证[46，19，30]或人类姿势分析[32，8]。在成对[50，17]，三元组[46，57，54，12]或甚至更高阶的图像元组[7，35，55]上制定的排名损失成为最广泛使用的基于DML [43]。随着CNN数据集的出现越来越大，开发了不同的策略来应对日益复杂的学习问题。DML中的复杂性管理：研究的主线是基于锚点和负图像之间的距离的负采样策略[46，57，18]。[46]在一个小的，批次Wu等[57]在整个距离范围内均匀地对底片进行采样，以避免在优化时梯度中的大变化。Harwood等人[18]通过线性回归训练损失，使用预先计算的最近邻集合来限制和控制三元组的搜索空间它们中的每一个都成功地实现了有效的DML训练。然而，这些工作是基于固定的和手动预定义的采样策略。相比之下，我们学习了一种自适应采样策略，以提供以模型的训练状态为条件的三元组的最佳输入流与从训练集中采样底片正交的是以图像[9]或特征向量[62，60]的形式生成硬底片因此，这些方法也诉诸于硬否定，而我们的采样过程产生的任何困难的混合依赖于模型状态的否定。最后，基于代理的技术通过为每个类学习一个[34]或多个[40]虚拟代表来降低学习问题的复杂性因此，这些方法近似于负分布，而我们的采样自适应地产生单个负样本。高级DML：基于标准的DML损失，许多工作使用更先进的技术来提高模型的性能。[36，59，44]学习与交流对多个嵌入空间进行分块以捕获更多信息。HORDE[22]还强制相关图像的特征表示具有匹配的更高矩。Roth等人[42]将类别区分特征与从跨类别共享的特征中学习到的特征相类似地，Linet al.[29]建议学习类内分布，其次是类间分布。所有这些方法都是在上述标准评级损失之外采用的。相比之下，我们的工作提出了一种新的三重采样策略，因此，是这些先进的DML方法的补充适应性学习：课程学习[4]逐渐增加了向模型呈现的样本的难度。Hacohen等人[16]采用基于批量的可学习评分功能来提供用于培训的批量课程，同时我们学习如何使采样过程适应训练状态。格雷夫斯等人[15]在学习之前将训练数据划分为固定的子集，以便从训练中使用它们。此外，Gopalet al. [14]在训练期间基于输入的梯度幅度在输入上采用了一种经验在线重要性采样分布。Simi- larly，Shreyaset al.[45]学习重要性抽样超过6570AP一个随着训练的进行，三重态逐渐违反三重态边界γ。简单地采用随机三元组采样需要许多所选的三元组是无信息的，因为Φ上的距离由于其对S的正则化而强烈地偏向于较大的距离d。因此，最近的采样策略明确地利用违反三重边际的三重态，因此是困难的和信息丰富的。（半）硬阴性采样：硬负采样方法主要关注违反边缘γ最多的三胞胎，图2：采样分布p（I n|I a）。我们将即，通过采样负数I= arg minI∈I：dD 丹基于这个想法，不同-：学习如何学习已成功应用nn an ap对于学习过程的各种组件，例如激活函数[41]，输入屏蔽[10]，自我监督[6]，微调[49]，损失函数[20]，优化器参数[2]和模型架构[39，58]。在这项工作中，我们学习了一个采样分布，以改善基于三元组的学习。3. 面向DML的基于距离的采样令φ i：= φ（I i;）是图像I i∈ RH×W×3的D维嵌入，其中φ（I i;）由由参数化的深度神经网络表示。此外，φ为了正则化的目的，被归一化到单位超球面S[46]。因此，DML的目标是学习φ：R H×W×3→ ΦS，使得如果图像I i，I j∈ Itrain相似，则将它们映射为彼此接近，否则将它们映射为彼此远离，在线[37，50]和离线[18]策略出现了。（静态）基于距离的采样：通过考虑底片的硬度，人们可以成功地丢弃简单而无意义的三联体。然而，由于整体高梯度方差，太难的三元组会导致嘈杂的学习信号[57]。作为补救措施，为了在保持足够的三元组效用的同时控制方差，可以扩展到也考虑更容易的否定，即。引入一个抽样分布Inp（I n|I a）在锚和底片之间的距离d an的范围内。Wu等[57]建议从dan范围上的静态均匀先验进行采样，从而从整体上平等地考虑负面因素困难的光谱。由于Φ上的成对距离强烈偏向较大的d和，因此它们的采样分布需要对p（I n）进行加权|A.与分析相反在标准距离函数d（φ，φ）下。通常dD−21D−3Φ：q（d）d上的i j距离分布1− d22为是欧几里得距离，即dij：=φi−φj<$2。一个流行的学习φ的训练目标家族是排名损失[46，57，50，35，35，17]操作元组4大D≥128[1]。基于距离的静态采样，然后通过以下方式执行均匀先验：图像.他们最广泛使用的代表可以说是三重损失[46]，它被定义为一个排序任务，Inp（In |I a)∝min .λ，q−1（danΣ）（2）补间图像{Ia，Ip，In}，公式化为L三重态（{Ia，Ip，In};I n）=max（0，d2（2+γ）（1）其中λ是用于正则化的裁剪超参数4. 学习自适应负采样基于距离的底片采样已被证明在这里，Ia和Ip是锚点，并且是正的，类标签In充当来自不同类的否定。优化L三元组会使Ia更接近Ip，而远离In，只要违反了恒定的距离裕度γ3.1. 静态三重抽样策略虽然排名损失已被证明是强大的，但可能的元组数量随着训练集的大小而急剧增长。因此，训练很快就变得不可预测，将有效的元组采样策略转变为成功学习的关键组成部分，如本文所讨论的。当执行DML使用排名损失，如方程。1、在快速收敛和稳定、信息丰富的训练信号之间提供良好的折衷。然而，静态采样分布p（In|I a）提供独立于学习期间DML模型的变化需求的训练数据流。虽然混合难度的样本可能有用在开始时，后面的训练阶段需要增加难度的样本，例如，课程学习分析[4]。不幸的是，由于不同的模型，甚至不同的模型初始化[13]表现出不同的学习动态，找到一个普遍适用的学习时间表是具有挑战性的。因此，再次，通常采用启发式[16]，在固定次数的训练后- -6571推断变化6572k=12图3：方法概述。蓝色表示使用三元组{Ia，Ip，In}的标准深度度量学习（DML）设置。我们提出的自适应负采样以绿色显示：（1）我们使用Ival计算当前训练状态s。（2）以s为条件，我们的策略π θ（a|s）预测对p k的调整。（3）我们执行p（I n）的逐箱调整|I a）。（4）使用调整后的p（I，n|a）我们训练DML模型。（5）最后，基于奖励r更新πθ。时期或迭代。然而，为了提供最佳训练信号，我们更希望p（I n|I a）适应DML模型的训练状态，而不仅仅是训练迭代。这种自适应负采样允许直接促进最大DML性能的调整。以来手工设计这样的策略是困难的，学习它是最可行的选择。随后，我们首先介绍了如何找到p（I a）的参数化|In），其能够表示任意的、潜在的多模态分布，从而能够对所需的任何难度混合的否定项In进行采样。用这个我们可以学习一种策略，它有效地改变了p（I n|I a）以最佳方式支持DML模型的学习。ing. 因此，我们在学习期间通过以φ的当前表示（或状态）s∈ S为条件的乘法更新a∈ A来调整pk我们引入了一个条件分布π θ（a|s）以控制在训练φ的哪个状态s应用哪个调整。为了学习πθ，我们测量效用使用奖励信号学习φ的这些调整r=r（s，a）.我们现在首先描述如何对这些组成部分中的每一个进行建模，然后介绍如何有效地优化调整政策πθ和φ。调整a：调整p（I n|I a），π θ（a|s）建议对pk进行补充。为了降低动作空间的复杂性，我们使用有限的动作集合A ={α，1，β}来单独地降低、保持或增加概率4.1. 灵活的抽样分布建模p k对于每个bin uk，即a：= [ak∈ {α，1，β}]K. 此外，本发明还α，β是固定常数0<α1，β >1和α+β=1时。以来学习好处从多样化分布p（I n|I a）的负，单峰分布（例如，Gaussians，Binomials，χ2）是不够的。因此，我们利用离散概率质量函数p（I n|I a）：= Pr{dan∈uk}= pk，其中dan的可能距离的有界区间U =[λmin，λmax]离散为不相交等距binu1，. -是的-是的，uK. 从bin uk到dr a wingln的概率为pk，其中pk≥0且kpk =1.图2示出了这种离散化的采样分布。负采样分布的这种表示有效地控制了哪些样本用于学习φ。当φ在学习期间改变时，p（I n|I a）还应该适应于始终提供最有用的训练样本，即，来控制何时使用哪种样品。因此概率pk需要在学习φ的同时进行更新。随后，我们通过学习pk的随机调整策略πθ来解决这个任务，实现为由θ参数化的神经网络。4.2. 学习p（In）的调整策略|（a）我们的采样过程基于p（I n|I a）应该在训练的每个阶段提供用于学习φ的最佳训练信号。更新p（I n|然后简单地通过逐箱更新p k← p k·a k，然后再归一化来执行。使用乘法调整可解释指数分布，在Φ上的距离的分布（参见秒第3.1节）。训练状态s：调整a取决于表示φ的当前状态s∈ S。不幸的是，我们不能使用嵌入网络的当前模型权重因为s的维数太高，因此使得πθ的优化不可行。相反，我们使用描述学习进度的代表性统计数据来表示当前的训练状态：在Recall@1[23]，NMI[31]上运行平均值以及类之间和类在固定的保留验证集Ival上。此外，我们使用p（I n）的过去参数化|I a）和相对训练迭代（cf.执行细节，第二节。（五）。报酬r：最优抽样分布p（I n|I a）产生三元组，其训练信号在学习时持续地提高φ的评估性能。因此我们计算调整a的回报r，|通过直接测量φ（·;φ）相对于6573φ（·;φ′）。通过DML评估指标e（φ（. ;t），Ival）上。更准确地说，我们将r定义为r= sign（e（φ（. ;φ），Ival）− e（φ（. ;′），Ival）（3）其中，在使用p（I n）进行MDML训练迭代之后，从m ′到达m|I a）。我们选择e作为Recall@1[23]和NMI[31]的总和。这两个指标都在范围[0，1]内，并且针对略有不同的性能方面。此外，与[20]类似，我们甚至在饱和训练阶段也利用符号函数来获得连续的学习信号。π θ的学习：调整p（I n|a）是随机过程由从π θ（a）采样的动作a控制|（一）基于A当前状态S。这就定义了马尔可夫决策过程(MDP)通过强化学习自然优化策略对象iveJ（θ）被公式化以最大化总ex。在训练片段上的预期奖励R（τ）=trt（at，st）元组τ={（a t，s t，r t）|t=0，. . .，T]}，即，J（θ）=E τπθ（τ）[R（τ）]（4）因此，π θ被优化以预测p（I n）的调整α|（a）高回报，高回报。φ的大小。常见的方法使用包括长状态轨迹的片段τ，其潜在地覆盖多个训练时期[10]。因此，模型和策略更新之间存在很大的时间但为了使p（I n|对于φ的学习，这种差异需要最小化。事实上，我们的实验表明单步骤事件，即，T=1，对于优化π θ以推断p（In）的有意义的调整α是足够的|I a）。这样的设置也被上下文禁令成功采用[28]第二十八话总之，我们的训练片段τ包括更新p（I，n|Ia）使用采样调整a，基于调整后的p（I，n）执行M个DML训练迭代|I a），并使用所得奖励r更新π θ。优化当量然后通过标准RL算法来执行4，该标准RL算法基于增益G（s，a）来近似策略梯度的不同变化，θJ（θ）= E τ|（s）G（s，a）]（5）G=G（s，a）的精确形式的选择产生了不同的优化方法，例如 REINFORCE[56] （ G=R （ τ ）），Advantage Actor Critic （ A2C ） [52] （ G=A （ s ，a））等。其他RL算法，如TRPO[47]或PPO[48]代替Eq.4、代理目标函数。图3提供了对学习过程的概述此外，委员会认为，1与强盗相反，在我们的RL设置中，从πθ中采样的动作会影响学习者未来的训练状态因此，该策略隐式地学习状态转换动态。6574在补充材料中，我们比较了不同的RL算法，并总结了Alg中的学习过程。1使用PPO[48]进行策略优化。p（I n）的平方|I a）：我们发现，稍微强调较小距离d的初始化是有效的最好但是，如Tab所示5、其他初始化也很好。此外，距离间隔U=[λmin，λmax]的限制可以控制，以进行额外的正则化，如[57]所述。这意味着忽略λmax以上的值并裁剪λmin以下的值，这在表中进行了分析五、自正则化：如[42]所述，类内特征的利用有利于泛化。我们的方法很容易允许学习包含这样的功能。由于正样本通常最接近锚，我们可以将正样本合并到负样本集中，并让策略学习在这种低距离情况下放置更高的我们发现，这也提高了泛化性能。计算成本：固定采样策略[46，57]的计算开销来自于需要通过Ival进行前向传递的r估计和评估度量的计算。例如，设置M=30会使每个历元的计算时间增加不到20%。5. 实验在本节中，我们提供了实现细节，对标准度量学习数据集的评估，消融研究和分析实验。实作详细数据。我们使用ResNet50遵循[57]的训练协议。在训练过程中，图像被调整为256×256，随机裁剪为224×224，并随机水平翻转。为了完整性，我们还评估了在Inception-BN [21]上遵循补充中的标准实践。初始学习率设置为10−5。我们根据[ 57 ]选择三元组参数，其中γ = 0。二、对于保证金损失，我们评估保证金β = 0。6，β = 1。二、我们的策略π被实现为两层全连接网络，中间有ReLU非线性，每层128个神经元。动作值设置为α=0。8，β=1。二十五通过交叉验证确定事件迭代M在[30,150]。p（In）的采样范围[λmin，λmin] |I a）被设置为[0.1，1.4]，其中K = 30。对应于此间隔之外的距离的负数的抽样概率设置为0。对于输入状态，我们使用基于运行平均长度2，8，16和32的验证召回，NMI和平均类内和类间距离的运行平均值来解释短期和长期变化。我们还结合了前20次迭代的指标最后，我们包括前一次迭代的采样分布和在总训练长度上归一化的训练进度。为了优化，我们使用A2C + PPO设置，比率限制为0。二、历史策略每5次策略迭代更新一次。为了实现，我们使用6575数据集CUB 200 -2011[53] CARS 196 [27] SOP[35]方法昏暗R@1 R@2 R@4R@1 R@2 R@4R@1 R@10 R@100 NMIMargin[57] +U-dist（orig）128 63.6 74.4 83.1 69.0 79.6 86.5 90.1 69.1 72.786.293.890.7Margin[57]+ U-dist（ReImp，β =1. （二）128 63.5 74.9 84.4 68.1 80.1 87.4 91.9 67.6 74.687.594.290.7Margin[57]+ U-dist（ReImp，β =0. 六、128 63.0 74.3 83.0 66.9 79.7 87.0 91.8 67.1 73.587.293.989.3保证金[57]+港口及机场发展策略（我们的）128 67.3 78.0 85.9 69.9 83.5 89.7 93.8 68.8 76.589.095.489.9三重态[46] +半硬（原始）6442.6 55.0 66.4 55.4 51.5 63.8 73.5 53.4 66.782.491.989.5三重态[46] +半硬（ReImp）128 60.6 72.3 82.1 65.5 71.9 81.5 88.5 64.1 73.587.594.989.2三重态[46] +U-dist（ReImp）128 62.2 73.2 82.8 66.3 78.0 85.6 91.4 65.7 73.987.794.589.3[46]第四十六话：我的世界128 64.0 75.5 84.3 67.8 79.9 87.5 92.3 67.1 74.888.295.089.5表1：我们提出的自适应负采样（PADS）与常见的静态负采样策略的比较：半硬负挖掘[35]（半硬）和静态基于距离的采样（U-dist）[57]使用三元组[46]和边际损失[57]。ReImp. 表示我们的重新实现，Dim表示φ的维数。PyTorch框架[38]在单个NVIDIA Titan X上。基准数据集。我们在三个常见的基准数据集上评估了性能。对于每个数据集，类的前一半用于训练，另一半用于测试。此外，我们使用15%的随机子集，我们的验证集的训练图像。我们用途：CARS196[27]，包含来自196个汽车类别的16，185张图像。CUB 200 -2011[53]，200个类别的11，788张鸟类图像。Stanford Online Products（SOP）[35]，包含120，053张图像，分为22，634个类别。5.1. 结果在选项卡中。1我们将自适应采样策略应用于两种广泛采用的基本排名损失：[46][57][58][59][59][59] 对于每一个损失，我们与最常用的静态采样策略进行比较，半硬[46]图4：p（I n）的平均进展|I a）在CUB 200 -2011、CARS 196和SOP上进行多次培训运行。6576（半硬）和基于距离的采样[57]（U-dist）在CUB 200-2011，CARS 196和SOP数据集。我们使用召回准确率R@k来衡量图像检索性能[23]后[36]。为了完整性，我们额外显示了归一化互信息分数（NMI）[31]，尽管与检索性能不完全相关对于损失和每个数据集，我们学习的负采样显着提高了非自适应采样策略的性能。特别是强容限损失极大地受益于自适应采样，导致提升高达3。8%，CUB200-2011，3。4%的CARS196和1。9%的SOP。这清楚地表明了调整三重采样对DML模型学习过程的重要性，特别是对于较小的数据集。接下来，我们将这些结果与DML中的当前最新技术进行比较，后者使用不同的附加训练信号（MIC[42]，DVML[29]，HORDE[22]，A-BIER[36]），嵌入空间的集合（DREML[59]，DC [44]，Rank[55]）和/或更多的网络参数（HORDE[22]，SOFT- TRIPLE[40]）扩展了这些基本损失。选项卡. 2表明，我们的结果，尽管没有使用这样的额外的扩展，竞争，部分甚至超过这些强大的方法。在CUB 200 -2011上，我们的表现超过了所有方法，包括强大的合奏，至少1。2%的召回准确率。在CARS196[27]上，我们排名第二，仅次于表现最好的非集成方法DC [44]。在SOP[35]中，我们损失0。7%到MIC[42]，反过来，我们在CUB 200 -2011和CARS 196上都超过了MIC[42这突出了我们自适应采样的强大优势。5.2. 分析现在，我们提出了各种分析实验，为我们学习的自适应采样策略提供了详细的见解p（I n ）的训练级数|A）：我们现在在图中分析。4我们的自适应采样分布如何在训练过程中通过平均多次训练的结果来进行6577数据集CUB 200 -2011[53] CARS 196 [27] SOP[35]方法昏暗R@1 R@2 R@4 NMI R@1 R@2 R@4 NMI R@1 R@2 R@4 NMIHTG[60]512 59.5 71.8 81.3-76.5 84.7 90.4-----HDML[62]512 53.7 65.7 76.7 62.6 79.1 87.1 92.1 69.7 68.7 83.2 92.4 89.3HTL[12]512 57.1 68.8 78.7-81.4 88.0 92.7-74.8 88.3 94.8-DVML[29]512 52.7 65.1 75.5 61.4 82.0 88.4 93.3 67.6 70.2 85.2 93.8 90.8A-BIER[36]512 57.5 68.7 78.3-82.0 89.0 93.2-74.2 86.9 94.0-MIC[42]128 66.1 76.8 85.6 69.7 82.6 89.1 93.2 68.4 77.2 89.4 95.6 90.0D C[44]128 65.9 76.6 84.4 69.6 84.6 90.7 94.1 70.3 75.9 88.4 94.9 90.2保证金[57]128 63.6 74.4 83.1 69.0 79.6 86.5 90.1 69.1 72.7 86.2 93.8 90.8我们的（保证金[57]+港口及机场发展策略）128 67.3 78.0 85.9 69.9 83.5 89.7 93.8 68.8 76.5 89.0 95.4 89.9网络参数显著增加：[17]第22话：一个人的512 66.3 76.7 84.7-83.9 90.3 94.1-----[40]第四十话512 65.4 76.4 84.5-84.5 90.7 94.5 70.1 78.3 90.3 95.9 92.0集成方法：[55]第五十五话1536 61.3 72.7 82.7 66.1 82.1 89.3 93.7 71.8 79.8 91.3 96.3 90.4DREML[59]9216 63.9 75.0 83.1 67.8 86.0 91.7 95.0 76.4----[24]第二十四话512 60.6 71.5 79.8-85.2 90.5 94.0-76.3 88.4 94.8-表2：与CUB 200 -2011[53]、CARS 196 [27]和SOP[35]上最先进的DML方法的比较。Dim表示φ的维数。运行不同的网络初始化。而在CARS 196上，分布p（In|I a）强烈强调较小的距离d an，我们在CUB 200 -2011和SOP上观察到p（I n）的方差通常较大|I a）。此外，在每个数据集上，在训练p（I n）的前半部分期间，|I a）在稀疏的bin集合u k上迅速达到峰值，直观地，预期，因为大多数三胞胎仍然是信息。随着训练的继续，p（I n|I a）开始产生更难和更容易的否定，从而有效地从更广泛的分布中采样。这一观察结果证实了Wu等[57]其提出通过还添加更容易的负片来减轻由硬负片引入的大梯度方差。此外，对于每个数据集，我们观察到p（I n）的不同进展|这表明手动设计类似的采样策略是困难的，正如我们在Tab中的结果所证实的1和4.π θ和p（In）的传递|I a）：Tab. 图3研究了训练策略π θ或最终采样分布p（I n ）|I a）从参考运行转移到不同（/=）或相等（=）初始化训练运行。我们发现，将固定的训练策略（fix π θ）应用于具有相同网络初始化（=）的新训练运行，可以将性能提高0。4%，因为π θ对于将φ学习为π θ的直接效用已经完全适应了参考学习过程。相比之下，将经过训练的策略应用于不同初始化的训练运行（/=）会使性能下降1。百分之五由于固定的πθ不能适应的学习状态，新的模型，它的支持优化φ减少。请注意，该策略仅在单次训练运行中进行了训练，因此它不能完全推广到不同的训练动态。这表明了自适应采样的重要性。接下来，我们研究分布p（I n|在训练结束时获得的Ia）可以被视为最优采样分布在dan上，因为πθ是完全训练的。为此，我们确定并应用分布p（I n|I a）在其最后一次调整π θ（固定最后一个p（I n|I a））在训练参考运行中。正如直观预期的那样，在这两种情况下，下降强烈，因为（i）我们现在有一个静态采样过程表3：转移固定的训练策略πθ和固定的final分布p（I n|（一）以不同的方式进行训练（）及相同的网络初始化（=）。参考号表示其中π θ和p（In|a）得到。表4：课程学习策略与预定义的线性和非线性级数p（I n|I a）。数据集[27]第27届中国国际汽车工业展览会Init.参考固定πθ固定最后一个p（I n|（a）度量R@1 NMIR@1 NMIR@1/=65.464.359.0R@1=65.465.857.6我们67.369.983.568.8线性CL59.163.172.264.0非线性CL63.668.478.166.86578设置和固定的学习率调度。在没有调度的情况下，我们的最佳参数设置达到了65的召回值。7，NMI为69。CUB 200 -2011上的2个(a) 改变用于学习 p （ I n ）的距离 d an 的间隔 U=[λ min ，λmax|Ia）。仓的数量uk保持固定为K = 30。Num.箱K103050100召回@1NMI63岁867岁8六十五769岁。2六十五368岁7六十四968岁6(b) 改变用于离散距离范围 U=[0. 一，一。 4] 用于学习 p（In|Ia）。Init. Distr.U [0. 一，一。四、N（0. 5，0。05）U [0. 3，0。七、召回@163岁9六十五0六十五7NMI67岁068岁669岁。2(c) 比较p（In|Ia）-在距离间隔U =[0. 一，一。4]中。U[a，b]表示在区间外具有低概率的[a，b]中的均匀加重N（μ，σ）表示正态分布。表5：分析用于学习P（I，n）的各种参数的消融实验|I a）。以及（ii）将采样分布优化到特定的训练状态。鉴于我们的强有力的结果，这证明了我们的采样过程确实适合φ的学习。课程学习：为了将我们的自适应采样与基本课程学习策略进行比较，我们预先定义了两个采样时间表：（1）负硬度的线性增加，从半硬距离间隔开始[46]和（2）使用基于距离的采样的非线性计划[57]，其中分布逐渐向更硬的负方向移动。我们在补充材料中可视化相应的抽样分布的进展选项卡. 4说明了两个固定的，预定义的课程安排表现比我们学习的，自适应抽样分布差至少3。CUB 200 -2011的6%。在CARS196上，性能差距甚至更大。数据集的巨大差异进一步表明，很难找到广泛适用的、有效的固定抽样策略。5.3. 消融研究随后，我们去除不同的参数以用于学习我们的采样分布p（In|CUB 200 -2011数据集。更多消融见附录。为了使下面的实验具有可比性，没有应用学习率调度，因为收敛可能显著地根据不同的参数设置进行更改。相比之下，表1-2中的结果是在我们的最佳参数下获得的[λmin，λmax][0，2][0。一，一。四、[0。25，1。0个字符][0。五一四、召回@1NMI六十四767岁5六十五769岁。2六十四868岁263岁767岁56579距离inte rvalU：如第二节所示。 4.1，p（In|Ia）定义在距离的固定区间U=[λmin，λmax]上。类似于其他作品[57，18]，这使我们能够额外地通过裁剪Φ上距离[0，2]的真实范围的尾部来正则化采样过程。选项卡. 5（a）比较了λmin、λmax的不同组合。我们观察到，虽然与静态采样策略相比，每个选项都导致显着的性能提升，但间隔U =[0. 一，一。4]的结果在最有效的采样过程。箱数K：接下来，我们分析Tab中U分辨率的影响。5（b），即箱数K。这会影响p（I n）的灵活性|I a），但也要预测行动a的复杂性。正如直觉所料，增加K允许更好的适应和性能，直到复杂度变得太大。p（I n）的平方|I a）：最后，我们分析了p（I n）的初始化如何|（一）影响学习。选项卡. 5（c）比较使用不同初始分布的性能，例如作为中性统一初始化（即，随机抽样）（U[0. 一，一。4]），强调半硬否定I n早期（U[0. 3，0。7）或[ 57 ]的代理（N（0. 5，0。05））。我们观察到，我们学习的采样过程受益于p（In）的有意义但通用的初始配置|Ia），U[0. 3，0。7]，有效地适应φ的学习过程。6. 结论提出了一种基于强化学习的自适应三重采样策略。我们优化了一个教师网络，以调整负采样分布到DML模型的正在进行的训练状态。通过训练教师直接改进保留验证集上的评估我们的实验表明，我们的自适应采样策略显着改善静态采样分布。因此，即使只建立在基本的三重损失之上，我们在多个标准基准测试集上实现了与最先进的DML相比具有竞争力确认我们感谢David Yu-Tung Hui（MILA）对RL方法选择的宝贵见解。这项工作得到了拜耳公司、德国联邦政府部门BMWi在“KI Absicherung”项目中的6580引用[1] n 维空间中的球面博弈。 http ： //faculty. madisoncol-edu/alehnen/sphere/hypers.htm.，2017. 3[2] MarcinAndrycho wicz，米莎·德尼尔塞尔焦戈麦斯，马修W霍夫曼，大卫Pfau，汤姆肖尔，布伦丹希林福德，和南多德弗雷塔斯。通过梯度下降来学习。神经信息处理系统进展。2016. 3[3] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。Cliquecnn：深度非监督范例学习。神经信息处理系统进展，第3846-3854页，2016年。1[4] YoshuaBengio ， Je´romeLouradour ， RonanCollobert ，andJason Weston.课程学习。在2009年国际机器学习会议二、三[5] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督2017年第34届机器学习国际会议论文集2[6] 联合 Büchler，B. Brattoli，andB joürnOmme r. 通过深度强化学习改进时空自我监督。在欧洲计算机视觉会议（ECCV）的论文集，2018。3[7] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在IEEE计算机视觉和模式识别会议论文集，2017年。2[8] Huseyin Coskun、David Joseph Tan 、Sailesh Conjeti、Nas-sir Navab和Federico Tombari。使用深度度量学习进行人体运动分析。在欧洲计算机视觉会议（ECCV）的论文集，2018。一、二[9] 段跃奇，郑文钊，林旭东，卢吉文，周杰。深度对抗度量学习。在IEEE计算机视觉和模式识别会议（CVPR）中，2018年6月。2[10] 杨帆，飞天，秦涛，江边，刘铁岩。学习什么数据，2017年。三、五[11] 风泽宇，常旭，大成涛。通过旋转特征解耦的自监督表示学习在IEEE计算机视觉和模式识别会议（CVPR），2019年。2[12] 葛伟峰。深度度量学习与分层三元组丢失。在欧洲计算机视觉会议（ECCV）的会议记录中，第269-285页，2018年。二、七[13] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。JMLR Proceedings，201

下载后可阅读完整内容，剩余1页未读，立即下载