SoDeep:一个学习排名损失代理的深度排序网络

72 浏览量更新于2023-10-19 收藏 967KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SoDeep：一个学习排名损失代理的深度排序网Martin Engilber ge1，2，Louis Chev allier2，Patrick Pe' rez3，Matthieu Cord1，31Sorbonne Univ ersite'，巴黎，法国，2Technicolor，CessonSe'vigne'，法国，3Valeo.ai，巴黎，法国{martin.engilberge，matthieu.cord}@ lip6.frpatrick. valeo.comlouis. technicolor.com摘要机器学习中的几个任务是使用不可微的指标来评估的，例如平均精度或斯皮尔曼相关性。然而，它们的不可微性阻止了将它们用作学习框架中的目标存在替代和松弛方法，但倾向于特定于给定的度量。在目前的工作中，我们介绍了一种新的方法来学习这种不可微的目标函数的近似。我们的方法是基于一个深层次的架构，近似任意组的分数排序。它是使用合成数据免费训练的。这种排序深度（SoDeep）网络可以以即插即用的方式与现有的深度架构相结合我们展示了我们的方法在三个不同的任务，需要排名的兴趣：跨模态文本图像检索、多标签图像分类和视觉记忆性排序。我们的方法在这三个任务上产生了非常有竞争力的结果，这验证了SoDeep作为基于排名的损失中排序操作的代理的优点和灵活性1. 介绍近年来，深度学习方法在许多计算机视觉任务中获得了巨大的研究兴趣深度卷积网络现在通常用于学习最先进的视觉识别模型，包括图像分类[26，18，35]和视觉语义嵌入[25，22，37]。这些深度方法的优势之一是能够以端到端的方式训练它们，从而消除了对手工制作功能的需求[29]。在这样的范例中，网络从原始输入开始，并在内部处理特征提取（低级和高级特征）和预测。主要要求是定义一个可训练的方案。对于深层架构，通常执行具有反向传播的随机梯度下降以最小化目标函数。这个损失函数取决于目标任务，但必须至少是图1：SoDeep概述，提出的端到端可训练深度架构，以近似不可区分的排名指标。使用预训练的可分级分类器（深度神经网络[DNN] ΘB）将由正被训练到输入集合的模型（DNN Θ A）给出的原始分数转换成等级。然后将损失应用于预测的秩，并且误差可以通过可微分分类器反向传播并用于更新权重ΘA。可微的机器学习任务通常使用与训练期间使用的目标函数不同的指标进行评估和计算。评价标准的选择与手头任务的定义密切相关，有时甚至与基准本身密切相关。例如，准确性似乎是评估分类方法的自然选择，而目标函数的选择也受到允许模型适当优化的数学性质的影响对于分类，人们通常会选择交叉熵损失-一个可微函数-而不是不可微的准确性。理想地，在训练期间使用的目标函数将与评估度量相同。然而，标准的评估指标往往不适合作为培训目标，因为缺乏可区分性。这导致使用表现更好的代理损失函数（平滑，可能是凸的）。不幸的是，提出好的替代函数并不是一件容易的事情。1079210793在本文中，我们专注于在排名为基础的任务，如重新调用，平均平均精度和斯皮尔曼相关性的评价指标的不可微性与为这些任务构建替代损失的现有技术不同，我们采用简单但有效的学习方法：我们的主要想法是通过一个通用的可学习深度神经网络来近似这种基于排名的度量的不可微部分。实际上，这种架构被设计和训练为模仿排序操作。我们称之为深度。SoDeep可以以即插即用的方式添加到任何为最终评估指标基于排名的任务训练的深度网络之上，因此不可区分。由此产生的组合架构是端到端可学习的，损失与最终指标密切相关。我们的贡献如下：• 我们提出了一个深度神经网络，它充当排名的可区分代理，允许人们将不同的评估指标重写为这个排序器的函数，从而使它们可区分并适合作为训练损失。• 我们为这个可训练的排序函数探索两种类型的架构：卷积的和递归的。• 我们将所提出的可微排序模块与标准深度CNN相结合，在三个具有挑战性的任务上对它们进行端到端的训练，并通过对所得模型的广泛评估来证明这种新方法的优点本文的其余部分组织如下。我们在第2节中讨论了基于排名的指标的直接和间接优化的相关工作，并相应地定位我们的第3节专门介绍我们的方法。我们特别展示了如何“通用”排序代理足以解决标准的基于排名的指标，并为此提出了不同的架构。关于系统及其训练的更多细节以及各种实验在第4节中报告。我们首先建立了新的跨模态检索的最先进的性能，然后我们展示了我们学习的损失函数相比，标准的方法在可记忆性预测和多标签图像分类的好处。2. 相关作品许多数据处理系统在其流水线的某个阶段依赖于排序操作。在机器学习中也是如此，处理这种不可微的非局部操作可能是一个真正的挑战[32]。例如，检索系统需要根据它们与查询的相关性对一组数据库项目进行排名。为了训练，已经提出了在每个训练样本上可分解的简单损失函数，例如[19]中的ROC曲线下面积。最近，一些更复杂的不可分解的损失（如平均精度（AP），斯皮尔曼系数，和归一化贴现累积增益（nDCG）[3]），其提出了困难的计算挑战[31]。平均平均精度优化我们的工作与我们之前的许多工作共享使用排名指标作为训练目标函数的高级别目标。一些作品研究了用支持向量机优化平均精度的问题[21，40]，其他作品将这些方法扩展到神经网络[1，31，8]。为了学习排名，开创性的工作[21]依赖于一个结构化的铰链-每一个损失的约束。进一步的工作降低了计算复杂性[31]或依赖于渐近方法[36]。这些工作的重点主要是放松平均精度，而我们的重点是学习排名操作本身的代理，使其可以与多个排名指标相结合。与大多数基于排名的技术相比，这些技术必须面对损失增强推理的高计算复杂性[21，36，31]，我们提出了一种快速，通用，深度排序的体系结构，可用于基于排名的任务的基于梯度的训练。基于排序的评价指标的应用排序是评价指标中常用的一种。在检索任务中，如跨模态检索[25，22，15，12，30]，召回是标准的评估。图像分类[11，9]和对象识别在多标签情况下以平均精度进行评估。有序回归[5]使用Spearman相关性进行评估。现有代理函数存在多个用于排名的代理。使用度量学习进行检索就是其中之一。这种流行的方法完全避免了使用ranking函数。相反，成对[39]，三重[38，4]和列表[13，2]损失用于优化潜在空间中的距离。交叉熵损失通常用于多标签和多类分类任务。3. SoDeep方法基于排名的度量，如召回率，斯皮尔曼相关性和平均平均精度可以表示为输出分数排名的函数。秩的计算是这些度量中唯一不可微的部分，我们建议学习一个直接近似这种排序操作的代理网络。3.1. 学习排序代理设y∈Rd是d个实值向量，rk是秩函数，使得rk（y）∈ {1· · ·d}d是包含y中每个变量秩的向量，即rk（y）i是yi在yj我们想要设计一个能够模仿这个排序运算符的深层架构fΘB该DNN的训练过程总结在图中。二、目的是学习其参数θB，以便10794¨¨网络尽可能接近精确排序的输出在讨论可能的架构之前，让我们考虑一下这个网络的训练，与它的未来用途无关。我们首先通过随机采样N个输入向量y（n）来生成训练集，然后通过精确排序来计算关联的地面实况秩向量r（n）= rk（y（n））。然后，我们通过最小化在训练集上的预定排序向量r=fΘB（y）和真实值秩r之间的L1损失来经典地学习DNNfΘB的网络包含与输入序列的长度一样多的通道卷积用于其局部属性：实际上，诸如冒泡排序之类的排序算法[14]仅依赖于一系列局部操作。直觉是，一个足够深的卷积网络，其级联的局部操作，应该能够模仿递归排序算法，从而提供一个有效的近似排名。我们将在实验中进一步讨论这两种类型的SoDeep块架构的兴趣minΘBΣNn=1¨rk（y（n））−fΘ¨（y（n））1.（一）3.1.2训练数据SoDeep模块可以很容易地（预）训练与监督我们在以下不同的网络架构中进行探讨我们解释了训练数据是如何产生的。图2：训练一个可微分分类器。给定得分向量y，我们学习DNN的参数ΘB，使得其输出θr近似于真实的秩向量rk（y）。该模型使用梯度下降和L1损失进行训练。一旦被训练，fΘB可以用作排名函数的可微替代。3.1.1分类器架构我们研究了两种类型的架构，我们的可扩展的排序器fΘB。一个是递归网络，另一个是卷积网络，每个网络都捕获了标准排序算法的有趣方面：• 图中的递归架构。3a由一个双向LSTM [34]和一个线性投影组成。双向递归网络在网络的输出和每个输入之间创建了一个连接，这对排名计算至关重要。要计算任何元素的真实秩，都需要关于整个序列的• 图中的卷积架构。图3b由8个卷积块组成，每个卷积块都是一维卷积，后面是批量归一化层[20]和ReLU激活函数。尺寸合成数据。实际上，虽然是不可微的，但排名函数rk可以用经典的排序算法来计算。训练数据由随机生成的标量的向量组成，与它们的真实秩向量相关联。在我们的实验中，数字是从不同类型的分布中采样的：• [-1，1]上的均匀分布;• 正态分布，μ=0，σ=1;• 在[-1，1]的均匀随机子范围中均匀间隔的数字序列;• 先前分布的随机混合。虽然可微分分类器可以提前在各种输入分布上进行训练，但如上所述，主网络fΘA将为手头的任务输出的实际分数分布可能会发生偏移。这种变化可以在训练过程中自然减少，或者可以明确地强制执行对齐。例如，fΘA可以被设计为在用于学习分类器的区间中输出数据，并借助于诸如余弦相似性的有界函数3.2. 使用SoDeep进行基于等级损失的训练基于等级的度量用于评估和比较在许多任务中学习的模型。召回率是用于图像和信息检索的标准度量，平均预测（mAP）用于分类和识别，斯皮尔曼相关性用于顺序预测。这种类型的基于排名的度量是不可微的，因为它们需要从连续域（分数）过渡到离散域（排名）。如图1所示，我们建议在深度评分函数fΘA和所选的基于排名的损失之间插入预先训练的SoDeep代理块fΘB我们将在下文中展示mAP、斯皮尔曼相关性和回忆如何能够可以表示为等级的函数，并相应地与SoDeep组合。在下文中，我们假设一个带注释的的卷积滤波器被选择为使得输出pairs{（xi，y）}M手头的任务。 B组，i i=1B10795我CC2CfΘ¨Ci=1¨B(a)LSTM排序器的架构。（b）CNN分类器的架构。图3：SoDeep架构。该分类器以r a wscorey∈Rd的向量作为输入，输出一个向量r∈Rd。探索了两种架构，一种是递归的（a），另一种是卷积的（b）。这两种架构都提供了最后一个仿射层，以获得到Rd中的向量的最终投影。请注意，即使它不是显式的y强制执行的，Bjr将尝试尽可能接近y变量的秩的向量。其中d 个训练示例产生预测向量 y （ ΘA ） =[fΘA（xi）]i∈B和相关的地面实况得分向量y=[y]i∈B（图12）。①的人。的数据集。对于类c，表示y是d维地面真值二进制向量，yc是该类的得分向量，该类的平均精度（AP）定义为[40]：3.2.1Spearman相关对于大小为d的两个向量y和y′，对应于两组d个观测值，定义斯皮尔曼相关性[7AP（y，y）=1c c relΣPrec（j），（5）j：y=1如：6 rk（y）−rk（y′）<$2r s= 1 −。（二）d（d2−1）其中rel=|j：y=1|是类c的正项数，元素j的精度定义为：|{s ∈ S : y∗(s) = 1}|最大化w.r.t. 参数ΘA是斯皮尔曼和Prec（j）=c，（6）罗克（yc）j地面实况和预测得分之间的相关性（2）训练样本的N个子集上的向量相当于解决最小化问题：其中S是yc的元素的指数集，大于yc（j）。对于来自类c的所有j，最小化rk（y）j（即，这些人，ΣN ¨（2ifyingy（j）=1）将被用作最大值的替代minürk（y（n））− rk（y（n））<$、（3）c¨ΘAn=1AP在预测器参数Θ A上的最小化mAP是通过在C损失不可微。现在使用我们的可微代理而不是秩函数，我们可以定义组班用其可微代理替换秩函数，所提出的基于mAP的损失如下：ΣC乙：LSPR （ΘA，B）=ΣNn=1¨<$（y（ΘA¨2）（n））−rk（y∈（n））<$.2LmAP（ΘA，B）=3.2.3在Kc=1fΘB （yc），y yc。（七）（四）训练通常会在大量的组中将其最小化。注意，这里优化是在Θ A上完成的，已知SoDepp块fΘB已经在特定的合成训练数据上独立地训练。可选地，可以在此过程中对块进行微调，从而最小化w.r.t. B也是。3.2.2平均精密度（mAP）等级k的召回率通常用于评估检索任务。在下文中，我们假设针对手头的任务的训练集{xi}M。其中d个训练样本的组B 产生d×d预测矩阵Y（ΘA）= [fΘA（xi）]i∈B，表示B中训练样本的所有成对组合的得分。换句话说，该矩阵的第i列Y[i]=fΘA（xi）提供了组w.r. t中的其他向量的相关性。查询xi.给定该矩阵，K处的召回率被定义为：多标签图像分类通常使用mAP进行评估，mAP是信息检索的一种度量为了定义它，每个C类都被认为是对d个元素的查询R@K（Y）=1Di=1D10796.1、如果rk（Y[i]）pK0，否则，（八）10797其中p是Y[i]中唯一正条目的索引，单个分类器模型L1损失对于查询xi假设相关项。手工分拣机0.0350再一次，我们的分类器实现了一个可微的简单-CNN分类器0.0120这一措施的落实。然而，我们还无法获得结论性结果，可能是由于批量限制-LSTM分类器损失0.0033计算求和的范围。然而，我们发现了一种利用我们的分拣网络的替代方法。它是基于使用“三重损失”，一个流行的替代重新调用。我们建议将这种损失应用于等级而不是相似性分数，使其仅取决于检索到的元素的顺序。秩上的三重态损失可以表示如下：表1：分类器对合成数据的性能。排序器在合成数据集上的排序性能。在学习过的排序器中，LSTM是最有效的。[24]学习率为0。001，每100人减半loss（Y[i]，p，c）= max.Σ0，α+fΘB（Y[i]）p−fΘB（Y[i]）c，时代使用大小为512的小批量该模型（九）其中p如上定义（三元组中的正例，给定锚查询xi），c是该查询的负（不相关）例目标是最小化具有得分Y[i]p的正对的秩，使得其秩比具有得分Y[i]c的负对的秩低α的幅度。完全损失则表示在所有元素B在其硬否定版本中为：1Σ训练直到损失值停止下降并稳定。4.1.2手工排序基线我们在可训练的SoDeep块中添加了一个不需要任何训练的基线受[40]中将排序问题表示为成对排序矩阵的启发，我们使用成对比较构建了一个手工制作的可微排序器fh使用λ标量参数化的S形函数作为LREC（ΘA，B）=di∈Bc Maxp，c/=i损失（Y[i]，p，c）。（十）两个标量a和b如：在等式（2）、（5）和（8）中，度量表示为：σcomp（a，b）= 11 +e−λ（b−a）.（十一）不可微秩函数rk的函数。杠杆化我们的可微代理允许我们为这些度量中的每一个分别设计一个可微的损失函数（4）、（7）和（10）。4. 实验在本节中，我们提出了几个实验来评估我们的方法。我们首先详细介绍了我们如何训练我们的可扩展排序器深度块只使用合成数据。我们还提出了基于不同模型之间的比较实际上，如果a和b被足够的裕度分开，则σcomp（a，b）将为0或1。参数λ用于控制比较仪的精度。该函数可用于近似向量y中两个分量yi和yj的相对秩：如果yi（显著）小于yj，则σcomp（yi，yj）将接近1，否则为0通过对yi和向量y的所有其他元素之间的比较结果求和，我们形成我们的排序函数fh。更准确地说，y的第i个元素的秩fh（y，i）表示为：在CNN和LSTM循环网络上，我们的基线灵感来自成对比较。然后我们评估关注：fh（y，i）=Σσ comp（yi，yj）.（十二）SoDeep结合深度评分函数fΘB。的在（4）、（7）和（10）中表达的损失函数被应用于三个不同的任务：记忆力预测、跨模态检索和对象识别。4.1. SoDeep训练和分析4.1.1培训提出的基于BI-LSTM和CNN的SoDeep模型是根据第3.1.2节定义的分布在动态生成的综合得分和排名对上训练的。为了方便起见，我们称一个历元为经过100 000对。训练是使用亚当优化器完成的10798j：j i手工分拣机的整体精度可以通过超参数λ来控制。lambda的值是预测等级的精度与通过排序器反向传播时的效率之间的折衷进一步的实验将使用λ=10。4.1.3结果表1包含两种不同的训练分类器和手工制作的分类器在10000个样本的生成测试集上基于LSTM的排序器是最有效的，优于CNN和手工排序器。107991111CNN排序器的性能略低于基于LSTM的排序器，这可以通过CNN的局部行为来解释，需要更复杂的结构才能对元素进行排序。在图4中，我们比较了CNN排序器的层数。根据这些结果，我们选择在CNN排序器中使用8层，因为一旦达到这个深度，性能似乎就会饱和。这种饱和的一种可能的解释是，网络的深度和输入维数（这里d=100）之间的关系是对数的。图5：排序器行为分析。给定一个大小为100的范围[-1，1]内的原始分数的合成向量y′，我们画出第一个元素y′的秩当所述值为图4：CNN排序器相对于CNN深度的性能。在多个CNN排序器的训练过程中，成本函数的值，层数从2到10不等。对于具有8层或更多层的模型，模型性能饱和。4.1.4进一步分析非连续的秩函数是不可微的，秩值从一个离散值跳到另一个离散值。我们设计了一个实验来可视化不同类型的分拣机在这些不连续性的行为从范围[-1，1]中的原始分数的均匀采样向量y′∈ R100开始，我们计算第一个分数的真实秩rk（y′）1和预测秩fΘB（y′）1。在-1和1之间线性插值x轴代表值y′，y轴是其对应的秩。LmAP与[21]中提出的铰链-AP损耗结果表明，该方法是可行的。6表明我们使用LSTM排序器的方法（蓝色曲线）得到的mAP得分与[21]（紫色曲线）相似，同时具有通用性和较低的复杂性。图6：mAP优化的合成实验。与建议的分拣机和以前的分拣机的比较元素y′当改变该元素y′时，从-1到1英寸方法。增量为0.001。预测等级的图可以在图中找到。五、蓝色曲线对应于非连续步骤可见的地面实况排名，而学习分类器的曲线（橙色和绿色）是地面实况曲线的平滑近似。在图6中，我们将我们的SoDeep与先前的方法进行了比较，优化了结构铰链上限到mAP损失。我们遵循[36]中描述的方案进行合成数据实验。我们的分拣机利用损失从学习到的排序器来看，LSTM架构是在合成数据上表现最好的①的人。此外，其简单的设计和少量的超参数使其易于训练。CNN架构虽然效率不高，但使用的权重数量较少，速度快1.7倍。进一步的实验将使用LSTM排序器，除非另有说明。108004.2. 基于可微分类器的损失函数我们的方法以三个任务为基准。这些任务中的每一个都侧重于不同的基于秩的损失函数。跨模态检索将用于测试召回评估指标，记忆力预测将用于斯皮尔曼相关性，图像分类将用于平均平均精度。如第3.1.2节所述，使用基于分拣机的损失时，可能会出现为了防止这种情况，可以使用平行损失来帮助域对齐。这种损失只能用于稳定初始化或在整个训练中保持。4.2.1斯皮尔曼相关性：预测媒体可传播性媒体可记忆性预测任务[5]用于测试关于斯皮尔曼相关度量的可微分类器。数据集元素的例子可以在图中找到。7.第一次会议。给定一个7秒的视频，该任务包括预测短期记忆性得分。可记忆性分数反映了视频被记住的概率图7：媒体记忆力数据集。帧低和高的可记忆性分数来自可记忆性数据集的4个不同视频[5]。记忆力分数被覆盖在图像之上。这项任务最初是关于视频记忆力的。然而，这里使用的模型是在图像上进行预训练的，因此从每个视频中提取7帧，并与源视频的记忆性得分相关联。训练是在成对的框架和记忆力分数上进行的。在测试期间，对视频的7个帧的预测分数进行平均以获得每个视频的分数该数据集包含8000个视频（56000帧）用于训练和2000个视频用于测试。这个训练集是使用LaMem数据集[23]完成的，向训练数据中添加了60 000个（图像，记忆力）对。单个模型长枪林前测试基线[6]46.0仅图片[17]48.8R34 + MSE损失44.2R34 + SoDeep损失46.6Sem-Emb + MSE损失48.6Sem-Emb + SoDeep损失49.4表2：介质可渗透性预测结果。我们提出的损失函数和架构优于最先进的系统[17] 0.6 pt。架构和训练回归模型由一个特征提取器和一个两层MLP组成[33]将特征回归到单一的记忆力分数。我们使用两个预训练的网络来提取特征：Resnet-34[18]和[10]的语义嵌入模型（如下一节）。我们使用（4）中定义的损失LSPR来学习记忆模型。培训分两步进行。首先，对于15个时期，仅训练MLP层，而特征提取器的权重保持冻结。第二，整个模型是精细化的。Adam优化器[24]的学习率为0。001，每3个时期减半。为了帮助域自适应，我们的损失与第一个epoch的L1损失相结合。选项卡中的结果2、比较了两种体系结构下学习损失的影响。对于这两个模型，我们使用L2损失定义了基线。在这两种架构上，所提出的损失函数在Resnet模型上实现了2.4点的斯皮尔曼相关性，在语义嵌入模型上实现了0.8点的斯皮尔曼相关性。这些是任务的最新结果，绝对增益为0.6 pt。该模型几乎与[17]提出的使用额外文本数据的集成方法相当（-0.3 pt）。分类器比较记忆性预测也用于比较迄今为止提出的不同类型的分类器。固定模型和超参数，用4种不同类型的损失训练4个模型。基于LSTM分类器、CNN分类器和手工分类器的损失分别获得了49.4、46.6、45.7的斯皮尔曼相关性，而L1损失的相关性为46.2。这些结果与合成数据的结果一致，LSTM排序器表现最好，其次是CNN和手工数据。4.2.2平均精密度：图像分类VOC 2007 [11]物体识别挑战赛用于使用平均平均精度度量来评估我们的分类器。我们使用现成的模型[9]。该模型10801模型R@1字幕R@5检索R@10Med. RR@1图像检索R@5 R@10Med. REMB.网络[37]54.984.092.2-43.376.487.5-DSVE-Loc [10]69.891.996.6155.986.994.01GXN（i2t+t2i）[16]68.5-97.9156.6-94.51DSVE-Loc + SoDeep损耗71.592.897.1156.287.094.31表3：MS-COCO上的跨模态检索结果。使用所提出的基于秩的损失函数优于硬负三重边际损失，实现了最先进的字幕检索任务的结果。VGG 16 [35] 89.3野猫 * 93.2WILDCAT* + SoDeep损失94.0表4：对象识别结果。标有（*）的型号可通过在线代码获得：电子邮件地址：github.com/durandtibo/wildcat.pytorch是一个完全卷积的网络，结合了Resnet-101[18]具有先进的空间聚合机制。为了评估在（7）中定义的损失LmAP，训练模型的两个版本：仅使用多标签软余量损失的基线，以及使用与LmAP组合的多标签软余量损失训练的另一模型。第3和第4页。图4示出了由先前描述的两个模型获得的结果。这两个模型都低于现有技术水平，然而，秩损失的使用是有益的，并且与仅使用软裕度损失的模型相比，将mAP提高了0.8pt。4.2.3Recall@K：跨模态检索最后一个用于评估可区分分类器的基准是跨模态检索。从带有文本注释的图像开始，我们训练了一个模型，为同一嵌入空间中的图像和文本嵌入空间中的相似性被用来评估模型在跨模态检索任务上的质量。我们的方法使用[22]中提出的rVal分裂在MS-COCO数据集[28]上进行评估该数据集包含110k张用于训练的图像，5k张用于验证，5k张用于测试。每个图像都用5个标题注释。给定查询图像（分别字幕），目的是检索相应的字幕（分别为图像）。由于MS-COCO每个图像包含5个字幕，因此基于正确字幕中的至少一个是否在前r个检索的字幕中来计算用于字幕检索的r处的召回率（该任务在测试集的1000个图像子集上执行5次，并将结果平均。我们使用现成的模型[10]。它是一种双路径多模态嵌入方法，利用了最新的神经网络架构。视觉管道基于Resnet-152，完全卷积。文本管道从头开始训练，并使用简单递归单元（SRU ）[27]来编码句子。使用（10）中定义的损失L_REC而不是基于三元组的损失来训练模型。跨模态检索结果可以在Tab.3 .第三章。使用所提出的损失函数（DSVE-Loc + SoDeep损失）训练的模型在（R@1，R@5，R@10）上的绝对性能优于使用基于三重边缘的损失训练的类似架构DSVE-Loc（1.7%，0.9%，0.5%），对于字幕检索，并且对于图像检索，优于（0.3%，0.1%，0.3%）。它在字幕检索方面获得了最先进的性能，并且在图像检索方面非常有竞争力，几乎与GXN [16]模型相当，后者具有更复杂的架构。重要的是要注意，所提出的损失函数可能对任何类型的架构都是有益的。5. 结论我们已经提出了SoDeep，一种新的方法，杠杆年龄的表达能力，最近的架构，学习不同的代理函数。基于排序操作的直接深度网络建模，这样的代理允许我们以端到端的方式训练传统上用基于等级的度量评估的各种任务的模型。值得注意的是，这种估计排名的深度代理几乎没有成本，因为它很容易在纯合成数据上训练。实验结果表明，该方法在跨模态检索任务、媒体记忆预测和多标签图像分类上都取得了很好的性能。这些实验证明了SoDeep的潜力和多功能性。这种方法允许设计比以前更接近感兴趣的指标的训练损失，这在未来开辟了广泛的其他应用。美国[9]损失mAP10802引用[1] 克里斯·伯吉斯、塔尔·沙克、艾琳·伦肖、阿里·拉齐尔、马特·迪兹、妮可·汉密尔顿和格雷格·胡伦德。学习使用梯度下降排序。ICML，2005年。2[2] 曹哲，秦涛，刘铁岩，蔡明峰，李航。学习排名：从两两方法到列表方法。ICML，2007年。2[3] Soumen Chakrabarti，Rajiv Khanna，Uma Sawant，andChiru Bhattacharyya.非平滑排名损失的结构化学习。ACM SIGKDD，2008年。2[4] Gal Chechik 、 Varun Sharma 、 Uri Shalit 和 SamyBengio。大规模在线学习图像相似性通过排名。J.Machine Learning Research，11：1109-1135，2010。2[5] RomainCohendet，Claire-He'l e' neDemarty，NgocDuong，MatsS jo？ be r g，BogdanIonescu，andThanh-T oanDo.我-diaeval 2018：预测媒体记忆力的任务。arXiv预印本arXiv：1807.01052，2018。二、七[6] RomainCohendet，Claire-H e'l e' neDemarty和NgocQ. K. 阳视频记忆预测的迁移学习在MediaEval研讨会，2018年。7[7] 雅多拉·道奇简明统计。Springer Science Business Media，2008. 4[8] Abhimanyu Dubey，Nikhil Naik，Devi Parikh，RameshRaska r，andCe'sarAHidalgo. 深度学习城市：在全球范围内量化城市感知。在ECCV，2016年。 2[9] Thibaut Durand，Taylor Mordan，Nicolas Thome，andMatthieu Cord.Wildcat：用于图像分类、逐点定位和分割的深度卷积网络的弱监督学习在CVPR，2017年。二七八[10] 马丁·恩吉尔贝、路易斯·谢弗·阿利耶、帕特里克·佩雷斯和马蒂厄·科德。在汉堡里发现豆子：深度语义-视觉嵌入与本地化。在CVPR，2018年。七、八[11] Mark Everingham 和 J Winn 。 PASCAL Visual ObjectClasses Challenge 2007开发包。技术报告，2007年。二、七[12] Fartash Faghri，David Fleet，Jamie Ryan Kiros，和SanjaFi-dler.VSE++：改进的视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。2[13] Basura Fernando，Efstratios Gavves，Damien Muselet，and Tinne Tuytelaars.学习根据服从度进行排名。在ICCV，2015年。2[14] 爱德华·H·弗兰德电子计算机系统分类。JACM，1956年。3[15] Andrea Frome ， Greg Corrado ， Jon Shlens ， SamyBengio，Jeff Dean和Tomas Mikolov。DeViSE：一种深度视觉语义嵌入模型。在NIPS，2013年。2[16] Jiuxiang Gu ， Jianfei Cai ， Shafiq Joty ， Li Niu ， andGang Wang.看，想象和匹配：用生成模型改进文本视觉跨模态检索。在CVPR，2018年。8[17] Rohit Gupta和Kush Motwani使用视觉和语义特征预测视频记忆性的线性模型。在MediaEval研讨会，2018年。7[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、七、八10803[19] 艾伦·赫什托和巴瓦尼·拉斯库蒂使用梯度下降法优化ROC曲线下面积ICML，2004年。2[20] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。3[21] 托尔斯滕·约阿希姆使用点击数据优化搜索引擎。ACM SIGKDD，2002年。二、六[22] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义CVPR，2015。一、二、八[23] Aditya Khosla ， Akhil S. Raju ， AntonioTorralba，and Aude Oliva.大规模理解和预测图像记忆性。在ICCV，2015年。7[24] D Kinga和J Ba Adam。随机优化的一种方法。2015年，国际会议。五、七[25] Ryan Kiros ， Ruslan Salakhutdinov ， andRichard Zemel.统一视觉语义嵌入与多模态神经语言模型。 arXiv 预印本 arXiv ：1411.2539，2014。一、二[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。1[27] 陶磊和张宇。训练RNN的速度与CNN一样快。arXiv预印本arXiv：1709.02755，2017。8[28] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV。8[29] 大卫·洛基于局部尺度不变特征的目标识别。载于ICCV，1999年。1[30] Lin Ma，Zhengdong Lu，Lifeng Shang，andHang Li.用于匹配图像和句子的多模态卷积神经网络。在ICCV，2015年。2[31] Pritish Mohapatra 、 Michal Rolinek 、 CVJawahar、Vladimir Kolmogorov和M Kumar。基于秩的损失函数的有效优化在CVPR，2018年。2[32] Mehryrar Mohri ， Afshin Rostamizadeh 和Ameet Tal- walkar. 机器学习的基础。MITPress，2012.2[33] 弗兰克·罗森布拉特。感知器：大脑中信息存储和组织的概率模型。心理学评论，1958年。7[34] Mike Schuster和Kuldip K Paliwal。双向递归神经网络。IEEE Trans.信号处理，1997年。3[35] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv：1409.1556，2014。1、8[36] 杨松，亚历山大·施温，拉奎尔·乌塔孙。通过直接损失最小化训练深度神经网络。InICML，2016.二、六[37] Liwei Wang ， Yin Li ， Jing Huang ， and SvetlanaLazebnik.用于图像-文本匹配任务的学习双分支神经网络。模式识别与机器智能。，41（2）：394-407，2018.1、8[38] Kilian Q Weinberger和Lawrence K Saul。距离度量学习用于大间隔最近邻分类。 J. Machine LearningResearch，2009。210804[39] 邢国雄、迈克尔·乔丹、斯图尔特·J·拉塞尔和吴安琪。距离度量学习及其在带边信息聚类中的应用。NIPS，2003年。2[40] Yisong Yue ， Thomas Finley ， Filip Radlinski ， andThorsten Joachims.一种优化平均精度的支持向量方法。ACM SIGIR，2007年。二、四、五

下载后可阅读完整内容，剩余1页未读，立即下载