RankMI：最大化排序损失

71 浏览量更新于2023-10-23 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1训练前低互信息RankMI：最大化排序损失放大图片作者：Kemertas，Leila Pishdad，Konstantinos G.Derpanis和Afsaneh Fazly三星人工智能中心多伦多{E.kemertas，leila.p，k.derpanis，a.fazly}@ samsung.com摘要我们引入了一个信息理论损失函数RankMI，以及一个用于图像检索的深度表示学习的相关训练算法。我们提出的框架包括对网络的交替更新，该网络估计学习嵌入的匹配和非匹配对的距离分布之间的分歧，以及通过采样否定来最大化该估计的嵌入网络此外，在这个信息理论的镜头下，我们在RankMI和常用的排名损失之间建立了联系，例如，三重态损失我们在几个标准图像检索数据集上对RankMI进行了广泛的评估，即 CUB-200-2011 ， CARS-196 和 StanfordOnlineProducts。我们的方法取得了有竞争力的结果或显着改善，比以前的报告结果嵌入0训练后成对距离高互信息所有数据集。1. 介绍深度表示学习是许多下游计算机视觉应用的基础，包括图像检索和视觉搜索[39，14，29，27，41]，人脸识别[39，14，29，27，41识别[35，6]，3D对象检索[16]，图像captioning [36，19]以及跨模态学习和检索[22，13，9，25]。大多数这样的任务使用深度神经网络来映射它们的输入（例如，图像、3D形状、文本或音频字幕等）嵌入空间。目标是学习表示，该表示为语义相关或匹配的项目产生高相似性（例如，相同类别的图像/对象、同一个人的面部、以及成对的不同类型的图像/对象一种常见的做法是将表示学习公式化为检索（或排名）问题，并分别使用匹配和不匹配的查询-值对作为正样本和负样本来训练网络在文献中已经提出了各种损失函数、嵌入集成和采样方法，所有这些方法都试图学习使样本正移的图1.我们提出了RankMI，一种新的信息论排序损失函数。(Top)在训练之前，语义相关（匹配）的项目不一定具有低距离，并且不相关（不匹配）的项目不一定具有高距离。这反映在匹配（相同类别）（以蓝色显示）和非匹配（不同类别）（以红色显示）的距离分数分布之间的高度重叠中。（下）在优化我们的基于互信息的目标之后，分布被很好地分离，并且通过扩展，嵌入空间被很好地组织，匹配项具有低距离，而非匹配项具有高距离。在任何时候，分布本身都没有明确建模。更接近目标查询的点和更远离目标查询的负采样点。不同的损失函数在如何实现这一目标的细节上有所不同。例如，一些作品在正距离和负距离之间施加了一个裕度[43，6，27，42]。其他人学习距离分数的阈值[27，40]，或直接最小化负点的距离低于正点的可能性[41]。为了进一步提高性能，已经提出了集成方法，将来自单个网络或不同网络的不同层的嵌入向量组合在一起[45，31，31，20]。在抽样战略方面也作出了补充努力，重点是寻找信息，1436214363肯定否定示例[35，38，3]，根据其信息量加权示例[14，27]，或生成合成或代理示例[8，29，46]。在本文中，我们的重点主要是损失函数。受最近深度表征学习的信息理论方法的启发[2，17]，我们提出了一种检索问题的新观点。特别是，我们提出了一个检索目标，找到一个图像（值），共享最高量的信息与给定的（图像）查询。因此，我们寻求学习（图像）表示，最大限度地提高互信息（MI）之间的同一类别的实例。图1描述了这一目标：在训练之前，相同类别（蓝色）对的距离分数分布与来自不同类别的对的距离分数分布有很高的重叠。通过寻求最大限度地提高MI之间的同类项目，我们学习表示，具有高接近同类项目和低接近的项目从不同的类别，从而支持准确的搜索和检索。为了实现这一目标，我们提出了一种新的损失函数，称为RankMI，近似查询和值（图像）之间的MI估计的联合概率和边际的产品之间的分歧的一个严格的捐款. 在本文中，我们做出了以下三个主要贡献。首先，我们提出了一种新的损失函数，RankMI，它优化了一个理论上的目标，以及相关的训练算法。其次，在这个信息论的镜头下，我们把常用的排名损失联系起来。最后，我们在标准图像检索基准CUB-200-2011[44]、CARS-196 [23]和斯坦福在线产品[39].我们的方法在所有数据集上都取得了与以前报道的结果相比具有竞争力的结果或显着的改进。2. 相关工作在文献中已经提出了各种损失函数，采样技术和集成策略用于深度表示学习。在这里，我们详细阐述了与我们的工作最相关的内容，并确定了我们主要技术贡献的相关性。请注意，致力于地标检索的并行研究（例如，[1，34，33]）还考虑了图像表示，损失函数和采样策略。这些工作不在下面的调查范围之内。排名损失。深度表示学习的一个重要组成部分是在目标应用程序的上下文中表达学习目标的损失函数。三重损失[43]是检索任务中最常用的损失函数之一。这种损失考虑一组数据三元组，其中每个三元组由数据元素组成称为锚点、正锚点和负锚点。正例与锚点共享同一类，而负例则不同。训练的目标是确保对于所有查询（在一个批次内），负对的距离高于正对的距离（加上一个余量）。四重损失[6，24]扩展了三重损失，以额外地强制不共享锚的采样阳性和阴性之间的裕度。其他几种损失也扩展了三重态损失：角损失[42]考虑了三元组中所有三个元素之间的关系，而n对损失[37]允许通过从每个负类中提取一个样本来与多个负示例进行联合比较。其他损失函数，如[40]和[27]，显式地增加（减少）阳性（阴性）的距离，使其低于（高于）可学习的阈值加上固定或可学习的余量。直方图损失[41]直接最小化负样本具有比正样本更低的距离的概率，从而避免了调整超参数（如阈值或裕度）的需要。与直方图损失不同，在深度变分度量学习框架[26]中，类内变化是假设高斯潜在空间建模的。我们的基于MI的损失函数提供了一个直观的视图的排名问题。此外，通过利用神经MI估计的最新进展（参见下文关于MI的相关工作），RankMI估计MI而无需直接计算距离分布。此外，通过使用神经网络收集数据集级别的统计数据，RankMI无缝地将数据分布的全局属性纳入表示学习网络。接下来，我们将讨论几种采样技术和其他策略，已被提出来提高这些损失函数的有效性。超越损失深度网络参数的优化依赖于小批量内的局部梯度，因此忽略了全局数据分布。为了缓解这一问题，大量研究[39，16]探索了有效和高效地找到信息样本以供学习的早期的工作建议使用半硬阴性样品（即，触发虚警的样本）提高了性能[35，38，3]。最近的工作提出了根据样本点的信息量为样本点分配权重的策略[14，27]，从简单的否定中生成合成的对抗性硬否定[8]，或者在整个数据集中学习硬否定的代理[29，46]。虽然抽样策略成功地选择了信息丰富的例子来学习，但它们仍然在小批量中工作最近的一些工作明确地以类水平相似性的形式纳入了全局信息[10，5]。然而，这些研究依赖于类的层次结构的存在。然而，其他人已经追求集成方案[45，31，20]，其组合了从同一层的各个层获取的嵌入。14364φ、、、网络或完全不同的网络。这些努力与我们的贡献是正交的，因为RankMI不对采样过程施加约束。对于我们的评估，我们使用距离加权采样[27]，因为它已被证明优于其他常用的负采样策略。此外，我们不诉诸嵌入集成。交互信息和深度学习。 RankMI借鉴了深度学习中最新的信息论方法 Nowozin等人[30]表明可以恢复Goodfellow等人的原始生成式对抗网络（GAN）训练损失。[12]作为生成的数据分布和真实数据分布之间的估计偏差的最小化Belghazi等人[2]提出了互信息神经估计（MINE），并表明发散估计和子空间最小化或最大化技术的应用扩展到训练GAN之外。特别是，MINE表明，人们可以设计算法，通过神经网络一致地估计两个随机变量之间虽然这些发展已被用于训练GAN和无监督表示学习[17]，但据我们所知，它们以前没有在排名和检索任务的背景下被考虑过，就像我们在工作中所做的那样。在密切相关的工作中，Cakir et al.[4]学习二进制哈希码。对于学习，他们还使用互信息来量化正和负配对分布的分离。Cakir et al.并且我们的工作是它们的公式化专门用于学习具有特定距离度量的二进制编码（即，汉明距离）。此外，它们的损失需要距离分布的显式（量化）建模，而我们利用变分函数并完全避免这种显式建模。3. 技术途径在这里，我们介绍了我们的信息理论损失函数RankMI的细节第3.1节提供了使用神经网络进行互信息估计的背景材料。我们在3.2节中描述了我们的RankMI损失，在3.3节中描述了我们的训练算法。最后，在第3.4节中，我们将RankMI与常用的排名损失联系起来三重态损失3.1. 预赛两个随机变量X和Y之间的互信息I（X;Y）可以表示为以下KL-散度：I（X;Y）=DKL（JM），（1）其中J是X和Y之间的联合概率分布，M是它们的边际乘积。在这种联系的基础上，以及建立的 KL- 分歧（KLD）的下限[7]，Belghazi等人。[2]提出了互信息神经估计（MINE），它使用神经网络来估计MI的紧下界。重要的是，MINE借鉴了Nowozin et al.[30]他提出了使用神经网络来估计一族分歧的技术，包括KL分歧以及Jensen-Shannon分歧（JSD）。最近，Hjelm etal.[17]证明了两个随机变量的联合分布与它们的边际乘积之间的JSD和KLD具有近似单调的关系。Hjelm等人[17]将这种见解用于深度表示学习，其中他们通过同时估计和最大化JSD而不是KLD的下限来最大化MI（图像的局部和全局表示之间），因为JSD在优化方面表现出了良好的特性。特别是，他们使用JSD的对偶表示通过变分函数Tφ建立MI的下限，如下所示：I（JSD）（X，Y）≥supEJ[Tφ（x，y）]−EM[−log（2−eTφ（x，y））]，φ∈Φ（二）其中Tφ是以下形式的函数[30]：Tφ（x，y）= log（2）− log（1 + e −Vφ（x，y））。（三）这里，Vφ（x，y）：Rn×Rn−→R表示一个几乎处处可微的函数。这确保了对于任何V φ值，Tφ（x，y）βt−α]<0的情况。（九）20：d−←d−[d−βt+α]伊杰·德赫尔德ijij ij ij21：d−←采样（d−）ij ij也就是说，如果Vφ在22：loss←LRankMI（d+，d−，φt）在给定时间步长时正负对的距离23：θt←θlossij ij在训练期间，RankMI损失使正对最小距离，并最大化负对距离。直觉上，当（9）成立时，互信息和距离不仅是联系的，而且它们也具有单调关系（较高的MI对应于较低的距离）。在实践中，在SGD期间通常不会违反对Vφ的这种要求，因为在使用预训练权重初始化fθ的情况下，分布已经在t=0处在期望方向上分离。我们根据经验观察到，Vφ在训练早期自然地收敛到一个递减函数。然而，为了更好地促进这一性质，我们添加了从Vφ的输入到其输出的残差连接，使得它具有以下形式：Vφ（x）：=Vφφ（x）−x，（10）因此，在 t=0 时，使 Vφ/x−1 （标准权重初始化为Vφ）。我们可以在Vφ上引入软约束以确保（9）成立。我们在实验中没有采用这种方法，但在补充材料中提出了这种方法。24：θt+1<$θt−lrθθt25：不更新统计网络，Vφ26：φt+1←φt27：βt+1←βt28：t←t+ 1二十九：返回θt3.3. 培训采样对于深度表示学习很重要，无论使用的损失函数如何[27]。我们将边缘的使用视为改进采样的附加策略，因为边缘用于从一批中丢弃容易的阳性因此，我们设计了我们的训练算法，算法1，以轻松地将不同的保证金强制和负采样方案。图3描绘了作为成对距离的函数学习的RankMI损失的快照。在这里，蓝色曲线表示正对产生的损失，计算如下：14368IJNNTφ（zi，zj），（6）中的第一个分量。负对的损失用红色曲线表示，计算公式为 lo g （ 2−eTφ （ zi ，zj）），即公式6中的第二个分量。β是两条曲线相交的距离分数，即正负对产生相等损失的位置。我们观察到，解析地，Tφ（zi，zj）=0是唯一的解，使得对于相同的dij值，LRankMI进一步，求解（7）中的Vφ，我们得到Vφ（β）=0。受此启发，我们使用求根算法，如牛顿法，在给定训练步骤t的当前参数φ t的情况这里，R描述用于采样（j，k，l）以形成正对（i，j）和负对（k，l）的四元组的分布。我们观察到，如果R被定义为使得i=k，则四重态项恢复如（11）中定义的三重态损失。在这个意义上，我们将三重态和四重态损失之间的差异表征为采样策略或分布Q和R之间的差异。我们观察到，如果V在詹森-香农下游约束（3）被固定为以下函数，log（e−x−1）x0每当参数φ被更新为如算法1的第14行所示，并且增加了可忽略的计算开销。有关此程序的详情，请V（x）=未定义x= 0−log（ex −1）x >0、（十三）参见补充材料。一旦找到β，我们就可以很容易地将边缘α纳入我们的训练算法。图3突出显示了该裕度对RankMI损失的影响。特别是，我们可以则该值被优化（忽略常数项），如（6）中所示，简化为（12）中的四联体项，具有足够大的余量γ，保留所有四联体。边缘γ用于丢弃信息量较少的四联体。负对，如果d−>β+α，并丢弃正对，如果然而，代替固定的α，RankMI也可以增加-dij<β−α。如算法1所述，我们的训练过程在两个阶段之间交替：对静态网络的更新以及对嵌入网络的更新。为k步，我们使用批次中可用的所有正负对来收紧通过参数φ和（2）估计的发散下限。重要的是，我们在这个阶段使用所有可用的样本，因为使用更多的样本改进了（2）中期望的近似值。然后，在过滤掉不违反边缘的样本并使用任何负采样过程（例如距离加权）之后，我们对嵌入网络执行单次更新（参见算法1，第19-21行）。这个过程使我们能够利用互信息神经估计的力量，而不牺牲采用复杂的负采样策略的能力。3.4. B. RankMI与其他损失在这里，我们绘制了RankMI和两种常见的排名损失，三重损失[43]和四重损失[6，24]之间的联系。为了使直接比较，我们重新制定三重和四重损失使用一个共同的符号，捕捉频谱的采样策略。我们将三重态损失重新公式化如下：Ltrp=EQ[d+−d−+η]+，（11）基于随机配对的随机边缘正负对。因此，我们将三重态视为具有基于锚点的采样策略的四重态损失的特殊情况，并且四重态损失是具有固定V的RankMI的特殊情况。此外，我们可以学习估计比用（13）中的固定函数V估计的边界更紧的这种在更严格的边界上训练的能力是我们大幅提高性能的源泉。鉴于三重态和四重态损失与其他损失之间的相似性，我们推测其他损失可能会在这个共同的信息理论框架下被重铸和理解。我们将其保留用于将来的工作。4. 实证评价在本节中，我们将对我们的度量学习方法在图像检索和聚类任务上进行广泛的评估和比较。数据集。我们在三个标准数据集上进行实验：CUB200 -2011 [44] 、 CARS-196 [23] 和斯坦福在线产品[39]。我们的评估设置遵循Song et al.[39 ]第39段。CUB 200 -2011包含了11788张描绘了200个物种的鸟类图片。前100种鸟类（5864张图像）用于训练，其余的用于评估。CARS-196含有i=1伊季伊克16，185张汽车图片，描绘了196个汽车模型。第一98个汽车模型（8，054张图像）用于训练，其中N是数据集样本的数量，Q描述了分布，用于对i的一对点（j，k）进行采样以形成三元组（i，j，k），以及[·]+max（0，·）运算符。类似地，我们将四重损失重新公式化如下：Lquad=Ltrp+ΔER[d+−d−+γ]+。（十二）休息评估。斯坦福在线产品是我们数据集中最大的一个，包含了120053张图片，描绘了22634个产品类别。前11，318个产品类别（59，551张图片）用于训练，其余的用于测试。注意，在以前的作品中进行的评估因是否使用i=1伊季 KL14369基于数据集中所提供的边界框。我们14370评估我们的方法，并与以前的工作相比，使用原始图像没有裁剪。评估指标。为了评估图像检索，我们使用标准的Recall@k度量[39]，计算为在k个最近邻中至少有一个来自同一类别的示例的查询的百分比。对于我们的聚类评估，我们使用归一化互信息（NMI）得分[28]。聚类是用K-均值聚类实现的. NMI被定义为相互信息的比率聚类的信息和平均熵以及地面真值，NMI（λ，C）=2I （ λ;C ） / （ H （ λ ） +H （ C ）），其中 I（·，·）和H（·）分别表示互信息和熵，其中，H={ω1，. -是的-是的，ωK}，并且C ={c1，. - 是的- 是的，cK}（K-均值）聚类分配。4.1. 实现细节根据之前的工作[27，5]，在我们所有的实验中，我们使用标准的ResNet-50架构[15]作为特征提取器，在ImageNet上进行预训练[18]。在我们的表格中，基于边缘的[27]和FastAP [5]都代表了高性能（非集成）基线。ResNet-50之后是一个密集层，以产生所需尺寸的嵌入。我们使用Adam [21]训练我们的模型，所有数据集的批量大小为120对于负抽样程序，我们采用距离加权抽样[27]。与之前的工作一样，我们在训练过程中使用水平镜像和随机裁剪来增强数据在所有实验中，β0= 1，α= 0。2，lrφ=lrθ=0。001，k= 1。按照惯例，对于预训练的卷积滤波器，学习率除以100 我们使用一个等于0的权重衰减乘数。0001，用于两个网络中的当对小批量进行采样时，我们对批量中表示的每个类至少采样m个图像，对于CARS-196和CUB 200 -2011，m= 5，对于Stanford Online Products，m= 2对于所有数据集，我们将嵌入空间的维数设置为128的紧凑大小选择这些设置是为了使我们的评估与以前的工作保持一致，从而将性能差异隔离到我们的损失函数和训练算法中。我们的方法在PyTorch中实现[32]。我们在（3）中针对Vφ的网络架构如下：d ij−→Linear（1，H）−→LeakyRelu（0. 第一章−→（Linear（H，H）−→LeakyRelu（0.1））×L−→Linear（H，1）−→Vφ（dij），（14）其中，对于我们所有的实验，H= 128，L= 2，网络权重使用Xavier初始化[11]初始化4.2. 定量结果表1，2和3比较图像检索和聚类结果，我们的方法与以前报道的结果。我们表1.召回CUB 200 -2011上的@k和NMI [44]。基线结果摘自相关论文。每次引用后的数字表示嵌入维数。每个嵌入维度后的字母字母 R 、 G 、 B 和 O 分别表示 ResNet-50 、GoogLeNet、BN-Inception和Other。还与通过组合从来自相同网络或来自不同网络的不同层收集的嵌入来实现嵌入向量的各种嵌入集成方法进行比较。可以看出，与包括集合方法在内的所有基线相比，我们在CUB-200-2011上获得了最先进的结果在CARS-196上，我们通常改进所有召回的最新技术水平，但集成方法ABE-8除外[20]。在斯坦福在线产品上，我们改进了大多数非集成方法，或与之竞争，除了FastAP [5]。请注意，FastAP（batch= 256）通过启发式实现了额外的性能提升，该启发式支持大批量训练。更一般地说，FastAP使用分层的类关系进行采样。虽然适用于斯坦福产品在线，但这种层次结构通常不可用，因此不适用于所有数据集，例如，CUB200 -2011和CARS-196。在补充材料中提供了消融研究，分析RankMI对静态网络深度/宽度、交替梯度下降比（AGDR）、包埋大小和批量大小的灵敏度。4.3. 定性结果图4显示了我们在所有三个数据集上学习的嵌入的示例检索结果。可以看出，数据集包含具有细微类间（例如，相同的汽车制造商但不同的型号）和大的类内变化，例如对象颜色、场景照明、照相机视点和背景。尽管有这些挑战，我们可以成功地进行检索。即使是失败的检索也是合理的，因为查询和检索之间的差异很难通过目视检查来梳理。方法召回@kNMI1248三重半硬[35] 128O42.655.066.477.255.4[39，38]第64话43.656.668.679.656.5[38]第三十八话48.261.471.881.959.2[29]第二十九话49.261.967.972.459.5[41]第四十一话50.361.972.682.4-N-pairs [37] 64G51.063.374.383.260.4DVML +三联2+ DWS [26] 512G52.765.175.584.361.4[41]第四十一话52.864.474.783.9-[42]第四十二话53.665.075.383.761.0HDML + N对[46] 512G53.765.776.785.762.6HTL [10] 512G57.168.878.786.5-[27]第二十七话63.674.483.190.069.0HDC [45] 384G53.665.777.085.6-合奏BIER [31] 512GABE-8 [20] 512G55.360.667.271.576.979.885.187.4--RankMI（Ours）128R66.777.285.191.071.314371150150151150151151215122151221512215122151221512113291132911329113291132911329117201172011360116121172011421方法召回@kNMI1248三重半硬[35] 128O51.563.873.582.453.4[39，38]第64话53.065.776.084.356.9[38]第三十八话58.170.680.387.859.0[42]第四十二话71.380.787.091.862.4N-pairs [37] 64G71.179.786.591.664.0[29]第二十九话73.282.486.488.764.9[27]第二十七话79.686.591.995.169.1HTL [10] 512G81.488.092.795.7-DVML +三联2+ DWS [26] 512G82.088.493.396.367.6HDC [45] 384G73.783.289.593.8-合奏BIER [31] 512GABE-8 [20] 512G78.085.285.890.591.194.095.196.1--RankMI（Ours）128R83.389.893.896.569.4表2.召回CARS-196上的@k和NMI [23]。基线结果摘自相关论文。每次引用后的数字表示嵌入维数。每个嵌入维后面的字母表示所使用的嵌入网络字母R、G、B和O分别表示ResNet-50、GoogLeNet、BN- Inception和Other。方法召回@kNMI1101001000[39，38]第64话62.580.891.9-88.7[41]第四十一话63.981.792.297.7-[41]第四十一话65.582.392.397.6-三重半硬[35] 128O66.782.491.9-89.5[38]第三十八话67.083.793.2-89.5N-pairs [37] 512G67.783.893.097.888.1[42]第四十二话67.983.292.297.787.8HDML + N对[46] 512G68.783.292.4-89.3DVML +三联2+ DWS [26] 512G70.285.293.8-90.8[27]第二十七话72.786.293.898.090.7[29]第二十九话73.7----FastAP [5] 128R73.888.094.998.3-HTL [10] 512G74.888.394.898.4-FastAP [5]（batch=96）512R75.889.195.498.5-FastAP [5]（批次=256512 R76.489.095.198.2-HDC [45] 384G70.184.993.297.8-合奏BIER [31] 512GABE-8 [20] 512G72.776.386.588.494.094.898.098.2--RankMI（Ours）128R74.387.994.998.390.5表3.在Stanford Online Products上召回@k和NMI [39]。基线结果摘自相关论文。每次引用后的数字表示嵌入维数。每个嵌入维后面的字母表示所使用的嵌入网络。字母R、G、B和O分别表示ResNet-50、GoogLeNet、BN-Inception和Other。5. 结论我们提出了RankMI，一个新的损失函数和相关的训练算法的表示学习。我们的方法是基于变分发散最大化和互信息估计的连接。我们表明，我们的损失函数在标准图像检索基准上具有竞争力或超过最先进的结果为此，我们使用神经网络作为函数逼近器，同时估计并最大化匹配和非匹配对的距离分数分布之间的差异，以学习排名。我们精心设计的训练算法可以轻松地将架构改进纳入嵌入网络（例如，嵌入的集合），以及对负采样过程的正交改进距离加权采样）。图4.检索结果示例。（从左到右）查询和五个最近的邻居。顶部、中间和底部三行分别对应于CUB 200 -2011、CARS-196和Stanford Online Products中的示例每个图像上的数字表示类别标签。检索周围的蓝色和红色轮廓分别表示正确和不正确的检索每个数据集的最后一行包含不正确的检索。我们的方法借鉴了最近的技术，相互信息估计，遭受高方差估计。我们推测，未来的发展，以减少这些估计的方差应有利于我们提出的方法，使优化更容易。此外，更好的函数逼近器（例如，神经体系结构搜索）可以提高性能。确认我们感谢Allan Jepson在整个项目中进行的有益讨论和富有洞察力的反馈。10915810915810915810915810915810915818212818218212418211011011011011011019319319319319319314372引用[1] 雷利亚·阿兰杰尔·奥维奇、彼得·格隆·阿奥特、阿基希 · 科 ·托里、托马· 帕 · 杰德拉和约瑟夫 · 西维奇。NetVLAD：用于弱监督位置识别的CNN架构。IEEETransactionsonPatternAnalysisandMachineIntelligence，40（6）：1437- 1451，2018。2[2] Mohamed Ishmael Belghazi ， Aristide Baratin ， SaiRajeswar ， Sherjil Ozair ， Yoshua Bengio ， AaronCourville，and R Devon Hjelm.互信息神经估计。在2018年国际机器学习会议上。二、三[3] Herbin S.朱丽·FBucher M.基于零次分类的度量学习的硬否定挖掘在欧洲计算机视觉会议上，第524-531页2[4] FatihCaki r，KunHe，SarahAdelBa rg al，andStanSclaro f f.用互信息进行散列。 IEEE Transactions on PatternAnalysis and Machine Intelligence，2019。3[5] FatihCZerakir ， KunHe ， XideXia ， BrianKulis ，andStanScaroff.深度度量学习排名。在会议计算机视觉和模式识别，第1861- 1870页，2019年。二七八[6] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一种用于人员重新识别的深度四元组网络。计算机视觉与模式识别会议，2017年。一、二、六[7] M. D. Donsker和S.R. S. 瓦拉丹大时间马氏过程期望的渐近四.《纯粹数学与应用数学通讯》，1983年。3[8] 段跃奇，郑文钊，林旭东，卢吉文，周杰。深度对抗度量学习。计算机视觉与模式识别会议，2018年。2[9] 放大图片作者：David J. Fleet，Jamie Ryan Kiros，andSanja Fidler. VSE++：用硬否定词改进视觉语义嵌入2018年英国机器视觉会议1[10] Weifeng Ge ， Weilin Huang ， Dengke Dong ， andMatthew R. Scott.深度度量学习与分层三元组丢失。2018年欧洲计算机视觉会议。二七八[11] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在国际人工智能和统计学会议上，第249-256页，2010年。7[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统会议，2014年。3[13] David Harwath ， Adria Recasens ， Didac Suris ， GalenChuang，Antonio Torralba和James Glass。共同发现视觉对象和口语单词从原始感官输入。2018年欧洲计算机视觉会议1[14] 本·哈伍德，维贾伊·库马尔B G，古斯塔沃·库塞罗，伊恩·里德和汤姆·德拉蒙德。深度度量学习的智能挖掘。2017年计算机视觉国际会议。一、二[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习计算机视觉与模式识别会议，2016年。7[16] 何新伟、周扬、周志超、宋白、向白。用于多视图3D对象检索

下载后可阅读完整内容，剩余1页未读，立即下载