深度网络学习图像相似性度量的新方法

169 浏览量更新于2023-10-16 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过设施位置的Hyun Oh Song1，Stefanie Jegelka2，Vivek Rathod1和Kevin Murphy11Google Research，2MIT1{hyunsong，rathodv，kpmurphy}@ google.com，2stefje@csail.mit.edu摘要使用深度网络以端到端的方式学习图像相似性度量在然而，目前的方法，都集中在一个非常局部的数据视图。在本文中，我们提出了一个新的度量学习计划，结构化预测的基础上我们在标准数据集上展示了最先进的性能，例如CUB 200 -2011 [37]，Cars 196[18]和斯坦福在线产品[30]的NMI和R@K评估指标。1. 介绍学习测量任意数据组之间的相似性具有很大的实际意义，并且可以用于各种任务，例如基于特征的检索[30]，聚类[10]，近似重复检测[41]，验证[42]。[3，4]，特征匹配[6]，域自适应[27]，基于视频的弱监督学习[38]等。此外，度量学习可用于挑战极端分类设置[23，5，40]，其中类的数量非常大，每个类的示例数量变得稀少。例如，[2]使用这种方法对1000万张图像进行产品搜索，[25]显示了对800万个不同身份的2.6亿张图像进行人脸验证的超人性能。在这种情况下，任何直接的分类或回归方法变得不切实际，由于禁止大尺寸的标签集。目前，度量学习的最佳方法采用最先进的神经网络[19，31，28，9]，这些神经网络经过训练以产生每个输入向量的嵌入，从而使与点的距离相关的一定损失最小化。然而，大多数当前的方法，如[25，2，30，29]，在这个意义上是非常短视的，因为损失是根据训练小批中的对或三元组来定义的。这些方法和检索性能。此外，深度度量学习中的大多数当前方法[25，2，30，29]需要单独的数据准备阶段，其中训练数据必须首先以成对[8，2]，三元组[39，25]或n对元组[29]格式准备该过程具有非常昂贵的时间和空间成本，因为它需要复制训练数据并且需要重复访问磁盘。在本文中，我们提出了一个新的学习框架，它鼓励网络学习一个嵌入函数，直接优化聚类质量度量（我们使用归一化互信息或NMI度量[21]来衡量聚类质量，但也可以使用其他度量）。并且不需要以严格的成对格式对训练数据进行预处理。我们的方法使用结构化预测框架[35，14]来确保地面实况聚类分配的得分高于任何其他聚类分配的得分。遵循[30]中的评估方案，我们报告了CUB 200 -2011 [37]、Cars 196 [18]和斯坦福在线产品[30]数据集的最新结果2. 相关工作深度度量学习的开创性工作是训练具有对比损失的连体网络[8，4]，其中任务是最小化具有相同类标签的一对示例之间的成对距离，并将具有不同类标签的一对示例之间的成对距离推到至少大于某个固定余量。这种方法的一个缺点是它关注绝对距离，而对于大多数任务来说，相对距离更重要。为此，最近的方法提出了不同的损失函数。我们在下面对这些方法进行了简要回顾，并在第4节中将我们的方法与它们进行了实验比较。53825383i，k|{z}CNN（y1，y（yn，y评分F~FFy*=y1=.yn=图1.拟议框架概览该网络首先计算该批次中每个图像的嵌入向量，并学习将用于地面实况聚类分配的聚类得分F *2.1. 基于半硬负挖掘的哪里k（i，j）= argmin2i，kS.T.D22i、j对比度损失的一个改进是使用三重k：y[k] y[i][39]第26话。这首先构造一组三元组，其中每个三元组具有锚、阳性和阴性示例，其中锚和阳性具有相同的类标签，而阴性具有不同的类标签。然后它P是具有相同类标签的对的集合。如果没有这样的负例满足约束条件，我们就选择小批量中最远的负例，如下所示：如下所示：试图移动锚和积极的更接近比迪-在锚点和底片之间有一定的固定余量。更准确地说，它最大限度地减少了以下损失：k（i，j）= argmaxk：y[k]/=y[i]2i，kx，y =1ΣΣΣD2+α−D2（一）为了获得好的结果，FaceNet论文不得不使用非常大的小批量（1800张图像），以确保他们选择了足够的硬底片。这使得训练变得困难|不| （i，j，k）∈Ti、ji、k+由于GPU内存限制，模型在GPU上运行。下面我们描述一些其他的损失，其中T是三元组的集合，Di，j=||f（Xi）−f（Xj）||2是嵌入空间中的欧几里得距离，运算符[·]+表示取幅角的非线性分量的铰链函数，α表示固定的边界常数在实践中，这些方法的性能高度依赖于三重采样策略。FaceNet [25]提出了以下在线硬负面挖掘策略。这个想法是通过将小批量中的每个阳性对与“半硬”阴性检查相关联来最小化使用小的minibatch。2.2. 提升结构化嵌入Song等人[30]提出了提升结构化嵌入，其中每个正对将距离与由边缘约束违反加权的所有负对进行比较。我们的想法是有一个可微的光滑损失，它结合了使用对数和指数公式的在线硬负挖掘功能。请。这是一个比正样本j更远离锚i的例子，但仍然很难，因为距离接近i-j距离。更确切地说，它1X，y= 2 |P|ΣΣ（i，j）∈P日志. Σ（i，k）∈Nexp{α−D i，k}+最小1X，y=ΣΣ ΣD2+α−D2<$Σ（j，l）∈NΣexp{α−Dj，l}Σ2+Di，j，+D> DD5384|P| （i，j）∈Pi、ji，k（i，j）+（二）5385其中N表示具有不同类别标签的示例对的集合。2.3. N对嵌入最近，Sohnet al. [29]提出了N对损失，其在批处理中的成对相似性值之间实施softmax交叉熵损失。可能导致聚类和基于最近邻的检索性能的降级。例如，假设我们在图2中错误地创建了4个集群。如果我们要求一个紫色点的12个最近邻居，我们将检索属于其他类的点。为了克服这个问题，我们提出了一种学习嵌入点的方法，以最大限度地减少聚类损失，如下所述。−1X，y=exp{Si，j}对数Σ|P|（i，j）∈PλΣm+ M 我exp{Si，j}+||二、||2,k：y[k]/=y[i]exp{Si，k}（三）图2.局部度量学习方法的故障模式示例每当一个正对（与蓝色边缘相连）被分离时，其中Si，j表示两个数据之间的特征点积嵌入空间中的点;S i，j= f（X i）<$f（X j），m是数据的数量，λ是嵌入向量上的正则化常数。2.4. 其他相关工作除了上述关于度量学习的工作之外，最近还有一些关于学习使用深度网络进行聚类的工作。Hershey等[10]在二进制地面真值和估计的成对亲和矩阵之间的残差上使用Frobenius范数;他们将其应用于语音频谱图信号聚类。然而，直接使用Frobenius范数是次优的，因为它忽略了仿射矩阵是正定的这一事实为了克服这一点，矩阵反向传播[12]首先将真实和预测的亲和矩阵投影到欧氏距离合适的度量空间。然后将其应用于无监督图像分割的归一化切割。然而，这种方法需要计算数据矩阵的特征值分解，这在数据数量上具有cubic时间复杂度，因此对于大型问题不是很实用。3. 方法第2节中最新的深度学习方法的一个关键属性是它们都是局部度量学习方法。图2显示了一种可能失败的情况。特别地，每当正对（诸如由蓝色边缘连接的两个紫色粗体点）被来自其他类的示例分离时，来自正对的吸引梯度信号被来自负对的排斥梯度信号加权。通过负例子，来自正对（吸引）的梯度信号被负对（排斥）超过。图中显示了2D嵌入的失败案例，其中pur- ple群集图3. 图2中相同嵌入布局的建议聚类损失。以粗体突出显示的节点是群集中心点。所提出的方法鼓励每个聚类内的距离的小的总和，同时阻止不同的聚类彼此接近3.1. 设施选址问题假设我们有一组输入Xi，以及一个嵌入函数f（Xi;Θ），它将每个输入映射到某个K维空间中的一个点现在假设我们压缩这组点，通过将每个示例i映射到其来自所选择的地标集合SV的最近点，其中V={1，. . . 、|X|}是地面集合。我们可以这样定义结果函数：Σ数据点（黄色和绿色数据点与红色边缘相连）。这种失败可能会导致一组的例子F（X，S;Θ）=−i∈|X|Min||f（Xi;Θ）−f（Xj;Θ）||、（四）j∈S其中相同的类标签在嵌入空间中被分成彼此远离的这这被称为设施位置函数，并已广泛用于数据汇总和聚类[20，34]。5386e1 2 √该函数的思想是测量X中的每个客户到S中各自最近的设施位置的行程距离之和。在聚类方面，S中的数据点对应于聚类中心，并且聚类分配基于离每个数据点最近的中心。关于子集S最大化等式4是NP困难的，结构化边际项（y，y）度量聚类的质量。如果y相对于地面真值聚类分配y的聚类质量是完美的（直到置换），则裕度项输出0，如果质量是最差的，则我们使用以下保证金术语但是，这里有一个很好地建立的最优性界，的O 1 −1对于贪婪的解决方案的问题，通过子，NMI（y，y）=1− NMI（y，y）（8）模块化[17]。下面我们将展示如何使用设施位置问题作为深度度量学习的子例程。3.2. 用于深度度量学习的Oracle评分函数F测量其中NMI是归一化互信息（NMI）[21]。这测量两个聚类分配之间的标签一致性，忽略排列。它由互信息的比率和每个分配的熵的乘积的平方在给定真实聚类分配的情况下，和嵌入参数Θ：NMI（y，y）=MI（y1，y2）H（y1）H（y2）（九）F（X，y;Θ）=Σ|Y|KMaxFj∈{i：y<$[i]=k}.ΣX{i：y[i]=k}，{j};Θ，用于计算熵和互信息的边际和联合概率质量可以估计如下：（五）其中，{i：y=k}表示V，其中地面真值标签等于k。P（i）=1MΣI[y[j]==i]J（十）我们想要Oracle集群的集群得分-P（i，j）=1Σ I[y[k]==i]·I[y[l]==j]，使分配大于最大违反聚类分配的得分。因此，我们定义以下结构化损失函数：m1 2k，l其中m表示数据的数量（也等于|X|）.图3示出了所提出的算法的优点。（X，yΣMaxSV|S|=|Y|.ΣF（X，S; Θ）+γ θ（g（S），yθ）正确由于该算法知道嵌入空间的全局景观，因此它可以克服图2中的不良局部最优。集群损失鼓励小的-联系我们TRA簇（在图3中由虚线勾勒）-F（X，y;Θ）（*）Σ+（六）相对于每个聚类中心点的距离（三个数据点以粗体示出），同时阻止不同的聚类者经由结构化的边缘项中的NMI度量彼此接近。我们将在下面定义结构化保证金（y，y）。函数y=g（S）通过将每个数据点分配给S中最近的设施，将索引集S映射到聚类标签集：3.3. 反向传播次梯度我们使用随机梯度下降来拟合我们的模型。关键的一步是计算损失的导数，它由以下表达式给出：g（S）[i]=a rgmin||f（Xi;Θ）−f（X{j|j∈S};Θ）||（七）J∂ ℓ(X,y∗)=I[ℓ(X,y∗)> 0].θF（X，SPAM; Θ）Σ直观地，等式6中的损失函数鼓励网络学习嵌入函数f（·;Θ），使得oracle聚类得分F（·;Θ）大于聚类。-θFθ（X，yθ;Θ）（十一）5387- 至少通过结构化的裕度f（y，y）来计算任何其他聚类分配g（S）的分数F图1给出了整个框架的图片说明这里SPAM是方程6中标记为（）的子问题的解;我们在3.4节中讨论如何计算它。第一梯度项如下：5388θF（X，S; Θ）=−Σf（Xi; Θ）−f（Xj||f(X;Θ)−f(X∗;Θ)||算法一：关于（n）的损失增广推理输入：X∈R m×d，y <$∈| Y|m，γ输出：S Vi∈|X|我.j（i）ΣΣ初始化：S={0}定义：A（S）：=F（X，S; Θ）+γ（g（S），y）• ∇Θ f（Xi; Θ）−f（Xj<$（i）; Θ）（十二）1而|S|<|Y|做其中，j=（i）表示集合SPAM中的最近设施位置的索引。Oracle评分函数的梯度可以通过计算2i= arg maxA（S{i}）−A（S）iV\S3S：=S{i}没关系2014年4月底θF（X，yi; Θ）=∇ΘFKX{i：y[i]=k}，{j（k）};Θ（十三）5 返回S方程11是精确次梯度的公式，我们在方程（3.4节）中找到一个近似最大化器SPAM，因此我们有一个近似次梯度。然而，这种近似在实践中效果很好，并已用于结构化预测设置[20，34]。3.4. 损失增广推理我们分两步解决方程6中的优化问题（k）。首先，我们使用贪婪算法1来选择初始好的设施集。在每一步中，它选择元素i与bes匹配。t边际收益。算法的运行时间为O|Y|3·|V|得双曲余切值. |Y|表示批次中的簇的数量，并且 V={1 ， . . . 、 |X|{\fn 方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 这时间在小批量的大小上是线性的，因此不会在梯度计算之上增加太多开销。然而，如果需要的话，我们可以通过贪婪算法的随机版本来加速这一部分[22]。该算法的动机是第一项F（X，S; Θ）是S中的单调子模函数。我们观察到，在整个学习过程中，这一项比第二项（边际项）大。因此，在这种情况下，我们的函数仍然接近子模。对于近似的子模函数，贪婪算法仍然可以保证很好地工作[7].然而，由于A（S）不完全是子模的，我们用局部搜索改进贪婪解，算法2。该算法执行当前中心点S[k]的成对交换其中t中的替代点j。他是同一个俱乐部的。该算法的运行时间为O T |Y|3·|V|，其中T是最大迭代次数。在实践中，它收敛很快，所以我们只运行T=5次迭代算法2类似于用于k-中心点聚类的围绕中心点划分（PAM）[15]算法，其在中心点交换步骤期间独立地推理每个聚类。算法2与PAM的不同之处在于结构化的边缘项，它同时涉及所有簇。下面的引理表明，该算法只能改进贪婪解：5389引理1. 算法2 单调增加目标函数A （S ） = F（X，S; Θ）+ γ ∈（g（S），γ∈）.证据在任意步t和任意k，设c=S[k]是S中的第k个中心点。该算法在第k个聚类中找到点j，使得A（（S\{c}）{j}）最大化。设j是一个最大化的参数。由于j=c是一个有效的选择，我们有A（（S\{c}）<${j <$}）≥ A（（S\{c}）<${c}）= A（S），因此A（S）的值只能增加。事实上，通过小的修改和足够大的T，该算法保证找到局部最优，即，一个集合S，使得A（S）≥A（S′），对于所有S′，|S S′|= 1（汉明距离1）。请注意，整个问题是NP难的，因此不可能保证全局最优性。引理2. 如果交换点j是从X中选择的，并且T足够大，使得算法终止，因为它不再做任何改变，那么算法2保证找到局部最优值。3.5. 实现细节我们使用Tensorflow [1]包进行实现。对于嵌入向量，在计算我们的方法的损失之前，我们对嵌入向量进行当我们忽略嵌入归一化我们还尝试使用算法2和随机初始化来解决损失扩展推理，但它对于网络架构，我们使用Inception[32]批量归一化的网络[11]在ILSVRC 2012-CLS上进行预训练[24]，并在我们的数据集上对网络进行微调。所有输入图像首先调整为正方形大小（256× 256），并以227× 227裁剪。为了增加数据，我们使用了随机水平的随机作物-用于训练谈话镜像和用于测试的单中心裁剪。在Npairs嵌入[29]中，他们采取多个随机裁剪，并对裁剪5390MMM算法2：损失增广的细化（X）输入：X∈R m×d，y∈R m ×d| Y|m，Sinit，γ，T输出：S初始化：S=S初始化，t= 01 对于tt做//执行集群分配2yPAM=g（S）//更新每个集群的3为k<|Y|做//如果集群k中的当前medoid增加，4. 实验结果根据[30，29]中的实验协议，我们评估了CUB- 200-2011 [37]、Cars 196 [18]和斯坦福在线产品上以前未见过的类的数据的聚类和k最近邻检索[13[30]数据集。我们将我们的方法与深度度量学习中的三种当前最先进的方法进行了比较：（1）三重学习与半硬负挖掘策略[25]，（2）提升结构化嵌入[30]，（3）N对度量损失[29]。为了与以前的工作进行比较，我们对三元组（如[25]所述）和我们的方法进行了归一化，但没有对提升的结构损失和N对进行归一化得分4S[k]= arg maxFj∈{i：yPAM[i]=k}.ΣX{i：yPAM[i]=k}，{j};Θ损失（如[30，29]中的实施章节）。我们对所有数据集使用了与[30]中相同的训练/测试分割。CUB 200 -2011数据集[37]有11， 788个im-56端部+γ（g（S\{S[k]}<${j}），y<$）200种鸟类的年龄;我们使用前100种鸟类进行训练，其余100种用于测试。的7端8 返回S测试过程中的图片然而，在[29]的实现中，我们在测试期间采用单中心作物，以便与其他方法进行公平比较。[30]中报告的实验消融研究表明，嵌入大小我们使用RMSprop [33]优化器，将批大小m设置为128。对于边际乘数常数γ，我们使用衰减率设置为0的指数衰减来逐渐减小它。94.如第1节中简要提到的，所提出的方法不需要以任何严格的成对格式（对，三元组，n对元组等）准备数据。相反，我们只是随机抽取m个（批量大小）样本和标签也就是说，如果一批数据都具有相同的类标签（完美聚类将所有内容合并到一个聚类中），或者如果数据都具有不同的类标签（完美聚类，每个数据点形成自己的聚类），则聚类损失变得微不足道。在这方面，我们通过确保批次中的独特类别（C）的数量在合理范围内来防止这些病理情况我们试了三个Cars196数据集[18]有196个汽车模型的16，185张图像。我们用前98节课的车进行训练，其余的用于测试。斯坦福在线产品数据集[30]在eBay.com上有22634件商品的120053张图片我们使用前11，318个产品类别进行培训，其余11，316个类别进行测试。4.1. 定量结果对于CUB 200 -2011 [37]，所有方法的训练过程在10k次迭代时收敛，对于Cars 196 [18]和斯坦福在线产品，训练过程在20k次[30]数据集。表1、2和3显示了我们的方法与其他深度度量学习方法之间的定量比较我们报告NMI分数，以衡量聚类的质量，以及使用Recall@K度量的k这些表表明，我们提出的方法在NMI和R@K度量上具有最先进的性能，优于所有以前的方法。NMIR@1R@2R@4R@8三重半硬[25]55.3842.5955.0366.4477.23[30]第三十话56.5043.5756.5568.5979.63Npairs [29]57.2445.3758.4169.5179.49集群（我们的）59.2348.1861.4471.8381.92表1.CUB-200-2011上的聚类和召回性能[37]不同的设置C={0. 25，0。50，0。75、选择@10k次迭代。该比率并未导致实验中的显著变化心理结果。对于CUB-200-2011 [37]和Cars 196[18]，我们设置C=0。25. 斯坦福在线产品[30]数据集，C=0。第75章唯一的选择4.2. 定性结果图4，五、图6显示了t-SNE图[36]因为数据集是非常细粒度的。我们的方法在CUB 200上的嵌入向量5391NMIR@1R@2R@4R@8三重半硬[25]53.3551.5463.7873.5282.41[30]第三十话56.8852.9865.7076.0184.27Npairs [29]57.7953.9066.7677.7586.35集群（我们的）59.0458.1170.6480.2787.81表2.Cars 196 [18]@20k迭代的聚类和召回性能NMIR@1R@10R@100三重半硬[25]89.4666.6782.3991.85[30]第三十话88.6562.4680.8191.93Npairs [29]89.3766.4183.2493.00集群（我们的）89.4867.0283.6593.23表3.聚类和召回性能在产品[30]@20k迭代。2011 [37]，Cars196 [18]和斯坦福在线产品[30]数据集分别。放大后，在监视器上可以最好地查看图。我们可以看到，我们的嵌入在对相似的对象/产品进行分组方面做得很好，尽管在视点，姿势和配置方面存在显着差异图4. Barnes-Hut t-SNE可视化[36]我们在CUB-200-2011 [37]数据集上的嵌入。最好在放大后的监视器上观看。图5. Barnes-Hut t-SNE可视化[36]我们在Cars 196 [18]数据集上的嵌入。最好在放大后的监视器上观看。5. 结论我们描述了一种新的学习方案，用于在有原则的结构化预测框架内以端到端的方式使用可学习的聚类函数和聚类度量（NMI）来优化我们在CUB 200 -2011 [37]，Cars 196 [18]和斯坦福在线产品[30]数据集上的实验显示了聚类和检索任务的最新性能提出的聚类损失具有额外的好处，它不需要严格和耗时的数据准备（即，不需要以对[8]、三元组[39，25]或n对元组[29]格式准备数据）。所提出的方法的这一特性为先进的数据采样方案开辟了丰富的可能性。在未来，我们计划探索基于采样的梯度平均方案，其中我们要求算法对训练批次内的数据的几个随机子集进行聚类，然后以类似于 Bag of Little Bootstrap（BLB）的精神对多个采样子集的损失梯度进行平均[16]。引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特5392图6. Barnes-Hut t-SNE可视化[36]我们在斯坦福在线产品数据集上的嵌入[30]。最好在显示器当放大时。J. Shlens ， B. 施泰纳岛 Sutskever ， K. Talwar ， P.Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。5[2] S. Bell和K.巴拉用卷积神经网络学习产品设计的视觉相似性。InSIGGRAPH，2015. 1[3] J. 布罗姆利岛Guyon，Y.Lecun，E.Sckinger，和R.Shah.使用“连体”时间延迟神经网络的签名验证NIPS，1994年。1[4] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。载于CVPR，第1卷，2005年6月。1[5] A. Choromanska，A. Agarwal和J.兰福德极端多类分类。在NIPS，2013年。1[6] C. B. Choy，J. Gwak，S. Savarese和M. Chandraker统一通信网。在NIPS，2016年。15393[7] A. Das和D.肯普次模块化符合光谱：子集选择、稀疏逼近和字典选择的贪婪算法。InICML，2011. 5[8] R. Hadsell，S. Chopra和Y.勒昆通过学习不变映射来降低维数。CVPR，2006。 1、7[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CoRR，abs/1512.03385，2015。1[10] J. R. Hershey，Z.陈志良<英>来华传教士。，1937--人Roux和S.渡边深度集群：用于分割和分离的判别嵌入。InICASSP，2016. 第1、3条[11] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。5[12] C. 约内斯库岛Vantzos和C.斯明奇塞斯库通过矩阵反向传播训练在ICCV，2015年。3[13] H.杰古湾Douze和C.施密特最近邻搜索的乘积量化。见PAMI，2011年。6[14] T. Joachims，T.Finley和C.-N. Yu. 结构svms的切割平面训练JMLR，2009年。1[15] L. Kaufman和P. Rousseeuw。通过medoids的方式聚类。基于L1范数的统计数据分析和相关方法，1987年。5[16] A. Kleiner，A. Talwalkar，P. Sarkar和M. I.约旦.大数据Bootstrap InICML，2012. 7[17] A. Krause和D. Golovin.次模函数极大化。可追踪性：Practical Approaches to Hard Problems，3（19）：8，2012. 4[18] J. Krause，M. Stark，J. Deng和F.- F.李用于细粒度分类的3D对象表示。ICCV 3dRR-13，2013年。一、六、七[19] A.克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行图像网分类NIPS，2012年。1[20] H. Lin和J. Bilmes。学习次模壳的混合及其在文档摘要中的应用。InUAI，2012. 三、五[21] C. D. Manning，P. Raghavan，and H.好吧。信息检索导论。剑桥大学出版社，2008年。1、4[22] B. Mirzasoleiman，A. Badanidiyuru，A. Karbasi，J. Vondra'k和A.克劳斯懒惰比贪婪更懒惰。在Proc. Conf.人工智能（AAAI），2015。5[23] Y. Prabhu和M. Varma Fastxml：一个快速，准确，稳定的树分类器，用于极端的多标签学习。InSIGKDD，2014. 1[24]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，2015年。5[25] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入CVPR，2015。一、二、六、七[26] M. Schultz和T.Joachims从相对比较中学习距离度量NIPS，2004年。2[27] O. Sener，H. O. Song，中国黑杨A. Saxena和S. Savarese学习无监督域自适应的可转移表示。在NIPS，2016年。1[28] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。1[29] K.孙改进的深度度量学习与多类n对损失目标。在NIPS，2016年。一、三、五、六、七[30] H. O.宋，Y。Xiang，S. Jegelka和S. Savarese通过提升结构化特征嵌入进行深度度量学习。在CVPR，2016年。一二六七八[31] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。1[32] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A. 拉比诺维奇。更深的回旋。CVPR，2015。5[33] T. Tieleman和G.辛顿讲座6.5-RmsProp：用最近震级的移动平均值来划分梯度。 COURSERA ： NeuralNetworks for Machine Learning，2012。6[34] S.特瓦切克河伊耶，H。Wei，and J. Bilmes.学习子模块函数的混合用于图像集合求和。在NIPS，2014。三、五[35] I. Tsochantarkan，T.霍夫曼，T. Joachims和Y.阿尔-顿。用于相互依赖和结构化输出空间的支持向量机学习ICML，2004年。1[36] L.范德马滕。使用树基算法加速t-sne。载于JMLR，2014年。六七八[37] C. Wah，S. Branson，P. Welinder，P. Perona和S.再见。加州理工学院-ucsd鸟类-200-2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。一、六、七[38] X. Wang和A.古普塔。使用视频的视觉表示的无监督学习在ICCV，2015年。1[39] K. Q. Weinberger，J.Blitzer和L.K. 索尔距离度量学习用于大间隔最近邻分类。在NIPS，2006年。一、二、七[40] I. E. Yen，X. Huang，K. Zhong，P. Ravikumar，and I. S.狄伦Pd-sparse：极端多类和多标签分类的原始和对偶稀疏方法。2013年，《国际反洗钱法》。1[41] S. Zheng，Y.郑氏，中国科学院植物研究所所长。宋，T. Leung和I.古德费罗通过稳定性训练提高深度神经网络的鲁棒性。在CVPR，2016年。1

下载后可阅读完整内容，剩余1页未读，立即下载