没有合适的资源?快使用搜索试试~ 我知道了~
6210基于不变量和扩展实例特征的无监督嵌入学习Mang Ye<$Xu Zhang张旭鹏 C.袁<$Shih-FuChang香港浸会大学香港分校香港浸会大学纽约哥伦比亚大学{mangye,pcyuen}@ comp.hkbu.edu.hk,{xu. zhang,sc250}@ columbia.edu摘要本文研究了无监督嵌入学习问题,该问题要求在低维嵌入空间中有效地度量样本间的相似性。受类别监督学习中观察到的正集中和负分离特性的启发,我们提出利用实例监督来近似这些特性,旨在学习数据增强不变量和实例扩散特征。为了实现这一目标,我们提出了一种新的基于实例的softmax嵌入方法,它直接优化了softmax函数之上的它实现了比所有现有方法更快的学习速度和更高的准确性。该方法对具有余弦相似性的可见和不可见测试类别都有很好的效果。即使没有预先训练的网络,它也可以在细粒度类别的样本上实现有竞争力的性能。1. 介绍深度嵌入学习是计算机视觉中的一项基本任务[14],其目的是学习具有以下属性的特征嵌入:1)正集中时,属于同一类别的样本的嵌入特征彼此接近[32];2)负分离时,属于不同类别的样本的嵌入特征尽可能分离[52]。监督嵌入学习方法已被研究,以实现这些目标,并表现出令人印象深刻的ca,图1:我们的基本思想的插图。同一实例在不同数据增强下的特征应该是不变的,而不同图像实例的特征应该是分离的。无监督嵌入学习通常要求学习的嵌入特征之间的相似性与输入图像的视觉相似性或类别关系一致。相比之下,一般的无监督特征学习通常旨在从未标记的数据中学习一个良好的然后通过使用来自目标任务的一小组标记的训练数据来微调模型(例如,线性分类器、对象检测器等)目标任务[3]。然而,学习的特征表示可能无法保持视觉相似性,并且对于基于相似性的任务,其性能急剧下降,e.G.最近邻搜索[46,48,50]。无监督嵌入学习的主要挑战是从未标记的样本中发现视觉相似性或弱类别Iscen等人[21]提出了在流形上挖掘坚硬的正样本和负样本然而,其性能严重依赖于标签挖掘的初始化特征表示的质量,这限制了在各种视觉任务中的能力[28,30,53]。然而,监督方法所需的注释数据可能难以获得。为不同的任务收集足够的注释数据为了解决这个问题,本文解决了非监 督 嵌 入 学 习 问 题 ( a.k.a.[21] 中 的 无 监 督 度 量 学习),其目的是在没有人类注释标签的情况下学习适用于一般任务。在本文中,我们提出利用实例监督来逼近前面提到的正集中和负分离学习过程仅依赖于实例关系,而不依赖于预定义类别之间的关系,因此它可以很好地推广到以前从未见过的任意类别的样本(未见过的测试类别)[12]。输入图像CNN输出要素6211对于阳性浓度:利用随机初始化网络挖掘可靠的正信息通常是不可行的。因此,我们应用随机数据扩充(例如,变换、缩放)到每个图像实例,并使用增强图像作为正样本。换句话说,每个图像实例在不同数据增强下的特征应该是不变的。对于负分离:由于未标记的数据通常是高度不平衡的[27,49],每个图像实例的负样本数量因此,一小批随机选择的实例可以被适当地视为每个实例的阴性样本。在这样的假设下,我们试图将每个实例与批次中的所有其他采样实例分开,从而产生扩展属性[52]。很明显,这种假设可能并不总是成立的,每一批都可能包含一些假阴性。然而,通过我们广泛的实验,我们观察到,扩展属性有效地提高了可辨别性。总之,我们的主要思想是学习一个有区别的实例特征,它为无监督嵌入学习保留了数据增强不变量和扩展1.一、为了实现这些目标,我们引入了一种新的基于实例特征的softmax嵌入方法。现有的软最大嵌入通常建立在分类器权重[8]或记忆特征[46]上,其效率和可辨别性有限。我们建议通过直接使用softmax函数上的实例特征的内积来显式优化特征嵌入,从而显著提高性能和效率。softmax函数挖掘硬负样本,并充分利用所有采样实例之间的关系,以提高性能。实例的数量明显大于类别的数量,因此我们引入了一种连体网络训练策略。我们将多类分类问题转化为一个二元分类问题,并使用最大似然估计进行优化。其主要贡献可归纳如下:• 我们提出了一种新的基于实例特征的softmax嵌入方法来学习数据增强不变性和实例扩展特征。它实现了显著的-比所有竞争方法都有更快的学习速度和更高的准确性。• 我们表明,数据增强不变量和实例扩展属性对于实例无监督嵌入学习它们有助于捕捉样本之间明显的视觉相似性,并很好地概括了看不见的测试类别。• 该方法实现了国家的最先进的性能比其他无监督学习方法的综合图像分类和嵌入学习实验。2. 相关工作一般无监督特征学习 非监督特征学习在文献中得到了广泛的研究。现有的工作可以大致分为三类[3]:1)生成模型,这种方法旨在学习图像和预定义的噪声信号之间的参数化映射,这限制了原始数据和噪声之间的分布[46]。Bolztmann机器(RBM)[24,40],自动编码器[20,42]和生成对抗网络(GAN)[7,10,11]被广泛研究。2)估计图像间标签,它通常使用聚类技术[3,9,26]或基于kNN的方法[41]来估计图像间标签,这些方法提供标签信息。然后迭代更新标签信息和特征学习过程。3)自监督学习,这种方法设计借口任务/信号来生成该任务可以是局部补丁的上下文信息[6],随机重排补丁的位置[31],图像的丢失像素[34]或来自灰度图像的颜色信息[51]。一些尝试还使用视频信息来提供弱监督以学习特征表示[1,44]。正如我们在第1节中所讨论的,一般的无监督特征学习通常旨在学习一个良好的中间特征表示可能不保留视觉相似属性。相比之下,无监督嵌入学习需要学习特征的额外视觉相似性。深度嵌入学习深度嵌入学习通常通过最小化类内变化和最大化类间变化来学习嵌入函数[32,37,45,47]。大多数都是在[12,30]或三重关系[13,29]。特别是,几种采样策略被广泛研究以提高性能,例如硬挖掘[16],半硬挖掘[35],智能挖掘[13]等。相比之下,softmax嵌入在没有采样要求的情况下实现了有竞争力的性能[18]。监督学习在各种任务上都取得了优异的性能,但它们仍然依赖于足够的注释数据。无监督嵌入学习根据评估协议,它可以分为两种情况,1)测试类别与训练类别相同(可见测试类别); 2)测试类别与训练类别不重叠(不可见测试类别)。后一种设置更加令人不安。在没有分类标签的情况下,Iscen等人。 [21]提出在流形上挖掘硬阳性和阴性样本,然后用三重丢失训练特征嵌入然而,它严重依赖于标签挖掘的初始化表示。6212我我K3. 该方法我 们 的 目 标 是 从一组未标记的图像X ={x1 ,x2,···,xn}中学习一个特征嵌入网络f θ(·)。fθ(·)将输入图像xi映射到一个低维的em。层特征f(x)∈Rd,其中d是特征维数,其中τ是控制样品分布浓度水平的温度参数[17]。vTfj测量特征fj和第i个记忆特征vi之间的余弦相似性。例如,在每一步,网络将其特征fi拉向其对应的θ i 记住了向量vi,并把它从备忘录中推出去锡永 为了简单起见,图像实例的特征表示fθ(xi)由fi表示,并且我们假设所有特征都是归一化的,即,i=1.一个好的特征嵌入应该满足:1)视觉相似的图像彼此接近;2)分离不相似图像实例的嵌入特征在没有类别标签的情况下,我们利用实例监督来近似正集中和负分离属性。特别地,同一实例在不同数据增强下的嵌入特征应该是不变的,而不同实例的特征应该是展开的。在本节的其余部分,我们首先回顾了两种现有的实例特征学习方法,然后提出了一种更有效和更有区别的基于实例特征的softmax嵌入方法。最后,我们将给出详细的理论分析,并介绍我们的训练策略与暹罗网络。3.1. 实例智能Softmax嵌入使用分类器权重的Softmax嵌入Exemplar CNN [8]将每个图像视为一个不同的类。 关注- 在传统的分类器训练 中 , 定 义 了 一 个 矩 阵 W=[w1 , w2 , · · · ,wn]T∈Rn×d,其中第j列wj称为第j个分类器的相应分类器权重。instance. Exemplar CNN确保不同图像变换下的图像实例基于Softmax函数,样本xj被识别为第i个实例的概率可以表示为exp(wTfj)其他实例的rized vectors由于效率问题,对应于实例xi的记忆特征vi仅在将xi作为输入的迭代中更新。换句话说,所存储的特征Vi在每个时期仅更新一次。然而,网络本身在每次迭代中更新。将实时实例特征fi与过时的记忆特征vi进行比较会妨碍训练过程。因此,存储体方案仍然是低效的。提高效率的一个直接的想法是直接优化特征本身,即。用f i代替权重{wi}或存储器{vi}。然而,由于 两 个 原 因 , 它 是 不 合 理 的 : 1 ) 考 虑 概 率 P(i|xi),因为f Tfi =1,即FEA-真实和方式完全对齐,优化网络不会提供任何积极的集中属性; 2)计算所有样本(fk,k=1,. . . ,n),以便计算等式(1)中的分母。(2),特别是对于大规模的实例数数据集。3.2. Softmax在“真实”实例功能上的嵌入为了解决上述问题,我们提出了一种用于无监督嵌入学习的softmax嵌入变体,它直接优化了真实实例特征,而不是分类器权重[8]或内存库[46]。为了实现同一实例在不同数据增强下的特征不变,而不同实例的特征分散的目标,我们建议考虑1)原始图像及其增强图像,2)一小批随机选择的样本而不是完整的数据集。P(i|xj)=ni.(一)k=1exp(wTfj)在每一步,网络将样本特征fi拉向其对应的权重wi,并将其推离其他实例的分类器权重wk然而,分类器权重阻止显式比较的功能,这导致有限的效率和可辨别性。Softmax嵌入内存库。为了改善低效率,Wuet al. [46]建议建立存储库以存储在前一步骤中计算的实例特征f1存储在存储体中的特征被表示为vi,其在以下步骤中用作对应实例的分类器权重。因此,样本xj被识别为第i个实例的概率可以写为:对于每次迭代,我们从数据集中随机抽取m个实例。 为了简化符号,不失一般性,所选择的样本表示为{x1,x2,...,xm}。对于每个实例,应用随机数据增强操作T(·)以略微修改原始图像。 增广样本T(xi)表示为xi,其嵌入特征fθ(xi)表示为fi。而不是考虑的实例特征学习作为一个多类分类问题,我们通过最大似然估计(MLE)将其解决为二进制分类问题在具体地,例如xi,扩充样本xi应该被分类到实例i,而其他实例xi,j=i不应该xi被识别为实例i的概率定义为exp(vTf/τ)exp(fTfi/τ)P(i|x)=ij、(二)P(i|xi)=i.(三)jnexp(vTf/τ)mexp(fTf/τ)k=1kjk =1ki6213^1我K我KKJKJJ我XifTfCNN低调f1f2f3数据增强共享权重CNN低调f^1f^2f^3嵌入空间图2:使用Siamese网络提出的无监督学习方法的框架。将输入图像投影到具有CNN主干的低维归一化嵌入特征中。同一图像实例在不同数据增强下的图像特征是不变的,而不同图像实例的嵌入特征是分散的。另一方面,xj被识别的概率(3)要求最大化exp(fT<$fi/τ),因为实例i由下式定义:最小化exp(fT<$fi/τ),kI. 由于所有的功能都是exp(fTfj/τ)P(i|j)=mk=1exp(j/τ),ji(4)2归一化,最大化exp(fTfi/τ)需要增加fi和fi之间的内积(余弦相似性),从而产生对数据扩充不变的特征。相应地,xj不被识别为实例i的概率为1-P(i|xj)。假设被识别为实例i的不同实例是独立的,则x∈i被识别为实例i和xj,j=i未被分类的联合概率在实例i中,另一方面,最小化exp(fTfi/τ)确保了其他实例{fk}是分开的。考虑到批处理中的所有实例,这些实例被强制分离。彼此分离,导致分散的性质。类似地,Eq.(4)可以重写为,exp(fTfj/τ)Pi= P(i|(i)Y(1−P(i|(5)P(i|xj)=Σiexp(fTfj/τ)+ kjexp(fTfj/τ)、(9)j/=i负对数似然由下式给出:ΣJi=−logP(i|x∈i)− lo g(1−P(i|(6 )J I我们通过最小化批次内所有实例的负对数似然之和来解决此问题,其表示为注意,内积f Tfj为1,τ的值通常很小(在实验中为0.1)。因此,exp(fTfj/τ)通常决定整个分母的值最小化方程 (4)表示exp(fTfj/τ)应最小化,其目的是分离fj和fi。因此,其进一步增强了展开性质。3.4. 关于Siamese Network我们提出了一个暹罗网络来实现所提出的算法,如图2所示。在每次迭代中,mJ=− Σl logP(i|xi)−Σ Σlo g(1−P(i|xj))。(七)随机选择的图像实例被馈送到第一图像实例中,分支,并馈送相应的增强样本我3.3.原理分析我j/= i进入第二个分支。注意,在第一个分支中还使用了数据扩充来丰富训练样本。为了实现,每个样本随机本节详细分析了为什么最小化等式(6)能够实现增强不变性和实例扩展特性。最小化方程(6)可以看作是最大化方程。(3)最小化Eq. (四)、考虑到Eq。(3)可以改写为exp(fTfi/τ)增广正样本和2N−2负样本来计算Eq.其中,N是批量大小。亲-提出的训练策略大大降低了计算量。同时,这种训练策略还充分利用了在小批量中采样的所有实例之间的关系[32]。 从理论上讲,我们也可以使用多-123FCL2范数L2范数FC6214我KP(i|xi)=Σiexp(fT<$fi/τ)+k/=i exp(fTfi/τ)、(8)考虑多个增强图像的对于批处理中的每个实例。6215方法KNNRandomCNN32.1DeepCluster(10)[3]44.4DeepCluster(1000)[3]67.6示例[8]74.5NPSoftmax [46]80.8NCE [46]80.4三重57.5三重(硬)78.4我们83.6表1:CIFAR-10数据集上的kNN准确度(%)。4. 实验结果我们用两种不同的908070605040302010图3:示例[8]我们DeepCluster [3]NCE [46]0102040 80 120 160 200训练时期CIFAR-10培训效果评估设置来评估所提出的方法1.第一个设置是训练集和测试集共享相同的类别(参见测试类别)。该协议被广泛用于一般的无监督特征学习。第二个设置是训练集和测试集不共享任何公共类别(看不见的测试类别)。这种设置通常用于监督嵌入学习[32]。接下来[21],我们后一种设置比前一种设置更具挑战性,它显然可以证明在看不见的类别上学习到的特征的质量。4.1. Seen测试范畴我们遵循[46]中的实验设置,在CIFAR-10 [23]和STL-10 [4]数据集上进行实验具体而言,采用ResNet18网络[15]作为骨干,输出嵌入特征维度设置为128.初始学习率被设置为0.03,并且在120和160 epoch处被降低0.1和0.01该网络被训练了200个epochs。温度参数τ设定为0.1。该算法在PyTorch上使用带有动量的SGD优化器实现 权重衰减参数为5×10−4,动量为0.9。对于两个数据集上的所有竞争方法,训练批次大小都设置为128四采 用 PyTorch 中 的 多 种 数 据 增 强 方 法(RandomResizedCrop,RandomGrayscale,ColorJitter,RandomHorizontalFlip在[46]之后,我们采用加权kNN分类器来评估性能。给定一个测试样本,我们基于余弦相似性检索其前k(k=200)个最近邻,然后应用加权投票来预测其标签[46]。4.1.1CIFAR-10数据集CIFAR-10数据集[23]包含来自相同10个类的50 K训练图像和10 K测试图像。图像大小为32×32。包括五种方法进行比较:DeepCluster [3]具有不同的聚类编号,Exem-1代码可在www.example.com上获得https://github.com/mangye16/Unsupervised_Embedding_Learning数据集。报告了每个时期的kNN准确度(%),证明-不同方法的学习速度。plar CNN [8],NPSoftmax [46],NCE [46]和有和没有硬采矿的三重损失。Triplet(hard)是每个批次中用于训练的在线硬阴性样本[16],并且边际参数设置为0.5。DeepCluster [3]和NCE [46]代表了最先进的无监督特征学习方法。结果示于表1中。分类准确性。表1表明,我们提出的方法在kNN分类器中实现了最佳性能(83.6%)。DeepCluster [3]在学习大规模未标记数据的良好“中间”特征方面表现良好,但kNN分类的性能急剧下降。同时,它对聚类数也很敏感,不适合不同的任务。与使用分类器权重进行训练的Exemplar CNN [8]相比,所提出的方法优于它9.1%。与使用记忆特征进行优化的NPSoftmax [46]和NCE [46]相比,该方法分别优于2.8%和3.2%。由于直接对特征本身进行优化的思想,性能的提高是显而易见的与三重态损失相比,所提出的方法也明显优于它。这种优势是由于Softmax函数中的硬挖掘性质。效率我们在图中绘制了竞争方法在不同时期的学习曲线。3.第三章。所提出的方法只需2个历元即可获得60%的kNN准确度,而[46]需要25个历元,[8]需要45个历元才能达到相同的准确度。很明显,我们的学习速度比竞争对手快得多。通过直接优化实例特征而不是分类器权重[8]或内存库[46]来保证效率。4.1.2STL-10数据集STL-10数据集[4]是一个图像识别数据集,包含大小为96×96的彩色图像,广泛用于非监督学习。具体而言,该数据集最初设计为三个部分:1)训练,5K标记的图像在十个kNN准确度(%)6216方法培训线性KNNRandomCNN没有一-22.4k-MeansNet [5]105K60.1-HMP [2]105K64.5-[54]第五十四话105K74.3-示例[8]105K75.4-NPSoftmax [46]5K62.366.8NCE [46]5K61.966.2[3]第三届全国政协委员5K56.561.2我们5K69.574.1我们105K77.981.6表2:线性分类器和kNN分类器对STL-10数据集的分类准确度(%)。结果取自[33],基线网络不同。用于训练的类,2)测试,来自用于测试的相同的十个类的8K图像,3)未标记的,100K未标记的图像,其与用于非监督学习的标记数据共享类似的分布。我们遵循与CIFAR-10数据集相同的实验设置,并在表2中报告线性分类器(线性)和kNN分类器(kNN)的分类准确度(%)。线性分类器是指在学习的特征和训练样本的标签上训练SVM分类器。分类器用于预测测试样本的标签。我们使用其发布的代码在相同的设置下 实 现 NPSoftmax [46] , NCE [46] 和 DeepCluster [3](集群编号100)。默认情况下,我们只使用5K训练图像,而不使用标签进行训练。还报告了一些最先进的无监督方法(k-MeansNet [5],HMP [2],Satck [54]和Exemplar [8])的性能。这些结果来自[33]。如表2所示,当仅使用5K训练图像进行学习时,所提出的方法使用两个分类器(kNN:74.1%,线性:69.5% ) , 在 相 同 的 评 估 协 议 下 比 NCE [46] 和DeepCluster [3]要好得多。请注意,kNN直接使用学习的特征来测量相似性,而Linear需要使用标记的训练数据进行额外的分类器学习。当使用105K图像进行训练时,所提出的方法对于kNN分类器和线性分类器也达到了最佳性能。特别地,对于5K训练图像,kNN的准确率为74.1%,并且对于完整的105K训练图像,其提高到81.6%线性分类器的分类准确率也从69.5%提高到77.9%。实验结果表明,该方法具有训练样本数多的优点.4.2. 隐形测试范畴本节评估当训练样本和测试样本的语义类别不重叠时学习的特征嵌入的可区分性我们遵循[32]中描述的实 验 设 置 , 在 CUB 200 -2011 ( CUB 200 ) [43] 、Stanford On-line Product(Product)[32]和Car 196 [22]数据集上进行实验。没有语义标签用于训练。加州理工-加州大学圣地亚哥分校鸟类表3:CUB200数据集的结果(%)。方法R@1R@10R@100NMI初始(本币)40.856.772.184.0示例[8]45.060.375.285.0NCE [46]46.662.376.885.8DeepCluster[3]34.652.666.882.8[21]第二十一话43.357.273.284.4我们48.964.078.086.0表4:产品数据集的结果(%)。200(CUB200)[43]是一个细粒度的鸟类数据集。接下来[32],前100个类别的5,864张图像用于训练,而其他100个类别的5,924张图像用于测试。斯坦福在线产品(产品)[32]是一个大规模的细粒度产品数据集。类似地,11,318个类别共59,551幅图像用于训练,而其他11 , 316 个 类 别 共 60 , 502 幅 图 像 用 于 测 试 。 Cars(Car196)数据集[22]是一个细粒度的汽车类别数据集。前98个类别的8,054张图像用于训练,而其他98个类别的8,131张图像用于测试。实 施 详 情 。 我 们 在 PyTorch 上 实 现 了 该 方 法 。ImageNet上的预训练Inception-V1 [39]被用作现有方法[30,32,37]的骨干网络。在pool 5层之后添加了一个128-dim的全连接层,并将其归一化为122-dim。所有输入图像首先被重新调整为256×256。 对于数据增强,图像是随机裁剪,尺寸为227×227,随机水平[21,30]。 由于预先训练的网络在CUB200数据集上表现良好,我们随机选择增强实例及其对应的最近实例作为阳性。在测试阶段,采用单个中心裁剪图像进行细粒度识别,如[30]所示。我们采用SGD优化器,动量为0.9。初始学习率设置为0.001,没有衰减。温度参数τ设定为0.1。训练批大小设置为64。评估指标。根据现有的关于监督深度嵌入学习的工作[13,32],评估了测试集的检索性能和聚类质量。相似度采用余弦相似度方法R@1R@2R@4R@8NMI初始(本币)39.252.166.178.251.4监督学习取消[32]43.656.668.679.656.5集群[38]48.261.471.881.959.2[13]第十三话45.957.769.679.858.1智能+[13]49.862.374.183.359.9无监督学习循环[25]40.852.865.176.052.6示例[8]38.250.362.875.045.0NCE [46]39.251.463.775.845.1DeepCluster[3]42.954.165.676.253.0[21]第二十一话45.357.868.678.455.0我们46.259.070.180.255.46217方法R@1R@10R@100NMI随机18.429.446.079.8示例[8]31.546.764.282.9NCE [46]34.449.065.284.1[21]第二十一话16.327.644.580.6我们39.754.971.084.7表5:Car196数据集的结果(%)。保证给定来自测试集的查询图像,R@K测量在前k个检索到的排名列表中出现任何正确匹配(具有相同类别标签)的概率[32]。报告所有测试样品的平均得分。归一化互信息(NMI)[36]用于测量测试集的聚类性能。与艺术水平相比。所有竞争方法在三个数据集上的结果分别列于表3、4和5中。[21]是唯一一种声称无监督度量学习的方法。我们在三个数据集上实现了其他三种最先进的无监督方法(Exem-plar [8],NCE [46]和DeepCluster [3请注意,这些方法最初是针对一般的无监督特征学习进行评估的,其中训练集和测试集共享相同的类别。我们还列出了在CUB200数据集上进行监督学习的一些结果(来源于[21]),如表3所示。一 般 来 说 , 实 例 特 征 学 习 方 法 ( NCE [46] ,Examplar [8] , Ours ) 优 于 非 实 例 特 征 学 习 方 法(DeepCluster [3],ESTA [21]),特别是在Car196和Product数据集上,这表明实例特征学习方法对看不见的测试类别具有良好的泛化能力。在所有基于实例的特征学习方法中,该方法是明显的赢家,这也验证了直接优化特征本身的有效性在CUB200数据集上,本文提出的无监督学习方法甚至可以定性结果。在CUB200数据集上,在不同的训练时间,一些具有余弦相似性的检索示例如图所示。4.第一章该算法可以迭代地提高学习特征的质量,检索到更多正确的图像。虽然有一些错误的检索样本从其他类别,大多数顶部检索的样本是视觉上类似的查询。从头开始训练。我们还使用网络(ResNet18)评估性能,而无需预先训练。大规模产品数据集的结果如表6所示。所提出的方法也是一个明显的赢家。在-表6:使用没有预先训练的参数的网络的产品数据集的结果(%)。4.3. 消融研究所提出的方法为实例特征学习施加了两个重要属性:数据扩充不变量和实例扩展。我们在CIFAR-10数据集上进行消融研究以战略充分不含R不含G不含C不含FkNN加速(%)83.656.279.375.782.6表7:每个数据增 强操作对CIFAR- 10数据集的影 响。“w/o”:没有。’R’:战略充分无DA硬容易kNN加速(%)83.637.483.257.5表8:CIFAR-10数据集上的不同采样策略。为了说明数据增强不变性的重要性,我们首先通过从数据增强集中分别移除每个操作来评估性能。结果示于表7中。我们观察到,所有列出的操作都有助于所提出的算法实现显着的per-perception增益。特别是,RandomResizedCrop贡献最大。我们还在表8中评估了无数据增强(无DA)的性能,结果显示性能从83.6%显著下降至37.4%。这是因为在没有数据增强的情况下进行训练时,网络不会产生任何正的集中属性。视觉相似图像的特征被错误地分离。为了显示扩散特性的重要性,我们评估了两种不同的策略来选择阴性样本:1)选择与查询实例相似的前50%实例特征为否定(硬否定); 2)选择与查询实例相似的底部50%的实例特征作为否定(容易否定)。结果在表8中显示为当只使用简单否定时,性能急剧下降。在COM中,当仅使用硬负片时,性能几乎与完整模型相同。实验表明,分离出硬否定实例有助于提高学习嵌入的可识别性.令人惊讶的是,[21]在这个实验中失败了。主要原因是随机初始化网络的特征因此,RNN无法估计用于训练的可靠标签。4.4. 对习得嵌入的理解我们计算查询特征和来自同一类别的5NN特征之间的余弦相似度(正)方法R@1R@2R@4R@8NMI初始(本币)35.147.460.072.038.3示例[8]36.548.159.271.035.4NCE [46]37.548.759.871.535.6DeepCluster[3]32.643.857.069.538.5[21]第二十一话35.548.260.672.438.6我们41.352.363.674.935.86218积极负积极负积极负积极负积极负积极负查询时期0时期1时期2图4:CUB 200 -2011数据集上一些示例查询的4 NN检索结果。阳性(阴性)检索结果以绿色(红色)框表示相似度用余弦相似度度量。555 501.00.80.60.40.20.001.00.80.60.40.20.001.00.80.60.40.20.001.00.80.60.40.20.0(a) 随机网络(b) NCE [46](a) 属性555 501.00.80.60.40.20.001.00.80.60.40.20.001.00.80.60.40.20.001.00.80.60.40.20.0(c) 示例[8](d) 我们(b)属性图5:CIFAR-10上的余弦相似性分布[23]以及来自不同类别的5NN特征(阴性)。不同方法的余弦相似度分布如图所示五、更可分离的分布指示更好的特征嵌入。结果表明,该方法对正、负样本的分离效果最好.我们还可以观察到,我们学习的特征保留了最好的扩展属性。有趣的是,展示学习的实例特征如何帮助类别标签预测。我们报告了基于其他类别定义([19]中的属性)而不是图中的语义标签六、分布清楚地表明,所提出的方法也可以很好地分离其他属性,这证明了学习特征的泛化能力。5. 结论在本文中,我们提出通过学习数据增广不变量和实例扩展特征来解决无监督嵌入学习问题。特别地,我们提出了一种新的基于实例特征的softmax嵌入,该嵌入使用Siamese网络进行训练,图6:随机初始化网络(左列)和我们学习的模型(右列)在CIFAR-10上具有不同属性的余弦相似性分布[23]。在不同的数据扩充下将同一实例的特征拉近,而将不同实例的特征推开。综合实验表明,直接优化的实例功能,导致显着的性能和效率的提高。我们的经验表明,展开属性是特别重要的,它有助于捕捉样本之间的视觉相似性。确认这 项 工 作 得 到 香 港 研 究 资 助 局 ( RGC/HKBU12200518)的这项工作部分由美国空军研究实验室(AFRL)和国防高级研究计划局(DARPA)根据合同号。FA8750-16- C-0166。本材料中表达的任何观点、发现和结论或建议仅由作者负责,不一定代表AFRL、DARPA或美国的官方观点政府的积极负积极负6219引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在ICCV,第37-45页,2015年。2[2] 博烈风,任晓峰,迪特尔.福克斯。基于rgb-d目标识别的无 监督特 征学习 。实验 机器 人,第 387-402页。Springer,2013. 6[3] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。ECCV,第132-149页,2018。一、二、五、六、七[4] Adam Coates,Andrew Ng,and Honglak Lee.无监督特征学习中单层网络的分析在AISTATS,第215-223页,2011中。5[5] Adam Coates和Andrew Y Ng。在深层网络中选择感受野。在NIPS,第2528-2536页,2011中。6[6] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,第1422-1430页,2015中。一、二[7] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗 性 特 征 学 习 。 arXiv 预 印 本 arXiv : 1605.09782 ,2016。2[8] Alexey Dosovitskiy , Philipp Fischer , Jost TobiasSpringenberg,Martin Riedmiller,and Thomas Brox.使用示例 卷积 神经 网络 进行 区分性 无监 督特 征学 习。PAMI,38(9):1734-1747,2016. 二、三、五、六、七、八[9] Alexey Dosovitskiy , Jost Tobias Springenberg , MartinRied-miller,and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。NIPS,第766-774页,2014年。2[10] Vincent Dumoulin,Ishmael Belghazi,Ben Poole,Olivi-er Mastropietro , Alex Lamb , Martin Arjovsky , andAaron Courville.逆向学习推理。arXiv预印本arXiv:1606.00704,2016。2[11] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在NIPS,第2672-2680页2[12] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习一个不变映射来降低维数. CVPR,2006。一、二[13] BenHarwood , BG Kumar , Gustavo Carneiro , IanReid,Tom Drummond,et al.深度度量学习的智能挖掘。在ICCV,第2821-2829页,2017年。二、六[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,第1026- 1034页,2015中。1[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。5[16] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。二、五[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv预印本arX-iv:1503.02531,2015。3[18] Shota Horiguchi,Daiki Ikami和Kiyoharu Aizawa。与基于距离度量学习的特征相比,基于softmax的特征的重要性。arXiv预印本arX- iv:1712.10151,2017年。2[19] 陈煌,陈昌来,唐晓鸥。区分属性和视觉表示的非监督学习。在CVPR中,第5175-5184页,2016年。8[20] 傅杰黄,Y-Lan Boureau,Yann LeCun,等. 不变特征层次的非监督学习及其在目标识别中的应用。在CVPR,第1-8页,2007中。2[21] Ahmet Iscen 、 Giorgos Tolias、 Yannis Avritis 和OndrejChum 。 Mining on manifold : Metric learning withoutlabels.2018. 一、二、五、六、七[22] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。ICCVW,第554-561页,2013年。6[23] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告,Citeseer,2009年。五、八[24] Honglak Lee , Roger Grosse , Rajesh Ranganath , andAn- drew Y Ng.卷积深度信念网络用于分层表示的可扩展无监督学习ICML,第609-616页,2009年。2[25] Dong Li , Wei-Chih Hung , Jia-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功