无监督概率结构潜表示

116 浏览量更新于2023-10-25 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1无监督嵌入的概率结构潜表示叶莽，沈Inception Institute of Artificial Intelligence，阿布扎比，阿联酋{mangye16，shenjianbingcg}@ gmail.com摘要无监督嵌入学习旨在从大规模未标记图像中提取低维视觉上有意义的表示，然后可以直接用于基于相似性的搜索。该任务面临两个主要挑战：1）从高度相似的细粒度类中挖掘积极监督; 2）生成不可见的测试类别。为了解决这些问题，本文提出了一种概率结构潜在表示（PSLR），它采用了一种自适应的softmax嵌入来逼近图潜在空间中的正集中和负实例分离特性.它通过扩大正/负差来提高区分度，而不引入任何额外的计算成本，同时保持高的学习效率。为了解决数据增强的监督受限问题，通过对实例内方差进行建模，引入了平滑的变分重构损失，提高了算法的鲁棒性。大量的实验表明，PSLR优于国家的最先进的无监督的方法上看到的和看不见的类别与余弦相似性。代码是可用的-可在https://github.com/mangye16/PSLR1. 介绍监督嵌入学习的重点是优化网络，其中属于同一类的低维特征集中，而来自不同类的特征是分开的[33，35，48，61，29]。强大的监督学习模型已经在各种任务中实现了人类水平的性能，例如人脸识别[32]和人员重新识别[55]。然而，监督方法所需的足够的注释数据需要大量的人类努力。因此，本文解决了非监督嵌入学习（UEL）问题[56]，在没有人类注释的情况下学习区分表示。UEL要求学习特征之间的相似性与视觉相似性/类别关系一致* 通讯作者：沈建兵。45°UFL车鹿UEL马135°卡车总线车鹿 PSLR马卡车狗看不见的测试类别查看测试类别搜索视觉相似的图像？最近邻搜索马/鹿？马在哪里分类器. .检测器未标记图像图1：一般UFL、UEL和拟议PSLR之间的比较。UFL通常专注于使用监督信号学习线性可分离的旋转[12，37]。学习的功能可能不会保持视觉一致性，而UEL的目的是提取视觉上有意义的表示，基于相似性的搜索。相比之下，我们的PSLR优化了潜在的代表性与内部实例变化建模，以增强不可见的测试类别的泛化能力。的输入图像，这可以随后用于基于相似性的搜索（如图所示）1）。相比之下，一般的无监督特征学习（UFL）[4，7，30，34，37，50，57]主要集中在学习良好的使用来自标记图像的子集的无监督学习的特征来训练线性然而，学习的特征可能不会保持视觉相似性，即。相似性搜索的性能急剧下降[56]。UEL的主要挑战是从未标记的图像中挖掘视觉相似关系或弱正监督。在监督嵌入学习之后，开发了RNN[20]来挖掘流形空间中的硬阳性和阴性样本。然而，它的La-54575458BEL挖掘严重依赖于初始化的表示。实例监督是UEL的另一种流行方法[19，51，56]。具体来说，不同的实例被视为负样本，并在嵌入空间中故意分离[3，51]。沿着类似的路线，提出锚邻域发现（AND）[19]以增强与挖掘的最近邻域的正相似性[38]。然而，邻域发现可能会引入大量的假阳性，特别是在细粒度的情况下。颗粒图像识别任务（§4.2）。另一个缺点是，它们的优化是在原型上执行的理论[19，51]而不是实例功能，这导致效率有限。类似地， [56] 中引入了增强不变性和扩散实例特征（ISIF），其中随机数据增强用于提供积极监督。然而，数据增强只能提供有限的积极监督，并且过度拟合这些增强的实例特征将导致较差的可泛化性，即，当训练和测试类别不重叠（看不见的测试类别）且具有未知变化时，所学习的表示不能很好地执行。本文提出了一种新的概率结构潜在表示（PSLR）的UEL。具体而言，PSLR通过学习具有变分结构建模的图潜在表示来挖掘每个训练批次内的关系，该图潜在表示近似潜在空间中的数据增强集中和负实例分离属性。引入了一种新的自适应softmax嵌入来优化潜在表示而不是实例特征。这导致了在保持高学习效率的同时，对看不见的测试类别有更好的概括性。通过引入一个自适应因子来扩大正负样本对之间的差异，在不增加额外计算量的情况下增强了判别能力。它还显著提高了ISIF方法的性能[56]。此外，PSLR结合了平滑变分自重构损失，以增强对图像噪声的鲁棒性。该策略还通过在潜在表征中加入辅助噪声，提高了对未知测试类别的泛化能力，丰富了正向监督。我们的主要贡献总结如下：我们提出了一种新的概率结构潜在表示（PSLR）的无监督嵌入学习。对潜在表征的优化比竞争方法具有更高的准确性，而与直接表征优化相比，它保持了更高的我们引入了一个自适应的softmax嵌入潜在的表示，通过扩大的正/负的差异。这提供了更强的可辨别性和更好的概括性，而无需额外的成本。我们在使用余弦相似性搜索的可见和不可见测试类别下，在五个数据集上的表现优于当前最先进的技术。2. 相关工作无监督深度学习无监督深度学习有四种主要方法[4]，如下所示：1）估计图像间标签，这种方法利用聚类挖掘图像间关系[4，10，30]或最近的邻居[19，44]提供标签信息。2)生成模型，它通常通过参数化映射来学习真实的数据最常用的模型包括Bolztmann机器（RBM）[27，43]，自动编码器[18，45，57]和生成对抗网络。工作（GAN）[13，8，11]。3)自监督学习，这种方法设计监督信号来指导特征学习[21，24]，例如局部补丁的上下文信息[7]，随机重新排列的补丁的位置[34，50]，图像的丢失像素[36]，颜色模式[58]和视频中的时空信息[1，47]。4)实例学习，它通过分离不同的实例特征[9，51，56]或局部聚合[19，62]将每个图像实例视为一个不同的类。上述方法中的大多数属于一般的非监督特征学习，其中学习到的表示被应用于具有一小组注释的训练样本的下游任务。然而，学习的表示可能不保留视觉意义[56]，使它们不适合基于相似性的任务，即，最近邻搜索，人员重新识别[52，53，54]。无监督嵌入学习这种方法旨在通过优化样本之间的相似性来学习视觉上有意义的表示。通过适当的初始化表示，Iscen等人。 [20]在流形空间中挖掘硬阳性和阴性样本，然后使用三重丢失训练嵌入。随后，增加不变和扩展实例特征（ISIF）[56]这是一个很好的例子。具有挑战性的看不见的测试类别需要额外的泛化能力，而不是过度拟合到可见的训练类别。我们的方法与图变分自动编码器[23，60]密切相关，利用输入图节点之间的结构关系。它也与变分深度度量学习有关[31，39]。然而，我们的方法是完全无监督的，没有任何输入边缘信息。3. 建议的PSLR方法问题表述。给定 n 幅未标记图像 X ={x1 ，x2，···，xn}，UEL的目标是学习一个特征提取网络fθ（·），该网络将输入图像xi映射为一个低维嵌入特征f θ（xi）∈ R1×d（d为特征维数）. 为了简化符号，输入图像xi的实例特征表示fθ（xi）由xi∈R1×d表示。正如[35，41]中所指出的，学习的嵌入应该满足两个属性：posi-正浓度和负分离。5459i=12i=12我zTzI I图2：使用Siamese网络训练的PSLR概述。特征嵌入网络将输入图像投影成低维归一化特征。PSLR近似数据增强不变量和实例分离属性，并在§ 3中在潜在空间上嵌入自适应softmax。2，连同§ 3中的自我重建。3和§ 3中的概率结构保持。4.第一章如果没有类标签，我们近似上述两个Z=φ（D−1AD−1XW），（2）使用数据扩充作为积极监督的属性。其中DiiΣ=jAij 是A和φ（·）的阶矩阵锡永，即，同一实例在不同条件下的特征数据扩充应该是不变的，而不同实例的特征应该是展开的。沿着这条线，建议PSLR实现了更好的鲁棒性对噪声的情况下，更好的泛化能力看不见的测试类别。PSLR的概述如图所示。二、3.1. 图隐表示我们的模型将嵌入实例特征{xi}作为输入，并且通过在每个训练批次内构建无向图G，使用图卷积网络（GCN）来获得图潜在表示{zi}表示ReLU激活功能。W是网络权重矩阵.图的潜在表示{Z=z1，···，zm，z1，···，zm}∈R2m×d包含了来自实例特征的真实信息我们可以改变-主动使用线性层来获得潜在表示。3.2. 基于潜表示的自适应Softmax算法利用上述图的潜在表示，我们提出了一种新的自适应softmax嵌入方法来近似正浓度和负分离性质。对于每个实例xi，我们将增强的潜在表示处理为扩展的样本，而潜在的在每个训练步骤，m个实例{xi}m随机表示zk（k/=i）从其他情况下被认为是执行采样和数据增强以生成增广样本集{x∈i}m。我们代表联邦选举局-如n g at iv es. 扩充样本xi被识别为实例xi的概率表示为：原始特征和增强特征的真实集合，{X=x1，···，xm，x<$1，···，x<$m}∈R2m×d. We结构exp（zT<$zi/τ）P（i|xi）=exp（/τ）+ηT，（3）我i·k iexp（zk<$zi/τ）一个无向图G=（A，Z）使用关系be-X内的实例要素之间，以及相邻区域之间，A∈R2m×2m由下式计算：其中η >1是放大相似性差的放大参数，放大负相似性差。在那里我A=I2m 、（1）分母中的一个τ1是温度Pa，随机数平滑概率分布[16，19，51]。2m是单位矩阵，表示每个节点与自身相连其主要原因是在没有标号信息的情况下，很难挖掘出可靠的结构关系用于图的构造。注意，也可以采用邻域分布（AND）[19]来增强请注意，所有的潜在表示都是为了数值稳定性而进行了2 ×2归一化的，即，|2 = 1。|2= 1.类似地，通过以下公式计算扩增样本xji被识别为实例xj（ji）的概率exp（zT<$z/τ）图构造使用挖掘的附加正i-ji与邻居的编队（例如，在CIFAR-10数据集上，P（j|xi）=exp（zTz/τ）+η·exp（zTz/τ）。重建损失{xi}RD{x}我G（A，Z）{zi}s ∈ N（0，1）联系我们我CNN联系潜在表征损失Fz数据增强权重共享Z{σ^i}CNN联系我们联系我们我GCN{z^i}我s ∈ N（0，1）{x^r}我D重建损失重新参数化重新参数化结构保持（Eq.第十一章KL（英）分布对齐（等式12）fsp（Z *| X，A）p（Z*）log p（A Z*）|FC. .-是的5460（四）如图4.1.1所示）。然而，这一战略在细粒度的图像识别设置，因为它是困难的来挖掘可靠的积极因素图的潜在表示然后通过图卷积层获得Z最后，我们在潜在代表上的自适应softmax嵌入-通过最小化所有实例上的负对数似然之和来表示，其表示为FC5461我我我我i i=1ij21. 增强2. 潜×5×5×5×53. 放大×5×5×5×54. 变分5. 结构化图3：PSLR的分步说明。给定增强的实例特征，我们使用放大的正/负相似性来优化潜在变分建模和结构信息被纳入，以加强嵌入学习。ΣΣLz=−η·Σl o g（1−P（j|xi））−llogP（i|xxi）。（五）3.4. 概率结构保护我j/=ii我们的自适应softmax嵌入有两个主要优点：1）适应性因子η >1扩大了正相似性和负相似性之间的差异，这通过解决正样本对和负样本对之间的不平衡来增强模型的可辨别性;2）对潜在表示执行softmax可以更好地推广不可见的测试类别，如§4.2所示，因为这种修改可以防止网络过度拟合训练实例特征。总而言之，自适应softmax嵌入通过直接优化潜在的本节提出了一种概率结构识别策略，以增强无监督嵌入特征学习[23]。结构损失Ls包含两个主要的组成部分：结构保持损失Lg和dis-g。校准损耗Lkl。Ls=Lg+ Lkl。（八）结构保存。该组件将Z的图结构（来自原始样本和增强样本）与原始图输入G匹配。具体地，变分潜在表示之间的结构是测量表示，如图所示第4.1节第4段。P（A|Z）=Y2mY2mp（Aij|z，z），（9）i=1j=1i j3.3. 光滑变分自重构p（A ij=1|z，z）=（zTz），（10）i j i j为了增强鲁棒性，我们设计了一个平滑变量，自我重建的丧失。基本思想是使用噪声破坏的潜在表示（原始和aug）重构原始输入嵌入特征X。（22）Z_m={z_m}2m，通过重新参数化过程[22]。具体地说，我们假设z满足单变量其中，f（·）是具有logisticsigmoid函数的动作运算内积直接度量相似性在两个变分潜在变量（节点）之间进行匹配以匹配原始图形输入。为了简单起见，我们采用L2距离来测量图形差异，而不是原始的。最终极大似然估计（最小logP（A|Z））高斯分布，zp（z|xi）=N（zi，σ2）. 的我我我[23]第10段。这是由然后，重新参数化的潜在表示表示为：z=zi+σi·，（6）ΣLg=Aij>0||Aij−ϕ(z∗T. z）||二、（十一）其中σi是基于xi的另一GCN层的输出。 N（0，1）是一个辅助噪声变量。为了增强嵌入特征的表示能力，我们添加另一个解码器D（·）基于z_i重构xi，即，分布对齐。它将实例内部方差 p （ Z ），具有各向同性中心高斯分布，Kullback-Leibler 散度 p （ Z|X ， A ） =N （ Z） |Z ，σ2），公式如下：我rL=−KL（p（Z）|X，A）||p（Z））Xi =D（zi）. 这里，采用平滑的L1损失作为kl1 Σ重构损失=−（1+ 2 log（σ（j））−（z（j））2−（σ（j））2）。.Σ0 5（xi）L=-Xr）2，|Xi-xr|<1（七）4m i，j∈B我我我（十二）5462我Ri∈B|xi -xr|，否则。3.5.联合训练变分自重构有两个主要优点：它通过捕获信息分量来增强鲁棒性[17，49]，并且它同时通过除了数据增强之外还丰富正监督来提高可辨别性。此外，平滑的L1损失易于优化，确保稳定的训练。总体学习目标函数L是三个分量的组合，由下式表示：L=Lz+Lr+λ·Ls。（十三）λ是结构损耗的加权因子PSLR的逐步说明如图所示。3：1）实例5463特征首先由网络使用数据增强来提取; 2）在每个训练批内计算图形潜在表示;3）使用可适应的softmax嵌入来优化网络，其中潜在表示之间具有放大的4)对变分隐表示进行重构，增强了鲁棒性;以及5）排列结构信息以增强可辨别性。暹罗网络培训。如图2、PSLR采用暹罗网络进行训练，保证训练效率。在每一步训练中，对m幅图像样本进行随机采样，并进行两次随机数据扩充，然后将总共2m幅图像送入网络进行训练。该策略避免了重复的成对相似性测量方程。3和4，从而提高效率。4. 实验结果我们在两种不同的设置下评估PSLR：可见测试类别（第4.1节中的CIFAR-10 [26]和STL-10 [5]数据集）和不可见测试类别（CUB 200 [46]，第4.2节中的Car196 [25]和Product [35]数据集）。在以前的设置、训练和测试集共享同一个猫-egories（kNN分类协议），而在第二设置中，它们不共享任何公共类别（零拍摄图像检索协议）。4.1. Seen测试范畴本小节评估学习的嵌入，其中测试样本与训练样本共享相同的类别。在 [51 ， 56] 之后，我们使用ResNet 18网络[15]作为骨干，对CIFAR-10 [26]和STL-10 [5]我们将输出特征嵌入和潜在表示的维度固定为128。我们将初始学习率设置为0.03，然后在前120个epoch之后每40个epoch衰减0.1，总共200个训练epoch。为了避免平凡的解决方案，我们使用I2m作为相邻矩阵A，我们可能会在未来研究更好的图构造策略。我们设定温度参数τ为0.1，适应性指标η为100，λ = 0。1 .一、我们将所有比较的批量大小固定为128PSLR在PyTorch上实现，并通过SGD进行优化，其中权重衰减参数是5×10−4，动量是0.9。对于数据扩充，RandomResizedCrop、RandomGrayscale、ColorJitter和随机水平翻转）被采用[56]。采用加权k-NN分类器来评估前1分类精度。kNN分类器测量学习特征之间的视觉相似给定一个测试样本，利用余弦相似度检索其前k个（k=200）最近邻，并利用加权相似度预测输入测试样本的标签.表1：CIFAR-10数据集上不同k的kNN准确度（%）。方法K=5K=20k=200RandomCNN32.434.833.4DeepCluster（1000）[4]66.567.467.6示例[9]73.274.074.5NPSoftmax [51]79.680.580.8NCE [51]79.480.280.4ISIF [56]82.483.183.6和[19]（两轮）82.783.684.2和[19]（5轮）84.885.986.3[57]第五十七话77.676.378.2[37]第三十七话78.478.579.0PSLR（1轮）83.884.785.2PSLR + AND（5轮）87.488.188.4†AND [19]是通过逐渐发现邻居来构建的，每一轮需要200个epoch。其他方法报告了200个epoch。结果（AET [57]和AVT [37]）是用第二个卷积块的特征获得的，而最后一个嵌入层不保留视觉意义，kNN搜索的准确性非常低。907050200 1020 40 80 120 160 200训练时期图4：CIFAR-10数据集上的学习曲线。报告每个训练时期的kNN准确度（%）。（k= 200）4.1.1CIFAR-10数据集CIFAR-10 [26]包含来自相同10个类别的50，000/10，000（32×32）我们将PSLR与8无监督学习方法，如表1所示。请注意，ISIF [56]和AND [19]表示最先进的UEL方法，而AET [57]和AVT[37]表示最先进的UFL任务，它使用无监督学习的表示学习带有注释标签的线性学习曲线如图所示。4.第一章kNN分类精度。表1表明PSLR在200个训练时期达到最佳性能（85.2%）请注意，AND [19]通过连续的邻域最小值实现了稍好的准确度（86.3%）在1000个训练周期后，PSLR达到88.4%。与在实例特征上嵌入softmax的ISIF [56]相比，PSLR通过使用结构信息挖掘优化潜在表示来不断提高性能。主要原因是，使用潜在表征的学习会导致更好的学习效果。PSLRISIF [56]和[19]DeepCluster [4]NCE [51]示例[9]累积（%）5464表2：线性分类器（Lin-ear）和kNN分类器（kNN）对STL-10数据集的分类准确度（%）。方法培训线性KNNRandomCNN没有一-22.4k-MeansNet [6]105K60.1-HMP [2]105K64.5-[59]第五十九话105K74.3-示例[9]105K75.4-NPSoftmax [51]5K62.366.8NCE [51]5K61.966.2[4]第四届全国政协委员5K56.561.2ISIF [56]5K69.574.1和[19]105K76.880.2ISIF [56]105K77.981.6PSLR105K78.883.2如第4.3节所述，测试样本的普遍性。与AET [57]和AVT [37]相比，它们在学习良好的ear classifier learning, but their performance for similarity-based search drops dramatically.效率图4示出了所有比较方法的学习速度。我们观察到PSLR和ISIF[56]通过直接对特征而不是存储体进行优化，实现比其他竞争者更快的学习速度[19，51]。这表明，与[56]相比，在潜在表示上执行的自适应softmax嵌入保持了高效率，同时提高了测试精度4.1.2STL-10数据集STL-10 [5]是一个用于无监督学习的图像识别数据集它包含来自10个类的5000个标记图像（96×96）和100，000个未标记图像。我们不使用带注释的标签进行嵌入学习。测试集包含来自相同的10个类的8000个图像。我们报告使用表2 中的线性分类器（Linear）和kNN 分类器（kNN）的分类准确度（%）。基于105K训练表3：CUB200数据集上的检索性能（%）。方法R@1R@2R@4R@8监督学习取消[35]43.656.668.679.6集群[41]48.261.471.881.9[第14话]45.957.769.679.8智能+[14]49.862.374.183.3N-pair [40]45.458.469.579.5无监督学习初始（本币）39.252.166.178.2循环[28]40.852.865.176.0示例[9]38.250.362.875.0NCE [51]39.251.463.775.8DeepCluster[4]42.954.165.676.2[20]第二十话45.357.868.678.4和[19]47.359.471.081.0ISIF [56]46.259.070.180.2PSLR48.160.171.881.64.2. 隐形测试范畴在本节中，我们使用看不见的测试类别进行实验，其中训练和测试类别不重叠。我们遵循[35，56]中描述的设置，并在三个细粒度图像检索数据集上进行实验，包括 CUB200[46] ， Stanford Online Product（Product）[35]和Car196 [25]。细粒度的图像类使得相似性挖掘非常具有挑战性，因为我们不使用语义标签进行训练。数据集。CUB200是一个包含200种鸟类的数据集。前100个类（5，864张图像）用于训练，而其余100个类（ 5 ， 924 张图像）用于测试。 Stanford OnlineProduct（斯坦福在线产品）[35]一个在线产品数据集，有更多的类。其中11,318个类共59,551张图像用于训练，其余11,316个类共60,502张图像用于测试。Car196[25]是一个细粒度的汽车数据集。我们使用前98个类（8，054张图像）进行训练，而其余98个类（8，131张图像）进行测试。实施详情。我们采用在 ImageNet 上预训练的Inception-V1网络[42]作为我们的骨干，图像.我们在相同的设置下实现AND [19]，而其他结果取自[56]。表2表明PSLR在两个评估指标（kNN：83.2%，林-耳：78.8%）。当我们使用105K图像进行训练时，我们的性能始终优于两种最先进的方法（AND [19]和ISIF [56]）。请注意，线性，它衡量学习的表示的线性可分性，需要额外的分类器训练与标记的图像。相比之下，kNN分类器直接测量具有学习表示的视觉相似性，这需要样本之间的相似性保持。此外，该实验还表明，PSLR受益于更多的训练样本。[20，56]。在pool 5层之后添加了一个批处理归一化层，然后是一个全连接层（128-dim）。潜在表示的特征维度被设置为128。初始学习率设置为0.001，无衰减。温度参数τ被设置为0.1并且η被设置为1。其他参数和设置完全相同，与§4.1中的优化相同。训练批大小设置为64。输入图像首先被调整为256×256，然后在输入网络之前随机水平翻转随机裁剪为227×227图像。评估指标。在测试阶段，采用中心裁剪图像进行特征提取。福尔-根据现有的工作[35，14]，检索性能（Rank-k精度）与余弦相似性[56]报告。5465Table4: Retrieval performance (%) on Car196 dataset.方法R@1R@2R@4R@8初始（本币）35.147.460.072.0示例[9]36.548.159.271.0NCE [51]37.548.759.871.5DeepCluster[4]32.643.857.069.5[20]第二十话35.548.260.672.4和[19]38.449.660.272.9ISIF [56]41.352.363.674.9PSLR43.754.866.176.2表5：产品数据集的检索性能（%）。方法R@1R@10R@100初始（本币）40.856.772.1示例[9]45.060.375.2NCE [51]46.662.376.8DeepCluster[4]34.652.666.8[20]第二十话43.357.273.2和[19]47.462.677.1ISIF [56]48.964.078.0PSLR51.166.579.8相比于最先进的技术我们比较最先进的无监督学习方法，包括Exemplar [9]，NCE [51]，DeepCluster[4]，DeepCluster [20]和ISIF [19]。结果分别见表3、4和5。这些结果大多来自[56]。我们还在相同的设置下实现了最先进的AND [19]，以进行比较。请注意，使用AND挖掘的邻居包含大量误报，因为不同的类在此设置中非常相似。我们还比较了CUB200数据集上的一些监督学习方法，如表3所示。在看不见的测试类别下的主要挑战是这些类别不会出现在训练集中，这需要视觉相似性挖掘而不是拟合训练样本。三个细粒度图像识别数据集上的结果表明，实例表示学习模型（NCE [51]，AND [19]，ISIF[56]和PSLR）通常比标签挖掘方法（DeepCluster [4]，EML [20]）表现更好。主要原因是实例监督避免了错误的标签估计，使其更适合在这些细粒度设置下的无监督学习。当邻域发现可靠时，AND [19]在CUB200数据集上表现良好，具有良好的初始化模型，但当应用于Car196和Product时，性能急剧下降，其中很难挖掘可靠的邻域信息。相比之下，PSLR不依赖于初始化表示。与ISIF [56]相比，PSLR也是明显的赢家，因为它优化了结构信息的潜在表示。我们的设计展示了更好地概括第4.3节中验证的不可见测试类别。同时，PSLR甚至达到了与CUB200上的一些监督方法相当的性能。表6：没有预训练网络的产品数据集的结果。方法R@1R@10R@100随机18.429.446.0示例[9]31.546.764.2NCE [51]34.449.065.2[20]第二十话16.327.644.5和[19]36.452.867.2ISIF [56]39.754.971.0PSLR（η= 1）40.455.669.7PSLR（η= 10）42.357.772.5图5：在CUB200数据集上检索具有计算余弦相似性的示例。阳性和阴性检索结果分别以绿色和红色框定性结果。为了理解学习的嵌入，我们可视化了CUB200数据集上的一些检索结果，如图所示。五、虽然它包含一些错误检索的图像与不同的语义标签，大多数排名靠前的图像在视觉上类似的查询图像。这表明PSLR可以学习一个很好的特征嵌入来挖掘潜在的视觉相似性。有趣的是，PSLR仍然获得正确的结果，即使鸟类图像遭受翻转变化（图1中的第一和第二行）。（五）。主要原因是PSLR通过随机翻转学习数据增强不变特征，通过潜在表示学习实现。从头开始训练。我们还在大规模产品数据集上评估PSLR，而不使用预训练的图像。geNet模型（ResNet18）用于初始化。不同方法的结果如表6所示。我们观察到PSLR再次成为明显的赢家，即使没有预先训练的模型。主要原因是使用随机增加的样本作为正样本为无监督嵌入学习提供了可靠的正监督。相比之下，由于使用随机初始化网络对细粒度类别进行不正确的标签挖掘，因此在本实验中，Numbers [20]和AND [195466积极负4.3. 进一步分析每个组件的有效性。我们在Car196数据集上评估了我们提出的PSLR中的每个组件，如表7所示。我们观察到，所有的设计组件有助于性能增益。顺利6301.00.80.60.40.20.06301.00.80.60.40.20.0变分重构损失Lr增强了对信号噪声的鲁棒性并丰富了正向监督，从而提高了对不可见类别的测试性能。此外，图的结构保持损失Ls通过挖掘不同实例表示之间的关系线索来促进表示学习.(a) PSLR与实例功能（测试等级-1：41.3%）6 63 30 01.00.80.60.40.20.01.00.80.60.40.20.0表7：各组分对Car196数据集的影响。秩-k报告准确度（%）(b) 潜在表征PSLR（检验秩-1：图6：来自Car 196数据集的训练集（左列）和测试集（右列）的余弦相似性分布。85.2CIFAR-10的kNN Acc（%）42.642.3产品的Rank-1 Accc（%）为什么要使用Latent Representation Learning？我们在Car196数据集上可视化了训练集和测试集的相似性分布。我们计算了查询特征与来自相同类别（正）以及5NN的5NN特征之间的余弦相似性84.884.083.61 1010040.439.71 10 100不同类别的特征（否定）。分布-PSLR与潜在表示或直接与实例特征学习的关系如图所示六、注意，后者直接优化Eq.5具有实例功能。当然，一个更分离的分布（正vs.否定）表示更好的特征嵌入。图6表明，实例特征优化在训练集上实现了比潜在表示优化更好的分离，但在测试集上表现较差该实验表明，潜在表征学习更适合于具有未知测试类别的UEL，因为它防止了对训练实例特征的过度拟合。为什么选择Adaptable Softmax？本小节评估第3.2节中潜在表示的自适应softmax嵌入。我们在一个测试类别数据集（CIFAR-10）上绘制了不同η（1，10，100）的性能，一个看不见的测试类别数据集（产品），如图所示。7.第一次会议。我们还报告了具有不同η的ISIF [56]的性能。请注意，当η=1时，我们提出的具有自适应因子η的自适应softmax等效于ISIF。我们从图中得出两个结论7：1）适应-在两种不同的设置下，能够因子显著提高PSLR和ISIF的性能其主要原因是正、负概率差随η增大而增大。这增强了扩大负样本的可区分性，这与硬负样本挖掘具有相似的精神[14]。2)拟议的PSLR始终优于其主要对手ISIF在所有的设置。这进一步证明了潜在表征学习的优越性。图7：CIFAR-10和Prod-uct数据集上PSLR中不同η的结果，使用ResNet 18（从头开始训练）显示自适应softmax嵌入的有效性。我们发现ISIF [56]也随着适应因子而得到改进。骨干网。在这一部分中，我们评估了PSLR在不同骨干网络上的通用性。我们进一步在三个细粒度图像识别数据集上测试ResNet18和ResNet50 [15]，这些数据集具有看不见的测试类别。表8中的秩-1准确度表明PSLR受益于更强的骨干网络结构。表8：不同骨干网络的秩1准确度（%）。骨干公司简介中国人196产品启动V148.143.751.1ResNet1848.939.252.2ResNet5049.042.861.65. 结论本文提出了一种新的概率结构潜在表示（PSLR）的无监督嵌入学习。我们提出了一种自适应的softmax嵌入来优化图的潜在表示，它实现了卓越的性能，并在可见和不可见的类别上实现了高效率。同时，引入光滑变分重构损失，增强了对信号噪声的鲁棒性，丰富了正向监督。为了充分利用不同实例之间的潜在关系，还开发了一种结构保持损失。在5个不同的余弦相似度数据集上进行了大量的实验，验证了该方法的有效性.积极负积极负积极负PSLR（Ours）ISIF（Ours）ISIF[56]PSLR（Ours）ISIF（Ours）ISIF[56]战略R@1R@2R@4R@8Lz42.153.264.675.2Lz+L r43.254.665.675.9Lz+L r+L s43.754.866.176.25467引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在ICCV，第37-45页，2015年。2[2] 博烈风，任晓峰，迪特尔.福克斯。基于rgb-d目标识别的无监督特征学习。实验机器人，第 387-402页。Springer，2013. 6[3] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督在ICML，第517-526页，2017年。2[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。ECCV，第132-149页，2018。一、二、五、六、七[5] Adam Coates，Andrew Ng，and Honglak Lee.无监督特征学习中单层网络的分析在AISTATS，第215-223页，2011中。五、六[6] Adam Coates和Andrew Y Ng。在深层网络中选择感受野。在NIPS，第2528-2536页，2011中。6[7] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV，第1422-1430页，2015中。一、二[8] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。 arXiv 预印本 arXiv ： 1605.09782 ，2016。2[9] Alexey Dosovitskiy ， Philipp Fischer ， Jost TobiasSpringenberg，Martin Riedmiller，and Thomas Brox.使用示例卷积神经网络进行区分性无监督特征学习。IEEETPAMI，38（9）：1734-1747，2016。二五六七[10] Alexey Dosovitskiy ， Jost Tobias Springenberg ， MartinRied-miller，and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。NIPS，第766-774页，2014年。2[11] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。arXiv预印本arXiv：1606.00704，2016。2[12] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR，2018年。1[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页2[14] BenHarwood ， BG Kumar ， Gustavo Carneiro ， IanReid，Tom Drummond，et al.深度度量学习的智能挖掘。在ICCV，第2821-2829页，2017年。六、八[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。五、八[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。3[17] Geoffrey E Hinton和Ruslan R Salakhutdinov.用神经网络降低数据的维数。Science，313（5786）：504-507，2006.

下载后可阅读完整内容，剩余1页未读，立即下载