没有合适的资源?快使用搜索试试~ 我知道了~
1基于判别式语义表示学习的叶梦†郭玉红天普大学计算机与信息科学学院†卡尔顿大学meng.ye @ temple.educom,yuhong.guo@wwwcarleton.ca摘要零触发学习是无监督域自适应的一种特殊情况,其中源域和目标域具有不相交的标签空间,在计算机视觉社区中变得越来越流行。本文提出了一种新的基于判别稀疏非负矩阵分解的零射击学习方法。所提出的方法旨在通过非负稀疏矩阵分解来识别两个域中的一组公共高级语义分量,同时强制该公共基于分量的空间中的图像的表示向量为了充分利用实例的学习表示向量中包含的对齐语义信息,我们开发了一个基于标签传播的测试过程来将未标记的实例从目标域中看不见的类中分类出来。我们在四个标准的零拍学习图像数据集上进行了实验,通过比较所提出的方法与最先进的零拍学习方法。实证结果证明了所提出的方法的有效性。1. 介绍随着图像采集量的迅速增加,涉及的类别也迅速扩大。然而,流行的标准图像分类模型,如深度神经网络[15,28],需要来自所有类别的大量标记训练数据才能正常运行为了应对在新出现的类上构建预测系统所需的昂贵且有时不切实际的注释需求,零射击学习(zero-shot learning,简称ZOL)最近在研究界受到越来越多的关注。ZOL将来自具有标记实例的已见类的信息转移到识别在标记训练数据中未见的新类已经在各种计算机视觉任务中研究了BML,包括图像分类[17,7,2,18,14],事件检测[32]和动作识别[10,19,5]。可将BML视为无监督域自适应的特殊情况,其中源域(来自可见类的标记数据)和目标域(来自未见类的未标记数据)具有完全不相交的标记空间。因此,通常需要额外的辅助信息来构建类间连接,以促进跨类类别的信息适配。表示高级视觉实体或视觉特征的属性是零镜头学习中最常见的一种辅助在文献中已经利用高级视觉属性来提高图像分类性能[6,31,27]。在XML中,这些属性主要用于为类标签提供高级例如,在具有属性的动物(AwA)数据集[16]中,每个类类别已经被描述为诸如“黑色”、“条纹”、“四条腿”等属性的原型向量。通过基于相同的属性集将可见类和不可见类两者映射到语义空间中,可以实现零射击分类的信息自适应[ 23,16、17]。除了属性之外,词嵌入还被用于产生语义标签表示,即,原型标签向量,并在一些CNOML作品中建立类间连接[7,22,29,2]。其他一些工作也利用类分类结构来推断CNOL的标签关系[25,12,3]。从方法论的角度来看,许多研究者已经发展了许多的语言学习方法。它们大致可分为以下三种类型:(1)视觉特征投影方法;(2)语义相似性匹配方法;(3)稀疏编码方法。视觉特征投影方法首先将一个实例(图像的视觉特征向量)投影到与原型类型标签向量相同的语义空间中,然后通过比较其与所有未见过类的原型的相似性来为其分配预测标签[17,1,2,7,26]。语义相似性匹配方法以不同的方式工作[17,22,34]。它们的训练部分与传统的图像分类问题相同,即,在所看到的类上训练分类器。71407141当一个测试实例到来时,它们使用训练好的分类器来获取属于每个所见类的实例的预测分数。最后,将分数与每对可见和未可见类之间的语义相似性组合以导出关于目标未可见类的预测分数。另一方面,稀疏编码方法是前两种方法的组合[12,14]。该方法利用稀疏编码技术将测试实例转换到标签嵌入空间,同时将测试实例分配到具有最接近语义嵌入的不可见类中。然而,大多数这些CNOL方法未能在训练阶段以与来自已见类的标记实例相同的方式利用来自未见类的未标记实例,这使得它们容易发生域偏移并导致对已见类的过拟合。本文提出了一种基于稀疏非负矩阵分解的零拍学习方法,该方法属于稀疏编码类。我们对待标记的数据,从看到的类作为源域和未标记的数据,从看不见的类作为目标域,并考虑作为一个特殊的情况下,无监督域自适应的CNOL。为了弥合跨域的分歧,并使信息传输的标签类别,我们执行稀疏的非负矩阵因子化的数据在这两个领域,以诱导一个共同的字典在这两个领域,包含组件的一组扩展的高级语义视觉属性,同时表示实例在这两个领域中的共同语义字典空间。此外,我们同时对齐的相关部分的语义表示向量的标记实例,其基于属性的类标签向量下的歧视铰链损失。 我们将整个学习过程表述为半监督稀疏非负矩阵分解问题,提出了一种基于投影梯度下降的迭代优化算法。此外,我们建议进一步利用学习到的语义表示,并使用标签传播技术来执行测试实例分类在目标域。与以往的工作相比,该方法同时从可见类和不可见类中学习实例的区别性语义表示,避免了潜在的领域迁移问题,自然地实现了跨领域信息传递.我们在四个标准数据集上进行了实验,实验结果表明,所提出的方法可以优于最先进的CNOL方法。2. 相关工作视觉特征投影。许多实例分类方法通过探索可见类和不可见类之间的语义关系来达到自动分类的目的看不见的班级。视觉特征投影方法首先基于训练实例和训练类的属性向量(或语义嵌入)训练投影模型然后给定一个测试实例,他们将该实例投影到语义空间上,并通过将语义输出与未见过类的原型进行比较,将其分配到一个未见过类中。文献中采用了许多不同的投影策略,包括属性直接预测[16,17]、线性映射[1,2]、卷积神经网络[7]和简单的双层线性网络[26]。然而,这些方法在投影函数学习过程中未能考虑来自不可见类的未标记实例语义相似度匹配。语义相似性匹配方法不是像视觉特征投影方法那样将视觉特征投影到语义空间中,而是在所看到的类的训练数据上训练经典分类器。在测试阶段,他们首先应用学习的分类器根据可见类对测试实例进行分类,然后使用可见类和不可见类之间的语义相似性例如,间接属性预测(IAP)方法[16]在看到的类上训练概率分类器。在测试阶段,使用可见类的预测分数来预测属性分布,该属性分布进一步用于预测不可见类分布。在[22]中,作者使用卷积神经网络直接预测图像的可见类标签,然后使用可见类词嵌入的凸组合[20]与不可见类嵌入匹配。 语义相似嵌入(SSE)方法[34] 提出将每个未看见的类表示为看见的类的分布/直方图。学习非线性嵌入最近,[4]中的工作引入了幻影类,并提出训练幻影分类器作为合成真实类分类器的基础。这些方法也未能在训练过程中利用来自目标域的未标记数据。稀疏编码。在稀疏编码和字典学习方面有大量的工作,但很少有人解决了CNOL。[12]中的工作建议将每个类别表示为它的超类别加上属性的组合。由于每个类别只包含几个属性,它们学习稀疏投影矩阵来嵌入可见/不可见的类别。它们还需要来自WordNet的层次类别信息。[14]中的另一项工作提出首先使用稀疏编码学习源数据上的字典,然后通过最小化重建误差来学习目标域字典和目标数据语义标签他们还利用了自适应正则化约束和视觉语义相似性约束(VSS)。这项工作与我们的不同之处在于,它分别学习两个dic-7142F我字典的源和目标领域,而我们学习一个统一的语义字典这两个领域。最近,[35] 提出了一种新的联合潜在相似性嵌入(JLSE)方法。他们提出学习一个对噪声不敏感的联合潜在空间,并且可以很好地拟合源和目标实例。他们报告说,与以前的最先进技术相比,有了很大的改进。因此,我们将把我们提出的方法与这项工作进行比较。3. 方法3.1. 问题公式化我们考虑在以下无监督域将数据隐藏在看不见的类中,这最终会损害ACL的性能。这启发我们在同一语义空间中从可见类和不可见类中联合识别标记图像和未标记图像的高级潜在表示。从无监督域自适应的角度来看,我们也有动机学习数据的可转移潜在表示,以解决域发散问题[9,21]。因此,我们提出通过对X执行以下统一的稀疏非负矩阵分解(NMF)来学习来自可见和不可见类别的图像的潜在中间表示,其中X具有一组公共的非负基分量:1自适应设置 我们有ns个标记图像(Xs,Ys)从K s看到的类Ys={1,2,...,源中的K s}minZ≥0,Φ≥0X−ZΦ2域中的一组 nu个未标记图像 Xu,其中K = Ks +Ku,Yu={Ks+1,· ··,K}来自于Target域中的Ku个未知类。这里Xs∈IRns×d和Xu∈IRnu×d是输入特征矩阵,Ys∈ {0,1}ns×K是类成员指示矩阵,它在每行的前Ks列中包含我们使用X= [Xs;Xu]∈IR n×d来表示所有表示为d维行向量的输入图像。 我们还假设所有K个类的基于属性的原型向量以标签表示矩阵M∈IR K×m的形式可用,其中M的第k行表示第k个类的语义原型向量,并且通常是稀疏的。该算法的目标是将源域中的信息准确地从目标域中的Yu中转移到未标记图像Xu中。记法。在论文的其余部分使用了以下符号。 我们用In表示一个大小为n × n的单位矩阵,用0r,c表示一个r × c矩阵,所有s都为0。 我们使用1来表示所有1的列向量,并且使用1k来表示在其第k个条目处具有单个1的列零向量,假设向量长度可以从上下文确定。 我们用Xi表示矩阵X的第i行,用Xij表示X的第i行第j列的元素。 我们用<$X i<$表示向量Xi的欧几里德范数,用<$X<$F和<$X<$1分别表示矩阵X的Frobenius范数和入口方向<$1范数。我们用λmax(X)表示X的最大特征值。3.2. 稀疏非负矩阵分解以前的CNOL工作通常识别将输入实例映射到语义la的投影 BEL原型空间中的标记数据的基础上,看到的类,而忽略未标记的数据在un-seen类或处理它们在单独的步骤。一个潜在的问题是,这样的投影函数识别可能过拟合看到的类,并不工作,以及对unla。其中Φ∈IRa×d是分量矩阵(即,字典),其包含基向量作为其行;Z∈IR n×a是以系数向量为行的隐表示矩阵,Φ和Z中引入了n-1范数正则化子来引入逐项稀疏性. 在文献中已经表明,稀疏NMF可以允许人们在图像上发现比常规NMF更好的基于部件的表示[11]。在这里,通过使用稀疏NMF,我们的目标是发现潜在的表示,可以帮助适应跨类边界的预测信息。3.3. 使用标注表示的为了使标签信息能够从可见类转移到不可见类并实现有效的映射,期望上面的稀疏NMF可以将图像映射到与标签原型向量相同的语义空间中的潜在表示向量;即,字典Φ中的组件应该对应于描述类标签的属性此外,我们还需要确保在Z中获得的潜像表示可以区分它们的类标签。为了实现这个目标,我们建议通过强制每个图像到其对应的类标签的原型向量具有最小距离来将Z中标记图像的潜在表示向量与其对应的标签原型类型向量对齐,使得<$Z i-Y sM<$2≤ <$Z i-M k<$2,<$k∈ Ys。然而,将字典分量限制到类标签向量中涉及的属性需要属性集合足够宽以覆盖图像数据X中的所有内容,这通常是不正确的。因此,我们进一步提出将b个潜在分 量 的 附 加 集 合 引 入 到 稀 疏 NMF 模 型 中 , 使 得a=m+b。这些附加的组件可以捕获图像中的背景内容,以通过最小化等式(1)中的重构误差来帮助准确发现m个基于属性的组件。(一).在不失一般性的情况下,我们假设Φ中的前m个分量对应于la。7143λ(ΦΦmax我我λ(ΦΦF我+λ(Zmaxx)Z).Σ算法1投影次梯度下降算法输入:Xi,Zi,Φ,Ys,M,Bτ:τ =2π。由于铰链损失函数R1是非光滑的,因此我们使用在Al-租m 1中提出的投影次梯度下降算法来执行最小化,其中次梯度可以计算为:重复1. 次梯度下降Zi=Zi−τ g(Zi)2. 投影:Z= max(Z,0)<$ZiΦ<$−XiΦ<$if<$(i≤ns)<$i ⊤ ⊤= 0;我我直到收敛g(Zi)= ZiΦΦ −XiΦ +s否则;(5)2γ(Mk−YiM)B其中k= argmaxk∈Ys(k(Yi1k= 0)+D(i,k)),并且bel属性,而最后的b分量是附加的潜在分量。设B=[Im;0d,m]为Z的列选择矩阵,使得ZB包含Z的前m列.然后,我们需要将ZB与相应的标签D(i,k)=<$ZiB−YsM<$2− <$ZiB−Mk<$2。设h(·)=I(·)-τ g(·)为算法1步骤1中的梯度下降算子。 我们选择步长参数τ以确保h(·)是非扩张的,即,h(Zi)−h(Z′)我我M中的原型表示向量。通过并入任何可行的Zi和Z′,保证收敛将这种语义对齐到稀疏NMF模型中,算法[33]。这导致0<τ ≤2Max)。最大裕度铰链损失,我们用公式表示如下:半监督稀疏NMF形式的犯罪学习模型:(ii)通过固定Z来学习Φ:Φ上的最小化可以写为:1min1<$X−ZΦ<$2+γΣnsi+µminΦ≥0g(Φ)=X−ZΦ2Z≥0,Φ≥02Fi=1其中E是一个全为1的a×d矩阵。我们使用投影梯度下降算法来解决这个线性约束其中对准铰链损失被定义为二次规划问题。投影梯度maxk∈Ys.<$(Yi1k= 0)−<$ZiB−Mk<$2+ZiB−YsM2下降算法的过程与当且仅当条件c为真,capped运算符定义为1,除了我们在Φ上工作并使用以下梯度-代替次梯度:(·)+=max(·,0)。注意Z可以分为两部分,Z= [Zs;Zu],g(Φ)=ZZΦ−ZX-ray(7)其中Zs∈IRns×a和Zu∈IRnu×a包含潜在的分别来自可见类和不可见类的图像的表示向量。上述区分性半监督NMF模型中的铰链损失可以推动潜在表示向量Zs B与其对应的类标签表示向量对齐,因此在与Zs B相同的空间中表示的Zu B可以用于以以下方式从Xu确定每个未标记图像的类标签Y u= 1<$, 其中k<$= arg min <$Z u B − Mk<$2。(三)按照与上述相同的原则选择步长τ,以确保算法的收敛在这种情况下,它将是τ=2π。4. 标签传播预测由我们提出的模型获得的语义表示,Zu B,可以被看作是在基于属性的标签表示空间中的未标记的实例的签名。它们包含了丰富的信息,可以用于超越Eq.(3),包括─ik我k∈Yu计算所述输入-输出之间的匹配度分数。3.4. 优化算法为了解决Eq中的学习问题。(2)提出了一种迭代交替优化算法。在每次迭代中,它在两个步骤中交替地学习潜在表示矩阵Z和分量矩阵Φ(i)通过固定Φ学习Z:Z上的学习问题可以分解为一组n个独立的子问题。立场和类标签,并计算实例之间的相似度在歧视性语义空间。因此,我们建议使用标签传播方法来分类未标记的实例到看不见的类,利用这样丰富的信息。我们首先计算每个未标记实例与未见过类的匹配分数,并使用这些分数作为预测置信度值来初始化预测标签lems,每一行Z对应一个。对于Z的第i行,矩阵Y∈IRnu×Ku;即,我们设置Y=κ(Zu B,Mu), i ji j子问题可以写成:ming(Z)=1<$X−ZΦ<$2+γ<$(i≤n)<$+ρZ1(4)Σ+;7144其中Mu表示包含M的最后Ku行的子矩阵,并且κ(·,·)表示余弦相似性函数。接下来,我们构造一个k-最近邻(k-NN)图Zi≥0i2i iS我我在北U未标记的测试实例。 我们建议使用7145Σ=联系我们K学习的表示矩阵ZuB补充原始特征矩阵Xu以表示nu个实例。此外,为了使这两类特征具有相同的权重,我们首先对X u进行PCA降维,将其降维到与Z u B部分相同的大小,然后分别对降维后的X u和Z u B的每一行使用它们的欧氏范数进 行 归 一化 ,得到归一化的Xu和ZuB部分. 最后,我们使用S=[X<$ u,Zu<$B]作为n u个实例的特征矩阵。在计算每对实例之间的平方欧几里德距离之后,使得d(S i,S j)=2,我们可以通过以下方式计算基于RBF核的亲和矩阵W来构建k-NN图:表1:实验中使用的四个数据集的统计,以源/目标格式表示。类拆分在前两个数据集中提供。我们遵循[1]对CUB数据集使用相同的50个测试类。对于SUN数据集,我们使用与[13]相同的10个测试类。数据集实例数#类#属性APY12695/264420/1264AWA24295/618040/1085幼崽8855/2933150/50312孙14140/200707/10102作为类级别的属性向量。总体统计Wij..exp=Σ−d(Si,Sj)2σ2 ,如果i∈KNN(j)或j∈KNN(i)四个数据集的信息汇总在表1中。0,否则其中KNN(i)表示第i个实例的k个最近邻居给定该亲和矩阵W,归一化拉普拉斯矩阵L可以计算为L=Q-1/2WQ-1/2,图像特征。 从卷积中神经网络(CNN)已经很好地推广到不同类型的任务。为了利用深度网络获得更好的CNN性能,我们使用了相同的CNN特征,从verydeep-19中其中Q是对角矩阵,其中Qii=jW ij。最后[28]在过去的作品[34]。我们可以执行标准的正则化标签传播[8],其提供以下预测得分矩阵:参数选择。在我们的模型中,Y=( Inu− αL)−1×Y(8)超参数γ、μ和ρ。我们进行了参数使用所见类中的数据进行选择,其中α∈[0,1]是正则化权衡参数。然后,可以通过设置来产生标签矩阵Yu,数据集。 给定一个数据集,其中有Ks个可见类和Ku针对看不见的类,我们进一步拆分可见类u成K∗火车sKsKs+Ku 培训班和Yi=1,其中k=arg maxk∈Yu:j=k−KsYij(九)Kval=Ks-K列车验证类。我们进行5. 实验5.1. 实验环境数据集。我们在四个标准的CNOL数据集上进行了实验 : ( 1 ) attribute-Pascal-Yahoo ( aPY ) [6]; ( 2 )Animal[16]第一个问题是:(1)是否存在一个问题?2011年10月24日,《易经》(卷104):“天之道,天之道,地之道。的aPY数据集包含来自Pascal数据集的超过20个类的12,695个图像和从Yahoo收集的超过12个类的2,644个图像。该数据集中的每个图像都用64维二进制向量标记以表示属性。AwA数据集包含来自50类动物的30,475张图像每个类都与一个85-dim属性向量相关联。CUB是用于细粒度分类的数据集。它包含11,788个图像和200个类别。每个图像都用具有连续值的312-dim向量标记。SUN-Attribute数据集包含717个类别,每个类别中有20个图像,总共有14,140个图像,每个图像都有一个类标签和一个102-dim属性向量。在我们的实验中,我们只使用类级属性向量(如果提供),否则将属于同一类的图像的所有属性向量平均为7146F使用K列进行参数选择类作为可见类,Kval类作为不可见测试类。所有三个参数都是从范围{10a|a = −3,−2,., 2,3}。在参数选择之后,我们使用所选择的参数对原始的可见类和不可见类执行模型初始化。所提出的模型的迭代训练需要从两个模型参数矩阵(表示矩阵Z = [Z s; Z u]和字典矩阵Φ)的良好初始化开始。简单的随机初始化可能导致非常差的解决方案。在这项工作中,我们采用了一个信息初始化过程。首先,我们可以直接初始化标记实例Z s的潜在表示作为相应的类原型向量;也就是说,Zs=YsMB然后,我们基于初始Z s解决以下标记数据上的矩阵分解问题:minΦm<$X s−Y sMΦm<$2,它具有封闭形式的解并产生Φm=(M<$Y s<$Y s M+<$I)−1M<$Ys<$Xs,其中添加小常数<$W避免数值问题。该解决方案Φm可以用作字典Φ的前m行的初始化,其对应于m个属性。剩下的B排7147FΦ可以随机初始化。最后,给定初始化的Φ,我们可以通 过 求 解无 标 记 测 试 数 据 的 矩 阵 分 解 问 题 :minZu<$Xu−ZuΦ<$2 , 它 提 供 了 初 始 化Zu=XuΦ<$(ΦΦ<$+<$I)−1。尽管这些初始化值在可行区域之外,即,它们不满足非负约束,它们可以极大地合并从数据和标签检索的信息。此外,在迭代训练过程中,Z和Φ将在一次迭代后立即被在我们的实验中,我们发现这样的初始化过程可以导致比随机初始化或可行初始化更好的结果5.2. 零镜头分类我们将所提出的方法与具有CNN 特征的基线IAP[16]和最近在文献中开发的一些最先进的BML方法进行了比较,并在表2中报告了结果。 我们测试了 两 个 不 同 版 本 的 建 议 歧 视 性 语 义 表 征 学 习(DSRL)的方法。第一个版本通过将学习的语义向量Zu B与类标签原型向量进行比较来直接执行预测,如等式(1)所示(三)、我们把这个版本称为DSRL。第二个版本使用标签传播技术来分类测试实例中看不见的类。我们将此版本表示为DSRL-LP。在我们的模型中,所有数据集上的附加潜在语义组件的数量都设置为b = 10。对于标签传播,我们使用k=10来构建k-NN图,而σ被计算为k-NN图中距离的平均值,α被设置为0.5,以获得与初始预测和传播因子相同的优先级。 我们用不同的模型初始化重复每个实验五次,并报告了平均多类分类精度结果和标准差。在这些比较方法中,UDA-BML [14]与我们提出的方法最相关,因为它也采用了稀疏编码框架,并将BML视为无监督域适应来桥接域偏移。然而,在他们的模型中,源词典和目标词典是分开学习的他们在几种不同的环境中进行实验我们与他们在与其他方法相同的实验环境中产生的结果一致,即,使用CNN特征和标签属性。SSE-INT和SSE-ReLU是[34]中提出的语义相似性匹配方法的两个变体JLSE是最近开发的最先进的方法[35],它使用字典学习进行联合潜在相似性嵌入。从表2中,我们可以看到,所提出的DSRL-LP方法在所有四个数据集上始终优于所有比较方法,在一些数据集上具有相当大的余量。特别是,在CUB数据集上,所提出的DSRL-LP优于最佳比较方法JLSE为15.36%。CUB数据集用于细粒度分类,这对于一般的CPDL方法来说是相当具有挑战性的。该数据集中的大多数属性被设计为鸟类的“颜色”和“形状”,例如,“翅膀颜色”、“背色”、“眼睛颜色”、“翅膀形状”等。图像的属性向量与图像的视觉外观之间存在着明显的对应关系。我们的判别式NMF框架可以很好地捕捉这些属性作为视觉组件,并实现图像的潜在表示向量和基于属性的类原型类型向量之间的良好对齐,同时有效地将基于视觉知识的预测信息从源域转移到目标域。然而,即使数据集,例如,AwA和SUN中包含的一些属性并不是专门为视觉构件识别而设计的,但所提出的方法仍然可以实现从视觉构件到属性概念的一致映射,并为语义实例表示生成有用的语义实例表示;在AwA和SUN上,DSRL-LP分别比最佳比较结果高出8.10%和1.57%。在所提出的方法的两个变体DSRL-LP和DSRL之间,我们可以看到,通过标签传播,DSRL-LP可以在四个数据集中的三个数据集上大幅提升性能,并且在AwA,CUB和SUN上分别比DSRL高出9.84%,6.88%和3.40%。这表明Zu中丰富的语义信息对语义学习是有用的。然而,我们确实观察到aPY数据集的性能下降。为了调查原因,我们在四个数据集上生成了DSRL预测结果的混淆矩阵,而没有标签传播,如图1所示。我们可以看到,aPY数据集上的混淆矩阵比其他数据集上包含更多的噪声,这表明预测的不确定性很大。在这种情况下,标签传播可能导致噪声的传播并降低预测性能。但值得注意的是,在没有标签传播的情况下,所提出的DSLR在aPY上比最好的比较方法JLSE高出5.94%。5.3. 语义表征研究如前所述,我们模型中的矩阵Z作为实例的高级语义表示,其子矩阵ZB应该与类原型向量很好地对齐。为了了解用于类分离的学习Z表示的质量,我们通过使用Zu或Zu B中的类内实例表示的平均值作为类表示向量,计算aPY数据集的12个未看到的类的类间余弦相似性矩阵。我们还比较了使用每个类内的原始输入实例的平均值作为类表示向量和直接使用基于属性的类原型向量所获得的结果。我们基于这些可视化的类间相似性得分7148表2:在四个CNOL数据集上的多类分类准确度方面的零射击分类结果方法APYAWA幼崽孙Avg.[第16话]21.1449.1625.4348.5036.06[14]第十四话-73.239.5--SSE-INT [34]44.15±0.3471.52±0.7930.19±0.5982.17±0.7657.01±0.62[34]第三十四话46.23±0.5376.33±0.8330.41±0.2082.50±1.3258.87±0.72JLSE [35]50.35±2.9779.12±0.5341.78±0.5283.83±0.2963.77±1.08DSRL56.29±0.4477.38±0.0650.26±0.0482.00±0.0066.48±0.14DSRL-LP51.29±1.4287.22±0.2757.14±0.0785.40±0.2270.26±0.50246810122 4 6 8 10 121234567891012345678910510152025303540455051015202530354045501234567891012345678910(a) APY(b) AWA(c) 幼崽(d) 孙图1:DSRL预测结果在四个数据集上的混淆矩阵的可视化。更明亮的颜色代表更高的价值。袋建设马车半人马驴山羊jetski猴子杯子雕像狼斑马袋建设马车半人马驴山羊jetski猴子杯子雕像狼斑马袋建设马车半人马驴山羊jetski猴子杯子雕像狼斑马袋建设马车半人马驴山羊jetski猴子杯子雕像狼斑马(a) Xu(b) 属性(c) Zu B(d) Zu图2:aPY数据集中12个看不见的类之间余弦相似度值的可视化每个类被表示为类内以下类型的数据的平均值:(a)Verydeep-19特征Xu,(b)M中的属性向量,(c)与标签属性向量对齐的学习的语义表示Zu B,以及(d)学习的语义表示Zu。四种不同的类表示,并在图2中给出了结果。我们可以看到,通过使用学习的语义表示产生的两个图形Zu或Zu B,具有比通过使用原始特征Xu产生的图形更少的非对角噪声,这表明更好的类分离能力。我们进一步计算每个相似度矩阵中非对角值的简单平均值来评估其质量,较小的非对角值表示更好的代表性和更强的区分力。我们从用原始特征Xu计算的相似性矩阵中获得了0.4131的平均非对角值,并且从分别使用我们学习的表示Zu和Zu B产生的相似性矩阵中获得了0.2300和0.2265的小得多的平均值即使是专家-在提供基于属性的类原型的情况下,类间相似性矩阵上的平均非对角值为0.3301,这比我们的值大。这些结果表明,我们提出的模型学习的实例的潜在语义表示有很大的区分能力的类分离。此外,我们的模型在支持类原型L中的一个重要功能在于将实例的语义表示ZB与相应的基于属性的类原型向量对齐。为了有效对齐,我们期望ZB中的每个特征列对应于一个语义属性概念,而Φ中的对应组件成为属性的视觉描述。为了验证有效的区分表征是否具有1.0000.3950.8500.5219.4531.5254.7212.2524.5418.4214.4138.5547电话:+86-510 - 8888888传真:+86-510 - 88888888电话:+86-536 - 8888888传真:+86-536 - 8888888电话:+86-5219 - 3529 - 5365传真:+86-5219 - 3529电话:0531-8888888传真:电话:+86-525 - 2762- 4524 - 2846 - 2787传真:+86-525 - 2762 - 4524电话:+86-510-8888888传真:+86-510 - 88888882019 - 06-25 00:00:000.5418.5079.4663.3278.5373.4012.7929.3148 1.0000.5829.4856.4247电话:+86-21- 6666666传真:+86-21 - 66666666电话:+86-21 - 8888888传真:+86-21 - 888888880.5547.2509.4129.2835.3748.2825.5026.2262.4247.4299.36351.00001.0000.6501.9507.9756.0218.9911.7146.0054.5490.0492.1251.0377电话:+86-021 -8888888传真:+86-021-888888880.9507.6379 1.0000.9607.0168.9595.6966.0042.5348.0380.0658.0291电话:+86-021 - 88888888传真:+86-0210218.0186.0168.02191.0000.0258.0143.2960.1431.4336.5003.50460.9911.6609.9595.9882.0258 1.0000.7204.0064.5411.0584.0908.0447电话:0714 - 8946 - 6966 - 6927- 0143 - 7204传真:0714- 8946 - 6966 - 6927 - 0143 - 72040054.0046.0042.0054.2960.0064.00351.0000.0520.4534.4745.24950.5490.8374.5348.5467.1431.5411.7092.0520 1.0000.1418.0963.14900492.0421.0380.0495.4336.0584.0324.4534.14181.0000.3646.5924电话:+86-10 -8888888传真:+86-10 - 888888880377.0322.0291.0379.5046.0447.0248.2495.1490.5924.3805 1.00001.0000.4648 .9012 .5449 .3185 .2684 .6903.0472 .4354 .1683 .2256.21760.4648 1.0000.3414 .2523.1927 .2888 .6453 .0349 .6551 .0895 0654 0372.9012 0.3414 1.0000.5048.2622 .2037 .5158 .0582 .2816 .1001 0.2601.0758.5449 .2523 0.5048 1.0000.1318 .0984 .2367 .0305 .1729 .0756 0398 0531.3185 .1927 .2622 0.1318 1.0000.1248 .3539 .0727 .2573 .2235 .1741.1662.2684 .2888 .2037 .0984 0.1248 1.0000.3071 .0285 .2478 .0478 0510 0267.6903 .6453 .5158 .2367 .3539 0.3071 1.0000.1311 .8223 .2517 .2302.1288.0472 .0349 .0582 .0305 .0727 .0285 0.1311 1.0000.0973 .0967 0212.4354 .6551 .2816 .1729 .2573 .2478 .82230.0973 1.0000.3089 1261.0747.1683 .0895 .1001 .0756 .2235 .0478 .2517.0967电话:+86-021 - 8888888传真:+86-021 - 88888888.2256 .0654 .2601 .0398 .1741 .0510 .2302.1329 .12610.0961 1.0000.0529.2176 .0372 .0758 .0531 .1662 .0267 .1288.0212 .0747.3080 0529 1.00001.0000.5033.9016 .5449.3185 .2684 .6910 .0471 .4355 .1693 .2264.21760.5033 1.0000.3554 .2732 .2076 .3149 .6907 .0360 .7067 .0972 0702.0404.9016 0.3554 1.0000.5050 .2621 .2038 .5156 .0581 .2812 .1005 0.2611.0759.5449 .2732 0.5050 1.0000.1318 .0984 .2369 .0305 .1729 .0760 0399 0531.3185 .2076 .26210.1318 1.0000.1248 .3542 .0727 .2573 .2248 .1746.1662.2684 .3149 .2038.0984 0.1248 1.0000.3076 .0285 .2480 .0481 0512.0267.6910 .6907 .5156.2369 .35420.3076 1.0000.1310 .8223 .2493 .2288.1290.0471 .0360 .0581.0305 .0727.0285 0.1310 1.0000.0972 .0972 1334.0212.4355 .7067 .2812.1729 .2573.2480 .8223 0.0972 1.0000.3083 1258 0747.1693 .0972 .1005.0760 .2248.0481 .2493 .0972 0953.3100.2264 .0702 .2611.0399 .1746.0512 .2288 .1334 .1258 0.0953 1.0000.0531.2176 .0404 .0759.0531 .1662.0267 .1290 .0212 .0747 .3100 0.0531 1.00007149表3:从视觉组件特征计算的相似属性对:a1、a2表示一对属性。0.90.880.860.840.820.80.780 5 10 15 20 25b值(a) AWA0.580.5750.570.5650.560.5550.550.5450 5 10 15 20 25b值(b) 幼崽图3:不同b值的性能。当b= 0时,性能最差。因此,我们将语义属性与Φ中的视觉描述分量进行了比较。我们的直觉是,如果两个属性是可见的,并且具有相似的外观,我们期望它们在Φ中对应的视觉描述分量能够反映这种接近性,反之亦然。因此,我们使用Φ中的视觉描述向量计算每对属性之间的相似度值。在表3中,我们列出了一些有意义的对,我们从具有最高相似性值的对中找到。我们可以看到,在字典Φ中学习的视觉组件描述向量可以真正反映属性的语义概念。例如,在aPY数据集中,“脸”和“鼻子”在视觉上是相似的,在概念上是相关的,“喷气发动机”和“螺旋桨”也是如此。在SUN数据集中,“航行”和“潜水”非常相似。在细粒度的CUB数据集上更有趣,其中大多数属性都与颜色和形状相关。在这里我们可以看到,学习的视觉组件正确地将一只鸟的不同部分与相同的颜色相互联系起来;例如,“翅色红褐色”与'上部颜色红褐色'。这表明在我们的模型中产生的潜在特征表示与类属性很好地5.4. 潜在字典组件在所提出的模型中,除了类属性组件,我们还考虑了b额外的潜在组件。我们的假设是,额外的潜在成分可以增加模型处理各种背景噪声或未被现有属性覆盖的内容的能力,从而有助于在NMF重构误差最小化的情况下准确发现基于属性的成分但我们真的需要这些额外的潜在成分吗b值如何影响所提出的方法的性能?为了回答这些问题,我们在两个数据集AwA和CUB上进行了实验,其中一组不同的b值范围为{0,5,10,15,20}。对于每个b值,以与之前相同的方式进行实验。不同b值的结果见图3。我们可以看到,在这两个数据集上,当b= 0时产生最差的性能,即,没有额外的潜在成分。此外,在两个数据集上,当b= 0时的测试准确度与最佳准确度之间的差距相当大。这一结果清楚地表明,额外的潜在成分是有用的,并在所提出的CNOL模型中发挥关键作用结果也直观地有意义,因为当b= 0时,在重建误差下,所有背景噪声将被推入类属性的分量中,这将负面地影响属性字典的学习,从而影响CPDL。随着b值的增加,该方法的性能得到了显著提高,尤其是当b值较小时。然而,当b值变得太大时,例如,C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功