没有合适的资源?快使用搜索试试~ 我知道了~
零次学习中的知识图传播与图卷积神经网络相结合的研究
11487重新思考零次学习的知识图传播Michael Kampffmeyer2001,Yinbo Chen2002,Xiaodan Liang2003,Hao Wang2004,Yujia Zhang2005,Eric P.兴6号1UiT挪威北极大学,2清华大学,3中山大学,4马萨诸塞州工学院5中国科学院自动化研究所6卡内基梅隆大学摘要图卷积神经网络最近在零射击学习任务中显示出巨大的潜力。这些模型具有很高的样本效率,因为图结构中的相关概念共享统计强度,从而在面临缺乏数据时可以推广到新的类别。然而,需要将知识传播到图中的远程节点的多层架构通过在每层执行广泛的拉普拉斯平滑来稀释知识为了仍然享受图结构带来的好处,同时防止稀释的知识从遥远的节点,我们提出了一个密集的图形传播(DGP)模块,精心设计的直接链接之间的遥远的节点。DGP允许我们通过额外的连接来利用知识图的层次图结构这些连接是基于节点与其祖先和后代的关系添加的加权方案还用于根据到节点的距离来加权它们的结合两阶段训练方法中的表示微调,我们的方法优于最先进的零射击学习方法。1. 介绍随着图像数据的不断增长的供应,从不断扩大的类别数量,越来越需要使用先验知识来基于可见和不可见类别之间的语义关系将来自不可见类别的图像分类为正确的类别。这个任务称为零镜头图像分类。这个任务的关键是基于优先类的*表示平等捐款。†通讯作者。知识以前,先验知识以类的语义描述的形式被引入,例如属性[1,28,19]或词嵌入[30,11,18],或者通过使用语义关系,例如知识图[24,27,29,20]。使用知识图的方法较少探索,并且通常假设未知类可以利用与已知类的相似性最近,结合知识图和语义类描述的混合方法的好处已经得到了说明[33]。Wanget al.[33]通过利用非欧几里德空间(如图和流形空间)神经网络中的最新发展来处理未加权知识图[2]。使用深度图卷积神经网络(GCN)[14],并且将问题描述为回归任务,其中GCN被训练为通过回归实值权重向量来输出每个类别的分类器。这些权重向量对应于预训练卷积神经网络(CNN)的最后一层权重,可以被视为CNN特征提取之上的逻辑回归分类器。GCN利用依赖于消息传递的思想的简单可扩展模型来平衡模型复杂性和表达性,即节点将知识传递给它们的邻居。然而,这些模型最初是为分类任务而设计的,尽管是半监督的,但可以说是比回归更简单的任务。在最近的工作中,已经表明GCN执行一种形式的拉普拉斯平滑,其中随着深度的增加,特征表示将变得更加相似,从而更容易分类[17]。相反,在回归设置中,目标是在图中的节点之间交换信息,并且不需要广泛的平滑,例如,在一个连通图中,在某些条件下,具有n层的GCN中的特征将收敛到与n→ ∞相同的表示,因此洗出所有信息[17]。因此,我们认为,这种方法是不理想的零杆学习的任务,并奠定了数量-11488(a) 图传播(b)稠密图传播图1:a)GCN [14]中节点“Cat”的图传播说明这里,图传播表示节点在单个层中接收到的先前方法的知识b)针对节点‘Cat’的建议密集图传播节点在后代阶段(蓝色箭头)从其所有后代接收知识,并在祖先阶段(红色箭头)从其祖先接收知识。这导致了一个密集连接的图,其中知识可以直接在相关节点之间传播学习的权重αa和αd用于对距离祖先中给定节点k跳的节点进行加权,K K后代阶段。GCN中的ER应该很小,以避免平滑。我们在实践中说明了这一现象,通过表明,一个浅的GCN一贯优于以前报道的结果。然而,选择少量的层会导致知识不能很好地在图中传播。例如,1层GCN仅考虑图中两跳远的邻居,使得仅直接邻居影响给定节点。因此,我们提出了一个密集的连接方案,其中节点直接连接到后代/祖先,以包括遥远的信息。这些新的连接允许我们在不过度平滑的情况下传播信息,但在图中重新移动重要的结构信息,因为所有后代/祖先将被包括在一跳邻域中,并且在计算给定类的回归权重向量时将被相等地加权。为了解决这个问题,我们进一步提出了一个加权方案,考虑节点之间的距离,以权衡不同节点的贡献。这使得模型不仅可以恢复图中的原始结构,而且还提供了额外的灵活性,增强了我们模型的推理能力。引入基于距离的共享权重还具有以下益处:其仅添加最少量的参数,是计算高效的,并且平衡模型灵活性和限制性以允许对不可见类的节点的良好预测。图1示出了与GCN层相比,在所提出的密集图表示(DGP)模块中传播知识的方式的差异。为了允许预训练的特征提取阶段为了适应新学习的分类器,我们提出了一个两阶段的训练方案。在第一步中,训练DGP以预测最后一层CNN权重。在第二阶段,我们用DGP预测的权重替换CNN的最后一层权重,冻结权重并通过优化所见类的交叉熵分类损失来微调CNN的剩余权重。我们的主要贡献如下:• 分析我们对零射击学习的直觉,并说明如何将这些直觉结合起来设计一个DGP,优于以前的国家的最先进的方法。1• 我们的DGP模块,它显式地利用知识图的层次结构来执行通过所提出的密集连接结构有效地传播知识来进行零触发学习。• 提出了一种基于节点间距离学习权值的DGP加权算法• 对21 K Ima-geNet数据集的各种分割的实验结果,这是一个流行的大规模零射击学习数据集。我们获得了超过50%的相对改善,比以前报道的最佳结果。2. 相关工作图卷积网络是一类基于局部图算子的图神经网络[3,7,14]。1本文中执行的实验的源代码可在https://github.com/cyvius96/adgpm获得。胎盘食肉动物猫坦诚大猫猫狗老虎国内猫野生猫波斯猫老虎猫安哥拉猫Lynx丛林猫胎盘!#祖先传播$食肉动物!后裔传播2猫坦诚!#1大猫猫狗!&1!& 1老虎国内猫野生猫!& 2!&2!&2!& 2!&2波斯猫老虎猫安哥拉猫Lynx丛林猫后裔祖先11489ΣΣ˜它们的优点是,它们的图结构允许类之间共享统计强度,使得这些方法具有高度的采样效率。在Brunaet al.[3],它们使用基于递归切比雪夫多项式的有效滤波方法进行了扩展,将其计算复杂度降低到与在规则网格上操作的图像处理中常用的CNN相当 [7]。Kipf等人[14]进一步提出了简化以提高可扩展性和鲁棒性,并将其方法应用于图上的半监督学习他们的方法被称为图卷积网络(GCN),并为本文中的模型提供了基础。近年来,零拍学习已经从各种角度考虑,例如流形对齐[9,18],线性自动编码器[15]和低秩EM。分层字典学习方法[10],使用基于属性的语义关系[22,30,11]和知识图中的关系[33,21,27,24]。早期的作品之一[16]提出了一种基于模型的方法,其中一个模型被训练来根据它们的描述预测类模型。每个类都被建模为其描述的函数。这个想法最近被用于在王等人的另一项工作。[33],与我们自己的工作最相似,其中训练图卷积神经网络以在预训练的CNN特征之上预测逻辑回归分类器,以便预测看不见的类。他们的方法在一组零射击学习任务上取得了令人印象深刻的成绩,据作者所知,可以3. 方法在这里,我们首先将零触发学习问题以最后一层CNN权重的形式。我们的零射击学习框架如图所示。二、最后一层CNN权重被解释为在提取的CNN特征之上的给定输出类的类特定分类器。然后,零触发任务可以表示为预测每个未见过的类的一组新的权重,以便扩展CNN的输出层。我们的DGP把所有可见和不可见类的组合知识图作为输入,其中每个类由一个对类名进行编码的词嵌入向量然后训练它以半监督的方式预测所有(可见和不可见)类的最后一层CNN权重利用知识图可以捕捉类之间的语义关系,而词嵌入提供了每个特定类的语义描述。在推断期间,预测的权重然后可以用于扩展原始CNN中的输出类集合,以使数据点能够从看不见的类中分类。更具体地说,给定一个有N个节点,每个节点有S个输入特征的图,X ∈ RN × S表示特征矩阵.这里每个节点代表一个不同的概念/类在分类任务中,每个概念由类名的词向量表示知识图中类之间的连接以对称邻接矩阵A∈RN×N的形式进行编码,其中也包含自环. 我们采用一个简单的传播规则,在图H (1+ 1)=σ。D−1AH (l)θ(l),(1)其中H(l)表示第l层中的激活,并且Θ∈RS×F表示层l的可训练权重矩阵,其中F对应于学习的滤波器的数量。为第一层r,H(0)=X。σ(·)表示非线性行为,并提供有关如何使用GCN模型的信息用于任务。 然后,我们描述我们提出的模型tion函数,在我们的例子中是LeakyReLU。 DII=jij是DGP设C表示所有类的集合,Cte和C tr分别表示测试类和训练类。此外,假设训练类和测试类是不相交的CteCtr=,并且我们为所有类和一组训练数据点给出S维语义表示向量z∈RSDtr={(X→i,ci)i=1,.,其中X→i表示第i个一个度矩阵D∈RN×N,它对A中的行进行归一化,以确保特征表示的尺度不被A修改。类似于以前在图上所做的工作卷积神经网络,这种传播规则可以被解释为频谱卷积[14]。通过优化损失,训练图像,ci∈ Ctr对应的类标签。MP在这种设置中,零触发分类旨在将一组测试数据点的类标签预测为类Cte 的集合。请注意,与传统分类不同,测试数据L=1 (W2Mi=1j =1i、j-Wi,j)2,(2)必须将设定点分配给先前看不见的类。3.1. 图卷积网络用于零射击学习在这项工作中,我们通过使用类标签的词嵌入和知识图来预测每个未知类的分类器来其中W∈RM×P表示已知类的GCN的预测,因此对应于MGCN输出的行,对应于训练类。 M表示训练类的数量,P表示权重向量的维度。通过提取预训练CNN的最后层权重来获得地面真值权重,并且表示为11490一我一Di i=0图2:DGP被训练来预测图中每个节点/类的分类器权重W。训练类的权重从预训练的ResNet的最后一层提取。 该图由知识图构造,每个节点由编码语义类信息的向量表示,在我们的实验中,类词嵌入。该网络由两个阶段组成,后代阶段,其中每个节点从其后代接收知识,以及祖先阶段,其中每个节点从其祖先接收知识。W∈RM×P.在推理阶段,从CNN中提取新图像的特征,并使用GCN预测的分类器对特征进行分类。然而,矩阵形式的拉普拉斯平滑运算可以写成(I−γD−1L)H ,如Li等人所指出的。[17 ]第10段。用图拉普拉斯算子的定义L=D−A代替图拉普拉斯 算 子 , 对 于 γ=1 ( 只 看 近 邻 ) , 运 算 简 化 为D−1AH。这部分地对应于等式1中的图形卷积运算1.一、因此,在本发明中,反复应用Eq.在多层GCN架构中,1将导致重复的拉普拉斯平滑,从而稀释信息。模型分析部分提供了经验证据(第2节)。4.4)。3.2. 密集图传播模块我们的零射击学习DGP旨在使用层次-化学图结构的零杆学习任务,连接到所有的祖先,节点连接到所有的后代。我们使用两个邻接矩阵:Aa∈RN×N表示节点到其祖先节点的连接,而Ad表示节点的连接他们的后代。注意,由于给定节点是其祖先的后代,所以两个邻接矩阵之间的差是它们的边的逆Ad=AT。与以前的方法不同,这种连接模式允许节点不同,对它们的扩展邻域中的知识的正确访问,而不是已经被中间节点修改的知识注意,这两个邻接矩阵都包括自循环。连接模式如图1所示。1.一、与等式中相同的传播规则。1连续应用于两种连接模式,导致整体DGP传播规则H=σ。D−1Aaσ。D−1AdXΘd<$Θa<$。(三)避免了中间节点对知识的稀释。这是实现使用稠密图连接方案consisting的两个阶段,即后代传播和祖先传播。这种两阶段方法进一步使模型能够学习节点与其祖先以及节点与其后代之间的单独关系。中表6距离加权方案为了允许DGP权衡稠密区域中各种邻居的贡献图,我们提出了一个加权方案,加权一个给定的节点注意,距离是在知识图而不是密集图上计算的。我们使用WA={wa}K,wd={wd}K来表示用于所述模型的学习的权重。模型分析部分提供了经验证据,这个选择 与GCN不同,我们不使用i i=0分别是coverage和后代传播阶段Wa和Wd对应于作为i跳的图关系直接作为邻接图来包含i i远离给定的节点。wa,wd对应自环来自更远的邻居的信息。 因此,0 0以及Wa、Wd对应于所有节点的权重,不受知识被淘汰的困扰K K因为在曲线图上求平均。 相反,我们引入两个比K-1跳远 我们将权重归一化,一a softmax函数αa =softmax(wa)=λexp(wk)。分离的连接模式,一个节点连接,Ki=0时经验(wa)ResNet提取的分类器权重预测分类器权重CNN特征提取李知识图分类器后代传播祖先繁殖DGP3121122222���单词嵌入KK11491KK˜同样,αd=softmax(wd). 加权传播ImageNet 2012 ImageNet层次结构中的1K类,在Eq. 3变得这是一个衡量看不见的阶级离我们有多远的标准。看到的班级H=σ .ΣK−1αaD aAaσ.ΣK−1αdD dAdXΘdΘaθ,从所看到的类跳,由大约1.5KKKk=0K KKKk=0(四)类,而“3跳”包含约7.8K类。包含近21K类。 没有一门课是其中Aa和Ad表示邻接矩阵的部分包含在ImageNet 2012数据集中,k k来预训练ResNet-50模型。 模仿实验-只包含祖先的k跳边的CE,后代传播阶段。 Da和Dd在[11,23,33]中,我们进一步评估性能。akdk mance当培训类别作为潜在的是Ak和Ak对应的度矩阵。 作为权重在图中共享,所提出的权重方案仅向模型添加2×(K+1)个参数,其中K趋于较小(在我们的实验中K=4我们建议的加权方案与以下方面有关:图卷积神经网络中的张力机制[32]。然而,与注意力方法不同的是,我们的加权方案只增加了微不足道的参数量,并且没有增加注意力方法的潜在可观的额外开销。此外,在我们的零射击学习设置中,当包括[32]中提出的注意力方法我们假设,这是由于一个更复杂的模型将更容易过拟合给定的有限数量的标记数据(稀疏标记图)。结果见补充材料。3.3. Finetuning训练在两个阶段中完成,其中第一阶段训练DGP以使用等式:二、注意,在这种情况下,W包含H的M行,它们对应于训练类。 在或-为了允许CNN的特征表示适应对于新的类分类器,我们通过在第二阶段优化所见类的交叉熵分类损失来训练CNN在此阶段期间,最后一层权重被固定到DGP中的训练类的预测权重,并且仅更新特征表示。这可以被视为使用DGP作为CNN的约束,因为我们间接地结合了图形信息来约束CNN输出空间。4. 实验我们在ImageNet数据集[8]上对DGP与之前的最先进技术进行了比较评估,ImageNet数据集是零镜头学习的最大常用数据集2。在我们的工作中,我们遵循Frome等人提出的训练/测试分割。[11],他提议使用21K ImageNet数据集进行零拍摄评估。他们定义了三个任务的难度增加,表示为跳数指的是类与2在AWA2数据集上进行了额外的实验,可以在补充材料中找到。标签注意,由于唯一的区别是推理阶段的类的数量,所以模型不必重新训练。我们将分割表示为4.1. 培训详情我们使用了一个ResNet-50 [12]模型,该模型已经在ImageNet 2012数据集上进行了继Wanget al. [33],我们使用在维基百科数据集上训练的GloVe文本模型[26]作为图中概念的特征表示。DGP模型由两个层组成,如等式2所示。3,其中特征维度为2048,并且最终输出维度对应于ResNet-50架构的最后一层中的权重的数量,对于权重和偏置为2049根据Wanget al. [33],我们对输出执行L2-Normalization,因为它将输出正则化为类似的范围。类似地,我们还将CNN产生的地面真值权重归一化。我们进一步使用Dropout [31],辍学率为0。每层5个该模型训练了3000个epoch,学习率为0。001,权重衰减为0。0005使用亚当[13]。我们使用具有负斜率0的泄漏ReLU。二、每个阶段K的值的数量被设置为4,因为额外的权重具有递减的收益。所提出的DGP模型在PyTorch中实现[25],并在GTX 1080Ti GPU上进行训练和测试使用SGD进行20个epoch的微调,学习率为0.0001,动量为0.9。4.2. 比较方法我们将我们的DGP与以下方法进行比较:Devise [11]将卷积神经网络提取的特征形式的视觉信息线性映射到语义词嵌入空间。使用铰链排序损失来学习转换。通过将视觉特征分配给最近的词嵌入类来进行分类。ConSE[23]将图像特征投影到语义词嵌入空间中,作为由图像属于所见类的概率加权的T个最近可见类语义嵌入的凸组合。 使用预先训练的卷积分类器预测概率。与Devise类似,ConSE将图像分配给嵌入中最近的类,11492表1:ImageNet数据集上不同模型的Top-k准确度。仅在未见类上测试时的准确性。[4][5]和[33]分别从[4]、[5]和[33]中获得结果测试集模型点击率@k(%)1 2 5 10 20ConSE8.312.921.830.941.7同步信号10.517.728.640.152.02跳Exem†公司简介12.519.819.533.332.353.243.765.455.274.6SGCN(我们的)26.240.460.271.981.0DGP(我们的)26.640.760.372.381.3ConSE2.64.17.311.116.4同步信号2.94.99.214.220.9三跳Exem†公司简介3.64.15.97.510.714.216.120.223.127.7SGCN(我们的)6.010.418.927.236.9DGP(我们的)6.310.719.327.737.7ConSE1.32.13.85.88.7同步信号1.42.44.57.110.9所有Exem†公司简介1.81.82.93.35.36.38.29.112.212.7SGCN(我们的)2.84.99.113.519.3DGP(我们的)3.05.09.313.919.8丁空间EXEM[5]通过对属于相同可见类的图像的PCA投影进行平均来创建视觉类样本。然后学习基于内核的回归器以将语义嵌入向量映射到类实例。对于零拍摄学习的视觉样本可以使用学习的回归量来预测看不见的类,并且可以使用最近邻分类来分配图像。SYNC[4]对齐语义空间(例如,词嵌入空间)与可视模型空间,添加一组幻象对象类以便连接可见和不可见类,并导出作为这些幻象类的凸组合的新嵌入GCNZ[33]代表了当前最先进的技术,是与我们提出的DGP最相关的方法。训练GCN以预测卷积神经网络的最后一层权重。根据实验证据(参见我们在模型分析部分的表5中的分析)以及我们的直觉,即广泛的平滑对于零次学习中的权重回归是一个缺点,我们添加了一个具有非对称归一化(D−1A)的单隐藏层GCN(SGCN(1)作为另一个基准。注意,GCNZ使用了对称归一化(D-1/2AD-1/2),但我们的实验评估表明差异可以忽略不计。对于感兴趣的读者,GCN和SGCN之间的变化的影响分析包括在补充材料中。SGCN进一步产生更好的基线,因为我们提出的DGP也利用非对称归一化。作为DGP,我们的SGCN模型表2:ImageNet数据集上不同模型的Top-k精度。在可见和 不 可 见类 上 测 试 时 的 准 确性 。[23][24][25][26][27][29][29]][29][29][测试集模型点击率@k(%)1 2 5 10 20DeViSE††0.82.77.914.222.7ConSE认证0.36.217.024.933.52跳+1KConSE公司简介0.19.711.220.424.342.629.157.032.768.2SGCN(我们的)11.927.050.865.175.9DGP(我们的)10.326.450.365.276.0DeViSE††0.51.43.45.99.7ConSE认证0.22.25.99.714.33跳+1KConSE公司简介0.22.23.25.17.311.910.018.012.225.6SGCN(我们的)3.27.116.124.634.6DGP(我们的)2.97.116.124.935.1DeViSE††0.30.81.93.25.3ConSE认证0.21.23.05.07.5全部+1KConSE公司简介0.11.01.52.33.55.34.98.16.211.7SGCN(我们的)1.53.47.812.318.2DGP(我们的)1.43.47.912.618.7使用建议的两阶段微调方法。4.3. 与最新技术水平方法的在ImageNet数据集上比较的定量结果如表1所示。与ConSE [4],EXEM [5]和GCNZ [33]等复杂结果相比,我们提出的方法以相当大的幅度优于以前的结果,例如,在21 K ImageNet“All”数据集上,Top-1准确度的相对提高超过50%我们观察到,我们的方法特别是在“所有”任务上优于基线模型,说明了我们的方法更有效地传播知识的潜力。DGP还实现了SGCN模型的一致改进。我们观察到,在我们所有的实验中,微调一致地提高了两个模型的性能。在表3中可以找到突出了2跳场景中微调和邻居加权的影响的消融研究。DGP(-wf)用于表示在训练DGP模型而不加权(在等式1中不添加权重)之后实现的准确度。(4)不进行微调。DGP(-w)和DGP(-f)分别用于表示不加权和不微调的DGP的结果.我们进一步报告了SGCN模型在没有微调的情况下(SGCN(- f))所达到的准确性。我们观察到,建议的加权方案,它允许遥远的邻居有较小的影响,是至关重要的密集的方法。此外,不断微调模型可改善结果。11493ResNet:GCNZ:SGCN:DGP:ResNet:GCNZ:SGCN:DGP:狒狒,叶猴,考拉,猕猴,马达加斯加猫phalanger,袋鼠,狐猴,有袋动物,树松鼠phalanger,袋鼠,树松鼠,狐猴,树袋鼠,袋鼠,phalanger,狐猴,树袋鼠飞机、鞋店、挂钩、日晷、电风扇紧固件,块平面,接合器,燕尾平面,磨砂平面,燕尾平面,卷边平面,接合器,圆形平面,块平面圆形平面,燕尾平面,开启器,接合器,刳刨机平面ResNet:GCNZ:SGCN:DGP:ResNet:GCNZ:SGCN:DGP:海狮,牡蛎捕手,王企鹅,红色的turnstone,猫鼬远洋鸟,流浪信天翁,企鹅,黑脚信天翁,加州海狮企鹅,加州海狮,steller海狮,南美海狮,澳大利亚海狮企鹅,加州海狮,南美海狮,灰白土拨鼠,黄腹土拨鼠书柜,娱乐中心,图书馆,文件,漫画书墙单元,家具,秘书,达文波特,写字台采购产品办公家具,家具,衣柜,书房家具,办公桌,衣柜/衣橱图3:定性结果比较。正确的类以粗体突出显示我们报告了前5名的分类结果。DGP和SGCN的定性结果如图所示。3.第三章。显示来自未见过的测试类的示例图像,并将我们提出的DGP和SGCN的结果与预训练的ResNet产生的结果进行比较。表3:2跳数据集上的消融实验的结果。(-f)、(-w)和(-wf)分别表示没有微调、加权和既没有加权又没有微调的模型。注意,ResNet只能预测训练类,而其他人则预测训练中看不到的课程。为了比较,我们还提供了我们重新实现GCNZ的结果。我们观察到SGCN和DGP通常提供一致的前5名结果。所有的方法都很难预测揭幕战,并且倾向于预测某种类型的飞机,然而,DGP确实在前5名的结果中包括揭幕战。我们进一步观察到,在这个数据集上进行零射击学习的预测任务是困难的,因为它包含了细粒度,如许多不同类型的松鼠,飞机和家具。补充材料中提供了额外的示例。测试包括训练分类器。根据[11,23,33]的示例,我们还报告了在零射击示例的分类过程中将训练标签和测试标签作为潜在标签时的结果。结果如表2所示。对于基线,我们包括ConSE的两个实现,一个使用AlexNet作为主干[23],另一个使用ResNet-50 [33]。与表1相比,我们观察到准确度明显较低,但SGCN和DGP仍然优于先前的SGCN在 Top-k准确度测量中对于低k优于DGP,特别是对于2跳设置,而DGP对于较大k优于SGCN。我们观察到,DGP倾向于倾向于预测最接近的训练类的Top-1预测(见表4)。然而,这并不一定是一个缺点,并且是在未看到的类和看到的类上表现良好之间的众所周知的权衡[6]这种权衡可以通过包括新颖性检测器来控制,该检测器预测图像是否来自[30]中所做的可见或不可见类别,然后将其分配给零拍摄分类器或在可见类别测试集模型点击率@k(%)1 2 5 10 20SGCN(-f)24.838.357.569.979.6DGP(-wf)23.836.956.269.178.62跳DGP(-f)DGP(-w)24.625.437.839.556.959.969.672.079.380.9SGCN(我们的)26.240.460.271.981.011494班另一种方法是校准叠加[6],重新调整已知类的预测分数。为了把零拍摄性能的角度来看,我们进行实验,我们分析模型的性能在原始的1000个看到类是如何表4显示了在ImageNet 2012的验证数据集我们将其性能与使用ResNet-50主干的GCNZ模型的重新实现进行了比较,并且还与原始ResNet-50模型的性能进行了比较,该模型仅在所看到的类上进行训练。可以观察到,我们的两种方法都优于GCNZ。4.4. 模型分析加权方案分析。为了验证我们的直觉,即加权允许我们的方法对远距离邻居的加权更少,我们检查了学习的权重。 对于第一阶段,权重为0。244,0。476,0。162,0。060,0。058、对于第二阶段(最后阶段)为0。493,0。322,0。097,0。047,0的情况。041号注意,第一个值对应于自加权,第二个值对应于1跳邻居,依此类推。 可以观察到,祖先聚集信息主要来自他们的直系后代在第一阶段和后来的dis.11495模型点击率@k(%)层数1一百二十四点八224.2323.9238.337.737.5点击率@k(%)5 1057.557.457.169.969.268.42079.678.177.2模型1没有26.026.6240.240.7点击率@k(%)5 1059.860.371.472.32080.381.3表4:所见ImageNet类的性能ResNet代表了理想的性能,因为它只预测已知的表7:3次运行的平均值和标准差。随着类数量的增加而更加稳定。班GCNZ是我们对[33]的重新实现。测试集模型点击率@k(%)1 212510ResNet75.185.592.795.7GCNZ38.362.982.389.8SGCN(我们的)49.168.783.989.4DGP(我们的)54.669.783.889.1结果的稳健性 表7显示了平均值和标准值。表5:当增加深度时,没有微调的SGCN的2跳的结果。表6:具有/不具有将邻接矩阵分离成DGP的祖先和后代的2跳的结果。在第二阶段向他们的后代致敬。此外,我们观察到遥远的邻居在最后阶段的影响要小得多这意味着模型学习保留由知识图施加的整体图结构,其中重要性由图中的距离决定。分析层数。我们进行了一个经验性的评估,以验证我们的直觉是正确的,广告-当使用GCN时,隐藏层确实会导致性能下降。表5示出了当针对2跳实验向GCN添加附加层时的性能。报告这些结果时,没有微调模型。为了执行该消融研究,我们将所有隐藏层固定为具有2048的维度,其中丢失率为0.5。我们要强调的是,我们的实验设置与Wang等人的研究存在根本性差异。[33],因为他们的消融研究不仅考虑了网络中不同数量的层,而且同时考虑了每层不同数量的神经元。两相传播分析。我们进一步进行了消融研究,以分析两阶段定向传播规则的好处我们将其与在密集方法中使用全邻接矩阵的两个连续更新进行了比较,并在表6中说明了结果。一致的improments得到使用我们提出的两阶段定向传播规则。2跳和所有数据集的3次运行的标准偏差。结果在多次运行中是稳定的,并且可以清楚地观察到,随着类数量的增加(所有类为2跳),结果变得更加稳定。可扩展性。为了获得良好的可伸缩性,重要的是邻接矩阵A是稀疏矩阵,使得计算D-1AXΘ的复杂度几乎与A中存在的边的数量成比例。我们的方法利用知识图的结构,实体只有很少的祖先和后代,以确保这一点。例如,我们实验中使用的ImageNet层次结构的邻接矩阵的密度为9。3×10−5,而我们的密集连接只将邻接矩阵的密度增加到19。1 ×10- 5。关于参数的数量,SGCN由4,810,752个砝码组成DGP通过增加2×(K+1)个附加权重来增加可训练参数的然而,在我们的实验中,当K=4时,参数数量的这种差异可以忽略不计。总体可训练参数的数量大大低于GCNZ模型(9,527,808个权重)。5. 结论与以前使用图卷积神经网络进行零次学习的方法相比,我们说明了零次学习的任务受益于浅层网络。此外,为了避免浅层模型中遥远节点之间缺乏信息传播,我们提出了DGP,它通过添加加权密集连接方案来利用知识图的层次结构。实验表明,所提出的方法的能力,优于以前的国家的最先进的零镜头学习方法。在未来的工作中,我们的目标是investi-门更先进的加权机制,以进一步提高性能的DGP相比,SGCN的包含额外的语义信息的设置,这些是可用于一个子集的节点是另一个未来的方向。致谢:这项工作部分由挪威研究委员会FRIPRO资助。239844.这项工作得到了中山大学创业基金会的支持,基金资助编号电话:76160-188412012跳SGCNDGP26.17±0.03 40.41±0.0326.67±0.09 40.74±0.04所有SGCNDGP2.80±0.01 4.90±0.012.95±0.00 5.05±0.0211496引用[1] Z. Akata、S.里德D.沃尔特,H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。IEEE计算机视觉和模式识别会议论文集,第2927-2936页,2015年1[2] M. M. 布朗斯坦Bruna,Y.LeCun,A.Szlam和P.范德根斯特。几何深度学习:超越了欧盟-加勒比数据。IEEESignal Processing Magazine,34(4):18- 42,2017。1[3] J. Bruna,W. Zaremba、A. Szlam和Y.乐存。图上的谱网络和局部连通网络。arXiv预印本arXiv:1312.6203,2013。二、三[4] S. Changpinyo,W.- L. Chao湾Gong和F.煞为零射击学习合成大小的分类器在IEEE计算机视觉和模式识别会议论文集,第5327-5336页6[5] S. Changpinyo,W.- L. Chao和F.煞为零射击学习预测看不见的类的视觉样本。在IEEE计算机视觉和模式识别会议上,第3476-3485页,2017年。6[6] W.- L. Chao,S.昌皮纽湾Gong和F.煞一个实验研究和分析广义零射击学习的对象识别在野外。欧洲计算机视觉会议,第52-68页。施普林格,2016年。7[7] M. Defferrard,X.布列松和P。范德海恩斯具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统进展,第3844-3852页,2016年二、三[8] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第248-255页5[9] S. Deutsch,S.科卢里湾金,Y。Owechko和S. 索阿托通过多尺度流形正则化的零射击学习。在IEEE计算机视觉和模式识别会议论文集,第7112-7119页3[10] Z.丁,M. Shao和Y. Fu.用于零射击学习的低秩嵌入式集成语义词典。在IEEE计算机视觉和模式识别会议论文集,第2050-2058页,2017年。3[11] A. 弗罗姆,G。S. Corrado,J.Shlens,S.Bengio,J.迪恩T. Mikolov等人Devise:一个深度的视觉语义嵌入模型。神经信息处理系统的进展,第2121-2129页,2013年。一、三、五、六、七[12] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。5[13] D. P. Kingma和J. BA. Adam:随机最佳化的方法。2015年国际学习代表会议。5[14] T. N. Kipf和M。威林基于图卷积网络的半监督分类。在2017年国际学习代表大会上一、二、三[15] E. Kodirov,T.Xiang和S.龚用于零触发学习的语义自动编码器在IEEE计算机视觉和模式识别会议论文集,第3174- 3183页,2017年。3[16] H. Larochelle、D. Erhan和Y.本吉奥。零数据学习新任务。第23届全国人工智能会议论文集,第646-651页。AAAI Press,2008. 3[17] Q. Li,Z. Han和X M.吴深入了解用于半监督学习的图卷积网络在第33届全国人工智能会议开幕式上。AAAIPress,2018. 1、4[18] Y. Li,D. Wang,H. Hu,Y. Lin和Y.庄。使用双重视觉语义映射路径的零射击识别。在IEEE计算机视觉和模式识别会议论文集,2017年。第1、3条[19] Y.朗湖,澳-地柳湖,加-地Shao,F. Shen,G.丁宁和J.韩从零触发学习到传统的监督分类:看不见的视觉数据合成。在IEEE计算机视觉和模式识别会议论文集,2017年。1[20] Y.陆神经网络输出的无监督学习:应用于零射击学习。第25届国际人工智能联合会议论文集,第3432-3438页。中国科学院出版社,2016. 1[21] T. Mensink,J. Verbeek,F. Perronnin和G.楚卡用于大规模图像分类的Metric学习:以接近零的成本推广到新的课程。欧洲计算机视觉会议论文集,第488Springer,2012. 3[22] I. Misra、A. Gupta,和M。赫伯特从红酒到红番茄:有背景的作文。在IEEE计算机视觉和模式识别会议集,第1792-1801页,2017年。3[23] M.诺鲁齐T.米科洛夫,S。本焦湾Singer,J. 史伦斯A.弗罗姆,G。S. Corrado,J。Dean.基于语义嵌入凸组合的零次学习。2014年国际学习表征会议。五、六、七[24] M.帕拉图奇湾Pomerleau,G. E. Hinton和T. M.米切尔使用语义输出代码的零触发学习。神经信息处理系统的进展,第1410-1418页,2009年。第1、3条[25] A. Paszke,S.格罗斯,S。钦塔拉湾Chanan、E.杨,Z.De Vito,Z. Lin,L.德迈松湖Antiga和A. Lerer Pytorch中的自动微分。在神经信息处理系统研讨会的进展,2017年。5[26] 彭宁顿河Socher和C。曼宁Glove:单词表示的全局向量 。 在 Proceedings of the Conference on Empiricalmethods in Natural Language Processing ,第1532-1543页,2014年。5[27] M. Rohrbach,M. Stark和B.席勒评估大规模环境中的知识转 移和 零触 发学 习。 在计算 机视 觉和 模式 识别( CVPR ) , 2011 IEEE 会 议 上 , 第 1641-1648 页 。IEEE,2011年。第1、3条[28] B. Romera-Paredes和P.乇一个令人尴尬的简单的零射击学 习 方 法 。 在 International Conference o
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功