有限标签下知识转移的GCN学习框架及其应用实例

100 浏览量更新于2024-01-22 收藏 1.23MB PDF 举报

知识转移

半监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11151有限标签下知识转移的学习图Pallabi Ghosh Nirat Saini Larry S.马里兰大学帕克分校University ofMaryland，College Park摘要固定输入图是利用图卷积网络（GCN）进行知识转移的方法的支柱。标准范例是利用输入图中的关系，使用GCN将信息从图中的训练节点传输到测试节点;例如，半监督，零次和少次学习设置。我们提出了一个通用的框架，用于学习和改进输入图，作为标准的基于GCN的学习设置的一部分此外，我们使用额外的约束之间的相似和不同的邻居在图中的每个节点通过应用三重损失的中间层输出。我们在Citeseer、Cora和Pubmed基准数据集上展示了半监督学习的结果，在UCF 101和HMDB 51数据集上展示了零/少拍动作识别的结果我们还提出了定性结果可视化的图形连接，我们的方法学习更新。1. 介绍基于图卷积网络（GCN）的技术已经被广泛用于迁移学习中，用于标记数据有限的任务，例如，半监督学习[24，55]和零次/少量学习[57，9，12]，其中测试类中的样本为零或很少。这些方法依赖于捕捉图中节点之间关系的输入图。给定这个输入图，然后使用GCN在图的节点上传播和吸收信息该框架的目标是将信息从训练节点传递到测试节点。这是一个相当通用的框架，适用于各种各样的任务，具有不同的节点表示和输入图。例如，对于半监督学习[24，55]，知识从训练样本转移到测试样本;节点表示数据集中的每个样本数据点，输入图表示这些样本如何相关。Zero-shot learning- ing [57，9，12]将培训课程中的知识转移到项目：https://pallabig.github.io/LearningGraphsForGCN/图1：我们使用GCN来更新输入图连接，并显示零射击动作识别中“混合击球手”类的结果基于语言的模型将“bat-ter”与“baseball”相关联测试类;并且节点表示类的语义嵌入（例如，word2vec[34]，wordce2vec [40]）并且输入图可以来自各种源（例如，Word- Net [35]，NELL [2]，NEIL [6]）。少量学习在基于类或样本的节点之间传递知识[12，23]。到目前为止讨论的这些基于GCN的技术的关键限制之一是由邻接矩阵捕获的输入图结构是固定的。通过设计，基于GCN的方法严重依赖于输入图，并且噪声或低质量的图对性能有巨大的影响在这项工作中，我们探索了随着时间的推移输入邻接矩阵的自适应学习，以及GCN训练的其余部分;即，用于训练底层任务的损失（例如，半监督学习或零/少拍学习）也用于更新输入邻接矩阵的结构。我们的经验表明，我们的学习图产生更好的结果为下游任务。我们提出的方法是一种简单的算法，通过学习更好的节点表示来更新图的结构，请注意，我们没有添加任何新的网络权重来学习。这与其他相关的图学习作品[21，10]形成鲜明对比，后者具有单独的专用网络和特殊的损失函数来更新邻接矩阵。由于通过GCN学习的节点表示捕获了与下游任务更好的相关性，因此所得图往往比来自外部源的输入图更好。一个这样的更新在图1中示出，其中我们学习了类“混合面糊”的更好的连接基于语言的知识图谱11152(KG)将“batter”与动词“batting”（显示为“input”）相关联实施上述直截了当的方法有两个关键问题。首先，在没有任何其他约束的情况下，更新密集或完全连接的图倾向于提供对结构的任意更新，甚至最终导致退化解（例如，所有边的权重相同）。其次，如果图连接是稀疏的（通常情况下），则没有机制来学习在学习的图中添加或删除连接。简单的算法，例如每个节点的固定度可以是一种解决方案，但它们往往是次优的，因为不同的节点可能具有不同数量的它们应该连接到的相关节点。此外，每个下游任务可以对节点的度具有特定于域的约束;例如，对于零触发动作识别，[12]观察到全连接图对性能有害，并根据经验确定合适的程度。为了解决上述两个缺点，同时遵守特定于域的约束，我们建议在中间输出节点- 即，节点特征在我们的图学习步骤之后但在图被传递到GCN框架用于下游任务之前。我们的公式为每个节点选择正邻居和通过确保负邻居比正邻居更远来避免退化解。因此，使用下游任务损失和三元组损失两者来训练图学习步骤总之，我们的贡献是一种简单的学习方法，可以更新基于GCN的迁移学习框架的输入图，以及避免退化解决方案并允许度约束灵活性的三重损失公式。我们证明了我们的方法在半监督，零拍摄和少数拍摄学习设置的有效性。对于半监督学习，我们使用基于引用网络数据集（如Cora，Citeseer和Pubmed）的通用框架[24]，并附带定义良好的输入图。对于零镜头/少镜头学习，我们专注于动作识别管道[12]，输入KG是从mcc 2 vec [40]嵌入构建的。2. 相关作品2.1. 图网络图网络已用于大量应用，如场景理解[59，62]，分割[54]，动作识别[13，60]等。关于图神经网络和图卷积网络的多项工作包括[11，47，23，8，17，24，48，64]。谱图理论是由Hammond等人提出的。[15]和最近的作品谱图论包括那些由 Defferard 等人。[24][26][27][28][29][29][29]][29][29]其他一些工作在过去的十年中，图网络包括[20，32，67]。半监督学习一些作品[18，24，25，30，43，55]利用GCN框架进行半监督学习。这些工作通常使用引文网络数据集，如Citeseer，Cora和PubMed [49，39]，以及蛋白质-蛋白质相互作用数据集[70]进行半监督学习实验。我们的方法利用Kipf和Welling [24]提出的GCN框架作为我们的GCN算子，引用网络数据集作为我们的输入。图学习网络与我们的研究最相关的是最近关于半监督学习的图学习网络的工作[10，21]，它提出了一个新的损失函数来学习图中的边权重我们不是用一个单独的网络来输出边的权重，而是从原始的GCN公式中提取中间输出，并直接更新邻接矩阵。我们的技术更灵活，允许更新节点特征和边权重，并在必要时进行连接与Jiang等人不同，我们的方法对输入节点特征维度长度增加所引起的复杂性问题也是鲁棒的。[21 ]第20段。Chen等人[5]使用算法更新图拓扑，以防止GNN中的过度平滑。Kim等人[23]应用图神经网络模型来学习输入图中的边权重，以进行少量学习，基于与其他标记节点的连接来预测标记相比之下，我们建立在GCN框架上进行零/少拍学习，其中图中的节点表示类而不是单个样本。2.2. 零/少拍学习在零/少数镜头图像分类领域的广泛研究包括[4，16，26，29，37，44，45、46、50、53、56、66]。其中一种零射击技术[57]在输入KG上使用GCN，将知识从可见类转移到不可见类。在此框架的基础上，[12]提出了基于3种不同KG的零/少数镜头动作识别框架。由于其灵活性，使用不同的输入图以及两个下游应用程序，我们使用[12]的管道作为我们的GCN框架进行零/少拍学习实验。在零/少数镜头动作识别领域的其他研究包括[1，9，14，19，28，33，36，61，68，69]，其中[9]还使用基于ConceptNet的GCN系统[52]。我们将证明，我们的方法优于国家的最先进的方法在这一领域。3. GCN框架概述用于半监督学习的GCN网络是基于谱GCN形式的两层网络，由[24]引入并在等式1中给出。Hl+1=g（Hl，A）=σ（D−1/2AD−1/2HlWl），（1）在这个等式中，g是GCN操作，它将第l层的输出Hl和邻接矩阵A11153经更新曲线图我KJI jK我输入图GCN1正电流负邻居节点邻居GCN2输出图图2：图形连接自适应学习的系统概述。输入图通过GCN层，该中间输出用于更新图以及计算当前节点与正集和负集之间的三元组损失然后，该输出通过另一个GCN网络传递，该网络生成特定于手头任务的输出最终输出用于计算特定于任务的损失（如零触发学习的MSE损失）。自我连接。这里，D是节点度矩阵，A，Wl是第l层的权重矩阵，σ是ac-公式2，其中σ是非线性的（例如，ReLU）。Σ激励功能（例如，ReLU）。D−1/2AD−1/2hl=σcikhl−1Wl、（二）从现在起，这种操作被称为邻接矩阵的归一化。我们使用GCN框架进行[57]提出的零射击高级概述见k∈Ni类似地，hl是第l层的第j然后，给出连接节点i和j的新边权通过等式3所示的H1和H2的余弦相似性。算法1（黑线）和进一步的细节提供在的补充。I.cij=标准化jhl·hlǁhl ǁǁhl ǁ、（3）4. 我们的方法ij从训练节点到测试节点的知识转移在很大程度上依赖于输入图的质量。样本/类之间更好的输入相互关系导致基于GCN的迁移学习框架的更好的输出。在没有附带的标记图（存在于引文数据集中）的情况下，几项研究探索了不同类型的KG（例如，[9，12]）。所有基于GCN的框架，除了半监督学习和零/少拍学习的少数例外，在整个GCN网络中使用固定的邻接矩阵。然而，如前所述，能够学习邻接矩阵既令人满意又具有挑战性。我们首先讨论我们的算法更新的邻接矩阵自适应，然后提出我们如何训练这个配方。4.1. 邻接矩阵的自适应更新假设GCN1是原始网络中提供中间输出的部分，而原始GCN的其余部分是GCN2。GCN1的输出用于重新计算邻接矩阵，其中边权重是GCN1的输出节点值的余弦相似度。然后，我们使用新的邻接矩阵作为GCN2的输入，从下一个epoch开始。更正式地说，让hl−1是第k个节点在第（l−1）层的输出。这通过具有权重Wl的第l个卷积层。对于每个节点，基于其邻居的加权聚合，其中边权重由连接节点i和K. 因此，给出了GCN1中第i个节点的第l层输出hl这里Normalize是使用的邻接矩阵归一化（24）我们将原始邻接矩阵表示为Ain和Aupdated的更新后的。GCN1对Ain进行操作，而GCN2对Aupdated进行操作。如果我们不保持这个约束，一个不正确的更新邻接矩阵将导致更糟糕的图在下一次更新导致多米诺骨牌效应。为了帮助优化，我们每隔n个时期更新A，以便GCN2可以适应新的输入图。最后，通过对原始输入图进行加权平均（使用等式4更新）来进行图邻接。Aupdated=λ<$Aupdated+ （ 1 −λ ） <$Ain ，（4）当我们有质量好的输入图时（例如，那些在半监督学习基准测试中，基于数据集标签），我们凭经验确定λ。然而，在输入图有噪声的情况下（例如，那些在[12]中计算的动作识别），我们经常设置λ=1，即，不要依赖于GCN2的输入图。所有设置的详细信息见第5节。4.2. 使用Triplet Loss进行训练第3节[57，12，24]中描述的原始网络分别使用分类损失和MSE（均方误差）损失来训练半监督和零射击学习网络。为了帮助更新图形结构，我们添加了一个三元组损失。因此，最终的框架是用三重损失和任务特定损失的加权和训练的，以用于具有权重因子β的增加的监督。对于三重态损失，我们需要正负集+任务特定损失三重损失11154Wn=i j，P算法1零次/少次学习black text是来自[57]的算法蓝色的文字是我们的贡献。负集合中的一些节点可能是压缩的并且导致大的惩罚，这对邻接矩阵更新是不利的。因此，我们使用验证集来经验性地输入：具有节点要素的输入图.Hfeat 和相邻的马，选择负集合类的序号范围（详情t.Rix.在……A.A.，预训练的I3D网络用于测试视频特征提取第6节）。f检验，并提取用于训练的最终分类器层权重.clsing类，每次更新的epochs数最后，我们对正集和负集的GCN1节点输出取平均值，以得到正集和负集。输出：所有测试类的分类概率网络：GCN1和GCN2是两个GCN网络1：程序GCN训练和测试2：A=Ain3：Href←示例参考节点.试验台向量。然后，当正向量与当前节点之间的距离比当前节点与负向量之间的距离小一定裕度α（= 0. ①的人。在数学上，设Href为当前参考节点的输出，4：P←基于A的Href的正相邻集合5：N←基于A的Href的负相邻集合6：当不收敛时，和HN是用于节点的平均输出向量，分别为正集和负集。然后，将Href与HP（或HN）之间的距离表示为dP和dN7：Hinter ←GCN. Hfeat，Ain（等式5）;并且使用下式计算三重态损失L三重态：1 .一、Hout←GCN2ΣHinter，A等式6.8：H火车←H出培训班，dP=Href−HP2，dN=Href−HN2，（5）HP←平均值 .HinterΣ对于P中的正邻居，HN←平均值 .HinterΣ对于NL=max（dP-dN+α，0），（6）9：dP=Href−HP2，dN=Href−HN210：损失←（1 −β）LMSE+βL三联体=（1 −β）<$Wcls−Htrain<$2+βmax（dP−dN+α，0），其中，α=保证金，β=加权损失参数11：如果（epochmodn）= 0，则5. 实验装置数据集。我们用Citeseer，Cora，和 Pubmed数据集[49，39]用于半监督学习的实验，其中节点是文档，边是引用。12：-种更新IJHinter·HinterǁHinterǁǁH interǁ选项。 Citeseer有6个班，Cora有7个班，我A=λ归一化.jA更新+（1 −λ）Ain在PubMed。我们使用相同的训练、测试和验证其中λ=加权更新参数13：优化网络的Hout*←输出，测试类的H test← H out*，P检验= f检验。H试验对于每个节点。对于半监督学习，图中的每个训练节点都是带有类标签的数据样本。因此，我们可以使用软三重损失[42]，它需要每个类的聚类数作为超参数。我们在验证集上根据经验确定了这一点，数值见第5节。另一方面，需要明确定义零/少数动作学习中类节点的正邻居和负邻居。我们依赖于图中每个类的邻域来初始化这些集合，如下所示。对于正集合，我们简单地使用最接近输入KG中每个节点的前N（=2）然而，与三重态丢失的情况一样如果我们仅使用最远的邻居，则使用MSE训练的下游任务网络已经实现了阳性和阴性之间的良好分离，并且三重态损失贡献可以忽略不计。这意味着三元组丢失对训练没有影响，邻接矩阵可以得到任意更新并导致退化解决方案。另一方面，如果负集合太接近正集合，分裂为[24，63]。对于零/少数镜头动作识别，我们使用Kinetics [22]来预训练我们的特征提取模型，并作为我们使用UCF101 [51]和HMDB51 [27]作为我们的评估数据集。动力学有400个班级; UCF 101有101个班级，其中23个用于测试，78个用于培训; HMDB 51有51个班级，其中12个用于测试，39个用于培训。这些数据集分割与[12]使用的数据集分割相同。我们在测试类中随机设置10个c类子集，并将所有10个子集的性能平均以进行验证。然后，我们选择在此验证集上具有最佳性能的模型，并报告整个测试集的结果c对于UCF101数据集为20，对于HMDB51数据集为10。有关数据集的更多详细信息请参见补充资料。输入图形。接下来，我们将讨论我们在这项工作中研究的输入图。对于半监督学习，我们使用与[24]相同的图，基于前面讨论的Citeseer，Cora和Pubmed数据集对于零/少数镜头动作识别，我们使用[12]使用的输入KG。我们在下面总结了这些KG（并请读者参考[9，57]，以讨论用于这些任务的其他类型的KG）。我们使用action-KG（或[12]中的KG 1）进行零射击学习;在本工作中称为A-KG。A-KG节点使用动作短语的mixce 2 vec [40]表示，邻接矩阵中的边权重是11155表1：我们使用Cora、Citeseer和Pubmed数据集将我们的技术的准确性与各种最先进的半监督学习技术进行了比较（越高越好）。我们提供GCN基线实施，表2：输入和更新邻接矩阵之间不同加权平均值的Pubmed验证数据的消融准确度比较，λ来自等式4。1.0 0.8 0.6 0.4 0.2 0.4 0.5 0.6PyTorch（GCN*）。Pubmed中的†代表GLNN，下采样输入数据。我们在Citeseer和Pubmed数据集上都获得了最佳性能。对于Cora，与GLCN相比，我们的绝对性能更差，但与相应的GCN基线相比，图学习的相对性能改善更好。方法科拉CiteSeerPubMed[第58话]百分之五十九点零百分之五十九点六百分之七十一点七[41]第四十一话百分之六十七点二43.2%百分之六十五点三ICA [31]百分之七十五点一百分之六十九点一百分之七十三点九小行星[63]百分之七十五点七百分之六十四点七百分之七十七点二切比雪夫[7]81.2%百分之六十九点八74.4%GCN [24]百分之八十一点五百分之七十点三79.0%[第38话]百分之八十一点七-百分之七十八点八GAT [55]83.0%百分之七十二点五79.0%[第10话]百分之八十三点四72.4%76.7%†GCN+GDC [25]百分之八十三点六百分之七十三点四百分之七十八点七H-GCN [18]百分之八十四点五百分之七十二点八百分之七十九点八[第21话]百分之八十五点五72.0%百分之七十八点三GCN*百分之八十72.0%百分之七十七点八我们百分之八十三点六74.3%百分之七十九点八对应节点特征之间的余弦相似度。对于少量学习，我们使用基于视觉特征的KG（或[12]中的KG 3）;全文称为V-KG这些视觉特征使用I3 D [3]网络提取，每个类别有五个随机样本，这些特征被平均以生成V-KG的节点特征。与A-KG类似，边权重基于节点特征的余弦相似性最后，我们还显示了使用基于动词和名词的KG（或[12]中的KG 2）的结果，称为VN-KG。从动作短语中提取动词和名词，并将它们的语义2vec作为两个独立KG的节点特征边连接再次基于节点特征的余弦相似性。在[12]之后，我们还显示了不同设置下这些KG组合的结果，并证明我们的方法可以推广到不同的输入图公式。渠道. 对于半监督学习，我们使用两层网络，其中中间输出用于更新图连接。所有三个数据集的学习率都是0.005。我们凭经验确定软三重损失的每个类的聚类数软三重损失的其余超参数与[42]相同。对于所有数据集，等式4中的λ参数对于零/少量动作识别，我们使用在Kinetics上预训练的I3 D [3]，并且仅在下游数据集上微调最后一个分类器层（单独在UCF 10111156Pubmed 76.2%80.6%79.8% 79.4% 79.0%表3：我们的结果与Ghosh等人的结果比较。[12]对于UCF101和HMDB51数据集。我们对所有输入KG配置都做得更好：A-KG、V-KG和A-KG+VN-KG+V-KG。该指标是平均准确度（越高越好）。输入KG UCF101 HMDB51[12个]我们[12个]我们A-KG49.1453.2738.0141.05V-KG57.0460.5745.0748.07{A+VN+V}-KG64.2465.4947.6949.17和HMDB51）直到收敛。我们使用一层用于GCN1，五层用于GCN2，其中最后一层用于使用多个KG的设置的融合GCN。学习率为0.001，除了少数拍摄学习，学习率为0.00005的UCF 101。为了计算MSE损失，我们使用基于特定数据集节点（HMDB 51和UCF 101）和Kinetics 节点的损失加权求和。对于除HMDB51A-KG外的所有零次/少数次KG，公式4中的λ均+V-KG+VN-KG，其中它是0.5（根据经验确定）。对于HMDB 51A-KG，我们使用GCN2的最终输出来计算更新的A（与GCN1相反）并且没有三重态损失。有关管道的更多详细信息，请参见补充资料。6. 定量结果6.1. 半监督学习我们在表1中显示了Cora，Citeseer和Pubmed数据集的半监督学习结果。我们比较了多种最先进的方法，包括GLCN [21]和GLNN [10]等图学习方法。GCN* 是我们在PyTorch环境中实现的GCN [24]，具有256个中间通道，我们得到的基线结果略有不同由于我们的方法建立在这个基线上，我们也报告了这些结果，以进行直接比较。我们的方法在Cite-seer和Pubmed数据集上都优于所有其他方法。GLCN在Cora数据集上做得最好，但他们在GCN基线上的结果是82。9%和在图形学习之后，他们的结果是85。5%，因此相对每单位增益为2。百分之六我们的基线GCN结果是80。0%，在图形学习之后，我们的结果是83。6%，这意味着3。6%的相对增益。消融分析。我们在表2中报告了Pubmed验证集上使用公式4中的不同λ值的结果。我们观察到λ= 0。8实现了最佳性能，并在所有半监督实验中使用它。补充资料中提供了其他实验和结果11157表4：使用三重丢失或更新邻接矩阵（在UCF 101V-KG上）的改进，一次一个，然后一起使用。度量是平均精度（越高越好）。表7：与UCF 101和HMDB 51数据集的最新技术水平零激发动作识别结果的比较。使用的指标是平均准确度（越高越好）。* 意味着我们实现了他们的算法在（a）中，我们对整个测试集进行比较。在（b）中，我们从UCF 101测试集中随机选择20个类10次，并对输出进行平均，以复制Rupi报告的20/81分裂我们的作品（[14，1，33，69]）。表5：消融显示了UCF 101A-KG的性能，每次更新相邻标记时具有不同数量的时期平均准确度中使用的度量（越高越好）。更新次数10 20 30 40 50UCF101A-KG52.89 50.1754.4150.72 48.71表6：显示UCF 101A-KG对于三重态损失具有不同的负集合类索引范围方法UCF101 HMDB5123-78分裂12-39分裂[46] 35.27 34.16[66] 34.26 35.26[9] 44.5-[21] 49.96* 37.06*[12] 50.13 40.77我们的53.27 41.05（一）方法UCF 101 20-81拆分[14] 36.5[1] 42.7[33] 51.2[69] 53.8我们的54.4（b）第（1）款平均准确度中使用的度量（越高越好）。三重损失UCF101A-KG49.22 48.74 51.5154.4149.276.2. 零镜头/少镜头动作识别我们在表3中比较了[12]的零和少拍动作识别的结果。这些结果是针对UCF 101和HMDB 51的，使用三种不同的输入图配置： A-KG 、V-KG 和A-KG+VN-KG+V-KG。对于UCF 101和HMDB 51，度量标准是平均精度，即所有类的类精度平均值可以观察到，我们在训练期间更新图结构的方法显著优于[12]。消融分析。我们首先分析我们的方法对更新邻接矩阵A和表4中的三重损失公式的贡献（在UCF 101上使用V-KG）。我们表明，这两种贡献是有效的，单独和相互补充。接下来，我们研究了与我们的建议相关的两个超参数-结果分别见表5和表6对于这些，我们使用随机选择的20个测试类的子集的10次运行的平均值。我们在每次更新30个epoch和负集范围[9，14]时获得最佳性能。与最先进的Zero-Shot学习比较。最后，我们比较了最先进的零射击学习方法。请注意，我们不能对少量学习进行类似的计算，因为我们不遵循和其他论文一样的情景学习管道。[12][13][14][15][16][17][18][19][”[1]。有关这些方法的更多详情，请参阅补充资料。我们对UCF 101进行和HMDB51数据集，并报告平均准确度。我们支持-参见表7a中的UCF 101和HMDB 51的整个测试组的结果，以及表7 b中的论文所使用的20/81分割的结果。对于后者，我们从UCF101测试类中随机选择20个类10次，并对输出性能进行平均，并报告所有运行的平均分数。我们在所有三种情况下都优于最先进的技术，进一步强调了更新零拍摄方法的图结构的重要性7. 讨论优秀的表现。在图3中，我们显示了我们的方法和[12]之间的类性能比较，用于UCF 101测试类，以A-KG和V-KG作为输入。对于使用A-KG的零杆学习，我们的技术优于大多数类（23个中的12个）的基线，如“涂抹眼妆”，“涂抹口红”，“台球”，“双截棍”和“玩Daf”。在某些情况下（23个中的7个），如稍后将讨论对“Stillrings”类的解释对于使用V-KG的少量学习，我们在12个类上表现得更好，在6个类上表现得更差，并且在5个类上与固定输入图相似。图形更新的定性结果。图4显示了基于A-KG的UCF 101和Kinetics的57个选定节点之间的图形连接。这些节点是所选8个测试类的邻近节点（类名称以红色显示）。边权重由颜色条中的边颜色表示。在这个颜色条中，蓝色表示最低的边权重，红色表示最高的边权重，绿色和黄色位于中间。左侧的可视化是针对输入邻接矩阵的，中心是在第30个时期的第一次更新之后，并且右侧是在第60个时期的第二次更新之后。有许多更新改进了输入KG的示例，但由于空间限制，我们在此仅讨论一个特定节点（更多信息KG（UCF101）三重损失更新平均准确度V-KG57.04V-KG✓58.57V-KG✓59.39V-KG✓✓60.5711158图3：分别使用A-KG和V-KG作为零射击和少射击学习的输入，在我们的方法（蓝色）和基线[12]（绿色）之间，对23个UCF 101测试类的准确性进行了类间比较。在这两种情况下，对于大多数类，我们要么击败要么保持基线性能。最好用数码观看。图4：我们绘制了UCF 101 +KineticsA-KG输入的邻接矩阵连接，并显示了邻接矩阵的以下两个更新。由于空间限制，我们只绘制一个子图。我们选择了8个测试类（类名显示为红色），并在KG中显示它们的所有连接。边的颜色显示连接的权重。在第一次和第二次更新后，我们可以看到多个区域的改进。最好用数码观看。请参阅补充资料）。对于由于名称中的“马”一词的存在第一次更新后，这些连接将被删除，但它会创建到类的连接，如“Archery”它有一些正确的连接，如“Vault”，“Unevenbars”;但由于各种连接的标准化，在第二次更新之后，许多这些连接（如“射箭”）被删除，重量增加到“地板体操”和“撑杆跳”等连接。因此，总体而言，KG在每次更新后都会有所改善。11159图5：我们显示了AL的连接，其中A是邻接矩阵，L是GCN中的层数（线性连接）。我们还显示了通过非线性GCN网络（基于GCN的连接性）后的连接，用于对于两者，我们使用固定输入A以及更新的A来显示前K个连接。边缘颜色（基于颜色条）并且连接的宽度表示边权重。（宽度越大，权重越大）。对于可视化重要的连接。图5显示了重要的图形连接相对于GCN网络。GCN具有多个层，并且每个层涉及卷积、邻接矩阵乘法和非线性。这个系统的线性等价物是AL，其中L是GCN中的层数，A是邻接矩阵。我们显示了AL中的前N个邻居，其中A来自输入，并且更新了两个测试类的邻接矩阵我们还可视化了最近的邻居后，当我们的方法更新了邻接矩阵时，GCN操作我们提出了一种新的可视化技术，受[65]的启发，它阻止了输入图像的一部分来理解ConvNets。如果GCN操作由G表示，并且GCN的输入是KGK，则原始输出概率由O=G（K）×fvid给出，其中fvid是C类视频的特征向量。接下来，我们通过删除到一个输入节点ni的连接将 K 修改为 K−ni ，新的输出由 Onew=G（K−ni）×fvid给出。然后，节点ni和核心节点之间的连接的重要性矩形输出类节点C由等式7给出，其中变化越大，连接越重要。|为|（G（K）− G（K − n i））× fvid|、|,（7）我们在图5中示出了使用输入和更新的邻接矩阵针对两个类“混合面糊”和“静止环”使用该方法提取的基于GCN的连通性。边的颜色和宽度表示连接的重要性或权重（宽度越大，边的权重越大更新的基于邻接矩阵的连通性对于“混合面糊”变得更好对于而我们更新的KG正确地将“混合面糊”与烹饪课程如“煮鸡蛋”和“做蛋糕”联系起来另一方面，对于“Still rings”，原始的KG具有“撑杆跳”和“体操翻滚”作为一些顶级邻居，而更新的KG具有“平衡木”、“不均匀杠”和“平衡杠”作为顶级邻居。问题是，这些更类似于在少数拍摄场景中，这个问题的一个可能的解决方案是选择性地更新邻接矩阵，其中仅更新那些节点的邻居，这导致更好的性能。8. 结论我们提出了一种方法来更新邻接矩阵的GCN为基础的配方自适应使用的三重损失，可以服从度约束的图。我们分析并定性地演示了图连接如何随着更新而变化。受ConvNets之前工作的启发，我们在GCN操作之后以及输入处可视化了各个连接的重要性。我们在多个基准数据集上的表现优于大多数最先进的技术，用于半监督学习和零/少数动作识别。致谢这项工作得到了空军的支持，通过小企业技术转让（STTR）第一阶段（FA865019P6014）和第二阶段（FA864920C0010），美国国防部高级研究计划局（DARPA）SAIL-ON计划（W 911 NF 2020009）。11160引用[1] Mina Bishay，Georgios Zoumpourlis，and Ioannis Patras.Tarn：Temporal Attentive Relation Network for Few-Shotand Zero-Shot Action Recognition，2019。第二、六条[2] 安德鲁·卡尔森、贾斯汀·贝特里奇、布莱恩·基西尔、伯尔·塞特莱斯、埃斯特万·R·赫鲁施卡和汤姆·M·米切尔。迈向无止境语言学习的架构。在20-2010年第四届AAAI人工智能会议1[3] Joao Carreira和Andrew Zisserman你说的是行动识别吗新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，第6299-6308页，2017年。5[4] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，andFei Sha.用于零触发学习的综合分类器。在IEEE计算机视觉和模式识别会议的Proceedings中，第5327-5336页，2016年。2[5] Deli Chen，Yankai Lin，Wei Li，Peng Li，Jie Zhou，and Xu Sun.从拓扑观点衡量与缓解图类神经网路在AAAI人工智能会议的Proceedings，第34卷，第3438-3445页2[6] 陈新蕾，Abhinav Shrivastava和Abhinav Gupta。从网络数据中提取视觉知识。在IEEE计算机视觉国际会议论文集，第1409-1416页1[7] 我是德费拉尔，Xa vierBresson和PierreVandergheynst。具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展，第3844-3852页，2016年。第二、五条[8] 大卫·K·杜沃诺、杜格尔·麦克劳林、豪尔赫·伊帕拉吉雷、拉法埃尔·邦巴雷尔、Timoth yHirzel、Ala' nAspuru-Guzik和瑞安·P·亚当斯。用于学习分子指纹的图上卷积网络神经信息处理系统的进展，第2224-2232页，2015年。2[9] 高俊宇，张天柱，徐长生我知道其中的关系：通过双流图卷积网络和知识图进行零射击动作识别。在AAAI人工智能会议上，第33卷，第8303-8311页一二三四六[10] 高翔、胡伟、郭宗明。探索结构自适应图学习的鲁棒半监督分类。在2020年IEEE多媒体和博览会国际会议（ICME）上，第1-6页。IEEE，2020年。一、二、五[11] 维克多·加西亚和琼·布鲁娜图神经网络的少样本学习arXiv预印本arXiv：1711.04043，2017。2[12] 放大图片作者：Pallabi Ghosh，Nirat Saini，Larry S.Davis和Abhinav Shrivastava。所有关于行动的知识图谱，2020年。一、二、三、四、五、六、七[13] Pallabi Ghosh，Yi Yao，Larry Davis和Ajay Divakaran。用于动作分割的堆叠时空图卷积网络。在IEEE计算机视觉应用冬季会议上，第576-585页2[14] Meera Hahn，Andrew Silva，and James M.2vec：一种跨模态的行动学习嵌入方法。 arXiv 预印本 arXiv ：1901.00484，2019。第二、六条[15] 哈蒙德，皮埃尔·范·安斯特，还有雷米·格里邦瓦尔。用谱图理论研究图上的波。应用和计算谐波分析，30（2）：129- 150，2011。2[16] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议的Proceedings中，第3018-3027页，2017年。2[17] Mikael Henaff，Joan Bruna，and Yann LeCun.图结构数据上的深度卷积网络。 arXiv 预印本 arXiv ：1506.05163，2015。2[18] 胡芬玉，朱艳桥，吴舒，王良，谭铁牛。用于半监督节点分类的分层图卷积网络。 arXiv 预印本 arXiv ：1902.06667，2019。第二、五条[19] Mihir Jain，Jan C van Gemert，Thomas Mensink，andCees GM Snoek. Objects2action：对没有任何视频示例的动作进行分类和定位。在IEEE计算机视觉国际会议论文集，第4588-4596页2[20] Feng Ji，Jielong Yang，Qiang Zhang，and Wee Peng Tay.Gfcn：一种新的基于并行流的图卷积网络.在ICASSP2020-2020 IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）中，第3332-3336页IEEE，2020年。2[21] 姜波，张紫烟，林豆豆，唐锦，罗斌图学习卷积网络的半监督学习。在IEEE计算机视觉和模式识别会议论文集，第11313-11320页，2019年。一、二、五、六[22] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017年。4[23] Jongmin Kim ， Taesup Kim ， Sungwoong Kim ， andChang D Yoo. 用于少次学习的边标记图神经网络在IEEE计算机视觉和模式识别会议论文集，第11-20页，2019年。一、二[24] Thomas N Kipf和Max Welling。用图卷积网络进行半监督分类。arXiv预印本arXiv：1609.02907，2016。一、二、三、四、五[25] Johannes Klicpera ， Stefan Weißenberger ， and StephanGünnemann.差异融合改进了图学习。在神经信息处理系统的进展，第13354-13366页第二、五条[26] Elyor Kodirov，Tao Xiang，Zhenyong Fu，and ShaogangGong。无监督域自适应零射击学习。在IEEE计算机视觉

下载后可阅读完整内容，剩余1页未读，立即下载