没有合适的资源?快使用搜索试试~ 我知道了~
基于神经结构搜索的多模态连续图学习及其实验结果验证
1292→基于神经结构搜索的多模态连续图学习蔡杰1,王欣1*,关朝宇1,唐亚腾2,徐进2*,钟斌2,朱文武1*1. 中国清华大学2. 数据质量团队,微信,腾讯公司,中国{caij20,guancy19}@mails.tsinghua.edu.cn,{xin_wang,wwzhu}@tsinghua.edu.cn{fredyttang,harryzhong}@tencent.com,cnjinxu@gmail.com摘要连续图学习在诸如在线产品推荐系统和社交媒体等各种现实世界应用中迅速成为重要角色。 在取得巨大成功的同时,现有的关于持续图学习的工作忽略了来自多个模态的信息(例如, 视觉和文本特征)以及隐藏在不断变化的图形数据和不断发展的任务中的丰富的动态结构信息。然而,考虑多模态连续图学习与不断演变的拓扑结构提出了巨大的挑战:i)目前还不清楚如何将多模态信息纳入连续图学习和ii)它是不平凡的设计模型,可以捕捉结构不断变化的动态图学习。 为了解决这些问题,本文提出了一种新的多模态结构进化连续图学习(MSCGL)模型,该模型能够不断地学习自适应多模态图神经网络(AdaMGNN)的模型结构和相应的参数。具体而言,我们提出的MSCGL模型同时考虑社会信息和多模态信息来构建多模态图。 为了不断适应新的任务而不忘记旧的任务,我们的MSCGL模型探索了一种新的策略,在不同的任务中联合优化神经结构搜索(NAS)和组稀疏正则化(GSR)。这两个部分相互作用,NAS预计将探索更有前途的架构,而GSR负责保存以前任务中的重要信息。我们进行了广泛的实验,在两个现实世界的多模态连续图的情况下,证明所提出的MSCGL模型的优越性。 实验结果表明,不同任务之间的结构和权重分配对模型性能有重要影响。CCS概念• 计算方法机器学习;在线学习设置。允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。版权的组成部分,这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3512176关键词持续学习,多模态图,神经结构搜索ACM参考格式:蔡杰1名,王欣1名 *,管朝宇1名,唐亚腾2名,徐进2名 *,钟斌2名,朱文武1名 *。2022年多模态连续图学习与神经结构搜索。 在ACM Web Conference2022(WWW'22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,NewYork,NY,USA,9页。https://doi.org/10.1145/3485447.35121761引言连续图学习是一个新兴的研究课题,它从具有顺序到来的不同任务的图数据中学习,旨在逐步学习新知识,而不会在顺序到来的任务中忘记旧知识[17,34,38]。然而,现有的连续图学习方法忽略了隐藏在各种模态中的信息(例如,视觉和文本等)以及顺序到来的任务的不断变化的图形数据中丰富的动态结构信息。一方面,许多现实世界的应用,如化学分子显示[13],社交媒体[24,26]和情感分析[35],显示出对图中多模态信息的日益关注[40]。另一方面,我们总是可以用动态结构信息(例如,具有用户共享、评论、点击和喜爱行为的社交媒体文章的序列),通过跟踪阅读相同文章的人和购买相同产品的人来提取不同的模态以及跨项目和用户的社交联系。具体地,具有真实世界中的动态结构信息和模态信息的多模态图具有以下性质:任务以连续的顺序出现,其中数据分布由于某些原因而动态地改变(例如,季节性趋势或紧急情况);内容包含各种形式的元素,包括文本、图片和时间戳等;不同内容之间的联系反映了信息的传播或不同内容之间的相似性,这种相似性也是随着时间的推移而考虑到最佳模型架构可能在具有不同数据分布的不同任务下变化[8,41],当将图深度学习模型(如图神经网络(GNN))应用于顺序到来的任务时,有必要动态学习* 通讯作者···1293WWW为不同的任务提供最佳的架构,以获得令人满意的性能。然而,考虑到具有不断发展的拓扑结构和模态信息的多模态连续图学习带来了巨大的挑战:(1) 目前还不清楚如何将多模态信息[39]纳入持续的图形学习。多模态连续图导致要考虑的模型比单模态图更复杂,并且在连续学习过程中定义共享多模态图神经网络(MGNN)模型也不是简单的。(2) 设计能够在持续的图学习中捕获结构演化动力学的模型是不平凡的 现有的连续图学习方法只能应用于固定的GNN结构。 如何在不同任务之间共享参数和结构,同时保持持续的学习能力是重要的。现有的连续图方法[17,27]没有考虑任何多模态信息。他们为每一个任务设计了一个固定的体系结构,忽略了为进一步提高记忆和扩展效率而进行体系结构调整的必要性,导致了结构演化动态多模态持续学习为了解决这些挑战,我们提出了一种新的多模态结构进化连续图学习(MSCGL)模型,该模型不断学习自适应MGNN(AdaMGNN)的模型架构和相应的参数。我们的MSCGL模型能够随着时间的推移增加拓扑信息,特征信息和模态信息,而不会忘记过去学习的信息。为 了 解 决 挑 战 ( 1 ) , 我 们 设 计 并 维 护 了一 个 扩 展 的网络AdaMGNN,以自适应地从流任务中学习。对于每个任务,我们允许AdaMGNN在训练期间增加复杂性,改变架构,并基于自动图机器学习的思想从现有架构和权重进行热启动[30]。为了应对挑战(2),我们在搜索网络架构时添加了约束,以便学习到的架构具有更好的学习新任务的能力,而不会忘记以前的知识。 我们还使用参数共享来避免不必要的参数存储.本文基于这样的动机,即利用多模态图的历史信息来解决新图的图学习问题,同时不忘记过去学习的知识,从而实现多模态图数据的持续学习。我们的工作与以前的连续图学习工作相比是创新的,因为这些方法忽略了图数据中的多模态信息,并固定了GNN的网络结构,而没有根据不同的任务对网络结构进行自适应的改变。概括起来,我们做出了以下贡献:我们提出了一个多模态结构进化的连续图学习(MSCGL)模型,该模型自适应地探索模型的体系结构,而不会忘记历史信息。我们提出了一个自适应MGNN(AdaMGNN)模型与共享策略合作共享策略避免了不必要的架构扩展相似的任务。我们在两个真实世界的多模态连续图场景进行了充分的实验,以评估所提出的MSCGL框架。 经验证据表明,不断发展的体系结构和不同任务之间的权重共享在影响模型性能方面起着重要作用。我们在第2节讨论相关工作,在第3节提出问题,在第4节提出我们提出的模型,在第5节描述我们的实验,并在第6节总结论文。2相关工作2.1多模态图神经网络由于图学习在信息聚合、传递方面的成功以及多模态学习的成熟,一些学者将研究重点放在多模态图学习上,以有效利用多模态依赖关系和信息传播关系。 多模态图神经网络是一种深度图学习模型,旨在以端到端的方式表示多模态图结构数据。[22,33] Weet al. [25]为每个模态分配图卷积网络,以捕获隐藏在模态特定用户项二分图中的每个节点的表示。Tao等人 [31]不仅使用邻居件注意力来建模不同用户和不同项目之间的相似性,而且使用门控注意力机制来识别不同模态对用户偏好的重要性得分。Gao等人[7]通过三个基于注意力的聚合器动态更新节点的表示,这些聚合器引导模态之间的消息传递 虽然这些多模态图学习方法取得了巨大的成功,但现有的多模态图学习方法是针对静态图设计的。也就是说,由于灾难性的遗忘问题,它们不能直接用于持续学习场景2.2连续图学习连续图学习的目的是当图结构数据以无限流的方式出现时,逐渐扩展所获得的知识,成功地解决了灾难性遗忘问题[2]。现有的连续图学习方法可以分为两类:基于重放的方法,存储有代表性的历史数据或精心设计的数据表示;基于正则化的方法,将正则项添加到损失函数以限制过去知识的变化GraphSAIL [34]使用蒸馏机制显式存储每个节点的局部结构,全局结构Liu等人[17]提出了拓扑感知的权重保持(TWP),它显式地学习输入图的局部结构和拓扑聚合机制,试图稳定在拓扑聚合中起关键作用的参数Wang等人[28]结合数据重放和模型正则化以保留现有模式。Zhou等人[38]在过去的图中选择一些重要的节点作为经验节点,并保存它们以供训练新图时回放Galke等人[6]系统地分析明确存储为历史数据或隐含在模型参数中的知识的影响然而,这种方法只是对每个新任务使用热重启或冷重启。这些文章代表了持续图学习的两个视角--数据视角和模型视角。我们的工作是···1294不T AW多模态连续图学习神经架构搜索WWW从模型的角度来看,它也可以被转换为正则化-表1:符号词汇表基于方法。上述连续的缺点之一图学习方法的一个重要特点是它们固定了GNN结构,这是现有方法与我们的模型之间的显著差异如果数据分布的变化是戏剧性的,历史模型架构可能无法很好地执行新的数据。符号描述t,Gt第t个任务和对应的多峰图第t个任务的特征矩阵和标签向量m情态,即视觉情态和语篇情态2.3连续神经结构搜索h(l)(h(l)))(模态m的)节点u的第l层表示神经结构搜索是近年来的研究热点。 它旨在自动搜索最有效的模型架构,用于特定的深度学习问题,而无需人工u u,mWt是第t个MGNN模型的参数第t个MGNN模型的体系结构干预 不同的图数据在结构、内容和任务上差异很大,合适的GNN也可能差异很大,因此科学家们也密切关注图神经架构搜索[9,10,15,29,36,37]。Gao 等人[8]提出了基于强化学习的GraphNAS 递归网络用于生成GNN的描述,并使用强化学习进行训练,以最大限度地提高所生成架构的预期准确性。Pasunuru等人[21]提出了一种新的连续体系结构搜索(CAS)方法,以在多个任务的连续训练期间同时进化模型体系结构和模型参数,而不会丢失先前学习的任务的性能。Hu等人 [12]建议Petridish迭代地向现有网络层添加快捷连接,这可以用于终身学习场景中的热启动。 Fu et al. [5]使用权重共享和知识蒸馏,缩短训练 时 间 , 记 住 老 类 。 Niu 等 人 [20] 提 出 自 适 应 eXpert(AdaXpert)来调整不断增长的数据的模型架构。 它们根据不同数据集的数据分布调整模型结构。然而,上述方法是针对CNN 或 RNN 提 出 的 。 没 有 连 续 的 神 经 结 构 搜 索 方 法 的GNN。3问题定义在本节中,我们设计了多模态结构演化连续图学习问题的一般公式。简而言之,问题是如何学习多峰GNN f θ,该多峰GNN fθ可以顺序地学习接下来的多峰图G1,···,Gt。1上的定义流式多模态图是多模态图G ={G1,G2,···,Gt-1 , Gt , ···} 的 序 列 , 其 中 每 个 多 模 态 图 G={V , E} 。V={v1,...,vN}表示N个节点,E={vi,vj,|1 ≤i,j≤N}表示边的集合。对于每个节点vi ∈ V,vi对应于多模态节点特征Xi和类别标签yi∈Yt ={0,1,2,· · · }。在我们的持续学习设置中,不同的任务对应于不同的多峰图G和标签集Y。 每个任务是一个两类节点分类任务,每个节点有两个模态:视觉模态和文本模态。我在2号线。给定一个多峰图序列G={G1,G2,···,Gt −1,Gt,···},每个图Gt对应一个任务Tt。每个任务Tt包含训练节点集V tr和测试节点集V tr,为了不占用太多的资源,我们希望在以下两个约束下解决问题:首先,在每个快照中,我们没有历史图。 与基于数据视角的持续学习方法不同,该方法不需要重放任何经验节点。然而,我们的模型是兼容的经验重放方法,因为我们不需要额外的假设数据。其次,该模型不仅要在当前任务上表现良好,而且要克服关于先前任务的灾难性遗忘问题 这意味着我们需要减少对先前任务重要的参数的不必要的更改。因此,我们提出了以下多模态结构进化连续图学习的定义三号线上。多模态结构进化连续图学习的目标是找到最佳的多模态GNN架构和模型参数,满足:(At, Wt )=ar<$min (At, Wt) ∈ ( A, W ) LM( f (At, Wt)(Gt|At−1,Wt−1)()1)其中At和Wt是任务t的最佳结构和模型参数,并且是模型结构和参数的搜索空间。与结构固定的持续学习方法不同的是,随着新任务的出现,模型的结构发生了变化很 我们只保存上一个任务的模型,因为多模态图导致比普通图学习问题更复杂的模型。 模型不能太复杂,而且由于大量的参数,我们不能为每个任务保存模型。4方法这里的问题是:如何避免灾难性的遗忘问题所造成的保存特定的子模型从最后一个任务? 在本节中,我们将详细介绍我们的多模态和结构进化连续图学习(MSCGL)方法。4.1MSCGL总体框架MSCGL框架的生命周期包括四个阶段,即, 数据处理、神经架构搜索、搜索模型训练和维护,如图1所示。 在数据处理阶段,我们处理原始数据并构造多模态图具有对应的特征集Xtr不 X te.不神经网络命名为AdaMGNN(在第4.2节中详细介绍)。在不t持续学习对于流式传输,多模态图旨在顺序地学习这些任务而没有灾难性的遗忘问题。神经结构搜索阶段,我们共同搜索结构和参数,不仅记住过去的知识,1295–u,∈()∈M{{|{( 我()下一页u,uMv,mWWW'22,2022年4月25日至29日,虚拟活动,里昂,法国蔡等人。图1:拟议的MSCGL模型的总体框架(a) 数据预处理阶段。接收包含文本和视觉模态的多模态图的序列在这一步中,我们使用ViT和Bert提取多模态特征(b)架构研究阶段。黄色图和绿色图分别表示文本和视觉模态的图在这个阶段,我们使用NAS来搜索当前任务的最佳架构(c)再培训阶段。我们重新训练在架构搜索阶段(蓝色)找到的模型,并对共享参数进行正则化(d)维持阶段。我们把通过共享策略将重新训练的模型与当前的AdaMGNN模型进行比较在新的任务中也表现出色 在共享模型训练阶段,我们重新训练在神经架构搜索阶段找到的最佳架构。在维护阶段,我们明确地删除了ob-其中Φl,m是包含相关计算和聚集运算的聚集函数,σ是激活函数。W(l)是网络权重,h(l−1)是最后一层的输出,或者删除旧架构的块,并为模型配备新的模块v,m保存来自新任务和历史记录的知识的块对于l1= 0,Nu的输入特征是节点u的感受野。任务4.2多模态图神经网络在本节中,我们将介绍我们的AdaMGNN,它作为对于Φl,m,我们首先计算每个节点v,u的相关系数e(l)v,m,然后我们从表2中列出的邻域聚集信息。从形式上讲,Φl,m({h(l−1):v∈N(u)})=A({e(l)v,h(l−1):v∈N(u)})。(三)共享模型贯穿我们MSCGL框架的所有阶段v,mu,m v,m由于AdaMGNN需要在不同的任务和不同的架构之间共享和进化,因此我们的AdaMGNN的设计与以前的多模态GNN完全不同 。 为 了 更 好 地 与 结 构 演 化 多 模 态 图 的 持 续 学 习 协 作 ,AdaMGNN需要1)充分利用不同节点之间的连接;2)以统一的方式组织不同的模态以进行进一步的节点分类; 3)可以根据未来的任务自适应地调整架构为了实现这些需求,我们继承并扩展了GraphNAS的框架 我们的AdaMGNN模型由两个组件组成-GNN单元和预测层。4.2.1GNN细胞。 在GNN细胞中,我们对不同模型下的信息传播和聚集进行了建模。 我们将来自每种模态的数据表示为图形Gm=Vm,E,其中Vm =Xm Xmm和E=i,j。M表示来自特定模态M的特征集合。m=v,t分别表示视觉和文本特征模态m的第l层中的GNN单元更新节点特征对于每个节点v,通过将其邻域聚合为h(l)m=σ(W(l)·Φl,m({h(l−1):v∈N(u)})),(2)4.2.2预测层。在更新特定模态m中的节点的表示之后,我们将不同模态的表示组合成新的表示,其可以表示为:hu′=hu,v||hu,t(4)我们让最终GNN层的输出的集合u′作为分类层的输入,并使用线性层来预测每个节点的标签:y=sof tmax(tanh(Wh(l)+b)),(5)其中W是可训练权重矩阵,b是偏置向量。 我们使用softmax函数来获得最终的预测得分y u。4.3多模态图神经结构搜索一个挑战是现有的持续学习方法需要存储大量的网络参数,因此空间复杂度高。因此,我们使用NAS来确定新的网络架构,并且新的网络架构与历史网络架构共享部分网络结构和权重。分类器(a)数据预处理(b)架构搜索当前任务用户内容(c)重新训练AdaMGNN,新架构文本视觉一BAdaMGNNC先前任务未来任务NASAdaMGNN一一C一??一BBCa aB一CBC???????共享策略共享策略BCBBBBBB??什现有AdaMGNNBbBt-2Bcc bt-3t-1不t+1时间(d)更新现有的AdaMGNNConcatenate分类器Concatenate1296.∈Le=LeakyReLU(Wh+Wh)urvlUVRMWWUV∈MM()下一页L(())E([R(())])不 · · ·Tgcneuдvcn=1/D d||2,(11)UV.UVLb=||W[i,:]||2,(10)多模态连续图学习神经架构搜索WWW表2:搜索空间M的运算符其中Lc是旨在找到架构的正则化项有资格继续学习。yui是实际的label,yui是操作运算符值预测分数,N是批量大小。合计和j平均值1/|NNuHuH共享参数的正则化。我们将c定义为两部分的组合:Lc=λ + λoLo,(Lmaxmaxj ∈Nuhu.BbmlpMLP(( 1+)hu+v∈N(u)hv)其中. .W我相关常数con=1O.不2refuvu vgatWref,W∈W达UV对称门 东方报 =eдat +eдat其中λb 是块稀疏系数,λo是正交共-UVmgatuvvu高效. W是共享参数的空间。Wref=W−Wrefem <$at=e<$at<$σ(hu<$hv/dudv)是一个可学习的参数,它是块稀疏的,与cosecos=Wlhu,Wrhu不ref,k. 这两个正则化可以被看作是linearelin=tanh(sum(Wrhv))我们的方法基于GraphNAS,它可以基于强化学习自动设计最佳图神经架构。给定AdaMGNN的搜索空间,我们的目标是找到最佳的架构模型,不仅使网络在验证集D上的准确性最大化,而且还记住从过去的任务中学习知识在本节的剩余部分中,我们将介绍AdaMGNN的新搜索空间。 然后,我们将搜索过程表示为优化问题,并训练控制器联合搜索模型架构和权重。 在最后一部分,我们展示了更多关于控制器训练损失的细节,这有助于搜索具有最佳记忆能力的模型。搜索空间。我们定义搜索空间如下:相关度量维Att,聚集维A和激活函数Act。我们生成的架构描述作为一个令牌序列,而每个令牌对应于每个AdaMGNN层的操作 与GraphNAS类似,我们在表2中设计了AdaMGNN层组件的搜索空间。训练控制器。控制器的训练与GraphNAS类似。设P a,θ是通过选择控制器θ而参数化的结构a的分布,目的是最大化期望精度P a,θa w,G,同时最小化训练损失训练a w,G,这可以表示为下面列出的最大E[R(a(w,G))],(6)S. t. w= arg min Ltrain(a(w,G)).(七)这里w是根据第4.4节中的共享策略的共享权重 与GraphNAS不同,我们的训练损失定义如下:1 .一、NAdaMGNN参数的搜索空间 我们想要搜索块稀疏且与先前共享参数正交的参数。4.4多模态结构进化连续图学习在不失一般性的情况下,我们假设具有t个任务的有限序列,并且我们维护具有共享参数θ的AdaMGNN模型。接近ENAS[12]的想法,即所有的架构,NAS最终迭代可以被视为一个更大的架构图的子图为一个拓扑结构固定的图图中的每个节点代表本地计算,边代表信息流。每个节点上的本地计算都有自己的参数,这些参数仅在特定计算处于活动状态时使用因此,MSCGL允许参数共享、正交学习和热启动。在下文中,我们通过一个示例来促进AdaMGNN的讨论,该示例说明了我们针对单个GNN单元的共享策略和持续学习策略。我们通过一个简单的例子来说明AdaMGNN ,层数L=2,模态数M=2。为了创建AdaMGNN架构,控制器采样4个决策块,每个决策用于创建GNN单元。步骤1假设发现最佳相关函数为m <$at,则在块稀疏正则化中应考虑节点m <$atm <$at的参数保存在节点m <$at中。步骤2再次发现最佳相关函数为m <$at,这意味着在块稀疏正则化和正交正则化中都应考虑该节点。在重新训练共享模型之后,步骤1中的节点m <$at的参数被新参数覆盖步骤3发现最佳相关函数是<$at,因此在块稀疏正则化中仅需要计算节点<$at。保存节点дat分享战略。我们探索了不同的分享策略-Ltrain(yu,y<$u)=−Mi=0(yuilogyui−(1−yui)log(1−yui))+Lc,(八)包括:1)在相同的GNN小区之间共享参数;2)在相同的聚合之间共享参数;3)在所有聚合之间共享参数然而,只有第二种策略Wu|j∈Nuuactivation/tanh,relu,identity,softplus,leaky_relu,relu 6,eluL=||Wref·1297236635031921653200619271470109813261058375281671;←不MWWW效果很好。以这种方式,当针对新任务Tt训练AdaMGNN时,MSCGL将针对每个GNN信元检查聚合动作是否在最后的GNN信元中具有参数如果是这样,我们将在这个参数的训练上添加两个构造如果没有,我们将只添加块稀疏构造。百分之八十60.00%40.00%百分之二十0.00%百分之十四点四六31.70%百分之十四点二五21.73%67.00%12.14%15.75%16.05%35.52%百分之二十五点八三算法1:多模态和结构进化的连续图学习输入:节点分类任务的序列T0,T1,···,TN;带参数的共享模型θ份额输出:每个任务t的节点的预测标签;对于t1到Ndo2、不收敛时,3Controller samples architectures setfrom search空间;4为M在M做5θ′←sharing_strategy(θshare);40003000200010000招待金融社会体育低俗垃圾激励服装杂货店Amazon dataset文章数据集(a) 每个任务的类1中节点的百分比237025032322658484423386类数1类数0(b) 每个任务的不同类中的节点数6训练AdaMGNN(θ′,M,Gt,Xt,yt);7列车控制员;8θshare←Train AdaMGNN(θ′,Mt,Gt,Xt,yt);9年前,t←PredictusingAdaMGNN(θshare,Mt,Gt,Xt);组稀疏正则化。 许多科学家对神经网络的稀疏性进行了深入而广泛的研究。他们设计了一系列的网络压缩方法,如低秩近似、网络剪枝、网络量化、知识蒸馏等[19]。Scardapane S等.[23]提出了深度神经网络的组稀疏正则化 该方法同时考虑了以下优化任务:去除深度神经网络不必要的权重,减少隐层神经元的数量和进行输入特征选择。Pasunuru等人[21]在搜索权值时提出了两个限制:网络参数是块稀疏的,网络参数的变化是块稀疏的,并且与旧的网络参数正交。通过这种方式,新的架构和参数对过去的任务影响较小。虽然这两个限制最初是为DNN设计的,但我们的实验也验证了该方法对GNN的有效性。5实验在本节中,我们执行各种实验来验证所提出的MSCGL方法的有效性我们在第节中提供了有关数据集和基线的详细信息5.1 分别为5.2。 我们用来评估模型的指标将在5.3节中介绍。第5.4节描述了实现细节。 MSCGL与其他基线的比较结果见第5.5节。最后,我们通过5.6节中的消融研究验证MSCGL中各个部分的有效性。图2:Amazon数据集和Articles数据集的统计数据5.1数据集我们评估建议MSCGL与几个流行的国家的最先进的基线上两个真实世界的多模态节点分类数据集。每个数据集被分成几个子任务,没有重叠的标签空间。我们以流的方式形成这些子任务,以模拟现实世界的场景,即与以前的数据相比,数据总是带有显着不同的新类持续学习是在处理即将到来的新任务的同时保持先前任务的性能。亚马逊数据集:我们从Ama- zon产品数据中提取我们的亚马逊数据集[11],其中包含产品数据,产品名称,产品图像的URL以及来自不同产品类别的相关产品。 每个节点代表一个具有两种形态的产品:视觉图像和文本名称。如果有一个用户同时查看两个节点,则两个节点是连接的。根据产品所属的细粒度类别生成节点标签我们为流设置构建了3个任务:服装,杂货店和家。ArticlesDataset:该数据集由腾讯微信上的文章构建而成。每篇文章对应两种模态:视觉头部图像和文本标题。如果有一个用户同时查看两篇文章,则这两篇文章是连接的。每一篇文章都根据内容的质量进行标记 我们构建了7个任务:垃圾,动机,粗俗,社会,金融,娱乐和体育。对于每个数据集,我们使用预训练的Bert [3]的开源实现[32]来提取文本特征,并使用预训练的Vision Transformer(ViT)[4]来提取视觉特征。 每个数据集都按照转换设置进行预处理:输入图可以在所有数据集分割(训练,验证和测试集)中观察到。我们以4:2:2的比例将节点和标签分为训练集、验证集和测试集。1298多模态连续图学习神经架构搜索WWW5.2比较方法我们提供了几种最先进的持续图形学习表3:Amazon数据集上每个步骤的预测性能。基线。为了使它们支持多模式设置,节点的文本嵌入是连接的,下面列出了比较方法。MSCGL(我们的):它是为多模态GNN量身定制的持续学习方法。MSCGL探索了一种新的策略,跨顺序任务联合优化NAS和GSR拓扑感知的权重保持(TWP)[17]:它明确研究不同任务的拓扑聚合机制,捕获图的拓扑信息,并找到对任务相关和拓扑相关目标都很重要的关键参数。学习而不忘记(LWF)[16]:这种方法可以被看作是知识提取技术和微调的结合。与微调不同,LWF利用知识提取损失来激励新网络的输出接近旧网络的输出。方法亚马逊文章AP AF AP AF微调75.61-19.9861.01-39.1LWF78.78-14.1486.69-2.12EWC86.38-3.1082.17-6.41MAS85.20-0.8586.370.17创业板77.932.4880.68-10.39Twp83.27-0.2286.70-0.26MSCGL89.44086.70-0.89联合培训90.04-91.93-表4:Amazon数据集和Ar-Cloud数据集上的预测性能弹性重量合并(EWC)[14]:作为常规-EWC使用基于模型化的方法,通过在新任务到来时将模型参数限制为接近旧值,来维护对先前学习的记忆感知突触(MAS)[1]:它计算神经网络参数的重要性。当学习-在一项新任务中,重要参数的改变是惩罚性的-第三步83.42 88.14 96.74 87.88 85.27 86.95这有效地防止了重要的知识相关以前的任务被覆盖。梯度情景记忆(GEM)[18]:对于每个任务,它使用情景记忆来存储观察到的例子的子集。 在对新任务进行学习时,对旧任务的损失限制在不增加。并将MSCGL与细调和联合训练进行了比较。对于微调方法,我们直接对新任务的训练模型进行微调,而不考虑灾难性遗忘问题。对于联合训练,我们对所有任务进行联合训练,并对每个任务进行评估。注意,联合训练是连续学习设置的近似上限,我们利用MGAT,一种强大的多模态图学习最先进的技术作为这些基线的基础模型。5.3度量首先,我们使用分类精度作为每个任务的主要评估指标为了衡量我们的连续图学习方法的记忆和学习能力,我们使用平均表现(AP)和平均遗忘(AF),如[ 38 ]和[17]所示。 AP是最终模型的所有任务的平均测试性能。 AF是每个任务的最终模型性能和中间模型性能之间的平均差异。5.4实现细节AdaMGNN的详细信息 对于每个任务,我们根据经验将AdaMGNN的隐藏状态的维数设置为256,融合层的维数设置为64。 我们将AdaMGNN的层数固定为2,并使用级联和求和作为我们的融合和聚合策略。我们使用1e- 4的初始学习率和根据交叉熵的早期停止策略联合培训 83.4289.4697.2483.9694.29 八十七点五二验证数据集的损失和准确性,耐心100个epoch。详细架构搜索。 与GraphNAS类似,控制器是一个具有100个隐藏单元的单层LSTM。控制器设置为运行50步。 一旦控制器对架构进行采样,构建的子模型就会随机初始化并训练300个epoch,而无需共享参数。在训练过程中,我们同时应用块稀疏损失项和正交损失项,系数为1 e-3和1 e-3。在控制器训练了400个架构之后,我们选择最好的架构,并在新的数据集上使用块稀疏正则化和正交正则化重新训练它300个epoch。基线的细节我们使用持续图学习方法的开源实现,实验设置与[17]相似。 视觉和文本功能直接连接,使它们支持多模式设置。5.5多峰连续图的研究在表3中,我们比较了基线方法与我们提出的方法MSCGL在两个真实世界数据集上的三个步骤。 对于Amazon数据集,我们使用Clothing,Grocery和Home来构建多模态图。对于Articles数据集,我们使用Entertain,Financial和Motivate来构建多模态图。MSCGL显著且持续地优于Amazon数据集和Articles数据集的基线对于Amazon数据集,MSCGL的AP接近联合训练模型的AP。微调模型在所有基线实现了最差的性能,反映了灾难性的······方法亚马逊服装杂货店家庭娱乐文章财务动机步骤-183.4288.40美元--步骤-283.4288.14 - 87.7186.37-1299–WWW表5:文章数据集上每个步骤的预测性能模型文章表6:关于我们的正则化方法的消融实验C1是块稀疏系数。C2是正交系数。模型APAF没有一62.81-36.77C181.25-6.81C271.43-21.99C1 + C286.70-0.89表7:具有不同系数的预测性能。C1是块稀疏系数。C2是正交系数。C1和C2AP AF 1 e-2的超参数 78.47 -0.9151e-3 91.20-2.101e-4 84.14-26.28多模态GNNs的遗忘问题另一个值得关注的问题是,尽管TWP最初是为GNN设计的,但它在多峰图上的性能接近MAS。在表4 中, 我们显示了每个任务在每个步骤的性能对于Amazon数据集,MSCGL搜索的GNN单元在不同的任务之间是完全不同的,这就是为什么我们的模型不会忘记任何历史知识。值得一提的是,虽然车型架构不同,但性能上与联合列车的性能有 对于Articles数据集,MSCGL搜索的GNN单元格在不同任务之间重叠,因此不同任务之间模型的准确性略有下降。相反,连续的图学习基线不能在两个数据集上同时表现良好例如,TWP在Amazon数据集上的表现与MSCGL一样好,但在Articles数据集上的表现远远低于MSCGL。 这反映了现有连续图学习方法的另一个缺点:它们在特定数据集上表现良好,但由于其记忆能力是单方面的,因此不能推广到各个领域的数据集。相比之下,我们的MSCGL模型利用NAS来保持当前信息量最大的子模型,同时自动找到专门用于新任务的最佳附加子模型。5.6消融研究长期记忆能力。 在表5中,我们展示了MSCGL框架在Articles数据集上的长期记忆能力。在这个实验中,我们使用随机搜索来更好地研究我们的共享策略。PM为82.15%,AF为3.0%。对于除财务外的大多数任务,准确度保持在稳定范围内正规化条款的效力。我们验证了块稀疏(C1)和正交(C2)项的有效性,并在表6中显示了结果。与无规则化术语的基线相比,C1和C2均可导致AP和AF的显著改善。此外,同时利用C1和C2可以进一步改善这两个指标。超参数敏感性。研究了改变块稀疏正则化系数和正交正则化系数的效果. 在这个实验中,我们将不同任务的模型架构固定为GAT,数据集是Amazon,有3个任务。表7比较了采用不同系数值1e 2、 1e 3和1e 4时MSCGL的性能。 从结果中可以看出,需要设计良好的超参数来平衡AdaMGNN的学习能力和记忆能力。具体地说,较大的块稀疏系数将为AdaMGNN留下更多的空间来存储历史信息,从而增强记忆效果。然而,它也会导致对新任务的学习能力有限,因为要学习更紧凑的模型。6结论在本文中,我们提出了一种新的MSCGL模型,不断学习的模型架构和相应的参数的顺序多模态图任务。为了不断适应新的任务而不忘记旧的任务,我们的MSCGL模型考虑了多模态和结构信息来获取,保存和扩展知识。这两个部分相互作用,NAS探索更有前途的体系结构,GSR保留重要的历史信息。通过大量的实验,我们实证地证明了MSCGL与现有的连续图学习方法相比的优越性。一个有趣的未来的研究方向将是使用过去的任务作为先验知识的架构搜索过程中的信息。招待金融社会体育粗俗垃圾激励步骤-190.10------步骤-290.1091.16-----步骤-390.1089.6977.58----步骤-489.5988.0372.5488.89---步骤-590.1089.6976.3288.8986.61--步骤-690.1089.6976.3288.8986.6173.53-步骤-790.1080.2973.0586.5886.6173.2085.221300多模态连续图学习神经架构搜索WWW致谢本课题得到了国家重点研究发展计划项目(2020AAA0106300)和国家自然科学基金项目(2010)的资助。62102222。引用[1] Rahaf Aljundi , Francesca Babiloni , Mohamed Elhoseiny , MarcusRohrbach,and Tinne Tuytelaars.2018年记忆感知突触:学习什么(不)忘记。arXiv:1711.09601[cs.CV][2] MatthiasDelange、Rahaf Aljundi、Marc Masana、Sarah Parisot、XuJia、Ales Leonardis、Greg Slabaugh和Tinne Tuytelaars。2021.持续学习调查 : 在 分 类 任 务 中 挑 战 遗 忘 IEEE Transactions on PatternAnalysis andMachine Intelligence(2021).[3] Jacob Devlin,Ming-Wei Chang,Wendon Lee,and Kristina Toutanova.2018年BERT :Deep Bidirectional Transformers for Language Understanding 的预训练。CoRRabs/1810.04805(2018)。arXiv:1810.04805http://arxiv.org/abs/1810.04805[4] AlexeyDosovitskiy 、 LucasBeyer 、 AlexanderKolesnikov 、 DirkWeissenborn 、 Xi-aohua Zhai 、 Thomas Unterthiner 、 Mostafa Dehghani 、Matthias
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功