图注意力网络详解：从注意力机制到典型模型

版权申诉

5星 · 超过95%的资源 164 浏览量更新于2024-08-09 3 收藏 830KB PDF 举报

"图注意力网络是一种融合了注意力机制的图神经网络模型，广泛应用于NLP、CV和SR等领域。该模型源于机器翻译，现在在图数据处理中展现出强大的能力。本章介绍了注意力机制的基本概念，图注意力网络的类型，以及GAT、HAN、GaAN和HGAT等典型模型的应用。" 在深入探讨图注意力网络之前，首先需要理解注意力机制的核心思想。注意力机制借鉴了人类的认知方式，即在处理大量信息时，我们的大脑会选择性关注关键部分而忽略其余信息。这种机制允许我们更高效地处理复杂环境下的信息。注意力机制在神经网络中的实现通常包括查询（Query）、键（Key）和值（Value）三个元素。查询代表了当前需要关注的信息，键用来匹配查询，而值则是在匹配成功后被提取出来的重要信息。通过计算查询与键之间的相似度，可以分配不同的权重给每个键对应的值，从而实现对信息的加权聚合。图注意力网络（GAT）是将注意力机制应用于图数据的一种模型，它允许节点根据其邻居节点的信息动态调整自身的重要性。GAT通过注意力函数计算节点间的关系权重，以此来决定哪些邻接节点对当前节点的影响更大。这使得GAT在处理图结构数据时，能更好地捕捉局部和全局的特征。异质图注意力网络（HAN）则是针对包含多种类型节点和边的异质图设计的。HAN分别在节点和关系层面应用注意力机制，考虑了不同类型的节点和边对整体信息抽取的影响，增强了对异质图结构的表达能力。门控注意力网络（GaAN）引入了门控机制，类似于循环神经网络中的门控单元，如GRU或LSTM。门控机制可以控制信息的流动，帮助模型在处理序列数据时遗忘不重要信息，保留关键细节。层次图注意力网络（HGAT）则进一步拓展了注意力机制的层次结构，允许在网络的不同层级上应用注意力，这样可以逐层捕获不同尺度的特征，适用于处理具有复杂层次结构的图数据。这些模型在社区检测、推荐系统、社交网络分析、生物信息学等领域都有广泛的应用，通过注意力机制提升了图神经网络处理复杂图结构数据的能力，实现了更精准的特征学习和预测。

第

章



图注意力网络



73

模型是一种更好的选择



5.1.1

注意力机制的变体

前面介绍了基本的注意力模型



即软性注意力模型



接下来将介绍注意力的一些变体

模型





硬性注意力

软性注意力会考虑所有的输入信息



根据输入信息的重要性生成相应的关注权重



此

外



还存在一种注意力



它只关注输入信息中某一个位置的信息



这种注意力机制称为硬性

注意力机制















硬性注意力会选取最高概率的输入信息



或者在注意力分布上进行随机采样选取信息



这个计算过程可以理解为在输入信息中选择一个信息



将其注意力权重设置为





其他的信

息权重全部设置为





硬性注意力选择信息的方式决定了其效果具有不稳定性





另外硬性

注意力最终的损失函数与注意力分布之间的函数关系不可导



导致其无法使用反向传播算

法进行训练



一般而言



硬性注意力模型需要采用强化学习的方法来训练





局部注意力

软性注意力需要计算所有输入信息



效果稳定



但计算量大





硬性注意力计算量小



但

效果不稳定



局部注意力则是软性注意力和硬性注意力的一种折中方案



其思路是先使用

硬性注意力定位到一个位置



然后以这个位置为中心点



设置一个窗口区域



在窗口区域内

使用软性注意力进行计算



其优势是窗口内的计算效率和效果稳定性可以通过参数进行

调节





多头注意力



󰁒







使用多个任务目标















独立地进行

次注意力计算



由于每次计算的

不同



所以每个注意力所关注的信息也不同



这样可以

从输入信息中抽取

个不同的信息



最后将

个信息进行拼接操作





层次结构注意力

如果输入信息本身具有一定的层次结构



例如



文本可以划分为词



句子



段落



篇章等

不同粒度的内容



我们可以使用层次结构注意力在每个层进行更好的信息选择



首先可以在

词层面使用注意力机制生成一个句子的向量表达



然后在句子层面使用注意力机制生成一

个段落的向量表达



最后在段落层面使用注意力机制生成整个文本的向量表达





自注意力

当使用神经网络对一个变长的序列数据建模时



通常可以使用卷积神经网络





















或者循环神经网络



















基于卷积神经网络的序列建模可以看成一种局部建模方式



只能建模输入数据的

剩余13页未读，继续阅读

努力+努力=幸运

粉丝: 17
资源: 136

图注意力网络详解：从注意力机制到典型模型

ICML19-attention.pdf

注意力机制概述.pdf

Learning Deep Local Features With Multiple Dynamic Attention.pdf

华为mindspore培训资料：4.Seq2seq+Attention.pdf

计算机视觉中的注意力机制研究.pdf

关系图卷积网络 - Relational Graph Attention Networks.pdf.zip

面向片段抽取式机器阅读理解的注意力网络.pdf

attention机制.pdf

神经网络中的注意力机制.pdf

Is Attention Interpretable.pdf

最新资源