基于注意力的神经嵌入的可视化分析

121 浏览量更新于2024-01-24 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学5（2021）1USEVis：信息检索中基于注意力的神经嵌入的可视化分析季晓南a，b，刘晓波，涂亚梅b，何文斌b，王俊鹏b，沈汉伟b，颜宝银a华盛顿大学医学院信息学研究所。John，美国b美利坚合众国俄亥俄州立大学计算机科学与工程ar t i cl e i nf o文章历史记录：2021年4月2日网上发售保留字：交互式视觉系统神经嵌入注意机制文档理解信息检索临床决策a b st ra ct基于神经注意力的编码器有效地将句子标记与其相关的上下文联系起来，而不受长期距离或依赖性的限制，在将句子嵌入到有意义的表示（嵌入）中方面表现出出色的性能。通用句子编码器（USE）是最受认可的基于深度神经网络（DNN）的解决方案之一除了在信息检索等下游应用中广泛应用的事实外，解释其复杂的内部工作机制仍然是一个挑战。在这项工作中，我们提出了一个可视化分析解决方案来应对这一挑战。具体来说，专注于语义和语法（概念和关系），是关键领域临床IR，我们设计和开发了一个可视化分析系统，即，USEVis。该系统通过探索和解释注意力如何捕捉语言属性，研究了USE在有效提取句子语义和句法方面的作用。此外，通过深入研究和比较这些注意力的固有模式，我们能够利用注意力来检索具有相似语义或密切相关的句子/文档通过与领域专家合作，我们展示了具有鼓舞人心的发现的用例，以验证我们工作的贡献和我们系统的有效性版权所有2021作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍神经嵌入将非结构化文本（例如，单词，句子或文档）到编码底层文本含义的结构化矢量表示矢量表示，即，嵌入然后可以用于提高许多下游机器学习任务的有效性和效率，例如，文本分类或聚类。信息检索（IR）（Mitra和Craswell，2017）是从神经嵌入中显著受益的多种应用之一。最近，神经网络模型与注意机制，例如，Transformer，已经证明了在生产高质量嵌入方面的优势（Bahdanau et al. ，2014;Vaswaniet al. ，2017年）。作为深度学习和神经嵌入领域最具影响力的主题之一，注意力机制将文本中的相关标记（单词）关联起来，而不受通讯作者：华盛顿大学医学院信息学研究所。Louis，美国.电子邮件地址：osu.edu（X. Ji）。https://doi.org/10.1016/j.visinf.2021.03.003长期依赖性（即，考虑整个上下文）。这些关联词中的一些进一步构成了解释潜在文本意义的语言学属性（如语义概念和句法关系），从而提高了所得到的嵌入的质量。由于注意力机制已被广泛应用于各种应用的文本嵌入，解释注意力在理解基于注意力的模型的优点和局限性方面起着重要的作用。此外，对于具有强烈安全性问题的应用，例如生物医学和临床IR，彻底了解注意力机制对于个体患者的安全或全球健康管理至关重要。然而，由于基于注意力的模型的高度复杂的架构（例如，多头多层关注，Cer et al. ，2018; Devlin et al. ，2018），解释和分析注意力是具有挑战性的。Vaswani et al. （2017）和Vig（2019 b，a）利用可视化的力量来解释样本句子中单词级别的注意力，这是鼓舞人心的，但在分析句子（或文档）级别的注意力或利用注意力进行IR方面存在局限性。在这项研究中，我们提出了一种视觉分析方法，以深入了解所有句子单词的注意模式，2468- 502 X/©2021作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfX. 吉，Y.图，W。He等人视觉信息学5（2021）12探索注意力所捕获的语言特性。更具体地说，我们专注于IR应用（如文档分类，聚类，推荐等）。这在很大程度上依赖于有效的特征表示，并且可以受益于基于注意力的神经嵌入，以及对注意力机制的洞察。通过这种应用驱动的观点，我们的目标是为临床IR做出贡献，这对现实世界的医疗决策至关重要。在这个概念下，我们特别感兴趣的是领域概念和关系，例如，与患者、疾病、治疗、结果相关语义或句法被注意力捕获。此外，通过与领域专家的迭代讨论，我们也有兴趣利用可解释和可比较的注意力模式来帮助IR应用程序与人在回路中。因此，我们的目标包括：（1）以IR引导的方式解释注意，以及（2）利用可解释的注意来支持IR应用。这两个目标是相辅相成的。基于上述目标和基本原理，我们开发了一个交互式视觉分析工具来解释、探索和利用来自多个级别的注意模式：实例级别（单个句子）、组级别（一小组相关句子）、文档级别（由多个句子组成的文档）和语料库级别（文档的IR语料库）。与文档级和语料库级的分析，这项研究的目的也是相对于现实世界的IR应用程序对文档语料库。总之，我们的工作有助于：用可视化分析方法探索注意力编码的语言属性（语义或句法）。探索注意中心在捕捉特定语言特性中的作用。这是关于广泛使用的注意力模型的多头性质，例如USE（Ceret al. ，2018）和BERT（Devlin et al. ，2018年）。利用可解释和可比较的注意力模式来帮助IR应用程序。这是关于实际IR的要求，以及正在使用的多方面文本。注意模式可以提示任务感兴趣的显著信息和基本意义。2. 相关工作在本节中，我们回顾了神经嵌入和双向关系可视化的可视化分析的相关工作。2.1. 神经嵌入以前大部分可视化神经嵌入模型的工作都集中在深度递归模型上，例如，GRU（GatedRecurrent Unit）和LSTM（Long ShortTerm Memory）Kiros等人（2015）通过视觉分析评估了GRU的句子编码。Smilkov等人（2016）提出了嵌入投影仪，这是一种视觉分析系统，用于解释神经嵌入并评估其性能。Palangi等人（2016）可视化了LSTM模型对各种句子的激活行为。Lopez和Kalita（2017）可视化了使用动态卷积神经网络生成的文档表示。Liu等人（2018）专注于可视化和分析词嵌入之间的关系。 Ming等人（2017）可视化了嵌入和句子之间的关系，为RNN模型提供了双聚类。Strobelt等人（2018）提出了一个可视化分析系统，以帮助专家形成和验证LSTM模型生成的神经嵌入的假设。在我们以前的研究（Ji et al. ，2019年），我们进行了神经文档嵌入的视觉探索，这是基于众所周知的段落向量模型（即，doc2vec，Le和Mikolov，2014），但可推广到其他神经模型产生的嵌入最近，基于注意力的模型在解决NLP任务方面表现出了出色的性能，特别是在将句子嵌入到有意义的表示中方面。一些开创性的工作已经提出了可视化和分析基于注意力的模型。Vaswani等人（2017）提出了注意力驱动的Transformer架构，并将注意力可视化到例句中的单个单词 Lin等人（2019）通过对句子的注释来可视化注意力。Vig（2019 b，a）通过将单词与注意力加权的链接连接起来，将句子中的 Park等人（2019）提出了SAN- Vis，这是一种可视化分析工具，用于理解NLP场景中Transformer的注意力机制。我们的工作受到神经嵌入视觉分析虽然现有的技术主要集中在理解嵌入因此，视觉设计的目标是不同的，例如，LSTMVis（Strobelt et al. ，2018）是针对隐藏的状态动态，而我们的工作是针对注意力机制。此外，与关注注意机制（尤其是具有Transformer的自我注意）的现有技术相比，我们的工作采取IR应用驱动视图，旨在不仅理解而且开发IR的注意力。，2019）解释了跨多个头部的注意模式，而我们的工作解释了跨多个头部的语义概念或句法关系相关的注意，并将可解释的注意提升到文档级别。总之，受开创性研究的启发，我们的工作在可视化句子甚至文档（由多个句子组成）的注意模式方面做出了新的贡献，并促进了直觉解释和与人类的互动探索。2.2. 双向关系可视化注意本质上是句子标记或词语之间双向关系的编码。各种技术已经被提出来可视化双向关系，其中节点链接图和邻接矩阵是最流行的方法。节点链接图将关系可视化为一个图，其中一对节点之间的每个链接表示节点之间的关系。对于双向关系，经常使用箭头链接。这组可视化方法的关键挑战是如何布局图，已经提出了各种布局方法，例如力定向布局（Battista et al. ，1994）、光谱布局（Koren，2005）、树布局（Herman et al. 邻接矩阵还经常用于可视化双向关系，其中矩阵中的每个单元表示两个对象之间的关系，并且每行/列表示一个对象与所有其他对象之间的关系。已经提出了各种技术来提高基于矩阵的方法的可用性和可读性，例如MatrixExplorer（Henry和Fekete，2006）、MatLink（Henry Riche和Fekete，2007）和NodeTrix（Henryet al. ，2007）。在开创性的研究中，Jigsaw的视觉分析系统（Görg etal. ，2014）采用了各种可视化技术（例如，列表，图形，基于连接的视图），以探索从文档集合中提取的实体之间的双向关系;和BiDots（Zhao et al. ，2017）开发了用于文档分析任务的交互式双聚类在这项针对句子和文档的工作中，我们使用节点链接图（基于图形的可视化）和邻接矩阵（基于热图的可视化）来可视化注意力，以利用这两种方法的优势并进行更全面的可视化分析任务。···X. 吉，Y.图，W。He等人视觉信息学5（2021）13=⟨ ⟩ ⟨ ⟩3. 注意力机制注意力在深度学习的各种应用中发挥着越来越重要的作用，例如阅读理解、文本蕴涵、抽象摘要、图像字幕（Cui et al. ，2016;Chenand Zhuge，2018）。在这项工作中，我们专注于可视化和分析应用于文本挖掘和IR的注意力模型，其中的注意力机制是最初设计的。在下文中，我们首先讨论用于促进神经机器翻译的顺序模型的原始注意力模型。然后，我们继续讨论自我注意和通用句子编码器，这是这项工作的主要焦点。3.1. 注意力和神经序列建模注意力最初被设计用于具有seq 2seq架构的神经机器翻译和序列建模（Bah-danauet al. ，2014年）。seq 2seq架构通常包括编码器和解码器（图1），这两者通常都是用RNN实现的（Hochreiter和Schmidhuber，1997; Sutskever et al. ，2014年）。在机器翻译问题中，编码器顺序地读入句子（x1，. . .，x T），同时更新和利用其隐藏状态（h1，. . .，h T）。因此，通过递归单元，源句子被进一步馈送到解码器中作为其初始状态S0。然后，解码器顺序地产生目标句子（y1，. . .，y，m），同时更新其隐藏状态并消耗先前的预测。利用注意机制，目标词yi的预测可以注意编码器的每个中间状态（例如，hj），对应于每个源字（例如，xj）。此外，学习注意力权重以建议解码器在预测yi时应该对hj付出多少注意力。具体地，对于目标词yi，源词xj的注意力权重可以记为α（i， j），其基于e（i， j）的softmax归一化，其经由对齐模型计算为si-1和hj之间的兼容性，即，e（i， j）a（si−1，hj）.因此，使用编码器的中间状态（h，i，. . .，h T）。利用上下文向量来预测目标词，以更全面的方式利用源上下文3.2. 自注意和通用句子编码器Transformer（Vaswani et al. ，2017）具有自我注意力（内注意力）的架构是持续的努力和当前最先进的过程。它遵循编码器-解码器结构，具有堆叠的自注意力（即，6自注意层）中使用的编码器和解码器，如图所示。二、由于完全依赖于自我注意力来计算表示，变换器不涉及递归或卷积单元。在自我注意的情况下，句子中的不同单词（标记）彼此相关，以产生对判决因此，自我注意是对3.1节中描述的经典注意机制的成功扩展。自我注意不是跨句子关注单词，而是具有句内范围和捕捉内在句子模式的优势，例如由句子单词构成的语言属性。事实上，变换器架构的编码子图被提取并用作神经嵌入中的句子编码器，并且它被称为通用句子编码器（USE）（Cer et al. ，2018年）。基本上，在自我注意中，每个句子单词wi都有一个三元组（qi，ki，vi），每个组成部分都是一个中间张量值（例如，512维向量），其表示针对Wi学习的查询、键或值。为了计算从wi（源词）到wj（目标词）的注意力权重，这表明它们的兼容性或关联性，使用qi和kj之间的点积来计算α（i， j）。对于wi重要的是，注意力权重是定向的，例如，α（i， j）表示wi对wj的关注程度或wj从wi接收到的关注程度。词wi注意力会将相关的词联系起来，并解释对潜在句子意义很重要的语言模式。利用USE，6个自我注意力层（堆叠的和顺序的）中的每一个执行上述操作并且以逐渐细化的方式生成上下文向量，例如，从低级模式到高级模式。此外，每个注意力层包含8个平行的注意力头。这种多头注意允许模型从不同的视角或不同的表示子空间共同注意句子上下文。实际上，USE的最终输出，即，所得到的句子嵌入高度依赖于中间注意力层中的注意力和对应的因此，解释注意力有助于解释USE表现出的优越性能，并提供对潜在限制和改进的见解。此外，作为通用和可转移的模型，USE通过广泛的在线资源（例如，Wikipedia、web新闻、web还感兴趣的是研究USE适应领域应用，即，注意力是否能捕捉到对该领域有意义的语义或句法模式。在这项研究中，我们接近了来自TensorFlow Hub的预训练的USE模型（https：//tfhub. dev/goglle/univerversal-sententencece-encodederr/），并提取与学习的注意力权重相对应的中间张量值。我们还参考了由用途：处理的标记列表：保留所有句子单词（去除标点符号），并添加两个特殊标记，即，s表示句子开始，/s表示句子结束。4. 设计过程4.1. 目标和利益通过对BERT和其他基于Transformer的模型的可扩展性，我们的目标是解释和探索在USE的多层和多头注意力中编码的语言属性我们还旨在利用可解释的注意力来帮助现实世界的IR与人在回路中。从应用驱动的角度来看，我们与在文本挖掘和IR方面经验丰富的专家合作。我们特别关注临床IR，这需要识别相关文档（例如，临床试验），为危重患者问题的医疗保健决策提供信息。IR性能高度依赖于可以有效编码底层文本含义的特征表示（嵌入）。在多方面的文本意义中，临床意义中最重要的方面IR通常包括：因此，除了应用USE为临床IR生成句子/文档嵌入外，我们还想探索注意机制如何编码与上述相关的语义和句法模式X. 吉，Y.图，W。He等人视觉信息学5（2021）14Fig. 1. Seq2seq机器翻译模型，它使用注意力机制来捕获长期依赖关系。图二. 具有堆叠的自我注意层的通用句子编码器。方面例如，注意力如何将多个单词关联起来以形成疾病名称的语义概念（例如，在这个概念下，可解释的注意力可以有益于下游IR，在于（1）在生成的嵌入中获得信心，（2）提供理解具有揭示的语义和句法的文档的场所，（3）促进通过具有人在回路中的揭示的语义和句法检索期望的文档（从而利用领域知识或任务兴趣进行引导）。4.2. 域输入我们有一个迭代的过程来设计和开发USEV，以满足我们的目标和兴趣。我们的研究小组中有领域专家，我们每周或每两周举行一次会议提取视觉分析任务，原型视觉设计，讨论分析结果，并获得迭代域反馈。下面，我们将重点介绍一些来自与领域专家讨论的鼓舞人心的反馈和集中的概念和关系。虽然我们可以用注意机制来探讨各种语言特性，但关注领域IR兴趣的特性更有实际意义。如领域专家所阐述的，这些属性包括指示患者群体、疾病、治疗、结果等的语义概念;患者与疾病、疾病与治疗、治疗与结果等语义或以及反映句子结构/类型的其他有用的句法对治疗结果提出质疑的句子多头注意。通过与领域专家的实验结果分析，我们发现不同的注意中心倾向于捕捉不同的语言特性。例如，一个注意力头可能会将注意力集中在几个关键字上，另一个注意力头可能会将注意力集中在几个关键字上。X. 吉，Y.图，W。He等人视觉信息学5（2021）15在句子结构中可能会强调功能词。这启发了我们去探索与某些注意力头相关的潜在角色。因此，我们的兴趣被丰富到：（a）理解多头注意的机制，（b）研究多头设计是否可以解释文本意义的多面性。文件级注意事项。 USE主要是针对和应用于事件级上下文而开发的，因此通常以事件级粒度来分析注意模式，这被认为是连贯的上下文。此外，领域专家指出，许多IR应用程序进行对文档语料库，并建议有必要探索与文档级粒度的注意模式。因此，我们建议将文档视为一批句子，并将注意力从句子合成到文档。在信息检索中利用注意力。句子或文档的多面性进一步激发了我们在信息检索中利用可解释注意力的例如，一个句子可以包含关于疾病名称和治疗结果的信息;同样，临床试验可以包含更多样化的信息，例如，从临床研究设计、患者症状、治疗程序到结果评价。研究专家认为，可解释注意力可以提供一种途径来识别感兴趣的特定方面，从而检索提供所需方面的句子或文档多头关注可能有助于实现这一目的。多层次分析。我们将从四个层面分析注意模式：（a）单个句子的实例层面。这使我们能够获得详细的理解语义和语法编码的注意中心语在一个句子的上下文中。(b)组级，用于具有相似句法、语义或主题的一组句子。这使得一个注意头(c)文档级，用于属于一个文档的多个句子。这综合了文档的注意力模式。(d)语料库级别的文档IR语料库，我们在文档中寻找相似的注意力模式。在（a）（b）获得对USE的注意力机制的了解和信心的同时4.3. 分析任务基于迭代设计会话，下面我们提取了一系列可视化分析任务T1-T4，以指导USEV的开发。T1：（实例级任务）解释什么语言特性，即，语义或句法都被编码在注意力中。我们专注于临床IR中使用的领域概念和关系。对于连贯的上下文，我们专注于单个句子和跨句子标记的考试双向关系，如由任何注意力头捕获的。此任务与聚焦概念和关系中的领域洞察保持一致。T2：（组水平任务）探索与注意中心语相关的语言特性。对于每一个注意头，我们探测是否一致的属性被捕获在不同的句子;给定多个注意头，我们探测是否执行不同的角色。这个任务的灵感来自于多头注意力中的领域洞察力。T3：（文档级任务）探索由多个句子组成的文档的注意力。作为对文本级关注的扩展，我们从多个句子中为它们所属的文档处理域关注和合成关注。我们还探讨了利用注意力来理解文档的潜力。这个任务是由文档级注意力中的do-main洞察力驱动的。T4：（语料库级任务）利用可解释的注意力来帮助IR。对于面向文档语料库的领域IR，我们探索通过基于已识别的兴趣注意模式检索文档来促进IR的潜力。这与文档的多面性相一致，并利用了USE的多头注意力模式。这个任务的动机是在IR中利用注意力的领域洞察力。受多层次分析中领域洞察力的启发，这些任务形成了一个自下而上的过程，并且相互关联如下T1以基本但必要的粒度解释单个句子的任何中心语的注意力。T2通过总结句子中任意中心语的注意力，进一步探讨了中心语的多中心性，并探讨了中心语的相关性质或角色。T1和T2是解释多头机制注意的基本任务。此外，T3和T4是建立在T1和T2之上的，促进了对IR任务的关注。T3为由多个句子组成的文档合成注意力。然后，T4利用可解释的注意力IR对语料库的文件。对于T3和T4，可以通过多头注意来逼近文档的多面意义。5. 视觉分析系统USEVis主要由以下四个部分组成，括号中表示了相应的分析任务为了更好地说明这些构建模块的基本原理，我们还与IR中的领域问题进行了对应。(1) 可视化句子的注意力模式相对于选定的注意力中心（来自选定的注意力层） [T1 ， T2] 。它使注意模式在基本的实例级（instance-level）的可视化和探索性解释成为可能，并有助于探测编码的语义和语法。它解决的问题是什么领域的概念或关系编码的注意头？此外，通过在不同的注意力中心之间切换，它也有助于一个句子的多个方面被USE的多个注意力中心捕获？(2) 针对选定的注意力头部，总结一组句子的注意力模式;并启用多个注意力头部的比较[T2]。它从多个句子中积累信息，并直观地呈现注意力中心所捕获的最显著的属性，以便进行直观的概述和交叉比较。因此，它解决了这样一个问题，即注意中心是否倾向于具有特定的角色，并捕捉特定的语言特性，即使对于不同的语言，句子？不同的注意中心语对不同的语言特性有影响吗？(3) 合成由多个句子组成的文档的注意力模式[T3，T4]。句子是文档的组成部分，句子语义学相应地构成文档语义学.通过将文档级注意力放在一起，该组件使用合成可视化来说明文档级注意力。此外，它还提供了一种可能的途径，文档理解和领域问题，以识别领域或任务感兴趣的相关文档IR。(4) 生成表示（例如，向量表示或嵌入）的注意模式，并支持检索类似的注意模式[T4]。利用包含指示相关语义的可解释注意模式的公认文档，IR中提出的后续领域问题是检索包含类似语义的附加文档，同时减轻来自其他方面的噪声。这个组件为每个注意力模式生成一个矢量表示，这样我们就可以自动比较不同的注意力模式，并识别相似的注意力模式。我们把这些组件放在一起，利用可解释和可比的注意力，以支持对文档的IRX. 吉，Y.图，W。He等人视觉信息学5（2021）16图三. （A）语料库导航，用户可以选择一个文档和一组封闭的句子来探索由USE编码的注意力模式。我们使用领域信息检索（IR）的临床语料库。(B)注意力可视化控件，用户可以指定注意力层和头部，并过滤要显示的句子单词（节点）和关系/注意力（加权链接）。(C1)-（C1 ′）注意力可视化，具有基于图形的绘制，用于跨句子单词的双向关系，如在指定的注意力层和头部中编码的。用户可以选择一个单词（例如，透皮）并突出其源语句和注意模式，例如，药物名称（丁螺环酮）和相关疾病名称（adhd）正受到强烈关注（C1）;或让单词颜色反映句子成员关系（C1′）。(C2)使用热图的替代注意力可视化。(D)具有关注模式的排名列表的查询面板，其类似于（C1）中的用户选择的句子的关注模式。出于IR目的，呈现所查询的注意力模式的源句子/文档。此外，（E1）单词云总结了整个IR语料库中8个注意力头部（来自顶部注意力层）中的每一个捕获的最显著的信息。单词由词性（POS）标记着色。(E2)二分图，用于总结整个IR语料库中由注意力头部捕获的最显著的关系语料库[T4]。更具体地说，我们包括一个语料库导航面板（图。3A）选择一份文件或一组所附句子进行探索。在句子/文档注意力探索面板上（图图3B-C）中，可以选择关注模式来查询包含类似关注模式的其他文档。查询结果，包括相似注意力模式和源句子/文档的排名列表，被排列在查询面板上（图1）。3D）。这些共同服务于领域问题，利用使用和其基本的注意力机制，以促进现实世界的IR。对于本节的其余部分，我们提出了详细的描述和理由USEVis5.1. 注意力可视化USE的自我注意机制关注（连接，关联）每个句子单词到所有其他单词，注意权重指示连接强度。因此，对于每个注意头部，注意模式，即，跨所有句子单词的连接可以被公式化为有向加权图。在这个图中，单词被表示为节点，注意力被表示为加权边，边的方向指示注意力的流动。作为我们可视化和解释注意力模式的主要视觉组件，这种节点链接图的可视化可以说明涉及所有句子单词的整体注意力模式，这不同于主要关注与单个单词有关的注意力的一些现有视觉设计（Vaswani et al. ，2017;Vig，2019 b，a）.此外，图拓扑（例如，集群或社区）将允许我们描绘在多个词之间构成的语义和句法属性，而不限于成对关系。此外，跨注意力模式的最显著的信息也可以通过图中心性属性来突出显示。另一方面Sankey可视化有利于揭示信息流，但不能达到上述目的。带有排序机制的矩阵设计可以作为一种替代方案来描绘整体注意模式并揭示词语之间的复杂关系，但直观性和可扩展性有限。请注意，我们将保留词序的矩阵可视化视为我们的次要视觉组件，更多细节将在本节的后面部分讨论更具体地说，图形绘制将节点和边放置在2D空间中，并通过有效和直观的空间通道显示关系信息。使用力导向图绘制算法，诸如力导向图2（Jacomy et al. ，2014），强连接的节点被放置得更靠近在一起，并且一些集群/社区模式被暴露为视觉密度。从这个意义上说，我们可以通过距离或已建立的聚类来揭示强连接的单词，例如，如图4左，注意力、缺陷、多动、障碍四个词构成一个语义概念的疾病名称，被紧密地放置并形成一个网络社区。此外，对于图拓扑，节点中心性也指示节点重要性，例如，如图4中间，以高中心性显示受到很多关注的显著关键字，并且直观地反映在图形绘制中。此外，突出功能词还可以说明句子结构，如图1所示. 右四。我们还通过节点的入度（收到的关注）调整节点的大小，并通过关注权重渲染边的厚度。因此，图形绘制不仅提供了一个概述与所有句子的话涉及，但也容易探索有趣的语言特性和显着的信息。此外，有利的空间位置还允许我们比较不同句子的注意力模式，而不受措辞或词序的限制。X. 吉，Y.图，W。He等人视觉信息学5（2021）17×⟨ ⟩ ⟨ ⟩={个∪ · · ·∪==···图四、基于图形的视觉化的注意力水平模式，揭示领域的概念和关系编码的注意力头。我们还支持交互式调整，以更好地支持解释和探索。具体来说，我们安排了一个停止词列表，其中包括常见的停止词和特殊标记（例如，s和/s）。用户可以指定是否从停止词列表中删除标记。在我们的设计会议上，领域专家评论说，删除停用词可以帮助他们更好地关注一些关键概念，而保留停用词可以用于观察句子结构或一些琐碎但相互关联的信息。此外，用户可以指定一个权重阈值来过滤掉具有较小权重的注意力，从而将注意力集中在USE推断出的最强注意力上。权重阈值还消除了视觉混乱（例如，毛球），并突出显示最重要的网络结构，如稀疏图中的社区（图4左图）。此外，当鼠标悬停在节点上时，用户还可以指定突出显示指示接收到的关注的传入边和/或指示付出的关注的传出边这使得我们的可视化提供了一个可比较的视图，显示与单个单词相关的注意力。最后，用户可以在不同的注意层和注意头之间切换，从而检查不同的注意模式，并探索给定句子的不同或者，我们还将注意力模式的有向加权图可视化为热图，热图被描绘为将句子单词排列为行和列的彩色矩阵，同时保留原始单词顺序。例如，具有n个单词的句子对应于n n矩阵，其中cell（i， j）指示从单词i到单词j的注意力，注意力权重由单元颜色和强度编码。换句话说，第i行反映了单词i如何向他人支付（分配）注意力，第j列反映了单词j如何从他人那里获得注意力。因此，矩阵是不对称的，因为一个词付出的注意力和接受的注意力可能不同。热图可视化的优点图图5展示了一个句子的热图可视化，给出了它在2个层和8个头上的注意力模式。5.2. 总结多头给定一个注意力中心，除了切换不同的句子和探索注意力模式（见5.1节），我们还提供了自动摘要，其中包含注意力中心在不同句子中捕获的最显著信息。为了减轻无限多样性的干扰，我们可以对类似主题下的句子进行受控分析。从这个意义上说，对于一组指定的句子，我们为每个注意力中心提供视觉摘要，并使不同注意力中心之间的并排比较成为可能。我们提出了两个视觉摘要为每个注意头：一个词云表示最显着的关键字（最关注的话），和二分图表示最显着的关系（最加权的注意）。对于云这个词我们取k（例如，20)最频繁的突出词，即，被特定注意力频繁强调的单词在不同的句子中出现。我们有词的大小反映了一个词如图3E1，词云提供了关于一组临床句子的第6层上的8个注意中心的快速摘要。例如，虽然头部1 -6都将注意力分配给概念上有意义的单词，但头部1更有可能捕获患者群体（例如，儿童、男孩、青少年、成人）。另一方面，中心语7 -8倾向于通过将注意力分配给功能词（例如，with，of，in，on，and）。此外，词云的主色也有助于探索注意中心的直接语言作用，以及使快速并排比较。例如，中心语1 -6的词云由表示名词的颜色主导，而中心语7 -8由表示介词或从属连词的颜色主导。对于二分图，我们应用类似的方案来选择具有最高句子频率的前k个显着关系（词对之间）二分图将源词（关注）和目标词（接受关注）放入两个不相交的集合中，并合并每个集合中的重复词。它为注意力头捕捉到的一些最重要的关系信息提供了一个额外的视角。如图例如，我们可以进一步观察到，不仅从疾病（障碍）到病人（儿童），而且从治疗（药物、哌醋甲酯、兴奋剂、治疗）到病人（儿童）。这可能看起来类似于使用二分图来说明句子中的自我注意的现有工作，但我们的二分图在以下方面有所不同：(1) 总结多个句子之间的显著关系，以及(2) 探索注意力的作用。5.3. 文件综合注意事项虽然第5.1节和第5.2节的组件将为用户提供对模型解释的见解和对模型利用的信心，但从本节开始，我们引入了其他组件，以促进利用USE和对文档的实际IR的关注。基于USE的连贯上下文注意，我们对由多个句子组成的文档（多样化的上下文）进行注意合成。如第5.1节所述，一个事件级注意力模式被公式化为一个有向加权图。对于文档% d %s %1，. . .，Sn，其中S1，. . .，s n是封闭的句子，我们考虑所有标记的联合使得标记（d）标记（s1）标记（sn），以及所有注意力的组合集合使得注意力（d）注意力（s1）注意力（s n）。在这个意义上，重叠令牌（即，出现在多个句子中的标记）作为连接多个子图的联合节点，X. 吉，Y.图，W。He等人视觉信息学5（2021）18=-图五、基于热图的跨多层（进化）和多头（多样性）的高级注意力模式的可视化。多个句子;以及对于重叠的注意力（即，出现在多个句子中的成对关系），我们通过增加权重来合并它们。这个合成的图形然后通过5.1节的相同方案可视化，如图11所示。六、此外，考虑到文档的可扩展性和异构性，本文还补充了以下特征，以更好地可视化和探索文档中的注意力：（1）给定一个包含多个句子的文档，用户可以选择任意句子子集来合成注意力。根据领域专家（2）对于基于图的可视化，我们基于它们的源句子对节点（词）进行着色。对于出现在多个句子中的单词，我们将其想象为一个具有多种颜色的馅饼。(3)为了容纳更多的节点并使其标签可见，我们提供了滑动条来增加或减少节点和标签的大小。缩放时，节点大小保持与加权节点度成比例。如图6，合成图倾向于建立与句子对齐的聚类模式。此外，一些中心节点可以对应于与不同上下文相关联的显著信息。例如，治疗方法（例如，哌甲酯在Fig. 6A）可以在一句话中处理患者信息，同时满足结果- rics另一个句子因此，这样的可视化图不仅描绘了文档5.4. 注意表征我们生成了可比较的注意模式表示，以支持相似注意模式的交互查询，这为在信息检索中开发注意力做了进一步的准备。由于注意模式是一个有向加权图（网络），有效的表示应该对网络结构进行编码，例如节点之间的连接或单词之间的注意。受随机（网络）行走和node2vec（Grover和Leskovec，2016）的现有工作的启发，我们提出net2vec来学习网络对注意力模式的表示。在这个概念下，我们进行随机游走，从网络中采样路径，使得每条路径都包含一系列的节点。然后，我们将每条路径视为与注意力相关联的单词的上下文;所有采样路径一起可以近似整个网络，从而近似整体注意力模式。为了学习基于一批路径/上下文的net 2 vec表示，我们将采样路径馈送到段落向量模型（即，doc2vec，Le和Mikolov，2014）。这类似于使用word2vec模型来学习node2vec表示（Grover和Leskovec，2016），利用分布式上下文信息。net2vec有几个超参数。对于随机行走，我们考虑一个有向加权网络，节点采样中的概率与边权重成比例我们根据开始节点的活动（出度）对它们进行采样，并将最大路径长度设置为10。我们还通过设置p，2并且q0的情况。5，其中p和q是来自随机游走算法（Grover和Leskovec，2016）的参数，以平衡深度优先搜索和广度优先搜索。对于doc2vec（Le和Mikolov，2014），我们检查不同的窗口大小并选择值1，这意味着仅考虑1跳距离或直接连接的单词，有关系。这可以用注意的性质来解释，注意是一个词对另一个词的注意-可转移性可能不适用。最后，我们取嵌入大小（net2vec的维数）为300，而doc2vec对这个参数是鲁棒的使用注意模式的net2vec表示，我们能够在注意模式之间进行比较，这些注意模式可以是跨句子和头部。对于用户指定的关注模式（例如，基于5.1-5.5. 信息检索在5.1在这里，我们提出了一个典型的工作流程，USEVis可以支持：（1）浏览一个语料库的文件，选择一个种子文件或任何子集的封闭的句子。(2)探索跨注意力层和头部的合成注意力模式的可视化，并识别感兴趣的（注意力级别）注意力模式。(3) 在语料库中搜索相似的注意模式及其源句子和文档，从而识别包含所需语义的其他文档。因此，如图所示。3、USEV主要包括导航面板、注意面板和查询面板。导航面板显示两级层次结构：文档（项目）和句子。根据领域专家的建议，我们提供了一个辅助功能，通过词汇关键字搜索来定位句子。注意力面板遵循第5.1节和第5.3节中描述的注意力可视化。一旦选择了句子，用户可以指定关注层和标题，在基于图形和基于热图的可视化之间切换，并自定义要显示的节点（单词）和边缘（注意力）。默认情况下，所有的话语和注意力都被保留。使用基于图形的可视化，用户可以悬停节点以突出显示其传入边、传出边或两者;用户还可以单击节点，所有关联的节点都将突出显示。一旦用户选择了一个注意力模式，查询面板就会按照排名顺序显示k个最相似的注意力模式。对于每个推荐的注意力模式，我们会对应地显示源句子和文档。此外，我们有一个注意力头部摘要面板，如5.2节所述，以提供两个便利：（1）建议选择更有可能编码整个语料库中感兴趣的属性的注意力头部，以及（2）在没有额外成本的情况下提供语料库的快速主题X. 吉，Y.图，W。He等人视觉信息学5（2021）19图六、由多个句子组成的文档的注意力模式的合成图形可视化，有助于文档理解。6. 案例研究和专家反馈两位领域专家（文本挖掘和临床IR）参与了我们的案例研究。我们采取了自下而上的程序，以便（1）通过解释有意义的语义或句法如何被注意力中心编码，以可管理和直观的方式[T1]相对于单个句子，获得对基本注意力机制的见解和信心。(2)通过总结信息和不同注意力中心的并排比较，进一步了解注意力机制的多中心设置，并考虑到类似主题下的一组句子[T2]。在这个自下而上的过程之后，我们前进到（3）在文档级别[T3]利用不可解释的注意模式，并促进识别包含域或任务兴趣的注意模式的相关文档，关于IR语料库[T4]。根据领域专家的建议，在整个案例研究中，我们使用了一个由851个临床试验组成的文档语料库，这些临床试验与注意力缺陷多动障碍（ADHD）的药物有效性有关。领域专家感兴趣的是探索领域概念（例如患者、疾病、治疗）和关系（例如患者与疾病、疾病与治疗、治疗与结果）如何被注意力头编码，并且利用编码感兴趣的概念/关系的已识别注意力模式来检索与IR信息需求相关的文档。6.1. 领域概念和关系通过ADHD语料库，领域专家从文档标题中确定了一个例句：癫痫和注意力缺陷多动症：哌甲酯安全有效吗？（Gros-Tsur et al. ，1997

下载后可阅读完整内容，剩余1页未读，立即下载