没有合适的资源?快使用搜索试试~ 我知道了~
集合相关Transformer:用于排列学习和结构预测的方法
+v:mala2277获取更多论文X集合相关Transformer:用于排列学习和结构预测的Mateusz Jurewicz1,2andLeonDerczynski11哥本哈根大学2Tjek A/S{maju,leod} @ itu.dk摘要学习将输入集映射到其元素的置换序列上的任务对于神经网络来说是具有挑战性的。集合到序列问题发生在自然语言处理、计算机视觉和结构预测中,其中大集合的元素之间的相互作用定义了最佳输出。模型必须表现出关系推理,处理不同的基数和管理组合的复杂性。以前的基于注意力的方法需要n层的集合变换来显式地表示n阶关系。我们的目标是通过一个额外的相互依赖组件来增强它们有效地模拟高阶相互作用的能力我们提出了一种新的神经集编码方法,称为集相互依赖Transformer1,能够将集合的置换不变表示与任何基数集合内的元素相关联我们将其与置换学习模块结合成一个完整的3部分集合序列模型,并在许多任务上展示了其最这些问题包括组合优化问题,通过对用于句子排序的合成和已建立的NLP数据集的此外,网络1介绍存在广泛的挑战,其中目标是找到从对象的无序集合到置换的最优映射这组集合序列任务涵盖了组合优化和结构预测问题,其中穷举搜索通常不容易处理,因此适合于神经网络(NN)方法。在许多应用领域中出现了集对序列的挑战。示例包括自然语言处理,1篇论文被接受在IJCAI-22会议记录中发表图1:在一个set-to-sequence任务中,初始set()被传递给一个set编码器,它获得整个集合的每元素表示(Eπ)和一个置换不变表示(s)。置换解码器使用它们将元素排序为序列(y=1)。句子和段落排序的形式[Wang和Wan,2019;Pandey和Chowlett,2020],文本理解[Li和Gao,2020]和话语连贯性最大化[Farag,2021];用于相对属性学习的计算机视觉[Santa Cruz和Fernando,2017]和刚性点云配准[Yew和Lee,2020];用于管理智能体组合动作空间的强化学习[Vinyalset al. ,2019]。有关概述,请参见Jurewicz andDerczynski(2021 b)。我们调整我们的方法,以一个新的应用领域的形式预测的数字目录的结构。集合到序列模型可以被认为是由两个不同的部分组成(见图1)。首先,集合编码器获得单独的集合的元素和集合整体的元素的表示其次,排列学习模块使用这两种表示来预测重新排序的序列。每个阶段都提出了独特的挑战。集合输入方法需要处理任何维数的输入,因为示例是不同基数的集合[Lee和Lee,2019]。此外,已知的基数n集合的表示必须对所有n都是相同的!表示它的向量的可能排列。这置换不变性可以通过各种对称函数,从简单求和[Zaheeret al. ,2017年],通过自我关 注[Lee和 Lee ,2019 年]到二 分匹配 算法的输出[Skianis和Konstanti-nos,2020年]。解决具有挑战性的集合到序列问题需要一定程度的关系推理,因此这些函数受益于能够编码高阶相互作用,+v:mala2277获取更多论文X√√集合元素之间的关系[Huanget al. ,2020]。预测一个排列本身也是一个挑战。处理组合对象的主要困难之一是,可能的输出序列的数量在集合的基数中按比例增加此外,所有可能的排列的空间是不平滑的,从 而 防 止 直 接 使 用 基 于 梯 度 的方 法 而 不 放 松 概 念[Dialloet al. ,2020]。最后,当目标是由置换表示的复杂结构时,可能难以获得仅对该结构的有意义的改变敏感的评估和损失函数为了解决这些挑战,我们提出了一种新的集合编码方法,与其前辈不同,该方法联合学习整个集合的置换不变表示和单个集合元素的置换等变表示。 虽然完全依赖于集合的合并表示的方法已被应用于集合到序列问题[Vinyalset al. ,2016],与获得两种类型表示的方法相比,随着输入集基数的增加,它们的性能急剧下降[Wang和Wan,2019;Yinet al. ,2020]。据我们所知,没有其他NN集合编码方法通过调整的注意力机制来学习集合元素和整个集合的表示相反,它们获得元素的置换等变表示,然后通过各种对称运算将它们汇集在一起,以导出集合本身的编码。在本文中,我们的经验表明,学习他们共同有利于排列学习和结构预测的目的关系推理能力。2模型目标是将任意基数的输入集转换为其元素的置换序列。为此,提出的集合序列模型由三个核心部件组成:(i)基本集合编码器,(ii)新的相互依赖编码器和(iii)排列解码器。初始编码器使用学习的池化函数来获得(a)各个集合元素的置换等变表示,以及随后(b)整个集合的置换不变表示。然后,这两个表示在相互依赖性编码器中一起变换,使得可以在单个步骤中学习各个集合元素和集合整体之间的更高阶交互最后,置换解码器通过使用这两种表示经由增强的指针注意机制顺序地选择元素以图2显示了我们完整的相互依赖体系结构的概述。从形式的角度来看,模型被赋予一个任意基数n的集合,由维度为d的固定长度向量xi表示的单个集合元素组成X={x1,. . . ,xn}<$Xπ∈ Rn×d(1)然后,任务是顺序地选择单个集合ele-元素1X×在tar get order中,由索引向量表示我们提出了一个完整的3部分神经网络架构y∈Nn引用集合元素设计用于对任何基数的输入执行集合到序列的映射,包括初始集合编码器、相互依赖编码器和置换模块。然后,我们展示了它的有用性的一些挑战,从玩具问题,如旅行推销员问题,通过学习上下文无关和上下文敏感的语法强大的任务,如句子排序和目录结构预测的新任务。我们还展示了我们的模型补充资料中提供了重复实验所需的所有代码、超参数和数据集我们的主要贡献概述如下:• 一种新颖的、完全可微的集合编码方法,专门为置换学习和结构预测挑战而设计,能够学习所提出的变换的单层中的任何基数集合内的高阶相互作用。• 一个完整的集合序列模型优于状态-在Xπ矩阵中。这个过程一直持续到没有剩余的候选元素为止。2.1基本设置编码器初始编码器必须由用于以置换等变方式变换集合元素的学习函数fe和用于将这些元素表示(Eπ)汇集到整个集合的置换不变嵌入中的学习函数fs组成,使得:f e(Xπ)=(eπ(1),. . . ,eπ(n))= Eπ(2)<$π ∈<$((fs <$fe)(Xπ)=s)(3)在我们提出的模型中,这个基本集合编码器采用简化的集合Transformer的形式[Lee和Lee,2019],我们选择它是因为它能够显式地表示项目间的相互作用。我们将对置换等变元素表示Eπ的初始变换式关注表示为:Att(Q,K,V)= softmax(QK)V(4)D最先进的方法建立的数据集和目录结构预测的新应用领域• 用于产生合成的集对-其中Q、K、V是经由权重矩阵WQ、WK和WV从Xπ获得的投影查询、键和值矩阵;dk是标准Transformer归一化因子。序列结构数据集。此外,我们还提供了易于使用的工具,用于通过可定制的指标获得详细的性能报告,这使得研究人员能够测量并凭经验确认模型对于m个头中的每一个,以多头方式重复该操作,其输出被级联并经由学习的权重矩阵W0进一步变换,而没有位置编码或丢失:K+v:mala2277获取更多论文∈πiπiSπX我VS图2:建议的序列设置模型的三个阶段。初始集合编码器(左)通过transformer风格的注意力获得置换等变元素表示(Eπ)。然后,它通过多头注意力池化学习整个集合的排列不变编码。Set Interdependency Transformer(中)通过将集合编码为S π来增加每个元素的矩阵,并执行进一步的自注意力转换,从而允许在集合元素和集合整体之间建模更高阶的交互。最后,使用置换解码器(右)顺序选择输出序列中的下一个元素,直到没有剩余。Hi=Att(XπWQ,XπWK,XπWV)(5)SIT在单个集合元素和置换不变元素之间执行基于注意力的变换i我我集合本身的一个增广形式的表示Eπ= Concat(H1,. . . ,Hm)WO(6)矩阵Sπ整个集合s的初始置换不变表示被视为新集合的元素:为了获得集合的置换不变表示,我们通过MultiheadAttention[Lee和Lee,2019]应用简化的池化,它执行注意力变换i=(Eπ|(9)在作为查询的学习种子向量kR1×d和作为m个头部中的每个头部的键和值的Eπsj=Att(kjWQ,EπWK,EπWV)(7)SITi(s,Eπ)=σ(坐(SiWQ)(SiWK)d)SπWi(10)′ ′ ′jJ Ji(s,Eπ)= Sπ =(Eπ|(11)PMA(k,Eπ)= Concat(s1,. . . W0= s(8)其中ds是等于表示整个集合的置换不变向量的长度的缩放因子,σ是非线性的,2.2设置相互依赖性Transformer在这个阶段,我们可以依靠导致Eπ的转换来编码元素之间的依赖关系。然而,这种转换的单层只能解释性地捕获成对关系,因为它计算元素对之间的注意力[Lee和Lee,2019]。因此,需要多达n个堆栈来显式编码基数n的整个集合之间的高阶交互。我们提出的集合编码器允许有效地捕获集合元素之间的依赖关系,并通过调整transformer风格的注意力将集合整体化。我们将其称为集合相互依赖性Transformer或SIT。线性激活函数和W矩阵是学习参数。上述操作可以重复在任何数量的头下描述的初始基本编码器(第2.1小节)。此方法支持对单个集合元素与整个集合之间的依赖关系进行编码。甚至单个SIT层也能够对更高阶的相互作用进行建模。这对于大型集合上的任务是有益的,例如点云挑战,其中基数对于成对变换来说非常高。为了得到置换模所需的分离的集合和集合元素表示,我们将增广反求,并通过其索引检索变换后的s′注意S+v:mala2277获取更多论文我−我−0nLθS在置换等变SITi变换中,s′的置换不变性2.3排列译码器最后,我们在采用增强的指针式注意力的排列解码器中使用E ′ π和s ′表示[Yinetal. ,2020]。这采取基于LSTM的指针网络的形式,具有两个额外的机制,用于成对排序预测,形式上,我们计算预测订单y的条件概率为:n和Chambers,2016]和PROCAT产品目录数据集[Jurewicz和Derczynski,2021 a],遵循提供的训练、测试和确认分割。此外,我们exp-pand后,PROCAT的合成结构数据集和报告性能每n阶规则的相互作用所需的。我们使用Kendall秩相关系数(τ)和完美匹配率(PMR)作为主要指标,按照惯例以100倍的系数进行可读性缩放[ Wang和Wan,2019; Yin etal. ,2020;Pandey和Chowdell,2020]。对于TSP,我们报告平均旅游长度(越短越好),并在语法和合成结构实验的有效预测每规则的百分比。代表-p(y)|X)=Yp(y|y ,E′,s′)(12)ROCStory和PROCATθθ我i=1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功