没有合适的资源?快使用搜索试试~ 我知道了~
DYLE:动态潜在提取方法用于抽象长输入摘要
0DYLE:用于抽象长输入摘要的动态潜在提取0Ziming Mao � 1 Chen Henry Wu � 2 Ansong Ni 1 Yusen Zhang 30Rui Zhang 3 Tao Yu 4 Budhaditya Deb 50Chenguang Zhu 5 Ahmed H. Awadallah 5 Dragomir Radev 101 耶鲁大学 2 卡内基梅隆大学 3 宾夕法尼亚州立大学 4 香港大学 5微软研究 ziming.mao@yale.edu, henrychenwu@cmu.edu0摘要0基于Transformer的模型在短输入摘要上取得了最先进的性能。然而,它们在摘要更长的文本时仍然存在困难。在本文中,我们提出了一种新颖的动态潜在提取方法DYLE,用于抽象长输入摘要。DYLE同时训练一个提取器和一个生成器,并将提取的文本片段视为潜在变量,在解码过程中允许动态的片段级注意力权重。为了提供充分的监督,我们提出了简单而有效的启发式方法来进行oracle提取,以及一种一致性损失项,鼓励提取器逼近生成器预测的平均动态权重。我们在不同的长文档和长对话摘要任务上评估了我们的方法:GovReport、QMSum和arXiv。实验结果表明,DYLE在GovReport和QMSum上优于所有现有方法,ROUGE提升高达6.1,同时在arXiv上取得了强大的结果。进一步的分析显示,所提出的动态权重提供了我们生成过程的可解释性。01 引言0基于Transformer的预训练语言模型(PLMs),如BART(Lewis等人,2020a)和T5(Raffel等人,2020),在短文本摘要上取得了最先进的性能。然而,由于完全自注意力的高内存复杂性(Tay等人,2020a),PLMs仍然难以处理长输入(Rohde等人,2021)。模型的效率和摘要质量构成了一对挑战(Huang等人,2021):模型需要捕捉分散在长输入中的信息,同时保持低计算成本。0� 相等贡献。1我们的代码可在以下网址获取:https://github.com/Yale-LILY/DYLE0生成器 提取器0Oracle损失0一致性损失 生成损失0文档0查询0动态权重0图1:我们方法的概述。输入是一个文档X(每个x ∈X是一个句子)和一个可选的查询q,输出是一个摘要y。0先前的模型主要通过以下四种方式处理长输入摘要。首先,使用稀疏注意力(Child等人,2019;Beltagy等人,2020;Tay等人,2020b)来减少Transformer的内存复杂性,以便能够关注更多的标记。其次,采用先提取后生成的方法,从输入中提取出显著的文本,然后对提取的文本进行摘要。提取器可以通过完全监督独立训练(Zhong等人,2021b)或使用强化学习进行优化(Williams,1992;Chen和Bansal,2018;Bae等人,2019;Bražinskas等人,2021)。第三,提出了将源文本划分为部分(Gidiotis和Tsoumakas,2020;Wu等人,2021;Liu等人,2021),这些部分分别进行摘要,然后组合成完整的摘要。第四,分层模型(Rohde等人,2021;Zhu等人,2020)通过捕捉句子或话语级别的依赖关系来改进摘要。我们在第2节中详细阐述了这四个方向及其局限性。我们认为先提取后生成的方法模仿了人们处理长输入摘要的方式:首先识别文本中的重要信息,然后对其进行摘要(Kiyoumarsi,2015;Sun等人,2020)。先提取后生成的框架基于这样的假设:对于摘要有用的显著信息仅占输入的一小部分。0arXiv:2110.08168v2[cs.CL]24Apr20220+v:mala2277获取更多论文0考虑到长输入长度,这是一个合理的假设。这种方法将源输入缩短到预设长度,解决了模型无法处理超过一定限制的更长输入的主要挑战。然而,之前分别训练的提取-生成方法存在局限性,因为它们从提取器到生成器之间存在级联错误。尽管引入了各种强化学习技术来连接这两个步骤,但它们存在明显的缺点(在第3.3节中讨论),我们认为长输入使得这种方法不够优化。在本文中,我们提出了一种新的长输入摘要方法:动态潜在提取用于生成式摘要(DYLE)。DYLE同时训练提取器和生成器,并将提取的文本片段保持潜在状态。对于一个输出标记,DYLE分别计算其在每个输入片段上的条件概率,并且其生成概率通过在生成器上学习的动态权重对所有输入片段进行边际化计算,条件是先前生成的标记。我们使用两个替代损失函数来优化提取器。首先,我们根据参考摘要使用贪婪搜索计算提取式oracle,以获得最佳ROUGE分数。这些oracle片段用作提取器学习信号的目标。此外,我们提出了一致性损失,以鼓励提取器将其自己预测的片段权重逼近生成器预测的平均动态权重。我们在三个长输入摘要数据集上进行了实验:GovReport(Huang等,2021年)和arXiv(Cohan等,2018年)用于长文档摘要,以及QMSum(Zhong等,2021b年)用于长对话摘要。我们的方法DYLE在GovReport和QMSum上大大优于现有方法,同时在arXiv上取得了很好的结果。值得注意的是,DYLE在GovReport上的ROUGE-1/2/L分别比之前最佳方法提高了4.2/6.1/4.0个百分点。这些实验证明了DYLE在多个长输入摘要任务中的泛化能力。我们总结如下贡献:0•我们引入了DYLE,一种用于生成式长输入摘要的动态潜在提取方法。DYLE更好地捕捉了长输入中的信息,并减少了计算成本;0• 我们提出了多个辅助优化方法。0为了有效训练DYLE,我们提出了以下三个方法:1)提取式oracle作为提取器的学习信号;2)一致性损失,用于连接提取和生成;3)混合训练方法,使提取更加稳健;0•实验结果表明,DYLE在两个长输入摘要数据集上远远优于现有技术水平。我们还进行了详细分析,表明动态权重提高了模型的可解释性。02 相关工作0我们详细介绍了近期工作中解决长输入摘要任务的四个主要方法类别。0稀疏注意机制完全注意机制具有二次内存成本。先前的研究工作提出了不同的稀疏注意机制来减少内存成本。Longformer(Beltagy等,2020年)使用了一个扩张的滑动窗口和全局注意模式。BigBird(Zaheer等,2020年)采用滑动窗口和随机块。Reformer(Kitaev等,2020年)使用局部敏感哈希。除了优化编码器的自注意力外,Huang等人(2021年)还提出了逐头位置步幅来减少编码器-解码器注意力的成本。然而,稀疏注意机制减弱了预训练的好处,并牺牲了部分感受野。0提取-生成方法该方法从输入中提取显著的文本片段,然后生成一个总体摘要。这些方法中的大多数是分别训练的(Zhang等人,2019年;Lebanoff等人,2019年;Xu和Durrett,2019年;Bajaj等人,2021年;Zhang等人,2021b年),当我们将提取的片段传递给生成器时会出现信息丢失的问题。一些方法尝试通过桥接两个阶段来减少这种损失。Chen和Bansal(2018年)采用了强化学习(RL)和句子级策略梯度。Bae等人(2019年)提出了摘要级策略梯度。在长输入文本上使用RL会遇到各种问题,我们将在第3.3节中详细介绍。DYLE不同之处在于我们使用潜在变量共同训练提取-生成模型进行摘要。0分而治之的方法长输入摘要中常见的一种方法是分而治之(Gidiotis和Tsoumakas,2020年;Grail等人,2021年;Zhang等人,2021a年)。它将长输入分成多个部分,分别进行摘要,然后合并生成最终摘要。然而,这些模型无法捕捉部分之间的上下文依赖关系,并假设输入具有某种结构。0+v:mala2277获取更多论文3.1Extractor-Generator Framework=An interesting research question is how to designthe extractor for long inputs. Limited by GPU mem-ory, it is impractical to concatenate all snippetsand encode them with a large pre-trained languagemodel. As shown in Figure 2, we group consecu-tive snippets into chunks. We concatenate the queryq with each chunk and compute the encoded vectorfor each snippet independently within the chunkit belongs to. We project the encoded vectors toscalar scores si = Eη(q, xi) using an MLP.03我们的方法0分层模型已经提出了各种分层模型来处理更长的输入。Cohan等人(2018年)使用分层编码器和意识到话语的解码器对文档话语结构进行建模。HAT-Bart(Rohde等人,2021年)提出了一种新的基于分层注意力变换器的架构,试图捕捉句子和段落级别的信息。HMNet(Zhu等人,2020年)构建了一个包括话语级信息和发言者角色的分层结构。然而,这些模型主要关注模型性能,而不是减少内存和计算成本。03.1提取器-生成器框架0我们方法的概述如图1所示。在第3.1节中,我们制定了我们的任务和提取器-生成器框架。在第3.2节中,我们介绍了针对长输入的提取器参数化。在第3.3节中,我们介绍了生成器的公式化和新颖的一致性损失。提取器模块既通过一致性损失又通过oracle损失进行优化,我们将在第3.4节中详细介绍。总体的训练目标在第3.5节中总结。0在长输入摘要任务中,输入由L个文本片段X = (x1,...,xL)和一个可选的查询q(如果查询与摘要配对)组成。在长输入摘要中,文本片段的数量L可能非常大。输出是长度为T的摘要y。对于对话摘要任务,每个发言者的对话话语被用作片段。对于文档,我们将输入分词为句子,并将每个句子用作片段。目标是学习一个模型,给定输入片段X和先前生成的标记y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功