没有合适的资源?快使用搜索试试~ 我知道了~
参数高效的抽象QA编码器-解码器模型在多模态信息搜索系统中的应用
+v:mala2277获取更多论文基于表格或文本的Vaishali1Evangelos Kanoulas2Maarten de Rijke21阿姆斯特丹大学发现实验室2阿姆斯特丹大学诉pal,e.kanoulas,m.uva.nl摘要信息搜索问答系统的一个长期目标是在多模态上下文上进行推理,并为用户查询生成自然答案。如今,通过在特定模态(如非结构化文本或结构化表格)的QA数据上微调模型,理论密集型预训练语言模型适用于下游任务,如QA。为了避免训练这种内存消耗的模型,同时为每个模态使用统一 的 架 构 , 参 数 高 效 的 适 配 器 在Transformer层之间添加和训练小的特定于任务的瓶颈层。在这项工作中,我们研究了参数高效的抽象QA编码器-解码器模型在结构化的表格数据和非结构化的文本数据,只使用1.5%的额外参数,为每一个模态。我们还对编码器和解码器模块中的适配器层进行了消融,以研究效率-性能权衡,并证明将额外的可训练参数减少到0.7%我 们 的 模 型 在 表 格 QA 数 据 集 ( 如Tablesum和FeTaQA)上的表现优于当前最先 进的 模型 ,并 在文 本 QA数 据集 (如NarrativeQA)上实现了可比较的性能,使用的可训练参数明显少于微调。1介绍不同背景下的信息搜索系统需要模型能力来推理非结构化和结构化数据,如自由形式的文本、表格和图像(Agrawal et al. ,2016; Vaku-lenkoet al. ,2019; Hudson and Manning,2019;Zhang et al. ,2020; Zhu等人,2021; Deldjoo etal. ,2021年)。如果部署为面向任务的会话代理,则这样的系统可能具有生成自然语言响应的附加要求(Wen et al. ,2015; CarnegieandOh , 2000;Rambowetal., 2001;Ratnaparkhi,2002)。开放域问答(QA)的最新工作主要通过微调来解决这些挑战自然答案LM头部文本适配器Nx编码器工作台适配器文本适配器解码器表适配器提问表问题文件图1:使用特定模态(表/文本)适配器进行抽象问题分类的基于不同模态(如表格和文本)的大规模预训练语言模型(Yin et al. ,2020; Herzig et al. ,2020 , 2021; Katsis 等 人 , 2021; Nanet al. ,2021年)。然而,在特定输入类型上训练的每个模型与其他模态不兼容,并且需要模态特定的微调。例如,在表格式QA(Herzig et al. ,2020),通过训练附加位置嵌入(行和列标识符)来识别表格单元格属于哪一行和哪一列来学习表格这使得这种模态特定的模型与基于自由形式文本的模型不兼容多模态模型(Zhu etal. ,2021)可以通过连接文本上下文和扁平化的表来对表和文本两者进行推理,从而导致更长的输入序列并限制可以被编码的上下文的长度。为了应对这些挑战,我们研究了针对表格和文本的抽象QA的参数有效迁移学习。我们的动 机 是 使 用 适 配 器 层 , 在 冻 结 的 预 训 练Transformer层之间注入小瓶颈层,因为它们实现了与精细转换层相当的性能arXiv:2204.03357v1 [cs.CL] 2022年4+v:mala2277获取更多论文调整各种任务,如多语言翻译(Pfeiffer etal. , 2020; Philip 等 人 , 2020; Guo et al. ,2020)、分类(Houlsby et al. ,2019a),文本到文本生成(Lin et al. ,2020)、对话状态跟踪中的域适应和响应生成(Hung et al. ,2021年)。适配器层的消融研究(Rucklé等人,,2020年 ) 上的 掩 蔽 语言 模 型,如BERT- base和RoBERTa在GLUE基准测试表明,删除开始适配器层导致性能下降最小。在单独的编码器和解码器模块上扩展适配器层烧蚀是重要的,因为层的顺序修剪的常规方法我们的工作探讨了在抽象QA的背景下,两个模块的适配器层的相互作用。Lin等人 (2020)探索适配器瓶颈尺寸对各种语言生成任务的影响,这些任务超过了自回归模型,如GPT-2(Radford et al. ,2019)。他们不研究表格数据,也不消融适配器层,这对于理解顺序Transformer模块架构(如编码器-解码器)中单个适配器的影响至关重要。我们的分析是对(Lin et al. ,2020),因为我们消融适配器层以研究参数-性能权衡,而它们仅关注适配器瓶颈尺寸。此外,我们概括了文本到文本的设置,并探索从结构化或非结构化输入(如表格和文本)生成语言。这在下游数据的任务和结构我 们 提 出 了 一 个 系 统 , 名 为 Partists ,Eefficient , AbstractiveQ uestionA nswering(PeaQA),如图1所示,它使用共享的预训练语言模型和特定于模态的适配器层学习对非结构化和结构化输入进行推理。我们自动将层次表转换为常规表,以获得统一的表示,而不会破坏表单元格之间的关联。此外,我们扩展的研究消融适配器层的编码器和解码器模块。我们的主要贡献归纳如下:(1) 我们在多模态上下文上执行参数高效的抽象问题回答,每个模态仅使用额外的1.5%的可训练参数。我们的适配器调优模型通过以下方面优于现有的工作:在表格QA数据集上有很大的余量,在文本QA数据集上实现了相当的性能(2) 我们研究表格QA作为一种新的模态,它引入了大量的输入域转移到预先训练的语言模型。我们提出了一个两步的层次表到序列的转换,它产生了一个统一的表示,由一个单一的,共享的预训练的语言模型和模态特定的适配器层使用据我们所知,这是第一个以参数有效的方式探索表格QA问题回答的工作。(3) 我们烧蚀了编码器和解码器模块中的适配器层,以研究它们的影响,并表明可以消除编码器和解码器的起始层,而不会显着降低性能。我们还证明了最后的编码器适配器层是不可或缺的,并具有更大的贡献比解码器层在同一级别。2相关工作表格式问答。表格式QA系统旨在回答结构化表格中的问题,这些表格可以是规则的或分层的。分层表可以具有跨越多个行和列的标题单元格和主体单元格(Chenget al. ,2021年)。在大多数表格式QA系统中(Herziget al. ,2020; Zhu等人,2021; Katsis et al. ,2021),表的结构通过引入表特定的位置信息(诸如行id和列id)在大型语言模型的嵌入层中编码。,2021; Cheng et al. ,2021)提出了通过推理和聚合来自表格的不连续事实来生成自然答案的额外挑战。文本问答。文本上的问题回答测量系统理解用户问题和上下文段落中的自由形式文本并预测答案的能力。预测的答案本质上可以是提取的,其中系统识别上下文段落中的短文本跨度以回答用户查询(Lee et al. ,2016; Seo等人,2016; Rajpurkar等人。,2016; Pearce et al. ,2021),或者它可以是抽象的,其中需要生成自由形式的答案(Yin et al. ,2016; Mitra,2017; Bauer 等 人 , 2018; Reddy et al. ,2019)。迁移学习。迁移学习技术,如微调预训练模型,+v:mala2277获取更多论文流任务需要为每个新任务学习一组新参数为了避免这种记忆密集型迁移学习方法,已经提出了适配器作为适应新领域的参数有效方法( Houlsby et al. , 2019 b; Pfeiffer et al. ,2020)。适配器已经被扩展到各种生成任务中的语言生成,诸如翻译、摘要、多轮对话和面向任务的自然语言生成(Lin et al. ,2020)。我们的工作结合了上述所有方面,从表格和文本中生成抽象的答案,只有0。7%3模型我们专注于编码器-解码器模型的抽象问题回答的任务。 我们使用BART(Lewis et al. ,2019)编码器-解码器架构,其包括双向编码器和自回归解码器。输入序列由问题、上下文标题和上下文序列组成,上下文序列之前有指示每个子序列开始的提示形式上,输入序列表示为question>qq1. . . qm t1t2.. . tp<上下文> c0c1。. . Cn,其中Qi是第i个问题令牌,Tj是第j个标题令牌,以及Ck是第k个上下文令牌。上下文可以是文本段落或展开的表格。预训练的BART模型的参数在训练期间被冻结添加到模型中的特定于模态的适配器层在表格上下文或文本上下文上进行训练,以生成自然的答案。4语篇提问为了研究多模态抽象问答系统,我们首先将自由形式的文本作为系统的上下文 我们在Narra-t iv eQA数据集上针对文本上下文训练适配器层( K o cKomiskovskiyetal. , 2018 ) 。 NarrativeQA是基于故事的复杂抽象问题回答该数据集在训练集中包含32,747个样本,在验证集中包含3,461个样本,在测试集中包含10,557个对于我们的任务,我们选择了输入上下文段落作为每个样本的人工注释摘要,这是故事的维基百科页面摘要模型的输入是每篇文章的问题、标题和摘要,目标是抽象的答案。5表格式提问我们研究了表格QA作为一种新的模式,它引入了大量的输入域转移到预先训练的语言模型。表格在其表示中强制执行结构为了通过使用统一的预训练语言模型来实现参数效率的目标,我们只训练表特定的然而,这需要表格和文本的统一输入表示另外一个挑战是在不同的表类型(常规的、分层的)之间保持一致性。对于我们的任务,我们探索2个表格QA数据集 , 即 Tablesum ( Zhang et al. , 2020 ) 和FeTaQA(Nan et al. ,2021年)。Tablesum由200个独特的维基百科表格组成,其中问题和摘要人工注释答案; 40%的样本是关于分层表的问题,但是它们发布的数据中的表在分层单元中缺少信息,并且它们的工作不处理分层结构。我 们 通 过 从 相 应 的 维 基 百 科 页 面 中 提 取wikitables来解决这个问题,并发布一个干净版本的数据集。1FeTaQA(Nan et al. ,2021)是一个更大的抽象表格QA数据集,由超过10,330个常规表格的问题和自由形式的答案的数据集由7,326个训练样本验证集中为1,001,测试集。FeTaQA由人工注释的答案组成,其中包含涉及实体和关系的解释。5.1表格表示对于我们的工作,我们选择在两个步骤中统一表示所有表:(1)将层次表转换为常规表;(2) 将常规表线性化为可以用语言模型编码的扁平序列。线性化分层表格标题。分层表格标题通过以下过程线性化为单行标题跨多列的标题单元格被复制并拆分为多个单元格。接下来,将此标题所跨越的单元格值对所有标题行重复此过程会将分层标题转换为顺序1清理后的数据和代码可以在github.com/kolk/Pea-QA上找到+v:mala2277获取更多论文e(f)1a(d)−一BCDeFG我123J45HK6L78910a(d)a(e)Bc(f)g(i)g(j)11231145h(k)1146h78910(a) 表示为常规表的多跨度表。a(d)Be(f)g1213B2g(h)a(d)1B3(b) 将常规表线性化为一系列键:值对。图2:表格表示。一个.我们在图2a中描述了这个过程,它产生了线性报头a(d),a(d),b,e(f)。线性化表体。多跨度表体单元格的解析方式与表头不同每个表体单元格都与一个或多个标题单元格一起复制,跨多行的单元格将与所有跨行的单元格一起复制。这一过程导致了一个经常性的数据集。在Tablesum数据集上,我们遵循原始工作中描述的5重交叉验证来评估我们的模型。在FeTaQA和Narra- tiveQA上,我们利用测试分割来评估我们的模型。我们在每个数据集 上 训 练 模 型 15 个 时 期 , 并 在 Rouge-2 ,Rouge-L和sacreBLEU指标上进行评估。6.2适配器调谐我们执行适配器调整作为一个参数有效的替代方案,以适应BART-大模型的抽象问题回答任务在不同的模态。我们首先冻结预训练的BART 大 模 型 的 所 有 层 , 该 模 型 是 在 原 始BART 论 文 中 提 到 的 文 本 重 建 上 训 练 的(Lewis et al. ,2019)。我们从Houlsby适配器配置中添加瓶颈适配器层(Houlsby et al. ,2019 a),这些训练适应下游抽象问题回答任务,也适应特定于表.我们以行为主的形式扁平化常规表,按顺序连接行。每一行都是一个(键,值)对序列,其中键是列标题,值是该列的单元格值,如图2b所示。6实验装置我们试图通过实验回答以下研究问题:(RQ1)在多模态输入的情况下,适配器调整(RQ2)编码器和解码器上的所有适配器层是否对任务/模态的性能贡献相同?6.1微调我们的实验都是在大变量的BART模型上进行的。我们在3个数据集上微调BART-大型模型,因为最先进的微调模型针对不同的数据集利用不同的架构,使得与适配器调优的比较我们将3个数据集上的微调BART模型作为基线。我们从{8e−4,6e−4,3e−4,1e−4,5e−5,4e5,3e−5,2e−5,1e−5}中扫描学习率,并为每个 数 据 集 选 择 最 佳 执 行 学 习 率 。 我 们 在Tablesum上选择4e−5进行微调,在Fe-TaQA数据集上选择8e−4,在NarrativeQA上选择2e−5我们使用批量大小4和梯度累积8来模拟有效批量大小32。表格QA数据集的最大靶序列长度设置为200,文本QA数据集的最大靶序列长度设置为100把上下文。每个适配器层具有64的瓶颈嵌入尺寸。如第6.1节所述,我们扫描学习率并为每个数据集选择性能最佳的学习率。我们选择6e−4作为表格式QA数据集Tablesum和FeTaQA,并选择1e−1来训练文本QA数据集NarrativeQA。我们使用相同的批次大小和最大靶序列长度作为微调以进行有效的比较。超参数的总结见表1。数据集参数ATuneFTune所有调度器线性线性批量3232种子66最大历元1515表和学习率6e-44e-5输入长度200200学习率6e-48e-4FeTaQA输入长度100100NarrativeQA学习率1e-42e-5输入长度5050表1:用于训练的超参数。ATune表示适配器调整,FTune表示微调,All表示所有3个数据集。6.3消融研究:适配器修剪适配器层修剪已经在GLUE基准上进行了探索(Rucklé et al. ,2020年),其中+v:mala2277获取更多论文数据集模型训练Rouge-1 Rouge-2 Rouge-L BLEUGPT2微调0. 2720. 0730. 2005. 35(Nishida et al. ,2019年)表2:结果:在Tablesum、FeTaQA和NarrativeQA数据集上获得的评分演示了从BERT-base和RoBERTa模型的开头我们扩展适配器层烧蚀的编码器-解码器架构,并假设这种现象应观察到的编码器和解码器模块。然而,编码器和解码器中的适配器层如何彼此交互并对性能做出贡献是不平凡的。既往研究(Rucklé et al. ,2020)在适配器消除上修剪掩码语言模型中的连续适配器层。该方法不直接扩展到编码器-解码器的顺序模块,其中模块内适配器不仅有助于它们各自的编码和解码目标,而且有助于模块间交互和性能。为了测量不同模块中适配器层的影响,我们在编码器和解码器中执行适配器消融。首先,我们从编码器和解码器模块中统一删除适配器层,从两个模块的开始层开始,最后删除所有层。这导致12个实验,对应于消除12个编码器和12个解码器适配器层。为了研究不同层次的模块间适配器之间的相互作用,我们从编码器和解码器的最后6个层次进行了36个不同配置的适配器消除实验。我们在第7.3节中分析了每种配置的性能。7结果我们比较了我们的基线微调模型的结果与最先进的微调模型,在第7.1节中。我们解决(RQ1)“在多模态输入的情况下,适配器调整与微调相比如何执行?”节中7.2和(RQ 2)“编码器和解码器上的所有适配器层是否对任务/模态的性能都有同等贡献?”在7.3。7.1微调模型我们研究了我们的基线微调模型的结果实验结果示于表2中。 我们观察到,对于Tablesum数据集,我们的微调模型在Rouge-1上的表现优于 最 先 进 的 T5 模 型 3 。 8% , 胭 脂 -2 乘 4 。Rouge-L评分降低4%。这可以归因于在数据集的干净版本上微调我们的模型 我们的微调模型在Fe-TaQA数据集上执行最先进的T5-大,即0。2%的胭脂-1,0。Rouge-2高出01%,0.Rouge-L高出04%。我们对NarrativeQA的微调结果低于使用复杂推理架构训练的最先进模型。这项工作的重点主要是比较微调和适配器调优,因此我们离开明确的推理作为未来工作的一部分。7.2适配器调谐型号我们通过比较适配器调整模型与我们的基线微调 模 型 的 性 能 来 解 决 ( RQ 1 ) 。 对 于Tablesum,如表2所示,微调(基线)的性能略优于适配器调优,Rouge-1和0高7%。Rouge-L 评 分 高 4% , 而 Rouge-2 评 分 相 同 。 对 于FeTaQA,adapter-tune显示了更大的TablesumT50。3620。1430。27610.43(Zhang et al. ,2020年)我们的(Pea-QA)微调(基线)0.4000.1860.316第六章30适配器调谐0。3930.1860。312第六章75T5-小型0。5500。3300。47021岁60FeTaQAT5基础微调0。6100。3900。51028岁14(Nan et al. ,2021年)T5-大号0。6300。4140。53030. 54我们的(Pea-QA)微调(基线)0。6320。4150。53430. 81+v:mala2277获取更多论文问:Akhila Kishore的前两部电影是什么时候目标:akhila kishore在卡纳达语电影padhe padhe(2013)中首次亮相,并出现在kathaithiraikathai vasanam iyakkam(2014)中。表:Adaper-tune:akhila kishore在卡纳达语电影padhe padhe(2013)和kathai thiraikathai vasanamiyakkam(2014)中首次亮相。微调:kathai thiraikathai vasanam iyakkam(2014)和inimey ippadithaan(2015)是卡纳达语电影。问:谁是Aastik的主演?目标:aastik是一部1956年的印地语电影,由shahu modak,paro devi和meenakshi主演。表:adaper调:aastik是1956年宝莱坞电影主演沙湖莫达克。由s导演的《微调》。p. 卡拉问:雅库布导演的三部电影是什么,什么时候上映的目标:雅库布执导了三部电影:1937年的《萨加尔卡舍尔》,1939年的《乌斯基塔曼纳》,以及1949年的《爱叶》。表:改编曲:雅库布执导了三部电影:1937年的《萨加尔之狮》、1939年的《她最后的欲望》和1949年的《爱也》。由雅库布执导的《微调:表3:适配器调整优于微调的示例性能增益为1。Rouge-1、Rouge-L和Rouge-2的9%。1%的胭脂-2相比,微调。在表格式QA中,微调相对于适配器调整的微不足道的收益可以归因于灾难性的遗忘(French,1999;Kirkpatricket al. ,2017; Chen et al. ,2020),这是由下游表格数据格式的分布与预训练的原始文本数据格式的差异引起的为了进一步探索这种现象,我们分析了表3中FeTaQA数据集的示例,其中适配器调整优于微调。我们观察到,在第一个例子中,微调模型无法从列语义中消除表面形式的问题中命名实体Akhila Kishore的预期语义是Actor。虽然表面形式类似于列值Akhila,但预期的语义是列标题“角色”。微调模型错误地预测表格上下文的第二行和第三行作为信息的正确基础,我们观察到,微调模型还预测来自错误列Direc- tor的信息,而不是第二个例子中的Castadapter-tune正确识别列,但在预测中部分生成所需的信息.第三个例子描述了微调模型的非事实和非流畅预测我们在表4中演示了一个Tablesum的分层表的示例。该问题要求在表格单元格上进行聚合,并具有与之关联的各种类似摘要的目标。分层表格提到了EdShepherd3次,但实际出现次数为10次,从年膜作用语言2013帕迪帕迪Kanchana卡纳达2014Kathai Thiraikathai Vasanam IyakkamDaksha泰米尔2015伊巴迪塔安阿希拉泰米尔.........标题主任铸造.........阿斯蒂克S. P. 卡拉Shahu Modak,Paro Devi,Meenakshi,B.M. 普拉文?保罗?维亚斯阿拉姆·阿拉纳努拜·瓦基勒Daljeet Chitra Tiwari Niranjan Sharma Minu Mumtaz.年膜主任.........1937萨加尔狮子(Sagar Lion)Yakub.........1939Uski Tamanna(Her LastDesire)Yakub.........1949艾叶Yakub.........+v:mala2277获取更多论文问:埃德谢夫登有多少次被列为表演者?目标:• 埃德·谢林在记录2014年瑞典热门歌曲的表格中两次被列为表演者。其他英语音乐的顶级表演者包括布鲁斯·斯普林斯汀、山姆·史密斯和酷玩乐队,这意味着英语音乐在瑞典取得了巨大的成功。• 根据该表,在2014年,埃德·谢林只被列为表演者一次。这是他在2014年1月和2月发行的一首名为“我看到火”的歌曲表:Adaper-tune:我找到了2014年的一张桌子它显示了一周中的一周、歌曲名称、艺术家、歌曲名称、专辑名称和表演者。有11次,埃德谢林被列为表演者在一年。这首歌的名字是“木材”,这张专辑是真的。微调:我找到了一张2014年埃德·谢利的表格。他在2014年他第一次上榜是在2014年1月3日,歌曲“Timber”和最后一首2014年4月4日,《我看见火》。适配器调谐表4:来自Tablesum数据集的示例这两种模型都能生成很长的答案,已 移 除编码器解 码 器适 配 器已移除#可训练参数来自上下文表的信息然而,由于模型没有显式地处理细胞聚集,我们在两个适配器调整的模型和微调的模型。模特们发现Tablesum示例具有挑战性,即使生成的语言是流畅和可读的。对于文本QA,在NarrativeQA数据集上,适配器调优的性能与微调相当,其中适配器调优的模型达到0。降低8%胭脂-1,1. Rouge-2和1高8%。低5%的Rouge-L分数比微调。微调406,291,456(100%)我们的结论是,适配器调谐性能更好而不是针对域外表格数据进行微调,表5:编码器和解码器中的可训练参数。编码器适配器层从0x-y第3周至第9周、第31周和第42周至第43。我们的表格转换过程处理这个问题,以生成一个包含10个单元格的常规表格,其中包含- ingEdShepherd作为值。模型可以简单地聚合提及。如表4所示,在域名文本上的性能相当。7.3适配器层我们通过烧蚀编码器和解码器模块中的适配器层来研究(RQ 2)我们统一地从编码器和解码器中消除连续的适配器层,从两个模块中的第一层开始,最后删除所有层。这导致12个实验对应于12个en-––6,343,680(1.(56%)0–212–144,757,760(1.17%)0–412–163,700,480(0。91%)0–612–182,643,200(0。(65%)周日期歌曲标题表演者专辑标题表演者12014年1月3日“木材”Pitbull feat. ......这是什么?真Avicii22014年1月1032014年1月17日《我看见火》Ed Sheeran厚望布鲁斯42014年1月24日52014年1月31真Avicii62014年2月7日克里斯特·舍格伦桑格·西纳特拉克里斯特·舍格伦72014年2月1482014年2月21日真Avicii92014年2月28............31二〇一四年七月三十一日XEd Sheeran+v:mala2277获取更多论文至−−(a) FeTaQA Rouge-L评分(b)表格Rouge-L评分(c)叙述性QA Rouge-L评分(d)FeTaQAsacreBLEU评分(e)Tablesum sacreBLEU评分(f)NarrativeQA sacreBLEU评分图3:适配器层消融评分。X轴表示删除的编码器适配器层的范围,Y轴表示删除的解码器适配器层的范围x-y意味着从x到y的所有适配器层。那里显示了36种模型消融配置消融从0到6个编码器适配器层移除开始以及由左下单元((0-6),(12-18))表示的12到18解码器适配器层移除增加了沿X轴的编码器适配器层和沿Y轴的解码器适配器层的删除图4:适配器层消融Rouge2 F评分。X轴描绘了逐渐删除的编码器适配器层(0每个(x-y)表示具有编码器层p的图5:适配器层消融Rouge-L评分。X轴描绘了删除的编码器适配器层(0-11)和解码器适配器层(12-23 逐渐地。每个(x-y)表示具有编码器层p的(俄、西)Q被删除并且解码器层R到S被删除。编码器和12个解码器适配器层。我们将编码器适配器层编号为0-11,将解码器适配器层编号为 12-23 。 我 们 使 用 Rouge-2 , Rouge-L2 和sacreBLEU3评分来衡量模型的性能。F分数2https://pypi.org/project/rouge-score/3https://github.com/mjpost/sacreBLEU(俄、西)到Q被删除并且解码器层R到S被删除。对于每个数据集(NarrativeQA,Tablesum,FeTaQA),分别如图4,5和6所示。我们观察到,随着更多的适配器层被消除,所有数据集的性能都会下降。然而,性能下降是最小的,直到最后一个适配器层也被删除.拐点在数据集之间变化,但限于编码器和解码器的最后2层对于纳拉-+v:mala2277获取更多论文−(俄、西)图6:适配器层消融sacreBLEU F评分。X轴描绘了逐渐删除的编码器适配器层(0-11)和解码器适配器层(12-23)。每个(x-y)表示删除了编码器层p到q和解码器层r到s的F分数。tiveQA数据集,这一点是当所有层,直到倒数第二个适配器层从编码器和解码器被删除。对于FeTaQA和Tablesum数据集,只有当最后的编码器和解码器层被删除时,性能才会急剧下降为了分析编解码器的第i层适配器对性能的贡献. .、(0. . ,(12 这导致了36个配置-其中构型(p-q移除从第p层到第q层的所有编码器适配器和从第r层到第s层的所有解码器适配器。结果如图3所示。我们观察到,性能保持可比,因为我们逐步消除适配器层从编码器和解码器,直到最后一层。当我们移除朝向图3a、3b和3c中的RougeL分数以及图3d、3e和3f中的BLEU分数的右上角描绘的最后编码器和解码器适配器层时,性能急剧下降。这意味着最后的适配器层学习大部分域信息。我们还观察到最后的编码器和解码器层对性能的贡献不同删除最后一个编码器层(列0-11)导致所有解码器层的分数大幅下降。这表明最后一个编码器层是必不可少的。仅保留最后一个解码器适配器(行12我们还观察到,仅保留适配器的最后50%,来自编码器和解码器两者的层将参数效率增加0。7%的参数,如表5中所总结,而不会显著损害性能。8结论我们是第一个研究参数有效的迁移学习表和文本的抽象问题的回答使用适配器。我们证明了参数有效的适配器调整优于微调域外的表格数据,并取得了可比的结果域内的文本数据。我们提出了一种从层次表到规则表的转换,并进一步转换为与预训练模型兼容的序列形式。我们将现有的适配器层消融研究扩展到编码器-解码器设置,并证明来自编码器末端的适配器层与同一级别的解码器适配器层相比,可指示编码模态特定我们的研究结果是有用的探索QA模型的可扩展性在内存受限的情况下,具有可比的性能,同时跨模式使用轻量级适配器扩展我们的工作的局限性之一是,我们的模型没有显式地推理和聚合表单元格。这可能会导致在具有挑战性的Tablesum数据集上出现流畅但实际上不正确的答案。解决这一限制问题将留待今后工作。9确认我们要感谢爱思唯尔在整个项目中的支持和资助。这项工作也得到了NWO创新研究激励计划Vidi(016.Vidi.189.039),NWO智能文化- 大数据/数字人文(314-99-301),H2020-EU.3.4。 - 社会挑战-智能、绿色、综合交通(814961)。所有内容都代表作者的意见,不一定得到各自雇主和/或赞助商的认可或认可+v:mala2277获取更多论文引用艾西瓦亚·阿格拉瓦尔,陆佳森,斯坦尼斯瓦夫·安托尔,马·米切尔,C.劳伦斯·齐特尼克,德鲁夫·巴特拉,和德维·帕里克。2016. VQA:视觉问题回答。arXiv预印本arXiv:1505.00468。Lisa Bauer,Yicheng Wang,and Mohit Bansal. 2018.生成式多跳问题回答任务的常识在EMNLP。作者:Alice H.哦2000.口语对话系统的随机语言生成在ANLP/NAACL 2000年会议记录中。《对话系统》,第27-32页。陈三元、侯玉泰、崔一鸣、车万象、刘婷、余翔战。2020年。回忆和学习:微调深度预训练的语言模型,减少遗忘。在2020年自然语言处理经验方法会议(EMNLP)中,第7870计算语言学协会.Zhujun Cheng,Haoyu Dong,Zhiruo Wang,RanJia,Jiaqi Guo,Yan Gao,Shi Han,Jian-GuangLou,and Dongmei Zhang. 2021. Hitab:用于问答和自然语言生成的分层表数据集。arXiv预印本arXiv:2108.06712。作者声明:John R.崔帕斯,还有哈米德·扎曼尼.2021年多模态会话信息搜索。在SIGIRACM。Robert M.法语1999. 连接主义网络中的灾难性遗忘。Trends in Cognitive Sciences,3(4):128Junliang Guo , Zhirui Zhang , Linli Xu , Hao-RanWei,Boxing Chen,and Enhong Chen. 2020. 用适配器。神经信息处理系统进展,第33卷,第10843-10854页。Curran Associates,Inc.JonathanHerzig , ThomasMüller , SyrineKrichene,and Julian Eisenschlos.2021. 开放领域的问题通过密集检索表。计算语言学协会北美分会2021年会议论文集:人类语言技术。Jonathan Herzig,Pawel Krzysztof Nowak,ThomasMüller , FrancescoPiccinno , andJulianEisenschlos. 2020. TaPas:通过预训练进行弱监督表解析。在计算语言学协会第58届年会的会议记录中,第4320-4333页,在线。计算语言学协会。NeilHoulsby , AndreiGiurgiu , StanislawJastrzebski , BrunaMorrone , QuentinDeLaroussilhe,AndreaGesmundo,MonaAttariyan,and Sylvain Gelly.2019年a。NLP的参数有效迁移学习。第36届国际机器学习会议论文集,机器学习研究论文集第97卷,第2790-2799页。PMLR。NeilHoulsby , AndreiGiurgiu , StanislawJastrzebski , BrunaMorrone , QuentindeLaroussilhe,AndreaGesmundo,MonaAttariyan,and Sylvain Gelly. 2019年b. NLP的参数 有 效 迁 移 学 习 。 arXiv 预 印 本 arXiv :1902.00751。德鲁·A Hudson和Christopher D.曼宁2019. GQA:一个用于真实世界视觉推理和组合问题回答的新数据集。arXiv预印本arXiv:1902.09506。洪家谦,安妮·劳舍尔,西蒙娜·保罗·庞泽托,戈兰·格拉瓦托。2021. DS-TOD:面向任务对话的高 效 领 域 专 门 化 。 arXiv 预 印 本 arXiv :2110.08395。Yannis Katsis,Saneem Chemmengath,VishwajeetKumar, Samarth Bharadwaj , Mustafa Canim ,Michael Glass,Alfio Gliozzo,Feifei Pan,Jay-deep Sen , KarthikSankaranarayanan , andSoumen Chakrabarti. 2021. AIT-QA:航空业复杂表 格 的 问 答 数 据 集 。 arXiv 预 印 本 arXiv :2106.12944。JamesKirkpatrick , RazvanPascanu , NeilRabinowitz,JoelVeness,GuillaumeDesjardins,Andrei A. Rusu,Kieran Milan,JohnQuan , Tiago Ramalho , Agnieszka Grabska-Barwinska,Demis Hassabis,Claudia Clopath,Dharshan Kumaran,and Raia Hadsell. 2017.克服神经网络中的灾难性遗忘arXiv预印本arXiv:1612.00796。托 马 斯 ·K·o·c· 阿 尼 斯 克 , JonathanSchw arz ,PhilBlunsom, ChrisDyer , KarlMoritzHermann,GáborMelis,andEdwardGrefenstette.2018. NarrativeQA阅读理解挑战。Transactions of the Association for ComputationalLinguistics,6:317-328.Shimi Salant,Tom Kwiatkowski,Ankur Parikh,Dipanjan Das,and Jonathan Berant. 2016.学习提取性问题回答的循环广度表征。arXiv预印本arXiv:1611.01436。Mike Lewis,Yinhan Liu,Naman戈亚尔,Mar-jan Ghazvininejad , Abdelrahman Mohamed ,OmerLevy , VesStoyanov , andLukeZettlemoyer. 2019. Bart:用于自然语言生成、翻译和理解的去噪序列到序列预训练。林兆江,Andrea Madotto和Pascale Fung。2020. 通过参数有效的迁移学习探索通用生成语言模型。在计算语言学协会的调查结果:EMNLP 2020,第441-459页,在线。计算语言学协会.+v:mala2277获取更多论文Rajarshee Mitra 201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功