图预训练提升AMR解析与生成

25 浏览量更新于2023-12-01 收藏 655KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文用于AMR解析和生成的图预训练白雪峰，陈玉龙，张跃中国浙江大学中国西湖大学工程学院中国西湖高等研究院先进技术研究所摘要可能：domain：polarityAMR转文本摘要抽象意义表示（AMR）突出了图结构中文本的核心语义信息.最近，预先训练的语言模型（PLM）具有以下高级任务：GO-01：arg0男孩这个男孩不能去。AMR解析(a)（b）第（1）款AMR解析和AMR到文本的生成，- 是的然而，PLM通常在文本数据上进行预训练，因此对于建模结构知识来说是次优的。为此，我们研究了图自监督训练，以提高AMR图上PLM的结构意识。特别是，我们介绍了两个图形自动编码策略的图形到图形的预训练和四个任务，以整合文本和图形信息在预训练。我们进一步设计了一个统一的框架，以弥合预训练和微调任务之间的差距。AMR解析和AMR到文本生成的实验表明了该模型的优越性。据我们所知，我们是第一个考虑在语义图上进行预训练的人1介绍抽象意义表示（ AMR;Banarescuet al.（2013））是一种语义结构形式主义。它在一个有根有向图中表示文本的含义，其中节点表示基本的语义单位，如实体和谓词，边表示它们的语义关系。图1（a）中显示了一个示例，图1（b）中显示了相应的句子。作为一种结构化表示，AMR已被证明对NLP任务有用，如文本摘要（Liu et al. ，2015; Liao等人，2018;Chen et al. ， 2021 ），机器翻译（ Song etal. ，2019）、信息提取（Huang et al. ，2016;Zhang and Ji，2021）和对话系统（Bai et al. ，2021年）。有两个基本的NLP任务涉及AMR，即AMR解析（Flanigan et al. ，2014; Konstas et al. ，2017; Lyu and Titov，2018; Guo and Lu，2018;Zhang et al. ，2019 a; Cai和图1：AMR任务的说明：（a）AMR图;(b) 相应的句子。Lam，2020; Bevilacqua等人，2021）和AMR到文本生成（ Konstas et al. ， 2017; Song etal. ，2018; Zhu et al. ，2019; Zhao et al. ，2020;Bai et al. ，2020; Ribeiro et al. ，2021a）。如图1所示，前者将文本输入（例如，句子）转换成相应的AMR结构，而后者将AMR输入转换成传达相同含义的流畅且合乎语法的句子。这两项任务面临的共同挑战是AMR以图形结构的形式存在，这使得神经模型很难在有限的人工数据下学习。最近，大规模预训练的序列到序列（seq2seq）语言模型（Lewis et al. ，2020;Raffel et al. ，2020）已经显示出对上述两个任务有用。其基本思想是将AMR结构线性化为序列形式，以便AMR解析和AMR到文本的生成都可以作为标准seq2seq任务来解决，使用预先训练的语言模型对特定于任务的数据进行微调。以这种方式，在自监督文本到文本（t2t）预训练中学习的语义知识可以有益于文本到图形（t2g）和图形到文本（g2t）转换。AMR的结构化知识可以作为文本语义知识的补充。一个自然的问题是，类似的自监督策略是否可以用于 AMR 图，使得图到图（g2g）去噪自动编码器训练可以在模型在t2g和g2t任务上被微调之前充当对t2t我们调查这个问题arXiv：2203.07836v1 [cs.CL] 2022年3月+v：mala2277获取更多论文在这篇论文中。特别是，有三个感兴趣的问题。首先，如前所述，g2g预训练与t2t预训练是互补的吗？第二，结合t2t和g2g培训的最有效方法是什么？第三，银数据对AMR自我监督培训有用吗？如何最有效地利用这些数据？乘坐BART（Lewis et al. 2020）作为SeQ-to-SeQ模型，我们引入了用于G2 G预训练的两个策略，并提出了四个任务来组合T2 T和G2G训练。为了减少不同预训练任务之间以及预训练和微调之间的差距，我们将所有预训练任务和微调任务统一在一个通用框架中。标准基准测试的实验结果表明：1）图形预训练在最先进的系统上取得了显着的改进; 2）银数据对我们的预训练框架很有用; 3）我们的预训练框架是一种比微调更好的方式来利用银数据; 4）我们的模型在未知领域比现有系统更鲁棒我们的最终模型在解析和生成任务上都给出了最好的报告结果，比以前的最佳结果有很大的改进。据我们所知，我们是第一个考虑语义图上的图到图自监督训练我们在https://github.com/muyeby/AMRBART 发布代码。2相关工作AMR解析。早期的AMR解析系统使用统计方法（Flanigan et al. ，2014，2016; Wang等人，2015a，b）.随着深度学习的发展，各种神经模型被开发用于AMR解析。这些模型可以分为：1）基于神经转换的解析器（Ballesteros和Al-Onaizan，2017; Liu et al. ，2018; Fernan-dezAstudillo et al. ，2020; Zhou et al. ，2021）;2）序列到图解析器（Zhang et al. ，2019a;Lyu et al. ，2020; Cai和Lam，2020）和; 3）序列到序列解析器（Konstas et al. ，2017; Penget al. ，2017，2018; Zhang et al. ，2019b; Xuetal. ，2020; Bevilacqua et al. ，2021年）。近年来，预训练技术大大提高了AMR解析的性能.例如， Lyu 和 Titov （ 2018 ）， Zhang 等人（2019 a，b）以及Cai和Lam（2020）使用BERT（Devlin等人，，2019）用于句子编码;Bevilacqua等人（2021）微调BART用于序列到 AMR生成。 Xu 等人（ 2020 ）在相关的seq2seq学习任务上预训练模型（例如，机器翻译（Bahdanau等人， 2015 ）、句法分析（ Zhu et al. ，2013）），然后对AMR解析进行微调。与这些方法类似，我们考虑使用预训练的模型来提高模型容量。然而，以往的研究主要集中在对AMR句法分析任务中的文本数据训练的语言模型进行微调，而我们则侧重于将结构信息整合到预训练中。此外，我们的方法不需要辅助任务的信息。AMR到文本生成。在粗粒度级别上，我们可以将现有的AMR到文本生成方法分为两大类：图形到序列模型，其采用图形编码器来处理 AMR 图形并使用序列解码器进行生成（ Song et al. ， 2018; Beck et al. ， 2018;Damonte and Cohen ， 2019; Zhu et al. ，2019），以及将AMR图线性化为序列并使用随机初始化将其作为seq2seq问题来解决的序列到序列模型（Konstas et al. ，2017）或预训练模型（Mager et al. ，2020; Ribeiro et al. ，2021a; Bevilacqua et al. ，2021年）。这项工作遵循seq2seq方式，但我们使用集成AMR和文本信息的编码器与我们的工作最接近的是Ribeiro等人（2021 b）将AMR结构整合到预先训练的T5中（Raffel等人）。，2020）使用适配器（Houlsby et al. ，2019）用于AMR到文本生成。然而，他们没有对AMR结构进行预训练，并且他们的方法无法解决解析和生成任务，因为他们需要完整的AMR结构作为输入。图自监督学习。Kipf和Welling（2016）引入了一种变分图自动编码器，以允许对图数据进行自监督学习。Hu等人（2020 a，b）提出了局部和全局学习策略，用于在大规模蛋白质自我网络、学术图和推荐数据上预训练图神经网络。Lu等人（2021）增强胡等人的图形学习策略。（2020年b）具有双重适应性。虽然现有的工作考虑图神经网络，但我们在AMR图上预训练seq2seq模型。此外，我们联合对图和文本进行预训练，以进行图-文本相关性建模。相比之下，现有的工作在图形上预训练模型，并与文本预训练隔离。据我们所知，我们是第一个将AMR视为图预训练目标的人。3方法我们乘坐BART（Lewis et al. ，2020）作为基本的seq2seq模型（第3.1节），并介绍了图预训练策略（第3.2节）和统一的+v：mala2277获取更多论文可能可能可能：domain ：极性：domain ：极性：domain：polarity[面具][面具]负GO-01：arg0负[面具]负男孩（一）男孩（b）（c）图2：两种图预训练策略的图示：1）节点/边级去噪（a→b）; 2）子图级去噪（c→ b）。可以组合两个变换。AMR解析和生成的预训练框架（第3.3节）3.1巴特BART（Lewis et al. ，2020）是预训练的去噪自动编码器，其被实现为基于标准trans-former的seq 2seq模型（Vaswani et al. ，2017）架构。典型地，BART被训练为基于由5个噪声函数生成的损坏的文本来重建原始文本：1）令牌掩蔽。token被[mask]元素随机替换;2）Token Deletion。从输入中随机删除标记; 3）文本填充。文本跨度被一个[mask]标记随机替换文本被分成段，然后打乱; 5）文档旋转。旋转文档以从随机标记开始。在微调中，BART将完整的文本作为输入，并将其映射到特定于任务的输出序列中。我们将AMR图线性化为序列，以便使用seq2seq模型执行AMR解析和AMR到文本的生成。此外，它允许使用BART对AMR结构进行预训练。（2017），我们采用深度优先搜索（DFS）算法，该算法与线性化的自然语言句法树密切相关（Bevilacqua et al. ，2021年）。例如，图1中的AMR图被线性化为：（Z0>possible ： domain （ Z1>go ： arg0（Z2> boy））：polarity（Z3> negative）），其中、和是处理共同引用节点的特殊为了处理这样的AMR符号，我们遵循先前的工作（Bevilac-quaet al. ，2021），并通过添加所有关系和框架来扩展词汇表。此外，为了区分文本和AMR图，我们添加了3.2AMR图我们引入了两种自监督训练策略来进一步预训练AMR图上的BART模型。如图2（a）所示，节点/边级去噪策略鼓励模型捕获关于节点和边的局部知识。图级去噪策略（图2（c））强制模型预测子图，从而促进图级学习。1) 节点/边缘级去噪。我们在AMR节点/边上应用噪声函数来构造噪声输入图。特别地，噪声函数通过掩蔽每个图中的15%节点和15%如图2（a）所示，节点[go-01]和边[：arg 0]被替换为两个[mask]令牌。2) 子图级去噪。这个任务的目的是在给定图的一部分时恢复完整的图我们从图中随机移除子图1，并将其替换为[mask] token（cf. 图2（c））。掩蔽概率为0。三十五3.3统一的预培训框架上述标准预训练和微调策略如表1（a）所示，分别使用和区分文本和图形信息。然而，该模型在预训练期间没有完全学习文本和AMR信息之间的交互。为了进一步解决这个问题，我们考虑了一个统一的预训练框架，该框架将文本和AMR序列组合作为去噪自动编码器的输入。通过这种方式，可以对文本、AMR或两端进行动态掩蔽，以便模型可以学习利用一个信息源来推断另一个。这可以通过强制学习文本和AMR结构之间的对应关系来使解析器和生成模型此外，如表1所示，两个特殊标记和/g>，用于标记分别是AMR图的开始和结束1我们定义一个子图至少有一条边和一个节点。+v：mala2277获取更多论文----阶段任务输入输出（一）STD.P.T.t2t< s>x1，.. [面具].. xn< s>x1，x2，.，xn/s>g=2g< g>g1，.. [面具].. gm< g>g1，g2，.，gm/g>g2t< g> g1，g2，.，gm< s> x1，x2，.，xnt2g< s> x1，x2，.，xn< g> g1，g2，.，gmtg2t< s>x1，. [面具].. xn[mask]< s>x1，x2，.，xnt g2g~~[mask]~~g1，. [面具].. gmg1，g2，.，gm/g>（b）第（1）款统一P.T.tg2t< s>x1，. [面具].. xng1，g2，.， gm< s>x1，x2，.，xn/s>t g2g< s>x1，x2，.， xng1，. [面具].. gm< g>g1，g2，.，gm/g>tg2t~~x1，. [面具].. xn~~g1，. [面具].. gm~~x1，x2，.，xn/s>tg2g~~x1，. [面具].. xn~~g1，. [面具].. gmg1，g2，.，gm/g>tg2t< s>[mask]~~ g1，g2，.，gm< s> x1，x2，.，xn tg2g < s> x1，x2，...，xn [mask]< g> g1，g2，.，gm表1：不同的预训练和微调策略。P.T. =训练前，F.T. =微调。t/g表示originalt e xt/graph. t∈ xt/g∈xt表示噪声t ∈ xt/图。 t/g表示一个空的t e xt/graph。在AMR从/到文本转换的标准预训练和微调之间。具体地，输入和输出格式在预训练中是相同的（即，e. ，t=2t和g=2g），但是在微调（即，t2g和g2t）。这种差距限制了模型在微调阶段充分利用预先训练的知识。统一的预训练框架还可以通过消除预训练和微调之间的输入和输出形式的差异而有利于特定于任务的微调。形式上，将文本和线性化图序列表示为t和g，其中t=x1，x2，.，xn和g=g1，g2，.， gn. t和g分别表示噪声文本和图形，t和g分别指空如表1（b）所示，我们将预训练和微调的输入格式统一到tg。为了保持一致性，所有输入序列都以文本序列开始，以图形序列结束。联合文本和图形预训练。我们介绍-掩蔽率，我们对任务t_g_2t和t_g_2g采用动态掩蔽率p。在步骤t，我们将掩蔽概率P计算为：p= 0。1+ 0。75吨/吨，（1）其中0。1是初始掩蔽率，T表示总训练步长。p随着t的增长而增加，当t接近T时，预训练任务tg2t和t g2g更接近微调任务。统一的预训练和微调。在我们的统一框架中，微调任务可以被视为在原始输入中具有空文本/图形，从而导致用于AMR到文本生成的tg 2 t输入格式和用于AMR解析的tg 2g输入格式。通过这种方式，预训练和微调任务共享相同的输入格式，从而促进从预训练到微调的知识转移。3.4培训为了预训练我们的模型，我们优化了总损失引入4个辅助的预训练任务，以促进图形与文本之间的信息交流。如表1（b）所示，辅助任务为：1) 图增强文本去噪（tg2t），其中AMR图被作为附加输入以帮助掩码文本重建;2) 文本增强图去噪（tgg2g），其中文本有助于掩码图重建;3) 噪声图增强文本去噪（t_rg_2 t），其中基于一对掩码文本和掩码图来生成目标文本4) 嘈杂文本增强图去噪（共计），其计算为：Lt2t=−logP（t|t，g），Lg2g=−logP（g|t，g），Ltg2t=−logP（t|t，g），Ltg2g=−logP（g|t，g），Ltg2t=−logP（t|t，g），Ltg2g=−logP（g|t，g），Ltotal=Lt2t+Lg2g+Ltg2t+Ltg2g+Ltg2t+Ltg2g，（二更）STD.F.T.统一F.T.+v：mala2277获取更多论文LL（t_masked_g_2g），其中基于一对掩码文本和掩码图来生成目标图动态掩蔽率。不同于标准掩蔽（Devlin etal. ，2019年），使用静态哪里t2t，g/2g分别是文本（第3.1节）和图形（第3.2节）的标准预训练损失。tg2t，tg2g，tg2t和分别表示联合预训练损失（第3.3节）+v：mala2277获取更多论文LL数据集AMR2.0AMR3.0New3TLP生物三种常见的自然语言生成方法火车3652155635---确保，包括BLEU （Papineni et al. ，2002年），有效13681722---CHRF++（Popo vic'，2017）和METEOR（Baner-测试137118985271562500jee和Lavie，2005年），用脚本标记表2：基准AMR数据集。在微调方面，培训目标是：Lamr2text= − log P（t|t，g），Ltext2amr= − log P（g|t，g），（三）提供有JAMR（Flanigan et al. ，2014）。4.3比较模型对于AMR解析，我们考虑以下系统进行比较：1）Lyu和Titov（2018; LyuT），通过联合建模比对，概念和关系训练的神经解析器; 2）Zhang等人。（2019 b; Zhang+ ），一种seq2seq方法，哪里amr2text和text2amr是训练损失AMR生成和AMR解析。4实验我们评估了我们的模型的有效性五个基准和比较的结果与国家的最先进的模型AMR解析和生成，分别。除了标准的监督训练设置外，我们还评估了我们的模型在零触发域自适应设置中的鲁棒性4.1数据集表2显示了数据集的统计数据。按照Bevilacqua等人（2021）的方法，我们使用了AMR2.0（LDC2017T10）和AMR3.0（LDC2020T02）。我们并在New3、The Little Prince（TLP）和BioAMR（Bio）语料库上评估模型性能对于预训练，我们还使用由SPRING解析的200k银数据（Bevilacqua et al. ，2021年）。这些数据是从Gigaword（LDC2011T07）语料库中随机抽取的，该语料库与AMR数据共享相同的24.2设置我们遵循Bevilacqua等人。（2021）在预处理和后处理AMR图中，除了省略重新分类步骤之外，该步骤在我们的初步实验中并不一致地改善模型性能我们的模型是建立在香草BART3的基础上。最佳模型和超参数是根据验证集的性能选择的。详细的超参数在附录A中给出。指标. 在Bevilacqua等人（2021）之后，我们通过使用Smatch（Cai和Knight，2013）和其他细粒度指标对AMR解析基准进行评估。4关于AMR到文本，我们使用2https://catalog.ldc.upenn.edu。3https://github.com/huggingface。4更多详情请参阅附录B。通过预测语义关系在心理上建立AMR; 3）Zhou et al. （2020; Zhou+），一种通过显式依赖和潜在结构增强的无对齐器解析器; 4）Cai和Lam（2020 a; CaiL），一种基于图的解析器，其利用图-序列迭代推理机制增强增量序列到图模型 ; 5 ） Bevilacqua et al. （ 2021;Bevilacqua+），一种微调的BART模型，可预测线性AMR图。对于AMR到文本生成，比较的模型是：1)Zhu等人（2019年; 朱+），一种基于变换器的模型，通过图形关系增强自我注意力;2）Bai等人（2020; Bai+），一种图形编码器（Zhu等人，，2019），其具有联合预测目标文本和输入结构的结构化解码器; 3）Mager等人（2020; Mager+），微调的GPT，其基于PENMAN线性化AMR图预测文本; 4）Bevilac-qua等人（2019; 2019），其具有联合预测目标文本和输入结构的结构化解码器; 4）Bevilac-qua等人（2019; 2019），其具有联合预测目标文本和输入结构的结构化解码器; 3）Mager等人（2020; Mager+），微调的GPT，其基于PENMAN线性化AMR图预测文本; 4）Bevilac-qua等人（2019; 2019），其具有联合预测目标文本和输入结构的结构化解码器。（2021;Bevilacqua+），一种微调的BART，基于DFS线性AMR图预测文本; 5）Ribeiro et al. （2021;Ribeiro+），基于PENMAN线性化AMR图的微调BART 为了公平比较，我们忽略了基于T5的模型（Ribeiro et al. ，2021a，b），其具有比BART多大约两倍的参数。4.4开发实验表3显示了不同模型设置下AMR 2.0验证集的结果，其中我们采用了微调的基于BART的模型（Bevilacquaet al. 2021年）作为我们的基准。我们首先研究仅在文本和图形上进行预训+v：mala2277获取更多论文练的有效性。如表3所示，在te xt（tg2t）和图（tg2g）上进行预训练都能得到更好的结果，将它们结合起来可以在两个任务上得到更好的结果此外，添加接头预训练任务提高了性能。特别是，tg=2ggg提供了0。7用于AMR配对，并且tg2t达到BLEU为45. 3用于AMR到文本生成，即2。8+v：mala2277获取更多论文AMR解析AMR转文本设置Smatch BLEU平均值+tg2t，tg2g，tg2g，tg2t83.2 44.0 63.684824240AMR2TextAMR解析（一）8483824644420 10 20 200（b）第（1）款+全部83.6 45.6 64.1表3：AMR 2.0的有效集上的AMP解析（Smatch）和AMR到文本生成（BLEU）性能。设置AMR解析AMR转文本完整模型83.645.6- 节点/边掩蔽83.445.1- 子图掩码83.144.7表4：两种掩蔽策略的影响。高于基线。加上tg2g i，S匹配为83。对于AMR解析，tg2t将基线提高了1。生成7个BLEU点。将t_g~（2g）和t_g ~（2 t）组合，性能提高0. 6和2。分别在AMR解析和生成方面获得5将tg2g和tg2t结合起来也可以观察到类似的趋势。最后，使用所有6个预训练任务，我们的模型达到了 83 的结果。 6 斯马特和 45 。6BLEU，重新安装。我们还研究了两种图自监督训练策略的影响。特别是，我们评估的性能后，删除节点/边缘或子图掩蔽任务独立。如表4所示，在没有节点/边缘级掩码策略的情况下，AMR解析和AMR到文本生成任务当移除子图掩码任务时，性能下降更大，幅度为0。5个匹配和0。9BLEU，分别。图3（a）比较了标准预训练（t2g，g2t）和微调（t2g，g2t）与我们的统一框架的性能。在这两个任务上，统一框架给出了比标准版本更好的结果这证实了我们的假设，即我们的统一框架有助于减少预训练和微调之间的差距。此外，我们发现，通过统一预训练和微调格式，我们的模型在微调期间比基线模型收敛得更快（参见。Ap-附录C.1）。图3：开发结果：（a）标准预训练和微调阶段（std）与我们的统一框架的比较;（b）银数据的影响。图3（b）显示了不同规模银数据的模型性能。即使没有银数据，我们的模型的性能也优于基线，这表明在使用各种辅助任务时，图预训练对下游任务是有益的。当银级数据可用时，AMR解析和生成任务的性能随着银级数据规模的增加而增加，幅度为2BLEU分数。我们还在我们的统一框架下对白银数据的BART 模型进行了微调（即， TG2T 和TG2G），并且发现我们的双重图形和文本去噪任务更有用（参见更多分析和讨论见附录C.2）4.5主要结果AMR解析。表5列出了不同型号在AMR 2.0和AMR 3.0 上的结果。在以往的工程中，Bevilacqua+（2021年，大型）取得了最好的效果，始终优于其他系统。与Bevilac-qua等人（2021）的系统相比，我们的模型在两个数据集的基础和大型设置中均获得了显著（p0.01）更好的Smatch评分。特别是，我们的基础型号比Bevilacqua+（2021，基础）的性能高出0. 9的S匹配点，我们的大型模型获得了85的S匹配。4和84。AMR2.0和AMR3.0上分别有2个据我们所知，这些是最好的报告结果，显示了我们的方法的有效性。此外，Bevilacqua+（2021年，大号）使用银数据进行微调，但并未导致 Bevilacqua+（2021年，大号）的持续改善。相比之下，我们的大型模型给出 1 。 1 和 1. 在 AMR2.0 和AMR3.0 上，分别比Bevilacqua+（ 2021，大号）高2倍这表明我们的预训练框架是一种比微调更好的方法主要stdourBART基82.742.562.6+tg2t82.942.962.9+tg≤2g83.142.662.9+tg2t，tg2g83.1 42.8 63.0+tg2t，tg2g，tg2g83.4 42.8 63.1+tg2t，tg2g，tg2t83.1 45.3 63.2+tg2t，tg2g，tg2g，tg2t83.3 45.0 63.2+tg2t，tg2g，tg2g83.2 43.0 63.1+tg2t，tg2g，tg2t83.1 44.2 63.7+v：mala2277获取更多论文†模型匹配取消实验室。NoWSD Con.Wiki.NER Reent。Neg.SRLAMR2.077.175.585.975.786.052.358.469.8LyuT（2018）74.4Zhang+（2019b）†77.080.078.086.086.079.061.077.071.0周+（2020）†77.580.478.285.986.578.861.176.171.0Cail（2020a）†80.282.880.088.186.381.164.678.974.2Xu+（2020）†80.283.780.887.475.185.466.571.578.9Bevilacqua+（2021，基础）†82.785.183.389.782.290.070.872.079.1Bevilacqua+（2021年，大型）†84.586.784.989.687.383.772.379.979.7Bevilacqua+（2021年，大型）†s84.386.784.890.883.190.572.473.680.5我们的（基础）†83.686.784.090.278.690.071.373.779.5我们的（大）†85.488.385.891.281.491.573.574.081.5AMR3.0Bevilacqua+（2021年，大型）†83.085.483.589.882.787.270.473.078.9Bevilacqua+（2021年，大型）†s83.085.483.589.581.287.171.371.779.1我们的（基础）†82.585.782.989.476.186.869.970.378.2我们的（大）†84.287.184.690.278.988.572.472.180.3表5：AMR 2.0和AMR 3.0上的AMR解析结果。这意味着模型使用20万白银数据进行微调。†表示模型基于预训练模型。每个行块内的最佳结果以粗体显示我还发现，在银数据上进一步微调我们的模型（与预训练相同）并不能带来改进（参见附录C.3）。AMR到文本生成。我们在表6中分别报告了不同系统在 AMR2.0 和 AMR3.0 上的结果。在BART 的帮助下， Ribeiro+ （ 2021 ）和Bevilacqua+（2021，大型）获得了比以前的图到序列和基于GPT的模型更好的结果与Bevilacqua+（2021）相比，我们的模型（基础模型和大型模型）在以下方面的结果显著更好（p <0.001）：白+（2020）Mager+（2020）†34.2 65.7 38.233.0 63.9 37.7所有评估指标的术语。特别是，我们的基础模型实现了与Bevilacqua+（2021年，大型）相当或更好的性能。与Bevilacqua+（2021，大型）s相比，我们的大型模型性能提高了3. 九比二。AMR2.0和AMR3.0分别为7分相似AMR解析，我们观察到，当对银数据模型进行微调时，无法改善AMR到文本生成任务（表6和附录C.3）。Zero-Shot Domain Adaptation. 我们使用在AMR 2.0上训练的模型来获得域外测试集的预测。表7显示了AMR解析和AMR到文本生成任务的结果与域内实验类似，我们的模型比现有方法取得了更好的结果特别是，我们的基础模型可以提供与Bevilacqua+（2021，大型）相当的性能，我们的大型模型获得了最佳报告结果。这表明表 6 ： AMR2.0 和 AMR3.0 的 AMR 文本结果 CH.=CHRF++。MET.=流星这意味着模型使用20万白银数据进行微调。标有的型号基于PLM。每个行块内的最佳结果以粗体显示。为了公平比较，我们报告Ribeiro+（2021）的标记化输出结果。我们的模型对新领域更健壮，这要归功于联合图形和文本预训练。对于不同的域，我们的方法在New3上取得了比其他两个域更大的这是直观的，因为预训练增强了图预训练数据域上的模型表示能力，而New3比其他两个数据集更接近它。此外，Bevilacqua+（2021，大） s在New3（两个任务）和TLP（仅AMR到文本）原因是我们的模型是使用模型BleuCH.MET.去噪的自动编码方式，这是少感，对银（或噪声）数据敏感，而不是微调。我们AMR2.0朱+（2019）31.864.136.4里贝罗+（2021）45.9-41.2Bevilacqua+（2021，基础）†42.772.240.7Bevilacqua+（2021年，大型）†45.373.541.0Bevilacqua+（2021，大）s†45.974.241.8我们的（基础）†46.674.641.4我们的（大）†49.876.242.6AMR3.0Bevilacqua+（2021年，大型）†44.972.940.6Bevilacqua+（2021，大）s†46.573.941.7+v：mala2277获取更多论文Model New3 TLP生物 AMR解析AMR转文本表 7 ： AMR 解析（ Smatch ）和 AMR 到文本（BLEU）的分布外性能代）。相比之下，我们的模型在所有3个领域都有这可能是因为微调导致灾难性的遗忘分布知识（柯克帕特里克等人。，2017年）。4.6图的影响表8显示了图大小、图直径和可重入性对性能的影响。我们将AMR 2.0的测试集分为不同的组，并报告了基线模型的性能改进（Bevilacqua et al. ，2021年）。所有模型均接受AMR 2.0培训我们首先考虑图的大小，它记录了AMR图中的节点数量我们的模型在这两项任务上的表现始终优于基线模型，性能差距在更大的图表上不断扩大。这表明我们的系统在处理更大的图时更强大主要原因是我们的文本和图形联合预训练机制增强了模型捕获文本和图形之间的单词或跨级别相关性的能力，这有助于处理长序列和大型图形。图的深度被定义为最长距离，表 8 ： AMR 解析（ Smatch ）和 AMR 到文本（BLEU）的性能改进。三对父母。可重入性对AMR解析和AMR到文本任务都造成了困难（Damonte和Cohen，2019; Szubert等人。，2020）。重复次数越多，图表就越难理解。当输入图的重入度小于4时，我们的方法在两个任务上都给出了显著（p0.01）更好的结果对于具有多于4个重入点的图，所提出的模型为0。4在AMR到文本生成任务上优于基线模型，在AMR解析任务上与基线模型相当这意味着我们的系统具有更好的学习可重入性的能力。4.7为例表9给出了AMR解析的两种情况，模型输出由我们的模型和基线模型生成，gold输出给出了相同的输入句子。如第一种情况所示，基线模型省略了语义单位相反，我们的系统保留了“硬”的概念在第二种情况下，AMR节点和根节点之间的距离。具有更深深度的图具有更多的长程依赖性。对于AMR解析，我们的模型在前两组图上给出了比基线模型更好的Scmatch，并且得分相当在深度大于6的图上。对于AMR生成，我们的模型在所有图上都比基线模型持续改进，并且在更深的图上改进更大这说明我们的模型更适合学习更复杂的图形。我们的图掩码策略可以训练模型学习子图和剩余图上下文之间的关系，从而更容易理解深度图。可重入性是具有多个节点的节点数基线输出包括循环子图（即，，（z1 harm-01：ARG 1 z1）），这与AMR应该是非循环的语法相反。我们的系统给出了一个有效的AMR图，它与黄金图在语义上是相似的。表10列出了我们的AMR到文本模型和基线模型的两个AMR图和模型输出。在第一种情况下，虽然基线生成了一个流畅的句子，但它忽略了“有目的”的概念在第二个AMR图中，然而，在基准产出中图形大小1-10（522）11-20（556）>20（293）AMR解析+0.3+1.0+0.8AMR转文本+0.9+3.2+2.1图形深度1-3（422）4-6（667）>6（282）AMR解析+0.8+0.90.0AMR转文本+1.2+2.3+2.8重入0（622）1-3（712）>4（37）AMR解析+1.1+0.60.0Bevilacqua+（2021年，大型）73.777.359.7Bevilacqua+（2021，大）s71.877.559.5我们的（基地）74.477.858.8我们的（大）76.979.863.2Bevilacqua+（2021年，大型）38.825.418.7Bevilacqua+（2021，大）s38.225.119.4我们的（基地）41.026.416.9我们的（大）44.829.120.7+v：mala2277获取更多论文文本#1：黄金：（g /get-03）：ARG1（a）和：op1（k /keep-02：ARG1（s /strong-02））：op2（k2 /keep-02：ARG 1（c /随身携带-02：ARG1（l /live-01）：ARG2（h /hard-02））基线：(z0/get-03：ARG 1（z1 /和：op1（z2 /keep-02：ARG1（z3 /strong-02））：op 2（z4 /随身行李-02：ARG1（z5 /life）我们的：(z0/get-03：ARG 1（z1 /和：op1（z2 /keep-02：ARG1（z3 /strong-02））：op2（z4 /keep-02：ARG 1（z5 /随身携带-02：ARG1（z6 /life）：ARG2（z7 /hard-02：ARG1 z1））自我伤害是上瘾的，但你可以克服它。黄金：（c /对比-01：ARG1（a /addictive-02：ARG0（h /harm-01：ARG1（s /self）：ARG 2（p /可能-01：ARG1（o /overcome-01：ARG 0（y /you）：ARG1 h）基线：(z0/adjace

下载后可阅读完整内容，剩余1页未读，立即下载