预训练语言模型生成结构化图表的能力和对比学习

52 浏览量更新于2023-11-30 收藏 1017KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文同理心不属于社会集体主义能够增加同情心不是对社会来说很可怕基于预训练语言模型的解释图生成--基于对比学习斯瓦尔纳迪普·萨哈·普拉蒂克·亚达夫·莫希特·班萨尔北卡罗来纳大学教堂山分校{swarna，prateek，mbansal}@cs.unc.edu摘要预先训练的序列到序列语言模型在许多自然语言生成任务中取得了广泛的成功。然而，分析它们生成结构化输出（如图表）的能力的工作相对较少。与自然语言不同，图在下游NLP任务的上下文中具有不同的结构和语义属性，例如，生成一个连通且无环的图可以归因于其信仰：集体主义对社会是可怕的。辩君：集体主义增加同理心。站位：反击T5生成图结构和语义结构约束，而图的语义可以指边的意义黄金图不正确表示两个节点概念之间的关系。在这项工作中，我们研究了预训练的语言模型，这些模型以端到端的方式生成解释图，并分析了它们学习这种图的结构约束和语义的能力。我们首先表明，在有限的监督下，预先训练的语言模型通常会生成违反这些约束或语义不一致的图。由于管理大量的人工标注的图是昂贵和繁琐的，我们提出了简单而有效的方法，通过节点和边编辑操作，导致结构和语义的正和负图的图扰动。接下来，我们在不同的对比学习模型中利用这些图，并使用 Max-Margin 和InfoNCE损失。我们的方法导致显着的改进，在结构和语义的解释图的准确性，也推广到其他类似的图形生成任务。最后，我们证明了人为错误是对比学习的最佳负面因素，并且自动生成更多类似人类的负面图可以带来进一步的改进。11介绍预训练的序列到序列语言模型（PLM），如BART（Lewis et al. ，2020年）和1我们的代码和模型可在https：//github.com/swarnaHub/ExplagraphGen网站。信念：由于快餐油腻和肥胖，禁止他们将控制肥胖。辩君：麦当劳有沙拉。站位：反击沙拉的一部快餐的一部麦当劳没有上下文油腻肥腻快餐能够有背景油腻和沙拉肥育部分禁止他们原因控制肥胖Gold GraphT5生成图语义不正确图1：来自Expla-Graphs的两个代表性示例（Saha etal. ，2021 b），示出了信念、论点、立场、黄金解释图和T5生成的解释图。虚线节点表示常识节点，虚线边是不正确的边。第一个生成的图在结构上是不正确的，第二个图在语义上是不正确的。T5（Raffel et al. ，2020年）已经导致了许多自然语言生成任务（如文本摘要和机器翻译）的显著进步。这些模型在大量文本数据上进行了自我监督的预训练，从而使它们能够为下游任务构建连贯的自然语言句子。这就提出了一个问题，即在自由形式的自然语言数据上训练的预先训练的语言模型是否也可以适应自己以生成结构化的输出，如图形。图在NLP任务中很常见集体主义能够增加同情心原因改善人际关系不是对社会来说很可怕arXiv：2204.04813v1 [cs.CL] 2022年4月+v：mala2277获取更多论文涉及以知识库的形式表示结构化知识（Guarino和Gia-retta，1995），从文档构建事件链（Chambers和Jurafsky，2009），或编码推理链、推理或演绎证明的最新工作（Saha等人，，2020; Tafjordet al. ，2021; Dalvi et al. ，2021年）。图形不同于自由形式的自然语言。在NLP的上下文中，自然语言图（由文本节点和边组成）可以具有不同的结构和语义属性。例如，考虑最近提出的常识解释图生成任务，如图1所示 1（Sahaet al. ，2021b）。每个例子都显示了一个信念，一个论点和一个解释图，解释论点如何支持或反驳信念。这些解释图对结构化知识进行编码（用常识增强），并由作为节点的概念和作为边的来自ConceptNet（Liu和Singh，2004）的关系组成例如，第二图编码的知识是从以前的工作中，结构约束强制图被连接为有向无环的，并且节点至少包含来自信念的两个概念和来自参数的两个概念。语义方面处理常识，并评估每条边是否表达了连贯的关系知识，以及整个图是否解释了立场。根据Saha et al. （2021b）中，我们将图表示为由连接的边组成的字符串，我们观察到，虽然适度的监督使模型能够学习有效的图编码，但图经常违反特定于任务的结构约束（如连接性）。例如，图中的第一个例子。图1显示了由T5生成的图，该图是断开的，因此在结构上是不正确的。此外，对于结构上正确的图的部分，模型也通过推断概念之间的错误或不一致的关系而图1所示的两个T5生成的图都包含不连贯或非常识性的边缘（由虚线箭头标记），如基于这些观察，我们研究了以端到端方式生成解释图的PLM，并分析了它们学习结构约束的能力，以及这些图的语义。虽然改进图生成的结构和语义方面的一般方法可以是通过使用更多人工注释的图进行大规模训练，但由于与复杂的数据创建任务（如图注释）相关联的认知负荷，在大多数实际场景下这是禁止的（ Dalvi et al. ， 2021; Saha etal. ，2021b）。因此，我们提出了简单而有效的图扰动方法，执行各种节点和边添加，删除和替换操作，以构建结构和语义上的正（正确）和负（不正确）图。总的来说，我们利用三种类型的负图（合成结构，合成语义和人类创建的语义）并开发多种对比学习模型（ Hjelm et al. ， 2018; Chen et al. ， 2020a;Khosla et al. ，2020; Gunelet al. ，2020），用于有效地区分正确和不正确的图。我们的第一种方法是生成和细化模型，首先生成一个初始图，并使用另一个T5模型进一步细化它接下来，我们提出了两个改进的模型-一个在最大边际公式中使用负图，另一个使用InfoNCE的正图和负图（van den Oord et al. ，2018年）对比亏损。在两个现实世界的任务解释图生成和时态图生成，不同的节点和边的语义，我们观察到，我们提出的方法和图扰动技术推广良好，并导致改善图的结构和语义准确性对不同类型的否定图的进一步分析表明，人为错误图是最难、最多样化的，因此是对比学习中最好的否定类型。因此，我们还开发了自动生成更多类似人类的语义否定图的方法我们将我们的贡献总结如下。• 我们通过预训练的语言模型详细分析了端到端解释图生成的图• 我们提出了简单而有效的图扰动技术，用于构造正图和负图（包括。人为错误），并将它们用于不同的图对比学习模型。• 我们的方法导致解释图的结构和语义准确性的显著改善，并且还推广到其他类似的（例如，时间）图形生成任务。+v：mala2277获取更多论文2相关工作从语言模型生成图形。从语言模型生成图的代表性工作包括知识图完成模型，如 Comet（ Bosselut et al. ， 2019; Hwanget al. ，2021），其微调GPT（Radford et al. ，2019;Brown et al. ，2020）和BART（Lewis et al. ，2020）、事件影响图的生成（Tan-don et al. ，2019; Madaan et al. ，2020），部分有序脚本（Sakaguchi et al. ，2021）、时间图（Madaan和 Yang ， 2021 ）、蕴涵树（ Dalvi et al. ，2021），证明图（Saha et al. ，2020; Tafjord etal. ，2021; Saha et al. ，2021 a）和常识解释图（Saha et al. ，2021b）。语言任务，如句法分析（ Zhou et al. ， 2020; Mohammadshahi 和Hender-son ， 2021; Kondratyuk 和 Straka ，2019）和语义解析（Chen et al. ，2020b; Shinet al. ，2021）也使用了语言模型。还有大量的工作是建立生成模型来学习无条件图分布（Youetal.，2018;SimonovskyandKomodakis ， 2018; Grover et al. ， 2019;Liao et al. ，2019; Shi* 等人，2020），而没有任何附加到图的语义。我们的新颖之处在于，使用预先训练的语言模型，并通过自主学习来改进两个下游NLP任务的图生成的结构和语义，从而首次系统地分析了它们。数据扩充和对比学习。 NLP 的数据增强（Hedderich et al. ，2020; Feng et al. ，2021;Chen et al. ，2021）已经成为低数据设置中的强大工具，从其早期使用同义词替换（ Kolomiyets et al. ， 2011; Wang 和 Yang ，2015）到最近的扰动隐藏表示的方法（Miyatoet al. ，2016; Shen et al. ，2020）。对比学习，超越其在学习鲁棒图像表示中的历史用途（Chopra et al. ，2005; Hadsell et al. ，2006;Gutmann andHyväri-nen ， 2010; Hoffer andAilon，2015; Hjelm et al. ，2018; Chen et al. ，2020a; He et al. ，2020年）已经在监督场景中进行了探索（ Khosla et al. ， 2020; Gunel etal. ，2020年）和NLP，在训练自我监督的语言模型（方等。，2020），学习句子表征（Gao et al. ，2021）、文档聚类（Zhang etal. ，2021）、摘要（Liu和Liu，2021; Cao和Wang，2021）和通用文本生成（Lee et al. ，2020）。它也被用于无条件图表示学习（Youet al. ，2020;Hassani和Khasahmadi，2020; Zhu等人，2021年）。我们遵循这一丰富的工作路线来探索它们在低资源环境中从预训练的语言模型生成监督图任务中的适用性。生成性常识推理。虽然训练常识推理任务本质上是区分性的（Zellers et al. ，2018; Talmor et al. ，2019; Sap et al. ，2019;Bisk et al. ，2020; Sakaguchiet al. ，2020;Talmor等人，2021年），近期聚焦关于生成性评价的研究已经导致了探索非结构化常识句子生成的任务和基准的发展（Lin et al. ，2020）、事件影响图生成（Madaanet al. ，2020）、常识解释图生成（Saha et al. ，2021b）等。我们用两个图生成任务进行实验，主要集中在ExplaGraphs（Saha et al. ，2021 b），因为在基本的结构约束和处理常识的语义方面有明显的区别3动机和背景我们感兴趣的主要任务是最近提出的常识解释图生成任务，称为ExplaGraphs（Saha et al. ，2021b）。节中6.4，我们还实验了另一个相关的任务时间图生成（Madaanet al. ，2020）。在这两个任务中，结构方面处理满足图上某些特定于任务的约束（如连通性），语义方面处理有意义的边的构造（遵循常识）。下面我们简要讨论ExplaGraphs，并分析预训练的语言模型生成解释图的能力。ExplaGraphs（Saha et al. ，2021b）。在这个任务中，给定一个信念和一个参数，代理必须执行两个子任务-预测立场（支持/计数器），并生成一个解释图解释立场。解释图是结构化的解释，它捕捉了信念和论点之间的明确的推理链通常，解释图是一个连接的DAG，其中节点作为概念，边作为两个概念之间的常识关系（见图1）。这些概念要么是信念的一部分，要么是论证的一部分（用实线框表示），要么是任何外部常识短语的一部分（用虚线框表示）。图中的每条边形成一个连贯的句子，当作为一个整体阅读时，+v：mala2277获取更多论文形成推理结构，解释为什么论点支持或反驳信念。Saha等人（2021 b）通过定义两个准确性度量来评估解释图-（如果一个图满足以下约束，它就被认为是结构正确的：（1）它是连通的，（2）它是一个DAG，（3）边关系属于一个预定义的列表，（4）至少有两个来自信念的概念和两个来自论证的概念。如果满足所有这些约束，则接下来通过基于模型的度量来评估图的语义正确性（ Saha 等人，，2021b）。它的工作原理是，如果从信念推断出的立场和解释图匹配黄金立场，则解释图在语义上是正确的有关所有评价指标的详细描述，请参阅附录A基线T5模型。根据先前的工作（Sahaet al. ，2021 b），我们生成解释图作为事后解释的信念，论点和预测的立场的条件。2姿态预测模型是微调的RoBERTa模型（Liuet al. ，2019年），我们保持与以前的工作不变，并专注于图形生成子任务。我们通过利用编码器-解码器预训练的语言模型 T5 （ Raffel et al. ，2020）。模型的输入是连接的信念，论点和立场以及前缀图被编码为级联括号边，其中边根据节点的深度优先搜索（DFS）顺序排序。虽然我们选择T5是因为其优越的性能（Saha etal. ，2021 b），我们不进行任何模型特定的假设，并且可以经由任何编码器-解码器风格的预训练语言模型（例如，使用BART的结果见附录ET5基线分析。我们在表1中分析了T5生成的解释图的质量。我们将训练数据的量从500到2368个样本（全部）变化，并报告StCA和SeCA以及先前工作中引入的其他指标，如Graph-BertScore （ G-BS ）（ Saha et al. ，2021b）。2 这些是合理化模型（Rajani et al. ， 2019; Haseetal. ，2020年），首先预测的立场，其次是图表。虽然图形也可以先生成，然后是立场，我们用一个模型族进行实验。计数StCA ↑SeCA ↑G-BS ↑GED ↓EA ↑500 42.5 20.7 36.3 0.68 20.41 000 49.2 23.7 42.2 0.63 26.21500 50.7 33.2 43.4 0.61 28.22368 51.0 34.7 43.9 0.61 29.5表1：T5-large在ExplaGraphs测试集上具有不同量的训练数据的性能虽然结构准确性随着训练数据的增加而提高，但增益很快饱和，即使在整个数据上训练之后，我们也发现有很大一部分图违反了结构约束。我们注意到，T5的生成中有91%生成的字符串可以被解析成图形结构（没有任何后处理），这表明T5能够从相当少量的监督中学习图形编码然而，它未能满足各种结构约束请注意，这些约束没有编码在模型中，因此很难从有限的监督中学习。在结构正确的图的分数上，该模型会产生进一步的语义错误，35%的较低SeCA证明了这一点。在图1中，我们展示了由T5生成的结构不正确和语义不正确的图的示例。总的来说，这些结果表明，有一个显着的改进范围都在图结构和语义，从而激励我们开发的方法，旨在改善这两个方面的设计选择。4图扰动大多数为下游NLP任务收集人类注释图的先前工作已经发现这样的收集过程是相当昂贵和乏味的（Tandon et al. ，2019; Dalvi et al. ，2021;Saha et al. ， 2021b ）。例如， Saha et al.（2021 b）仅在多轮细化后才获得高质量的数据，Dalvi等人（2021）采用经过培训的专家注释器进行蕴涵树构建。相应的数据集也相对较小（2- 3 k），因此限制了大规模训练的前景因此，我们对改进解释图生成的方法是通过数据增强技术，扰动人类策划的图，以构建积极和消极的图。如前所述，我们希望构建能够更好地学习+v：mala2277获取更多论文图2：我们基于T5的对比学习框架，用于使用正扰动图和三种负扰动图生成图。结构图约束及其语义。4.1正图扰动一个简单的方法来增加现有的训练数据是创建合成的正图。这些图应该被创建为使得所有任务特定的约束在扰动时继续保持例如，在一个示例中，移除使图断开的节点是禁止的动作。因此，我们选择不属于信念或论点的节点（概念）（也称为常识节点），并将它们替换为与原始短语同义的短语。为了做到这一点，我们从概念中选择具有形容词、名词、动词或动词的POS标签的词，并将它们替换为 Wordnet（Miller，1995）中的同义词，其中它们的word2vec表示的余弦相似性（Mikolov et al. ，2013）是最高的。图2示出了正图扰动的示例，其中节点请注意，我们的节点替换操作将始终导致结构上相似的图。自动构造结构多样的正图是一个具有挑战性的问题，我们留给未来的工作。4.2负图扰动为了使模型能够从明确的硬否定中学习，我们构建了三种不同类型的图-用于学习图约束的综合构造结构否定和用于学习图约束的综合构造结构否定。3我们也尝试了类似的反义词替换操作。然而，他们往往导致语义不一致的图表。例如，在一个示例中，A导致B并不总是意味着A不导致B或A不导致B。和人类创造的语义否定来捕获相当大的语义不正确的图形空间下面我们讨论这些图的构造合成结构负图（SySt）。如前所示，生成的解释图中的一个常见错误来源是违反结构约束。为了能够学习这些约束，我们通过对每个地面实况图执行以下扰动来生成四种类型的负图：（1）随机地重新移动边，使得结果图变得断开，（2）在两个随机选择的节点之间添加边，使得结果图变得循环，（3）随机地添加并重新移动一个边，使得结果图变得既断开又循环，（4）随机地移除节点，使得结果图包含来自信念或论点的少于两个概念。图2示出了作为结构负图的一部分创建的断开图的示例。合成语义负图（SySe）。我们还构造了语义不正确的否定解释图。虽然之前的负图（SySt）类别捕获了结构约束，但SySe捕获了图中的关系知识。语义不正确通常源于不符合人类常识的不恰当关系（我们通过选择任意数量的边，然后用其他关系代替关系来创建这样的负图图2示出一种语义否定图，其中用虚线标记的关系被扰乱。人类创造的语义否定图（HuSe）。语义上不正确的图的空间是相当大的，并且为了用更硬的结构多样的否定来增强我们的合成否定图，我们利用来自先前工作的人类创建的不正确的图（Saha et al. ，2021b）。4.人类会犯细微的错误，因此他们是对比学习的理想负面候选人。ExplaGraphs是通过迭代框架构建的，在该框架中，图被迭代地细化（最多两次），直到它们被验证为正确。我们把这些细化的图当作负数。具体地说，在两轮中，如果初始图G14由Saha et al.公开发布。（2021b）在https：//github.com/swarnaHub/ExplaGraphs/blob/main/data/refinement_graphs_train.tsv。“生成解释图，信仰：禁止捕鲸是人道的。[SEP]辩君：禁止捕鲸会伤害劳动力，这对人民来说是不人道的行为。[SEP]姿态：反击“积极T5底片禁止捕鲸能够伤害劳动力原因失去工作不是取缔取缔捕鲸capable of的反义词伤害伤害劳动力，劳动力原因失业是a不是a人道人道人道禁止捕鲸能够伤害劳动力原因营业不是用于、捕鲸的一部分占领不是欲望劳动力禁止有财产不人道人道黄金图合成正图合成语义（SySe）人类语义学合成结构（SySt）+v：mala2277获取更多论文GGGG我我 i=1我<我我i=1我（g）i=1LMM=λmax（0，logPθ（y |y、x）（n）（n）依次细化为图2和3，则1和2被认为是负图。不像SySe只会扰乱关系，这些否定词在结构上是多样的（见图1）。2）并且不仅在每条边的级别而且对于整个图捕捉语义（例如，可能会细化图表，因为它没有解释立场）。请注意，人类创建的图只能是语义上不正确的，因为它们的结构正确性在施工过程中已经得到保证。5扰动图接下来，我们提出了不同的方法，利用这些积极和消极的图形解释图生成。我们的模型要么只使用正图作为简单的数据增强，要么只使用最大边际模型中的负图，要么同时使用生成细化模型和对比模型。5.1正图扩充在第一种简单的方法中，我们使用合成创建的正图来增强训练数据，并重新训练基线T5模型。5.2最大间隔图生成模型我们的下一个模型利用了最大边际公式中的负扰动图在训练期间，给定（信念、论点、立场）上下文x、地面真值图G（g）和否定图G（n），线性化为单词序列{y}k和5.3生成细化图形生成ExplaGraphs是使用“细化”阶段构建的，其中由人类验证者标记为不正确的初始构建的在这里，我们在模型的帮助下模拟图形细化阶段。具体来说，我们的方法是一个2阶段的流水线-精炼器也是一个T5模型，在第2.2节中描述的所有正图和负图上使用前缀“精炼解释图”进行微调四、请注意，我们的方法在两个方面与实际数据收集过程不同。与人工注释的图不同，人工注释的图只针对语义正确性进行了细化，模型生成的图可能在结构上和语义上都不正确。其次，我们的方法不涉及图形验证阶段，因此，细化模型作用于第1阶段生成的所有（正确和不正确）图形，因此使用正确和不正确的图形进行训练5.4对比图生成模型我们的对比图生成模型（图2）也利用了正图和负图，但不是在2阶段生成细化模型中这样做，而是使用对比学习框架{y（n）}l我分别定义损失函数（Khosla et al. ，2020; Gunel et al. ，2020）。给予L作为标准交叉的线性组合Ground-truth graphG（g），positive graphG（p）and a熵损失LCE和最大余量损失LMM，负图集{G（n）}M，对比学习-定义在图的wordy（g）i i=1我以及n∈G_i_v_e图的word_y（n）。LCE=−lo gPθ（y（g）|y（g），x）我ing的目的是学习图表示，使得黄金图类似曹和Wang（2021），我们使用解码器的最后一层，（g）（g）我我我-logPθ（yi |y< i，x）+β）T5作为图中每个标记的表示，并通过对组成标记表示求平均来获得图表示。让图表示由h（g），h（p）和L=LCE+αLMM{h（n）}M. Giv enH（g）={h（p）}S{h（n）}M，我们的L其中α和β（margin）是超参数。作为如前所述，基线模型通常使在区分积极和消极关系（总损失结合交叉熵损失CE和InfoNCE对比损失（van den Oord等人，2018）LCL如下所示。exp（sim（h（g），h（p））/τ）图和最大边际损失分量facili-学习他们之间更好的界限。LCL=−loghi∈H（g）exp（sim（h（g），hi）/τ）L= LCE+α LCLi=1+v：mala2277获取更多论文SA↑StCA↑SeCA↑G-BS↑GED↓EA↑T5-Base（Saha et al. ，2021b）87.238.719.033.60.7120.8T5-大号87.251.034.743.90.6129.5生成优化87.252.537.745.30.6030.0阳性数据8月87.254.541.546.90.5830.2最大保证金87.256.743.548.60.5730.5对比87.260.542.552.10.5233.1上界91.091.083.571.10.3846.8表2：在ExplaGraphs上跨所有度量的所有模型的比较（Saha et al. ，2021b）测试集。SeCA的改善具有统计学显著性（使用Bootstrap检验计算（Efron和Tibshirani，1994）），p<0。005.其中α和温度τ是超参数，sim（）表示图形表示之间的余弦相似性函数。6实验6.1不同模型对图的结构和语义准确性的影响在表2中，我们比较了第2节中描述的各种建模5及其对生成图的结构和语义正确性的影响。虽然我们感兴趣的主要指标是图结构准确性（StCA）和语义准确性（SeCA），但遵循先前的工作（Saha et al. ，2021 b），我们还报告了姿态准确度（SA）、图形-伯特分数（G-BS）、图形编辑距离（GED）和边缘准确度（EA）。模型大小和训练数据的影响。T5-大号模型使用与Saha等人（2021 b）中试验的T5-Base模型相同的设置我们观察到，使用更大的T5模型将StCA提高了12%，SeCA提高了16%。这一发现与其他常识推理任务（Lourie et al. ，2021; Elazar et al. ，2021），其还示出了微调较大的语言模型通常导致更好的性能。结合表1中报告的结果，我们得出结论，解释图生成的大部分改进来自于增加训练数据和使用更大的模型。鉴于其优越的性能，我们建立我们提出的模型T5-大。生成优化模型的结果。生成细化模型（第5.3）改进了所有度量;然而增益很小。请注意，该模型细化所有图（正确或不正确），并可能导致已经正确的图在细化后变得在实践中，我们观察到大多数图在细化后没有太大变化，我们认为这是由于模型正图扰动的影响。在重新训练T5时，用正扰动图增强（第二节）。5.1），我们观察到它在结构和语义准确性方面都比T5和GenerateRefine请注意，通过构造，正图仅在常识概念（而不是信念或论点的一部分）方面有所不同，同时保持结构完整。因此，模型对图的语义有更多的监督，而不是结构约束。这反映在SeCA的较大改进结构正确的正图也加强了模型负图形扰动的影响。Max-Margin模型（SEC）5.2）利用所有结构和语义上不正确的图，并在StCA和SeCA中分别获得比基线T5模型高6%和9%的改进。该模型通过相关监督隐式地学习结构约束，基于边缘的损失使其能够学习正确和不正确图之间的更好边界。同样，语义扰动图提高了模型对概念间关系Max-Margin模型优于Pos Data Aug模型，因为前者可以访问结构和语义监督，而后者只使用结构相似的图进行增强正负图形扰动对对比学习的影响。对比图生成模型（第二节）5.4）杠杆化正图和负图，并将StCA提高到60%，SeCA与最大利润模型相当与T5相比，StCA和SeCA的总体改善分别为9%和8%我们假设，由于结构相似的阳性反应，+v：mala2277获取更多论文集体主义能够增加同情心原因改善人际关系不是对社会来说很可怕集体主义能够增加同情心是一好事没有上下文对社会来说很可怕黄金图对比图∼StCA↑SeCA↑G-BS↑GED↓EA↑T5-大号46.5 31.6 36.8 0.66 26.7信仰：集体主义对社会是可怕的。辩君：集体主义增加同理心。站位：反击表3：消融研究显示了不同类型的阴性图对ExplaGraphs开发集的影响。有效期↑StCA↑G-BS↑T5-底座88.8 88.7 54.4最高保证金89.1 87.7 55.7对比97.5 96.9 57.2表4：用于时间图生成的T5、最大边缘和对比模型的比较。集体主义能够增加同情心同理心图表。这可以通过引入结构上更多样化的图来潜在地改进最后，不是对社会来说很可怕不属于社会我们最好的SeCA远非完美和重要未来的工作可以在改进图语义方面进行。负图T5生成图结构和语义不正确最大边际图和人类的评价是在最大限度的保证金因为它的SeCA稍高。6.2图语义的自动评估图的语义正确性是具有挑战性的。我们进行了人体评估，以进一步验证我们的发现。我们比较了T5和Amazon Mechanical Turk上的Max-Margin模型生成的图，其中三个注释器选择哪个图更好，或者它们是否基本相似（附录F中的说明）。为了公平比较，我们只评估那些两个模型都预测正确立场并且图表结构也正确的样本。事实上，当两个图在结构上都正确时，这让我们可以单独评估语义方面。通过对150个样本进行多数投票，我们观察到，与T5模型相比，我们的Max-Margin模型6.3负图在表3中，我们显示了不同类型的负图的效果。我们通过利用合成结构（SySt），合成语义（SySe）和人类创建的语义（HuSe）图与最大边际图生成模型来比较ExplaGraphs验证集所有类型的阴性图均导致SeCA持续增加。利用人类创造的负面图导致SeCA获得更大的收益，因为图3：解释图的定性分析。这些图中的多样性和多样性，因此是对比学习的最佳候选者。6.4推广到其他图形生成任务我们还通过实验时间图生成任务（Madaan和Yang，2021）来测试构建结构和语义扰动图用于对比学习的通用性，该任务需要从文档中构建时间图图中的节点是来自文档的事件，边是事件之间的时间按照我们的总体目标，即用有限的数据改进图与ExplaGraphs类似，我们通过扰动时间关系来创建具有断开和循环图的结构例如，在一个示例中，如果边关系是“be-fore”，我们用“after”替换它。我们通过将“Abefore B”这样的边替换为“B after A”来构造正图在表4中，我们报告了结构正确性准确性（StCA）（连接DAG的百分比）和Graph-BertScore（G-BS），用于测量黄金图的近似语义正确性。我们观察到，我们的对比模型不仅生成了更有效的图形编码，而且还将StCA提高了8%，G-BS提高了3%。集体主义的同义词增加共情不是对社会来说很可怕+ SySt50.234.140.70.6427.4+ SySe50.735.140.80.6327.3公司简介49.538.439.40.6426.1+v：mala2277获取更多论文StCA↑SeCA↑G-BS↑GED↓EA↑SySt + SySe + HuSe 49.5 38.4 39.4 0.64 26.1SySt + SySe + HuSe +HuSe-Gen（IP）53.5 38.7 42.1 0.62 28.1SySt + SySe + HuSe +HuSe-Gen（AE）52.0 40.2 41.3 0.62 28.2表5：使用额外的类人语义否定图训练Max-Margin模型对ExplaGraphs开发集的影响。IP和AE是指用于过滤生成的负片的两种阈值技术。6.5生成图图3显示了由不同模型生成的图形示例（更多示例见附录F）。与T5不同，我们的模型虽然我们的模型生成了更正确的图，但它们缺乏结构多样性- 节点在线性链中），这与T5模型中的75%相当。这可以归因于我们的结构相似的正图，因为模型没有获得足够的监督来生成不同的图。结构多样性不是图正确性的衡量标准;然而，就像不同的文本生成一样（Vijayakumaret al. ，2018），生成多样化的图形是未来工作的一个有趣方向。6.6生成类人语义否定（HuSe-Gen）在ExplaGraphs中，人工创建的阴性样本占最初构建的图形不正确并进行了改进的样本的38%此外，我们在上一节中看到，人为错误图是对比学习的最佳负面候选者（这是直观的，因为专家人类注释者所犯的棘手和微妙的错误会成为对比学习模型学习的一些最难的负面因素/干扰因素）。因此，在最后一节中，我们进一步探索是否也可以自动模仿并为剩余样本生成更多这样更难的人类不正确的图。我们的方法包括以下步骤。人性化的负边缘生成。我们首先微调T5模型，该模型以信念、论点和立场为条件，以生成一组不正确的边（这是存在于不正确的图中而不是存在于细化的图中的边的集合）。人性化的负面图构建。然后，将所生成的不正确边的集合添加到正确图以构建不正确图，使得其在结构上是正确的，并且因此代表类人错误图。过滤高质量的负图。康-如果负边缘生成模型是准确的并且生成实际上不正确的边缘，则负模型将仅受益于这些负因此，我们通过以下两种技术来控制生成的不正确图(a)通过可接受边（AE）的分数来保持可接受性：我们说，如果生成的不正确边不是正确图的一部分，则它是可接受的，并且可以在不违反任何结构约束的情况下添加到正确图中。我们计算每个生成的负图的可接受边缘的分数，并仅选择AE高于特定阈值δ的那些图。直观地说，这确保了生成的边中有很大一部分实际上是不正确的，因此当添加到正确的图中时，将导致足够不同的（类似人类的）不正确的图。（b）通过图的不正确概率（IP）进行验证我们使用SeCA度量模型（将图分类为支持、计数器或不正确类）来计算生成的图不正确的概率，并选择那些高于不正确概率的特定阈值γ我们设置δ=0。4，γ=0。5（在开发集上进行了调整），并使用这些额外生成的类人负图来训练Max-margin模型。如表5所示，这些方法导致了对仅使用人类创建的负图的进一步改进。这些最初的有希望的结果，模拟硬/棘手的人为错误作为对比学习的强烈负面影响，将有望导致进一步的未来工作在这个有趣的方向。7结论我们提出了一个从预训练语言模型生成端到端解释图的图结构和语义的实证研究，并表明生成的图通常违反结构约束或语义不正确。我们提出了对比学习模型，利用简单而有效的图扰动方法，并推广到类似的图生成任务，从而显着提高了图生成的结构和语义准确性+v：mala2277获取更多论文伦理考虑从伦理学的角度来看，我们提供了一个简要的概述，并在整个论文和附录中展示了我们的模型所训练的数据集的样本解释图的生成提高了神经元感知推理系统的可解释性，并可证明在理解和调试此类模型方面是有效的。因此，我们预计我们的工作不会产生任何重大风险或负面社会影响然而，与任何其他ML模型一样，我们的模型生成的图可能并不总是完全准确的，因此在实际应用中应谨慎使用。确认我们感谢审阅者提供的有用的反馈，感谢注释者付出的时间和努力。这项工作得到了DARPA MCS Grant N66001-19-2-4031，NSF-CAREER Award 1846185 ， DARPA YFA 17-D17 AP 00022，ONR的授予N 00014 -18-1-2871，微软研究员奖学金和Munroe Rebecca Cobey奖学金。本文中的观点是作者的观点，而不是资助机构的观点。引用Yonatan Bisk，Rowan Zellers，Jianfeng Gao，YejinChoi，et al. 2020. Piqa：用自然语言推理物理常识。在AAAI人工智能会议论文集，第34卷，第7432Antoine Bosselut，Hannah Rashkin，Maarten Sap，Chai- tanya Malaviya ， Asli Celikyilmaz ， andYejin Choi.2019. Comet：用于自动知识图构建的常识转换器。第57届计算语言学协会年会论文集，第4762Tom Brown ， Benjamin Mann ， Nick Ryder ，Melanie Subbiah ， Jared D Kaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是少数成功的学习者。神经信息处理系统的进展，33：1877曹舒阳和王璐。2021. CLIFF：对比学习提高摘要。2021年自然语言处理，第6633计算语言学协会。纳撒尼尔·钱伯斯和丹·朱拉夫斯基2009.叙事图式及其参与者的非监督学习在ACL的第47届年会和AFNLP的自然语言处理的第4届国际联合会议的联合会议的会议记录中，第602Jiaao Chen ， Derek Tam ， Colin Raffel ， MohitBansal，and Diyi Yang. 2021.自然语言处理中有限资料学习之资料扩充实证研究。arXiv预印本arXiv：2106.07499。TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey Hinton. 2

下载后可阅读完整内容，剩余1页未读，立即下载