预训练模型在结构化图表生成中的对比学习提升

61 浏览量更新于2024-06-19 收藏 1017KB PDF 举报

本研究论文关注的是预训练语言模型（Pre-trained Language Models, PLMs）在生成结构化图表，特别是解释图（Explanatory Graphs）方面的能力及其在对比学习框架下的应用。PLMs，如BART和T5，已经在自然语言处理任务中展示了显著的成功，但在处理结构化的图输出时，它们的表现却相对较少被深入分析。传统的自然语言生成侧重于文本，而图的结构和语义特性使其更具挑战性。图需要保持连通性和无环，同时表达节点间的关系，这与句子的线性结构不同。论文指出，预训练的PLMs在生成解释图时，往往不能满足这些结构约束，或者在语义上存在不一致性，比如在图1中的例子中，T5生成的图未能正确表示信念和论据之间的关系。为了克服这些问题，研究者提出了一个解决策略，即通过有限监督下的节点和边编辑，生成结构和语义上的正负扰动图，用于训练对比学习模型。Max-Margin和InfoNCE等损失函数被用来优化模型在生成图的结构一致性和语义准确性方面的表现。这种方法在实验中表现出显著的改进，不仅提高了解释图的生成质量，还扩展到了其他图形生成任务。此外，研究者还发现，人为错误是对比学习中的一个重要负面因素。通过让模型自动生成更像人类错误的负样本，进一步提升了模型的性能，这表明了在正负样本的平衡中，引入更真实的错误信息有助于模型学习更准确的生成规则。这项工作揭示了预训练语言模型在生成结构化图表上的局限性，并提供了一种有效的解决方案，通过对比学习强化模型对结构和语义的理解，从而提升生成解释图的质量。这对于理解和改进PLMs在复杂图形生成任务中的表现具有重要意义。

+v：mala2277获取更多论
文
形成推理结构，解释为什么论点支持或反驳信
念。
Saha
等人（
2021 b
）通过定义两个准确性
度量来评估解释图
-
（
如果一个图满足以下约
束，它就被认为是结构正确的：（
1
）它是连
通的，（2）它是一个DAG，（3）边关系属
于一个预定义的列表，（4）至少有两个来自
信念的概念和两个来自论证的概念。如果满足
所有这些约束，则接下来通过基于模型的度量
来 评 估 图 的 语 义 正 确 性 （ Saha 等 人 ， ，
2021b）。它的工作原理是，如果从信念推断
出的立场和解释图匹配黄金立场，则解释图在
语义上是正确的有关所有评价指标的详细描
述，请参阅附录
A
基线T5模型。根据先前的工作（Sahaet al. ，
2021 b
），我们生成解释图作为事后解释的信
念，论点和预测的立场的条件。
2
姿态预测模
型是微调 的
RoBERTa
模型（
Liuet al.
，
2019
年），我们保持与以前的工作不变，并专注于
图形生成子任务。我们通过利用编码器-解码
器 预 训 练 的语 言 模 型 T5 （ Raffel et al. ，
2020
）。模型的输入是连接的信念，论点和立
场以及前缀图被编码为级联括号边，其中边根
据节点的深度优先搜索（DFS）顺序排序。 虽
然我们选择T5是因为其优越的性能（Saha et
al. ，2021 b），我们不进行任何模型特定的假
设，并且可以经由任何编码器
-
解码器风格的
预训练语言模型（例如，使用BART的结果见
附录
E
T5
基线分析。我们在表
1
中分析了
T5
生成的解
释图的质量。 我们将 训练数据的量从500到
2368
个 样 本 （ 全 部 ） 变 化 ， 并 报 告
StCA
和
SeCA以及 先 前工作中引入的其他指标，如
Graph-BertScore
（
G-BS
） （
Saha et al.
，
2021b
）。
2
这 些 是 合 理 化 模 型 （ Rajani et al. ， 2019; Haseet
al. ，2020年），首先预测的立场，其次是图表。虽然图
形也可以先生成，然后是立场，我们用一个模型族进行
实验。
计数
StCA
↑
SeCA
↑
G-BS
↑
GED
↓
EA
↑
500 42.5 20.7 36.3 0.68 20.4
1 000 49.2 23.7 42.2 0.63 26.2
1500 50.7 33.2 43.4 0.61 28.2
2368 51.0 34.7 43.9 0.61 29.5
表1：T5-large在ExplaGraphs测试集上具有不同量
的训练数据的性能
虽然结构准确性随着训练数据的增加而提高，
但增益很快饱和，即使在整个数据上训练之
后，我们也发现有很大一部分图违反了结构约
束。我们注意到，
T5
的生成中有
91%
生成的字
符串可以被解析成图形结构（没有任何后处
理），这表明
T5
能够从相当少量的监督中学
习图形编码然而，它未能满足各种结构约束请
注意，这些约束没有编码在模型中，因此很难
从有限的监督中学习。在结构正确的图的分数
上，该模型会产生进一步的语义错误，35%的
较低SeCA证明了这一点。在图1中，我们展示
了由
T5
生成的结构不正确和语义不正确的图
的示例。总的来说，这些结果表明，有一个显
着的改进范围都在图结构和语义，从而激励我
们开发的方法，旨在改善这两个方面的设计选
择。
4
图扰动
大多数为下游NLP任务收集人类注释图的先前
工作已经发现这样的收集过程是相当昂贵和乏
味的（Tandon et al. ，2019; Dalvi et al. ，2021;
Saha et al. ， 2021b ） 。 例 如 ， Saha et al.
（2021 b）仅在多轮细化后才获得高质量的数
据，
Dalvi
等人（
2021
）采用经过培训的专家
注释器进行蕴涵树构建。相应的数据集也相对
较小（
2- 3 k
），因此限制了大规模训练的前
景因此，我们对改进解释图生成的方法是通过
数据增强技术，扰动人类策划的图，以构建积
极和消极的图。如前所述，我们希望构建能够
更好地学习

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

预训练模型在结构化图表生成中的对比学习提升

我把GPT 的学习轨迹可视化了！竟和人类十分类似 ｜ACL2023.pdf

Traffic-Signs-Recognition-Model:生成并准备使用的流量模型

语言生成的深度学习力量：最新模型训练技巧

实体识别资源消耗优化：预训练模型BERT与计算资源管理

【多语言模型应用】：transformers库支持的多语言模型使用案例大解析

MATLAB图形与机器学习：数据可视化在模型训练中的关键作用

上下文相关性对生成模型评估的影响和处理

【MATLAB深度学习模型可视化技巧】：深入理解复杂的神经网络结构

【Python库文件学习之Twitter数据可视化】：用Python库打造数据可视化图表，让信息一目了然

AI训练集成可解释性：如何在模型训练阶段实现透明化

最新资源

我把GPT 的学习轨迹可视化了！竟和人类十分类似｜ACL2023.pdf