去偏自然语言数据集生成方法：提升模型性能的评估与策略

31 浏览量更新于2024-06-19 收藏 962KB PDF 举报

"这篇论文探讨了如何生成去偏自然语言数据集以提升模型性能，主要集中在SNLI和MNLI数据集的评估上，并提出了一种优于先前最先进的策略。" 自然语言处理（NLP）模型在处理任务时经常依赖数据集中与任务无关的特征和标签之间的错误关联，导致它们在训练分布内的表现良好，但在新的任务分布中可能失效。这种现象被称为偏差。论文作者提出了一种解决方案，即通过创建数据集的去偏版本，然后用这些新数据训练模型，以消除这种偏差。方法分为两部分：1) 训练数据生成器以产出高质量、标签一致的新样本；2) 设计一个基于z统计量的过滤机制，用于识别并移除导致虚假相关性的数据点。在SNLI（Stanford Natural Language Inference）和MNLI（Multi-Genre Natural Language Inference）数据集上应用这种方法，生成了去偏的版本，并在大规模的去偏、分布外和对抗性测试集上进行了评估。实验结果显示，使用去偏数据集训练的模型在大多数情况下表现优于或至少与之前最先进的去偏策略相当。结合正交技术和专家乘积，该方法进一步提升了性能，甚至超过了在SNLI Hard和MNLI Hard上的最佳结果。论文指出，NLP数据集的偏差源于注释过程、任务定义或设计选择，表现为数据点的简单特征与标签之间的不恰当关联。为了解决这个问题，他们开发了一个数据生成管道，如图1所示，该管道旨在减少标签和任务无关特征之间的虚假相关性。这一研究对于NLP领域的模型泛化能力提升具有重要意义，因为通过去除数据集中的偏差，可以训练出更健壮、更能泛化的模型。未来的研究可能进一步探索如何在不同类型的NLP任务和数据集上应用这种方法，以及如何优化数据生成和过滤过程，以实现更高效、更全面的偏差缓解。所有相关代码和生成的数据集都可供公众访问和使用，这将促进研究社区对这一问题的深入理解和实践。

+v：mala2277获取更多论

文

Z D

D D

∈

算法1：z滤波算法。

数据：输入数据集

[

具有可选的种子数据

集

seed

]

结果：去偏数据集Z和拒绝

样本Z

←

（或

Z ← D

种

子

）;Z

−

←;

更有可能被

过滤

过程接受。更具体地说，

我们可以鼓励

模型生成（

），同时阻止它

生成

−

（

）。对于后一部分，我们

再次应

用非似然训练目标

来unlearn

−

（

）。因

此，总体去偏训练目标是：

对于

样品批次

J J

计算或更新

统计信息

debias

MLE

（Z

（D

））

+αL

（Z

−

（

））

（

，

）

，

则

∈

;

找到有偏特征B

（

），

{

蕴涵

、

中性

、

矛盾

};

对于每个

实例

=（

，

）

得到实例

的

特征

;

如果

（

）

，则

Z ← Z

{I};

其中

是一个超参数。

在所有to-kens上天真地使用非似然目标会给

模型提供好标记的混合信号，并导致不合语法

的退化输出。为了避免这种退化，我们只将不

似然损失应用于有助于有偏特征的令牌。具体

地，对于实例的每个令牌

−

，

其

他

−

← Z

−

{

}

;

−

∈ Z

不

−

（D

），我们将掩码m

定义为

，

如果

−

contri butesto

（

−

）

结

束

结束

我

不是

、否则

通过数据生成构造去偏NLI

我们以两种方式使用

过滤：

）进一步微调

（在第 2.2.1 节中使用一致性不似然训练的

G），目标是降低应被拒绝的样本的权重（第

4.1节）;2）事后过滤生成的样本以获得去偏

数据集（第

4.2

节）。

其中

（

−

）表示

与

−

的标签相对应的偏置

特征。

对于对

unigram

和

bigram

特征的偏见（如第

3.1

节中定义的），我们只考虑相应的标记是

相关的（即，m

= 0，如果

−

是一元语法或二元语法的一部分对于偏见

对于其他特征（例如，

hypothe

的长度，

sis

），我们认为假设上的所有标记都是相关

的。不可能性训练目标定义如下：

4.1

学习生成无偏样本

生成器G可以在其微调阶段学习利用与任务无

关的特征

（Z

−

（D

））=

′

∈Z

−

（D

）

′

（

）

，

（第

节），导致合成数据

转换

为

存在许多虚假的相关性。虽然应用z滤波来从

BLOG

中

去除这些虚假相关性是诱人的，但我

们发现这将导致

删除大部分生成的数据。例如，当发生器在

SNLI上微调

（

）

−

lo g

（

）

（

−

）（

−

（

）

。

我们进一步用

debias

微调

以获得新的生成器

，

该生成器被训练以生成更多

滤波

去除了约

85%

的

（？

）

SNLI

这

无偏数据样本。然后我们随机抽取

导致非常低效的数据生成过程来减轻伪相

关。

为了缓解这个问题，我们可以将去偏目标纳

入生成器的训练中，这样生成器

]这也有力地证实了这些偏差是有问题的，因为生成

模型很容易找到它们，并在数据生成过程中依赖它们。

用

∞

进行朴素数据扩充

将加强伪相关。

并进行数据滤波（第

2.2.2

节）以获得大的高

质量去偏置数据

样本

集合

。

4.2

结合

滤波构造去偏

NLI

数据集

给定原始数据集

和合成数据集

，我们的目

标是产生大规模无偏数据集

。有各种各样的

方法来做

端

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

去偏自然语言数据集生成方法：提升模型性能的评估与策略

pytorch-nli:pytorch实现snli和mnli任务的各种模型

The Stanford Natural Language Inference (SNLI) Corpus斯坦福自然语言推理数据集-数据集

斯坦福自然语言推理（SNLI）语料库-数据集

reasoning_attention:SNLI数据集上注意力模型的非官方实现算法

SNLI-Keras:Keras中的斯坦福大学自然语言推理模型

英文文本相似度/文本推理/文本匹配数据集——SNLI

中文文本相似度/文本推理/文本匹配数据集——Chinese SNLI MultiNli

snli.zip

多流派自然语言推理 (MultiNLI) 语料库是 433k 句子对的众包集合数据集.zip

PyTorch实现NLI任务：Snli与MNLI模型训练与评估

最新资源