基于预训练变压器模型的数据增强技术与应用

需积分: 10 155 浏览量更新于2024-11-19 收藏 859KB ZIP 举报

资源摘要信息: "使用预训练的变压器模型进行数据增强的代码" 该代码主要涉及使用预训练的变压器模型进行数据增强，以提高自然语言处理(NLP)任务的性能，特别是文本分类任务。这种数据增强方法的核心思想是通过对现有数据集进行变换和扩充，以改善模型的泛化能力。代码最初发布于Amazon-research软件包中，并且提供了一个副本供研究人员和开发者使用。代码中实现了多种数据扩充方法，包括以下几种基准方法和一些创新方法： - EDA（Easy Data Augmentation）方法：通过同义词替换、随机插入、随机交换和随机删除等简单的文本转换技术来扩充数据集。 - 回译（Back-Translation）方法：使用一个预训练的语言模型将文本翻译成另一种语言，然后再翻译回原始语言，以此来生成新的扩充样本。 - CBERT（Contrastive BERT）方法：通过在原始文本和其扩充版本之间引入对比学习，增强模型的区分能力。 - BERT Prepend：在文本前添加一些词汇或短语，通过修改输入序列来扩充数据集。 - GPT-2前置（我们的论文）：利用GPT-2模型生成的文本作为新的训练样本。 - BART前置（我们的论文）：同样，使用BART模型进行文本生成，以增加训练数据的多样性。在进行数据增强实验时，研究者使用了三个公开的数据集： - STSA-2（Sentiment Treebank）：这是一个针对句子级情感分析的数据集。 - TREC（Text REtrieval Conference）：包含问答系统评估的任务相关数据。 - SNIPS：一个用于构建面向用户意图识别和槽填充的多领域数据集。在低数据状态实验设置中，可以通过运行src/utils/download_and_prepare_datasets.sh脚本来准备和下载所有数据集，并进行必要的预处理步骤，例如从GitHub下载数据，以及使用STSA-2和TREC数据集的文本替换数字标签。对于给定的数据集，还需要创建数据集的处理版本。该代码利用了transformers库中的预训练模型如BERT, GPT-2, BART等，这使得研究人员能够利用大型预训练模型进行有效的数据增强。这些模型在自然语言理解任务上表现出色，并且通过数据增强可以进一步提升其性能。涉及到的标签如nlp、text-classification、transformers、classification、bart、bert、data-augmentation和gpt-2表明了代码的主要应用场景和所依赖的先进技术和方法。Python是实现这些功能的主要编程语言。压缩包子文件的名称为TransformersDataAugmentation-main，这是代码的主文件夹名称。在此主文件夹下，可能包含了子文件夹和文件，它们分别存放着数据增强的代码实现、预训练模型使用代码、数据集处理脚本以及相关的测试用例等。总结来说，该代码资源旨在提供一种利用预训练变压器模型进行有效数据增强的实践方法，这对于希望在数据稀缺情况下提升NLP模型性能的研究人员和开发者来说，是一个非常有价值的工具。

收起资源包目录

基于预训练变压器模型的数据增强技术与应用（32个子文件）

bart_stsa_lower.sh 5KB

download_and_prepare_datasets.sh 2KB

convert_num_to_text_labels.py 2KB

eda.py 9KB

requirements.txt 43B

cbert.py 15KB

CODE_OF_CONDUCT.md 309B

cmodbert.py 15KB

bert_snips_lower.sh 4KB

create_fsl_dataset.py 4KB

CONTRIBUTING.md 3KB

bart_trec_lower.sh 5KB

bert_trec_lower.sh 4KB

__init__.py 0B

bert_classifier.py 3KB

bert_stsa_lower.sh 4KB

README.md 3KB

bart_snips_lower.sh 5KB

encoder.json 1018KB

__init__.py 58B

bpe_encoder.py 7KB

LICENSE 19KB

denoised_dataset.py 13KB

masking_task.py 6KB

__init__.py 0B

bert_model.py 5KB

vocab.bpe 446KB

data_processors.py 5KB

cgpt2.py 11KB

cmodbertp.py 16KB

backtranslation.py 3KB

dict.txt 589KB

共 32 条

刘岩Lyle

粉丝: 46
资源: 4680

基于预训练变压器模型的数据增强技术与应用

transformers-data-augmentation:与“使用预训练的变压器模型进行数据扩充”相关的代码

中文-XLNet：预训练中文XLNet（中文XLNet预训练模型）

Transformers-ru：俄语预训练变压器模型列表

multitasking_transformers:使用预训练的变压器进行多任务学习

trl:通过强化学习训练变压器语言模型

bert_language_understanding：用于语言理解的深度双向变压器的预训练：TextCNN的预训练

simalign:使用预训练的语言模型（例如，mBERT）获得单词对齐

TransformersSourceCodeThink:PTM（预训练模型）算法预研，转化器开源项目源码进行注释解析，对每一个模块进行学习总结

vision-transformer-pytorch:带有预训练模型的Pytorch版本的Vision Transformer（ViT）。 这是CASL（https

DISTRE：[ACL 19]对预训练的变压器语言模型进行微调以严格监督关系提取

最新资源

vision-transformer-pytorch:带有预训练模型的Pytorch版本的Vision Transformer（ViT）。这是CASL（https