EMNLP 2020论文官方代码库：T3攻击模型与树形自动编码器

需积分: 5 152 浏览量更新于2024-11-08 收藏 38.64MB ZIP 举报

资源摘要信息:"EMNLP 2020论文“T3”的官方代码库，提供了用于攻击自然语言处理（NLP）中的分类模型和问答模型的代码工具。具体而言，这一工具库可应用于攻击自我专注模型（Self-Attention）和BERT等预训练语言模型，以及BiDAF和BERT等问答系统。攻击模型涉及的主要知识点包括但不限于以下几点： 1. 自然语言处理（NLP）中的攻击模型：NLP模型通常用于理解、解析和生成人类语言，因此在安全性和可靠性方面尤为重要。在本论文的上下文中，攻击模型是指通过构建对抗样本或使用特定算法来误导和破坏这些NLP模型性能的技术。 2. 自我专注模型（Self-Attention）：自我专注机制是一种在NLP模型中广泛使用的机制，能够捕捉输入序列中的长距离依赖关系。它在诸如Transformer这样的架构中起到核心作用，允许模型在处理数据时能够直接关注到序列中任意两个位置之间的关联。 3. BERT（Bidirectional Encoder Representations from Transformers）：BERT是一种预训练语言表示的方法，通过双向编码器变换器模型来理解文本上下文。BERT已经成为NLP领域的基准模型，影响了后续众多NLP模型的设计和发展。 4. 问答模型：问答模型是用于从给定的文段中提取或生成答案的NLP系统。它通常包括编码器和解码器两部分，能够处理自然语言问题并给出结构化或自然语言的答案。 5. 树形自动编码器（Tree-based Autoencoder）：树形自动编码器是一种特殊的自动编码器结构，利用树形结构对数据进行编码和解码。在本论文中，这种模型被用来训练并生成用于攻击的对抗样本。通过在大规模语料库上训练这种基于树的自动编码器，可以提高对抗样本的质量和模型的攻击能力。 6. Yelp评论训练数据集：Yelp评论数据集包括来自Yelp网站的用户评论，通常用于训练和评估NLP模型，尤其是文本分类和情感分析模型。这些评论丰富多样，包含了实际语言使用的复杂性，对训练树形自动编码器和攻击模型非常有用。 7. Stanford CoreNLP解析器：这是一个用于处理自然语言文本的库，能够进行词性标注、命名实体识别、情感分析和句法分析等任务。在本论文的上下文中，它被用于解析训练数据集中的句子，以获取句子的依存关系结构，这是训练树形自动编码器所必需的。此外，本代码库还鼓励社区参与和贡献，通过提出拉取请求（Pull Request）和讨论问题的方式，促进了开源项目的活跃发展和知识共享。如果有任何疑问或建议，作者也鼓励打开问题进行讨论，这有助于提高代码质量并推动NLP社区的进步。本代码库的资源结构中包含了名为“SAM-attack/my_generator/”的文件夹，这里可能存放着用于训练基于树的自动编码器的代码，以及攻击其他NLP任务的工具。需要注意的是，使用这些攻击代码前，用户应当自行在大型语料库中训练出所需的树形自动编码器。整个代码库的标签为“tree attack autoencoder bert adversarial-attacks Python”，这些标签突显了该资源的核心内容和所使用的关键技术，便于快速识别其应用场景和开发环境。标签中特别强调了Python语言，这表明代码库中的实现和开发都是基于Python编程语言，这在NLP领域十分常见。"

收起资源包目录

EMNLP 2020论文官方代码库：T3攻击模型与树形自动编码器（99个子文件）

argConfig.py 4KB

seq2seq_model.py 4KB

tokenizer-yelp.py 1KB

sampled_generate_append.py 14KB

dataset.py 14KB

__init__.py 0B

CW_attack_random.py 13KB

generate_trees.py 4KB

bertmodel.py 10KB

utils.py 197B

evaluate.py 4KB

attentionModel.py 2KB

model.py 5KB

sequential_model.py 8KB

sequential_trainer.py 10KB

seq2seq_model.py 5KB

seq2seq_model.py 4KB

model.py 5KB

seq_attack.py 13KB

train.py 11KB

model.py 8KB

utils_squad.py 41KB

main.py 7KB

utils.py 15KB

model.bin 47.39MB

seq2seq_trainer.py 10KB

generate_append.ipynb 8KB

.gitignore 154B

CW_QA_attack.py 14KB

treeNode.py 1KB

README.md 2KB

sequential_trainer.py 10KB

CW_attack.py 13KB

sequential_trainer.py 10KB

seq2seq_trainer.py 10KB

treeNode.py 1KB

models.py 6KB

CW_QA_attack.py 14KB

evaluate.py 3KB

ema.py 408B

model.py 12KB

run.py 45KB

tree.py 2KB

models.py 2KB

model.py 5KB

trainer.py 9KB

none_n1000_k1_s0.json 943KB

model.py 12KB

CW_attack_random.py 13KB

vocab.py 3KB

seq2seq_trainer.py 10KB

utils_squad_evaluate.py 12KB

__main__.py 365B

attack_qa.py 76KB

sequential_model.py 8KB

trainer.py 9KB

README.md 968B

attack.py 32KB

trainer.py 9KB

sequential_model.py 8KB

attentionModel.py 2KB

model.py 6KB

CW_QA_attack_ensemble.py 14KB

Global.py 427B

LICENSE 34KB

treeNode.py 1KB

model.py 12KB

attack_classifier.py 19KB

tree.py 2KB

README.md 1KB

util.py 9KB

model.py 6KB

dataset.py 14KB

.gitignore 2KB

vocab.py 3KB

generate_adv_dataset.py 854B

nn.cpython-37.pyc 3KB

util.py 10KB

Constants.py 165B

ema 5.91MB

attentionModel.py 2KB

l2_attack.py 14KB

CW_QA_attack_random.py 14KB

CW_attack.py 13KB

vocab.py 3KB

dataset.py 14KB

nn.py 3KB

dataset.py 14KB

run_squad.py 29KB

data.py 7KB

make_dataset.py 2KB

model.py 6KB

tree.py 2KB

README.md 503B

__init__.cpython-37.pyc 145B

.gitignore 20B

util.py 8KB

.gitignore 22B

共 99 条

基少成多

粉丝: 25
资源: 4537

EMNLP 2020论文官方代码库：T3攻击模型与树形自动编码器

OpenJERE：EMNLP2020会议的联合关系与实体提取研究

LOTClass模型：EMNLP 2020发布基于标签名称的文本分类技术

高效应对大规模自然语言处理：EMNLP 2020 的实践与进展

DialogRPT:EMNLP 2020

interpretability-tutorial-emnlp2020:EMNLP 2020教程“解释NLP模型的预测”的材料

OpenJERE:EMNLP2020调查结果文件

vokenization:EMNLP 2020论文“ Vokenization的PyTorch代码

KGPT:EMNLP2020论文“ KGPT的代码和数据

HyperGAT_TextClassification:EMNLP2020的实施——事半功倍

HERO:EMNLP 2020研究论文“ HERO”的研究代码

最新资源