SemEval-2021 Task-5有毒跨度检测代码库发布与基准模型介绍

需积分: 13 65 浏览量更新于2024-11-18 收藏 5.23MB ZIP 举报

资源摘要信息:"toxic-spans-detection:SemEval-2021 Task-5有毒跨度检测代码和实验的存储库" 本存储库主要围绕SemEval-2021 Task-5有毒跨度检测（Toxic Spans Detection）的代码与实验进行展开。该任务的目标是识别出文本中的有毒部分，即那些包含侮辱、威胁、歧视等负面情绪或偏见的段落。在此存储库中，维护者正在不断更新代码，以使其运行更高效。存储库的使用和更新情况如下： 1. 安装说明要使用这个存储库，首先需要通过Python的setup.py脚本安装src目录下的代码。具体命令如下： ```bash python setup.py install ``` 这一步骤将会把src目录下的源代码安装到系统中，使其可以被Python环境识别并使用。接下来，需要满足存储库的依赖要求。可以通过以下命令安装所有必需的Python包： ```bash pip install -r requirements.txt ``` 这样可以确保所有必需的Python库都被正确安装，以便存储库可以正常运行。 2. 基准模型存储库中还包含了一个基准模型RNNSL（Recurrent Neural Network with Sliding Windows）。为了运行这个模型并进行预测，可以使用以下命令： ```bash python run_baseline_model.py --configs ./configs/rnnsl/default.yaml ``` 执行上述命令后，模型会自动运行并分别在train（训练集）、trial（验证集）和test（测试集）上进行预测。预测结果以及相应的F1分数将被保存，以便用户对模型性能进行评估。 3. 空间目录存储库中还包含了一个名为“baselines”的目录，该目录中可能包含了其他基准模型的代码或实验数据。具体目录结构和代码功能在此描述中未详细说明，因此用户需要自行探索该目录下的内容。 4. 标签说明此存储库使用标签“Python”，这表明存储库的代码是用Python编写的，因此用户在使用过程中需要具备一定的Python编程基础。 5. 存储库的更新与维护维护者表示，该存储库仍在积极更新中，并且非常欢迎用户提出任何问题或反馈。如果有任何疑问或需要帮助，用户可以通过创建问题或直接联系维护者的方式进行交流。 6. 发布信息存储库已在2021年2月25日公开，意味着任何人都可以访问这个存储库，下载代码，运行模型，并参与到有毒跨度检测的研究中。通过对存储库的标题、描述、标签和压缩包文件的文件名称列表的分析，我们可以总结出以下知识点： - 有毒跨度检测是自然语言处理（NLP）中的一个重要任务，它对于社交媒体内容监管、防止网络暴力等方面具有实际应用价值。 - SemEval（International Workshop on Semantic Evaluation）是国际上著名的自然语言处理评测活动，Task-5有毒跨度检测是该活动中的一个子任务。 - RNNSL是一种基于循环神经网络（RNN）的模型，它适用于序列数据的处理，特别是在处理自然语言文本时表现出较强的能力。 - 在进行自然语言处理任务时，F1分数是一个常用并且重要的评估指标，它结合了精确率（Precision）和召回率（Recall）两个指标来衡量模型性能。 - Python是目前最流行的数据科学和机器学习编程语言之一，具有大量的库和框架，可以支持复杂的NLP任务。 - 该存储库的持续更新表明了开源社区对于机器学习和自然语言处理领域的热情和投入。综合以上内容，这个存储库为研究人员和开发者提供了一个宝贵的学习和实验平台，用于研究和开发更高效的有毒跨度检测技术。

资源目录

收起资源包目录

SemEval-2021 Task-5有毒跨度检测代码库发布与基准模型介绍（203个子文件）

tsd_test_spans.csv 435KB

spacy_tagging.py 4KB

optimizers.py 269B

__init__.py 0B

spanbert_crf_token_spans-pred.txt 92KB

preprocessors.py 4KB

configuration.py 4KB

models.py 15KB

bert_base_spans_spans-pred.txt 80KB

original_test-intersection_roberta_token_union_spanbert_spans_best_3_ckpts_spans-pred.txt 73KB

semeval2021_test.py 1KB

logger.py 5KB

semeval2021.py 4KB

misc.py 5KB

activations.py 230B

roberta_token_spans_spans-pred.txt 250KB

fix_spans_test.py 2KB

integrated_gradients.py 24KB

toxicroberta_token_spans-pred.txt 94KB

embeddings.py 1KB

roberta_multi_spans_spans-pred.txt 181KB

roberta_crf_token_spans-pred.txt 92KB

original_test-union_spanbert_spans_union_roberta_token_best_3_ckpts_spans-pred.txt 107KB

original_test-intersection_roberta_token_best_3_ckpts_spans-pred.txt 71KB

__init__.py 0B

bert_crf_token.py 2KB

Exploratory Data Analysis & Preprocessing.ipynb 33KB

tsd_test.csv 369KB

.gitignore 2KB

roberta_multi_spans.py 3KB

example_markdown_table.md 5KB

__init__.py 0B

base_trainer.py 20KB

roberta_token_tsd_train_trial_spans-pred.txt 90KB

print_predictions.py 960B

metrics.py 551B

roberta_base_spans_spans-pred.txt 72KB

__init__.py 0B

original_test-union_roberta_token_best_3_ckpts_spans-pred.txt 95KB

auto_models.py 275B

clean_train_trial.csv 2.24MB

combine_preds.py 2KB

fix_spans.py 1KB

toxicbert_spans_spans-pred.txt 76KB

spanbert_spans_spans-pred.txt 76KB

train.py 6KB

tokenizers.py 4KB

toxic_spans_multi_spans.py 10KB

viz.py 3KB

toxic_spans_tokens.py 3KB

toxic_spans_crf_tokens.py 4KB

bert_token_spans-pred.txt 83KB

metrics.py 1KB

spanbert_token_spans-pred.txt 78KB

bert_crf_token_spans-pred.txt 78KB

two_layer_nn.py 1KB

tsd_train.csv 2.18MB

eval.py 46KB

original_test-union_roberta_token_union_spanbert_spans_best_3_ckpts_spans-pred.txt 156KB

schedulers.py 517B

tsd_trial.csv 181KB

LICENSE 1KB

roberta_crf_token.py 2KB

rnnsl_tsd_train_trial_spans-pred.txt 96KB

__init__.py 293B

bert_spans_spans-pred.txt 74KB

bert_token_spans.py 3KB

neural_sequence_labeler.model.png 44KB

__init__.py 0B

clean_train.csv 2.07MB

mapper.py 2KB

Span Length, Contiguous Spans stats.ipynb 7KB

bert_base_token_spans-pred.txt 79KB

toxic_spans_spans.py 10KB

run_baseline_model.py 16KB

losses.py 225B

postprocess_predictions.py 10KB

roberta_token_spans-pred.txt 79KB

spanbert_token_spans_spans-pred.txt 280KB

toxic_spans_tokens_spans.py 12KB

LICENSE 7KB

tsd_train_trial.csv 2.35MB

__init__.py 243B

generate_examples_table.py 3KB

spanbert_multi_spans_spans-pred.txt 177KB

setup.py 198B

clean_trial.csv 174KB

modified_train.csv 2.18MB

spanbert_spans_tsd_train_trial_spans-pred.txt 80KB

toxicbert_token_spans-pred.txt 72KB

bert_multi_spans_spans-pred.txt 166KB

README.md 14KB

roberta_token_spans.py 4KB

bert_token_spans_spans-pred.txt 198KB

original_test-union_spanbert_spans_best_3_ckpts_spans-pred.txt 150KB

rnnsl_spans-pred.txt 69KB

bert_multi_spans.py 3KB

calculate_f1_scores.py 1KB

ToxicSpans_SemEval21.ipynb 29KB

共 203 条

Fl4me

粉丝: 41
资源: 4600

SemEval-2021 Task-5有毒跨度检测代码库发布与基准模型介绍

2021年SemEval任务5：检测有害文本片段的进展

SemEval 2021任务5：精确识别文本中的有害跨度

Python库telebaka_toxic-0.1.14安装与使用指南

toxic_spans_detection:2021年SemEval的任务5

toxic-span-detection:2021年评估

toxic-comment-classification:Kaggle有毒评论分类挑战的代码和写作

toxic_spans:检测有毒文本中的有毒跨度

open-solution-toxic-comments：有毒评论分类挑战的开放式解决方案

Debiasing-Toxic-Language-Detection

kaggle-toxic-allennlp:Kaggle有毒评论挑战的AllenNLP模型

最新资源