Transformers入门：基于BERT的序列标注教程

197 浏览量更新于2024-08-03 收藏 95KB DOCX 举报

本文是一篇关于基于Transformer的自然语言处理（NLP）入门教程，主要针对初学者介绍了如何在Jupyter Notebook环境中使用Transformer库，如Hugging Face的Transformers和Datasets，进行序列标注任务。在Google Colab中，读者需要先安装这两个库，通过运行`!pip install datasets transformers seqeval`来完成。如果在本地环境，确保已经安装了这些依赖。文章的核心内容集中在序列标注，这是一种基于token的分类问题，例如命名实体识别（NER）、词性标注（POS）和短语组块（Chunking）。作者强调，这些任务的关键在于利用预训练的Transformer模型，如BERT，其顶层设计用于token级别的分类。在BERTForTokenClassification模型的基础上，用户可以通过简单的Dataset库加载数据集，并利用Trainer接口进行模型的微调。值得注意的是，只要有Transformer模型支持token分类任务，且模型带有适当的tokenizer（如fasttokenizer），就可以应用广泛的模型到不同的token级别分类问题上，只需对数据和任务稍作调整。这意味着本教程具有很高的通用性和适应性，对于处理类似任务的开发者来说，只需做少量修改即可实现。此外，文章还提到了如何处理不同任务的策略，鼓励读者理解并灵活运用基础模型，以适应他们的特定需求。这篇文章不仅介绍了技术细节，也注重实践应用和问题解决的方法，对于想要深入了解Transformer在NLP中的应用的人来说，是一份宝贵的资源。

})

无论是在训练集、验证机还是测试集中，datasets 都包含了一个名为 tokens 的列（一般来

说是将文本切分成了很多词），还包含一个名为 label 的列，这一列对应这 tokens 的标

注。

给定一个数据切分的 key（train、validation 或者 test）和下标即可查看数据。

datasets["train"][0]

{'chunk_tags': [11, 21, 11, 12, 21, 22, 11, 12, 0],

'id': '0',

'ner_tags': [3, 0, 7, 0, 0, 0, 7, 0, 0],

'pos_tags': [22, 42, 16, 21, 35, 37, 16, 21, 7],

'tokens': ['EU',

'rejects',

'German',

'call',

'to',

'boycott',

'British',

'lamb',

'.']}

所有的数据标签 labels 都已经被编码成了整数，可以直接被预训练 transformer 模型使

用。这些整数的编码所对应的实际类别储存在 features 中。

datasets["train"].features[f"ner_tags"]

Sequence(feature=ClassLabel(num_classes=9, names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG',

'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC'], names_file=None, id=None), length=-1, id=None)

所以以 NER 为例，0 对应的标签类别是”O“， 1 对应的是”B-PER“等等。”O“的意思是没有

特别实体（no special entity）。本例包含 4 种实体类别分别是（PER、ORG、LOC，

MISC），每一种实体类别又分别有 B-（实体开始的 token）前缀和 I-（实体中间的

token）前缀。

� 'PER' for person

� 'ORG' for organization

� 'LOC' for location

� 'MISC' for miscellaneous

label_list = datasets["train"].features[f"{task}_tags"].feature.names

label_list

['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC']

为了能够进一步理解数据长什么样子，下面的函数将从数据集里随机选择几个例子进行展

示。

from datasets import ClassLabel, Sequence

import random

import pandas as pd

剩余12页未读，继续阅读

云深不知处㊣

粉丝: 2179

Transformers入门：基于BERT的序列标注教程

自然语言处理(NLP)基础理解

自然语言处理NLP快速入门1

自然语言处理（NLP）

人工智能项目资料- 基于transformers的自然语言处理(NLP)入门.zip

自然语言处理入门学习.zip

深度学习基础 —— 构建基于 Transformer 的自然语言处理应用.pdf

深度学习与自然语言处理入门实战项目资料分享

BERT模型构建与训练：最新自然语言处理入门指南

【Hugging Face Transformers入门手册】：快速掌握构建自然语言处理模型的基础

Python自然语言处理入门：NLP基础与应用快速指南

最新资源