def build_vocab(file_path, tokenizer, max_size, min_freq): vocab_dic = {} with open(file_path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content = lin.split('\t')[0] for word in tokenizer(content): vocab_dic[word] = vocab_dic.get(word, 0) + 1 vocab_list = sorted([_ for _ in vocab_dic.items() if _[1] >= min_freq], key=lambda x: x[1], reverse=True)[:max_size] vocab_dic = {word_count[0]: idx for idx, word_count in enumerate(vocab_list)} vocab_dic.update({UNK: len(vocab_dic), PAD: len(vocab_dic) + 1}) return vocab_dic

时间: 2024-04-28 15:20:59 浏览: 179

这段代码定义了一个函数 `build_vocab`，用于根据训练数据构建词表。具体来说，函数接受四个参数： - `file_path`：训练数据文件的路径； - `tokenizer`：用于将文本分割成单词或字的函数； - `max_size`：词表的最大大小； - `min_freq`：词汇在训练数据中出现的最小次数。函数首先定义了一个空字典 `vocab_dic`，用于存储词汇及其出现次数。然后，函数使用 Python 内置的 `open` 函数打开训练数据文件，逐行读取文件内容，并将每行内容按照指定的分割函数 `tokenizer` 进行分割，统计分割后得到的每个词汇在训练数据中出现的次数，并将其存储到 `vocab_dic` 中。接着，函数对 `vocab_dic` 中的词汇进行按出现次数降序排序，并选取出现次数最高的 `max_size` 个词汇作为词表。如果某个词汇在训练数据中出现次数小于 `min_freq`，则将其从词表中删除。函数将词表中的每个词汇与其在词表中的索引建立映射，并将其存储到一个新的字典 `vocab_dic` 中。在这里，函数还添加了两个特殊的词汇 `UNK` 和 `PAD`，用于表示未知词汇和填充词汇，这两个词汇的索引分别为词表的大小和词表大小加一。最后，函数返回构建好的词表 `vocab_dic`。

if os.path.exists(vocab_dir): word_to_id = pkl.load(open(vocab_dir, 'rb')) else: # tokenizer = lambda x: x.split(' ') # 以词为单位构建词表(数据集中词之间以空格隔开) tokenizer = lambda x: [y for y in x] # 以字为单位构建词表 word_to_id = build_vocab(train_dir, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1) pkl.dump(word_to_id, open(vocab_dir, 'wb'))

这段代码的作用是什么？这段代码的作用是加载词表文件或者根据训练数据构建词表并保存到词表文件。首先，它判断词表文件（即vocab_dir变量所指定的文件）是否存在，如果存在，则直接从文件中加载词表（word_to_id）；否则，根据训练数据（train_dir）和指定的构建方式（字或词）构建词表，并保存到词表文件中。其中，build_vocab()函数是用于构建词表的函数，MAX_VOCAB_SIZE是指定的词表大小（最多包含多少个词或字），min_freq是指定词表中词或字的最小出现频次。最终，word_to_id变量即为构建好的词表。

def build_dataset(config, ues_word): if ues_word: tokenizer = lambda x: x.split(' ') # 以空格隔开，word-level else: tokenizer = lambda x: [y for y in x] # char-level if os.path.exists(config.vocab_path): vocab = pkl.load(open(config.vocab_path, 'rb')) else: vocab = build_vocab(config.train_path, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1) pkl.dump(vocab, open(config.vocab_path, 'wb')) print(f"Vocab size: {len(vocab)}") def load_dataset(path, pad_size=32): contents = [] with open(path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content, label = lin.split('\t') words_line = [] token = tokenizer(content) seq_len = len(token) if pad_size: if len(token) < pad_size: token.extend([PAD] * (pad_size - len(token))) else: token = token[:pad_size] seq_len = pad_size # word to id for word in token: words_line.append(vocab.get(word, vocab.get(UNK))) contents.append((words_line, int(label), seq_len)) return contents # [([...], 0), ([...], 1), ...] train = load_dataset(config.train_path, config.pad_size) dev = load_dataset(config.dev_path, config.pad_size) test = load_dataset(config.test_path, config.pad_size) return vocab, train, dev, test

这段代码定义了一个函数用于加载数据集。它的输入参数包括一个配置对象和一个布尔值，表示是否使用词级别的分词器。如果使用单词级别的分词器，就将句子按照空格分割成单词；否则，将句子分割成单个字符。如果已经存在词汇表文件，就直接加载该文件；否则，就调用之前定义的 build_vocab 函数构建词汇表，并将其保存到文件中。然后，函数分别加载训练、验证和测试数据集，并将每个样本表示成一个三元组，其中第一个元素是由单词索引构成的列表，第二个元素是标签，第三个元素是该样本的序列长度。最后，该函数返回词汇表和三个数据集。

阅读全文

相关推荐

orb_vocab.dbow2

string_tokenizer_unittest.rar_tokenizer

从tensorflow_datasets中下载的数据集：imdb_reviews

文本翻译与机器翻译：使用NLTK进行文本翻译

【PyTorch词汇表构建】：NLP项目的起航点

PyTorch自然语言处理：从入门到进阶的完整路径

NLTK与深度学习：使用NLTK准备数据以适应神经网络

自然语言处理的文本分类技术：全面解读与应用指南

R语言文本挖掘实战：使用tm包深入分析文本数据

【语义理解】：R085带你探索NLP的核心算法

【从零开始】：用PyTorch实现文本分类的全面指南

【词频分析的秘密】：发现文本数据背后的模式与趋势

数据预处理中的文本数据清洗：自然语言处理的入门与进阶

【PyTorch NLP全流程实战】：从数据到部署的专家指南

Vocab.__init__() got an unexpected keyword argument 'min_freq'

大家在看

ORACLE_EBS用户 职责 菜单 预置文件

地图分幅制作生产方法

surfer教程

和利时macs3手册

多變異圖的概念-minitab的PPT简易教程

最新推荐

白色简洁风格的软件UI界面后台管理系统模板.zip

自动软包电芯极耳短路测试精切一体机sw17可编辑全套技术资料100%好用.zip

掌握HTML/CSS/JS和Node.js的Web应用开发实践

管理建模和仿真的文件

计算机体系结构概述：基础概念与发展趋势

int a[][3]={{1,2},{4}}输出这个数组

勒玛算法研讨会项目：在线商店模拟与Qt界面实现

"互动学习：行动中的多样性与论文攻读经历"

【计算机组成原理精讲】：从零开始深入理解计算机硬件

vue2加载高德地图

Vocab.init() got an unexpected keyword argument 'min_freq'

ORACLE_EBS用户职责菜单预置文件