def build_vocab(file_path, tokenizer, max_size, min_freq): vocab_dic = {} with open(file_path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content = lin.split('\t')[0] for word in tokenizer(content): vocab_dic[word] = vocab_dic.get(word, 0) + 1 vocab_list = sorted([_ for _ in vocab_dic.items() if _[1] >= min_freq], key=lambda x: x[1], reverse=True)[:max_size] vocab_dic = {word_count[0]: idx for idx, word_count in enumerate(vocab_list)} vocab_dic.update({UNK: len(vocab_dic), PAD: len(vocab_dic) + 1}) return vocab_dic
时间: 2024-04-28 15:20:59 浏览: 179
这段代码定义了一个函数 `build_vocab`,用于根据训练数据构建词表。具体来说,函数接受四个参数:
- `file_path`:训练数据文件的路径;
- `tokenizer`:用于将文本分割成单词或字的函数;
- `max_size`:词表的最大大小;
- `min_freq`:词汇在训练数据中出现的最小次数。
函数首先定义了一个空字典 `vocab_dic`,用于存储词汇及其出现次数。然后,函数使用 Python 内置的 `open` 函数打开训练数据文件,逐行读取文件内容,并将每行内容按照指定的分割函数 `tokenizer` 进行分割,统计分割后得到的每个词汇在训练数据中出现的次数,并将其存储到 `vocab_dic` 中。
接着,函数对 `vocab_dic` 中的词汇进行按出现次数降序排序,并选取出现次数最高的 `max_size` 个词汇作为词表。如果某个词汇在训练数据中出现次数小于 `min_freq`,则将其从词表中删除。函数将词表中的每个词汇与其在词表中的索引建立映射,并将其存储到一个新的字典 `vocab_dic` 中。在这里,函数还添加了两个特殊的词汇 `UNK` 和 `PAD`,用于表示未知词汇和填充词汇,这两个词汇的索引分别为词表的大小和词表大小加一。
最后,函数返回构建好的词表 `vocab_dic`。
相关问题
if os.path.exists(vocab_dir): word_to_id = pkl.load(open(vocab_dir, 'rb')) else: # tokenizer = lambda x: x.split(' ') # 以词为单位构建词表(数据集中词之间以空格隔开) tokenizer = lambda x: [y for y in x] # 以字为单位构建词表 word_to_id = build_vocab(train_dir, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1) pkl.dump(word_to_id, open(vocab_dir, 'wb'))
这段代码的作用是什么?
这段代码的作用是加载词表文件或者根据训练数据构建词表并保存到词表文件。首先,它判断词表文件(即vocab_dir变量所指定的文件)是否存在,如果存在,则直接从文件中加载词表(word_to_id);否则,根据训练数据(train_dir)和指定的构建方式(字或词)构建词表,并保存到词表文件中。其中,build_vocab()函数是用于构建词表的函数,MAX_VOCAB_SIZE是指定的词表大小(最多包含多少个词或字),min_freq是指定词表中词或字的最小出现频次。最终,word_to_id变量即为构建好的词表。
def build_dataset(config, ues_word): if ues_word: tokenizer = lambda x: x.split(' ') # 以空格隔开,word-level else: tokenizer = lambda x: [y for y in x] # char-level if os.path.exists(config.vocab_path): vocab = pkl.load(open(config.vocab_path, 'rb')) else: vocab = build_vocab(config.train_path, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1) pkl.dump(vocab, open(config.vocab_path, 'wb')) print(f"Vocab size: {len(vocab)}") def load_dataset(path, pad_size=32): contents = [] with open(path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content, label = lin.split('\t') words_line = [] token = tokenizer(content) seq_len = len(token) if pad_size: if len(token) < pad_size: token.extend([PAD] * (pad_size - len(token))) else: token = token[:pad_size] seq_len = pad_size # word to id for word in token: words_line.append(vocab.get(word, vocab.get(UNK))) contents.append((words_line, int(label), seq_len)) return contents # [([...], 0), ([...], 1), ...] train = load_dataset(config.train_path, config.pad_size) dev = load_dataset(config.dev_path, config.pad_size) test = load_dataset(config.test_path, config.pad_size) return vocab, train, dev, test
这段代码定义了一个函数用于加载数据集。它的输入参数包括一个配置对象和一个布尔值,表示是否使用词级别的分词器。如果使用单词级别的分词器,就将句子按照空格分割成单词;否则,将句子分割成单个字符。如果已经存在词汇表文件,就直接加载该文件;否则,就调用之前定义的 build_vocab 函数构建词汇表,并将其保存到文件中。然后,函数分别加载训练、验证和测试数据集,并将每个样本表示成一个三元组,其中第一个元素是由单词索引构成的列表,第二个元素是标签,第三个元素是该样本的序列长度。最后,该函数返回词汇表和三个数据集。
阅读全文