def build_vocab(file_path, tokenizer, max_size, min_freq): vocab_dic = {} with open(file_path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content = lin.split('\t')[0] for word in tokenizer(content): vocab_dic[word] = vocab_dic.get(word, 0) + 1 vocab_list = sorted([_ for _ in vocab_dic.items() if _[1] >= min_freq], key=lambda x: x[1], reverse=True)[:max_size] vocab_dic = {word_count[0]: idx for idx, word_count in enumerate(vocab_list)} vocab_dic.update({UNK: len(vocab_dic), PAD: len(vocab_dic) + 1}) return vocab_dic
时间: 2024-04-28 15:20:59 浏览: 179
这段代码定义了一个函数 `build_vocab`,用于根据训练数据构建词表。具体来说,函数接受四个参数:
- `file_path`:训练数据文件的路径;
- `tokenizer`:用于将文本分割成单词或字的函数;
- `max_size`:词表的最大大小;
- `min_freq`:词汇在训练数据中出现的最小次数。
函数首先定义了一个空字典 `vocab_dic`,用于存储词汇及其出现次数。然后,函数使用 Python 内置的 `open` 函数打开训练数据文件,逐行读取文件内容,并将每行内容按照指定的分割函数 `tokenizer` 进行分割,统计分割后得到的每个词汇在训练数据中出现的次数,并将其存储到 `vocab_dic` 中。
接着,函数对 `vocab_dic` 中的词汇进行按出现次数降序排序,并选取出现次数最高的 `max_size` 个词汇作为词表。如果某个词汇在训练数据中出现次数小于 `min_freq`,则将其从词表中删除。函数将词表中的每个词汇与其在词表中的索引建立映射,并将其存储到一个新的字典 `vocab_dic` 中。在这里,函数还添加了两个特殊的词汇 `UNK` 和 `PAD`,用于表示未知词汇和填充词汇,这两个词汇的索引分别为词表的大小和词表大小加一。
最后,函数返回构建好的词表 `vocab_dic`。
if os.path.exists(vocab_dir): word_to_id = pkl.load(open(vocab_dir, 'rb')) else: # tokenizer = lambda x: x.split(' ') # 以词为单位构建词表(数据集中词之间以空格隔开) tokenizer = lambda x: [y for y in x] # 以字为单位构建词表 word_to_id = build_vocab(train_dir, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1) pkl.dump(word_to_id, open(vocab_dir, 'wb'))
def build_dataset(config, ues_word): if ues_word: tokenizer = lambda x: x.split(' ') # 以空格隔开,word-level else: tokenizer = lambda x: [y for y in x] # char-level if os.path.exists(config.vocab_path): vocab = pkl.load(open(config.vocab_path, 'rb')) else: vocab = build_vocab(config.train_path, tokenizer=tokenizer, max_size=MAX_VOCAB_SIZE, min_freq=1) pkl.dump(vocab, open(config.vocab_path, 'wb')) print(f"Vocab size: {len(vocab)}") def load_dataset(path, pad_size=32): contents = [] with open(path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content, label = lin.split('\t') words_line = [] token = tokenizer(content) seq_len = len(token) if pad_size: if len(token) < pad_size: token.extend([PAD] * (pad_size - len(token))) else: token = token[:pad_size] seq_len = pad_size # word to id for word in token: words_line.append(vocab.get(word, vocab.get(UNK))) contents.append((words_line, int(label), seq_len)) return contents # [([...], 0), ([...], 1), ...] train = load_dataset(config.train_path, config.pad_size) dev = load_dataset(config.dev_path, config.pad_size) test = load_dataset(config.test_path, config.pad_size) return vocab, train, dev, test
这段代码定义了一个函数用于加载数据集。它的输入参数包括一个配置对象和一个布尔值,表示是否使用词级别的分词器。如果使用单词级别的分词器,就将句子按照空格分割成单词;否则,将句子分割成单个字符。如果已经存在词汇表文件,就直接加载该文件;否则,就调用之前定义的 build_vocab 函数构建词汇表,并将其保存到文件中。然后,函数分别加载训练、验证和测试数据集,并将每个样本表示成一个三元组,其中第一个元素是由单词索引构成的列表,第二个元素是标签,第三个元素是该样本的序列长度。最后,该函数返回词汇表和三个数据集。