def build_vocab(data: List[Tuple[List[str], List[str]]], min_freq: int = 2) -> Tuple[Dict[str, int], Dict[int, str]]: """构建词表""" counter = Counter([word for text, _ in data for word in text]) counter = {word: freq for word, freq in counter.items() if freq >= min_freq} word_list = sorted(list(counter.keys())) word2id = {"[PAD]": 0, "[UNK]": 1, "[CLS]": 2, "[SEP]": 3} for word in word_list: word2id[word] = len(word2id) id2word = {id: word for word, id in word2id.items()} return word2id, id2word
时间: 2023-07-14 11:12:47 浏览: 192
这段代码是用来构建词表的,输入是一个包含文本和标签的列表,输出是一个包含单词与对应id的字典和一个包含id与对应单词的字典。这里使用了Python中的Counter类来计算每个单词出现的次数,然后过滤掉低于最小频率的单词。接着将单词按字典序排序,并加入一些特殊标记的单词,例如[PAD]、[UNK]、[CLS]和[SEP]。最后,将单词与id建立映射,并返回这两个字典。
相关问题
def build_vocab(file_path, tokenizer, max_size, min_freq): vocab_dic = {} with open(file_path, 'r', encoding='UTF-8') as f: for line in tqdm(f): lin = line.strip() if not lin: continue content = lin.split('\t')[0] for word in tokenizer(content): vocab_dic[word] = vocab_dic.get(word, 0) + 1 vocab_list = sorted([_ for _ in vocab_dic.items() if _[1] >= min_freq], key=lambda x: x[1], reverse=True)[:max_size] vocab_dic = {word_count[0]: idx for idx, word_count in enumerate(vocab_list)} vocab_dic.update({UNK: len(vocab_dic), PAD: len(vocab_dic) + 1}) return vocab_dic
这是一个Python函数,用于构建词汇表。它的输入参数包括文件路径、分词器、最大词汇量和最小词频。其中,文件路径指向一个文本文件,分词器将文本分割成单词,最大词汇量限制词汇表的大小,最小词频用于过滤出现频率较低的单词。函数的输出是一个字典,将词汇表中的每个单词映射到一个唯一的整数索引。其中,UNK和PAD是两个特殊的单词,用于表示未知单词和填充单词。
请注释下面代码的每一行from os.path import join from codecs import open def build_corpus(split, make_vocab=True, data_dir="./ResumeNER"): """读取数据""" assert split in ['train', 'dev', 'test'] word_lists = [] tag_lists = [] with open(join(data_dir, split + ".char.bmes"), 'r', encoding='utf-8') as f: word_list = [] tag_list = [] for line in f: if line != '\n': word, tag = line.strip('\n').split() word_list.append(word) tag_list.append(tag) else: word_lists.append(word_list) tag_lists.append(tag_list) word_list = [] tag_list = [] # 如果make_vocab为True,还需要返回word2id和tag2id if make_vocab: word2id = build_map(word_lists) tag2id = build_map(tag_lists) return word_lists, tag_lists, word2id, tag2id else: return word_lists, tag_lists def build_map(lists): maps = {} for list_ in lists: for e in list_: if e not in maps: maps[e] = len(maps) return maps
这段代码主要是用于读取数据,并返回词列表、标记列表以及词和标记的映射关系。具体解释如下:
1. `from os.path import join`:从os.path模块中导入join函数,用于拼接文件路径。
2. `from codecs import open`:从codecs模块中导入open函数,用于以指定编码打开文件。
3. `def build_corpus(split, make_vocab=True, data_dir="./ResumeNER"):`:定义了一个名为build_corpus的函数,用于读取数据。参数split表示数据集类型(train、dev或test),参数make_vocab表示是否需要返回词和标记的映射关系,默认为True,参数data_dir表示数据所在的目录,默认为"./ResumeNER"。
4. `assert split in ['train', 'dev', 'test']`:断言split参数的取值必须是train、dev或test中的一个。
5. `word_lists = []`:初始化一个空列表用于存储词列表。
6. `tag_lists = []`:初始化一个空列表用于存储标记列表。
7. `with open(join(data_dir, split + ".char.bmes"), 'r', encoding='utf-8') as f:`:以utf-8编码打开数据文件,文件路径为data_dir目录下的split.char.bmes文件,with语句保证文件使用后自动关闭。
8. `word_list = []`:初始化一个空列表用于存储当前行的词列表。
9. `tag_list = []`:初始化一个空列表用于存储当前行的标记列表。
10. `for line in f:`:遍历文件中的每一行。
11. `if line != '\n':`:如果当前行不为空行。
12. `word, tag = line.strip('\n').split()`:将当前行按空格分隔,并去掉行末的换行符,赋值给word和tag变量。
13. `word_list.append(word)`:将word添加到当前行的词列表中。
14. `tag_list.append(tag)`:将tag添加到当前行的标记列表中。
15. `else:`:如果当前行为空行。
16. `word_lists.append(word_list)`:将当前行的词列表添加到总的词列表中。
17. `tag_lists.append(tag_list)`:将当前行的标记列表添加到总的标记列表中。
18. `word_list = []`:重置当前行的词列表为空列表。
19. `tag_list = []`:重置当前行的标记列表为空列表。
20. `if make_vocab:`:如果make_vocab参数为True。
21. `word2id = build_map(word_lists)`:调用build_map函数,将词列表作为参数,返回词和id的映射关系。
22. `tag2id = build_map(tag_lists)`:调用build_map函数,将标记列表作为参数,返回标记和id的映射关系。
23. `return word_lists, tag_lists, word2id, tag2id`:返回词列表、标记列表以及词和标记的映射关系。
24. `else:`:如果make_vocab参数为False。
25. `return word_lists, tag_lists`:返回词列表和标记列表。
26. `def build_map(lists):`:定义了一个名为build_map的函数,用于构建列表中元素和id的映射关系。参数lists表示待处理的列表。
27. `maps = {}`:初始化一个空字典,用于存储元素和id的映射关系。
28. `for list_ in lists:`:遍历待处理的列表。
29. `for e in list_:`:遍历列表中的每个元素。
30. `if e not in maps:`:如果当前元素不在映射关系中。
31. `maps[e] = len(maps)`:将当前元素和其对应的id(即映射关系中的元素个数)添加到映射关系中。
32. `return maps`:返回映射关系。
阅读全文