利用Jieba对CDIAL-BIAS-race文件进行分词,并抽取词表。
时间: 2024-03-24 12:36:05 浏览: 61
Jieba分词工具的使用
好的,以下是利用Jieba对CDIAL-BIAS-race文件进行分词,并抽取词表的示例代码:
```python
import jieba
from collections import Counter
# 读取文件内容
with open('CDIAL-BIAS-race.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 使用Jieba分词
seg_list = jieba.cut(content)
# 统计词频
word_counts = Counter(seg_list)
# 抽取词表
word_list = []
for word, count in word_counts.items():
# 过滤掉单个字和数字
if len(word) == 1 or word.isdigit():
continue
word_list.append((word, count))
# 按照词频排序
word_list.sort(key=lambda x: x[1], reverse=True)
# 输出前20个词语
for word, count in word_list[:20]:
print(word, count)
```
以上代码使用Jieba对CDIAL-BIAS-race文件进行分词,并统计每个词语出现的次数。然后从词频表中抽取出所有的词语,并按照词频进行降序排序,得到词表。最后输出词频最高的前20个词语。
阅读全文