对去停用词的文档进行词频统计,即统计每个词出现的次数。对词频出现次数较高的词汇放入特征词典中,31个类的特征词都放到一个文档里。
时间: 2024-05-03 17:20:29 浏览: 90
好的,我了解了您的问题。对于您的要求,我们可以使用Python中的nltk库来实现去停用词以及词频统计的功能。以下是实现代码:
```python
import nltk
from nltk.corpus import stopwords
from collections import Counter
# 读取文档
with open("doc.txt", "r", encoding="utf-8") as f:
doc = f.read()
# 去停用词
stop_words = set(stopwords.words('english'))
tokens = nltk.word_tokenize(doc.lower())
words = [word for word in tokens if word.isalpha() and word not in stop_words]
# 统计词频
freq_dist = Counter(words)
# 按词频降序排序
sorted_freq = sorted(freq_dist.items(), key=lambda x: x[1], reverse=True)
# 取前n个出现频率最高的词汇作为特征词
n = 100
feature_words = [x[0] for x in sorted_freq[:n]]
# 将特征词写入文件
with open("feature_words.txt", "w", encoding="utf-8") as f:
f.write(" ".join(feature_words))
```
以上代码会将您提供的文档中的单词进行去停用词处理,并统计每个单词出现的次数。然后,将出现频率最高的前n个单词作为特征词,并将它们写入到一个文件中。
阅读全文