如何用Python编写代码来统计年报文档中特定词汇的出现频率?
时间: 2024-10-09 07:15:48 浏览: 41
在Python中,你可以使用nltk库(自然语言工具包)或者更现代的spaCy库来统计年报文档中特定词汇的出现频率。这里是一个简单的例子,我们将使用nltk库:
```python
import nltk
from nltk.corpus import stopwords
from collections import Counter
# 假设你有一个名为file.txt的年报文档内容
with open('file.txt', 'r') as file:
text = file.read().lower() # 将文本转换为小写,便于统一比较
# 分词
tokens = nltk.word_tokenize(text)
# 移除停用词,如"的", "是", "在"等常用词,不影响频率计算
stop_words = set(stopwords.words('chinese'))
filtered_tokens = [token for token in tokens if token not in stop_words]
# 使用Counter计算词频
word_freq = Counter(filtered_tokens)
# 统计指定词汇(例如'营收')
target_word = '营收'
if target_word in word_freq:
print(f"'{target_word}'的出现次数: {word_freq[target_word]}")
else:
print(f"'{target_word}'未在文档中找到")
# 获取所有词汇及其频率
print("\n所有单词及其频率:")
for word, freq in word_freq.most_common():
print(f"{word}: {freq}")
阅读全文