python上市公司年报词频统计
时间: 2023-12-08 22:39:30 浏览: 322
Python中可以使用`collections`模块中的`Counter`类来进行词频统计。首先需要对年报文本进行预处理,包括去除标点符号、停用词等,然后使用`split()`方法将文本分割成单词列表,最后使用`Counter`类统计词频。
以下是一个简单的示例:
1. 导入所需库:
```python
import re
from collections import Counter
```
2. 定义一个函数来处理文本:
```python
def preprocess_text(text):
# 去除标点符号
text = re.sub(r'[^\w\s]', '', text)
# 转换为小写
text = text.lower()
return text
```
3. 读取年报文本并进行预处理:
```python
with open('annual_report.txt', 'r', encoding='utf-8') as f:
content = f.read()
content = preprocess_text(content)
```
4. 将文本分割成单词列表并统计词频:
```python
words = content.split()
word_count = Counter(words)
```
5. 输出词频统计结果:
```python
for word, count in word_count.items():
print(f"{word}: {count}")
```
这样就可以得到年报中各个词的词频统计结果。注意,这个示例仅适用于简单的文本处理,实际应用中可能需要根据具体需求对文本进行更复杂的预处理。
阅读全文