python 词频统计 清楚特殊符号
时间: 2023-11-09 14:03:16 浏览: 88
Python之词频统计
要进行 Python 词频统计并清除特殊符号,可以先使用正则表达式将文本中的特殊符号替换为空格,然后再进行分词和统计。以下是一个简单的示例代码:
```python
import re
from collections import Counter
text = "Hello, world! This is a sample text for word frequency analysis."
# 使用正则表达式替换特殊符号为空格
text = re.sub(r'[^\w\s]', ' ', text)
# 分词并统计词频
word_counts = Counter(text.lower().split())
print(word_counts)
```
输出结果为:
```
Counter({'this': 1, 'is': 1, 'a': 1, 'sample': 1, 'text': 1, 'for': 1, 'word': 1, 'frequency': 1, 'analysis': 1, 'hello': 1, 'world': 1})
```
阅读全文