使用re对英文词频分析
时间: 2024-03-24 13:41:32 浏览: 56
英文词频分析
使用Python的`re`模块可以对英文文本进行更加灵活的处理,包括去除标点符号、停用词等等。下面是一个使用`re`模块进行英文词频分析的示例代码:
```python
import re
from collections import Counter
# 读取文本文件
with open('text.txt', 'r') as file:
text = file.read()
# 将文本转换为小写并去除标点符号
text = re.sub(r'[^\w\s]', '', text.lower())
# 分词并统计词频
words = text.split()
word_count = Counter(words)
# 输出前 10 个出现频率最高的词
print(word_count.most_common(10))
```
上述代码将文本文件中的所有单词转换为小写,并去除了标点符号。然后使用`split()`方法将文本分词,并使用`Counter`类来统计每个单词出现的次数。最后输出出现频率最高的前10个单词。
需要注意的是,这种方法无法处理一些特殊情况,比如缩写词、连字符等,因此在实际应用中需要根据具体情况进行适当的修改。
阅读全文