使用Python统计英文文档中的单词个数
时间: 2024-01-29 08:02:25 浏览: 75
基于Python实现的一个命令行文本计数统计程序,可统计纯英文txt文本中的字符数,单词数,句子数,Python文件行数
可以使用Python中的`collections`模块和正则表达式来统计英文文档中的单词个数。可以按照以下步骤操作:
1. 读取英文文档,将文档内容存储到一个字符串变量中。
2. 使用正则表达式分割字符串,提取出所有的单词。
3. 使用`collections.Counter`对象统计单词出现的次数。
4. 输出单词计数结果。
以下是一个示例代码:
```python
import re
from collections import Counter
# 读取英文文档
with open("english_doc.txt", "r") as f:
content = f.read()
# 使用正则表达式分割字符串,提取出所有的单词
words = re.findall(r'\b\w+\b', content)
# 使用collections.Counter对象统计单词出现的次数
word_count = Counter(words)
# 输出单词计数结果
for word, count in word_count.most_common():
print(f"{word}: {count}")
```
注意,此处使用了`\b`来匹配单词的边界,`\w`来匹配单词中的字符。在实际应用中,可能需要根据具体情况进行调整。
阅读全文