5.编写个自定函数,当给出一段英文文本时,函数会自动输出文本中各单词出现的频率字典
时间: 2024-10-11 21:07:52 浏览: 47
创建一个统计英文文本单词频率的函数通常涉及以下几个步骤:
1. **分割文本**:首先,我们需要将输入的英文字符串按照空格或其他分词符拆分成单词列表。
2. **去除停用词和标点**:通常我们会移除一些常见的无实际意义的词汇(如“the”,“and”等)以及标点符号,只保留字母字符。
3. **计数频率**:遍历单词列表,对于每个单词,在字典中(可以使用Python的collections模块中的Counter)增加其计数。
4. **返回频率字典**:最终,函数返回包含单词及其出现次数的字典。
这里是用Python编写的一个简单示例:
```python
from collections import Counter
def word_frequency(text):
# 分割文本为单词列表,忽略标点和特殊字符
words = ''.join(e for e in text if e.isalnum()).lower().split()
# 移除停用词,这里仅示例,实际应用需要一个完整的停用词列表
stop_words = ['the', 'and', 'is'] # 更多停用词...
words = [word for word in words if word not in stop_words]
# 计算每个单词的频率
frequency_dict = Counter(words)
return frequency_dict
# 测试函数
text = "This is a sample sentence to test the word frequency function."
print(word_frequency(text))
```
阅读全文